大數據方法研究:超越與回歸

社會學質性研究方法和量化分析方法分別源於兩種不同傳統,演變為方法論的分離和對立。大數據的興起或許會給解決這種“兩張皮”的現狀帶來機遇。從質性研究方法、傳統量化分析方法到大數據方法,研究工具的變化某種程度上見證瞭研究對象——社會本體的變遷。大數據研究促使質性研究和量化研究走向融合,社會學的科學性與人文性也獲得瞭交匯的途徑,大數據方法是對既有研究方法的超越,也蘊含著社會學想象力的回歸。

  社會學研究一向有定量、質性之爭,這兩種源於不同范式傳統的方法之爭,近些年似乎有分出高下的意味來。定量占據主流及有意識地搶占主流位置,質性研究方法在各方面似乎都顯現出弱勢。如何看待不同的研究方法取向,尤其是能否理清社會學質性研究方法、傳統量化分析方法和正在興起的大數據方法之間的關系糾葛,對於未來研究當有借鑒。

大數據方法研究:超越與回歸

一、方法之爭及其范式起源

  討論不同方法的差異,有必要追溯學科發展的歷史起源及其傳統。社會學和人類學可以算是最相近的學科,就其早期形成的各自研究對象和領域而言,社會學研究工業社會、現代社會,人類學研究傳統社會、遊牧社會、“土著”社會。西方社會學的誕生與現代化、工業化的進展息息相關,社會學的創始人孔德一開始就將社會學置於以數學為基礎的自然科學大廈之最頂層,並將其命名為“社會物理學”(sociophysics),確立瞭實證主義、科學主義的方法導向。而西方人類學的興起深受達爾文進化論的影響,與當時航海探險、殖民擴張的熱潮分不開。早期人類學者主要由航海傢、旅行傢、傳教士、商人等構成,以“他者”身份對“遠方的”原始部落、少數民族的異質文化開展考察,逐漸形成瞭人文主義、自然主義的方法特色。

  科學主義范式的社會學自誕生起就以自然科學為樣板,借鑒和遵循近代自然科學認知原理和方法論原則,逐步形成瞭一整套成熟的量化分析研究方法。最具代表性的是建立在統計學意義上的問卷調查研究,包括理論假設、調查設計、資料收集、量表測量、信度效度檢驗、統計分析等環節,一般通過人為控制和區分自變量、因變量,運用回歸分析等統計學方法,確定相關性,判斷因果關系,建構數學模型。這一過程中,重要的步驟之一是概念的操作化,也就是根據研究需要把概念變為一套可測量的、能夠用數字表述的信息。譬如用五分制量表測量人們的滿意度;將幸福感分解為主觀指標和客觀指標進行測量,以建構“幸福指數”。

  隨著大數據時代的到來,為區分起見,也有人把這種大多來源於抽樣調查、訪談、行政記錄和實驗設計等傳統統計方法的數據稱為“小數據”,把傳統的量化分析方法稱為“小數據”方法。一般來說“小數據”體積小、易於快速理解、數據的讀取分析和處理都相對簡單。而大數據指“無法在可容忍的時間內用傳統IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合”。數據科學傢將大數據的特點總結為4個V:Volume、Variety、Velocity、Value,即體量浩大、模態繁多、生成快速、價值巨大但密度很低。具體到量級,大數據的量級已從GB到TB再到PB級,甚至開始以EB和ZB來計數。

  質性研究方法包括參與觀察、個案研究、深度訪談、焦點小組法、民族志(人種志)方法、紮根理論、敘事研究、行動研究等一整套方法體系。質性研究方法從起源上可以追溯到15、16世紀的人類學研究,但作為一種系統的方法體系得到歸納總結,是直到20世紀70年代的事情。到20世紀初,社會工作領域興起的個案小組實務中,質性研究方法的應用被拓展到心理學、教育學領域;20世紀中葉,西方社會科學領域開始湧現各種“後現代”理論和思潮。社會學理論也從邏輯實證主義轉向闡釋和批判主義,社會學領域出現對量化研究的“反抗”思潮,這些思潮也影響、促成瞭質性研究方法的成熟。

  雖然量化研究方法源自西方的科學主義范式,同樣也是西方思潮產物的質性研究方法卻可以在古老的東方思維中找到哲學基礎。中國古代的自然哲學是以“天人合一”的整體觀和“陰陽對立統一”的辯證觀為基點的。以中華文化為代表的東方文化思維方式著眼整體思維,註重辯證思維,擅長關聯思維,習慣類比思維,突出直覺思維。20世紀初社會學、人類學傳入中國,中國最早的社會學傢多從事人類學、民族學研究,如吳文藻、潘光旦等,早期社會學研究主要使用的方法之一也是基於人類學田野工作的質性研究方法。到1979年中國社會學恢復重建,在研究方法體系上則主要引進瞭美國的社會學量化分析方法,科學主義范式在中國社會學研究領域成為絕對主流。20世紀90年代中期,帶有西方“後現代”色彩的質性研究方法被介紹到中國,某種程度上與中國傳統文化思維方式內在契合,也喚起瞭中國早期社會學所形成的人文主義傳統。

  隨著我國社會學學科建設由恢復重建伊始的“拿來主義”到本土化中國化的探索越來越深入,源自不同傳統的質性研究方法和量化分析方法的分離和對立逐漸顯現且愈演愈烈。學界對兩種方法孰優孰劣以及“代表性”、“科學性”等問題莫衷一是。大數據時代的到來,為社會學研究打開瞭一扇新的窗戶,同時也為原本的方法之爭更添紛擾。有觀點認為,大數據可能引發一場社會科學革命,另有觀點則認為,大數據面臨著諸多挑戰。人們擔憂,大數據的出現有可能把質性方法和量化方法“兩張皮”進一步撕裂為“三張皮”。在此背景下,也有學者認為“方法主義是今日學界危機的根源”,呼籲“破除方法主義迷信”。

  應當看到,學術論爭、學派林立恰好是學科繁榮發展的表現,是學科走向成熟過程的必然。方法論爭源自“與生俱來”的不同研究傳統,面向未來也需要進一步探究其發展趨勢。

二、工具演進、機器依賴及對象變遷

  從時間序列看,人類學方法的形成要稍早於社會學。質性研究方法雖然直到20世紀70年代才形成普遍認同的方法體系,但其實際的社會學應用卻要早於傳統量化分析方法。大數據方法的出現,則是直到今天才剛剛開始。因此按照出現時間的早晚,可以粗略地把社會學研究方法的發展脈絡歸納為“質性研究方法—傳統量化分析方法—大數據方法”。可以看到,這是一個由“純人工”到“機器”參與介入研究越來越多的過程。

  具有鮮明人類學田野色彩的質性研究方法,強調參與、體驗、感悟、在場、情景,設身處地、將心比心,依賴於直覺、聯想、類比、領悟。要求置身於現實的社會群體生活空間,研究人們的社會活動及社會關系。其研究特點決定瞭質性研究方法主要是基於人工的個體勞動,很大程度上依靠人腦的直覺。即使發展到現在,口述史、影像志、深度訪談等引入瞭現代錄音錄像設備、計算機編輯處理工具,人的“參與”、“在場”仍然是質性方法的基本要求和靈魂。

  傳統量化分析方法一開始也是“全人工”收集人們特定的社會活動及社會關系的數據,並進行分析和處理的過程。早期問卷調查基本是純手工操作,隨著計算機和信息技術的發展,機器編碼識別、統計分析軟件把過去復雜的統計計算變得輕而易舉,傳統量化研究逐漸由以人工為主過渡到機器參與成分越來越多。但是,現代社會大型調查研究即使計算機全程參與,也必須以研究者主觀設計、人為主觀賦值編碼為前提。也就是說,傳統量化分析方法始終是以人工為主,機器處理作為輔助手段的研究方法。

  大數據方法則依托於人類“數字化生存”的時代背景。正是雲計算、雲存儲、物聯網、二維碼、傳感器、GPS等互聯網技術的廣泛應用,微信微博新媒體的大規模使用,以及手機網絡支付手段的更加便捷化,人類社會的各種社交網絡、人際互動、經濟活動都被客觀記錄下來,留下“數字痕跡”,形成海量的大數據。正是由於數據量大到無法由傳統軟硬件處理,且數據具有多樣化的結構特征,所以大數據的獲取不再是通過人工采集得來,而是由“機器爬梳”而來。大數據方法主要是通過機器學習,運用適當的算法,對數據自動進行學習,識別事物間的關聯性和規律。當然,數據爬梳、分析的背後也有“人”,但這裡的人已由臺前退居幕後,機器承擔瞭大量繁重的工作。

  從質性研究到傳統量化分析方法再到大數據方法,工具的變化某種程度上見證瞭研究對象——社會本體的變遷。從微觀層級的個體行動、人際互動,到宏大的社會系統或結構等,在不同的社會形態下有著不同的特征。質性研究源自“田野”的方法無疑帶有濃厚的傳統社會印記;傳統量化分析對應著的是現代社會,如果說這兩種方法主要研究現實社會,大數據方法則顯然是互聯網時代信息社會的產物。在網絡愈益發達的今天,人們在網絡上的行為與現實行為具有越來越多的同一性,網絡上的個人、群體間的互動與行為,以及網絡上的組織結構都已經影響到現實社會,對人們的生產方式、生活方式、行為方式的影響之大前所未有。譬如手機及其他即時交流工具成為個人與社會交流交往的基本中介橋梁,隨之帶來瞭社會關系的變化;人工智能改變瞭人類生產方式、生活方式,引發瞭職業分化的加速;物聯網、眾籌經濟正在促生新的社會價值觀;等等。這些都意味著傳統的社會關系、社會結構已經發生且仍在發生著深刻的變化。社會本體發生瞭改變,對於這些關系、行為、結構變化所形成的大數據進行研究,就具有現實重要性。從這一角度而言,大數據研究對於社會學的本體論意義大於方法論意義。

本文作者簡介:石英 陜西省社會科學院研究員

Published in News by Awesome.

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *