何匯江
(中原工學(xué)院,河南 鄭州 450007)
隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,人類社會正進入一個新時代,即大數(shù)據(jù)時代。正如哈佛大學(xué)社會學(xué)教授加里·金所說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進程。”[1]大數(shù)據(jù)是一場革命,而大數(shù)據(jù)之所以是一場社會革命,是因為它使用了新的工具來收集更加廣泛的資料,而新工具在本質(zhì)上是一種數(shù)據(jù)收集方法和分析方法。
社會研究方法是借助于收集到的資料對社會現(xiàn)象進行研究的一種方法,由于大數(shù)據(jù)對資料收集以及分析方法的影響,大數(shù)據(jù)也必然會對社會研究方法產(chǎn)生影響。社會研究方法雖然有定性研究與定量研究兩種取向,但是一直以來基于實證主義方法論的定量研究始終占據(jù)主導(dǎo)地位,社會研究方法更加強調(diào)定量研究。在定量社會研究方法中,涉及定量資料的收集和分析,因而大數(shù)據(jù)在社會研究方法中的應(yīng)用也主要體現(xiàn)在數(shù)據(jù)資料的收集和分析環(huán)節(jié)。
大數(shù)據(jù)時代已經(jīng)來臨,相關(guān)文獻對于大數(shù)據(jù)背景下定量社會研究方法創(chuàng)新的研究可以從以下兩個層面來概括。其一,認為大數(shù)據(jù)會從根本上改變傳統(tǒng)社會研究方法的范式,導(dǎo)致社會研究范式從傳統(tǒng)定量社會研究的“理論假設(shè)驅(qū)動”模式走向大數(shù)據(jù)的“數(shù)據(jù)驅(qū)動”模式,進入到以數(shù)據(jù)挖掘為核心方法的研究范式[2],大數(shù)據(jù)背景下社會科學(xué)研究數(shù)據(jù)驅(qū)動型學(xué)術(shù)研究將成為社會科學(xué)研究的主流[3],大數(shù)據(jù)計算取代社會模擬成為計算社會科學(xué)的核心議題[4]。大數(shù)據(jù)對傳統(tǒng)社會研究方法的沖擊是根本性的,定量社會研究方法的范式需要重構(gòu)與再造。其二,認為大數(shù)據(jù)只是改變了數(shù)據(jù)資料收集和分析的方法,大數(shù)據(jù)是社會科學(xué)研究的新工具[5],大數(shù)據(jù)并不能從根本上改變傳統(tǒng)社會研究方法的范式,大數(shù)據(jù)背景下定量社會研究方法的創(chuàng)新也是整個研究過程中的階段性創(chuàng)新。具體表現(xiàn)在兩個方面:一方面是大數(shù)據(jù)對抽樣方法進而對獲得樣本的影響上。大數(shù)據(jù)背景下抽樣調(diào)查面臨嚴(yán)峻挑戰(zhàn)[6],但大數(shù)據(jù)無法完全替代抽樣調(diào)查[7]。另一個方面是分析大數(shù)據(jù)在社會研究方法數(shù)據(jù)收集和分析階段應(yīng)用中的優(yōu)勢和局限性。大數(shù)據(jù)特征與社會科學(xué)研究密切相關(guān)[8],大數(shù)據(jù)有可“計算”的邊界,因而大數(shù)據(jù)計算所得出的結(jié)論并不一定是絕對客觀的真理,可能還需要通過傳統(tǒng)社會研究方法加以補充和驗證[9],因此大數(shù)據(jù)需要與傳統(tǒng)社會研究方法的小數(shù)據(jù)方法相結(jié)合[10]。
綜合以上相關(guān)研究成果,可以認為,由于存在“大數(shù)據(jù)可獲得性”障礙以及大數(shù)據(jù)統(tǒng)計分析“技術(shù)的易用性”缺乏,目前階段大數(shù)據(jù)并不能從根本上改變傳統(tǒng)定量社會研究方法的范式,而只是對數(shù)據(jù)資料的收集方法和分析方法進行創(chuàng)新。針對以往研究較為缺乏有針對性的大數(shù)據(jù)背景下定量社會研究方法創(chuàng)新的系統(tǒng)論述,本文立足傳統(tǒng)社會研究方法的范式進行相應(yīng)的補充與完善。
最早提出“大數(shù)據(jù)”概念的管理咨詢公司麥肯錫認為:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。”[11]大數(shù)據(jù)是指數(shù)據(jù)量非常大,大數(shù)據(jù)就是海量的數(shù)據(jù)。2012年以后,大數(shù)據(jù)越來越多地滲透到人們的工作和生活中,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),以及與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。
大數(shù)據(jù)不僅是相對于小數(shù)據(jù)而言的,而且是具有特定含義的新概念。大數(shù)據(jù)最重要的特征無疑體現(xiàn)在“大”上,大數(shù)據(jù)具有的顯著特征是它的規(guī)模性。從數(shù)據(jù)的量上來看,可以說它是巨量的、海量的數(shù)據(jù),是傳統(tǒng)手段無法獲得的巨大的數(shù)據(jù)。隨著互聯(lián)網(wǎng)和存儲技術(shù)的發(fā)展,數(shù)據(jù)規(guī)模從BT擴大到ZB,數(shù)據(jù)的存量和增量越來越大,與此同時對數(shù)據(jù)的處理能力也不斷提高。互聯(lián)網(wǎng)時代,個人用戶不僅通過網(wǎng)絡(luò)獲取信息,而且個人用戶還是信息的制造者與傳播者。眾多的用戶通過網(wǎng)絡(luò)聯(lián)結(jié)成為一個整體,不僅使得數(shù)據(jù)總量呈現(xiàn)爆炸式增長,而且使得數(shù)據(jù)種類變得異常多樣。大數(shù)據(jù)除了包含簡單的文本信息,還包含了傳感器數(shù)據(jù)、音頻、視頻、日志文件、點擊流量等其他類別的信息,這都體現(xiàn)了大數(shù)據(jù)“大”的特征。大數(shù)據(jù)是對全世界每一個人每時每刻所做的每一件事的即時記錄。如果全世界每一個人的生命全過程和每天24小時的所作所為都被以圖像、文字、視頻或者音頻的方式記錄下來并且匯總到計算機上,那么現(xiàn)有的數(shù)量詞就已經(jīng)無法描述其量之大,就需要創(chuàng)造新的量詞來表示了,這個新的量詞就是所謂的“大數(shù)據(jù)”。
社會研究方法是一門方法類學(xué)科,在定量社會研究過程中,包括數(shù)據(jù)資料的收集、整理、分析等不同環(huán)節(jié),這與大數(shù)據(jù)都密切相關(guān)。另外,異常龐大的數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù)形式也給大數(shù)據(jù)的整理和分析帶來了困難,給統(tǒng)計分析提出了新的要求。
其一,社會環(huán)境的大背景發(fā)生了變化。大數(shù)據(jù)的發(fā)展以及它們對人們生活的不斷滲透,使得大數(shù)據(jù)的挖掘和統(tǒng)計分析成為可能。大數(shù)據(jù)對原有的以抽樣、問卷以及統(tǒng)計分析為基礎(chǔ)的定量社會研究方法產(chǎn)生了影響,并且在社會研究的領(lǐng)域中,特別是在公共政策以及公共管理領(lǐng)域中,一些社會研究者正越來越多地利用互聯(lián)網(wǎng)產(chǎn)生的大數(shù)據(jù)來研究選舉、民意等社會問題,這樣的社會背景是促使社會研究方法創(chuàng)新的環(huán)境條件。
其二,傳統(tǒng)的社會研究方法體系需要大數(shù)據(jù)方法加以補充和完善。傳統(tǒng)的社會研究方法是基于大數(shù)據(jù)時代之前的社會研究方法的理論和實踐建立起來的,進入大數(shù)據(jù)時代以后的很多新方法沒有引入到社會研究方法中來,使得社會研究方法體系較為陳舊,因此需要對社會研究方法加以改進。大數(shù)據(jù)對定量社會研究方法提出了新的要求,社會研究方法要對新的要求加以回應(yīng)。
傳統(tǒng)社會研究方法以資料收集為基礎(chǔ),運用問卷調(diào)查以及個案訪談等形式收集資料,這是基于研究目的對研究對象資料的收集,是根據(jù)研究需要“制造”數(shù)據(jù),其與數(shù)據(jù)的關(guān)系體現(xiàn)了研究者的主動性,獲得的是小數(shù)據(jù)資料。
大數(shù)據(jù)本身就是一種數(shù)據(jù)資料,是一種不再需要研究者收集的現(xiàn)存資料,因此研究者需要做的工作不再是收集新的資料,而是要對已有的大數(shù)據(jù)資料進行選擇、清理和分析。大數(shù)據(jù)是先有資料,但是這些資料并不是根據(jù)研究目的而收集的,因此有很多無用的資料,這就需要進一步選擇,選取有用的資料。同時由于大數(shù)據(jù)資料并不是依據(jù)某個研究目的而收集的資料,因此大數(shù)據(jù)資料也面臨效度問題,即大數(shù)據(jù)資料能否準(zhǔn)確地描述研究的概念與變量的問題。依靠大數(shù)據(jù)進行研究只能被動地分析這些已經(jīng)收集到的資料、客觀發(fā)生了的行為信息,社會研究只能是對數(shù)據(jù)資料的適應(yīng),類似于二次分析的研究過程。可以認為,大數(shù)據(jù)進一步豐富了定量社會研究中資料收集的方法。
傳統(tǒng)社會研究方法通過樣本實現(xiàn)對總體的認識。抽樣作為人們從部分認識總體的關(guān)鍵環(huán)節(jié),其基本作用是提供一種實現(xiàn)“由部分認識總體”的途徑。傳統(tǒng)社會研究方法中,尤其調(diào)查研究的方法存在一些自身無法克服的困境,比如抽樣過程中隨機性無法得到充分保證、資料源于自我報告的方式等問題,不僅導(dǎo)致獲得的樣本不能完全充分地代表總體,而且由于調(diào)查對象“說的”和“做的”可能不一致導(dǎo)致資料的真實性存在疑問,都會使得社會研究的信度降低。
大數(shù)據(jù)正好可以彌補傳統(tǒng)社會研究方法的這些不足。大數(shù)據(jù)一個方面的優(yōu)勢就是不必擔(dān)心數(shù)據(jù)資料的代表性問題。大數(shù)據(jù)是有關(guān)研究總體的資料而不是樣本的資料,不會因為樣本的代表性問題而產(chǎn)生抽樣誤差。通過大數(shù)據(jù)得出的結(jié)論直接是關(guān)于研究總體的結(jié)論,不需要再進行統(tǒng)計推論,因此,大數(shù)據(jù)資料具有更高的可信度。而另一個方面,大數(shù)據(jù)記錄的是研究對象已經(jīng)發(fā)生了的實際行為,不存在由于調(diào)查對象“說的”和“做的”不一致導(dǎo)致的資料不真實問題,可以確保資料的真實可靠。大數(shù)據(jù)超越“樣本—總體”的認識途徑直接認識“總體”的優(yōu)勢在于消除了抽樣誤差,提高了研究的精確性。
傳統(tǒng)社會研究方法在研究題材上有主觀的觀念和客觀的行為,主客觀兩個方面雖然包含的范圍廣,但是能夠作為研究的內(nèi)容有限,研究題材的收集不僅受到個人隱私的屏蔽,還會受到社會倫理道德的限制,有些資料難以獲得。相比傳統(tǒng)的社會研究方法,大數(shù)據(jù)可以比較完整地記錄個人的網(wǎng)上行為。大數(shù)據(jù)是對個體生命的全記錄,包括了個人工作、生活的方方面面,只要運用了互聯(lián)網(wǎng)就會留下痕跡記錄,個人每天的生命全過程都會被記錄下來,形成個人“全生命”大數(shù)據(jù)資料。
大數(shù)據(jù)的優(yōu)勢不僅在于記錄個人行為,而且還可以描述個人主觀的觀念。大數(shù)據(jù)通過全面記錄個人的行為痕跡,比如生理活動及其變化等,來感知個人的心理,并可以進一步推測個人的主觀觀念。大數(shù)據(jù)對個人行為的記錄不僅可以用來描述現(xiàn)狀,而且還可以用來預(yù)測未來。傳統(tǒng)社會研究方法對未來的預(yù)測是基于主觀“觀念”,而大數(shù)據(jù)對未來的預(yù)測則是基于以往的客觀“行為”。與個人的主觀觀念相比,基于個人客觀行為習(xí)慣的預(yù)測更加準(zhǔn)確。
傳統(tǒng)社會研究方法在定量分析的過程中,先收集資料,然后再分析資料,資料的收集和分析可以分為先后不同的兩個階段。而大數(shù)據(jù)既可以作為一種資料收集的方法,又可以作為一種資料分析的方法,大數(shù)據(jù)可以將數(shù)據(jù)資料的收集和分析過程整合起來,形成一個綜合性的環(huán)節(jié),實現(xiàn)“大數(shù)據(jù)方法”的融合。大數(shù)據(jù)是已經(jīng)記錄并可以隨時調(diào)用的資料,并且可以根據(jù)需要自動生成統(tǒng)計結(jié)果。大數(shù)據(jù)不再需要進行收集,只要進行數(shù)據(jù)的篩選、整理就可以進行分析了。大數(shù)據(jù)資料的分析不用再借助于專門的統(tǒng)計分析軟件,而是直接通過大數(shù)據(jù)平臺就可以得出大數(shù)據(jù)分析的結(jié)果。而借助于大數(shù)據(jù)平臺提供直接的結(jié)果,這也同時整合了數(shù)據(jù)收集和數(shù)據(jù)分析兩個階段。
大數(shù)據(jù)收集的是總體的資料,但是收集到資料的總體不一定是研究總體。因為大數(shù)據(jù)資料的收集借助于網(wǎng)絡(luò),因而資料總體往往是全體網(wǎng)民,這就與研究總體存在偏差。其一,網(wǎng)民并不能代表全部人口,因為并非所有的人都上網(wǎng),大數(shù)據(jù)收集資料的總體就沒有包括不在互聯(lián)網(wǎng)上留下痕跡的部分人口,主要是老人和孩子,也包括一些不上網(wǎng)的部分成年人。其二,即使大數(shù)據(jù)收集資料的總體包括了全部的研究對象,但是由于這個總體與研究總體并不完全重合,它還包括了研究總體以外的一些人口,因此大數(shù)據(jù)資料收集的總體也不是研究總體,這一總體的代表性就存在偏差。
雖然大數(shù)據(jù)已經(jīng)滲透到了生活的方方面面,有關(guān)大數(shù)據(jù)研究的結(jié)果也并不少見,但是作為一個研究者要對原始的大數(shù)據(jù)資料進行研究并不容易,因為大數(shù)據(jù)資料并不是很容易獲得的,當(dāng)前“大數(shù)據(jù)可獲得性”缺失阻礙了大數(shù)據(jù)在社會研究中的應(yīng)用,研究者往往缺乏獲得大數(shù)據(jù)的途徑。
通常認為,大數(shù)據(jù)是公開的、透明的,有些情況下也確實如此,例如一些政府網(wǎng)站為了提高信息透明度而公布的數(shù)據(jù),然而在很多其他方面,大數(shù)據(jù)資料并不是公開的,也不容易獲得。因為大數(shù)據(jù)不僅涉及個人隱私問題,而且還涉及倫理道德問題,研究者甚至根本無法得到這些涉及商業(yè)或政府行為的數(shù)據(jù),即便是某個研究者通過個人渠道獲取了此類大數(shù)據(jù),也只能用于個人研究,不能公開,更無法共享。而無法共享的大數(shù)據(jù)不能被驗證,就不具有研究的可行性。而且,研究者如果只能依靠政府公布的大數(shù)據(jù)來尋找研究題目,則無法根據(jù)自己的研究興趣和特長選擇研究課題,這對于把大數(shù)據(jù)作為一種數(shù)據(jù)資料的社會研究來說,就限制了社會研究題目的范圍。
大數(shù)據(jù)的數(shù)量雖然巨大,但是有價值的、可以被研究者利用的數(shù)據(jù)可能并不多,與傳統(tǒng)社會研究方法通過抽樣獲取的數(shù)據(jù)相比,大數(shù)據(jù)的價值就顯得相對較低了。要把大數(shù)據(jù)應(yīng)用到社會研究方法中,必須要對大數(shù)據(jù)進行選擇、整理,這就增大了大數(shù)據(jù)利用的難度。因此從這個意義上說,大數(shù)據(jù)資料使得數(shù)據(jù)的選擇和整理工作變得更加復(fù)雜。而且大數(shù)據(jù)的非結(jié)構(gòu)化特征使其在社會研究中的應(yīng)用較為困難。大數(shù)據(jù)中的絕大部分都屬于非結(jié)構(gòu)化數(shù)據(jù),其中最重要的是文本數(shù)據(jù),對其處理必須借助人工智能技術(shù),而不能使用傳統(tǒng)的統(tǒng)計分析軟件。另外,商業(yè)領(lǐng)域的“水軍”“刷單”等現(xiàn)象,會導(dǎo)致大數(shù)據(jù)中虛假數(shù)據(jù)的產(chǎn)生,影響大數(shù)據(jù)分析的結(jié)果。
大數(shù)據(jù)不是一種新的社會研究方法,因此無法取代傳統(tǒng)的社會研究方法。如果把大數(shù)據(jù)看作是一種新的數(shù)據(jù)資料收集和分析方法,則大數(shù)據(jù)背景下定量社會研究方法的創(chuàng)新就是數(shù)據(jù)資料收集方法和分析方法的創(chuàng)新。大數(shù)據(jù)可以起到對定量社會研究方法補充和完善的作用。
大數(shù)據(jù)與定量社會研究方法之間相互促進。大數(shù)據(jù)的發(fā)展不僅不能取代傳統(tǒng)的定量社會研究方法,而且大數(shù)據(jù)需要借助于傳統(tǒng)的社會研究方法才可能有進一步的發(fā)展。大數(shù)據(jù)可以描述個人行為及其發(fā)展變化,卻無法解釋行為發(fā)生的原因,這些內(nèi)容的研究中必須借助調(diào)查研究和實驗研究等手段,也就是傳統(tǒng)社會研究方法,而調(diào)查研究和實驗研究則可以借助于大數(shù)據(jù)所發(fā)現(xiàn)的關(guān)鍵詞、不同變量之間的聯(lián)系等更有針對性地設(shè)計問卷和實驗條件,對大數(shù)據(jù)資料進行更加深入的研究。
大數(shù)據(jù)數(shù)量之大超出一般統(tǒng)計軟件所能處理的范圍,而且解釋變量的增加會導(dǎo)致高維數(shù)據(jù)中的“維數(shù)災(zāi)難”,這些問題不是一般統(tǒng)計軟件能夠處理的。[12]傳統(tǒng)的統(tǒng)計分析軟件無法對其進行統(tǒng)計分析,因此需要進一步發(fā)展大數(shù)據(jù)的統(tǒng)計分析方法。大數(shù)據(jù)統(tǒng)計分析方法包括統(tǒng)計分析的技術(shù)和運用這些技術(shù)的統(tǒng)計分析軟件。雖然對于大數(shù)據(jù)的統(tǒng)計分析可以運用小數(shù)據(jù)的統(tǒng)計分析技術(shù),但是不能運用小數(shù)據(jù)的統(tǒng)計分析軟件對大數(shù)據(jù)進行統(tǒng)計分析。
大數(shù)據(jù)的意義不僅在于龐大的數(shù)據(jù)信息,還在于對于這些含有一定意義的數(shù)據(jù)進行專業(yè)化的分析處理。如果把大數(shù)據(jù)看作是一個產(chǎn)業(yè)的話,那么大數(shù)據(jù)利用的關(guān)鍵在于提高對數(shù)據(jù)進行“加工處理能力”,從而實現(xiàn)數(shù)據(jù)價值的“增值”,對大數(shù)據(jù)進行社會研究也是實現(xiàn)大數(shù)據(jù)增值的一個途徑。大數(shù)據(jù)需要特殊的處理技術(shù),大數(shù)據(jù)與云計算密不可分,大數(shù)據(jù)無法運用單臺的計算機進行處理,必須依賴云計算的分布式數(shù)據(jù)挖掘。大數(shù)據(jù)統(tǒng)計分析要在數(shù)據(jù)挖掘、數(shù)據(jù)選擇以及數(shù)據(jù)清理的基礎(chǔ)上實現(xiàn)對數(shù)據(jù)的統(tǒng)計分析。盡管目前已經(jīng)有了一些專門針對大數(shù)據(jù)的統(tǒng)計分析軟件,比如,Node XL,Gephi,DMI Issue Crawler等,但是這些數(shù)據(jù)分析軟件主要用在商業(yè)領(lǐng)域,基于學(xué)術(shù)研究的數(shù)據(jù)分析工具還仍處于發(fā)展的初期階段。[13但是隨著大數(shù)據(jù)在社會研究中的應(yīng)用越來越廣泛,開發(fā)大數(shù)據(jù)統(tǒng)計分析軟件也成為當(dāng)務(wù)之急,這有助于促進大數(shù)據(jù)統(tǒng)計分析方法的發(fā)展。
大數(shù)據(jù)背景下,一方面政府以及互聯(lián)網(wǎng)企業(yè)有著巨量的數(shù)據(jù)資料,另一方面社會研究者又無法獲得這些巨量的數(shù)據(jù)資料進行相關(guān)的研究。研究者缺乏研究的大數(shù)據(jù)資料,同時大數(shù)據(jù)資料沒有成為研究資源而造成了大量的浪費。因此基于這種狀況,有必要建立大數(shù)據(jù)運用、研究的協(xié)調(diào)機制,把大數(shù)據(jù)擁有者和使用者聯(lián)系起來,同時為兩者服務(wù)。
建立大數(shù)據(jù)運用的協(xié)調(diào)機制,就需要為社會研究大數(shù)據(jù)資料的獲得提供一條可行的途徑。通過設(shè)立相關(guān)的協(xié)調(diào)機構(gòu),在社會研究者需要相關(guān)大數(shù)據(jù)時,可以提供聯(lián)系的途徑,為大數(shù)據(jù)的獲得提供幫助。一方面,社會研究也是大數(shù)據(jù)利用的一種方式,可以實現(xiàn)大數(shù)據(jù)的價值增值,這對于大數(shù)據(jù)的擁有者來說也是有利的;另一方面,在開放、利用大數(shù)據(jù)資料的同時,要規(guī)范大數(shù)據(jù)使用的程序和方法,避免大數(shù)據(jù)運用導(dǎo)致泄露個人隱私問題,以及違背社會研究的倫理道德問題。大數(shù)據(jù)不能得到有效運用是一種資源的浪費,但是過度使用、不加規(guī)則的任意使用又會帶來負面影響,所以必須提前做好防范。在建立大數(shù)據(jù)運用、研究的協(xié)調(diào)機制的同時,要對大數(shù)據(jù)的運用進行約束,為更好地運用大數(shù)據(jù)提供保障。