張琳
(河北省科技工程學(xué)校,河北 保定 071000)
(一)定義
維基百科對大數(shù)據(jù)給出的定義是:“大數(shù)據(jù)(Big Data 或MegaData)或巨量數(shù)據(jù)、海量數(shù)據(jù),指的是所涉及的數(shù)據(jù)量規(guī)模大到無法通過人工在合理時(shí)間內(nèi)達(dá)到截取、管理、處理并整理成為人類所能解讀的信息?!边@是從數(shù)量的級(jí)別 (PB或 ZB)來定義大數(shù)據(jù)的,主要講的是數(shù)據(jù)量巨大使得用常規(guī)的數(shù)據(jù)分析技術(shù)無法挖掘和處理。
(二)類型
傳統(tǒng)數(shù)據(jù)的類型以結(jié)構(gòu)化為主,這是基于明確的研究目標(biāo)而設(shè)置的標(biāo)準(zhǔn)化的數(shù)據(jù)收集規(guī)范。與此相對應(yīng),大數(shù)據(jù)的類型除了少量的結(jié)構(gòu)化數(shù)據(jù)之外,大量以非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,類型多樣的數(shù)據(jù)對數(shù)據(jù)處理能力提出了更高的要求。
(三)來源
傳統(tǒng)數(shù)據(jù)多數(shù)來源于抽樣調(diào)查或統(tǒng)計(jì)調(diào)查。而抽樣調(diào)查一般按照隨機(jī)原則,設(shè)計(jì)嚴(yán)格的抽樣程序來獲取樣本數(shù)據(jù)。國內(nèi)外學(xué)術(shù)界有影響的問卷調(diào)查數(shù)據(jù)多數(shù)采用多階段、多層次與人口或勞動(dòng)力規(guī)模成比例的概率抽樣方法 (PPS)以確定最終的抽樣單位,通常采用面訪的方式獲得樣本數(shù)據(jù);而大數(shù)據(jù)是基于現(xiàn)代科技手段,采取實(shí)時(shí)監(jiān)控、測量、存儲(chǔ)的方式及時(shí)獲得數(shù)據(jù)。例如,基于互聯(lián)網(wǎng)和現(xiàn)代智能技術(shù)所獲得的交通流量、醫(yī)療衛(wèi)生健康、氣象水文、環(huán)境變化、社交娛樂互動(dòng)、商業(yè)物流等方面的記錄,尤其是近年來基于互聯(lián)網(wǎng)的瀏覽、搜索引擎、上傳下載等行為產(chǎn)生的數(shù)據(jù),成為大數(shù)據(jù)的主要代表。
(四)時(shí)效性
傳統(tǒng)數(shù)據(jù)的收集和清理的時(shí)間較長、處理速度較慢、時(shí)效性不強(qiáng)。多數(shù)傳統(tǒng)數(shù)據(jù)是靜態(tài)的截面數(shù)據(jù),即使追蹤調(diào)查數(shù)據(jù) (Panel Data)也至多是兩三年以后對同一期群的事后回溯性訪問;大數(shù)據(jù)的處理速度快,時(shí)效性高。大數(shù)據(jù)可以及時(shí)更新、及時(shí)變化、及時(shí)追蹤。這是大數(shù)據(jù)挖掘區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘最顯著的一個(gè)特征。
在企業(yè)、政府和社會(huì)各界紛紛為大數(shù)據(jù)時(shí)代的到來而歡欣鼓舞之際,我們還更需要進(jìn)行更為深入的理性思考。我們認(rèn)為,在社會(huì)學(xué)方法論和研究方法上如何突破,仍然是亟待社會(huì)學(xué)家解決的首要問題。大數(shù)據(jù)挖掘技術(shù)和分析方法給社會(huì)學(xué)學(xué)科發(fā)展帶來難得的歷史機(jī)遇的同時(shí),也給社會(huì)學(xué)研究帶來了嚴(yán)峻的挑戰(zhàn)。
(一)樣本偏差問題與傳統(tǒng)的社會(huì)學(xué)定量分析相比,大數(shù)據(jù)的樣本從數(shù)量上更接近于總體,但是這個(gè)總體是有偏差的、有局限性的。中國有 7.72億網(wǎng)民,而中國總?cè)丝?13.9億,那么通過互聯(lián)網(wǎng)抓取個(gè)人信息的方式來獲得的大數(shù)據(jù)依然無法涵蓋6.18億非網(wǎng)民。在實(shí)際的研究中,研究者往往僅依靠一個(gè)或幾個(gè)門戶網(wǎng)站的后臺(tái)數(shù)據(jù)作為分析資料,那么這種大數(shù)據(jù)僅是使用該網(wǎng)站用戶的數(shù)據(jù),不能將分析結(jié)果推論到其他網(wǎng)民,更不能推論到全體國民。因此,社會(huì)學(xué)研究者應(yīng)該明白,大數(shù)據(jù)中的總體是有局限、有偏差的總體,其他難以通過大數(shù)據(jù)方法抓取的個(gè)體并未作為研究對象包含在總體中。因此,對于研究結(jié)論的推論也只能在有限總體的范圍內(nèi)才可能是有效的或可靠的;此外,互聯(lián)網(wǎng)網(wǎng)民的個(gè)人活躍度存在很大差異,其活動(dòng)或痕跡被抓取的概率也不同,因此互聯(lián)網(wǎng)大數(shù)據(jù)的形成既不是抽樣,也遠(yuǎn)非隨機(jī),而是具有極大的偶然性
(二)重要變量的缺失問題雖然一些網(wǎng)站的后臺(tái)數(shù)據(jù)也能提供網(wǎng)民的性別、年齡、職業(yè)、收入、家庭結(jié)構(gòu)、居住地、出生地等社會(huì)人口信息,但是這些自我填報(bào)沒有經(jīng)過實(shí)名認(rèn)證的信息存在著很大的水分甚至虛假成分?;ヂ?lián)網(wǎng)區(qū)別于現(xiàn)實(shí)世界的一個(gè)重要特征是其虛擬性。網(wǎng)絡(luò)世界網(wǎng)民身份具有不可靠性。作為社會(huì)學(xué)定量分析最關(guān)鍵的這些分類信息如果缺失或虛假的話,以此數(shù)據(jù)分析所得結(jié)論的可靠性就會(huì)大打折扣。
(三)相關(guān)關(guān)系解釋性不強(qiáng)的問題依據(jù)相關(guān)關(guān)系而非因果關(guān)系分析所獲得的結(jié)論在解釋性研究中的效度不強(qiáng)。如前所述,多數(shù)大數(shù)據(jù)的統(tǒng)計(jì)分析僅僅止步于相關(guān)關(guān)系。但是,社會(huì)學(xué)家很清楚,相關(guān)關(guān)系不一定是因果關(guān)系。熟悉統(tǒng)計(jì)學(xué)的學(xué)者都知道,當(dāng)數(shù)據(jù)的樣本量達(dá)到一定程度以后 (更不用說大數(shù)據(jù)這樣的海量樣本),任何兩個(gè)根本不相關(guān)的變量之間都可能存在很顯著的相關(guān)性 (很可能是虛假相關(guān)),諸如美國沃爾瑪超市數(shù)據(jù)所揭示的季節(jié)性風(fēng)暴到來時(shí)蛋撻與颶風(fēng)用品銷售量的之間統(tǒng)計(jì)相關(guān)關(guān)系、西班牙大選投票數(shù)據(jù)所發(fā)現(xiàn)的天氣狀況不佳與保守黨得票率之間統(tǒng)計(jì)相關(guān)關(guān)系的虛假性。由于缺乏更多的控制變量可以應(yīng)用,大數(shù)據(jù)的社會(huì)學(xué)統(tǒng)計(jì)分析目前基本上還沒有運(yùn)用中高級(jí)統(tǒng)計(jì)模型的因果分析的成果。實(shí)際上,除了相關(guān)關(guān)系分析之外,多元回歸模型、中介模型、多層次對數(shù)模型、曲線模型等因果模型,在解釋性研究中發(fā)揮著關(guān)鍵的作用。如何運(yùn)用因果模型進(jìn)行大數(shù)據(jù)的社會(huì)分析還需要進(jìn)一步的研究。
(四)各種大數(shù)據(jù)的整合還是一個(gè)難題雖然公共數(shù)據(jù)的開放與共享正在成為一種趨勢,互聯(lián)網(wǎng)門戶網(wǎng)站和互聯(lián)網(wǎng)公司所開放的數(shù)據(jù)還相當(dāng)粗放和有限,多數(shù)開放數(shù)據(jù)是研究者利用爬蟲技術(shù)從網(wǎng)站上抓取的未經(jīng)加工、篩選的原始數(shù)據(jù),政府職能部門、公立機(jī)構(gòu) (如銀行和金融機(jī)構(gòu)、通訊公司、醫(yī)療衛(wèi)生機(jī)構(gòu))和非公立部門(如私營互聯(lián)網(wǎng)公司和大數(shù)據(jù)公司)、社會(huì)組織等掌握的數(shù)據(jù)的開放程度也非常低。在我國政府將大數(shù)據(jù)產(chǎn)業(yè)作為一種基礎(chǔ)性戰(zhàn)略資源重點(diǎn)支持的宏觀背景下,如果各部門都將自己擁有的壟斷性大數(shù)據(jù)作為“私有資源”的話,那么勢必會(huì)形成“數(shù)據(jù)孤島”現(xiàn)象。不僅會(huì)造成現(xiàn)有數(shù)據(jù)資源的浪費(fèi),而且還會(huì)造成同類數(shù)據(jù)挖掘和分析的重復(fù)投入。國內(nèi)外關(guān)于大數(shù)據(jù)科學(xué)領(lǐng)域的應(yīng)用目前主要集中于資料的收集和儲(chǔ)存方面,對于用什么方法分析這些海量數(shù)據(jù),用什么理論解釋互聯(lián)網(wǎng)世界的社會(huì)秩序、社會(huì)規(guī)范、社會(huì)角色、社會(huì)結(jié)構(gòu)、社會(huì)互動(dòng)、社會(huì)分層與社會(huì)不平等這些社會(huì)學(xué)的經(jīng)典問題,目前國內(nèi)外還都處在同一起跑線上。因此,通過我國社會(huì)學(xué)家與其他社會(huì)科學(xué)家、自然科學(xué)工作者特別是計(jì)算機(jī)專家、統(tǒng)計(jì)學(xué)專家的協(xié)同創(chuàng)新和聯(lián)合攻關(guān),有望提出具有獨(dú)創(chuàng)性和原創(chuàng)性的分析方法、研究范式、理論體系和國際標(biāo)準(zhǔn),在全球范圍內(nèi)領(lǐng)跑。