文/劉林平 唐斌斌 蔣和超
大數(shù)據(jù)有“原罪”嗎?
——與潘綏銘教授商榷
文/劉林平 唐斌斌 蔣和超
《新視野》2016年第3期發(fā)表了潘綏銘教授《生活是如何被篡改為數(shù)據(jù)的?——大數(shù)據(jù)套用到研究人類的“原罪”》一文(以下簡(jiǎn)稱“潘文”)。他認(rèn)為,大數(shù)據(jù)不能套用到對(duì)人類的研究中。大數(shù)據(jù)把人類的行為及其結(jié)果也給量化了,從自然科學(xué)侵入到人文社會(huì)研究,從“科學(xué)”蛻變?yōu)椤拔茖W(xué)主義”。大數(shù)據(jù)在操作層次上將人類生活實(shí)踐改造成“數(shù)據(jù)”的過程中不可避免會(huì)出現(xiàn)“現(xiàn)實(shí)生活被裁剪”“社會(huì)情境被忽視”“主體建構(gòu)被抹煞”“生活意義被取消”的問題?!芭宋摹边€進(jìn)一步認(rèn)為,量化研究具有原罪,其缺陷與弊病根本無法避免,“大數(shù)據(jù)崇拜”,其實(shí)就是“唯科學(xué)主義”在人類歷史面前一敗涂地后的末日哀鳴。我們不能同意這些論斷,下面對(duì)此提出若干商榷意見。
關(guān)于大數(shù)據(jù),現(xiàn)在還沒有得到公認(rèn)的準(zhǔn)確定義。一般認(rèn)為,大數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù)之處在于:它不是通過抽樣調(diào)查所獲取的樣本數(shù)據(jù),而是人類活動(dòng)的實(shí)時(shí)記錄,并大都可以通過互聯(lián)網(wǎng)存儲(chǔ)、獲取、交換和分析?!芭宋摹敝袑?duì)于大數(shù)據(jù)(包含小數(shù)據(jù))的性質(zhì)、特點(diǎn)存在若干誤解,這是需要澄清的。
其一,大數(shù)據(jù)記錄的都是單獨(dú)個(gè)人的行為嗎?
“潘文”引用了一篇文章作為依據(jù)說“大數(shù)據(jù)記錄的都是單獨(dú)個(gè)人的行為”,然后就此質(zhì)問“在這個(gè)現(xiàn)實(shí)世界里,難道真的存在一種與他人毫無關(guān)系的個(gè)人行為嗎?難道個(gè)人的一切行為,不都是在一定的人際關(guān)系中,才會(huì)產(chǎn)生,才會(huì)帶來某種結(jié)果嗎”?
事實(shí)是,大數(shù)據(jù)既有個(gè)體(比如網(wǎng)上購(gòu)物)層面的數(shù)據(jù),也有組織層面(比如企業(yè)活動(dòng))的數(shù)據(jù),還有地區(qū)層面乃至全球?qū)用娴臄?shù)據(jù);既有個(gè)體單獨(dú)活動(dòng)(比如瀏覽網(wǎng)頁(yè))的數(shù)據(jù),也有人際交往(比如Facebook、twitter和微信、QQ等的好友關(guān)系)的數(shù)據(jù)。而利用電話、手機(jī)與社交網(wǎng)絡(luò)的大數(shù)據(jù)開展的研究已有不少。比如,社交網(wǎng)絡(luò)與經(jīng)濟(jì)發(fā)展的研究、社會(huì)網(wǎng)與戀愛的研究、弱關(guān)系與信息傳播的研究等。
其二,精神活動(dòng)的信息無法獲得、無法監(jiān)測(cè)嗎?
“潘文”斷言:“人類一切精神活動(dòng)的信息,在可預(yù)見的未來,仍然不但是無法獲得的,而且根本就是無法監(jiān)測(cè)的?!钡?,網(wǎng)絡(luò)上人們所發(fā)布的大量文獻(xiàn)(博客、微博、照片等)難道不是人們精神活動(dòng)的結(jié)果嗎?這些難道不是大數(shù)據(jù)的組成部分嗎?與此相連,“潘文”指出:“無論大數(shù)據(jù)監(jiān)測(cè)到多少人類的行為,它究竟是如何分辨出其中主體建構(gòu)的成分呢?首先,以網(wǎng)購(gòu)的大數(shù)據(jù)為例,即使您收集到全部的上網(wǎng)痕跡,而且全都數(shù)字化地一覽無余,那您怎么知道人家就真的就是這樣想的呢?這種‘客觀測(cè)定’,離礦物學(xué)很近,可是人卻是有主觀意志的啊,您是怎么監(jiān)測(cè)到的?連物理學(xué)還有個(gè)‘測(cè)不準(zhǔn)原理’呢,何況對(duì)于人的主觀意愿?”
在這一段話中,潘教授首先否認(rèn)在大數(shù)據(jù)中有關(guān)于人類思維、精神活動(dòng)成果的數(shù)據(jù)存在;其次,他將人們的行為與想法(動(dòng)機(jī)、期望、判斷等)割裂開來,認(rèn)為以客觀行為完全不能判斷主觀想法;再次,以網(wǎng)絡(luò)購(gòu)物數(shù)據(jù)為例,他也忽視了網(wǎng)購(gòu)中購(gòu)物者對(duì)商品與店家的直接評(píng)價(jià)。最后,潘教授關(guān)于大數(shù)據(jù)測(cè)不準(zhǔn)的說法,正是基于對(duì)數(shù)據(jù)的不了解。任何測(cè)量都有誤差,大數(shù)據(jù)正是通過大樣本消除誤差。大數(shù)據(jù)的客觀性有利于消除問卷調(diào)查中易于產(chǎn)生的回憶誤差。物理學(xué)中的“測(cè)不準(zhǔn)”原理并不是普遍適用于任何自然現(xiàn)象與社會(huì)現(xiàn)象的,如果人們的主觀意愿完全是測(cè)不準(zhǔn)的,那么社會(huì)科學(xué)中關(guān)于主觀意志、精神現(xiàn)象的研究就是瞎折騰。
其三,大數(shù)據(jù)不能表現(xiàn)人的偏好嗎?
“潘文”說:“以購(gòu)物網(wǎng)站記錄下來的數(shù)據(jù)為例,它確實(shí)可以容納數(shù)千萬人在購(gòu)物時(shí)不知不覺地留下的近乎無窮無盡的痕跡;但是,這就能反映出這些人的購(gòu)物偏愛嗎?難道這些人就再也不在實(shí)體商店中買東西了嗎?難道他們?cè)谝粫r(shí)一事上表現(xiàn)出來的偏愛就永恒不變嗎?難道他們的每一次上網(wǎng)購(gòu)物都能得到自我滿足嗎?”
潘教授認(rèn)為大數(shù)據(jù)不能表現(xiàn)人的偏好,這完全是誤解。就以他所提出的購(gòu)物數(shù)據(jù)為例,首先,網(wǎng)上購(gòu)物對(duì)商品與店家服務(wù)的評(píng)價(jià),對(duì)于品牌、樣式、質(zhì)地、價(jià)格的選擇就表現(xiàn)出了偏好。其次,潘教授質(zhì)疑說“難道這些人就再也不在實(shí)體商店中買東西了嗎”?他這里的意思似乎是要用網(wǎng)上購(gòu)物的數(shù)據(jù)去推論實(shí)體店購(gòu)物行為。網(wǎng)上購(gòu)物數(shù)據(jù)反映的是網(wǎng)上購(gòu)物的行為,其中也包含了偏好,至于是否可以用來推論實(shí)體店購(gòu)物行為與偏好則是不同的問題,實(shí)體店購(gòu)物也有實(shí)體店購(gòu)物的數(shù)據(jù),這些數(shù)據(jù)也是大數(shù)據(jù)的一部分。潘教授將兩種購(gòu)物形式混淆在一起,以為只有網(wǎng)上購(gòu)物才有大數(shù)據(jù),而實(shí)體店購(gòu)物則沒有,網(wǎng)上購(gòu)物數(shù)據(jù)不能推論實(shí)體店購(gòu)物行為,并由此莫名其妙地去責(zé)難大數(shù)據(jù)。再次,潘教授接著說“難道他們?cè)谝粫r(shí)一事上表現(xiàn)出來的偏愛就永恒不變嗎”?這一質(zhì)疑更加表明他對(duì)大數(shù)據(jù)的不了解,網(wǎng)上購(gòu)物所形成的數(shù)據(jù)是一個(gè)連續(xù)的、不同時(shí)點(diǎn)所組成的面板數(shù)據(jù),它恰好可以很好地反映人們購(gòu)物行為與偏好隨著時(shí)間變化的變化,而一次或數(shù)次問卷調(diào)查卻難以反映這種變化。
其四,大數(shù)據(jù)是空中樓閣嗎?
“潘文”認(rèn)為:“我們的一切社會(huì)背景、生活狀況和成長(zhǎng)經(jīng)歷……往往僅僅存在于我們自己的經(jīng)驗(yàn)與記憶之中;往往難于言表,更往往無法記錄。從‘客觀監(jiān)測(cè)’的角度來說,根本就是‘風(fēng)過無痕’。”然后就憑此推斷“對(duì)于了解人類生活而言,大數(shù)據(jù)其實(shí)根本就是空中樓閣”。問題在于:如果我們的社會(huì)背景、生活狀況和成長(zhǎng)經(jīng)歷“難于言表、無法記錄”,那么社會(huì)科學(xué)又憑什么研究社會(huì)與人呢?潘教授對(duì)性工作者的研究,不是也要表現(xiàn)和記錄她們的生活嗎?如果這些東西是不能“客觀監(jiān)測(cè)”而只能主觀回憶的,潘教授又怎么保證自己研究的客觀、真實(shí)與可靠呢?
這里的關(guān)鍵在于,“我們的一切社會(huì)背景、生活狀況和成長(zhǎng)經(jīng)歷……往往僅僅存在于我們自己的經(jīng)驗(yàn)與記憶之中”,所指的“我們”只是現(xiàn)在或過去的一代或多代人,由于時(shí)代的局限,在互聯(lián)網(wǎng)及其相關(guān)設(shè)備還沒有得到充分應(yīng)用的前提下,的確,許多生活經(jīng)歷只能用回憶的方式去復(fù)述。但是,時(shí)代是在發(fā)展的,全方位記載人們活動(dòng)軌跡的可能性越來越大,而實(shí)際的記載也越來越多,就像凱文·凱利所描述的“生活流”。潘教授則以靜止的觀點(diǎn)看待科技的發(fā)展,妄下斷言。
與潘教授所說的正好相反,大數(shù)據(jù)并不是空中樓閣,而是人們生活的實(shí)時(shí)記錄,在這個(gè)意義上,它超出回憶性的數(shù)據(jù),更為真實(shí)與準(zhǔn)確。它也不僅僅是人們生活的自然、物理與生理記錄,它也是可以記載人們的社會(huì)交往、精神生活與思維活動(dòng)產(chǎn)物的數(shù)據(jù)。
“潘文”認(rèn)為,對(duì)大數(shù)據(jù)進(jìn)行加工:界定、分類、定義、賦值 “完完全全是研究者自己在主觀地、人為地、強(qiáng)制地‘整理’那些‘可獲得信息’,把人類生活的痕跡,完完全全地篡改為自己的世界觀和價(jià)值觀所能接受的‘?dāng)?shù)據(jù)’。往好里說,這叫做無可避免地加工;往壞里說,這就是赤裸裸地偽造”。將大數(shù)據(jù)加工看作是“篡改”,然后說成是“赤裸裸地偽造”,這里完全是一個(gè)偷換概念甚至是一個(gè)赤裸裸更換概念的過程。
人類的任何研究都是一個(gè)加工過程,如果不加工,那我們就無法認(rèn)知任何事物。質(zhì)性研究、問卷調(diào)查和理論研究都是一個(gè)加工過程。沒有加工就沒有理論抽象。即使是最初淺的認(rèn)知都有加工的過程。
進(jìn)一步說,任何定量的研究過程都有一個(gè)數(shù)據(jù)加工的過程,即使使用自己設(shè)計(jì)的問卷進(jìn)行調(diào)查,數(shù)據(jù)加工也不可避免。研究者必須要對(duì)數(shù)據(jù)進(jìn)行審查、清理、重新分類等,才能進(jìn)行研究工作。在質(zhì)性研究過程中,研究者對(duì)觀察、訪談資料也必須進(jìn)行加工整理,完全不進(jìn)行加工地地道道使用原始資料的情況非常罕見。在這一加工過程中,研究者不可避免地要從自己的研究目的出發(fā)來使用數(shù)據(jù),世界觀與價(jià)值觀內(nèi)涵在研究者的頭腦中,當(dāng)然會(huì)發(fā)揮作用。不過,對(duì)數(shù)據(jù)的加工有好的加工和壞的加工,無論是定性研究還是定量研究都是如此。
問題在于:潘教授認(rèn)為對(duì)大數(shù)據(jù)的加工一定是壞的加工,甚至是篡改和偽造。不知道他究竟有何證據(jù):潘教授是閱讀并仔細(xì)研究了有關(guān)大數(shù)據(jù)的大量研究才有此發(fā)現(xiàn)呢?還是基于本人的“世界觀與價(jià)值觀”就做此判斷呢?如果潘教授認(rèn)定大數(shù)據(jù)加工是“赤裸裸地偽造”,他應(yīng)該舉出一些典型的案例來支持自己的判斷。
在大數(shù)據(jù)的研究中,對(duì)原始數(shù)據(jù)進(jìn)行加工已經(jīng)成為一個(gè)非常專業(yè)的數(shù)據(jù)挖掘過程。這一過程包含對(duì)各種各樣的數(shù)據(jù)進(jìn)行抓?。ǐ@取)、整理、分類和匹配,需要一定的技術(shù)手段,但與質(zhì)性研究中獲取數(shù)據(jù)、整理記錄、分類抽象在思維邏輯上并無本質(zhì)區(qū)別。而在潘教授看來,自己對(duì)性工作者的調(diào)查與研究過程是一個(gè)正確的過程(盡管他沒有明說),而大數(shù)據(jù)的研究加工過程則一定錯(cuò)誤。我們想請(qǐng)教潘教授的是:在您的研究過程中,世界觀與價(jià)值觀就沒有發(fā)揮作用嗎?您本人對(duì)性工作者的研究是如何保證不是一個(gè)“篡改”與“偽造”的過程呢?
潘教授所謂的數(shù)據(jù)“篡改”或“偽造”的說法,還表明他將研究的認(rèn)知過程與研究倫理混淆起來??茖W(xué)研究并不是一個(gè)絕對(duì)正確的過程,在數(shù)據(jù)處理(清理、分類、調(diào)整等)的過程中出現(xiàn)錯(cuò)誤是正?,F(xiàn)象,但這與弄虛作假違反研究倫理是完全不同性質(zhì)的問題。
潘教授的自相矛盾還在于:一方面,他承認(rèn)用問卷調(diào)查的數(shù)據(jù)進(jìn)行研究是可以的,但另一方面,他卻斷然否認(rèn)大數(shù)據(jù)可以用于社會(huì)科學(xué)研究。如果只是從對(duì)數(shù)據(jù)的加工方面來看,問卷調(diào)查主要是一種事前加工的過程(即預(yù)設(shè)題目來進(jìn)行測(cè)量),大數(shù)據(jù)是一種事后加工的過程(即直接對(duì)數(shù)據(jù)進(jìn)行加工),在是否加工的問題上,兩者并無本質(zhì)區(qū)別。
基于對(duì)大數(shù)據(jù)的若干誤解,“潘文”認(rèn)為:“大數(shù)據(jù)并不是研究者主動(dòng)去收集的人類行為及其結(jié)果,而是五花八門的所謂‘客觀記錄’……大數(shù)據(jù)所獲得的信息,首先是極端片面;其次是漫無邊際;第三是支離破碎;第四是毫無意義;根本不能用于任何量化的分析。”這一結(jié)論是非常武斷的。
其一,大數(shù)據(jù)雖然不是社會(huì)科學(xué)研究者設(shè)計(jì)好的類似問卷調(diào)查所獲取的數(shù)據(jù)。但大數(shù)據(jù)并不是就沒有設(shè)計(jì)。比如,我們可以利用手機(jī)來收集使用人的方位,這牽涉到經(jīng)緯度(經(jīng)緯度是人們通常用來準(zhǔn)確定位地理位置的指標(biāo)),對(duì)人的地理位置移動(dòng)的測(cè)量是非常準(zhǔn)確的。這絕不是潘所說的“漫無邊際”。
其二,大數(shù)據(jù)中的許多數(shù)據(jù),主要是根據(jù)自然科學(xué)(包括工程技術(shù)科學(xué)、醫(yī)學(xué)等)現(xiàn)有測(cè)量方法而記錄和呈現(xiàn)的,社會(huì)、人文指標(biāo)較少,但并非沒有,比如社交網(wǎng)站中的家庭、婚姻與朋友狀況。這說明社會(huì)科學(xué)的研究及其測(cè)量方法還沒有自然科學(xué)成熟和得到社會(huì)的廣泛認(rèn)可與應(yīng)用,但并不意味著大數(shù)據(jù)就不能運(yùn)用到社會(huì)科學(xué)研究中,因?yàn)樯鐣?huì)科學(xué)研究也往往借用自然科學(xué)所使用的指標(biāo),比如醫(yī)療社會(huì)學(xué)的研究就必須使用醫(yī)學(xué)測(cè)量的指標(biāo)。進(jìn)一步說,一些指標(biāo)既是自然的也是社會(huì)的,比如年齡、性別等,既反映人的自然屬性,也表現(xiàn)了人的社會(huì)屬性。
其三,潘教授認(rèn)為大數(shù)據(jù)不能用于任何量化分析,但是,量化的商業(yè)分析也不行嗎?事實(shí)是,大數(shù)據(jù)不但可以用于自然科學(xué)研究,也可以運(yùn)用于社會(huì)科學(xué)研究,不但可以進(jìn)行商業(yè)、管理分析,也可以用于社會(huì)分析。若干大數(shù)據(jù)的研究已經(jīng)證明了這一點(diǎn)。
其四,“潘文”認(rèn)為大數(shù)據(jù)“極端片面”“支離破碎”,指出:“所謂的大數(shù)據(jù),其實(shí)一點(diǎn)都沒有超出‘小數(shù)據(jù)’原有的局限性:裁剪生活,撕碎人生;非要把整體生存的‘人’,視為一堆雜亂的零碎。在實(shí)際生活中,人類絕對(duì)不是,也不可能是這樣來‘量化地’認(rèn)知和行動(dòng)的。因此,大數(shù)據(jù)其實(shí)并不是幫助人類思考,而是企圖取代和控制人類的生活經(jīng)驗(yàn),是人工智能的噩兆?!?/p>
在潘教授看來,定量的數(shù)據(jù)就是剪裁生活,就是撕碎人生。但即使是質(zhì)性研究,比如潘教授對(duì)性工作者的研究,難道不剪裁生活嗎?為什么用數(shù)據(jù)就是剪裁就是撕碎,而用訪談或觀察進(jìn)行質(zhì)性研究就不是撕碎呢?
對(duì)人與社會(huì)的研究,都是選擇一個(gè)或數(shù)個(gè)側(cè)面,任何的研究都是裁剪,只有裁剪的好壞,而沒有剪裁不剪裁的問題。完整地表現(xiàn)一個(gè)人、一個(gè)群體或一個(gè)社會(huì)的全部生活是基本不可能的事情。定量與定性研究在表現(xiàn)人的生活時(shí),區(qū)別在于:前者對(duì)生活進(jìn)行測(cè)量,將生活理解為一個(gè)個(gè)變量,尋找變量之間的關(guān)系;后者則以一個(gè)一個(gè)的故事進(jìn)行敘述,從中探討故事的前因后果。定量研究沒有可能也沒有必要窮盡所有變量,只要抓住關(guān)鍵的變量探討其中的關(guān)系就可以了。同樣,定性研究也沒有可能沒有必要將生活的所有細(xì)枝末節(jié)都呈現(xiàn)出來。
潘教授的邏輯混亂在于:他將現(xiàn)實(shí)的人的生活與對(duì)這種生活的研究混為一談。的確,如潘教授所說,人們的實(shí)際生活是完整的。但是,對(duì)此進(jìn)行研究卻必須有所取舍。潘教授能否告訴我們,你從頭至尾完完整整地記錄或敘述過一個(gè)性工作者的全部人生歷程嗎?如果有,你是用什么方法與技術(shù)手段做到這一點(diǎn)的呢?
“潘文”在結(jié)論處提出所謂“原罪”的說法:“原罪不但是與生俱來的,而且是背負(fù)終身的,不能通過人自己的救贖而被消除。很可惜,量化研究也是如此。無論其技術(shù)手段如何發(fā)達(dá),無論其數(shù)據(jù)多么大,一旦應(yīng)用于人文社會(huì)研究,其缺陷與弊病就根本無法避免,充其量也不過是程度的減輕而已。”
世界上任何一種研究范式(包含方法、手段與技術(shù))都是有缺陷的,量化研究當(dāng)然有其缺陷,但并不能被武斷地?cái)嘌跃哂小霸铩薄T谂私淌诳磥恚炕芯浚òù髷?shù)據(jù))將現(xiàn)實(shí)生活剪裁得支離破碎、忽視了社會(huì)情景、抹煞了主體建構(gòu)、取消了生活意義。他無視定量研究作為社會(huì)科學(xué)的主流研究范式所取得的豐碩成果,混淆科學(xué)研究的性質(zhì)、方法、過程與其社會(huì)功能的區(qū)別,以偏見亂下結(jié)論,以靜止、片面的眼光看待大數(shù)據(jù)的發(fā)展。
在我們看來,大數(shù)據(jù)的發(fā)展是當(dāng)代科技革命的產(chǎn)物,它給社會(huì)科學(xué)研究提供了新的機(jī)遇,有可能帶來研究范式的革命性變化。它不但適用于自然科學(xué)領(lǐng)域里的研究,也同樣可以并且實(shí)際上被運(yùn)用于社會(huì)科學(xué)研究領(lǐng)域。當(dāng)然,世界范圍里運(yùn)用大數(shù)據(jù)進(jìn)行社會(huì)科學(xué)研究還起步不久,具體的大數(shù)據(jù)也有其缺陷,但它猶如新生的嬰兒,對(duì)此抱有期望是正常的,而將之扼殺卻是罪惡的。
(劉林平系南京大學(xué)社會(huì)學(xué)院教授,唐斌斌、蔣和超系南京大學(xué)社會(huì)學(xué)院博士研究生;摘自《新視野》2016年第4期)