摘要:隨著云計(jì)算技術(shù)的發(fā)展和蔓延,數(shù)據(jù)越來(lái)越多、越來(lái)越細(xì)致,各個(gè)領(lǐng)域爭(zhēng)相掀起“數(shù)據(jù)化”的浪潮,‘大數(shù)據(jù)成為具有時(shí)代特征的熱議話題。呼嘯而來(lái)的數(shù)據(jù)浪潮對(duì)素有“親理論,遠(yuǎn)實(shí)證”特征的社會(huì)科學(xué)而言既是機(jī)遇又是挑戰(zhàn)。大數(shù)據(jù)的海量性、客觀性、歷時(shí)性能夠在一定程度上促進(jìn)社會(huì)科學(xué),而非結(jié)構(gòu)化及其來(lái)勢(shì)迅猛又對(duì)社會(huì)科學(xué)如何應(yīng)對(duì)提出較高要求。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;社會(huì)科學(xué);大數(shù)據(jù)
隨著科學(xué)和技術(shù)的進(jìn)步,第三次信息化浪潮席卷而來(lái)。第一次信息化浪潮中,個(gè)人計(jì)算機(jī)的出現(xiàn)使得信息和數(shù)據(jù)資源得以獲取和積累,信息實(shí)現(xiàn)了數(shù)字化??芍^賦予了人類(lèi)新的信息處理能力。第二次信息化浪潮中,互聯(lián)網(wǎng)的出現(xiàn)極大促進(jìn)了數(shù)據(jù)流通和集聚,實(shí)現(xiàn)了信息的網(wǎng)絡(luò)化,賦予人類(lèi)文明信息傳輸能力。而第三次信息化浪潮中的物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)帶來(lái)的信息爆炸給人類(lèi)社會(huì)帶來(lái)了什么“禮物”,當(dāng)前除了合理推測(cè),未來(lái)可能通過(guò)融合多源數(shù)據(jù)并分析應(yīng)用,尤其是應(yīng)用于人工智能領(lǐng)域,實(shí)現(xiàn)信息的智能化,其余的改變目前還不能確切描述和預(yù)言。
社會(huì)科學(xué)和數(shù)據(jù)并不陌生,對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的應(yīng)用也并不是新鮮事物。比如,從數(shù)據(jù)來(lái)源來(lái)看、互聯(lián)網(wǎng)中書(shū)籍、媒體、圖片、音頻、視頻等都是可以獲取研究資料的途徑。根據(jù)《大數(shù)據(jù)機(jī)遇與宏觀定量社會(huì)學(xué)》中所說(shuō),我國(guó)學(xué)者當(dāng)前利用互聯(lián)網(wǎng)數(shù)據(jù)、數(shù)字化圖書(shū)和影音視頻已經(jīng)形成了一批實(shí)證研究成果;學(xué)科領(lǐng)域內(nèi)高質(zhì)量期刊也刊登了基于互聯(lián)網(wǎng)數(shù)據(jù)的市政應(yīng)用定量分析文章;許多高水平院校也形成了相關(guān)的研究團(tuán)隊(duì)?!按髷?shù)據(jù)時(shí)代”一詞近年來(lái)熱度不減。從語(yǔ)義分析來(lái)看,這是一種將大數(shù)據(jù)看作這個(gè)時(shí)代最主要特征的一種時(shí)代觀。那么作為這個(gè)時(shí)代基本元素的數(shù)據(jù),具有哪些特征和性質(zhì)呢?當(dāng)前普遍認(rèn)同的幾個(gè)觀點(diǎn)是:①海量性 ②無(wú)結(jié)構(gòu)性 ③價(jià)值密度低 ④傳輸速度快、處理速度快。⑤來(lái)源廣泛并特征多樣。
一、大數(shù)據(jù)給社會(huì)科學(xué)帶來(lái)了哪些機(jī)遇和挑戰(zhàn)?
(一)大數(shù)據(jù)帶給社會(huì)科學(xué)的機(jī)遇
1.海量的大數(shù)據(jù)給社會(huì)研究帶來(lái)更多可能性
首先從資料的內(nèi)容來(lái)看。數(shù)據(jù)的海量性極大增加了社會(huì)科學(xué)的可研究?jī)?nèi)容。隨著物聯(lián)網(wǎng)的發(fā)展,“萬(wàn)物互聯(lián)”狀態(tài)更將“數(shù)據(jù)化”這一時(shí)代特征踐行得淋漓盡致。對(duì)于社會(huì)科學(xué)來(lái)說(shuō),可利用的資料、數(shù)據(jù)領(lǐng)域越來(lái)越廣闊,如文本資料、社會(huì)活動(dòng)、經(jīng)濟(jì)信息、地理信息、生活數(shù)據(jù)、健康數(shù)據(jù)、媒體數(shù)據(jù)等。從資料的廣度和深度來(lái)說(shuō),比起傳統(tǒng)的研究方式都有了明顯提升,資料獲得的方式也更加便捷。
2.大數(shù)據(jù)的客觀性可以減少社會(huì)研究的主觀性
大數(shù)據(jù)的客觀性是指大數(shù)據(jù)是先于研究設(shè)計(jì)而存在的這一特征。傳統(tǒng)的社會(huì)研究步驟遵循:研究設(shè)計(jì)-資料收集-資料處理和分析的過(guò)程,研究所需的數(shù)據(jù)資料需要圍繞研究目標(biāo)去收集整理。盡管社會(huì)科學(xué)在資料收集這一過(guò)程中有最大化保證所收集資料客觀性的方法,但不可避免地仍會(huì)受到主觀性的干擾。而且據(jù)此收集到的資料比較難再應(yīng)用于其它研究。而在大數(shù)據(jù)時(shí)代,數(shù)據(jù)是既有的。對(duì)于許多社會(huì)研究來(lái)說(shuō),省略了線上線下收集數(shù)據(jù)的過(guò)程,不但極大便利了研究進(jìn)程,同時(shí)還提升了社會(huì)科學(xué)研究的客觀性。
3.大數(shù)據(jù)的歷時(shí)性推動(dòng)了社會(huì)科學(xué)的縱向研究
社會(huì)科學(xué)的縱向研究和宏觀研究對(duì)歷史跨度、地理跨度有較高的要求。在社會(huì)學(xué)領(lǐng)域,近三十年,宏觀定量研究已明顯滯后于微觀定量研究。這一狀況的成因之一是社會(huì)科學(xué)所關(guān)注的一些指標(biāo)在宏觀研究層次往往難以測(cè)量,也較難發(fā)展出成熟有效、認(rèn)可度高的指標(biāo),為專(zhuān)業(yè)內(nèi)所接受認(rèn)可。
規(guī)模大、時(shí)空跨度大的大數(shù)據(jù)出現(xiàn),有望可以在很大程度上彌補(bǔ)這類(lèi)宏觀研究層次測(cè)量不足的缺口,成為研究者重要的分析工具。大數(shù)據(jù)的豐富性也能夠?yàn)楹暧^研究提供更多的變量、方法等研究方面的可能性。
以網(wǎng)絡(luò)研究為例,傳統(tǒng)社會(huì)研究中通過(guò)社會(huì)調(diào)查收集來(lái)的資料首先調(diào)查總體十分有限,往往是幾百人,且資料收集困難。而動(dòng)態(tài)性的數(shù)據(jù)收集更加困難,除了對(duì)研究者來(lái)說(shuō)困難重重,對(duì)被訪者和數(shù)據(jù)客觀性來(lái)說(shuō)也存在阻礙(如消極回應(yīng)、被訪者中途拒訪、失聯(lián)等)。因而多數(shù)網(wǎng)絡(luò)研究成果是基于個(gè)人社會(huì)網(wǎng)進(jìn)行的探討。這種情況下,大數(shù)據(jù)不僅體量巨大,而且大數(shù)據(jù)的實(shí)時(shí)性使它能夠提供網(wǎng)絡(luò)信息傳播的速度和方向,這為社會(huì)網(wǎng)絡(luò)的動(dòng)態(tài)研究提供了豐富的研究資料,為社會(huì)網(wǎng)絡(luò)研究,尤其是社會(huì)動(dòng)態(tài)網(wǎng)絡(luò)研究的發(fā)展,帶來(lái)了新的希望和可能。除此之外還可以利用身份證作為理想社會(huì)測(cè)量的工具,可以獲得個(gè)體的空間位置、流動(dòng)方向和流動(dòng)頻率、互動(dòng)情況等信息;手機(jī)上的定位功能、移動(dòng)支付等功能也留下人們的行為記錄;老年人智能穿戴設(shè)備可以長(zhǎng)時(shí)間記錄老人的身體健康、情緒波動(dòng)等各項(xiàng)數(shù)據(jù)。
《論社會(huì)學(xué)理論導(dǎo)引下的大數(shù)據(jù)研究》一文認(rèn)為動(dòng)態(tài)性的、大規(guī)模的、幾乎不受時(shí)空限制的非結(jié)構(gòu)化的大數(shù)據(jù)可以彌補(bǔ)過(guò)去收集大范圍、長(zhǎng)時(shí)段數(shù)據(jù)的不足。
(二)大數(shù)據(jù)帶給社會(huì)科學(xué)的挑戰(zhàn)
1.數(shù)據(jù)本身的非結(jié)構(gòu)化
非結(jié)構(gòu)化數(shù)據(jù)不適用于直接進(jìn)行分析處理,每日以TB為量級(jí)產(chǎn)生的數(shù)據(jù)更是增加了原始數(shù)據(jù)初步處理的難度。比如上市公司的財(cái)報(bào)數(shù)據(jù)、風(fēng)險(xiǎn)投資企業(yè)的公開(kāi)資料都是研究者較容易找到的數(shù)據(jù)資料,包含了比較細(xì)致全面的投資相關(guān)信息。但這些數(shù)據(jù)繁雜無(wú)序,經(jīng)過(guò)初步數(shù)據(jù)處理之后也呈現(xiàn)為零散的投資事件。如何將這些投資事件進(jìn)行匹配,以形成投資網(wǎng)絡(luò)就需要引入理論的力量。
《社會(huì)學(xué)理論導(dǎo)引下的大數(shù)據(jù)研究》還提到,大數(shù)據(jù)的非結(jié)構(gòu)化正是其不能使用經(jīng)典的缺失值處理方法(如多重補(bǔ)差法)的根本原因。
2.大數(shù)據(jù)增加了社會(huì)研究的難度
大數(shù)據(jù)帶來(lái)了豐富多樣的信息,人們的生活也隨之變得更加豐富多彩,同時(shí)也更難以預(yù)測(cè)。盡管數(shù)據(jù)規(guī)模增加能夠?yàn)樯鐣?huì)研究提供更可靠的現(xiàn)實(shí)支撐。但大數(shù)據(jù)時(shí)代下,人們的行為方式、生活方式、交往方式、思維方式也發(fā)生變化,由此帶來(lái)新的社會(huì)現(xiàn)象和新的社會(huì)問(wèn)題不斷出現(xiàn),這對(duì)于社會(huì)科學(xué),尤其是將人作為重要研究對(duì)象的社會(huì)科學(xué)來(lái)說(shuō)研究難度進(jìn)一步提升。
3.大數(shù)據(jù)可能在社會(huì)科學(xué)領(lǐng)域引起科學(xué)革命
范式是指在某一時(shí)期規(guī)范某一科學(xué)活動(dòng)的一套概念框架。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的海量性等性質(zhì)對(duì)社會(huì)科學(xué)的傳統(tǒng)研究范式提出了新的要求。并且明顯的趨勢(shì)是需要大量地應(yīng)用科學(xué)的數(shù)據(jù)處理方法來(lái)處理研究信息。根據(jù)庫(kù)恩的理論,當(dāng)新的研究范式被科學(xué)家共同體所廣泛接受,科學(xué)革命便發(fā)生。換言之,科學(xué)革命就是一種新的科學(xué)范式取代原有科學(xué)范式的過(guò)程。因此可以合理推論,將數(shù)據(jù)科學(xué)技術(shù)引入社會(huì)科學(xué)研究的“社會(huì)科學(xué)計(jì)算范式”,將在不久的將來(lái)為社會(huì)科學(xué)研究共同體所接受和認(rèn)同,進(jìn)一步可能會(huì)引發(fā)社會(huì)科學(xué)研究范式的變革。
二、觀點(diǎn):大數(shù)據(jù)與社會(huì)科學(xué)
對(duì)于大數(shù)據(jù)時(shí)代對(duì)社會(huì)科學(xué)的影響,當(dāng)前比較熱門(mén)的討論是:大數(shù)據(jù)為社會(huì)科學(xué)帶來(lái)了什么機(jī)遇?帶來(lái)了何種挑戰(zhàn)?對(duì)社會(huì)科學(xué)的學(xué)科發(fā)展產(chǎn)生的影響,社會(huì)科學(xué)的應(yīng)對(duì)之策,以及社會(huì)科學(xué)和數(shù)據(jù)科學(xué)的合作。
對(duì)于大數(shù)據(jù)帶來(lái)何種機(jī)遇和挑戰(zhàn),《大數(shù)據(jù)機(jī)遇與宏觀定量社會(huì)學(xué)》認(rèn)為大數(shù)據(jù)的出現(xiàn)對(duì)社會(huì)科學(xué)最重要的影響之一是能夠重啟宏觀定量社會(huì)學(xué),體現(xiàn)在理論發(fā)展、領(lǐng)域拓展、方法延展三個(gè)方面。作者認(rèn)為,大數(shù)據(jù)的出現(xiàn)至少能夠在社會(huì)科學(xué)領(lǐng)域尤其是社會(huì)學(xué)領(lǐng)域引起更多學(xué)者對(duì)宏觀研究的關(guān)注,進(jìn)而推動(dòng)社會(huì)學(xué)的宏觀研究。張文宏提出大數(shù)據(jù)時(shí)代的機(jī)遇體現(xiàn)在:提供了更多研究的可能性、有可能產(chǎn)生新的分支學(xué)科;數(shù)據(jù)的海量性能夠?yàn)檠芯刻峁└煽康臄?shù)據(jù)支撐;能夠?yàn)樯鐣?huì)政策和社會(huì)治理提供更完善的數(shù)據(jù)基礎(chǔ)。而挑戰(zhàn)則是由大數(shù)據(jù)的海量性及無(wú)結(jié)構(gòu)性帶來(lái)的樣本偏差、變量缺失及虛假、虛假相關(guān)關(guān)系易生、數(shù)據(jù)整合難度較大等問(wèn)題。
大數(shù)據(jù)時(shí)代,傳統(tǒng)研究所面臨的困境也有了新的機(jī)遇。夏國(guó)美稱,社會(huì)學(xué)一直存在著質(zhì)性研究與量化研究之間的壁壘。而大數(shù)據(jù)的出現(xiàn)能夠改變二者的對(duì)峙狀態(tài),走出定性和定量研究方法的結(jié)合困境。她在一篇文章中列舉了陳云松所做的研究(對(duì)谷歌圖書(shū)最新語(yǔ)料庫(kù)的大數(shù)據(jù)檢索),認(rèn)為其研究結(jié)果不是傳統(tǒng)思維中數(shù)據(jù)對(duì)研究精確性的印證,而是對(duì)質(zhì)性研究結(jié)果的補(bǔ)充。而這正是大數(shù)據(jù)打破定性、定量研究中間壁壘的一個(gè)案例
《規(guī)律與因果:大數(shù)據(jù)對(duì)社會(huì)科學(xué)研究沖擊之反思》一文認(rèn)為大數(shù)據(jù)的出現(xiàn),不僅可能重構(gòu)社會(huì)科學(xué),特別是社會(huì)學(xué)的研究目標(biāo)和宗旨,還會(huì)對(duì)社會(huì)科學(xué)的研究邏輯、方法和技術(shù)、研究的組織方式及人員素質(zhì)等方面產(chǎn)生深遠(yuǎn)影響。如在研究邏輯方面,對(duì)大數(shù)據(jù)的利用,可以從演繹邏輯出發(fā),對(duì)大數(shù)據(jù)進(jìn)行檢驗(yàn)(可稱之為“理論驅(qū)動(dòng)”);也可以從歸納邏輯出發(fā),使用大數(shù)據(jù)進(jìn)行描述和分析(可以稱之為“數(shù)據(jù)驅(qū)動(dòng)”)。兩種研究邏輯并存可能是大數(shù)據(jù)研究的一個(gè)特點(diǎn)。在方法和技術(shù)上,對(duì)大數(shù)據(jù)的獲取、存儲(chǔ)、交換、匹配、分析、建模,以及統(tǒng)計(jì)理念、技術(shù)和軟件等方面都會(huì)形成新的沖擊。
張旭意識(shí)到了大數(shù)據(jù)的局限性,及其可能帶來(lái)的影響,提醒需要注意“大數(shù)據(jù)及其‘社會(huì)學(xué)后果”。他認(rèn)為大數(shù)據(jù)能夠在收集數(shù)據(jù)、整理數(shù)據(jù)(如機(jī)器學(xué)習(xí))、分析數(shù)據(jù)的變革與升級(jí)方面產(chǎn)生正面后果。同時(shí)也仍有其局限性。比如在定量研究中,大數(shù)據(jù)盡管規(guī)模巨大,但樣本代表性存在較大問(wèn)題,比如想要將兩個(gè)社交平臺(tái)的用戶數(shù)據(jù)進(jìn)行整合時(shí),兩個(gè)不同平臺(tái)對(duì)用戶基本情況的了解和設(shè)置都有所區(qū)別和差異。因此,大數(shù)據(jù)還不能取代社會(huì)學(xué)傳統(tǒng)研究。其次,他認(rèn)為大數(shù)據(jù)雖然提供了廣闊堅(jiān)實(shí)的數(shù)據(jù)源,但是大數(shù)據(jù)的收集對(duì)于一般研究來(lái)說(shuō)仍是存在一定問(wèn)題。一是資料收集過(guò)程中需要大量資金支持,而是數(shù)據(jù)提供方通常不愿意分享數(shù)據(jù)用于研究。而即使一些企業(yè)最終同意,數(shù)據(jù)庫(kù)可能也并不完全契合研究需要;再次,大數(shù)據(jù)的出現(xiàn)也引發(fā)了新的道德倫理問(wèn)題。用戶的蹤跡被追蹤、上網(wǎng)數(shù)據(jù)在不知道的情況下被用于商業(yè)銷(xiāo)售屢見(jiàn)不鮮。信息安全問(wèn)題備受關(guān)注。最后張旭還從社會(huì)學(xué)視角探討了大數(shù)據(jù)引發(fā)的公平性問(wèn)題。以保險(xiǎn)公司通過(guò)客戶行車(chē)記錄儀的數(shù)據(jù)評(píng)估顧客,并進(jìn)行區(qū)別收費(fèi)為例,從社會(huì)不平等的角度解釋了這一現(xiàn)象背后隱藏的弱勢(shì)群體利益再次累積的過(guò)程,論述了大數(shù)據(jù)在其它領(lǐng)域的應(yīng)用。另外他也提到,大數(shù)據(jù)還可能使研究者面臨更多的“研究道德”與“社會(huì)道德”的沖突。
在對(duì)社會(huì)科學(xué)和數(shù)據(jù)科學(xué)的合作方面的討論《論社會(huì)學(xué)理論導(dǎo)引下的大數(shù)據(jù)研究》一文,分析了商業(yè)投資策略過(guò)程,觀察其中大數(shù)據(jù)、社會(huì)學(xué)理論、預(yù)測(cè)模型是如何相互促進(jìn)以致做出最終決策。通過(guò)多個(gè)計(jì)算社會(huì)科學(xué)案例,文章逐步論證了幾個(gè)核心觀點(diǎn),即大數(shù)據(jù)能夠進(jìn)行理論的假設(shè)驗(yàn)證、提供新的理論啟發(fā);理論可以指導(dǎo)數(shù)據(jù)挖掘的方向、校正數(shù)據(jù)挖掘的結(jié)果。兩者以各自不同的方式都可以為對(duì)方提供新的豐富的議題,為彼此指導(dǎo)和啟發(fā)新的研究方向,拓展了對(duì)方發(fā)展空間。文章還指出理論和預(yù)測(cè)模型之間的雙向?qū)υ挘韩@得證實(shí)的理論可以用來(lái)建立預(yù)測(cè)模型,改變模型預(yù)測(cè)的準(zhǔn)確度;而預(yù)測(cè)模型的出現(xiàn)又可能在理論演繹中發(fā)現(xiàn)新的事實(shí)。而大數(shù)據(jù)與理論進(jìn)行對(duì)話的橋梁在于將無(wú)結(jié)構(gòu)數(shù)據(jù)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)的一套或多套算法。文章如此詳細(xì)地分析理論、數(shù)據(jù)、模型之間的互動(dòng)對(duì)話,實(shí)際呈現(xiàn)了計(jì)算社會(huì)科學(xué)的研究方法。
大數(shù)據(jù)無(wú)疑是社會(huì)科學(xué)面臨的一大挑戰(zhàn)。社會(huì)科學(xué)想要緊跟時(shí)代、對(duì)當(dāng)下社會(huì)問(wèn)題保持敏感并做出更深入、全面的研究,必須積極思考如何應(yīng)對(duì)挑戰(zhàn),將其轉(zhuǎn)為機(jī)遇,促進(jìn)社會(huì)學(xué)科的蓬勃發(fā)展。
參考文獻(xiàn):
[1]孟天廣,鄭思堯.信息、傳播與影響:網(wǎng)絡(luò)治理中的政府新媒體——結(jié)合大數(shù)據(jù)與小數(shù)據(jù)分析的探索[J].公共行政評(píng)論,2017,10(01):29-52+205-206.
[2]唐文方.大數(shù)據(jù)與小數(shù)據(jù):社會(huì)科學(xué)研究方法的探討[J].中山大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2015,55(06):141-146.
[3]羅瑋,羅教講.新計(jì)算社會(huì)學(xué):大數(shù)據(jù)時(shí)代的社會(huì)學(xué)研究[J].社會(huì)學(xué)研究,2015,30(03):222-241+246.
[4]甄峰,王波.“大數(shù)據(jù)”熱潮下人文地理學(xué)研究的再思考[J].地理研究,2015,34(05):803-811.
[5]陳云松,吳青熹,黃超.大數(shù)據(jù)何以重構(gòu)社會(huì)科學(xué)[J].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2015,36(03):54-61.
作者簡(jiǎn)介:
黎嘉雯(1995—),女,新疆巴州人,天津師范大學(xué),碩士,研究方向:性別社會(huì)學(xué)。