薛凡偉
?
淺析大數(shù)據(jù)時(shí)代民意調(diào)查的變革
薛凡偉
(上海交通大學(xué) 媒體與傳播學(xué)院,上海 201100)
大數(shù)據(jù)的誕生為民意調(diào)查帶來(lái)了革命性變革,透過(guò)公眾在網(wǎng)絡(luò)媒介的表現(xiàn)進(jìn)行數(shù)據(jù)挖掘與分析,便能更加真實(shí)客觀地掌握公眾的態(tài)度趨向。本文論述了大數(shù)據(jù)在民意調(diào)查中的應(yīng)用,分析了大數(shù)據(jù)應(yīng)用于民意調(diào)查可能出現(xiàn)的技術(shù)缺陷、隱私泄露風(fēng)險(xiǎn)、數(shù)據(jù)分析與意義詮釋技能不足等局限。因此,本文認(rèn)為應(yīng)構(gòu)建明確的收集、使用大數(shù)據(jù)的法律框架和隱私保護(hù)模式,同時(shí)也應(yīng)建立跨學(xué)科合作的團(tuán)隊(duì)以提高數(shù)據(jù)分析與意義詮釋能力。
大數(shù)據(jù);民意調(diào)查;數(shù)據(jù)分析
民意調(diào)查是一種了解公眾輿論傾向的社會(huì)調(diào)查,要求以科學(xué)嚴(yán)謹(jǐn)?shù)氖侄问占姷母鞣N反應(yīng),并以統(tǒng)計(jì)分析方法對(duì)收集的材料進(jìn)行研究,反映公眾對(duì)于某個(gè)或某些社會(huì)問(wèn)題的態(tài)度傾向。民意調(diào)查在政治、經(jīng)濟(jì)等領(lǐng)域發(fā)揮著重要作用,特別是隨著民主理念的傳播與民主政治的不斷深化,我國(guó)政府越來(lái)越重視民意在公共政策中的應(yīng)用,比如建立決策聽(tīng)證、決策公示和專(zhuān)家咨詢(xún)等渠道進(jìn)行傾聽(tīng)民意,集中民智。
普遍認(rèn)為,現(xiàn)代意義上的民意調(diào)查起源于近兩百年前的美國(guó)政治選舉活動(dòng),1824年美國(guó)《賓夕法尼亞人報(bào)》對(duì)選民的態(tài)度測(cè)試開(kāi)創(chuàng)了民意調(diào)查的先河。此后,民意調(diào)查廣泛應(yīng)用于美國(guó)選舉政治中,1935年,蓋洛普成立了美國(guó)民意調(diào)查研究所,成為世界上第一個(gè)客觀和科學(xué)的民意測(cè)驗(yàn)機(jī)構(gòu)。此后,隨著抽樣與統(tǒng)計(jì)等概念逐步引入民意調(diào)查領(lǐng)域,民意調(diào)查逐漸走向精確化,進(jìn)入一個(gè)以小規(guī)??茖W(xué)抽樣代表整體數(shù)據(jù)的時(shí)代。我國(guó)民意調(diào)查始于20世紀(jì)20年代,1922年11月留美歸國(guó)的張耀翔碩士主持的“時(shí)政熱點(diǎn)問(wèn)題”調(diào)查被認(rèn)為是我國(guó)最早的具有一定科學(xué)基礎(chǔ)的民意調(diào)查,但直至新中國(guó)成立前一直都未形成規(guī)范專(zhuān)業(yè)的民調(diào)機(jī)構(gòu),也未進(jìn)行過(guò)大規(guī)模的民意調(diào)查。新中國(guó)成立至20世紀(jì)80年代,由于特殊政治原因加上對(duì)實(shí)證社會(huì)科學(xué)不重視,民意調(diào)查的發(fā)展幾乎處于停滯階段,20世紀(jì)80年代中后期以來(lái),民意調(diào)查逐漸走向繁榮。
隨著互聯(lián)網(wǎng)的發(fā)展,各類(lèi)社會(huì)團(tuán)體紛紛將目光投向網(wǎng)絡(luò)媒介,因?yàn)榛ヂ?lián)網(wǎng)帶來(lái)了大量用戶(hù)行為表達(dá)信息。第40次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告顯示,截至2017年6月,我國(guó)網(wǎng)民規(guī)模達(dá)7.51億,互聯(lián)網(wǎng)普及率為54.3%,增長(zhǎng)率為6.2%。此外,我國(guó)手機(jī)網(wǎng)民規(guī)模達(dá)7.24億,就互聯(lián)網(wǎng)使用狀況來(lái)看,2017上半年中國(guó)網(wǎng)民人均周上網(wǎng)時(shí)長(zhǎng)為26.5小時(shí),即時(shí)通訊、搜索引擎、網(wǎng)絡(luò)新聞作為基礎(chǔ)的互聯(lián)網(wǎng)應(yīng)用,用戶(hù)規(guī)模保持平穩(wěn)增長(zhǎng),使用率均在80%以上[1]。互聯(lián)網(wǎng)用戶(hù)規(guī)模龐大,這就使得每小時(shí)甚至每秒都會(huì)產(chǎn)生數(shù)以?xún)|計(jì)的數(shù)據(jù),大數(shù)據(jù)為民意調(diào)查帶來(lái)了新的機(jī)遇,如果海量數(shù)據(jù)得到有效利用,將為民意監(jiān)測(cè)與研究帶來(lái)極大便利。
大數(shù)據(jù)是一個(gè)體量大、種類(lèi)多的數(shù)據(jù)集合,以至于無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)數(shù)據(jù)庫(kù)系統(tǒng)對(duì)其進(jìn)行抓取、管理和處理。起初著眼于大數(shù)據(jù)作為數(shù)據(jù)集的基本特征,認(rèn)為其具有“3V”的特點(diǎn),即規(guī)模性(Volume)、高速性(Velocity)、多樣性(Variety)。隨著大數(shù)據(jù)的廣泛應(yīng)用,其他研究者在“3V”的基礎(chǔ)上總結(jié)了其他一些特征,主要包括可變性(Variability)、真實(shí)性(Veracity)以及價(jià)值性(value)等。
傳統(tǒng)的統(tǒng)計(jì)研究范式是研究者事先發(fā)現(xiàn)問(wèn)題并提出假設(shè),確定目標(biāo)人口框架,從而設(shè)計(jì)調(diào)查并采取抽樣的方式獲取數(shù)據(jù),最后對(duì)所獲數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)帶來(lái)的新范式意味著數(shù)字化獲取、語(yǔ)意協(xié)調(diào)、聚合與關(guān)聯(lián)數(shù)據(jù),并通過(guò)數(shù)據(jù)可視化等手段確實(shí)能夠承擔(dān)多項(xiàng)單獨(dú)使用調(diào)查數(shù)據(jù)難以實(shí)現(xiàn)的全新的分析。從傳感器、圖片、視頻或者金融交易等數(shù)據(jù)中可以捕捉到的豐富的個(gè)人細(xì)節(jié)信息,大數(shù)據(jù)也促使民意調(diào)查可以針對(duì)非常小的特定人口子集,或者針對(duì)全新的分析單位,比如只能靠新類(lèi)型的數(shù)據(jù)(如微博、微信、手機(jī)通話)來(lái)獲取的個(gè)人或商業(yè)關(guān)系網(wǎng)絡(luò)。范式轉(zhuǎn)變同樣意味著民意調(diào)查需要新的數(shù)據(jù)處理方式以及將海量數(shù)據(jù)轉(zhuǎn)變?yōu)榭捎眯畔⒌哪芰Α4髷?shù)據(jù)的利用與傳統(tǒng)民意調(diào)查方式有很大不同,其中一個(gè)非常明顯的優(yōu)勢(shì)是電子數(shù)據(jù)收集的成本要低于傳統(tǒng)的民意調(diào)查,調(diào)查本身就是昂貴的,需要大量人力物力來(lái)收集數(shù)據(jù)。相比之下,大數(shù)據(jù)依靠計(jì)算機(jī)軟件以及電子數(shù)據(jù)采集等手段,雖然需要前期以及維護(hù)成本,但仍能節(jié)省不少財(cái)力。然而,盡管大數(shù)據(jù)采集成本相對(duì)較低,但其應(yīng)用處理成本可能偏高,需要人力資源的重新分配,進(jìn)行新型數(shù)據(jù)的連接、管理與分析。
與傳統(tǒng)調(diào)查數(shù)據(jù)相比,大數(shù)據(jù)擁有很多優(yōu)勢(shì),就數(shù)據(jù)來(lái)源來(lái)講,大數(shù)據(jù)是早已存在的數(shù)據(jù),這便省去了部分?jǐn)?shù)據(jù)調(diào)查所需的時(shí)間與精力。大數(shù)據(jù)有兩個(gè)非常重要的特性往往非常容易被社會(huì)科學(xué)研究者所忽視,首先,大數(shù)據(jù)一般屬于二手?jǐn)?shù)據(jù),來(lái)源于最原始的數(shù)據(jù)記錄。肖恩·泰勒(Sean Taylor)用“找到的數(shù)據(jù)”與“制造的數(shù)據(jù)”兩個(gè)概念來(lái)區(qū)分,并指出大數(shù)據(jù)與其他社會(huì)科學(xué)研究方法最大不同就在于大數(shù)據(jù)并不是研究人員出于某種目的“制造的”,而是“找到的”大量用戶(hù)行為、表達(dá)數(shù)據(jù)[2]。這也暗含了另外一個(gè)問(wèn)題,海量的行為、表達(dá)數(shù)據(jù)使得用戶(hù)成為“被動(dòng)”的研究參與者,而傳統(tǒng)民意調(diào)查研究通常是參與者有意識(shí)的參與到特定的研究中[3]。
大數(shù)據(jù)包含了大量搜索、瀏覽、投票等用戶(hù)行為數(shù)據(jù),這也是一種民意載體,這些結(jié)構(gòu)化行為數(shù)據(jù)往往是用戶(hù)意見(jiàn)與觀念的外在表達(dá)。目前這種結(jié)構(gòu)化行為數(shù)據(jù)已經(jīng)得到了廣泛應(yīng)用,比較明顯的例子是亞馬遜等購(gòu)物網(wǎng)站通過(guò)用戶(hù)瀏覽、搜索等行為數(shù)據(jù)而實(shí)現(xiàn)的個(gè)性化推送,推出類(lèi)似于“猜你喜歡”的版塊,用戶(hù)的瀏覽量越大,推送就會(huì)越精確。購(gòu)物網(wǎng)站中這些潛在的行為數(shù)據(jù),雖然不會(huì)構(gòu)成直接的民意表達(dá),但對(duì)理解特定情境下的民意(如人們的購(gòu)買(mǎi)決策等)具有重要意義。
隨著社交媒體的發(fā)展,公眾經(jīng)常在不同平臺(tái)留言表達(dá)自己的觀點(diǎn),如微博、微信、新聞網(wǎng)站等等,大量的非結(jié)構(gòu)文本、視頻、音頻等信息成為當(dāng)下社會(huì)輿情的“指南針”。網(wǎng)民主動(dòng)的自我表達(dá)數(shù)據(jù)為民意研究提供了新路徑,可以利用這些數(shù)據(jù)捕捉到公民對(duì)特定社會(huì)議題的關(guān)注度與個(gè)人態(tài)度。美國(guó)學(xué)者約瑟夫·迪格瑞茲(Joseph DiGrazia)的團(tuán)隊(duì)曾在2010年8月到10月提取了5億多條推文與當(dāng)時(shí)406場(chǎng)國(guó)會(huì)競(jìng)選結(jié)果相對(duì)比,發(fā)現(xiàn)包含兩黨候選人名字的推文分享率與兩黨選票的差距存在強(qiáng)相關(guān)[4]。
大數(shù)據(jù)在推動(dòng)決策制定及評(píng)估優(yōu)化方面擁有巨大潛力,許多機(jī)構(gòu)組織越來(lái)越依賴(lài)于大數(shù)據(jù),預(yù)測(cè)分析是近年來(lái)在很多部門(mén)備受歡迎的大數(shù)據(jù)支持的研究方法,它不僅允許管理者跟蹤正在進(jìn)行的活動(dòng),而且還支持如何制定對(duì)變化的環(huán)境和客戶(hù)基礎(chǔ)進(jìn)行戰(zhàn)術(shù)應(yīng)對(duì)的決策。大數(shù)據(jù)預(yù)測(cè)是一種動(dòng)態(tài)的過(guò)程,必須根據(jù)數(shù)據(jù)的更新,不斷進(jìn)行相關(guān)政策的優(yōu)化調(diào)整,并且這些數(shù)據(jù)還可以與從組織外部獲取的其他大數(shù)據(jù)源或調(diào)查數(shù)據(jù)組合。
雖然公共部門(mén)在運(yùn)用大數(shù)據(jù)技術(shù)方面并不像私營(yíng)部門(mén)一樣快,但公共管理人員開(kāi)始意識(shí)到這些技術(shù)的價(jià)值,并嘗試使用它們來(lái)支持行政決策和改進(jìn)公共計(jì)劃。早在2008年,當(dāng)國(guó)際金融危機(jī)還尚未大范圍威脅到國(guó)內(nèi)制造企業(yè)時(shí),阿里巴巴根據(jù)買(mǎi)家詢(xún)盤(pán)數(shù)的大幅下滑,及時(shí)對(duì)國(guó)內(nèi)中小制造商發(fā)出了預(yù)警信息,由此,政府積極制定相關(guān)應(yīng)對(duì)政策,制造商也廣泛關(guān)注金融危機(jī)的發(fā)展,為應(yīng)對(duì)金融危機(jī)做好了相關(guān)準(zhǔn)備[5]。
大數(shù)據(jù)通常是選擇性的,不完整和錯(cuò)誤的,不同形式的新媒體在一些程度上可能低估了特定的人口統(tǒng)計(jì),大數(shù)據(jù)有時(shí)可能并不是“全數(shù)據(jù)”,網(wǎng)絡(luò)用戶(hù)并不能代表全部人口[6]。例如微博、微信等社交媒體,其用戶(hù)以年輕人為主,這很可能在數(shù)據(jù)分析時(shí)引入新的錯(cuò)誤。大數(shù)據(jù)通常在不同時(shí)間點(diǎn)從不同來(lái)源聚集,這些過(guò)程包括將記錄鏈接在一起,將它們轉(zhuǎn)換為新的變量,記錄所采取的行動(dòng),以及解釋新創(chuàng)建的數(shù)據(jù)特征,這些活動(dòng)引入的變量還可能是可變的,產(chǎn)生噪聲和可靠性差的系統(tǒng)誤差,導(dǎo)致偏差和無(wú)效[7]。大數(shù)據(jù)真實(shí)性所面臨的核心問(wèn)題是,這些數(shù)據(jù)不是出于研究目的來(lái)控制變量通過(guò)實(shí)驗(yàn)或調(diào)查的方式得來(lái)的可以直接進(jìn)行科學(xué)分析的數(shù)據(jù)。這些“發(fā)現(xiàn)的數(shù)據(jù)”通常來(lái)自其主要目的并不總是與數(shù)據(jù)分析者的目標(biāo)一致的過(guò)程中的副產(chǎn)物。因此,大數(shù)據(jù)通常很少或從不考慮整個(gè)流程中的數(shù)據(jù)質(zhì)量。此外,大數(shù)據(jù)開(kāi)發(fā)速度本身便具有一定挑戰(zhàn),一些大數(shù)據(jù)應(yīng)用技術(shù)也會(huì)存在局限,需要不斷更新。
Google流感趨勢(shì)系列提供了一個(gè)典型的大數(shù)據(jù)錯(cuò)誤風(fēng)險(xiǎn)案例,它使用Google對(duì)流感癥狀、補(bǔ)救措施和其他相關(guān)關(guān)鍵字的搜索功能,為美國(guó)和其他24個(gè)國(guó)家和地區(qū)流感疫情提供“接近實(shí)時(shí)”的估算值[8]。與疾控中心數(shù)據(jù)相比,Google流感趨勢(shì)在2009年至2011年間為美國(guó)提供了非常準(zhǔn)確的流感發(fā)病率指標(biāo)。然而,在2012-2013年的流感季節(jié),Google流感趨勢(shì)預(yù)測(cè)的流感患者比例比疾控中心統(tǒng)計(jì)的實(shí)際情況增加了一倍以上。不少學(xué)者總結(jié)了原因,學(xué)者大衛(wèi)·拉澤(Lazer David)等指出錯(cuò)誤的兩個(gè)原因:“大數(shù)據(jù)傲慢”和算法變化,前者是指大數(shù)據(jù)研究人員認(rèn)為數(shù)據(jù)量可以補(bǔ)償其任何缺陷,因此忽略了對(duì)傳統(tǒng)科學(xué)分析方法的需要[9]。一些關(guān)鍵詞看似與流感相關(guān),但實(shí)際可能并非如此,加之人們對(duì)于流感相關(guān)的搜索也可能會(huì)受周?chē)h(huán)境的影響,由此會(huì)出現(xiàn)過(guò)度擬合的情況。算法的不完善也是這種錯(cuò)誤的一大原因,基于推薦的算法也會(huì)增加某些熱門(mén)詞匯的搜索頻率,如搜索“發(fā)燒”,可能會(huì)推薦關(guān)鍵詞“流感”。由此可見(jiàn),大數(shù)據(jù)及其相關(guān)技術(shù)的缺陷可能會(huì)對(duì)民意研究帶來(lái)誤導(dǎo),全面認(rèn)識(shí)特定領(lǐng)域大數(shù)據(jù)的可用性并彌補(bǔ)相關(guān)漏洞相當(dāng)重要。
許多用戶(hù)日常行為數(shù)據(jù)都可以應(yīng)用于民意調(diào)查領(lǐng)域,然而在數(shù)據(jù)所有權(quán)方面卻缺乏相應(yīng)的法律指導(dǎo)。從數(shù)據(jù)產(chǎn)生到為其增加附加價(jià)值的整個(gè)流程來(lái)看,作為信息主體的數(shù)據(jù)生產(chǎn)者、收集數(shù)據(jù)的個(gè)人或組織、進(jìn)行數(shù)據(jù)整合分析的人員、亦或整個(gè)社會(huì)等等,究竟是誰(shuí)擁有這些數(shù)據(jù)并不明確,部分法律中將一些數(shù)據(jù)作為資產(chǎn)一些數(shù)據(jù)僅僅作為信息來(lái)處理也加劇了這種模糊性。大數(shù)據(jù)中數(shù)據(jù)所有權(quán)的不明確性更加明顯,數(shù)據(jù)不再是統(tǒng)計(jì)機(jī)構(gòu)的專(zhuān)利,商業(yè)及行政機(jī)構(gòu)同樣擁有大量數(shù)據(jù),此外,由于數(shù)據(jù)可以永遠(yuǎn)存在,所有權(quán)可以由后代繼承,個(gè)人隱私可能受到由于血緣關(guān)系信息泄露的威脅。
大數(shù)據(jù)背景下,以關(guān)聯(lián)性為手段的數(shù)據(jù)挖掘,能夠在表面毫無(wú)聯(lián)系的海量數(shù)據(jù)中發(fā)現(xiàn)很多個(gè)人隱私信息,從而給信息安全與隱私保護(hù)帶來(lái)了很多新問(wèn)題。首先,對(duì)于敏感數(shù)據(jù)并沒(méi)有明確的界定[10]。在以個(gè)人為中心的隱私保護(hù)中,告知與許可、匿名化等手段已經(jīng)漸漸失效,因?yàn)榧词箍雌饋?lái)無(wú)害的信息也使得識(shí)別個(gè)體變得相對(duì)簡(jiǎn)單,例如通過(guò)找到足夠多的信息,可以使得在相關(guān)群體中只有一個(gè)人具有該特征,識(shí)別個(gè)體的風(fēng)險(xiǎn)已經(jīng)由于可識(shí)別數(shù)據(jù)的公共可用性的增加和鏈接文件技術(shù)的快速發(fā)展而增加。“人肉搜索”便是很明顯的例子。此外,數(shù)據(jù)開(kāi)放與隱私保護(hù)同樣存在矛盾,要想發(fā)揮大數(shù)據(jù)的價(jià)值,數(shù)據(jù)公開(kāi)是必要的,政府可以從公開(kāi)的數(shù)據(jù)中掌握社會(huì)輿情,企業(yè)可以從公開(kāi)的數(shù)據(jù)中發(fā)掘用戶(hù)需求,推出具有針對(duì)性的產(chǎn)品及服務(wù),但我們?nèi)砸伎嫉氖?,如何在確保隱私的前提下,挖掘大數(shù)據(jù)的潛在價(jià)值。
依據(jù)大數(shù)據(jù)的種種特性,在處理大數(shù)據(jù)所需的技能和資源方面可能面臨重大挑戰(zhàn),多數(shù)大數(shù)據(jù)問(wèn)題至少需要四個(gè)角色:領(lǐng)域?qū)<?,研究員,計(jì)算機(jī)科學(xué)家和系統(tǒng)管理員[11]。領(lǐng)域?qū)<沂蔷哂袑?duì)大數(shù)據(jù)的使用和局限性具有深入研究的用戶(hù),分析師或領(lǐng)導(dǎo)者,研究者應(yīng)該是具有應(yīng)用正式研究方法經(jīng)驗(yàn)的團(tuán)隊(duì)成員,包括調(diào)查方法和統(tǒng)計(jì),計(jì)算機(jī)科學(xué)家要求技術(shù)熟練,有計(jì)算機(jī)編程和數(shù)據(jù)處理技術(shù)方面的專(zhuān)業(yè)知識(shí),系統(tǒng)管理員負(fù)責(zé)定義和維護(hù)計(jì)算機(jī)基礎(chǔ)設(shè)施,實(shí)現(xiàn)大規(guī)模計(jì)算。海量新型來(lái)源的數(shù)據(jù)通常用于定量調(diào)查分析之外的其他目的,領(lǐng)域?qū)iT(mén)知識(shí)尤其重要。一些研究者選擇與計(jì)算機(jī)科學(xué)家或熟練的程序員合作來(lái)覆蓋這些所需的技能,構(gòu)成可行的研究伙伴關(guān)系,它創(chuàng)造了跨學(xué)科合作的新需求。
數(shù)據(jù)必定是結(jié)合特定的歷史與文化情境產(chǎn)生的,對(duì)于數(shù)據(jù)分析而言,對(duì)特定歷史及文化境遇中研究對(duì)象的深度理解是十分重要的。研究者需要有一種對(duì)自己所生活的周遭世界基于共同歷史與文化體驗(yàn)的深度詮釋能力,需要有經(jīng)驗(yàn)觀察的洞察力和理論構(gòu)建能力,如此才能使大數(shù)據(jù)應(yīng)用真正為民意調(diào)查服務(wù),而不僅僅是徒有形式的“沒(méi)有頭腦的計(jì)數(shù)”[12]。大數(shù)據(jù)作為民意調(diào)查的一項(xiàng)最新手段,它通過(guò)技術(shù)所直觀呈現(xiàn)出來(lái)的結(jié)果,并不能單純的作為結(jié)論,也并不代表著研究的終點(diǎn),更應(yīng)該是構(gòu)成我們進(jìn)一步探究諸如是什么、為什么等問(wèn)題的經(jīng)驗(yàn)素材。大數(shù)據(jù)并不意味著一勞永逸,基礎(chǔ)的研究分析能力對(duì)于研究者來(lái)說(shuō)是必備的,在技術(shù)面前保持理性和謹(jǐn)慎,避免產(chǎn)生技術(shù)至上主義的自負(fù)情緒也是至關(guān)重要的。
盡管大數(shù)據(jù)分析具有理論和實(shí)踐優(yōu)勢(shì),但優(yōu)選的策略是使用大數(shù)據(jù)與傳統(tǒng)調(diào)查數(shù)據(jù)的組合來(lái)支持研究、分析和決策。目前,隨著大數(shù)據(jù)的可用性和使用的增加,調(diào)查研究的需求可能會(huì)同時(shí)增長(zhǎng),以解決大數(shù)據(jù)發(fā)現(xiàn)的問(wèn)題。大數(shù)據(jù)運(yùn)用于民意調(diào)查應(yīng)用中的一些問(wèn)題亟待解決,所有權(quán)不明確,并沒(méi)有關(guān)于收集、使用大數(shù)據(jù)的明確的法律框架指導(dǎo),大多數(shù)數(shù)字服務(wù)的用戶(hù)可能并不知道他們的行為數(shù)據(jù)可能被重新用于其他目的。個(gè)人隱私容易泄露,刪除作為個(gè)人身份信息的關(guān)鍵變量不再足以保護(hù)數(shù)據(jù)免遭識(shí)別,位置、時(shí)間等眾多相關(guān)數(shù)據(jù)的組合能夠在許多情況下識(shí)別“匿名”記錄,需要設(shè)立新的隱私保護(hù)模式。此外,建立跨學(xué)科合作的團(tuán)隊(duì)提高數(shù)據(jù)分析與意義詮釋能力對(duì)于充分挖掘大數(shù)據(jù)的價(jià)值也是必要的。
[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第39次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].2016-12.
[2] Taylor Sean J.Real Scientists Make Their Own Data.Sean J.Taylor Blog.URL:http://seanjtaylor.com/post/41463778912/real-scientists-make-their-own-data. 2013-01-25.
[3] 沈菲,王天嬌.大數(shù)據(jù)語(yǔ)境中的民意:研究路徑與趨勢(shì)(下)[J].教育傳媒研究,2016(03):77-83.
[4] DiGrazia,J.,McKelvey,K., Bollen,J.&Rojas,F.More Tweets,More Votes:Social.2013. Media as a Quantitative Indicator of Political Behavior. Pols One,8(11). URL:http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0079449.
[5] 胡亞謙.大數(shù)據(jù)預(yù)測(cè)能力對(duì)公共決策的影響[J].東北大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2016,18(03):281-287.
[6] 唐文方.大數(shù)據(jù)與小數(shù)據(jù):社會(huì)科學(xué)研究方法的探討[J].中山大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2015,55(06):141-146.
[7] Japec,L.,Kreuter,F.,Berg,M.,Biemer,P.,Decker,P.,Lampe,C.,Lane,J.,O’Neil,C.&Usher,A.2015. Big Data in Survey Research AAPOR Task Force Report.Public Opinion Quarterly, 79(4),839-880.
[8] 秦磊,謝邦昌.谷歌流感趨勢(shì)的成功與失誤[J].統(tǒng)計(jì)研究,2016,33(2):107-110.
[9] Lazer,D.,Kennedy,R.,King,G.&Vespignani,A(2014).The Parable of Google Flu:Traps in Big Data Analysis.Science,343(6176),1203-1205.
[10] 趙惠,王忠.大數(shù)據(jù)時(shí)代個(gè)人隱私內(nèi)容及其保護(hù)研究——基于調(diào)查數(shù)據(jù)的分析[J].情報(bào)理論與實(shí)踐,2016,39(08):28-31+17.
[11] Japec,L.,Kreuter,F.,Berg,M.,Biemer,P.,Decker,P.,Lampe,C.,Lane,J., O’Neil,C.&Usher,A.(2015).Big Data in Survey Research AAPOR Task Force Report.Public Opinion Quarterly,79(4),839-880.
[12] 閻光才.教育及社會(huì)科學(xué)研究中的數(shù)據(jù)——兼議當(dāng)前的大數(shù)據(jù)熱潮[J].北京大學(xué)教育評(píng)論,2013,11(4):77-86+187.
[責(zé)任編輯:思涵]
2017-01-12
薛凡偉,男,上海交通大學(xué)媒體與傳播學(xué)院新聞與傳播專(zhuān)業(yè)碩士研究生,主要從事網(wǎng)絡(luò)傳播、互聯(lián)網(wǎng)政治等研究。
G206
A
1672-8122(2018)02-0059-03