• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)生態(tài)的危險(xiǎn)趨勢(shì)與數(shù)據(jù)科學(xué)的可能空間——兼談中國(guó)市場(chǎng)調(diào)查業(yè)的現(xiàn)狀與問(wèn)題

      2016-04-06 05:47:23劉德寰李雪蓮
      關(guān)鍵詞:市場(chǎng)調(diào)查大數(shù)據(jù)

      ■ 劉德寰 李雪蓮

      ?

      數(shù)據(jù)生態(tài)的危險(xiǎn)趨勢(shì)與數(shù)據(jù)科學(xué)的可能空間
      ——兼談中國(guó)市場(chǎng)調(diào)查業(yè)的現(xiàn)狀與問(wèn)題

      ■ 劉德寰李雪蓮

      【內(nèi)容摘要】 隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展及其在商業(yè)與研究領(lǐng)域的應(yīng)用,數(shù)據(jù)分析的重要性正逐漸使其成為一個(gè)非常明確的科學(xué)領(lǐng)域。本文從數(shù)據(jù)稀缺性降低、非結(jié)構(gòu)化數(shù)據(jù)及數(shù)據(jù)孤島、數(shù)據(jù)分析能力稀缺三個(gè)方面梳理數(shù)據(jù)生態(tài)的重要轉(zhuǎn)變,進(jìn)而指出目前數(shù)據(jù)行業(yè)本身存在的七個(gè)危險(xiǎn)趨勢(shì),及其對(duì)整個(gè)中國(guó)調(diào)查業(yè)發(fā)展所產(chǎn)生的影響。最后,本文從科學(xué)研究的角度出發(fā),以定量研究中的數(shù)據(jù)陷阱,及中國(guó)股民結(jié)構(gòu)分析為例提出數(shù)據(jù)科學(xué)的整合與細(xì)分建議,以期為數(shù)據(jù)研究領(lǐng)域提供一定參考和建議。

      【關(guān)鍵詞】大數(shù)據(jù);數(shù)據(jù)科學(xué);市場(chǎng)調(diào)查

      引言

      “探索社會(huì)學(xué)這門(mén)科學(xué)的任務(wù),首先的困難在于要求它作為一門(mén)科學(xué),應(yīng)有社會(huì)學(xué)這個(gè)名稱(chēng),是名正言順的,但是,這個(gè)要求絕不是毫無(wú)爭(zhēng)議的;而且,即使容許它冠以成個(gè)稱(chēng)號(hào)的地方,關(guān)于它的內(nèi)容和目的,也是眾說(shuō)紛紜,意見(jiàn)相互矛盾和含糊不清。這就一再重新助長(zhǎng)懷疑?!?1)

      數(shù)據(jù)科學(xué),如果我們打算以此命名我們今天在數(shù)據(jù)研究領(lǐng)域所做的工作和借此探尋人類(lèi)行為與規(guī)律的努力,無(wú)疑困難重重,而這困難首先不來(lái)自于外部,更為深刻和危險(xiǎn)地存在于數(shù)據(jù)分析內(nèi)部。提到數(shù)據(jù)分析,大數(shù)據(jù)的出現(xiàn)一方面在削弱這個(gè)概念及其內(nèi)涵,但同時(shí),另一方面也正在前所未有地增強(qiáng)這一概念。

      市場(chǎng)調(diào)研一直以來(lái)是人們對(duì)市場(chǎng)調(diào)查行業(yè)的認(rèn)知,作者曾在《管窺美國(guó)調(diào)查業(yè)——在游戲、質(zhì)疑與驗(yàn)證中走向決策支柱的民意測(cè)驗(yàn)》一文中詳細(xì)梳理過(guò)民意測(cè)驗(yàn)作為最早的調(diào)查對(duì)美國(guó)調(diào)查業(yè)產(chǎn)生影響的過(guò)程,回顧了調(diào)查業(yè)從游戲式的“好玩兒”,到追求預(yù)測(cè)的準(zhǔn)確性,最終成為被普遍應(yīng)用和廣泛接受的研究社會(huì)經(jīng)濟(jì)現(xiàn)象的重要機(jī)構(gòu)的發(fā)展歷程,這其中非常重要的過(guò)程就在于以Gallup、Crossley、Roper為代表的現(xiàn)代意義上的科學(xué)調(diào)查方式得以確立自己的地位。(2)

      隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展及其在商業(yè)與研究領(lǐng)域的應(yīng)用,數(shù)據(jù)分析的重要性正逐漸使其成為一個(gè)非常明確的科學(xué)領(lǐng)域。數(shù)據(jù)分析越來(lái)越廣泛地被應(yīng)用到教育、醫(yī)療等基礎(chǔ)行業(yè)中,公眾也越來(lái)越熟悉數(shù)據(jù)分析行業(yè),但很少有人詳細(xì)地探討數(shù)據(jù)科學(xué)的結(jié)構(gòu)和它面臨的問(wèn)題。隨著應(yīng)用的深入、研究的積累,我們必須對(duì)其哪怕在極盛時(shí)期所存在的問(wèn)題進(jìn)行清晰的界定,以便我們能在工作中明確地認(rèn)定和加以區(qū)分。我們?cè)?012年就大數(shù)據(jù)的風(fēng)險(xiǎn)和現(xiàn)存問(wèn)題專(zhuān)門(mén)進(jìn)行過(guò)探討與分析(3)。彼時(shí),大數(shù)據(jù)尚且僅作為一種觀念在業(yè)界、學(xué)界、公眾中間流行,而以其席卷之勢(shì),時(shí)隔兩年,大數(shù)據(jù)及其應(yīng)用已經(jīng)廣泛滲透到諸多領(lǐng)域,它的發(fā)展已經(jīng)完全超出概念之爭(zhēng),必將深入影響與之相關(guān)的產(chǎn)業(yè),其中非常顯著的就是市場(chǎng)調(diào)查行業(yè)會(huì)面臨的問(wèn)題。

      在談數(shù)據(jù)科學(xué)潛存的結(jié)構(gòu)時(shí),我們必須考慮三個(gè)非常重要的層次:一是數(shù)據(jù)的獲取,二是數(shù)據(jù)的描述,三是數(shù)據(jù)的分析,這是三個(gè)完全不同的過(guò)程與層次。大數(shù)據(jù)的出現(xiàn)對(duì)整個(gè)數(shù)據(jù)行業(yè)產(chǎn)生重要影響,首先在數(shù)據(jù)獲取層面引發(fā)“變革”,這是我們論述的起點(diǎn),也是問(wèn)題的重要起源。

      一、數(shù)據(jù)生態(tài)的重要轉(zhuǎn)變

      (一)數(shù)據(jù)資源稀缺性降低

      Armen A.Alchian認(rèn)為經(jīng)濟(jì)資源的獨(dú)特性主要在于其稀缺性,及由此伴隨而生的競(jìng)爭(zhēng)行為(4)。很長(zhǎng)的歷史階段中,我們一直面對(duì)的調(diào)查行業(yè)的問(wèn)題是數(shù)據(jù)資源的稀缺,掌握數(shù)據(jù)在整個(gè)調(diào)查行業(yè)首先意味著擁有議價(jià)能力,所以很多業(yè)內(nèi)公司,尤其是研究公司,可以通過(guò)獲取數(shù)據(jù)來(lái)獲得高額利潤(rùn),這一時(shí)期是市場(chǎng)調(diào)查業(yè)的天下。早期的數(shù)據(jù)質(zhì)量值得稱(chēng)道,利潤(rùn)不錯(cuò),于是研究型公司開(kāi)始大規(guī)模介入這個(gè)本該執(zhí)行公司獲取利潤(rùn)的領(lǐng)域,擠壓執(zhí)行利潤(rùn)。

      但是早期的質(zhì)量出現(xiàn)問(wèn)題之后,導(dǎo)致了積壓,于是行業(yè)就出現(xiàn)了非常大的非良性循環(huán),甚至惡性循環(huán)。非良性循環(huán)有非常重要的產(chǎn)業(yè)鏈,一個(gè)是數(shù)據(jù)獲取利潤(rùn)率高,研究公司更多地通過(guò)獲取數(shù)據(jù)來(lái)獲得利潤(rùn),而不是通過(guò)研究。然后執(zhí)行公司整體利潤(rùn)下降,接下來(lái)數(shù)據(jù)在獲取過(guò)程中的作弊就不是一個(gè)點(diǎn)發(fā)狀態(tài),而是面發(fā)的狀態(tài)。

      隨后引發(fā)的效應(yīng)是整個(gè)行業(yè)缺少優(yōu)質(zhì)可靠的數(shù)據(jù),客戶對(duì)這種數(shù)據(jù)不滿,進(jìn)而下調(diào)價(jià)格,這個(gè)過(guò)程再蔓延下來(lái)的時(shí)候,研究公司利潤(rùn)攤薄,位于下游的執(zhí)行公司生存更加艱難,作弊必然會(huì)更大范圍地蔓延,這種業(yè)態(tài)會(huì)導(dǎo)致整體客戶滿意度的大幅下降。

      就在這個(gè)過(guò)程當(dāng)中,正好趕上一個(gè)新的時(shí)代,即機(jī)器化數(shù)據(jù)橫空出世,突然之間,甚至一夜之間數(shù)據(jù)不再稀缺了。與此相伴隨產(chǎn)生的是市場(chǎng)調(diào)查業(yè)議價(jià)能力的喪失,單靠獲得數(shù)據(jù)爭(zhēng)取高額利潤(rùn)的可能性微乎其微,這就必然導(dǎo)致在整個(gè)市場(chǎng)調(diào)查行業(yè),執(zhí)行公司如果繼續(xù)在數(shù)據(jù)獲取層面作弊必將面臨大規(guī)模的倒閉潮。

      未來(lái)五年內(nèi)我們可以清楚地看到,研究公司如果不能以踏實(shí)的態(tài)度做研究也必將面臨同樣的生存困境,這是一連串行業(yè)過(guò)程遭遇數(shù)據(jù)生態(tài)轉(zhuǎn)變形成的雪崩效應(yīng)。時(shí)代變了,無(wú)論國(guó)際還是國(guó)內(nèi),調(diào)查公司都需要清楚地認(rèn)識(shí)到這一轉(zhuǎn)變。這是數(shù)據(jù)獲取領(lǐng)域發(fā)生的重大變化,也是今天數(shù)據(jù)分析行業(yè)產(chǎn)生重大轉(zhuǎn)變的起點(diǎn)。

      問(wèn)題是從數(shù)據(jù)獲取時(shí)開(kāi)始的,但是現(xiàn)在大數(shù)據(jù)面臨的最大問(wèn)題不是如何收集數(shù)據(jù),而是如何共享這些數(shù)據(jù)。怎樣才能設(shè)計(jì)和創(chuàng)建一個(gè)數(shù)據(jù)共享的體系架構(gòu),既能夠允許我們出于公益目的提取數(shù)據(jù)內(nèi)部的價(jià)值,同時(shí)又可以保護(hù)個(gè)人隱私。(5)共享數(shù)據(jù)的體系架構(gòu)對(duì)于大數(shù)據(jù)分析是非常重要的,本文將從大數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)方面存在的問(wèn)題和風(fēng)險(xiǎn)進(jìn)一步闡明其必要性。

      (二)非結(jié)構(gòu)化數(shù)據(jù)及數(shù)據(jù)孤島

      我們說(shuō)數(shù)據(jù)資源的稀缺性降低,僅就數(shù)據(jù)的產(chǎn)生、獲取層面而言,而對(duì)于真正從事大數(shù)據(jù)應(yīng)用與分析的專(zhuān)業(yè)人員來(lái)說(shuō),數(shù)據(jù)的質(zhì)量仍舊是問(wèn)題的核心。與數(shù)據(jù)獲取方式變化相伴隨而生的,是數(shù)據(jù)結(jié)構(gòu)本身的巨大變化。即由結(jié)構(gòu)化數(shù)據(jù)向非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)變,且呈現(xiàn)出明顯的孤島化結(jié)構(gòu)。這中間會(huì)帶來(lái)一系列風(fēng)險(xiǎn)與問(wèn)題,從數(shù)據(jù)結(jié)構(gòu)本身來(lái)講,會(huì)存在封閉數(shù)據(jù)、斷裂數(shù)據(jù)、缺失數(shù)據(jù)的問(wèn)題。(6)

      首先,就封閉數(shù)據(jù)而言,涉及我們對(duì)數(shù)據(jù)生態(tài)的基本判斷,現(xiàn)在中國(guó)的數(shù)據(jù)和世界的數(shù)據(jù)都存在比較接近的趨勢(shì),每一個(gè)數(shù)據(jù)都號(hào)稱(chēng)“全”,實(shí)際上都是“孤島”。如騰訊公司會(huì)產(chǎn)生大量的用戶數(shù)據(jù),但騰訊只有騰訊的數(shù)據(jù),這同樣是百度、阿里面臨的數(shù)據(jù)困境,僅擁有自己的數(shù)據(jù),對(duì)任何一個(gè)數(shù)據(jù)來(lái)講都是龐大的“孤島”。

      實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)是大數(shù)據(jù)為商業(yè)公司提供的諸多美好前景之一,優(yōu)酷土豆嘗試根據(jù)用戶在視頻方面產(chǎn)生的數(shù)據(jù)標(biāo)簽做到“千人千面”的廣告投放,但這項(xiàng)工作至今仍然是困難的,因?yàn)榫W(wǎng)站獲取的數(shù)據(jù),包括觀看時(shí)長(zhǎng)、次數(shù)、類(lèi)型這一類(lèi)“大”數(shù)據(jù),而無(wú)法確定到屏幕背后的人。阿里巴巴集團(tuán)與優(yōu)酷土豆完成并購(gòu)協(xié)議之后,兩家平臺(tái)嘗試將用戶在視頻使用行為方面的數(shù)據(jù)與購(gòu)物數(shù)據(jù)(阿里媽媽?zhuān)┻M(jìn)行融合,為實(shí)現(xiàn)相對(duì)準(zhǔn)確的廣告投放提供了可能性,我們是希望找到確定的那個(gè)人,這方面還有許多工作需要做。(7)業(yè)界的案例旨在說(shuō)明,數(shù)據(jù)的貨幣化不是有數(shù)據(jù)就可以,而是數(shù)據(jù)需要能夠?qū)?yīng)到人。

      封閉數(shù)據(jù)本身限制數(shù)據(jù)獲取的多樣性,斷裂數(shù)據(jù)、缺失數(shù)據(jù)則會(huì)使得數(shù)據(jù)獲取僅擁有表面上的全,具體到個(gè)人來(lái)講,數(shù)據(jù)是片面的,只要是片面的,對(duì)整件事情進(jìn)行完整的軌跡模擬就很難實(shí)現(xiàn)。伊達(dá)爾戈(Cesar A.Hidalgo)以其在大數(shù)據(jù)實(shí)踐方面的經(jīng)驗(yàn)提出大數(shù)據(jù)的三個(gè)維度:需要數(shù)量足夠大,解析度足夠,數(shù)據(jù)的范圍或者說(shuō)數(shù)據(jù)的廣度要足夠大,而這是最難達(dá)到的。數(shù)據(jù)的范圍要足夠大,是指它能夠用于了解整個(gè)系統(tǒng)的情況,而不僅僅限于其最初被收集來(lái)的那個(gè)領(lǐng)域或者說(shuō)目的。所以,數(shù)據(jù)要做到范圍足夠大是最困難的,因?yàn)樵S多數(shù)據(jù)可能規(guī)模足夠大、解析度也足夠大,但很難做到范圍也足夠大。(8)

      同時(shí),我們需要考慮到這一生態(tài)中至關(guān)重要的另一主體,人類(lèi)會(huì)自適應(yīng)這種科技的迅猛變化,越來(lái)越多的手機(jī)用戶開(kāi)始有意識(shí)地進(jìn)行痕跡管理。所以,數(shù)據(jù)產(chǎn)業(yè)是一個(gè)非常尷尬的產(chǎn)業(yè),到現(xiàn)在為止,我們并沒(méi)有發(fā)現(xiàn)真正實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè)的案例。

      2014年我們做過(guò)900萬(wàn)移動(dòng)互聯(lián)網(wǎng)用戶的行為數(shù)據(jù),時(shí)間序列持續(xù)半年,應(yīng)該說(shuō),數(shù)據(jù)量已經(jīng)足夠大了??紤]到數(shù)據(jù)結(jié)構(gòu)本身面臨的問(wèn)題,在展開(kāi)深入分析之前我們對(duì)數(shù)據(jù)進(jìn)行了完整的結(jié)構(gòu)化處理。但即便如此,我們?nèi)匀恍枰⒁獾?,這類(lèi)型數(shù)據(jù)所反映的是短時(shí)間內(nèi)、特定時(shí)間內(nèi)的人類(lèi)行為。從人性本身的角度來(lái)講,我們做任何一個(gè)判斷與決策,實(shí)際上是一個(gè)長(zhǎng)時(shí)效果。我們都是根據(jù)我們自己腦袋里信息的沉積做出判斷,這個(gè)判斷是迭代性的,可能很多小時(shí)候的記憶和體驗(yàn)都會(huì)以意識(shí)或意識(shí)不到的方式參與其中。至少在現(xiàn)在,要想把人類(lèi)所有這些信息,尤其基于個(gè)人經(jīng)歷和體驗(yàn)的信息儲(chǔ)存到數(shù)據(jù)里,成本太高。所以無(wú)論哪個(gè)地方的數(shù)據(jù)都是到一定時(shí)間節(jié)點(diǎn)以后進(jìn)行結(jié)構(gòu)化的篩選,留下有價(jià)值的部分。我們是在金礦里面挖金子,還是在荒野上尋找鉆石,這是完全不同的意義。

      回到調(diào)查行業(yè)本身,在這個(gè)時(shí)候大數(shù)據(jù),正常來(lái)講叫機(jī)器化數(shù)據(jù)已經(jīng)被過(guò)度神話,而市場(chǎng)研究公司被積壓在這里,其唯一優(yōu)勢(shì)在于可以擁有結(jié)構(gòu)化、有洞察力的數(shù)據(jù),而要實(shí)現(xiàn)這一點(diǎn)必須滿足兩個(gè)條件:一數(shù)據(jù)是真實(shí)的,二價(jià)格相對(duì)低,這兩件事對(duì)于整個(gè)調(diào)查業(yè)來(lái)說(shuō)具有重要的影響,而且這種影響將會(huì)是長(zhǎng)期的、徹底的,整個(gè)市場(chǎng)調(diào)查業(yè)必須做好準(zhǔn)備面對(duì)這一挑戰(zhàn)與轉(zhuǎn)型。

      (三)數(shù)據(jù)分析能力稀缺

      舉凡涉及數(shù)據(jù),問(wèn)題都是環(huán)環(huán)相扣,牽一發(fā)而動(dòng)全身,這是不以數(shù)據(jù)獲取方式的改變而改變的事情。數(shù)據(jù)獲取的重大轉(zhuǎn)變及問(wèn)題不僅影響整個(gè)調(diào)查業(yè)的生態(tài)與發(fā)展,回到數(shù)據(jù)本身,由于整個(gè)大環(huán)境巨大的變化,在描述環(huán)節(jié)上出現(xiàn)了非常大的問(wèn)題,這個(gè)問(wèn)題形成了新的不同的非良性的循環(huán)。

      在一個(gè)生態(tài)環(huán)境中,在一定時(shí)間內(nèi),其元素具有一定能量轉(zhuǎn)化過(guò)程,當(dāng)數(shù)據(jù)稀缺的問(wèn)題解決以后,不意味著稀缺性的消失,而是原先排在首位的稀缺性因素的重要性降低,而此前不會(huì)被特殊注意的數(shù)據(jù)分析能力成為首要稀缺性資源。

      描述統(tǒng)計(jì)是任何一所大學(xué)的統(tǒng)計(jì)系,及那些涉及統(tǒng)計(jì)學(xué)應(yīng)用專(zhuān)業(yè)的本科生都必須掌握的通識(shí)教育,而我國(guó)很多專(zhuān)業(yè)的本科生尚未能夠得到很好的學(xué)科訓(xùn)練,這是大學(xué)教育中需要注意的問(wèn)題。大數(shù)據(jù)在美國(guó)的應(yīng)用從自然科學(xué)、社會(huì)治理、理論創(chuàng)新的部分興起,帶來(lái)生機(jī)與科學(xué)范式革命般的前景預(yù)期。在我國(guó)則從營(yíng)銷(xiāo)、廣告、商業(yè)領(lǐng)域橫空出世,受到這一發(fā)展軌跡影響,關(guān)于大數(shù)據(jù)傳播最為廣泛的是數(shù)據(jù)可視化方面的進(jìn)展。

      數(shù)據(jù)處理人員、部分學(xué)界專(zhuān)家使用機(jī)器化數(shù)據(jù)做頻率表,交互表分析,進(jìn)而得出一些看起來(lái)非常美麗的圖表與論斷,這些描述的特點(diǎn)在于直接、簡(jiǎn)單、快速,以其形象化和便捷化一時(shí)間帶來(lái)新鮮強(qiáng)大的感覺(jué)。但是數(shù)據(jù)描述不等同于數(shù)據(jù)分析,類(lèi)似啤酒尿布的案例對(duì)于商業(yè)來(lái)說(shuō)或許足夠(何況僅僅是這樣在小數(shù)據(jù)時(shí)代產(chǎn)生的基于關(guān)聯(lián)性的故事,時(shí)至今日,都仍然是大數(shù)據(jù)解決方案專(zhuān)家的常用案例),但如果滿足于此,數(shù)據(jù)無(wú)論在廣度、深度、范圍層面達(dá)到何種成就都只是商業(yè)附庸,而不可能擁有真正的科學(xué)內(nèi)涵,并對(duì)科學(xué)研究、理論創(chuàng)新產(chǎn)生實(shí)質(zhì)性的影響。

      對(duì)于整個(gè)商業(yè)環(huán)境而言,機(jī)器化數(shù)據(jù)由于資料收集簡(jiǎn)單,整理數(shù)據(jù)的過(guò)程非常容易。所以直接面向銷(xiāo)售,針對(duì)模型訓(xùn)練和優(yōu)化花一點(diǎn)時(shí)間都嫌跟不上市場(chǎng)的變化,甚至開(kāi)發(fā)出“online learning”(在線學(xué)習(xí)),爬蟲(chóng)、數(shù)字營(yíng)銷(xiāo)、精準(zhǔn)推送、數(shù)據(jù)發(fā)布、數(shù)據(jù)公關(guān)、廣告推送都呈現(xiàn)出生機(jī)勃勃的態(tài)勢(shì)。巨額的市場(chǎng)利潤(rùn)確實(shí)產(chǎn)生了,但是數(shù)據(jù)的真實(shí)性經(jīng)得住檢驗(yàn)嗎?哪一個(gè)機(jī)器化的數(shù)據(jù)拿出來(lái)說(shuō)可以代表市場(chǎng),因?yàn)槎际菙?shù)據(jù)孤島。

      再回到市場(chǎng)調(diào)查業(yè),大型公司由于沒(méi)有應(yīng)對(duì)而處于措手不及的狀態(tài),筆者在行業(yè)這么多年,有機(jī)會(huì)就在呼吁洞察的重要性。實(shí)際上我們的研究人員正在日益變成填數(shù)工具,而忽視洞察的重要性。數(shù)據(jù)不再稀缺,在機(jī)器化數(shù)據(jù)面前,雖然數(shù)據(jù)的真假存疑,但機(jī)器化數(shù)據(jù)的成本趨近于零,傳統(tǒng)數(shù)據(jù)收集過(guò)程及其分析如無(wú)獨(dú)特優(yōu)勢(shì)自然無(wú)法與之爭(zhēng)勝,所以大中型研究公司的解體、兼并、重組在不遠(yuǎn)的將來(lái)一定會(huì)出現(xiàn),這是沒(méi)有辦法的趨勢(shì)。

      二、數(shù)據(jù)行業(yè)的危險(xiǎn)趨勢(shì)

      從數(shù)據(jù)生態(tài)本身的轉(zhuǎn)變和面臨的問(wèn)題出發(fā),我們探討了數(shù)據(jù)生態(tài)的變化情形對(duì)整個(gè)調(diào)查行業(yè)產(chǎn)生的影響,回到數(shù)據(jù)行業(yè)本身,我們首先來(lái)探討數(shù)據(jù)行業(yè)在整個(gè)大環(huán)境影響下會(huì)出現(xiàn)的七個(gè)危險(xiǎn)趨勢(shì):

      (一)過(guò)度追求數(shù)據(jù)的抓取與擁有

      “數(shù)據(jù)就是原油”這一口號(hào)盛行良久,其誤區(qū)在于,仍然在強(qiáng)調(diào)甚至過(guò)度強(qiáng)調(diào)數(shù)據(jù)的稀缺性,重視數(shù)據(jù)的抓取擁有成為業(yè)界學(xué)界的一個(gè)基本危險(xiǎn)趨勢(shì),其客觀準(zhǔn)確的表述應(yīng)是“優(yōu)質(zhì)數(shù)據(jù)是原油”,這里反映出一個(gè)比較好的現(xiàn)象是,人們開(kāi)始培養(yǎng)起“用數(shù)據(jù)說(shuō)話”的意識(shí),隨移動(dòng)互聯(lián)網(wǎng)的發(fā)展,人們本身對(duì)數(shù)據(jù)的認(rèn)知在不斷增長(zhǎng),這也要拜數(shù)據(jù)可視化簡(jiǎn)單直接的呈現(xiàn)所賜。但其負(fù)面影響是打開(kāi)互聯(lián)網(wǎng)時(shí),每天有無(wú)數(shù)的數(shù)據(jù)撲面而來(lái),泥沙俱下,魚(yú)龍混雜。如果人們對(duì)世界的印象和認(rèn)識(shí)建立在這樣沒(méi)有經(jīng)過(guò)檢驗(yàn)的數(shù)據(jù)之上,無(wú)論對(duì)誰(shuí),都是非常危險(xiǎn)的。

      (二)數(shù)據(jù)分析簡(jiǎn)化為資料整理

      承接第一條趨勢(shì),數(shù)據(jù)分析正在被一個(gè)狹窄的概念所牽引——數(shù)據(jù)可視化,在這一狹窄概念的指引下,從業(yè)者很容易認(rèn)為數(shù)據(jù)分析的任務(wù)就是整理那些來(lái)自大公司、大組織的海量數(shù)據(jù),所謂分析就是整理數(shù)據(jù)。很少探究關(guān)聯(lián),無(wú)論因果,將數(shù)據(jù)展示中的可視化等同于大數(shù)據(jù)分析,這一點(diǎn)新聞媒體更起到推波助瀾的作用。

      大量的機(jī)構(gòu)、公司傳播缺乏真正有研究?jī)r(jià)值的數(shù)據(jù)和結(jié)論,但是它正在統(tǒng)領(lǐng)我們這個(gè)時(shí)代。因?yàn)樗切蜗蠡?、易解讀的。在整個(gè)大數(shù)據(jù)分析中,數(shù)據(jù)清洗成為其非常重要的部分,而模型選擇、數(shù)據(jù)分析主要由機(jī)器學(xué)習(xí)完成。將數(shù)據(jù)可視化這樣的展示技術(shù)和數(shù)據(jù)分析的不同功能混淆是致命的錯(cuò)誤。

      (三)不談抽樣和推斷

      關(guān)于大數(shù)據(jù)、推斷與抽樣的關(guān)系,是數(shù)據(jù)科學(xué)不可回避的問(wèn)題。不談抽樣,不談推斷,不談適用范圍,只談數(shù)字的描述性結(jié)果。這一風(fēng)險(xiǎn)我們?cè)?012年已經(jīng)從統(tǒng)計(jì)學(xué)角度進(jìn)行過(guò)論證(9),本文不再贅述。

      在實(shí)際運(yùn)用中,當(dāng)前非常危險(xiǎn)的一個(gè)趨勢(shì)在于數(shù)據(jù)被廣泛應(yīng)用于公關(guān),我們?cè)谏缃幻襟w上最常見(jiàn)的各種排行榜、排名即是其中之一,主要用于融資、公關(guān)宣傳。這一趨勢(shì)的風(fēng)險(xiǎn)也體現(xiàn)在當(dāng)前創(chuàng)業(yè)風(fēng)潮中一系列創(chuàng)業(yè)項(xiàng)目在融資完成之后市值大面積縮水,單純計(jì)算閱讀率、一個(gè)時(shí)點(diǎn)的點(diǎn)擊量是沒(méi)有實(shí)際意義的。這一過(guò)程對(duì)整個(gè)產(chǎn)業(yè)、數(shù)據(jù)科學(xué)甚至社會(huì)發(fā)展,將形成致命的危害。

      (四)數(shù)據(jù)真實(shí)與基礎(chǔ)研究薄弱

      以上三點(diǎn)造成的長(zhǎng)期后果就是數(shù)據(jù)的真實(shí)性問(wèn)題,進(jìn)而影響基礎(chǔ)研究的發(fā)展。數(shù)據(jù)科學(xué)本身要求精確、客觀、中立。但用于公關(guān)首先威脅的就是數(shù)據(jù)真實(shí),如果真實(shí)的數(shù)據(jù)是資方排名靠后,那為什么還要真實(shí)?這是顯而易見(jiàn)的商業(yè)真實(shí),同樣從商業(yè)角度出發(fā),這時(shí)候做基礎(chǔ)研究的投資回報(bào)率就會(huì)不斷降低,與美國(guó)相對(duì)照我們的應(yīng)用研究一點(diǎn)都不差,但是基礎(chǔ)研究呢?基礎(chǔ)研究嚴(yán)重不足,學(xué)界如此,市場(chǎng)研究行業(yè)也是如此。

      (五)算法崇拜

      模型在大數(shù)據(jù)時(shí)代一早就被認(rèn)為要過(guò)時(shí)了,但算法一說(shuō)廣受歡迎,認(rèn)為數(shù)據(jù)分析就是算法,就是不斷調(diào)整算法。但是,如何選擇某一種算法或者其競(jìng)爭(zhēng)算法,這樣的算法又解釋或適應(yīng)了人類(lèi)行為中的哪些規(guī)律,這些問(wèn)題鮮少問(wèn)津。

      數(shù)據(jù)科學(xué)家成為近年來(lái)非常受歡迎的形象,以《犯罪心理》為例,同時(shí)擁有天才數(shù)據(jù)分析師和數(shù)據(jù)庫(kù)專(zhuān)家的行為分析小組,在做嫌疑人側(cè)寫(xiě),或者遇到連環(huán)殺人案需要做案情預(yù)測(cè)時(shí),其固定模式首先是負(fù)責(zé)案情分析的探員對(duì)已有數(shù)據(jù)進(jìn)行深度考察與分析:現(xiàn)場(chǎng)、作案手法、性格特征分析等,這依據(jù)的是心理學(xué)、腦科學(xué)、社會(huì)學(xué)等一系列科學(xué)訓(xùn)練,而數(shù)據(jù)庫(kù)專(zhuān)家的主要工作是依據(jù)探員們分析得出的結(jié)論和需求進(jìn)行交叉比對(duì),定位身份、地點(diǎn)、車(chē)牌、居住地等具體信息。數(shù)據(jù)分析過(guò)程重要的是做好每一步,這里的每一步不僅指數(shù)據(jù)整理、清洗,更重要的是來(lái)自數(shù)據(jù)分析人員縝密的思維判斷與決策過(guò)程,甚至直覺(jué)、靈感與想象力的恰當(dāng)運(yùn)用?,F(xiàn)實(shí)中FBI行為分析部創(chuàng)始人約翰·道格拉斯將現(xiàn)場(chǎng)分析過(guò)程歸納為解答三個(gè)問(wèn)題,即“什么、為什么、是誰(shuí)”(10),其信條與我們?cè)跀?shù)據(jù)分析領(lǐng)域所堅(jiān)持的方法論異曲同工。

      計(jì)算機(jī)科學(xué)自2000年成為熱門(mén)專(zhuān)業(yè)以來(lái),并沒(méi)有在數(shù)據(jù)科學(xué)領(lǐng)域貢獻(xiàn)多少極具價(jià)值的智慧。算法是數(shù)和數(shù)的對(duì)話,算法即便是屠龍刀,首先需要持刀者心中有道,而其次需要有龍可屠,這里的“有”既指優(yōu)質(zhì)數(shù)據(jù)本身,也指分析人員的科學(xué)素養(yǎng),需要持刀者能識(shí)別真正的龍。我們需要分析的是人及其行為,算法到底適應(yīng)人類(lèi)行為的哪種規(guī)律是需要經(jīng)過(guò)驗(yàn)證的,而試圖驗(yàn)證整個(gè)時(shí)代,這是一個(gè)偽命題。

      (六)深度數(shù)據(jù)分析稀缺

      我們身處一個(gè)強(qiáng)調(diào)速度、鏈接的世界,全球化進(jìn)程不斷深入的過(guò)程中,人們用以認(rèn)識(shí)世界、描述世界的方式必然會(huì)發(fā)生深刻改變。大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析亦是如此,一個(gè)號(hào)稱(chēng)“人人都會(huì)數(shù)據(jù)分析”的時(shí)代,每個(gè)人都能使用可視化軟件做一點(diǎn)數(shù)據(jù)整理,一味追求速度,嚴(yán)重犧牲了深度和質(zhì)量。無(wú)論學(xué)界或者是業(yè)界都有這個(gè)風(fēng)險(xiǎn),越來(lái)越少專(zhuān)家型人才,而且越來(lái)越少人愿意去做,因?yàn)檫@相對(duì)而言,是一個(gè)慢的過(guò)程。

      2013年Gigaom(美國(guó)知名科技博客)的分析師在回應(yīng)人們對(duì)大數(shù)據(jù)的批評(píng)時(shí)指出:1.大數(shù)據(jù)確實(shí)更多地依靠事物相關(guān)性而非因果關(guān)系,大數(shù)據(jù)只是通過(guò)揭示事物相關(guān)性以提醒我們哪些事情值得進(jìn)一步深入挖掘。2.網(wǎng)頁(yè)派生的數(shù)據(jù)僅是大數(shù)據(jù)的一部分而非全部,社交媒體數(shù)據(jù)不應(yīng)取代傳統(tǒng)的消費(fèi)者服務(wù)或市場(chǎng)研究數(shù)據(jù),網(wǎng)頁(yè)和社交媒體數(shù)據(jù)僅是為決策提供海量的數(shù)據(jù)源。為用戶推薦歌曲只是小事,但在醫(yī)療、金融甚至銷(xiāo)售領(lǐng)域,人們知道是什么之后,就會(huì)想知道為什么?你知道的比聚類(lèi)算法帶給你的結(jié)果越多,你越能和客戶建立良好的聯(lián)系。(11)

      應(yīng)該說(shuō)這是整個(gè)數(shù)據(jù)分析領(lǐng)域最大的問(wèn)題,越來(lái)越多的數(shù)據(jù)可視化軟件、開(kāi)源數(shù)據(jù)庫(kù)在網(wǎng)絡(luò)上都可以非常容易地找到、通過(guò)視頻教學(xué)甚至看說(shuō)明就可以進(jìn)行操作,這是數(shù)據(jù)時(shí)代帶來(lái)的便利之一,但作為市場(chǎng)研究整個(gè)行業(yè),基于數(shù)據(jù)的研究領(lǐng)域不應(yīng)止步于此,而至于以此為追求更是舍本逐末,為米折腰。數(shù)據(jù)可視化在提出問(wèn)題、帶來(lái)假設(shè)方面具有非常好的優(yōu)勢(shì),但是如何理解問(wèn)題背后的人、社會(huì)機(jī)制和變遷過(guò)程,是需要深度分析和洞察的。

      (七)科學(xué)積累與延續(xù)性不足

      “今天才智平庸的人就能解決的問(wèn)題,過(guò)去卻是偉大人物也不能解決的問(wèn)題,這一點(diǎn)就是對(duì)真正積累性知識(shí)的最嚴(yán)格檢驗(yàn)?!边@一現(xiàn)象是對(duì)那些科學(xué)的積累與繼承比較完善的學(xué)科一個(gè)非常形象的描繪,默頓在提到這一點(diǎn)時(shí)認(rèn)為:“由于相當(dāng)遙遠(yuǎn)的過(guò)去的理論和發(fā)現(xiàn)在很大程度上被結(jié)合到現(xiàn)今的積累性知識(shí)中,所以對(duì)過(guò)去偉大貢獻(xiàn)者的紀(jì)念實(shí)質(zhì)上被保留在這一學(xué)科的歷史之中?!?12)而今天的大數(shù)據(jù)應(yīng)用領(lǐng)域,甚至數(shù)據(jù)分析領(lǐng)域,至少就國(guó)內(nèi)的大部分情形而言,卻很可能是只做到了前者,移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)與深入發(fā)展正在深刻地改變著人類(lèi)的日常生活圖景與社會(huì)關(guān)系,這對(duì)于科學(xué)研究、經(jīng)濟(jì)發(fā)展都是非常重要的研究領(lǐng)域,尤其需要知識(shí)的深度積累與延續(xù)。

      在數(shù)據(jù)分析這一行業(yè)中,尤其是社會(huì)統(tǒng)計(jì)分析領(lǐng)域中,創(chuàng)新是慢功夫,窺探堂奧決不是一兩年的事情,數(shù)據(jù)研究同其他科學(xué)領(lǐng)域一樣,需要時(shí)間、經(jīng)驗(yàn)、知識(shí)的累積,對(duì)數(shù)據(jù)背后的規(guī)律進(jìn)行體察,需要的不是機(jī)器,而是經(jīng)過(guò)科學(xué)訓(xùn)練的頭腦和進(jìn)行判斷的能力。

      朱自清先生在其《經(jīng)典常談》中,提到公孫龍及其觀念,他(公孫龍)說(shuō)概念有獨(dú)立分離的存在。譬如一塊堅(jiān)而白的石頭,看的時(shí)候只見(jiàn)白,沒(méi)有堅(jiān);摸的時(shí)候只覺(jué)堅(jiān),不見(jiàn)白。所以白性與堅(jiān)性兩者是分離的。白性使物白,堅(jiān)性使物堅(jiān);這些雖然必須因具體的物而見(jiàn),但實(shí)在有著獨(dú)立的存在,不過(guò)是潛存罷了,這叫作“離堅(jiān)白”,(13)離堅(jiān)白一說(shuō)自有其在哲學(xué)上的妙思與價(jià)值,僅就觀察方式而言,這離堅(jiān)白正是目前數(shù)據(jù)分析領(lǐng)域里諸多危險(xiǎn)趨勢(shì)之形象概括,單一數(shù)據(jù)所表現(xiàn)出的單一特征成為預(yù)測(cè)、推斷的重要支點(diǎn)。而人非草木,每一個(gè)獨(dú)立個(gè)體、群體在其日常生活世界中所體現(xiàn)出的行為特征恰是依據(jù)整合而非分離才能有所體察與了解。所以在這個(gè)領(lǐng)域當(dāng)中,后面的風(fēng)險(xiǎn)就出來(lái)了,什么是分析,如何在科學(xué)的角度下去理解數(shù)據(jù),理解數(shù)據(jù)分析,本文僅以作者在本科生、研究生的方法課上進(jìn)行的統(tǒng)計(jì)思維訓(xùn)練為例,揭示其中的實(shí)際風(fēng)險(xiǎn),提出一點(diǎn)建議。

      三、數(shù)據(jù)作為一種科學(xué)

      “但是,去接近真實(shí)的理論和去把握其確切的應(yīng)用,正像科學(xué)史教導(dǎo)我們的那樣,是兩件非常不同的事情。每一項(xiàng)重要的事情都已經(jīng)在發(fā)現(xiàn)它之前被人談到了?!?14)而在定量研究中可能恰恰需要將理論和其確切應(yīng)用緊密結(jié)合在一起,否則數(shù)只是數(shù),是比例,而不是人,更不是日常生活,不是社會(huì)運(yùn)行的結(jié)構(gòu)和趨勢(shì)。如果不能夠意識(shí)到數(shù)據(jù)和數(shù)據(jù)分析的真正要義,不要談?lì)A(yù)測(cè),連真實(shí)的情況都很難掌握。

      (一)定量的美麗與陷阱

      定量研究不是量化,也遠(yuǎn)非是幾行列聯(lián)表、頻率表,更多的是一種思維方式。數(shù)據(jù)想騙人是非常容易的,需要研究者有豐富的經(jīng)驗(yàn)、直覺(jué)、受過(guò)基本統(tǒng)計(jì)學(xué)訓(xùn)練的分析和思維能力。下面僅以通常比較流行的簡(jiǎn)單表為例,談一下定量的美麗和陷阱。(15)

      案例一:簡(jiǎn)單表的危險(xiǎn)(外加變量)

      表1 不同年齡群體喜歡閱讀某雜志的比例(%)

      從簡(jiǎn)單的描述分析來(lái)看,老年人比年輕人更喜歡閱讀某份雜志,而實(shí)際的結(jié)果是,加入文化程度這一控制變量后,老年人和年輕人沒(méi)有任何差異。

      不同文化程度之間有差別嗎?表3所有的結(jié)果都顯示高文化程度的比低文化程度的人更喜歡,但表2的結(jié)果是無(wú)差別,如果以表2結(jié)論作為判斷,則是使用了虛假相關(guān)作為判斷依據(jù)行事。

      案例二:簡(jiǎn)單表的危險(xiǎn)(抑制變量)

      表2 不同文化程度的群體喜歡閱讀某雜志的比例(%)

      表3 不同年齡段、不同文化程度的群體喜歡閱讀某雜志的比例(%)

      案例三:簡(jiǎn)單表的危險(xiǎn)(歪曲變量)

      表4 不同勞動(dòng)階層民權(quán)意識(shí)高低比例(%)

      表5 分種族不同勞動(dòng)階層民權(quán)意識(shí)高低比例(%)

      我們從表4看到的是藍(lán)領(lǐng)比白領(lǐng)的民權(quán)意識(shí)更強(qiáng),而表5則呈現(xiàn)出另一番結(jié)論,跟抽樣無(wú)關(guān),跟推斷方式無(wú)關(guān),數(shù)據(jù)本身的結(jié)構(gòu)就是這樣的。數(shù)據(jù)是美麗的,這是定量研究本身的魅力,但背后充滿了數(shù)據(jù)陷阱。簡(jiǎn)單確有其效率,但用于結(jié)論推斷,存在很多陷阱與風(fēng)險(xiǎn),研究人員必須對(duì)此有清醒認(rèn)識(shí)和辨別能力。

      (二)結(jié)構(gòu)洞察與趨勢(shì)判斷

      結(jié)構(gòu)是不以人的意志為轉(zhuǎn)移的,決定著很多的結(jié)果。結(jié)構(gòu)在社會(huì)科學(xué)研究中的運(yùn)用確實(shí)受到很多學(xué)派的批判與質(zhì)疑,但完全不承認(rèn)結(jié)構(gòu)及其產(chǎn)生影響的過(guò)程屬于矯枉過(guò)正。2015年7月初,我國(guó)股市大幅震蕩,幾乎將每一個(gè)普通民眾都卷入與此相關(guān)的討論,甚至經(jīng)濟(jì)利益的巨大變動(dòng)中,一時(shí)間輿論嘩然:股市為什么會(huì)這樣?我們于7月15日—27日投放問(wèn)卷,在全國(guó)范圍內(nèi),以等比例分層抽樣,獲取1000份有效樣本,采用劉德寰提出的“深描式分析法”對(duì)中國(guó)股民進(jìn)行建模分析,以期從中對(duì)中國(guó)股市的諸多現(xiàn)象做一個(gè)結(jié)構(gòu)性了解與分析,具體結(jié)果如圖1所示。

      從結(jié)構(gòu)看,中國(guó)股民的結(jié)構(gòu)特點(diǎn)是:

      1.30歲以下的年輕人中低學(xué)歷的比例更多,高學(xué)歷相對(duì)比例偏低。

      2.40歲以上的中老年群體中,低學(xué)歷群體比例高,高學(xué)歷比例偏低。

      3.30—40歲群體中,學(xué)歷越高炒股比例越高。

      一個(gè)典型的反橄欖型結(jié)構(gòu),這個(gè)結(jié)構(gòu)帶來(lái)的后果是什么?在知識(shí)體系相對(duì)更完善,以經(jīng)濟(jì)學(xué)假設(shè)中相對(duì)更容易具有完備理性的群體占比偏低,而他們的知識(shí)和判斷又很難被股民群體中為數(shù)者眾多的低學(xué)歷、年輕與年長(zhǎng)群體所認(rèn)可(這兩類(lèi)群體接收、判斷股市消息的主要渠道是自己的朋友、家人、傳統(tǒng)媒體),一旦消息出來(lái),為數(shù)眾多的兩端群體就會(huì)聞風(fēng)而動(dòng),知識(shí)、趨勢(shì)、判斷毫無(wú)立足之地。

      反橄欖型這一結(jié)構(gòu)本身會(huì)極化很多行為,股市會(huì)出現(xiàn)非理性漲、無(wú)原則跌,遑論全球資本市場(chǎng)、國(guó)家政策的影響。這個(gè)結(jié)構(gòu)在消解知識(shí)資本,讓消息左右股市;這個(gè)結(jié)構(gòu)會(huì)讓擁有知識(shí)和資本的中產(chǎn)階層巨虧,讓每天買(mǎi)賣(mài)的兩端群體跌宕起伏,而獲益的只有莊家。這個(gè)反橄欖型結(jié)構(gòu)會(huì)讓價(jià)值投資淪為概念,只會(huì)強(qiáng)化炒作,而脫離投資的應(yīng)有之義。

      圖1 分年齡、不同文化程度股民的Logistic回歸模型

      中國(guó)調(diào)查業(yè)從來(lái)不缺數(shù)據(jù),從來(lái)不缺所謂的描述,只缺分析。對(duì)于結(jié)構(gòu)和社會(huì)趨勢(shì)的分析需要我們?cè)诶碚摵蛯?shí)證研究的實(shí)踐中做更緊密的結(jié)合。正如默頓曾經(jīng)強(qiáng)調(diào)的:只有當(dāng)經(jīng)驗(yàn)研究是理論導(dǎo)向的并且當(dāng)理論是由經(jīng)驗(yàn)證實(shí)的,才能獲得連貫性而不是分散。(16)其中非常重要的工作就是數(shù)據(jù)科學(xué)的整合與細(xì)分。

      (三)數(shù)據(jù)科學(xué)的整合與細(xì)分

      我們有責(zé)任把解釋建立在真憑實(shí)據(jù)的基礎(chǔ)上。我們?cè)谶@里使用各種方法,是想盡可能地使我們的論證更加精確。要想使事實(shí)秩序成為一種審慎的科學(xué),光靠縝密的觀察、描述和分類(lèi)是不夠的,更加困難的是找到它們?nèi)绾巫兂煽茖W(xué)的角度。用笛卡爾的話說(shuō):在事實(shí)中找到某些能夠帶來(lái)精確性的客觀要素,可能的話,還要找到測(cè)量這些事實(shí)的方法。(17)問(wèn)題的提出有時(shí)并不比解答更為容易,因?yàn)樵诰薮蟮睦婊蚨桃暶媲?,人們很難從科學(xué)發(fā)展的角度來(lái)看技術(shù)帶來(lái)的可能與限制。

      在文章的最后,我們做一個(gè)總結(jié),數(shù)據(jù)分析在今天的情勢(shì)下成為一門(mén)科學(xué)的可能性,存在六個(gè)不難,六個(gè)不易:1.抓數(shù)據(jù)不難,分析數(shù)據(jù)不易。2.整理數(shù)據(jù)不難,理清關(guān)聯(lián)不易。3.找相關(guān)不難,探因果不易。4.建數(shù)學(xué)模型不難,分析一個(gè)結(jié)果不易。5.軟件做個(gè)模型不難,將洞察融入軟件不易。6.數(shù)據(jù)中看結(jié)果再分析不難,結(jié)果中想數(shù)據(jù)再分析不易。

      如果數(shù)據(jù)失去了分析,于人于國(guó)于產(chǎn)業(yè)都是無(wú)益的。所以我們要清醒地看到數(shù)據(jù)科學(xué)的基本細(xì)分,尋找規(guī)律無(wú)方法高低之分,采用的調(diào)查方法也需要不斷提升,抽樣調(diào)查不可能被替代,它永遠(yuǎn)是其中一個(gè)步驟,它也不是全部。

      在找到規(guī)律之后,如果能夠形成程序化的東西進(jìn)行驗(yàn)證、證偽推斷和優(yōu)化,這是沒(méi)有問(wèn)題的,但前提是先把真實(shí)的規(guī)律找到。

      在大小數(shù)據(jù)集之間如果要進(jìn)行整合的話,有以下三種分析鏈條:

      一是通過(guò)抽樣調(diào)查探索規(guī)律,這個(gè)過(guò)程中需要分析人員充分投入自己的思想和判斷,然后使用現(xiàn)在的大數(shù)據(jù),將這種規(guī)律程序化。

      二是大數(shù)據(jù)發(fā)現(xiàn)新的規(guī)律,通過(guò)抽樣數(shù)據(jù)驗(yàn)證其規(guī)律的可靠性。

      三是大數(shù)據(jù)發(fā)現(xiàn)可能性,不斷調(diào)整規(guī)則影響規(guī)則,進(jìn)而確認(rèn)規(guī)則,最終實(shí)現(xiàn)大數(shù)據(jù)程序化。這三種鏈條當(dāng)中都有可能性的存在,第三條能成的可能性微乎其微,而目前相對(duì)成功的是第二條,產(chǎn)業(yè)界像樂(lè)購(gòu)、ZARA、亞馬遜真正在做的智能推送的前提是實(shí)驗(yàn)、抽樣調(diào)查,大數(shù)據(jù)分析需要會(huì)編程的人和會(huì)分析、會(huì)思考的人結(jié)合在一起。

      在大數(shù)據(jù)概念大行其道之時(shí),即便真正從事這項(xiàng)事業(yè)的人都已表明其局限性的時(shí)候,我們?nèi)匀粨?dān)心一點(diǎn)質(zhì)疑和審慎會(huì)被視為過(guò)分保守而不能起到其應(yīng)有的作用,而實(shí)質(zhì)上,正因?yàn)槲覀儽旧韽氖轮鴶?shù)據(jù)分析這項(xiàng)事業(yè),反而比任何人更希望看到軟件、數(shù)據(jù)采集方式、分析方法的進(jìn)步,看到這一領(lǐng)域真正的、長(zhǎng)足的進(jìn)步。如韋伯所言,在科學(xué)中,我們每個(gè)人都知道,一個(gè)人所完成的東西,在十年、二十年、五十年內(nèi)就會(huì)過(guò)時(shí)。這就是科學(xué)的宿命,這也正是科學(xué)工作的真正意義所在。比起其他有著基本不變主題的文化領(lǐng)域來(lái),科學(xué)具有不同的特點(diǎn)。每一個(gè)科學(xué)成就都提出新的“問(wèn)題”,它要求被超越和變得“過(guò)時(shí)”,無(wú)論誰(shuí)希望效力于科學(xué),他都必須承認(rèn)這一事實(shí)??茖W(xué)著作當(dāng)然能夠作為“令人高興之事”而留存下來(lái),因?yàn)樗鼈冇兴囆g(shù)的特性;或者他們還保留著作為訓(xùn)練手段的重要性。但是,在科學(xué)上他們終將被超越。讓我們重復(fù)這一點(diǎn),因?yàn)檫@是我們共同的命運(yùn),也更是我們共同的目標(biāo)。(18)

      數(shù)據(jù)的整合與細(xì)分是非常重要的,我們從數(shù)據(jù)里面需要獲得的是知識(shí)和洞見(jiàn),是運(yùn)用我們最嚴(yán)謹(jǐn)?shù)膶W(xué)科訓(xùn)練和與生俱來(lái)的思維直覺(jué)去觀察社會(huì)事實(shí),去理解人類(lèi)行為,推動(dòng)社會(huì)進(jìn)步。信息從人類(lèi)的祖先開(kāi)始一點(diǎn)一點(diǎn)刻畫(huà)在石壁上,發(fā)展到今天全世界都被鏈接在一行一行的代碼中,我們走了這么遠(yuǎn),是為了一個(gè)更為秩然有序、粲然可觀,人類(lèi)對(duì)于自己所身處的世界其可言說(shuō)之處多于其晦暗不明的未來(lái)。

      注釋?zhuān)?/p>

      (1) [德]齊美爾:《社會(huì)是如何可能的》,林榮遠(yuǎn)譯,廣西師范大學(xué)出版社2002年版,第1頁(yè)。

      (2) 劉德寰:《管窺美國(guó)調(diào)查業(yè)——在游戲、質(zhì)疑與驗(yàn)證中走向決策支柱的民意測(cè)驗(yàn)》,《市場(chǎng)研究》,2005年第7期。

      (3)(6)(9) 劉德寰、李雪蓮:《大數(shù)據(jù)的風(fēng)險(xiǎn)和現(xiàn)存問(wèn)題》,《廣告大觀·理論版》,2013年第3期。

      (4) Armen A.Alchian,William R.Allen.University Economics:Elements of Inquiry.Wadsworth Publishing Company,1972,pp.3-10.

      (5)(8) 材料來(lái)源:http://www.huawei.com/cnapp/2091/hw-148776.htm,訪問(wèn)日期:2015年11月19日。

      (7) 材料來(lái)自優(yōu)酷土豆副總裁杜長(zhǎng)嶸于2015年11月20日在北京大學(xué)新媒體研究院的講座內(nèi)容。

      (10) [美]約翰·道格拉斯、馬克·奧爾謝克:《心理神探》,閻衛(wèi)平、王春生譯,譯林出版社1999年版,第2頁(yè)。

      (11) 材料來(lái)自:http://gigaom.com/2013/05/28/if-youre-disappointed-with-big-data-youre-not-paying-attention/訪問(wèn)日期:2015年11月19日。

      (12) [美]羅伯特·K·默頓:《社會(huì)理論和社會(huì)結(jié)構(gòu)》,唐少杰、齊心等譯,譯林出版社2006年版,第42-43頁(yè)。

      (13) 朱自清:《經(jīng)典常談》,中華書(shū)局2009年版,第80頁(yè)。

      (14) [英]艾爾弗萊德·懷特海:《思想的組織》,載羅伯特K·默頓:《社會(huì)理論和社會(huì)結(jié)構(gòu)》,唐少杰、齊心等譯,譯林出版社2006年版,第3頁(yè)。

      (15) 關(guān)于簡(jiǎn)單表格分析會(huì)帶來(lái)的風(fēng)險(xiǎn),主要參考M.羅森伯格:《調(diào)查分析的邏輯》,徐正光、黃順二譯,臺(tái)灣黎明文化事業(yè)公司1979年版。所引用案例表1、表4、表5均來(lái)自該書(shū)。表2、表3及本節(jié)第二部分分析所涉及的模型均已經(jīng)過(guò)顯著性檢驗(yàn),因主要用于例證及篇幅關(guān)系,不逐一列出。

      (16) [美]羅伯特·K.默頓:《社會(huì)理論和社會(huì)結(jié)構(gòu)》,唐少杰、齊心等譯,譯林出版社2006年版,第220頁(yè)。

      (17) 涂爾干:《社會(huì)分工論》,渠東譯,生活·讀書(shū)·新知三聯(lián)書(shū)店2000年版,第11頁(yè)。

      (18) [德]馬克斯·韋伯:《馬克斯·韋伯:社會(huì)學(xué)文集》,載羅伯特·K.默頓:《社會(huì)理論和社會(huì)結(jié)構(gòu)》,唐少杰、齊心等譯,譯林出版社2006年版,第44頁(yè)。

      (作者劉德寰系北京大學(xué)新媒體研究院副院長(zhǎng)、教授、博士生導(dǎo)師;李雪蓮系北京大學(xué)新聞與傳播學(xué)院博士研究生)

      【責(zé)任編輯:張國(guó)濤】

      猜你喜歡
      市場(chǎng)調(diào)查大數(shù)據(jù)
      數(shù)據(jù)統(tǒng)計(jì)分析法在市場(chǎng)調(diào)查中的對(duì)比探析
      人群對(duì)生鮮配送到家的市場(chǎng)認(rèn)可度調(diào)研
      山東省西部經(jīng)濟(jì)隆起帶的旅游品牌設(shè)計(jì)研究
      市場(chǎng)調(diào)查的可靠與不可靠
      現(xiàn)代企業(yè)新產(chǎn)品營(yíng)銷(xiāo)管理策略研究
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      大學(xué)生旅游市場(chǎng)調(diào)查分析及開(kāi)發(fā)建議
      介休市| 织金县| 永修县| 双流县| 讷河市| 余姚市| 大理市| 玛纳斯县| 项城市| 囊谦县| 新巴尔虎左旗| 岑溪市| 荔波县| 佳木斯市| 宜阳县| 长寿区| 康平县| 廊坊市| 云龙县| 托克托县| 巴塘县| 西乌珠穆沁旗| 东兴市| 三河市| 肥城市| 利辛县| 冀州市| 宁南县| 海伦市| 九寨沟县| 沙河市| 龙川县| 连州市| 思南县| 仁化县| 巩留县| 出国| 永济市| 文安县| 紫阳县| 保定市|