我們正在經(jīng)歷一場由大數(shù)據(jù)引發(fā)的社會革命。人類生活中的一切活動,每次購買,每次對話,每次社交,每次移動,甚至我們的身份和身體的變化都成為信息收集、存儲、分析和使用的對象。多樣化的數(shù)據(jù)、巨大的數(shù)據(jù)量以及它們潛在的商業(yè)價值已經(jīng)開始對社會經(jīng)濟和公民隱私產(chǎn)生深遠的影響。
當(dāng)大數(shù)據(jù)快速向社會的各個方面滲透時,政府與公民、政府與企業(yè)、政府與政府之間的關(guān)系正在發(fā)生變化。如同任何一種新科學(xué)(如核物理)出現(xiàn)一樣,政策會對這門科學(xué)的應(yīng)用產(chǎn)生深遠的影響??茖W(xué)既能造福人類也可能危害人類,大數(shù)據(jù)也不例外。有遠見的國家戰(zhàn)略和政策一定是在保護公民隱私權(quán)的前提下,加速數(shù)據(jù)信息的自由流動,鼓勵創(chuàng)新,催生新產(chǎn)業(yè),創(chuàng)造新就業(yè),進而促進國家的經(jīng)濟繁榮。
從借鑒比較國外政府的經(jīng)驗入手,研究制定適合國情的大數(shù)據(jù)發(fā)展戰(zhàn)略和發(fā)展路徑,是繼續(xù)深化政務(wù)電子化,加快實現(xiàn)中央提出的健全國家治理體系與治理能力現(xiàn)代化的明智之舉。
美國的大數(shù)據(jù)戰(zhàn)略布局
以美國為代表的發(fā)達國家在推進大數(shù)據(jù)應(yīng)用上已形成從發(fā)展戰(zhàn)略、法律框架到行動計劃的完整布局。2009年1月21日,現(xiàn)任美國總統(tǒng)奧巴馬宣誓就職后的第一個工作日就簽發(fā)了“開放政府”備忘錄,指導(dǎo)新一屆行政當(dāng)局從開放政府?dāng)?shù)據(jù)源、建設(shè)開放型政府入手,以數(shù)字革命帶動政府變革。“開放政府”的目的簡潔明了:改進公眾服務(wù),提升公眾信任,更有效管理公共資源和增進政府責(zé)任。
互聯(lián)網(wǎng)時代的開放型政府,首先必須開放政府?dāng)?shù)據(jù)。5月20日,美國政府開放數(shù)據(jù)的門戶(Data.gov)上線,第一批47個政府?dāng)?shù)據(jù)源向社會開放。2009年12月8日,奧巴馬簽發(fā)“開放政府?dāng)?shù)據(jù)”行政令,要求在45天內(nèi)所有政府部門無一例外必須向社會開放3個有價值的數(shù)據(jù)源。經(jīng)過12個月的運行,Data.gov升級到2.0。政府開放的數(shù)據(jù)源達到2.5萬個。2011年9月20日,白宮正式啟動“開放政府國家行動計劃1.0”,首批26個開放政府項目向社會公開。2012年3月29日,在公開政府?dāng)?shù)據(jù)源的22個月后,啟動聯(lián)邦政府大數(shù)據(jù)行動計劃,宣布了由政府資助的分布在13個部委的84個大數(shù)據(jù)項目,其中多數(shù)項目基于不同部門的開放數(shù)據(jù)源,聯(lián)合民間企業(yè)協(xié)同展開,如癌癥和心血管疾病研究,等等。2013年5月9日,總統(tǒng)簽署開放數(shù)據(jù)政策(Open Data Policy)。2013年12月5日,“開放政府國家行動計劃”進入 2.0,又添加23個政府開放項目。
在逐步擴大開放政府?dāng)?shù)據(jù)源,啟動開放政府項目和部署政府主導(dǎo)的大數(shù)據(jù)項目后,2014年1月17日,奧巴馬指定白宮法律總顧問波德斯塔領(lǐng)導(dǎo)行政當(dāng)局與總統(tǒng)科技顧問委員會合作,綜合評估“大數(shù)據(jù)”和公民隱私產(chǎn)生交集后已經(jīng)帶來和將會帶來的新問題。作為綜合研究的一部分,奧巴馬要求超前思考“大數(shù)據(jù)”對人類社會的影響,重點研究現(xiàn)有技術(shù)和未來技術(shù)會對現(xiàn)行法律帶來哪些挑戰(zhàn),哪些法律和政策需要修訂或制定以適應(yīng)變化,評估探討“大數(shù)據(jù)”會從哪些方面影響我們的生活方式和工作方式,影響和改變政府與公民之間的關(guān)系。美國總統(tǒng)希望得到建議,如何通過政府和民企之間的合作推動創(chuàng)新,在最大限度降低公民隱私風(fēng)險的前提下,保證信息的自由流動,創(chuàng)造更多的商業(yè)機會和就業(yè)機會。
2014年3月,美國政府向全社會發(fā)出公開征詢,希望民眾從不同層面提出看法,為政府的大數(shù)據(jù)戰(zhàn)略獻計獻策。征詢從五個維度展開:
第一,收集、存儲、分析和使用大數(shù)據(jù)對公共政策的影響是什么?例如,當(dāng)政府利用大數(shù)據(jù)后,美國目前旨在保護消費者隱私權(quán)的法律框架和隱私保護策略,能否化解大數(shù)據(jù)分析帶來的新問題?
第二,如果政府采取更多的舉措,給大數(shù)據(jù)的科學(xué)研究更多的資助,能為政府帶來哪些可量化的收益?哪些類型的大數(shù)據(jù)分析技術(shù)會對公共政策帶來新挑戰(zhàn)?有哪些政府部門和特定行業(yè)在使用大數(shù)據(jù)技術(shù)時,應(yīng)該被政府和公眾更多地關(guān)注?
第三,哪些關(guān)鍵技術(shù)和技術(shù)趨勢將影響大數(shù)據(jù)的采集、存儲、分析和使用?哪些新技術(shù)或新做法,在保護隱私的同時能實現(xiàn)大數(shù)據(jù)的有效利用?
第四,監(jiān)管政府和私營部門處理大數(shù)據(jù)的政策框架及法規(guī)應(yīng)該有何區(qū)別?例如,執(zhí)法部門、政府服務(wù)、商業(yè)、學(xué)術(shù)研究,等等。
第五,跨行政區(qū)、跨國家使用大數(shù)據(jù)會帶來哪些法律問題?如當(dāng)前的國際法律、法規(guī)或規(guī)范的適當(dāng)性?
2014年5月,由美國總統(tǒng)科技顧問委員會執(zhí)筆的報告提交奧巴馬。報告提出五大建議:
第一,政府制定政策時應(yīng)更多關(guān)注大數(shù)據(jù)的實際使用,較少關(guān)注數(shù)據(jù)收集和分析。
第二,在政府各個層面的政策規(guī)范制定中,不應(yīng)關(guān)聯(lián)特定技術(shù)而應(yīng)指明希望得到的結(jié)果。
第三,為推進大數(shù)據(jù)技術(shù)的應(yīng)用,白宮科技政策辦公室和政府網(wǎng)絡(luò)信息技術(shù)研發(fā)部門須大力合作,強化國家在用于保護隱私技術(shù)方面的研究,加強與隱私相關(guān)的社會科學(xué)的研究。
第四,白宮科技政策辦公室還應(yīng)與高等教育和職業(yè)教育合作,鼓勵和增加培養(yǎng)隱私保護專業(yè)人員。
第五,美國應(yīng)當(dāng)在立法上保持在國際上的領(lǐng)先地位,加快修訂國內(nèi)法律法規(guī),鼓勵采用新方法新技術(shù)應(yīng)對新的隱私需求。
美國總統(tǒng)科技顧問委員會建議:新的政策應(yīng)該側(cè)重于研究對個人信息的具體用途是否會對個人隱私產(chǎn)生不利影響;政策制定的重點應(yīng)放在利用數(shù)據(jù)的結(jié)果上,也即用個人數(shù)據(jù)分析在“做什么”,而不是“如何做”,以避免政策成為技術(shù)進步的障礙;政策框架應(yīng)能加快開發(fā)商業(yè)化大數(shù)據(jù)技術(shù),這些技術(shù)不僅包括新的研究領(lǐng)域和潛在的技術(shù)選項,而且應(yīng)包含能消除對隱私權(quán)不利影響的新技術(shù)新方法。通過政策的引導(dǎo),能更有效地利用大數(shù)據(jù)技術(shù),讓美國在立法和商業(yè)上在全球繼續(xù)保持領(lǐng)先地位。只有解除對個人隱私受到侵犯的擔(dān)憂,才能最大限度地利用大數(shù)據(jù)的好處。最后,該委員會呼吁,更多的科學(xué)和專業(yè)人士共同努力,以充分尊重隱私的方式,開發(fā)和使用大數(shù)據(jù)技術(shù)。
有分析人士認為,美國政府的經(jīng)驗可以給其他國家以啟示。
首先,國家的大數(shù)據(jù)發(fā)展戰(zhàn)略不僅僅是一個技術(shù)發(fā)展綱要。盡管它針對一門新興科學(xué)和相關(guān)技術(shù),但應(yīng)該重點研究此項技術(shù)會給未來社會和公民生活帶來何種沖擊,以完善法律框架、政策框架為要,配之以恰當(dāng)?shù)呢斦媱?、項目計劃及合作計劃?/p>
第二,政府是集數(shù)據(jù)收集、數(shù)據(jù)使用和公民隱私保護為一體的最終仲裁者,所以必須充分考慮科學(xué)與公民、科學(xué)與政府、科學(xué)與工業(yè)以及科學(xué)與科技之間的互動關(guān)系,制定的法律政策既要能鼓勵利用這項技術(shù)更多造福人類,同時又能抑制利用其危害人類。
第三,政府資助的重點應(yīng)放在科學(xué)研究(如數(shù)據(jù)科學(xué)),應(yīng)當(dāng)用諸如合同或購買的方式激發(fā)鼓勵民間企業(yè)開發(fā)應(yīng)用技術(shù)。
第四,科學(xué)和技術(shù)是現(xiàn)代文明的基礎(chǔ),歷史上每次重大科學(xué)技術(shù)的出現(xiàn),都引發(fā)了巨大的社會變革,因此,政府在關(guān)注特定科學(xué)和技術(shù)的同時,要資助和鼓勵相關(guān)社會科學(xué)的探索爭鳴。
目前無論從哪個角度看,大數(shù)據(jù)仍處在初始階段。盡管企業(yè)和媒體對大數(shù)據(jù)時代的到來表現(xiàn)出空前熱情,但政策制定者、社會法律學(xué)者和科技人士應(yīng)當(dāng)對此保持清醒并對已經(jīng)面臨的和將會出現(xiàn)的問題有所準備。
出臺推動大數(shù)據(jù)產(chǎn)業(yè)鏈的導(dǎo)向性政策
今天數(shù)據(jù)積累的速度遠遠超過數(shù)據(jù)能被處理和被利用的速度。2013年全球產(chǎn)生的數(shù)據(jù)中約22%有可能被用作分析,但結(jié)果只有5%實際被分析利用。預(yù)計到2017年,全球又會積累超過4倍于今天的數(shù)據(jù)量。這必然導(dǎo)致存儲設(shè)備、數(shù)據(jù)中心和電力消耗的快速膨脹。絕大部分數(shù)據(jù)在分立分治的系統(tǒng)中快速堆積,這些數(shù)據(jù)互不相識互不來往,除了消耗資源,尚未產(chǎn)生任何價值。縱向累積的、缺乏多維度關(guān)聯(lián)的數(shù)據(jù)的確越來越大。但這并不是“大數(shù)據(jù)”,只不過是“數(shù)據(jù)大”而已。
在我們剛剛步入大數(shù)據(jù)社會時,不妨做一些前瞻性思考。比如,應(yīng)當(dāng)從物理層面審視和規(guī)劃數(shù)據(jù)如何收集、存儲、處理、傳輸和共享;從數(shù)字產(chǎn)品生產(chǎn)層面考慮研發(fā)什么樣的分析工具、使用什么樣的軟件平臺和基于什么樣的環(huán)境(如開放代碼);從使用層面考慮引進培養(yǎng)什么樣的人才和訓(xùn)練什么技能,以及在更廣義的范疇考慮如何形成大數(shù)據(jù)思維和文化,大數(shù)據(jù)將會對未來企業(yè)與人、政府與人的關(guān)系有何影響,等等。
大數(shù)據(jù)社會要求人們學(xué)會用一種全新的方式打量這個世界,工具、技術(shù)、技能和人才缺一不可。要及早部署和投資在以下方面:
數(shù)據(jù)分析工具和軟件平臺:人工智能(AI)技術(shù),自然語言處理、模式識別、機器學(xué)習(xí)、預(yù)測分析、數(shù)據(jù)熔煉、信號處理和元數(shù)據(jù)管理,等等;大數(shù)據(jù)要求同時在數(shù)十?dāng)?shù)百甚至數(shù)千臺服務(wù)器中進行大規(guī)模并行運算,目前使用的大多數(shù)關(guān)系數(shù)據(jù)庫管理系統(tǒng)、桌面數(shù)據(jù)庫和可視化軟件包已很難滿足需求,因此仍須關(guān)注MPP數(shù)據(jù)庫、分布式文件及分布式數(shù)據(jù)庫的發(fā)展。
數(shù)據(jù)分析人才和算法模型:培養(yǎng)訓(xùn)練會使用大數(shù)據(jù)分析語言工具的人才只是整個需求的表層。再深入一層,要讓大數(shù)據(jù)發(fā)揮作用,跨行業(yè)顧問、分析師和有行業(yè)經(jīng)驗的編程人員缺一不可。融合技術(shù)和藝術(shù),能將“抽象”概念形象化的語言、工具及人才尚不多見。沒有數(shù)學(xué)模型很難想象數(shù)據(jù)如何“大”起來,數(shù)據(jù)只有通過算法模型才能被電腦解讀,但數(shù)學(xué)模型在政治、社會和金融等領(lǐng)域只能逼近現(xiàn)實而無法再現(xiàn)現(xiàn)實。所以如何建立能精準模擬世間萬物的數(shù)學(xué)模型,是集理論研究與應(yīng)用開發(fā)為一體的重要地帶。
把數(shù)據(jù)質(zhì)量的管控權(quán)交給使用端
當(dāng)人類讓數(shù)字講話、把決策權(quán)更多移交給“大數(shù)據(jù)”時,第一個重要問題就是數(shù)據(jù)的質(zhì)量。“垃圾進、垃圾出”這句話早在50年前就被用來描述自動化處理數(shù)據(jù)時的質(zhì)量問題,此話今天依然有效。研究表明,知識工作者平均花近一半的時間在尋找數(shù)據(jù)、驗明數(shù)據(jù)、修正數(shù)據(jù)、剔除不靠譜的數(shù)據(jù)。數(shù)據(jù)質(zhì)量問題可能發(fā)生在收集、存儲、處理、傳輸和分享整個過程中的任何一個環(huán)節(jié),但第一個關(guān)口仍是數(shù)據(jù)錄入端(記錄或采集口)。大多數(shù)情況下,數(shù)據(jù)輸入端很少知道數(shù)據(jù)使用端為什么需要這種數(shù)據(jù),用這些數(shù)據(jù)做什么。當(dāng)使用端發(fā)現(xiàn)問題時,除非是系統(tǒng)性問題,大多被隨手解決,少有追根溯源式糾正問題。
那么數(shù)據(jù)的質(zhì)量如何保證,誰應(yīng)對質(zhì)量負責(zé)呢?解決數(shù)據(jù)質(zhì)量的問題,更多是在管理而不在技術(shù)。行之有效的方法是把數(shù)據(jù)質(zhì)量的管控權(quán)更多地轉(zhuǎn)給使用端(業(yè)務(wù)條塊),建立數(shù)據(jù)“原料方”和“生產(chǎn)方”之間直接的客服關(guān)系,形成制度和方法從數(shù)據(jù)源頭和元數(shù)據(jù)層面控制質(zhì)量。
進入大數(shù)據(jù)時代,一個“大”字很容易掩蓋一切。現(xiàn)實情況是,我們可用的數(shù)據(jù)越來越多樣化,但其中大部分的數(shù)據(jù)是使用者在只知其來源不知其如何產(chǎn)生、質(zhì)量被如何管控的情況下被使用的。因此,要想讓人們信賴基于大數(shù)據(jù)的決策,對所有數(shù)據(jù)源提前測試和試驗便必不可少。不管數(shù)據(jù)是大是小,真實可靠最重要。只有逼真的模型、精準的分析,才能體現(xiàn)大數(shù)據(jù)的價值。過去沒有數(shù)據(jù)是瞎子摸象,現(xiàn)在數(shù)據(jù)太多是大海撈針。大數(shù)據(jù)很容易使人們的關(guān)注點從因果關(guān)系移動到相關(guān)關(guān)系。大數(shù)據(jù)分析的結(jié)果常常能幫助人們回答“是什么”而不是“為什么”。膚淺地使用大數(shù)據(jù),有可能引導(dǎo)人們止步于探究事件背后的深層原因,滿足于了解現(xiàn)象之間的聯(lián)系并利用這種聯(lián)系得出似對非對的解讀。
在可預(yù)見的未來,我們面臨諸多挑戰(zhàn):技術(shù)挑戰(zhàn)會出現(xiàn)在從信息搜索、數(shù)據(jù)捕捉、存儲、傳輸、共享、分析直到可視化全過程。另外必須面對大數(shù)據(jù)對社會人文領(lǐng)域的挑戰(zhàn)。法律層面,更開放的網(wǎng)絡(luò)會帶來更多的數(shù)據(jù)竊用、濫用和非法監(jiān)控。一旦強大的新型數(shù)學(xué)數(shù)據(jù)工具出現(xiàn),如何控制它不至于作惡?大數(shù)據(jù)技術(shù)日新月異,由大數(shù)據(jù)、深度學(xué)習(xí)引發(fā)的新一輪人工智能技術(shù)會對人類未來造成什么樣的沖擊,是擺在科學(xué)和社會學(xué)者面前的另一個重大課題。實事求是地講,不論擁抱還是排斥這種新形式的數(shù)據(jù)科學(xué),“精靈”都再也裝不回瓶子里了。