林衍
頭一回在美國上統(tǒng)計(jì)課,在國內(nèi)政府部門做過近10年數(shù)據(jù)統(tǒng)計(jì)工作的涂子沛覺得“眼前一亮”。這一講的內(nèi)容是統(tǒng)計(jì)學(xué)的意義。印度裔教授一本正經(jīng)地對(duì)學(xué)生們說:“除了上帝,任何人都必須用數(shù)據(jù)來說話?!?/p>
教授的觀點(diǎn)一下子震撼了涂子沛。在他的印象中,數(shù)據(jù)往往被當(dāng)成論證工具,更像是一種“證明領(lǐng)導(dǎo)意圖的手段”。但在這里,“數(shù)據(jù)”似乎有另外的含義。
2007年底,奧巴馬訪問谷歌總部并做了演講:
“人民知道的越多,政府官員才可能更加負(fù)責(zé)任……我將把聯(lián)邦政府的相關(guān)數(shù)據(jù)用通用的格式推上互聯(lián)網(wǎng)。我要讓公民可以跟蹤、查詢政府的資金、合同、專門款項(xiàng)和游說人員的信息?!?/p>
涂子沛記得,演講在此時(shí)被熱烈的掌聲所打斷。
這是涂子沛第一次將“公民權(quán)利”這樣的大詞與“數(shù)據(jù)”聯(lián)系起來。也正是從那時(shí)起,這個(gè)從卡內(nèi)基·梅隆大學(xué)畢業(yè),并已經(jīng)在一家美國公司就職的數(shù)據(jù)庫程序員萌生了一個(gè)系統(tǒng)的寫作計(jì)劃。2012年7月,他的《大數(shù)據(jù)》一書出版,扉頁上的題記別具一格:“一個(gè)真正的信息社會(huì),首先是一個(gè)公民社會(huì)?!?/p>
大數(shù)據(jù)時(shí)代
涂子沛在美國匹茲堡市一家聯(lián)邦政府的合同商公司做程序員,每天面對(duì)的東西就是數(shù)據(jù)、代碼以及大大小小的表格。
20世紀(jì)70年代初,涂子沛出生在一個(gè)法官家庭。因?yàn)閺男】锤赣H斷案,他很早就開始思考什么是“正義”這樣的大問題。90年代中期,他進(jìn)入華中理工大學(xué)讀書。學(xué)校里有“人文講堂”的講座活動(dòng),這個(gè)計(jì)算機(jī)專業(yè)的學(xué)生是其最忠實(shí)的擁躉之一。時(shí)任中國人民大學(xué)副校長的謝韜也來講過,當(dāng)時(shí)他給涂子沛簽名并留下這樣一句贈(zèng)語:“要做新世紀(jì)國家的建設(shè)者。”如今年已不惑的涂子沛仍然保留著這份情懷。當(dāng)看到“7·21”北京暴雨的新聞后,他連夜寫了一篇介紹美國如何發(fā)布?xì)庀鬄?zāi)害信息的文章。
“沒有有效的預(yù)警,再準(zhǔn)確的數(shù)據(jù)預(yù)報(bào)也是一個(gè)零?!蓖孔优娼榻B,美國國家天氣服務(wù)局不僅開通了推特、臉譜等社交媒體賬號(hào),還推出了一個(gè)叫做“天氣收音機(jī)”的預(yù)警產(chǎn)品,一旦發(fā)出氣象預(yù)警,平時(shí)沉默不語的“收音機(jī)”會(huì)立刻變?yōu)椤棒[鐘”。
涂子沛慢慢意識(shí)到,原來自己一直關(guān)心的“公平正義”,竟然與每天朝夕相處的數(shù)據(jù)有著如此緊密的聯(lián)系。
在此之前,和大部分人一樣,涂子沛更愿意從技術(shù)層面去關(guān)注什么是“大數(shù)據(jù)”——這是對(duì)信息爆炸時(shí)代的嶄新描述,它的基本單位是“太”(TB),而1000個(gè)“太”則等于一“拍”(PB)。打個(gè)直觀的比方,美國國會(huì)圖書館是世界上最大的圖書館之一,它所有印刷品的信息量加起來只有15太,而全美國僅在2010年一年的新增數(shù)據(jù)量就足足有3500拍。
麥肯錫咨詢公司曾做出估測,未來數(shù)據(jù)仍會(huì)以每年50%的速度增長,需要大量擁有“深度分析數(shù)據(jù)”專長的工作者。涂子沛便是其中之一。他會(huì)在自己的專欄中記錄那些數(shù)據(jù)改變商業(yè)的故事:沃爾瑪?shù)难芯咳藛T通過數(shù)據(jù)挖掘,發(fā)現(xiàn)四成左右的年輕爸爸在購買嬰兒尿布時(shí)會(huì)順手買點(diǎn)啤酒犒勞自己,便對(duì)這兩種商品進(jìn)行了捆綁銷售,結(jié)果銷售量雙雙增加。更夸張的事例是,一個(gè)高中女孩某天突然收到了超市寄來的嬰兒服廣告,其父大為光火,但就在超市公開道歉幾天后,這位父親發(fā)現(xiàn)自己的女兒真的懷孕了。原來,超市已經(jīng)可以通過顧客的食品消費(fèi)數(shù)據(jù)做出趨勢判斷。
但當(dāng)涂子沛開始寫作《大數(shù)據(jù)》時(shí),商業(yè)已經(jīng)不再重要,他想講述一個(gè)數(shù)據(jù)與正義的故事。
信息之于民主,就如貨幣之于經(jīng)濟(jì)
2009年1月17日,美國新任總統(tǒng)奧巴馬簽署了他的首份總統(tǒng)備忘錄《透明和開放的政府》。
120天后,一個(gè)叫做Data.gov的網(wǎng)站正式上線,這是一個(gè)數(shù)據(jù)開放的門戶網(wǎng)站,旨在全面開放美國聯(lián)邦政府擁有的數(shù)據(jù)。
項(xiàng)目的負(fù)責(zé)人是維偉克·昆德拉——美國歷史上的第一位首席信息官,他說:“這是一場數(shù)據(jù)民主化的運(yùn)動(dòng),我們正在把信息的力量放到美國人民手中。”
起初,這個(gè)數(shù)據(jù)開放網(wǎng)站有點(diǎn)名不副實(shí),即使包括地理數(shù)據(jù)在內(nèi),這個(gè)新生網(wǎng)站也僅僅只有47組數(shù)據(jù)和27個(gè)數(shù)據(jù)分析工具。要知道,年輕的首席信息官要面對(duì)的,“是一種沿襲了上百年的行政文化。面對(duì)龐大的公共信息,政府官員的第一反應(yīng)往往是安全第一、保密為上”。盡管早在建國之初,《獨(dú)立宣言》的起草人之一、美國第3任總統(tǒng)托馬斯·杰斐遜就曾說:“信息之于民主,就如貨幣之于經(jīng)濟(jì)?!钡聦?shí)上,在美國200多年的歷史中,開放政府信息的雄心并不多見。
1789年,美國國會(huì)制定了《管家法》,規(guī)定了行政機(jī)關(guān)必須在統(tǒng)一的出版物上公開政務(wù)信息,但對(duì)于公開的內(nèi)容,行政長官有自由裁定權(quán)。進(jìn)入20世紀(jì)后,政府規(guī)模不斷膨脹,國會(huì)先后通過了《聯(lián)邦登記法》和《行政程序法》,規(guī)定公眾可以向政府提出信息公開的要求,但如果危及公共利益,政府有權(quán)拒絕。
簡言之,信息是否公開,還是政府說了算。到了1951年,在當(dāng)時(shí)的冷戰(zhàn)格局下,“保密”之風(fēng)蔓延一時(shí)。
同一時(shí)期,哥倫比亞大學(xué)的新聞學(xué)教授克勞斯對(duì)當(dāng)時(shí)的信息管理情況進(jìn)行了調(diào)研,并出版了《人民的知情權(quán)》一書。他在書中明確提出:只有擁有信息自由,人民才能真正擁有對(duì)公共事務(wù)的發(fā)言權(quán)。后來,這本書被譽(yù)為美國信息自由運(yùn)動(dòng)的“圣經(jīng)”。
書出版的那一年,一個(gè)叫約翰·摩斯的新任國會(huì)議員提出了《信息自由法》草案。摩斯任職25年,經(jīng)歷了數(shù)任總統(tǒng),然而即使以開明著稱的肯尼迪,也對(duì)這個(gè)草案避猶不及。約翰遜在聽到這個(gè)草案后的第一反應(yīng)則是:“摩斯想干什么?他想搞砸我這屆政府嗎?”
直到1964年,摩斯的提案才進(jìn)入辯論階段。那時(shí)候的聯(lián)邦政府有27個(gè)部門,無一例外地在聽證會(huì)上大聲反對(duì)。
1966年,由于參眾兩院對(duì)該法案的支持率都高于三分之二,無法動(dòng)用否決權(quán)的總統(tǒng)約翰遜在家中簽署了這份法案。
多年后,被稱為“《信息自由法》之父”的摩斯回顧說:“我們所做的,只是一個(gè)開始。那最好的仗,我已經(jīng)打過?!?/p>
Data.gov的出現(xiàn)則為信息公開的發(fā)展注入了新的活力。昆德拉在演講中表示,政府?dāng)?shù)據(jù)作為一項(xiàng)公共資源,應(yīng)該像天氣預(yù)報(bào)、體育賽事和股票信息一樣實(shí)時(shí)公開。
充滿了挑戰(zhàn)性的新事物同樣引發(fā)了聯(lián)邦政府各部門頭頭腦腦的憂慮。有人擔(dān)心,萬一民間機(jī)構(gòu)根據(jù)原始數(shù)據(jù)分析出的結(jié)論與政府不一樣,豈不是“搬起石頭砸自己的腳”?還有人認(rèn)為,這場面對(duì)全世界的數(shù)據(jù)開放運(yùn)動(dòng),會(huì)在不知不覺間讓國家利益受到損害。
但改革并沒有止步。截至2009年底,這個(gè)網(wǎng)站收到了社會(huì)各界約900項(xiàng)開放數(shù)據(jù)的申請(qǐng)。聯(lián)邦政府最后回復(fù):16%的數(shù)據(jù)立即開放、26%的將在短期內(nèi)開放、36%的將計(jì)劃開放,還有22%因?yàn)閲野踩?、個(gè)人隱私以及技術(shù)方面的限制無法開放。
在Data.gov上線發(fā)布一周年的時(shí)候,聯(lián)邦政府開放的數(shù)據(jù)總數(shù)已經(jīng)達(dá)到了27萬項(xiàng)。
因?yàn)檫@些創(chuàng)新型的應(yīng)用,數(shù)據(jù)的能量將層層放大
在涂子沛看來,創(chuàng)建Data.gov的價(jià)值并不僅僅在于滿足民眾的知情權(quán)。
2009年1月,美國聯(lián)邦政府跨部門工作組曾將一份報(bào)告提供給總統(tǒng)科學(xué)技術(shù)委員會(huì):一組數(shù)據(jù),可能會(huì)得到數(shù)據(jù)收集人難以想象的應(yīng)用,也可能會(huì)在另一個(gè)看起來毫不相關(guān)的領(lǐng)域得到應(yīng)用,而因?yàn)檫@些創(chuàng)新型的應(yīng)用,數(shù)據(jù)的能量將層層放大。
某種程度上,Data.gov的確掀起了社會(huì)創(chuàng)新的浪潮。截至2011年12月,在這個(gè)政府主導(dǎo)的數(shù)據(jù)開放網(wǎng)站上,匯集了1140個(gè)應(yīng)用程序、軟件工具和85個(gè)手機(jī)插件,其中有近300個(gè)應(yīng)用程序由民間的程序員、公益組織自發(fā)開發(fā)。
就在Data.gov上線不到一個(gè)月的時(shí)候,民間的一位程序員便利用美國交通部開放的數(shù)據(jù),開發(fā)了一個(gè)航班延誤的免費(fèi)查詢系統(tǒng)。如2010年波士頓至紐約的航線情況:
這一年總共有6735次航班,其中62%準(zhǔn)點(diǎn)或提前到達(dá),14%有20分鐘以內(nèi)的延誤,20%有20分鐘以上的延誤,還有4%的航班最終取消。
就“打飛的”而言,出行的時(shí)間至關(guān)重要。通常星期六有78%的最高準(zhǔn)點(diǎn)率,而不幸趕上星期一坐飛機(jī)的人則要承受30%的最高延誤率。在一天之內(nèi),每天早晨5點(diǎn)到6點(diǎn)起飛的航班有83%的最高準(zhǔn)點(diǎn)率,而晚上9點(diǎn)到10點(diǎn)的準(zhǔn)點(diǎn)率則低至53%。
當(dāng)然,這個(gè)應(yīng)用程序最有力度的數(shù)據(jù)還是所有航班的延誤大排名,“Delta1807”以平均延誤26分鐘成了最不靠譜的航班。
這樣的數(shù)據(jù)挖掘,直接給那些落后的航空公司敲響了警鐘。
類似的事例并不鮮見。不少人習(xí)慣于在購物前,先到Data.gov上查詢該商品是否存在因質(zhì)量問題而被召回的記錄。而在2010年發(fā)生的一起礦難中,網(wǎng)民們通過Data.gov上的煤老板捐款記錄發(fā)現(xiàn),接收款項(xiàng)最多的個(gè)人居然是地方上訴法庭的法官。后來,最高法院依此認(rèn)定這名法官存在“重大偏袒”的可能。
“數(shù)據(jù)權(quán)”是信息時(shí)代每一個(gè)公民都應(yīng)擁有的一項(xiàng)基本權(quán)利
推動(dòng)數(shù)據(jù)開放運(yùn)動(dòng)的國家并不只有美國。
2006年3月,英國《衛(wèi)報(bào)》刊登了一篇名為《把皇冠上的明珠還給我們》的文章,這被視為英國數(shù)據(jù)開放運(yùn)動(dòng)的序幕。
設(shè)計(jì)了全世界第一個(gè)網(wǎng)站的蒂姆·伯納斯·李曾被評(píng)選為“最偉大的英國人”。2009年2月,他受邀在TED(技術(shù)、娛樂、設(shè)計(jì))大會(huì)上發(fā)表演講。
“你想象不出政府會(huì)找出多少個(gè)借口來拒絕開放數(shù)據(jù)?!边@一天,一向以內(nèi)向聞名的伯納斯·李一改往日作風(fēng),甚至在講臺(tái)上帶領(lǐng)聽眾喊起了口號(hào):
“原始數(shù)據(jù),現(xiàn)在就要!”
此后不久,他和時(shí)任英國首相的戈登·布朗一同出席一次頒獎(jiǎng)典禮。布朗問他:“英國政府應(yīng)該如何利用互聯(lián)網(wǎng)?”伯納斯·李立即回答說:“把政府的數(shù)據(jù)推上互聯(lián)網(wǎng)?!?/p>
2010年1月,英國政府的Data.gov.uk正式上線發(fā)布,第一天就公布了3000多項(xiàng)民生數(shù)據(jù)。而卡梅倫出任首相后,更是率先提出了“數(shù)據(jù)權(quán)”的概念,并將其視為信息時(shí)代每一個(gè)公民都應(yīng)擁有的一項(xiàng)基本權(quán)利。
2011年,這場“美麗的競賽”擴(kuò)展到了全世界。9月20日,由8個(gè)國家發(fā)起的“開放政府聯(lián)盟”在紐約成立。幾個(gè)月后,開放政府聯(lián)盟又迅速收到了加拿大、意大利、韓國等42個(gè)國家和地區(qū)的加盟申請(qǐng)。
這個(gè)聯(lián)盟里,最引人矚目的國家并非美、英,而是來自非洲大陸的肯尼亞。
2010年8月,肯尼亞通過了新的《憲法》,其中第35條規(guī)定:“每一個(gè)公民都有權(quán)獲得政府擁有的信息……每一個(gè)公民都有權(quán)修改、刪除(政府保存的)不真實(shí)、有誤導(dǎo)傾向的錯(cuò)誤信息?!?/p>
一個(gè)真正的信息社會(huì)是一個(gè)信息自由流動(dòng)而不受操縱的社會(huì)
2011年,麥肯錫咨詢公司曾以2010年度各國新增的存儲(chǔ)器為基準(zhǔn),對(duì)全世界大數(shù)據(jù)的分布做了一個(gè)調(diào)查,結(jié)果發(fā)現(xiàn),中國這一年的新增數(shù)據(jù)量約為250拍,與日本的400拍、歐盟的2000拍和美國的3500拍比,相去甚遠(yuǎn)。與此相對(duì)應(yīng)的另一個(gè)數(shù)據(jù)是,中國擁有4.8億互聯(lián)網(wǎng)用戶,幾乎是美國的兩倍;擁有近9億部手機(jī),是美國的3倍,而互聯(lián)網(wǎng)和手機(jī)正是數(shù)據(jù)的重要來源。
在涂子沛看來,這意味著中國并不缺乏可供收集的數(shù)據(jù),而是缺乏收集、挖掘數(shù)據(jù)的意識(shí)。
他回憶起在卡內(nèi)基·梅隆大學(xué)讀書時(shí),有一回師門聚會(huì),大家相約每個(gè)人貢獻(xiàn)一個(gè)拿手菜。一位來自中國的博士以一道鹵牛肉贏得滿堂彩,但當(dāng)他公布自己的烹飪配方時(shí),卻令一位美國教授不知所措。原來,這位教授不太能理解“鹽少許”“酒若干”“醋一勺”這樣的表述到底是什么意思。
涂子沛記得,在國內(nèi)做程序員的時(shí)候,要是做一個(gè)數(shù)據(jù)系統(tǒng)供本單位使用,那么上級(jí)和下級(jí)單位一般都無法登錄這個(gè)系統(tǒng)。還有人告訴他,國內(nèi)有些城市會(huì)把環(huán)境監(jiān)測點(diǎn)刻意設(shè)在人工湖畔的樹林中或湖中心的亭子里。
這些都讓他想起美國《數(shù)據(jù)質(zhì)量法》中的嚴(yán)苛規(guī)定:任何聯(lián)邦政府部門收集的數(shù)據(jù),必須無償與其他部門共享。而在發(fā)布數(shù)據(jù)時(shí),必須同時(shí)發(fā)布一系列的文檔,說明數(shù)據(jù)的來源、采集的方法以及用戶復(fù)制過程當(dāng)中可能出現(xiàn)的問題和錯(cuò)誤。
涂子沛把他的這些思考都寫進(jìn)了書的尾聲,題為“挑戰(zhàn)中國,摘下‘差不多先生的標(biāo)簽”。他在文中提到胡適對(duì)于中國人“凡事差不多、凡事只講大致如此”的判斷,也引用了史學(xué)家黃仁宇認(rèn)為中國在歷史上缺乏“數(shù)目字管理”這種現(xiàn)代治國手段的觀點(diǎn),說明“數(shù)據(jù)不是任人打扮的小姑娘,漠視精確就是不尊重事實(shí)”。
前不久,國內(nèi)一位學(xué)者針對(duì)一項(xiàng)社會(huì)調(diào)查,得出“科學(xué)主義一定會(huì)導(dǎo)致嚴(yán)重的偏頗,其具體弊端就是迷信數(shù)據(jù)”的觀點(diǎn)。
涂子沛反駁道:中國社會(huì)治理領(lǐng)域的問題恰恰不是數(shù)據(jù)迷信,相反,現(xiàn)實(shí)情況往往是,決策者沒有合理使用數(shù)據(jù),同時(shí)又受制于錯(cuò)綜復(fù)雜的理念和利益之爭,導(dǎo)致數(shù)據(jù)意識(shí)形態(tài)化,在中國缺乏公信力。
他的觀點(diǎn)是,收集數(shù)據(jù),使用數(shù)據(jù),開放數(shù)據(jù),“如果前兩者是文化和習(xí)慣,那后者則是一種態(tài)度。”涂子沛強(qiáng)調(diào),一個(gè)真正的信息社會(huì)是一個(gè)信息自由流動(dòng)而不受操縱的社會(huì),這種開放意味著信息與每一個(gè)公民之間都是等距的,當(dāng)然,也意味著公平與正義。