厄爾尼斯特·戴維斯
過去十五年來,我們親眼目睹了從互聯(lián)網(wǎng)、社交媒體、科學(xué)設(shè)備、智能手機、監(jiān)控攝像頭和其他多種來源搜集的數(shù)字?jǐn)?shù)據(jù)量、以及處理這些數(shù)據(jù)的相關(guān)電腦技術(shù)呈爆炸性增長。眾所周知,大數(shù)據(jù)無疑將帶來重要的科學(xué)、技術(shù)和醫(yī)療成果。但如果被誤用或濫用,大數(shù)據(jù)也是非常危險的。
互聯(lián)網(wǎng)搜索引擎、機器翻譯和圖像標(biāo)簽等重要創(chuàng)新技術(shù)已經(jīng)依賴于將機器學(xué)習(xí)技術(shù)應(yīng)用于大數(shù)據(jù)。而且,在不久的將來,大數(shù)據(jù)可以大大改善政府決策、社會福利計劃和獎學(xué)金項目。
但擁有更多數(shù)據(jù)替代不了擁有高質(zhì)量的數(shù)據(jù)。例如,自然雜志最近發(fā)表的一篇文章報道,美國大選調(diào)查員正頭疼怎樣獲得有代表性的人口數(shù)據(jù)樣本,因為美國法律規(guī)定調(diào)查員只能撥打固定電話,而美國民眾對移動電話的使用卻越來越多。雖然你可以在社交媒體上找到無數(shù)的政治觀點,但卻無法確定這些觀點在選民中是否具有代表性。事實上,推特和Facebook上與政治有關(guān)的發(fā)帖很多由計算機自動生成。
近年來,以偏差數(shù)據(jù)集為基礎(chǔ)的自動程序造成了很多丑聞。舉例而言,去年6月,當(dāng)一名大學(xué)生以“不符合職業(yè)標(biāo)準(zhǔn)的工作發(fā)型”為關(guān)鍵詞搜索谷歌圖片,結(jié)果顯示的圖片絕大多數(shù)是黑人;當(dāng)這位學(xué)生把第一個關(guān)鍵詞換成“符合職業(yè)標(biāo)準(zhǔn)”,谷歌返回的搜索結(jié)果卻大多是白人。但這不應(yīng)歸咎于谷歌程序員帶有偏見;相反,它是民眾對網(wǎng)上圖片標(biāo)簽的反映。
那些采用上述搜索結(jié)果來評估招聘和晉升決策的大數(shù)據(jù)程序,則很可能不利于那些發(fā)型與“不符合職業(yè)標(biāo)準(zhǔn)的工作發(fā)型”相似的黑人候選人,進而延續(xù)傳統(tǒng)的社會偏見。而這絕不僅僅是一種假設(shè)的可能性。去年,ProPublica 的一項“累犯風(fēng)險模型”調(diào)查顯示,一種被廣泛采用的對已定罪的犯人量刑的方法,實際上系統(tǒng)性地高估了黑人被告未來的犯罪風(fēng)險,并同時對白人被告未來的犯罪風(fēng)險有所低估。
大數(shù)據(jù)的另一種風(fēng)險是它可以被操縱。如果人們知道利用大數(shù)據(jù)來做出將影響他們生活的重要決策,他們有動機讓天平向己方傾斜。舉例來講,如果以學(xué)生的考試成績作為教師的評判標(biāo)準(zhǔn),教師或許更有可能“為考而教”,甚至作弊。
同樣,想要提升所在院校在美國新聞和世界報道排名的大學(xué)管理人員已經(jīng)做出了不明智的決定,比方說以犧牲學(xué)術(shù)為代價投資建設(shè)奢侈的體育場館。更糟的是,他們做出了一些奇怪的不道德的決定,比如通過在開學(xué)前幾周找到并開除成績較差的學(xué)生來提高圣瑪麗大學(xué)的“留校率”。
就連谷歌的搜索引擎也不能免疫。盡管由世界頂級數(shù)據(jù)學(xué)家監(jiān)控的海量數(shù)據(jù)驅(qū)動,其結(jié)果仍有可能受到“搜索引擎優(yōu)化”和操縱,“谷歌轟炸”、“垃圾郵件索引”和其它服務(wù)于某些狹隘利益的方法就是實例。
第三種風(fēng)險是侵犯隱私,因為現(xiàn)在提供的大量數(shù)據(jù)均包含個人信息。近年來,有人從商業(yè)和政府網(wǎng)站竊取了大量機密數(shù)據(jù)。研究人員已經(jīng)表明,可以以何種方式準(zhǔn)確搜集在看似無害的在線帖子(如影評)中所流露出來的人們的政治觀念甚或性偏好—即使發(fā)帖采用匿名的方式。
最后,大數(shù)據(jù)對問責(zé)制提出了挑戰(zhàn)。如果有人感覺自己遭受了算法的不公平對待,往往沒有辦法對其提出上訴,這或者因為具體結(jié)果無法解釋,或者因為算法的編寫者拒絕提供算法的細節(jié)。雖然政府或企業(yè)可以通過強調(diào)算法的數(shù)學(xué)性或科學(xué)性來威脅任何反對者,他們自己的行為也常常令他們始料未及。歐盟最近通過了一項措施確保被算法影響的民眾擁有“解釋權(quán)”;但只有時間才能告訴我們這種方法的實際效果。
如果被大數(shù)據(jù)損害的民眾沒有追索途徑,那么就像數(shù)據(jù)學(xué)家凱蒂·奧尼爾在其最新著作《數(shù)學(xué)武器毀滅》中所展示的那樣,將有可能帶來影響深遠的有害結(jié)果。
好消息是大數(shù)據(jù)的危害性可以在很大程度上避免。但除非我們積極保護民眾隱私、發(fā)現(xiàn)并糾正不公平做法、謹(jǐn)慎利用算法并保持對算法內(nèi)部工作原理和決策數(shù)據(jù)的嚴(yán)格理解,否則就無法達到這樣的目的。