黃湘
作者:[美]邁克爾·克恩斯(Michael Kearns)、亞倫·羅斯(Aaron Roth)
出版社:Oxford University Press
出版時(shí)間:2019年11月
定價(jià):24.95美元
本書(shū)位于計(jì)算機(jī)科學(xué)與哲學(xué)的交叉地帶,深入淺出地介紹了通過(guò)特定的算法原則將社會(huì)規(guī)范嵌入大數(shù)據(jù)技術(shù)之中的前沿思路。
邁克爾·克恩斯、亞倫·羅斯分別是美國(guó)賓夕法尼亞大學(xué)計(jì)算機(jī)系教授和副教授。
眾所周知,人類(lèi)社會(huì)已進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)技術(shù)在創(chuàng)造巨大便利和效益的同時(shí),也引發(fā)了始料未及的問(wèn)題和隱患。每一個(gè)人在享受大數(shù)據(jù)技術(shù)成果的同時(shí),其私人生活的方方面面也都成為被大數(shù)據(jù)技術(shù)——諸如手機(jī)里的各種App、公共場(chǎng)所的監(jiān)控視頻、每天的上網(wǎng)和刷卡記錄等等——所收集的數(shù)據(jù)。
一個(gè)備受關(guān)注的問(wèn)題是隱私的泄露。在大數(shù)據(jù)時(shí)代,“匿名”并不能保護(hù)隱私。一個(gè)典型的例子是,Netflix網(wǎng)站曾經(jīng)推出一個(gè)增強(qiáng)版的電影評(píng)分系統(tǒng),每一位用戶(hù)都可以匿名地對(duì)看過(guò)的電影評(píng)分,所有評(píng)分?jǐn)?shù)據(jù)公開(kāi)。但是研究表明,在99%的情況下,倘若某位具有窺視欲的A知道其目標(biāo)對(duì)象B在一段時(shí)間內(nèi)看過(guò)的6部電影的名稱(chēng)(不需要掌握B看某部電影的精確日期,可以有前后兩周的誤差),就可以確認(rèn)B在Netflix上的賬號(hào),了解B的電影評(píng)分記錄。由于一個(gè)人對(duì)于電影的偏好可以反映他在日常生活中往往刻意掩飾的政治傾向和性?xún)A向,所以這樣一個(gè)電影評(píng)分系統(tǒng)會(huì)泄露不少人的隱私。事實(shí)上,一位隱藏同性戀傾向的母親就因此把Netflix告上了法庭,Netflix最終取消了這個(gè)系統(tǒng)。
另一個(gè)問(wèn)題雖然不像泄露隱私那樣明顯,但后果更為嚴(yán)重。在大數(shù)據(jù)時(shí)代,很多包含了數(shù)據(jù)篩選的工作,例如銀行貸款和公司招聘員工,都是由機(jī)器代替人來(lái)作決定。這能否保障公平?2018年,亞馬遜公司就曾爆出丑聞,它用于篩選求職者簡(jiǎn)歷的機(jī)器學(xué)習(xí)模式,對(duì)“女性”這個(gè)詞匯予以貶低性評(píng)價(jià),那些在簡(jiǎn)歷中提到自己曾擔(dān)任“女子國(guó)際象棋隊(duì)隊(duì)長(zhǎng)”或畢業(yè)于“女子學(xué)院”的求職者都被自動(dòng)降格——關(guān)鍵在于,這個(gè)歧視女性的篩選模式是機(jī)器在處理大數(shù)據(jù)的過(guò)程中自行發(fā)展出來(lái)的,而不是某位人類(lèi)程序員編程的結(jié)果。就像圍棋程序“阿爾法狗”(AlphaGo)打遍天下無(wú)敵手,但開(kāi)發(fā)這個(gè)程序的程序員并不是圍棋高手。換言之,即使一家公司并不歧視特定人群,也不能保證他們所開(kāi)發(fā)和使用的大數(shù)據(jù)技術(shù)不會(huì)歧視特定人群。長(zhǎng)此以往,會(huì)造成嚴(yán)重的不公平。
那么,人類(lèi)社會(huì)應(yīng)當(dāng)如何減少大數(shù)據(jù)技術(shù)對(duì)隱私和公平造成的危害呢?傳統(tǒng)思路是制定法律,規(guī)范人類(lèi)對(duì)大數(shù)據(jù)技術(shù)的使用,這在許多國(guó)家已經(jīng)付諸實(shí)踐。而在計(jì)算機(jī)科學(xué)家群體內(nèi)部,還有一條“從內(nèi)部解決問(wèn)題”的思路——把社會(huì)規(guī)范直接嵌入大數(shù)據(jù)技術(shù)之中,讓大數(shù)據(jù)技術(shù)本身顧及隱私與公平。
乍聽(tīng)起來(lái),這似乎是天方夜譚,怎么可能讓機(jī)器“理解”隱私和公平這種概念呢?事實(shí)上,所謂“讓大數(shù)據(jù)技術(shù)本身顧及隱私與公平”,是指通過(guò)特定的算法原則來(lái)指導(dǎo)機(jī)器如何處理大數(shù)據(jù),而這些特定算法符合保護(hù)隱私和保障公平的倫理關(guān)懷。這正是美國(guó)兩位計(jì)算機(jī)科學(xué)家克恩斯(Michael Kearns)和羅斯(Aaron Roth)的《倫理算法:具有社會(huì)意識(shí)的算法設(shè)計(jì)科學(xué)》一書(shū)的主題。
先看隱私,傳統(tǒng)觀(guān)念認(rèn)為匿名是保護(hù)隱私的利器,但是前述Netflix的例子說(shuō)明,在大數(shù)據(jù)時(shí)代,匿名并不能真正保護(hù)隱私。另一個(gè)保護(hù)隱私的常見(jiàn)思路是對(duì)數(shù)據(jù)庫(kù)“上鎖”,只有掌握“鑰匙”的特定人士才能查閱相關(guān)數(shù)據(jù),但是這樣就限制了數(shù)據(jù)的使用。而數(shù)據(jù)應(yīng)當(dāng)是開(kāi)放共享的,如此方能用于各種科學(xué)研究,促進(jìn)社會(huì)發(fā)展。那么,應(yīng)該怎樣處理保護(hù)隱私和共享數(shù)據(jù)之間的矛盾呢?
在21世紀(jì)初期,計(jì)算機(jī)科學(xué)家建立了“差分隱私”(differential privacy)的概念。它的意思是,如果在數(shù)據(jù)庫(kù)里抹掉某個(gè)特定個(gè)體的數(shù)據(jù),這個(gè)數(shù)據(jù)庫(kù)依然可以反映與保留該個(gè)體數(shù)據(jù)時(shí)完全一致的宏觀(guān)信息,那么這個(gè)數(shù)據(jù)庫(kù)就可以既保護(hù)該個(gè)體的隱私(通過(guò)抹掉),同時(shí)付諸研究者使用。
一個(gè)例子是調(diào)查一座城市里對(duì)婚姻不忠的人員的比例。這個(gè)問(wèn)及“你是否曾經(jīng)對(duì)婚姻不忠”的調(diào)查無(wú)疑涉及隱私。為了保護(hù)隱私,可以采用隨機(jī)化的方法。調(diào)查者先讓被調(diào)查人員扔一枚硬幣,但是不要告訴調(diào)查者扔硬幣的結(jié)果。如果硬幣呈正面,則被調(diào)查人員說(shuō)真話(huà);如果硬幣呈反面,被調(diào)查者需要再扔一次硬幣,如果硬幣呈正面則說(shuō)“是”,反面則說(shuō)“否”。這種方法保證了調(diào)查者不會(huì)了解每一位被調(diào)查人員是否真的曾經(jīng)不忠,而在樣本數(shù)量足夠多的情況下,調(diào)查結(jié)果可以反映總體的人員比例。如果對(duì)婚姻不忠的人員比例是1/3,那么這次調(diào)查中說(shuō)“是”的比例就是5/12。也就是說(shuō),通過(guò)隨機(jī)化調(diào)查可以反推出想知道的答案。對(duì)于通過(guò)“上鎖”來(lái)保護(hù)隱私的傳統(tǒng)方法來(lái)說(shuō),一旦“鑰匙”被破解,隱私就會(huì)被泄露。而隨機(jī)化方法建立的數(shù)據(jù)庫(kù)即使公開(kāi),也無(wú)法反推出某一個(gè)體的真實(shí)數(shù)據(jù)。
Google從2014年開(kāi)始依據(jù)“差分隱私”原則來(lái)搜集用戶(hù)電腦中的惡意代碼(ma]ware)使用記錄,蘋(píng)果公司也從2016年開(kāi)始依據(jù)此項(xiàng)原則來(lái)搜集iPhone用戶(hù)的使用記錄,它們的方法就是前文提到的隨機(jī)化,只是具體算法遠(yuǎn)比它復(fù)雜。這是在大數(shù)據(jù)時(shí)代既保護(hù)隱私,又高效使用數(shù)據(jù)的兩全其美之道。
再看公平,這是一個(gè)遠(yuǎn)比隱私復(fù)雜的概念。有一種觀(guān)點(diǎn)認(rèn)為,保障公平的理想手段是屏蔽有可能導(dǎo)致歧視的相關(guān)信息,例如在公司招聘時(shí),求職者不需要填寫(xiě)自己的種族身份,以此避免種族歧視。但實(shí)際上,各類(lèi)數(shù)據(jù)之間的相關(guān)性使得這種手段難以奏效。例如在美國(guó),根據(jù)一個(gè)人住址的郵政編碼基本上就可以反推出他的種族身份、家庭收入和教育程度等信息。
因此,從限制數(shù)據(jù)輸入的角度來(lái)保障公平并非良策,要讓大數(shù)據(jù)技術(shù)顧及公平,關(guān)鍵在于通過(guò)特定算法來(lái)保證公平的數(shù)據(jù)輸出結(jié)果。而這首先需要確認(rèn)“公平”的含義。
在最簡(jiǎn)單的情況下,公平意味著統(tǒng)計(jì)上的均等。以劇院贈(zèng)票為例,如果要向兩個(gè)群體A和B公平贈(zèng)送10張票,A、B的人數(shù)之比是六比四,那么隨機(jī)在A群體中找6個(gè)人,在B群體中找4個(gè)人贈(zèng)票就符合這種公平觀(guān)念。然而,即使是這樣簡(jiǎn)單的公平觀(guān)念,將其嵌人大數(shù)據(jù)技術(shù)之中也并非易事。例如,假設(shè)贈(zèng)票不僅要求A和B兩個(gè)群體公平,也要對(duì)男女公平,而兩個(gè)群體總?cè)丝谥械哪信壤彩橇人模敲磳⑵彪S機(jī)贈(zèng)給A群體中的6個(gè)男人和B群體中的6個(gè)女人就能完全符合上述要求,但這就造成了對(duì)A群體中的女人和B群體中的男人的歧視。
問(wèn)題在于,機(jī)器在通過(guò)自我學(xué)習(xí)處理大數(shù)據(jù)時(shí),能夠執(zhí)行開(kāi)發(fā)者明確提出的要求,卻常常未必能夠回避開(kāi)發(fā)者想要回避卻又未曾明示的后果。由于開(kāi)發(fā)者事先不可能預(yù)見(jiàn)所有后果,因此也就不可能事先明示機(jī)器。如何讓機(jī)器自己懂得回避這類(lèi)后果,是計(jì)算機(jī)科學(xué)的一項(xiàng)難題。
另一方面,在牽涉到其他因素時(shí),就不能再把公平等同于統(tǒng)計(jì)上的均等。如果銀行對(duì)前述A、B兩個(gè)群體發(fā)放貸款,而兩個(gè)群體的信用有所不同,那么就不能根據(jù)其人口比例來(lái)分配貸款。在這種情況下,公平不是在兩個(gè)群體之間均等地分配貸款,而是均等地分配“錯(cuò)誤”。如果A群體的信用比B群體高,那么在兩者違約率均等的情況下,A群體就能夠得到較多貸款。
這說(shuō)明公平的內(nèi)涵是和社會(huì)語(yǔ)境相關(guān)的,在處理不同的問(wèn)題時(shí),需要不同的算法。
關(guān)于算法的公平性,一個(gè)致命的問(wèn)題在于,最初輸入的數(shù)據(jù)可能就是具有歧視性的。例如,政府要計(jì)算A、B兩區(qū)的犯罪率,但是并沒(méi)有真實(shí)的犯罪數(shù)據(jù),只有警察逮捕的數(shù)據(jù)。假設(shè)A、B兩區(qū)的實(shí)際犯罪率相同,但警察在B區(qū)的逮捕記錄較多,這將導(dǎo)致政府認(rèn)為B區(qū)犯罪率較高,因此加派更多警察,而警察越多,逮捕的犯人就越多,如此形成的反饋環(huán)就會(huì)造成B區(qū)犯罪率遠(yuǎn)高于
A區(qū)的印象。一個(gè)更加微妙的例子是前述亞馬遜招聘模式的性別歧視,那是因?yàn)樵S多日常語(yǔ)言就隱含了對(duì)女性的歧視,而這些日常語(yǔ)言作為訓(xùn)練數(shù)據(jù)被輸入機(jī)器,機(jī)器在識(shí)別語(yǔ)義的學(xué)習(xí)過(guò)程中對(duì)“女性”這個(gè)詞匯自動(dòng)予以貶低性評(píng)價(jià)。如何回溯并校正這種歧視性的數(shù)據(jù)輸入,是大數(shù)據(jù)技術(shù)的一項(xiàng)關(guān)鍵任務(wù)。
在很多情況下,公平并非唯一的目標(biāo),效率與公平需要兼顧。如果把“效率損失”和“不公平程度”作為兩個(gè)量化指標(biāo),那么這種兼顧可以表示為如下指令:“在不增加效率損失的前提下盡可能減少不公平程度,在不增加不公平程度的前提下盡可能減少效率損失?!毙屎凸皆诤芏鄷r(shí)候常常是沖突的,在這種情況下,上述指令就相當(dāng)于經(jīng)濟(jì)學(xué)所說(shuō)的“帕累托改進(jìn)”,最終會(huì)達(dá)到所謂“帕累托邊界”,也就是不再存在改進(jìn)的可能,不可能減少不公平程度而不增加效率損失,反之亦然。
“帕累托邊界”包含了眾多可能的組合。一種極端情況是效率損失為零,完全不考慮公平,這時(shí)減少不公平程度就會(huì)增加效率損失。另一種極端情況則是不公平程度為零,但完全不考慮效率。任何可以通過(guò)數(shù)據(jù)反映“效率損失”和“不公平程度”的問(wèn)題,都可以利用程序推算出它的“帕累托邊界”,但是把該邊界上的哪一個(gè)點(diǎn)——即哪一種“效率”與“公平”的組合——作為結(jié)論,就需要由人來(lái)判斷,而非機(jī)器來(lái)決定。
以上討論的都是關(guān)于如何針對(duì)數(shù)據(jù)作出公平的決策。而在另外一些情境下由于存在人際之間的互動(dòng)和博弈,保障公平不僅需要考慮如何處理數(shù)據(jù),也需要考慮如何影響人的動(dòng)機(jī)。
駕車(chē)上路就是一個(gè)重要的“百姓日用而不知”的多重博弈。每個(gè)司機(jī)選擇的車(chē)速和路線(xiàn)都不僅僅取決于主觀(guān)愿望,而是更多地受到路上其他車(chē)輛的速度和路線(xiàn)的影響?,F(xiàn)有導(dǎo)航App的功能,是通過(guò)對(duì)即時(shí)道路和行車(chē)數(shù)據(jù)的處理,為每個(gè)司機(jī)指出一條最快的行車(chē)路線(xiàn)。但每一個(gè)司機(jī)都試圖縮短時(shí)間抄近路的結(jié)果,就是司空見(jiàn)慣的車(chē)流擁堵。
本書(shū)提出的解決之道,是設(shè)計(jì)一種新的導(dǎo)航App,其算法不是最小化每一個(gè)司機(jī)的當(dāng)前通行時(shí)間,而是最小化某一區(qū)域內(nèi)所有車(chē)輛的平均通行時(shí)間。計(jì)算表明,這樣可以顯著降低所有車(chē)輛的總通行時(shí)間,對(duì)社會(huì)來(lái)說(shuō)更為公平。
問(wèn)題在于,怎么讓司機(jī)接受這樣一種新的導(dǎo)航App呢?本書(shū)指出,這種導(dǎo)航App的作用是為司機(jī)之間的多重博弈建立“相關(guān)均衡”(correlatedequilibrium)。所謂“相關(guān)均衡”的一個(gè)典型例子是交通信號(hào)燈。在沒(méi)有交通信號(hào)燈的情況下,車(chē)輛在通過(guò)路口時(shí)缺乏協(xié)調(diào)機(jī)制,只能盲目選擇或?;蛐?,容易沖撞。交通信號(hào)燈實(shí)則提供了一種協(xié)調(diào)機(jī)制,當(dāng)大家遵循這套機(jī)制時(shí),就可以相互判斷對(duì)方的選擇,從而作出自己的正確選擇,順利有序通過(guò)路口。同樣,以最小化所有車(chē)輛平均通行時(shí)間為目標(biāo)的“公平”導(dǎo)航App,它所指示的路線(xiàn)也會(huì)成為一種協(xié)調(diào)機(jī)制,由此帶來(lái)的順利有序就是司機(jī)接受它的動(dòng)機(jī)所在。
另一個(gè)例子是互聯(lián)網(wǎng)的內(nèi)容推送,現(xiàn)在通行的算法是根據(jù)用戶(hù)的選擇和閱讀興趣推送內(nèi)容,導(dǎo)致用戶(hù)的信息渠道日益囿于單一視角和立場(chǎng),從而造成公共輿論場(chǎng)的碎片化,加劇社會(huì)分歧。本書(shū)的解決方案是改進(jìn)算法,不僅推送用戶(hù)感興趣的內(nèi)容,也要推送與用戶(hù)的慣常視角和立場(chǎng)相悖的內(nèi)容,起到“兼聽(tīng)則明”“聞?wù)咦憬洹钡淖饔?。這也是一種公平。
本書(shū)在篇末指出,賦予抽象的價(jià)值觀(guān)念精密的數(shù)學(xué)定義,是將社會(huì)規(guī)范從內(nèi)部嵌入大數(shù)據(jù)技術(shù)的起點(diǎn)。將來(lái)還需要讓大數(shù)據(jù)技術(shù)顧及更多的倫理觀(guān)念,諸如“透明”“可問(wèn)責(zé)”“安全”“合乎道德”等等。這不僅需要計(jì)算機(jī)科學(xué)家的學(xué)術(shù)探索,更需要借鑒哲學(xué)家的思辨成果。以哈佛公開(kāi)課《公正》而蜚聲國(guó)際的哲學(xué)家桑德?tīng)枺∕ichael Sandel)便深受兩位作者青睞。毫無(wú)疑問(wèn),標(biāo)志著人類(lèi)文明新紀(jì)元的大數(shù)據(jù)時(shí)代,將會(huì)賦予哲學(xué)全新的內(nèi)涵。
《人之算法:人工智能如何重新定義我們是誰(shuí)》
作者:[美]弗林·科爾曼(Flynn Coleman)
出版社:Counteroint
本書(shū)指出,如果能對(duì)機(jī)器學(xué)習(xí)的算法注入人性的倫理和價(jià)值,將會(huì)開(kāi)啟一個(gè)新的啟蒙時(shí)代。
《數(shù)字超載:從Facebook和Google到假新聞與信息過(guò)濾氣泡——那些控制我們生活的算法》
作者:[瑞典]大衛(wèi)·桑普特(David Sumpter)
出版社:Bloomsbury Sigma
本書(shū)從數(shù)學(xué)家的視角出發(fā),簡(jiǎn)明而敏銳地分析了大數(shù)據(jù)技術(shù)對(duì)人類(lèi)社會(huì)的影響與改變。