閆坤如
內(nèi)容提要 人工智能的發(fā)展引發(fā)人類認知的第四次革命,但人工智能中存在著算法偏差,算法偏差可能引起算法歧視,導致不公平競爭以及算法濫用等現(xiàn)象。算法并非價值中立的,它負載著設(shè)計者的價值,人工智能的算法偏差是由算法設(shè)計者的主觀因素和認知偏差引起的,除此之外,數(shù)據(jù)偏差和“算法黑箱”也可能導致算法偏差。要想消除算法偏差,需要強化人工智能算法主體的責任,保障挖掘數(shù)據(jù)的準確性并提高算法的透明度與可解釋性,通過在人工智能技術(shù)中嵌入道德代碼消除算法偏差,讓人工智能算法經(jīng)受“道德圖靈測試”的考驗。
人工智能的核心是大數(shù)據(jù)和算法,人工智能是基于算法的大數(shù)據(jù)分析,發(fā)現(xiàn)隱藏于數(shù)據(jù)背后的結(jié)構(gòu)或模式,從而實現(xiàn)數(shù)據(jù)驅(qū)動的人工智能決策。人工智能發(fā)展中的人臉識別、語言識別、機器學習、機器翻譯、深度學習、無人駕駛汽車等都依賴于算法。人工智能技術(shù)既影響人的精神世界,也影響人的外部世界,依賴于算法的人工智能在自我認知以及社會進步方面發(fā)揮著革命性作用。
按照人工智能算法學家科爾曼(Thomas H. Cormen)等人的觀點,“算法以某個值或一組值作為輸入,并生成某個值或一組值作為輸出。因此,算法是將輸入轉(zhuǎn)換為輸出的一系列計算步驟”①。算法作為計算機程序,由純粹的數(shù)學邏輯驅(qū)動,算法作為計算機程序具有公正性和客觀性,但在人工智能發(fā)展中卻存在著算法偏差。學界對于算法偏差沒有統(tǒng)一的定義,算法偏差一般指的是計算機程序或者人工智能系統(tǒng)在數(shù)據(jù)收集、數(shù)據(jù)選擇和使用的過程中因包含了人類的隱含價值而在輸出中呈現(xiàn)出不公平現(xiàn)象,算法偏差是對算法客觀性的偏離。算法偏差隱含在算法中,具有內(nèi)隱性,我們可以通過算法偏差的外在表現(xiàn)來把握算法偏差,人工智能的算法偏差主要表現(xiàn)在以下幾個方面:
1.算法偏差表現(xiàn)為算法歧視
歧視指的是由于認知主體的偏見或者偏差引起的不公平對待的現(xiàn)象,例如不同的種族、性別、宗教信仰、居住地點等均可能引發(fā)種族歧視、性別歧視、宗教歧視以及地域歧視等。算法偏差導致的算法歧視現(xiàn)象廣泛存在,人工智能算法中可能同樣隱含著種族歧視、階層歧視以及性別歧視等內(nèi)容。例如,2016年,微軟開發(fā)的通過抓取和用戶互動的數(shù)據(jù)模仿人類對話的聊天機器人Tay散布種族主義信息;2012年,哈佛大學發(fā)表在《社會問題雜志》(JournalofSocialIssues)上的一項研究顯示,如果搜索傳統(tǒng)的非裔美國人的姓名,結(jié)果中顯示有逮捕記錄的可能性更大;2016年,ProPublica的一項調(diào)查發(fā)現(xiàn),執(zhí)法部門使用的人工智能工具顯示黑人比白人更有可能犯罪。以上人工智能算法中都包含了某種種族歧視的內(nèi)容。又如歐洲保險公司推出UBI(Usage Based Insurance)保險涉嫌階層歧視,UBI車險根據(jù)駕駛?cè)说膶嶋H駕駛時間、地點、里程、具體駕駛行為等,進行算法分析,推出差異性保險計劃,由于上夜班且上班地點遠、駕車經(jīng)過復雜路線的,大多是低收入者,因此UBI車險事實上會提高低收入者的車險費用,這也反映出社會地位低的弱勢群體受到了歧視,人工智能算法表現(xiàn)出階層歧視。算法偏差還可能導致性別歧視,2015年卡內(nèi)基梅隆大學的國際計算機科學研究所(ICSI)的研究結(jié)果顯示,由谷歌創(chuàng)建的廣告定位算法中潛藏性別歧視現(xiàn)象。男性可以收到更多高職高薪的廣告推送,而女性收到高薪職業(yè)推薦的機會遠遠小于男性。微軟和美國波士頓大學的研究人員也發(fā)現(xiàn)在一些人工智能算法中存在性別歧視現(xiàn)象,“編程”和“工程”等詞常與男性聯(lián)系起來,“家庭主婦”“家務勞動”等詞往往與女性聯(lián)系在一起。算法歧視是算法偏差的外在表現(xiàn),算法歧視主要是由于算法設(shè)計者主觀認知偏見引發(fā)的。
2.算法偏差導致不公平競爭
人工智能算法依賴于大數(shù)據(jù),數(shù)據(jù)資源已經(jīng)成為資本,具有強大的經(jīng)濟價值,已經(jīng)成為數(shù)據(jù)公司盈利的關(guān)鍵因素,數(shù)據(jù)擁有者比不擁有數(shù)據(jù)的人可以產(chǎn)生更多經(jīng)濟效益,導致競爭中的不公平現(xiàn)象。數(shù)據(jù)是由使用者產(chǎn)生的,但數(shù)據(jù)往往不歸數(shù)據(jù)使用者占有和使用,基于數(shù)據(jù)所有權(quán)不公平、使用權(quán)不公平而成的算法偏差表現(xiàn)為數(shù)據(jù)占有不公平和數(shù)據(jù)挖掘不公平,人工智能算法基于數(shù)據(jù)的占有和使用程序上的不公平會導致算法結(jié)果的不公平,因此,人工智能算法偏差導致了不公平競爭。2018年,熱遍網(wǎng)絡的“大數(shù)據(jù)殺熟”現(xiàn)象就涉及因為算法偏差導致的價格上的不公平現(xiàn)象。例如,在訂房訂票過程中,使用蘋果手機的用戶比使用安卓手機的用戶需支付更多費用,老用戶比新用戶價格高,VIP用戶比普通用戶價格高等。不同的經(jīng)營者因為掌握數(shù)據(jù)的程度不同,分析數(shù)據(jù)能力以及預測水平具有差異,導致企業(yè)間存在著不公平競爭。計算機可以通過算法進行用戶畫像,分析用戶的消費行為、消費習慣、消費能力,計算用戶的價格敏感度和消費依賴度,預測消費者的價格天花板,以此對老客戶抬高價格,對不同客戶區(qū)別定價,這種不公平競爭也是算法偏差的外在表現(xiàn)。
3.算法偏差表現(xiàn)為算法濫用
算法濫用是指人們在利用算法進行分析、決策、協(xié)調(diào)、組織等一系列活動中,其使用目的、使用方式、使用范圍等出現(xiàn)偏差并引發(fā)不良影響的情況。例如,人臉識別算法可以精準識別罪犯,提高治安管理水平,但是將人臉識別算法推廣至預測潛在犯罪人,或者根據(jù)臉型判定犯罪潛質(zhì),就屬于算法濫用。在人工智能發(fā)展中,人工智能的數(shù)據(jù)分析與算法預測是其重要的一個方面,但是在算法預測過程中存在的偏差——如預測犯罪偏差、性向偏差等目前尚無法避免。例如,英國警方希望使用人工智能技術(shù)來預測嚴重的暴力犯罪,人工智能算法通過人臉面相中的內(nèi)眼角間距、上唇曲率以及鼻唇角角度之間的關(guān)系預測犯罪概率的精準度高達89.5%;COMPAS算法預測精準度為65%,它主要通過年齡以及此前犯罪情況、人際關(guān)系、生活方式、個性和態(tài)度、家庭的情況等,運用邏輯回歸的機器學習算法預測犯罪概率。然而以上手段都會出現(xiàn)同樣的長相會呈現(xiàn)出同樣的犯罪概率的情況,也無法解釋雙胞胎中一個是罪犯另一個卻是模范市民的現(xiàn)象,這就反映出在犯罪概率中出現(xiàn)了算法偏差。在人工智能預測性向中同樣存在偏差,2018年,斯坦福大學學者發(fā)表論文《深度神經(jīng)網(wǎng)絡在從面部圖像檢測性取向方面比人類更精確》中提到,“這些可能涉及偏差中嵌入的數(shù)據(jù)集,如社會、語言、文化和啟發(fā)式偏差嵌入在數(shù)據(jù)當中,同時提供上下文敏感的相關(guān)性,如深層神經(jīng)網(wǎng)絡可以成功地由圖像分析預測性取向”③。然而,若濫用人工智能算法,會進一步促使對不同的人貼標簽,侵犯人權(quán)。算法被廣泛地應用于預測、識別、評判、決策等各個領(lǐng)域,但算法偏差表現(xiàn)為算法濫用,如視覺算法被用于為五大洲的人畫像,錯誤地將亞洲人的眼睛畫成閉著的、選美比賽中用到的評判算法特別偏愛白色人種具有的特征等等,這都屬于算法濫用的結(jié)果。算法除了被用于犯罪預測方面,還被用于算卦、占卜等各個領(lǐng)域。算法是人工智能技術(shù)發(fā)展的基礎(chǔ),但算法存在偏差,并非是客觀中立的,它包含著算法設(shè)計者的主觀偏見以及客觀偏見,不能把算法作為客觀評判標準來應用,更不能因迷信人工智能技術(shù)而盲目擴大其應用,應理性地排除人工智能技術(shù)偏向與路徑依賴性。算法濫用既不能保證算法的客觀性,也難以保障算法結(jié)果的準確性。
人工智能算法偏差產(chǎn)生的原因有算法設(shè)計者的主觀原因、依賴數(shù)據(jù)原因以及“算法黑箱”等客觀原因。下面我們從三個方面對算法偏差的原因加以分析。
1.主觀因素導致的數(shù)據(jù)偏差
人工智能算法偏差因設(shè)計者的主觀偏見、認知偏差抑或認知局限性導致,這些是主觀因素引起的算法偏差?!蹲匀弧冯s志的社論文章“讓大數(shù)據(jù)算法更可靠”中提出“偏見進,偏見出”(bias in,bias out)④,有偏見的主體設(shè)計出有偏見的算法,主觀因素引起的偏差表現(xiàn)為以下幾個方面:
首先,算法設(shè)計者主觀偏見導致的偏差。算法偏差的主觀因素主要是由算法設(shè)計者引起的,算法設(shè)計者為了達到某種目的、獲取某種利益而人為地設(shè)計具有偏見與歧視性的算法,從而導致了算法偏差。任何算法都是設(shè)計者為了達到某個目的設(shè)計出來的,它體現(xiàn)了設(shè)計者的意愿。例如,2016年,劍橋分析公司獲取Facebook數(shù)據(jù),通過“精準營銷”算法影響選民的政治選擇,幫助特朗普團隊贏得美國總統(tǒng)選舉。人工智能算法中的技術(shù)偏差容易避免,但算法設(shè)計者受自身偏見或者社會偏見產(chǎn)生的影響難以根除,致使在人工智能算法設(shè)計中難以排除偏差現(xiàn)象。
其次,算法設(shè)計者的認知偏差導致的算法偏差。認知偏差指的是主體在知覺自身、其他人或外界環(huán)境時因自身或情境的原因使得知覺結(jié)果出現(xiàn)失真的現(xiàn)象。認知偏差也會導致算法偏差,例如,認知偏差中的幸存者偏差(Survivorship Bias),也稱為“生存者偏差”或“存活者偏差”,這是一種常見的邏輯謬誤,指的是算法設(shè)計者只看到了數(shù)據(jù)統(tǒng)計結(jié)果,而忽視數(shù)據(jù)挖掘過程,遺漏有效數(shù)據(jù)或者關(guān)鍵數(shù)據(jù)導致的偏差。這同樣出現(xiàn)在由于算法設(shè)計者對事物的認知存在偏見,或者算法運行過程中挖掘或使用帶有偏見的數(shù)據(jù)等,造成算法產(chǎn)生偏離客觀事實的結(jié)果,導致出現(xiàn)算法偏差。
再次,算法設(shè)計者的主觀認知局限性導致偏差。算法設(shè)計者也有知識盲區(qū),也會有自身的認知局限性,而這種認知局限性會伴隨算法設(shè)計的全過程,不可避免地導致算法偏差。人工智能算法的設(shè)計目的、數(shù)據(jù)運用、結(jié)果表征等都體現(xiàn)了算法設(shè)計者的價值選擇,他們可能會在無意識中把自己持有的偏見嵌入到人工智能算法之中。算法不是價值中立的,由于不同的設(shè)計人員有著不同的成長經(jīng)歷和教育背景,并形成了各自相對獨立的價值觀,這決定了不同算法設(shè)計者具有不同的利益追求與價值判斷,形成了根深蒂固的價值偏見和習慣看法,從而導致設(shè)計出的不同算法皆具有一定的偏差?!斑@樣的算法既不是中立的也不是客觀的,而是主觀解釋和決策、選擇和分類的結(jié)果,可能會讓位于有意識或無意識的歧視和偏見”⑤。算法受設(shè)計者主觀因素的影響,算法設(shè)計中帶有傾向性,算法負載了設(shè)計者的價值和偏見。
2.數(shù)據(jù)偏差引發(fā)的算法偏差
人工智能算法基于數(shù)據(jù)驅(qū)動之上,數(shù)據(jù)的準確、全面可以保障人工智能算法結(jié)果的真實性與準確性;反之,數(shù)據(jù)虛假、數(shù)據(jù)缺失以及數(shù)據(jù)污染等原因會引發(fā)數(shù)據(jù)偏差。歧視的存在有部分是由于決策者的偏差,但不容忽視的是,現(xiàn)代社會的不平等在很大程度上應當歸因于“數(shù)據(jù)歧視”,如果數(shù)據(jù)被污染或者數(shù)據(jù)不全,便會容易引發(fā)算法偏差。若數(shù)據(jù)驅(qū)動的數(shù)據(jù)來源是被污染的、失實的,帶有偏差的,那算法呈現(xiàn)的結(jié)果也是有偏差的。輸入偏差,則輸出偏差。人工智能系統(tǒng)從歷史數(shù)據(jù)中學習,而人工智能算法可能會編碼歷史偏見。當被挖掘的數(shù)據(jù)本身就是過去故意歧視的結(jié)果時,通常沒有明顯的方法來調(diào)整歷史數(shù)據(jù)以消除這種污染,數(shù)據(jù)挖掘并繼承以前的決策者偏見,或者反映社會中普遍存在的偏見。數(shù)據(jù)不全面或者不準確時或許會反映社會存在的偏見,算法也同樣會延續(xù)之前決策者的偏見。例如,如果雇主在之前的招聘決策中一直拒絕雇傭女性或黑人求職者,那么計算機可能會在算法上歧視某些女性或黑人求職者;又如數(shù)據(jù)顯示通勤時間長與員工流失率高有關(guān),招聘算法便由此會對通勤時間較長的人給予負面評分。以上數(shù)據(jù)歧視幾乎屬于算法使用過程中無意出現(xiàn)的一種特性,而不是算法程序員的有意識選擇,但其結(jié)果同樣產(chǎn)生歧視。數(shù)據(jù)挖掘算法消除人為偏見,但卻帶來新的算法偏差。數(shù)據(jù)反映了社會普遍存在的偏見,在數(shù)據(jù)驅(qū)動的世界里,算法既是優(yōu)點的來源,也是缺點的來源。人工智能算法依賴于數(shù)據(jù),在巨大的數(shù)據(jù)集合中所提取的數(shù)據(jù)的質(zhì)量,很大程度上影響算法的準確性。
3.“算法黑箱”導致的算法偏差
“算法黑箱”指的是算法設(shè)計者運用不透明的程序?qū)⑤斎朕D(zhuǎn)換為輸出?!八惴ê谙洹笔怯捎谒惴ǖ牟煌该饕约八惴ǖ膹碗s性引發(fā)的算法設(shè)計者對算法的不能完全把握造成的結(jié)果,在人工智能技術(shù)中,我們可以稱之為算法透明性(Algorithmic Transparency)難題,即“算法黑箱”導致的算法偏差。在人工智能中會用到多種算法,例如,模式識別算法、自然語言處理算法、數(shù)據(jù)挖掘算法等等,算法遵循一組指令或?qū)W習完成一個目標。理論上,人工智能算法可以通過減少人類的短視和偏見,幫助人類作出公正的分析和決定,因此算法一直被認為是公正的、客觀的,但算法的不透明性卻難以保障算法的客觀性。伯勒爾(Jenna Burrell)在《機器如何“思考”:理解機器學習算法中的不透明性》中給出了三種形式的不透明性:“(1)作為故意的公司或國家機密的不透明;(2)作為技術(shù)文盲的不透明;(3)由于機器學習算法的特性和所需的規(guī)模而產(chǎn)生的不透明?!雹奕绻_信息損害了企業(yè)的聲譽或業(yè)務能力,企業(yè)不太可能對其系統(tǒng)保持透明,且往往是作為企業(yè)隱私或商業(yè)秘密。谷歌、Yahoo及其他搜索引擎可以有效地為人們在查詢條目時提供個性化的人為推薦,大多數(shù)公司傾向于將個性化推送的算法的內(nèi)部工作原理作為商業(yè)秘密加以隱藏,這導致網(wǎng)站的人為推送信息中包含著算法偏差。除了大公司利用算法權(quán)力造成算法偏差,一些小公司也加劇了算法偏差的出現(xiàn),“由于缺乏數(shù)據(jù)、專業(yè)知識和技術(shù)技能,以及計算機和數(shù)據(jù)處理本身的不斷發(fā)展,這些機構(gòu)在控制和管理快速變化的數(shù)字市場方面基本上沒有什么影響力,而且,無論是否自愿,它們還助長了算法不透明的蔓延”⑦。因為人工智能算法的復雜性以及算法在運用時帶有偏見,使得算法難以解釋?!爱斎祟愒跈C器的決策支持下做出決策的時候,他們通常是在不確定性的條件下這樣做的。即使有數(shù)據(jù)和統(tǒng)計的幫助,也不可能實現(xiàn)完全的信息和充分的‘理性’?!雹?/p>
人工智能技術(shù)的不透明性導致算法具有可錯性,羅森布拉特(Rosenblat Alex)、科內(nèi)斯(Kneese Tamara)和博伊德(Boyd Danah)在《算法責任》中提出,“算法在對大量信息進行排序時非常有用,可以提供最有用的排序。自動算法可以使用一系列定義良好的步驟和指令,根據(jù)有關(guān)理想結(jié)果的動機組合生成過濾信息的類別。在該組合的最終表達式中,不確定性、主觀解釋、任意選擇、意外事件和混合中的其他元素都被呈現(xiàn)為不可見的,與算法產(chǎn)品交互的最終用戶看到的只是技術(shù)的功能”⑨。算法復雜性與不透明性導致了算法偏差。例如,人類基因組計劃在確定人類DNA中所有10萬個基因、確定構(gòu)成人類DNA的30億個化學堿基對的序列、將以上信息存儲在數(shù)據(jù)庫中以及開發(fā)數(shù)據(jù)分析工具等目標方面取得了巨大進展,但每一步都需要復雜的算法。隨著機器學習模型作為決策工具的日益普及,解釋工作可能面臨著新的挑戰(zhàn)。
在人工智能系統(tǒng)中,人為的主觀偏差及認知局限、數(shù)據(jù)來源的失實及不完整、“算法黑箱”等均會導致算法偏差。因此,對于算法偏差需要從主觀與客觀兩個維度去消除和規(guī)避。
避免算法偏差,首先,要承認人工智能的局限性,人工智能不是無所不能的,人工智能算法也不是絕對中立的。其次,人工智能算法偏差也不是與生俱來的,但人工智能算法在數(shù)據(jù)挖掘、采集以及運用過程中會有意或無意地嵌入人類的偏見。如果想避免人工智能的算法偏差,應該針對人工智能算法偏差的主觀原因與客觀原因,強調(diào)人工智能算法主體的責任,保證人工智能算法挖掘數(shù)據(jù)的準確性、完整性,同時,也要提高人工智能算法的透明度與可解釋性,只有這樣,才能更好地規(guī)避人工智能算法偏差。
1.強調(diào)人工智能算法主體的責任
技術(shù)中立主義者認為,算法是沒有價值的實體,算法作為技術(shù)只是人類改造世界的工具,不負載人類價值,算法是中立的,并且,一個算法或系統(tǒng)產(chǎn)生一個價值判斷作為它的輸出這一事實,并不能證明用于產(chǎn)生價值判斷的算法本質(zhì)上是有價值的??死啄?Kraemer Felicitas)等人在《是否存在算法倫理?》中反駁這種觀點,克雷默等人反對技術(shù)中立論的觀點,他們認為算法負載人類價值,算法設(shè)計者、數(shù)據(jù)擁有者、數(shù)據(jù)和算法使用者都是有價值訴求和利益驅(qū)使的,欲規(guī)避算法偏差,必先提倡算法主體的責任,“如果一些算法本質(zhì)上是有價值的,也就是說,如果設(shè)計算法的人無法避免對什么是好什么是壞做出道德判斷,那么我們有理由認為,軟件設(shè)計師對他們設(shè)計的算法負有道德責任”⑩。賓斯(Binns Reuben)等人提出規(guī)避算法偏差必須提倡“算法問責制”,“雖然人類的決策者可能會表現(xiàn)出片段和偏見的錯誤,但我們至少可以要求他們對自己的決策合理化從而讓他們承擔責任”,人類應主動干預算法。2016年4月,歐盟頒布《通用數(shù)據(jù)保護條例》(theGeneralDataProtectionRegulation,GDPR),被稱為數(shù)據(jù)保護中的“哥白尼式革命”,該條例對算法決策中的主體責任以及行業(yè)規(guī)范提出要求。算法設(shè)計者要有責任意識,對他們來說,朝著提高透明度的方向邁出的明智的一步便是公開他們的數(shù)據(jù)來源。除此之外,還要關(guān)注數(shù)據(jù)、算法持有者和使用者的主體責任。百度與谷歌等在線信息媒介正在慢慢取代傳統(tǒng)媒體渠道,搜索引擎公司運用算法權(quán)力來控制信息流,對內(nèi)容進行排名,戰(zhàn)略性地放置產(chǎn)品廣告,并預測未來的用戶行為。在算法運行時,谷歌、Yahoo和其他搜索引擎可以有效地為人們在查詢條目時看到的結(jié)果創(chuàng)建“過濾”,但是,“這些過濾信息的在線服務不僅僅是算法。人不僅影響算法的設(shè)計,而且人還可以手動影響濾波過程”,我們可以通過分析濾波過程,剔除其中明顯存在的主觀偏見和技術(shù)偏見,“利用現(xiàn)有的文獻和搜索引擎偏置守門,并提供了一個算法守門模型”。數(shù)據(jù)擁有者在利用算法對消費者的支付預見進行建模的時候,精準的用戶畫像應該剔除偏見,減少算法歧視現(xiàn)象。通過算法擁有者、算法使用者以及算法管理者的共同努力,消除算法偏差。
2.保障挖掘數(shù)據(jù)的準確性
“數(shù)據(jù)挖掘等算法技術(shù)消除了決策過程中的人為偏見,但是算法的好壞取決于它處理的數(shù)據(jù)。”數(shù)據(jù)已經(jīng)成為國家戰(zhàn)略性資源,數(shù)據(jù)也成為能為企業(yè)帶來經(jīng)濟效益的資產(chǎn),數(shù)據(jù)占有者和數(shù)據(jù)控制者通過大數(shù)據(jù)分析可以產(chǎn)生新知識、創(chuàng)造新價值、發(fā)展新生產(chǎn)等等,這就導致數(shù)據(jù)壟斷的產(chǎn)生。大數(shù)據(jù)控制者可以通過長期積累的大量數(shù)據(jù)及數(shù)據(jù)挖掘分析或者與數(shù)據(jù)相關(guān)的經(jīng)營交易獲得經(jīng)濟利益,如Facebook濫用市場支配地位收集、分析用戶數(shù)據(jù)等。數(shù)據(jù)壟斷導致數(shù)據(jù)寡頭的出現(xiàn),數(shù)據(jù)寡頭作為數(shù)據(jù)控制者來占有市場上的數(shù)據(jù)支配地位,應該用法律或者人工智能倫理審查制度限制數(shù)據(jù)寡頭的權(quán)利。例如,《中華人民共和國反壟斷法》就對數(shù)據(jù)寡頭的行為進行了規(guī)制,對拒絕開放數(shù)據(jù)的行為進行約束,以保障數(shù)據(jù)挖掘的資源是全面的。2016年,亞馬遜、谷歌、微軟、IBM以及Facebook等多家公司聯(lián)合成立人工智能倫理委員會來避免數(shù)據(jù)歧視、數(shù)據(jù)濫用、數(shù)據(jù)偏差等,數(shù)據(jù)的準確全面可以有效規(guī)避算法偏差,從而保障算法的客觀性。同時,還要通過完善數(shù)據(jù)挖掘技術(shù)保證數(shù)據(jù)的準確性?!皵?shù)據(jù)挖掘可以是歧視的來源,也可以是發(fā)現(xiàn)歧視的手段?!比斯ぶ悄芩惴ㄒ蕾囉诖罅康臄?shù)據(jù),數(shù)據(jù)挖掘是程序員有意識的選擇,當用于教授人工智能系統(tǒng)的數(shù)據(jù)反映了參與數(shù)據(jù)收集、選擇或使用的人類的隱含價值時,就會出現(xiàn)算法偏差。數(shù)據(jù)挖掘是一種越來越重要的技術(shù),用于提取隱藏在大量數(shù)據(jù)中的有用知識。然而,數(shù)據(jù)挖掘存在潛在的歧視,必須保證數(shù)據(jù)源的全面準確,以此來消除算法偏差,“在不損害決策效用的情況下,發(fā)現(xiàn)這些潛在的偏見并從數(shù)據(jù)中消除它們是非??扇〉摹薄K惴ㄊ腔跀?shù)據(jù)的,算法依賴于人為選擇的數(shù)據(jù),因此,算法是形成性的而非描述性的,我們可以通過保障數(shù)據(jù)的準確性,來避免算法偏差的出現(xiàn)。
3.提高算法的透明性和可解釋性
“算法黑箱”導致算法的透明性難題,算法的復雜性以及技術(shù)的不透明性導致算法偏差的產(chǎn)生,“算法可能會犯錯,并帶有偏見。大規(guī)模運行的復雜算法在技術(shù)上的不透明性使它們難以被仔細審查,導致公眾對它們?nèi)绾涡惺箼?quán)力和影響力缺乏了解”。算法操作人員可能別有用心,這與透明性的要求相沖突,算法擁有者常把算法透明等同于暴露商業(yè)機密,認為會破壞其競爭優(yōu)勢,因此一些公司經(jīng)常限制算法的透明度,造成算法的技術(shù)壟斷或者數(shù)據(jù)壟斷現(xiàn)象的出現(xiàn)。為了避免算法偏差的出現(xiàn),有學者主動出擊,如迪亞克帕羅斯(Diakopoulos Nicholas)、科利斯卡(Koliska Michael)在《新媒體的算法透明性》中提出算法透明性框架,即“我們將算法的信息公開定義為允許相關(guān)方進行監(jiān)視、檢查、批評或干預”。算法透明就要杜絕算法壟斷,人工智能系統(tǒng)的開發(fā)人員要保持“透明操作”,讓不同知識背景的主體能夠理解與接受算法。“透明度只是實現(xiàn)算法倫理和問責制的一種方法?!卑烟岣咚惴ǖ耐该鞫茸鳛閷崿F(xiàn)算法倫理的方法以及對算法主體問責的方法,算法中的倫理假設(shè)至少應該是透明的,并且容易被用戶識別,通過人為干預、控制算法,消除算法應用的不公平現(xiàn)象、歧視性或者偏見的效果,減少信息的不對稱性,能夠準確描述算法的決策程序與學習機制,保證算法的客觀性。
人工智能在我們?nèi)粘I钪械玫窖杆俣鴱V泛的應用,算法化社會即將到來。然而,基于人工智能系統(tǒng)的一個關(guān)鍵障礙是它們往往缺乏透明度。算法的黑箱特性允許其給出強有力的預測,但無法進行具體解釋。布賴斯(Bryce Goodman)和塞斯(Seth Flaxman)等人提出《歐盟關(guān)于算法決策的規(guī)定以及“解釋的權(quán)利”》,米勒(Miller Tim)等把可解釋性作為“展示自己或其他主題做出的決定所依賴的原因”,算法的可解釋性是“解釋人工智能算法輸入的某些特性引起的某個特定輸出結(jié)果的原因”。鼓勵可解釋人工智能的研究人員和實踐者與社會和行為科學的研究人員和實踐者合作,為模型設(shè)計和人類行為實驗提供信息。喬治(George Nott)在《可解釋人工智能:打開人工智能黑箱》中指出,美國國防部下屬的國防高級研究計劃局(Defense Advanced Research Projects Agency)一直致力于可解釋的人工智能(XAI),這項研究正力圖開發(fā)新的機器學習系統(tǒng),該系統(tǒng)將能夠解釋它們的原理。重要的是,它們還將把模型轉(zhuǎn)換為可理解的、對最終用戶有用的解釋。人工智能技術(shù)要想得到行業(yè)和政府的信任,需要更高的透明度,并向用戶解釋它們的決策過程。為了算法應用安全,也需要對算法給出準確的解釋,給出算法決策明確的理由,使用算法決策的系統(tǒng)和機構(gòu)對算法的過程和特定的決策提供解釋,通過技術(shù)手段打開技術(shù)黑箱,保障算法的可解釋性和安全可靠性。
人類往往認為算法是客觀的,在算法沒有偏差的錯覺下,人類傾向于相信人工智能算法的判斷,忽略了這些判斷已經(jīng)反映了人類的偏見。人類接受人工智能算法的決策,并為這些算法創(chuàng)建更多有偏見的數(shù)據(jù),如果不解決算法偏差,可能會導致人類偏差的進一步放大。在人工智能發(fā)展中,算法處于技術(shù)核心地位,算法的準確性能夠保障人工智能輸出結(jié)果的公平性與客觀性。人工智能算法偏差是由于人為主觀因素、數(shù)據(jù)偏差或者“算法黑箱”引發(fā)的,為了發(fā)揮人工智能的“領(lǐng)頭雁”作用,應該強調(diào)人工智能算法主體責任,保障數(shù)據(jù)資源的準確性并提高算法的透明性與可解釋性,讓人工智能發(fā)展符合人類主流的道德倫理要求,把人工智能的算法歧視變?yōu)樗惴ɑ?、模型化的道德代碼,通過設(shè)計和應用道德代碼來規(guī)避算法偏差。
①[意]弗洛里迪:《第四次革命:人工智能如何重塑人類現(xiàn)實》,王文革譯,浙江人民出版社2016年版,第107頁。
②Thomas H.Cormen, Charles E.Leiserson, Ronald L.Rivest, Clifford Stein,IntroductiontoAlgorithms(3rdEdition), Cambridge, Massachusetts London, England:The MIT Press, 2009, p.5.
③Wang, Y.Kosinski, M., Deep Neural Networks are More Accurate Than Humans at Detecting Sexual Orientation from Facial Images,JournalofPersonalityandSocialPsychology, 114(2) , 2018, p.246.
④More accountability for big-data algorithms,Nature, 537(7621), 2016, p.449.
⑤Boyd D., Crawford K., Critical Questions for Big Data, Information,Communication&Society, 15(5), 2012, pp.662~679.
⑥ Burrell J., How the Machine“Thinks”: Understanding Opacity in Machine Learning Algorithms,SocialScienceElectronicPublishing,3(1),2015,pp.1~12.
⑦Rieder G., Simon J., Big Data, Corporate Governance, and the Limits of Algorithmic Accountability// Isis Summit Vienna-the Information Society at the Crossroads.2015,https://www.researchgate.net/publication/300249734_Big_Data_Corporate_Governance_and_the_Limits_of_Algorithmic_Accountability.
⑧Berendt B., S?ren Preibusch, Better Decision Support Through Exploratory Discrimination-aware Data Mining: Foundations and Empirical Evidence,ArtificialIntelligenceandLaw, 22(2),2014, pp.175~209.
⑨Rosenblat A., Kneese T., Boyd D., Algorithmic Accountability, Social Science Electronic Publishing, 2014. http://www.datasociety.net/initiatives/2014-0317/. https://www.researchgate.net/publication/326116918_Algorithmic_Accountability.
⑩Kraemer F., Overveld K.V., Peterson M., Is There an Ethics of Algorithms?EthicsandInformationTechnology, 13(3), 2011, pp.251~260.