賈詩威 閆慧
關(guān)鍵詞: 社交媒體; 算法偏見; 算法感知; 批判性話語分析; 信息不平等; 數(shù)字不平等
DOI:10.3969 / j.issn.1008-0821.2023.06.002
〔中圖分類號〕G252 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 06-0014-10
人工智能時代, 算法的廣泛應(yīng)用提高了人類完成多樣化信息處理工作的效率, 也因此嵌入社會治理、公共資源分配、公民權(quán)利實現(xiàn)等各領(lǐng)域, 提供個性推薦、自主決策、風險評估預(yù)測等服務(wù), 為社會變革與發(fā)展注入新動力。
雖然算法有時被認為是中立客觀的, 但近年來諸多研究表明了算法偏見的存在。算法偏見是一種計算機全流程中對某些個人或群體、信息內(nèi)容等產(chǎn)生不公平結(jié)果的系統(tǒng)性和可重復(fù)性錯誤[1] , 其本質(zhì)是社會偏見在算法技術(shù)中的映射[2] 。以推薦算法為例, 信息分發(fā)模式從“人找信息” 模式轉(zhuǎn)變?yōu)椤靶畔⒄胰恕?模式[3] , 這意味著算法擁有絕對權(quán)力控制哪些信息能夠呈現(xiàn)、以及自主決定用戶能看到什么, 這種偏見性算法結(jié)果將導(dǎo)致信息不平等現(xiàn)象。同時, 嵌入人類偏見的算法再現(xiàn)社會結(jié)構(gòu)的不平等, 進一步強化數(shù)字弱勢群體在數(shù)字不平等中所處的底層位置。
人類對算法偏見的感知和理解對于改變算法偏見帶來的社會影響顯得非常重要。但事實上, 多數(shù)用戶并不了解平臺應(yīng)用中算法的存在及其運行機制[4-5] , 以及意識不到算法偏見的存在與影響和算法偏見背后的權(quán)力體現(xiàn)[6-7] 。同時, 部分研究也表明用戶的算法意識差異正在成為一種新的數(shù)字鴻溝形式[8] , 缺乏對算法偏見的感知更容易遭遇信息不平等和數(shù)字不平等, 擴大用戶間的信息貧富差距和數(shù)字鴻溝差距。
因此, 本文試圖調(diào)查社交媒體用戶對算法偏見的感知理解現(xiàn)狀, 在驗證筆者先前提出的算法偏見框架[1] 基礎(chǔ)上, 從用戶視角探究算法偏見背后的權(quán)力博弈關(guān)系, 擴展算法偏見和算法意識研究。具體問題包括: 社交媒體用戶如何感知和理解算法偏見? 社交媒體用戶如何生產(chǎn)和傳播對算法偏見的感知理解? 算法偏見感知文本反映哪些算法偏見背后的權(quán)力關(guān)系與后果?
1研究回顧
1.1算法偏見研究
算法偏見問題受到信息科學、傳播學、社會學等多學科關(guān)注, 諸多研究對算法偏見的來源與類型、影響因素、后果與治理展開討論。
算法偏見源自于人類智能系統(tǒng)與人工智能系統(tǒng)交互的各個環(huán)節(jié), 并在不同環(huán)節(jié)中表現(xiàn)出不同類型[1] 。具體包括: ①業(yè)務(wù)理解環(huán)節(jié)的偏見, 設(shè)計者容易在算法項目設(shè)計階段引入自身對算法目標、數(shù)據(jù)選擇、算法模型、價值判斷等方面的個人偏見[9] , 導(dǎo)致業(yè)務(wù)初始階段產(chǎn)生理解偏見。例如紐約311 平臺在設(shè)計之初對低收入人群、少數(shù)族裔等群體的遺漏, 導(dǎo)致城市服務(wù)分配的不公平[10] ; ②數(shù)據(jù)集構(gòu)建環(huán)節(jié)的偏見, 也稱數(shù)據(jù)集偏見, 涉及歷史偏見、代表性偏見和標簽偏見。其中, 歷史偏見是指歷史數(shù)據(jù)集中預(yù)存偏見[11] , 代表性偏見是指數(shù)據(jù)集無法代表目標群體的真實數(shù)據(jù)分布[12] , 標簽偏見是指人類標注數(shù)據(jù)過程因個人偏見而導(dǎo)致的數(shù)據(jù)標簽不準確[13] , 以上3 種偏見類型都將在算法運行過程中迭代延續(xù)和加強; ③算法模型運行的偏見, 也稱技術(shù)偏見, 包括關(guān)聯(lián)偏見和確認偏見。前者是指算法模型結(jié)果強化并放大了數(shù)據(jù)中潛藏的偏見, 后者是指算法因某些特征做出的偏見性假設(shè),例如推薦算法依據(jù)性別特征向用戶提供不對等的就業(yè)機會[14] ; ④算法交互環(huán)節(jié)的偏見, 也稱交互偏見或迭代算法偏見, 當用戶在人機交互過程向算法提供帶有偏見性的數(shù)據(jù)時, 該數(shù)據(jù)隨之成為下一輪算法運行的歷史數(shù)據(jù), 在反饋循環(huán)中得到自我加強和放大[15] 。
算法偏見是一種后天習得的行為, 反映在結(jié)果上是對受保護屬性的不公平依賴。據(jù)統(tǒng)計, 常見的受保護屬性包括性別[16] 、年齡[17] 、種族[18] 、地理[19] 、身體狀況[20] 、經(jīng)濟水平、教育水平[21] 等。這種先天或后天的用戶特征往往無法更改, 對上述受保護屬性的不公平依賴將延續(xù)傳統(tǒng)社會結(jié)構(gòu)偏見(如性別偏見、種族偏見), 使得特權(quán)階級對非特權(quán)階級的話語控制與排斥、社會重要資源(如就業(yè)機會[22] 、信息服務(wù)[23] 、城市服務(wù)[10] ) 的不公平分配等現(xiàn)象愈演愈烈, 原本處于社會弱勢地位的群體更容易被算法偏見結(jié)果所排斥, 加劇其面臨的數(shù)字不平等和信息不平等現(xiàn)狀。例如Meta(原Facebook)的廣告投放系統(tǒng)被發(fā)現(xiàn)支持廣告商通過篩選種族、膚色、宗教、性別、家庭狀況、國籍等個人受保護屬性信息推送房地產(chǎn)廣告, 公然違反美國《公平住房法》對禁止住房歧視的要求[24] , 對社會公平正義造成沖擊。除此之外, 用戶喜好[25] 、算法偏好[26]等因素也影響著算法結(jié)果的公平性。
算法偏見結(jié)果對用戶的線上和線下資源產(chǎn)生影響, 導(dǎo)致傳統(tǒng)弱勢群體在算法世界被邊緣化, 以及非弱勢群體也可能因缺乏算法偏見感知能力而受到算法懲罰, 產(chǎn)生了新的信息不平等內(nèi)容(信息呈現(xiàn)不平等、信息分布不均衡)和新型數(shù)字不平等形式(算法鴻溝)[1] , 固化了數(shù)字弱勢群體在算法中的不利身份和地位[27] 。正因如此, 算法偏見治理也成為業(yè)界、學界和政府部門共同關(guān)注的議題。其中,業(yè)界關(guān)注如何從技術(shù)上檢測并解決算法偏見問題,根據(jù)算法決策的生命周期提出預(yù)處理技術(shù)、中間處理技術(shù)和后處理技術(shù)[28-29] , 圍繞數(shù)據(jù)和算法技術(shù)進行修正。學界不僅關(guān)注實踐, 更關(guān)注如何從宏觀視角對算法偏見問題進行規(guī)制, 不少學者圍繞倫理原則、主體責任、數(shù)據(jù)準確以及第三方監(jiān)管等角度進行算法治理[30] , 例如構(gòu)建行業(yè)道德倫理規(guī)范、設(shè)立算法監(jiān)管機構(gòu)[2] 、提升算法和數(shù)據(jù)透明度[31] 、構(gòu)建算法問責機制[32-33] 等。與此同時, 各國(地區(qū))政府也出臺了諸如《通用數(shù)據(jù)保護條例》《人工智能未來法案》《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》等相關(guān)法規(guī)對算法偏見進行規(guī)制。
1.2算法感知研究
算法對人類生活和社會結(jié)構(gòu)造成巨大沖擊, 僅從技術(shù)或結(jié)果視角認識算法是不夠的, 這也導(dǎo)致越來越多的學者從用戶視角解釋人與算法的交互過程,由此產(chǎn)生算法感知或算法意識(Algorithmic Aware?ness)研究。早期的算法感知研究以算法想象(Algo?rithmic Imaginary)[34] 和民間理論(Folk Theories)[35]來描述用戶對算法體驗經(jīng)歷及算法運行方式的感知理解。在此基礎(chǔ)上, 算法感知或算法意識可解釋為用戶對特定使用領(lǐng)域和特定應(yīng)用或設(shè)備中算法存在及其功能的感知程度[36] 。
雖然算法感知尚未形成統(tǒng)一界定, 但部分學者試圖通過構(gòu)建量表的方式探究算法感知的內(nèi)涵與外延, 以此豐富算法感知的維度。例如Dogruel L 等[36]將算法感知劃分為算法存在感知和算法功能感知,但維度切分比較粗糙, 沒有完全測量用戶對算法各功能的感知程度。Zarouali B 等[37] 的研究從內(nèi)容過濾、自動決策、人機交互、倫理考量4 個維度衡量用戶算法感知, 不僅擴充了算法功能維度, 同時引入倫理考量維度, 測量用戶對隱私風險、算法不透明、算法偏見的感知, 為本文研究奠定基礎(chǔ)。也就是說, 算法偏見感知測量的是用戶能否感受到算法決策的非中立性和非客觀性[38] , 如是否意識到算法推薦結(jié)果可能受到人類偏見的影響[37] 、數(shù)據(jù)集中存在人類偏見和不平等[12] 、算法推薦會降低信息多樣性[39] 等。
用戶的算法感知水平受到多因素影響, 包括人口統(tǒng)計學特征(如年齡[40] 、地區(qū)[41] 、教育背景[42] )、用戶使用習慣(如平臺使用數(shù)量[43] 、使用時長、媒體素養(yǎng)[41] )、用戶的算法信任度[44] 等。研究表明,年輕、高教育水平的城市居民具備更好的算法意識[24] , 也能更好地感知到算法對數(shù)據(jù)、內(nèi)容等方面可能存在的偏見現(xiàn)象。這意味著, 用戶能夠采取特定策略繞過算法偏見對自身的影響, 如定期清空緩存、關(guān)閉推薦功能等, 這種能力將加劇用戶群體間的算法意識鴻溝[40] 和信息不平等。
綜上所述, 算法偏見研究大多從技術(shù)層面討論并驗證算法偏見的來源和類型, 或從后果層面討論算法偏見對用戶產(chǎn)生的影響, 唯獨忽視了用戶在算法交互過程中的主觀能動性, 缺乏用戶視角的算法偏見感知和理解。雖然算法感知研究涉及對用戶算法偏見感知的測量, 但僅作為算法感知維度出現(xiàn),無法展現(xiàn)用戶的算法偏見感知全貌。因此, 本文從社交媒體用戶的算法偏見感知文本出發(fā), 探究用戶視角的算法偏見感知理解現(xiàn)狀, 以期豐富本土信息不平等和數(shù)字不平等研究。
2研究設(shè)計
2.1研究思路與方法
偏見研究具有強烈的社會學和語言學傳統(tǒng), 前者從社會結(jié)構(gòu)和權(quán)力關(guān)系來解釋社會偏見現(xiàn)象, 后者通過話語分析揭示話語文本蘊含的偏見表達和傳播。兩類方法各有千秋, 也因此發(fā)展出融合兩大學科理論的新路徑———批判性話語分析(Critical Dis?course Analysis, CDA)。批判性話語分析發(fā)軔于20世紀70 年代末, 其核心是將話語作為一種社會實踐, 通過挖掘話語與權(quán)力、意識形態(tài)之間的關(guān)系[45] , 來揭示話語中存在和表達的不平等現(xiàn)象[46] 。不同于內(nèi)容分析法, 批判性話語分析更多地揭示話語生產(chǎn)實踐背后的本質(zhì)原因, 即解釋話語文本為何會產(chǎn)生[47] , 這給研究算法偏見感知提供了新思路。
本文采用批判性話語分析中費爾克拉夫(Fair?clough)的三維分析模型進行話語的描述、闡釋和解釋, 如圖1 所示。根據(jù)費爾克拉夫的描述, 話語是由社會建構(gòu)的, 能夠反映世界和建構(gòu)世界行為,因此對話語的分析應(yīng)該從文本、話語實踐和社會實踐3 個維度進行。其中, 文本分析從微觀層面描述話語文本的詞匯表達、語法結(jié)構(gòu)以及文本結(jié)構(gòu)特征; 話語實踐分析從中觀層面對文本生產(chǎn)、分配及消費過程進行動態(tài)解析, 是連接靜態(tài)文本分析和動態(tài)社會分析的橋梁; 社會實踐分析從宏觀層面揭示話語對權(quán)力與意識形態(tài)的建構(gòu)作用[48] 。
運用上述模型對社交媒體用戶的算法偏見感知文本進行分析, 能夠有效地挖掘用戶對算法偏見的感知理解, 以及對算法偏見的不平等后果的深入思考, 從用戶視角提供算法偏見感知研究新途徑。具體操作過程包括:
1) 通過主題詞匯對算法偏見感知文本進行描述, 考察用戶對算法偏見的感知理解和情感傾向,以此客觀描述感知文本的特征, 這也是傳統(tǒng)話語分析常用方法。
2) 通過互文性對算法偏見感知文本的話語生產(chǎn)和理解過程進行闡釋。根據(jù)費爾克拉夫的界定,互文性表示一個文本中充滿其他文本的片段, 這些文本片段通過同化、排斥或諷刺回應(yīng)等方式進行再生產(chǎn)。再生產(chǎn)過程反映出話語背后的意識形態(tài), 符合文本生產(chǎn)者觀點的信息更容易被直接引用, 而不符合文本生產(chǎn)者觀點的信息可能會以不同形式融入新文本中。簡單而言, 互文性能夠反映用戶如何建構(gòu)對算法偏見的感知和意義。
3) 從信息科學視角對算法偏見感知文本反映的算法偏見形成的權(quán)力關(guān)系及其結(jié)果進行解釋。重點關(guān)注算法偏見導(dǎo)致的信息分布不均衡、信息呈現(xiàn)不平等和新型數(shù)字不平等, 以及3 種不平等背后利益者相關(guān)者的權(quán)力博弈關(guān)系。
值得注意的是, 批判性話語分析通常于小樣本、非概率抽樣的話語素材, 強調(diào)樣本本身的代表性, 其研究結(jié)果雖然無法得到實證主義(如內(nèi)容分析法)那般的普遍意義推論, 但仍能提供理論構(gòu)建作用。因此, 除常規(guī)的文本分析之外, 本文在話語實踐分析和社會實踐分析部分并不涉及統(tǒng)計學驗證工作。同時, 為增加分析結(jié)果的可信度, 將選取部分個例佐證研究結(jié)論, 個例選取經(jīng)過研究者共同討論, 確保其具有良好的代表性。
2.2數(shù)據(jù)收集與處理
本文以微博平臺的用戶文本為數(shù)據(jù)來源。考慮到“算法偏見” 相對正式, 一般不用于口語表達,故選擇“算法” 作為搜索關(guān)鍵詞, 采集該關(guān)鍵詞下用戶的實時原創(chuàng)微博內(nèi)容, 采集范圍為2022 年11 月4 日—10 日, 最終獲得為期1 周的原始數(shù)據(jù)1 892條。隨后, 對原始數(shù)據(jù)進行人工清洗、篩選和去重, 保留與算法偏見相關(guān)的用戶感知數(shù)據(jù), 刪除與算法相關(guān)的廣告、新聞、學習等無效數(shù)據(jù), 最終得到有效數(shù)據(jù)集121 條(共9 406字, 平均78 字/條)。表1 展示部分有效數(shù)據(jù)集文本。
隨后, 從文本、話語實踐、社會實踐向度討論社交媒體用戶的算法偏見感知理解, 探究話語表達與權(quán)力結(jié)構(gòu)、算法系統(tǒng)之間的關(guān)系。以表1 中用戶“鋒潮科技” 發(fā)布的微博原文為例, 三維度的分析過程為: ①文本分析方面需要借助分詞工具和人工相結(jié)合的形式進行主題詞匯(高頻詞、情感詞)的判斷, 示例初步判定用戶感知到算法偏見來源于數(shù)據(jù), 并表達出對360 軟件廣告推薦算法的質(zhì)疑;②話語實踐方面, 示例直接引述周鴻祎及前序報道原文作為自身話語表達的背景, 并以設(shè)問的修辭方式提出問題, 在話語再生產(chǎn)中完成自身對算法偏見的建構(gòu), 也引發(fā)其他用戶對該現(xiàn)象的注意和思考;③社會實踐方面, 示例實際體現(xiàn)算法服務(wù)商與用戶對信息精準性的博弈過程, 從側(cè)面反映信息精準匹配依賴用戶數(shù)據(jù), 信息分布結(jié)果存在不均衡現(xiàn)象。
3研究發(fā)現(xiàn)
3.1文本分析: 算法偏見感知的話語表達
對算法偏見感知話語進行文本分析, 試圖解釋社交媒體用戶算法偏見感知的感知理解和情感傾向。
1) 用戶對算法偏見的感知理解
利用中文分詞統(tǒng)計話語文本的高頻詞匯, 并對排名前10 的高頻詞計算詞頻共現(xiàn)矩陣, 如圖2 所示, 得到用戶算法偏見感知話語的主題特征。表中數(shù)字和顏色反映單詞共現(xiàn)次數(shù)和頻數(shù), 共現(xiàn)次數(shù)越高說明兩個詞匯之間的關(guān)聯(lián)性越強。
從表1 看出, 用戶對算法偏見的感知理解圍繞算法功能、算法平臺、數(shù)據(jù)、信息內(nèi)容、用戶展開。歸納整理后發(fā)現(xiàn), 用戶的算法偏見感知由兩部分組成:
①對算法偏見的來源感知, 集中于對數(shù)據(jù)、算法技術(shù)的感知理解。其中, 對數(shù)據(jù)的偏見感知以“數(shù)據(jù)” “大數(shù)據(jù)算法” “用戶數(shù)據(jù)” “數(shù)據(jù)集” 等形式出現(xiàn), 一是體現(xiàn)人工智能算法與數(shù)據(jù)之間的緊密依賴關(guān)系, 用戶感知到算法運行的背后需要大量數(shù)據(jù)支撐, 這種情況在智能推薦算法中尤為常見,例如表1 用戶“鋒潮科技” 提及的大數(shù)據(jù)算法; 二是體現(xiàn)用戶數(shù)據(jù)是算法數(shù)據(jù)集的重要構(gòu)成, 正如話語文本(#1)所言: “數(shù)據(jù)集真的是世界上最難收集的東西, 算法都做的差不多, 還是要拼誰數(shù)據(jù)集收集的多, 但是收集的數(shù)據(jù)都很垃圾, 根本不知道自己采集的是什么……”, 當數(shù)據(jù)集出現(xiàn)代表性不足、質(zhì)量不高等情況時, 所產(chǎn)生的算法結(jié)果必然存在算法偏見。用戶對算法技術(shù)的偏見感知需要依托特定媒介或服務(wù)進行, 或通過推薦、過濾等特定算法服務(wù), 或通過微博、抖音等特定算法平臺, 導(dǎo)致高頻詞“算法” 和“推薦” “推送” “微博” “平臺” 總是相伴出現(xiàn)。可見, 微博用戶對算法的理解基本遵循“用戶—數(shù)據(jù)—算法—用戶” 的循環(huán)運行邏輯, 任一環(huán)節(jié)都有可能觸發(fā)用戶對算法偏見的感知和思考。
②對算法偏見的對象感知, 描述用戶對算法偏見在數(shù)據(jù)、內(nèi)容和用戶層面的映射的感知理解, 符合筆者先前提出的算法偏見外延范圍[1] 。其中,數(shù)據(jù)層面的偏見感知涉及數(shù)據(jù)代表性、數(shù)據(jù)標簽等方面, 在話語文本(#1)中有所體現(xiàn)。內(nèi)容層面的偏見感知涉及高頻詞有“視頻” “信息” “內(nèi)容”,具體包括對暴露偏見、可檢索性偏見的感知, 前者描述特定算法(如微博時間線算法和興趣算法)對用戶信息獲取平等性的扭曲, 后者描述文本內(nèi)容的呈現(xiàn)機會不平等, 甚至多名用戶直接描述了信息繭房的特征和自身影響。例如, 話語文本(#2)提到:“大家可以看看自己發(fā)的不同內(nèi)容的微博的閱讀量, 就可以知道算法可以有多邪惡”, 不僅描述了可檢索性偏見的存在, 同時以“邪惡” 的emoji 表情結(jié)尾強調(diào)了用戶對可檢索性偏見結(jié)果的不認可與惱怒。高頻詞“用戶” 除了與數(shù)據(jù)、畫像等詞搭配以外, 更多在話語表述中以獨立形式存在。因而用戶層面的偏見感知比較特殊, 用戶在描述算法偏見遭遇時傾向于把自己作為話語客體, 反映算法對用戶的權(quán)力支配。
2) 用戶對算法偏見的情感傾向
鑒于中文語義的情境性和復(fù)雜性, 機器分析存在判別錯誤的可能。因此, 本文對121 條話語文本進行人工編碼, 歸納出用戶對算法偏見結(jié)果的暗含態(tài)度, 涉及抱怨、質(zhì)疑、憤怒、辱罵、喜歡等情緒。表2 列舉排名前5 的高頻用戶情緒??梢?, 用戶對算法偏見的感知態(tài)度多元, 但以負面情緒為主, 表現(xiàn)出從“抱怨” 到“辱罵” 的遞進情感變化, 側(cè)面反映算法偏見對用戶日常生活產(chǎn)生的不利影響。同時, “喜歡” 情緒進入前5 位高頻情緒之中, 這一現(xiàn)象證明了算法偏見與負面效應(yīng)的非必然關(guān)系,在某種程度上, 算法偏見也能給用戶帶來更好的算法體驗。
3.2話語實踐分析: 算法偏見感知的話語生產(chǎn)
互文性強調(diào)用戶話語文本生產(chǎn)的意識形態(tài)和主觀能動性, 反映話語文本的生產(chǎn)與解讀過程。本文以互文性為切入點, 通過分析用戶對話語文本加工方法的選擇偏好, 闡釋用戶算法偏見話語的生產(chǎn)和意義建構(gòu)過程, 使后續(xù)的社會實踐分析成為可能。
據(jù)統(tǒng)計, 復(fù)制、概述、修辭再表述是用戶在算法偏見感知話語生產(chǎn)過程中常用的話語文本加工方法。其中, 復(fù)制是指用戶將前文本的部分或全部算法偏見感知的內(nèi)容和觀點直接復(fù)制, 作為自身話語生產(chǎn)的敘事背景。例如話語文本(#8)所示: “張丹丹老師說, 愚昧是一種難以根治的疾病。如果有幸查出來, 一定要清空所有瀏覽記錄, 因為有一種東西叫做算法, 它會自動推送同類型愚昧的內(nèi)容給你,將你自動判別為愚昧受眾。好可怕?!?用戶在表達自身對算法偏見感知的理解時直接復(fù)制他人觀點,并在話語生產(chǎn)時完成對他人話語同化吸收, 表明話語傳播具備說服性。概述是運用刪略、歸納和重構(gòu)方法對前文本進行簡化和改寫, 例如表1 用戶“鋒潮科技” 的前半段話便是對周鴻祎講話內(nèi)容的概述。上述兩種方法是處理前文本的常用方法。
修辭再表述不僅可以用于處理前文本, 還可以用于自身話語生產(chǎn)之中, 修辭手段包括設(shè)問、反諷、暗示性比喻等不同形式, 例如表1 用戶“鋒潮科技”以設(shè)問形式表達自身對算法與數(shù)據(jù)之間的認知; 話語文本(#9: 今日震撼之竟然真的有人認為信息繭房是好事……娛樂本質(zhì)的背后是呆在給于算法的信息繭房里, 你每天只會花費大量的時間在無效娛樂上以滿足多巴胺的分泌! 那社會的階層就只會不斷固化, 永遠不可能有突破的可能! 恍然大悟, 原來是既得利益者的一些小心思啊……) 以反諷形式完成對他人算法偏見觀點的批判和討論, 明確指出自身對算法偏見下信息不平等后果的深入思考, 并期望引發(fā)新的文本互動; 部分用戶還將算法比喻為“墻” “命運之手” “神秘力量”, 傳達自身對算法偏見在功能和結(jié)果方面的認識。雖然不同文本的加工方法不同, 但話語生產(chǎn)過程能夠幫助用戶在文本互動中逐漸構(gòu)建出動態(tài)變化的算法偏見意義, 為理解算法偏見背后的權(quán)力博弈關(guān)系奠定基礎(chǔ)。
3.3社會實踐分析: 算法偏見體現(xiàn)的權(quán)力博弈
進入算法社會以來, 算法機制依托大數(shù)據(jù)構(gòu)建技術(shù)權(quán)力話語, 為用戶在話語、社會資本、生存領(lǐng)域等方面提供權(quán)力或地位提升的可能。但偏向性的算法結(jié)果會影響用戶線上和線下權(quán)益分配的公平性, 導(dǎo)致信息分布不均衡、信息呈現(xiàn)不平等和新型數(shù)字不平等。本文從用戶感知視角驗證3 種不平等的存在, 以及探究不平等背后利益者相關(guān)者的權(quán)力博弈關(guān)系。以下根據(jù)用戶易感程度展開討論。
1) 信息分布不均衡與算法傳播權(quán)力
信息的傳遞傳播依賴圖書館、電視、互聯(lián)網(wǎng)等各類媒介技術(shù), 因而媒介實體的分布不均衡將導(dǎo)致信息分布不均衡, 造成信息富有與信息貧困的分化現(xiàn)象。算法作為新的信息傳播媒介, 雖然削弱了其對實體設(shè)施的依賴, 但并未改變媒介傳播背后利益相關(guān)者的權(quán)力博弈本質(zhì), 具體表現(xiàn)為算法服務(wù)商與用戶對信息精確性與多樣性的選擇博弈, 引發(fā)新的信息分布不均衡現(xiàn)象。
對于算法服務(wù)商而言, 如何吸引并留存更多用戶是其追求更高收益的關(guān)鍵問題。推薦算法的出現(xiàn)為解決該問題提供良好方案, 通過預(yù)測用戶對信息價值的判斷來實現(xiàn)信息精準匹配, 在滿足用戶興趣和需求的同時降低信息搜索門檻, 在一定程度上保障信息弱勢群體的信息獲取權(quán)利, 也改變了用戶的信息獲取方式。如今, 越來越多用戶的信息獲取依賴于算法投喂(feed), 并在人機交互中通過點贊、收藏、分享等行為加強算法推薦偏好, 促使算法將用戶興趣作為唯一正確的認知, 在交互迭代中為用戶持續(xù)推送個性化信息, 為每位用戶塑造獨特的信息世界。例如文本(#10)描述道: “大家接觸到的信息, 都是算法推給你的, 除非自己有想法, 是看不到其他東西的。同一件事情, 我看到的是真實,還是你看到的是真實, 也可能看到的都不是真實,但是壁壘就在那里?!?這種由算法主導(dǎo)、用戶協(xié)助打造的個人信息世界被稱為過濾泡, 其特點為過濾泡內(nèi)群體的觀點趨同, 用戶無法接觸多元化的信息和觀點, 造成信息窄化[49] 。由于過濾泡的形成需要基于用戶偏好數(shù)據(jù), 具備高算法意識的用戶甚至可以通過訓練算法來人為自主地打造過濾泡, 也可以采取拉黑、點擊不感興趣、選擇減少推薦等算法策略來抵抗過濾泡形成。但并非所有的算法抵抗都會生效, 當算法服務(wù)商的算法設(shè)定忽視用戶抵抗行為時, 即便用戶采取再多的算法抵抗策略, 也難以打破過濾泡, 這種現(xiàn)象在文本(#11)中被描述為算法失靈: “刷喜歡明星的小視頻時參雜了討厭的明星, 恰巧這時要給孩子擦屁股沒來及第一時間刷掉, 然后這位明星就占據(jù)了我所有的小視頻平臺,幾天都消不掉, 這時候算法仿佛都失靈了”。上述話語文本個案從用戶感知角度驗證了算法偏見導(dǎo)致的信息分布不均衡現(xiàn)象, 同時揭示算法服務(wù)商與用戶的傳播權(quán)力博弈關(guān)系。當用戶傾向于信息精確性時, 用戶將不自覺地陷入過濾泡之中, 逐漸失去對信息多樣性的掌控權(quán); 當用戶傾向于信息多樣性時, 也會采取特定算法策略豐富信息類型,但成功與否取決于算法服務(wù)商的算法設(shè)定。
2) 信息呈現(xiàn)不平等與算法話語權(quán)力
話語權(quán)力體現(xiàn)不平等的社會關(guān)系。在偏向性算法中, 算法結(jié)果也因為用戶身份的差異而呈現(xiàn)出不平等的話語權(quán)力, 處于優(yōu)勢地位的用戶往往能夠支配哪些信息可以呈現(xiàn)、如何呈現(xiàn)、以及是否優(yōu)先呈現(xiàn), 以此促進其他用戶的思想認知向自身有利方向發(fā)展, 鞏固其優(yōu)勢地位。因此, 用戶感知到的信息呈現(xiàn)不平等有兩類:
①信息呈現(xiàn)機會不平等。此類信息呈現(xiàn)不平等關(guān)注信息是否有機會呈現(xiàn)以及呈現(xiàn)過程是否真實。所謂真實是指與客觀事實相符的信息以正確時間順序、正確匹配結(jié)果等形式進行組織排列, 非真實的信息呈現(xiàn)可能使用戶錯失重要的與客觀事實相符合的信息, 造成信息不平等。隨著算法成為信息守門人, 決定信息呈現(xiàn)機會的權(quán)力從人類轉(zhuǎn)移至算法。雖然看似公平, 但作為人類權(quán)力意志的中介, 算法決策實則以更隱晦的方式增加了信息呈現(xiàn)機會的不平等性, 違反監(jiān)管、無利可圖的信息資源將無法得到平等呈現(xiàn)機會。其中, 本文以信息屏蔽描述算法剝奪信息呈現(xiàn)機會的現(xiàn)象, 該現(xiàn)象往往發(fā)生在內(nèi)容限制情況下。當信息內(nèi)容違反平臺監(jiān)管和政府監(jiān)管時, 算法將實施代理人權(quán)力對信息內(nèi)容直接屏蔽。信息扭曲是指算法對信息非真實、非公平地呈現(xiàn)。根據(jù)用戶對算法偏見的感知, 信息扭曲的產(chǎn)生受到信息權(quán)重、檢索算法偏好、平臺設(shè)備等因素影響,具體例證如表3 所示。具體而言, 信息權(quán)重會根據(jù)信息資源效益而動態(tài)調(diào)整呈現(xiàn)順序, 檢索算法會根據(jù)算法偏好優(yōu)先呈現(xiàn)特定類型信息, 平臺設(shè)備可能作為其他受保護屬性的代理而呈現(xiàn)不一致信息。以上因素雖未得到完全的驗證, 但為解釋算法偏見對信息不平等的影響提供現(xiàn)實依據(jù)。
②信息話語權(quán)不平等。此類信息呈現(xiàn)不平等關(guān)注信息話語的權(quán)力映射。話語是社會建構(gòu)的, 作為社會實踐的話語不僅僅是各方權(quán)力博弈的空間, 更是權(quán)力博弈的重要方面[50] 。也就是說, 信息話語的呈現(xiàn)本質(zhì)上是社會階層之間的博弈結(jié)果, 而算法作為媒介映射了社會階層博弈結(jié)果, 最終表現(xiàn)出信息內(nèi)容分布結(jié)構(gòu)偏向優(yōu)勢階層。例如明星與普通民眾、VIP 會員與普通會員, 均是前者處于相對優(yōu)勢的階層, 在算法世界中也更容易呈現(xiàn)優(yōu)勢階層的話語和行為( #16: 抖音的算法就是扶持名人, 扶持明星, 扶持大品牌)。相對而言, 用戶對信息話語權(quán)不平等及其后果的感知不多, 這也進一步體現(xiàn)算法話語權(quán)力對社會階層固化的影響。
可見, 信息呈現(xiàn)不平等實際體現(xiàn)算法服務(wù)商或設(shè)計者與用戶、不同階層用戶之間的話語博弈, 博弈結(jié)果表現(xiàn)為信息呈現(xiàn)機會不平等和信息話語權(quán)不平等。根據(jù)《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》第十四條規(guī)定, 算法服務(wù)提供者不得利用算法屏蔽信息、過度推薦、操縱榜單或檢索結(jié)果排序、控制熱搜或者精選等干預(yù)信息呈現(xiàn)[51] 。但在實際運行中, 用戶依舊感知到算法對信息呈現(xiàn)的權(quán)力支配,可見當前對算法的監(jiān)管依然仍重道遠。
3) 數(shù)字不平等與算法規(guī)訓權(quán)力
規(guī)訓權(quán)力是通過日常規(guī)范化訓練實現(xiàn)對人類控制和支配的權(quán)力技術(shù), 是??滤枷氲暮诵暮椭骶€。進入現(xiàn)代社會以來, 規(guī)訓權(quán)力逐漸滲入社會網(wǎng)絡(luò)和日常生活, 人類的每個行為都將受到規(guī)訓權(quán)力的干預(yù)。即, 算法形成的技術(shù)權(quán)力話語在無形中構(gòu)建出數(shù)字化圓形監(jiān)獄, 以無法感知的方式監(jiān)視、操控和馴化用戶的技術(shù)化生活方式, 加劇用戶生存領(lǐng)域中的數(shù)字不平等現(xiàn)象。
在現(xiàn)有話語文本中, 算法造成的數(shù)字不平等體現(xiàn)在用戶歧視、就業(yè)歧視、出行限制等方面, 出現(xiàn)大數(shù)據(jù)殺熟、算法裁人、算法招聘、算法限制出行等不平等對待。在上述情況中, 數(shù)據(jù)驅(qū)動的算法繼承并再現(xiàn)了社會偏見, 將個人以性別、年齡、階層等屬性賦予算法身份, 并對特定算法身份群體施以不平等的數(shù)字對待, 威脅用戶的線下生存資源。算法規(guī)訓不僅體現(xiàn)在生活資源方面, 同樣體現(xiàn)在對人類身體和行為的控制, 由此產(chǎn)生數(shù)字勞工。根據(jù)用戶描述, 算法偏見導(dǎo)致的數(shù)字勞工主要為生產(chǎn)性消費數(shù)字勞工(如視頻博主、網(wǎng)文寫手等), 關(guān)注數(shù)字創(chuàng)意生產(chǎn)對生產(chǎn)性消費勞動者的勞動剝削。以視頻博主為例, 互聯(lián)網(wǎng)用戶能夠在市場發(fā)展初期通過內(nèi)容創(chuàng)造快速積攢人氣并獲得可觀收益, 但隨著市場發(fā)展進入中后期, 算法平臺的流量分發(fā)策略將占據(jù)主導(dǎo)地位, 粉絲較少的視頻博主被賦予更低的信息權(quán)重, 這類博主只能依靠數(shù)量彌補低權(quán)重劣勢,逐步淪為視頻平臺的數(shù)字勞工( #17: 網(wǎng)紅們都會面臨一個尷尬的問題, 即創(chuàng)作內(nèi)容越同質(zhì)化, 他們就越受限于平臺的流量分發(fā)策略。低端網(wǎng)紅逐漸成為類似網(wǎng)約車司機般的存在, 靠數(shù)量來填補流量分發(fā)時的低權(quán)重劣勢, 成為平臺的外包員工)。
算法對用戶數(shù)字生活的規(guī)訓體現(xiàn)了數(shù)字優(yōu)勢群體對數(shù)字弱勢群體的壓迫和剝削。作為被算法規(guī)訓的一方, 用戶的社會資本和階層并未在算法世界中得到提升, 其社會位置反而在數(shù)字不平等分配中得到進一步固化, 反映新型數(shù)字不平等。
4總結(jié)
本文采用批判性話語分析方法, 從文本、話語實踐、社會實踐3 個維度對社交媒體用戶的算法偏見感知話語文本進行分析, 以了解社交媒體用戶對算法偏見的感知理解現(xiàn)狀, 為擴展信息領(lǐng)域的不平等話語提供本土例證。
結(jié)果顯示, 用戶對算法偏見的感知和理解基本驗證了筆者提出算法偏見框架。具體表現(xiàn)為: ①用戶能意識到數(shù)據(jù)和算法平臺是算法偏見的形成來源, 但對理解偏見、實踐偏見難以感知。數(shù)據(jù)、內(nèi)容和用戶作為算法偏見的對象, 也在話語文本中得到逐一驗證。同時證明用戶對算法偏見的態(tài)度多元; ②用戶在話語生產(chǎn)過程中構(gòu)建算法偏見意義,并傳播自身對算法偏見的態(tài)度和意識形態(tài); ③用戶對算法偏見的感知反映出信息分布不均衡、信息呈現(xiàn)不平等和數(shù)字不平等背后利益者相關(guān)者的權(quán)力博弈關(guān)系。同時發(fā)現(xiàn)用戶對不同類型的算法偏見結(jié)果的易感程度不同, 信息分布不均衡最容易被用戶感知, 數(shù)字不平等最難被發(fā)現(xiàn)。
本文尚存一些不足之處, 例如用于分析的用戶話語文本較少, 數(shù)據(jù)來源單一等。未來有待擴展用戶話語文本數(shù)據(jù)量和數(shù)據(jù)來源, 對算法偏見框架和算法偏見結(jié)果進行更為系統(tǒng)全面的驗證。