Prejudice Mitigation: A Study on the Recognition Efficacy and Cognitive Adaptation Interventions ofLargeLanguageModels
BAIQi-yu,KUANGQing-hua,XIAXue,YANShu-yan,ZHANGShi-jing-yi
Abstract:This study explores whether large language models (LLMs) can accurately detect prejudice in human language and persuade people tochange their prejudiced atitudes.Using the heuristicand systematic models,three experiments were conducted.Theresults indicate thatLLMs exhibit strong capabilities in recognizingand analyzing prejudiceinhumandescriptive texts,withahighlevelofagreement with human evaluations.Specificalypersonalized interventionsbyLLMs,whicharebasedonfactualandcorrectiveinformation,caneffectivelyreduceage-relatedprejudice againstolderadults.Furthermore,intervention strategiesadjustedaccording to individuals’different cognitive stylesfurtherenhancethereductionofageprejudice.ThisresearchnotonlydemonstratestheabilityofLLMstodetect prejudicebutalsovalidates theapplicationof traditionalheuristicandsystematicmodelsinthecontextofLLMs.Itprovides anew perspective for the development of persuasion theory and supports the feasibilityof trainingLLMs as tools for promoting fairness and sustainable development.
Keywords:large languagemodel(LLMs);persuasion;prejudice;cognitive style
一、引言
大語言模型(LargeLanguageModel,簡稱LLM)的快速發(fā)展正在深刻改變?nèi)祟惿鐣母鱾€層面。①其影響已從工具性應用層面逐漸滲透至態(tài)度、觀念乃至認知層面。②③隨著人們對LLM的使用日益深入,人們與LLM的互動已從單純的信息獲取或任務執(zhí)行拓展至內(nèi)容創(chuàng)作、建議咨詢和情感陪伴,進而演化為一種深層次的認知交互。在這一背景下,LLM是否具備改變固有想法和觀念的潛能,成為社會廣泛關注的重要議題。偏見,作為深植于人類認知中的固有傾向,長久以來被認為是難以察覺且難以改變的。④它不僅影響人類的判斷、決策和行為,甚至潛移默化地塑造著社會結(jié)構(gòu)和文化規(guī)范。因此,本研究旨在探索LLM在減少人類偏見方面的潛在作用,并進一步分析其深刻影響人類認知結(jié)構(gòu)的可能性。
LLM技術(shù)的快速發(fā)展使其在文本理解和語義分析方面展現(xiàn)出顯著優(yōu)勢,特別是經(jīng)過提示詞工程調(diào)試過的大語言模型,能夠有效識別用戶生成內(nèi)容中的語義特征、情感與態(tài)度傾向。③③基于這些分析結(jié)果,LLM 能夠主動調(diào)整回應方式,以適應不同的交互需求。具體而言,已有研究指出,ChatGPT-4僅通過簡單提示即可生成與人類判斷高度一致的典型性評分,精確衡量文本與概念之間的語義相似度,且無須額外訓練便可取得優(yōu)于傳統(tǒng)方法的準確率。①此外,LLM還能通過分析用戶的語言風格、詞匯偏好及上下文語境,準確辨別出用戶的政治立場或陰謀論傾向,并自適應地調(diào)整回應內(nèi)容和策略。這些能力為LLM在偏見檢測及干預領域的深入應用奠定了重要基礎。
綜上所述,提出假設1:LLM能夠準確識別用戶文本內(nèi)容中的偏見傾向。
LLM憑借其大規(guī)模生成上下文關聯(lián)和超個性化消息的能力,能夠執(zhí)行復雜且陌生的任務,在各種情境下的內(nèi)容生成中取得了顯著成功。因此,LLM在說服效果方面與其他傳播媒介相比具有以下幾個特性。一是LLM能夠接觸到比任何單個人類作者所能處理的更廣泛、更多樣化的語言表達,并且能夠獲取涵蓋眾多主體的海量信息,將其龐大的相關“知識”整合到生成的個性化信息中。二是LLM具備前所未有的個性化特性和適應性,擅長根據(jù)個體信息、個人偏好和心理特征定制信息,創(chuàng)建能夠與目標群體甚至特定個體產(chǎn)生共鳴的針對性內(nèi)容。三是人類在創(chuàng)作說服性信息時容易受到自我中心偏見的影響,即提出的論點往往對自己有說服力,而非對他人有說服力,而算法則不受此類限制。 總體而言,LLM能通過模仿人類說服框架生成定制化說服文本,并結(jié)合用戶認知風格調(diào)整提示詞以增強輸出信息的說服力。
LLM的特點和優(yōu)勢為改變固有認知和態(tài)度提供了新的可能性。以往研究指出,LLM已被用于政治、廣告營銷、公共衛(wèi)生、電子商務和慈善捐贈等方面的說服,其生成的文本能靈活運用類比、權(quán)威引用、情感共鳴等說服策略。 以麻省理工為代表的研究團隊招募了2000多名相信陰謀論的被試進行說服實驗,結(jié)果表明,與
進行三輪簡短但基于事實的、個性化的對話后,被試在各類陰謀論中的錯誤信念平均減少了 20% ,且效果能夠持續(xù)兩個月以上。這些結(jié)果挑戰(zhàn)了關于陰謀論信念的傳統(tǒng)觀念,表明即使是最根深蒂固的觀點,也能通過基于事實和糾正性信息的大語言模型進行個性化干預,從而有效減少與陰謀論相關的錯誤信念。
另有學者對比了人們對GPT-3生成的信息與疾病控制與預防中心(CDC)發(fā)布的人工撰寫信息的看法,發(fā)現(xiàn)經(jīng)過篩選的生成信息被認為比CDC的信息更有效、更具說服力,且能激發(fā)更積極的態(tài)度。
類似的,來自洛桑聯(lián)邦理工學院和布魯諾·凱斯勒基金會的研究團隊設計了一項隨機對照實驗,以探究LLM在對話中的說服能力。結(jié)果顯示,個性化的GPT-4辯手在多個領域的一對一對話中展現(xiàn)出強大的說服能力,甚至超過了人類被試,個性化的說服能夠顯著增加被試在辯論后的立場轉(zhuǎn)變,提升同意對方觀點的幾率達 81.2% 。
說服被認為是一種高效且有效的減少偏見態(tài)度的干預方式。@盡管LLM展現(xiàn)出強大的說服能力,并取得了顯著的說服效果@@③@,但是對于偏見改變的效果還未得到充分探討。有學者指出,在說服過程中發(fā)生的思考和驗證過程可以有效地減少偏·見態(tài)度,并且通過引導個體深入思考以減少偏見的干預措施能夠產(chǎn)生更為持久和穩(wěn)定的態(tài)度改變。世界衛(wèi)生組織在《關于年齡歧視的全球報告》(2022)中將偏見定義為:“偏見是一種情緒反應或感受,或者是積極的抑或是消極的,是基于明顯感到某人所屬群體而針對該人的。偏見助長群體間等級地位關系的建立或維持,其中年齡偏見基于個體或群體的年齡而產(chǎn)生?!雹鄱行У販p少甚至消除針對老年人的年齡偏見,不僅有助于改善老年人面臨的負面境遇,如生活質(zhì)量降低、認知能力下降、孤獨感增強、身心健康惡化、康復速度減慢及壽命縮短等問題,還能有效降低老年人遭受暴力或虐待的風險。LLM為個體提供了打破認知局限的機會,通過更加多元和個性化的信息推薦機制,用恰當、客觀的數(shù)據(jù)分析向用戶提供相關度高且準確的內(nèi)容,幫助用戶接觸到與其原有觀念不同的觀點,從而提升對個性化策略質(zhì)量的感知與促進認知多樣性和批判性思維的培養(yǎng)。例如,一些研究提出“對抗性推薦系統(tǒng)”(Adversarial Recommender Systems),旨在主動向用戶推薦與其歷史偏好不完全一致的內(nèi)容,以激發(fā)用戶的反思和認知更新。而當這樣的反思和認知更新在人類與LLM的個性化互動中被進一步強化時,有可能撼動固有態(tài)度、觀念和認知,類似偏見這樣的固有認知也有可能被減弱和改變。
綜上所述,提出假設2:LLM基于事實性、糾正性信息的個性化干預可以有效說服人們改變其對老年人的年齡偏見。
說服效果受到人類認知風格的影響,Chaiken提出的啟發(fā)式和系統(tǒng)式模型(Heuristic-SystematicModel),全面探討了個體如何處理信息、評估其有效性以及最終形成決策結(jié)果,它考慮了人類感知處理信息的兩種模式:啟發(fā)式處理和系統(tǒng)性處理。系統(tǒng)式處理過程中,信息的接收者會要求信息所包含的內(nèi)容要素滿足用戶信息需求,并在執(zhí)行這項任務時投入大量的認知努力,積極理解和評估信息的論點,同時評估這些論點與信息結(jié)論的相關有效性。 啟發(fā)式處理過程中,信息接收者在判斷信息有效性方面投入的努力相對較少,而傾向于采用能對傳達的信息進行快速、輕松評估的啟發(fā)法。@其特點在于“簡單決策規(guī)則的應用”
,因此,判斷是基于顯著的啟發(fā)式快速作出的,無須投入大量的精力。反之,系統(tǒng)處理涉及“對信息處理的全面、分析性取向。在這種取向下,感知者獲取并仔細審查大量信息,以確定其與判斷任務的相關性。系統(tǒng)式處理要求個體具備獲取信息內(nèi)容的認知能力和容量,而不能過度依賴容易獲取的啟發(fā)式。另外,個體在評估說服信息時,信息量過大、復雜度過高、動機或能力不足時,接收者可能難以全面理解和處理信息,使人們傾向于采用啟發(fā)式加工,依賴于簡單線索來判斷信息可信度;反之,如果個體對議題高度關切且有認知能力,則會進行系統(tǒng)式加工,仔細權(quán)衡信息內(nèi)容和論據(jù)質(zhì)量。本研究梳理了兩者在LLM領域的應用,總結(jié)為“啟發(fā)式與系統(tǒng)式認知線索在LLM應用中的比較”(見表1)。
當個體主要依賴啟發(fā)式信息處理來評估LLM生成的回復時,信息的快速判斷與輕松評估受到多個關鍵維度的影響,包括信源可信度、感知算法公平度、責任度和透明度、擬人化、對通用人工智能的喜愛度,以及認知負荷和資源有限性等。以往研究發(fā)現(xiàn),“信源可信度”如“專家的陳述值得信賴”和“專家最懂行”是人們普遍接受的啟發(fā)式線索。@另外,Shin等學者的研究提出,用戶在與LLM交互過程中會采用三種啟發(fā)式認知機制:首先是公平啟發(fā)式(FairnessHeuristic),即用戶通過感知算法輸出的公正性和公平性,運用自身的判斷標準來評估生成式人工智能可能存在的算法偏見;其次是責任啟發(fā)式(ResponsibilityHeuristic),表現(xiàn)為用戶對通用人工智能在信息傳播過程中所應承擔的責任程度的認知;最后是透明度啟發(fā)式(TransparencyHeuristic),由于用戶難以系統(tǒng)性地處理所有信息或從技術(shù)層面評估人工智能系統(tǒng)的每個組件,當用戶感知到系統(tǒng)具有較高透明度時,他們往往傾向于認為系統(tǒng)提供的信息是可信且可靠的。這三種啟發(fā)式共同構(gòu)成了用戶處理人工智能生成信息的重要認知框架?!皵M人化”也是一種重要的啟發(fā)式線索,指的是人工智能展現(xiàn)人類特質(zhì)的程度,比如自我意識和情感,以及將人類的物理或情感特征賦予非人類實體的傾向。與高度擬人化的機器人互動可以增強用戶對人工智能系統(tǒng)的信任,從而提高用戶體驗,增強用戶繼續(xù)使用的意愿?!皩νㄓ萌斯ぶ悄艿南矏鄱取敝傅氖怯脩魧LM抱有的積極看法,是用戶在與LLM交互過程中出現(xiàn)的自然反應,無須進行大量的認知判斷,這與啟發(fā)式線索相一致,這一點在許多研究中已被證明對用戶的評價產(chǎn)生積極影響。@@①
當個體主要依賴系統(tǒng)式信息處理來評估LLM生成的回復時,信息的深度分析、評估和驗證受到多個關鍵維度的影響,包括論證質(zhì)量、信息準確性、感知智能、個性化程度和AI兼容性等。系統(tǒng)式處理涉及通過仔細關注、復雜分析、深入思考和密集推理來理解可用信息的努力,它不僅包括對信息論點的主動理解和評估,還包括驗證信息的有效性以得出信息的結(jié)論?!罢撟C質(zhì)量”是通過感知信息量和感知說服力兩個維度來定義的,分別代表用戶對信息質(zhì)量特征的總體感知和對說服力強度的一般感知。另外,在運用LLM系統(tǒng)時,采用系統(tǒng)式處理的用戶通過評估“信息的準確性”“真實性”和“可信度”來批判性地評估信息。“感知智能”將機器人與傳統(tǒng)技術(shù)區(qū)分開來,能夠準確且高效地作出反應的機器人往往被認為具有更高的智能水平,用戶更有可能認為其能夠提供更好的服務,這會增強用戶繼續(xù)使用它們的意愿,與表面線索不同,感知智能要求用戶投入更高的認知努力來評估機器人的能力。信息的“個性化程度”也是重要因素,Shin的研究指出,個性化信息能夠更貼合接收者的需求和興趣,從而提升信息的吸引力和說服力。當信息針對個體特征量身定制,人們更容易與內(nèi)容產(chǎn)生聯(lián)結(jié),增強其對信息的關注和信任。 “AI兼容性”是技術(shù)性能的關鍵要素,被定義為人工智能系統(tǒng)在當前技術(shù)條件下實現(xiàn)無縫協(xié)作和性能的能力,顯著影響性能預期、易用性和人工智能技術(shù)的可靠性。在LLM的背景下,兼容性涵蓋了技術(shù)應用和用戶對性能的感知,這需要用戶付出更多的認知努力來進行評估,因此將人工智能兼容性歸類為系統(tǒng)性線索。
最后,以往研究發(fā)現(xiàn),認知資源的充足程度決定了個體能處理信息的復雜性和廣度。經(jīng)驗豐富的人更容易識別和評估信息的價值,而缺乏經(jīng)驗的人可能更依賴外部線索作出判斷。
(204號
綜上所述,提出假設3:LLM基于認知風格提供的個性化干預可以有效說服人們改變對老年人的年齡偏見。
二、預實驗
預實驗主要包含兩個目標:其一,從現(xiàn)有量表中提取具有代表性的年齡偏見測量題項,構(gòu)建簡化版的評估工具,便于后續(xù)人工智能提示詞的修改;其二,標準化正式實驗的操作流程以提高實驗效率并確保實驗流程的嚴謹性。
通過問卷星平臺招募了33名被試進行預實驗研究,完成了老年人年齡偏見量表(Kogan'sAttitudestowardsOldPeopleScale)中文版的測量。 該量表包含25個條目,采用Likert7點計分法( 1= 完全不同意,
完全同意),在本研究中,Cronbach'sα系數(shù)為0.788。研究剔除了4名未通過注意力檢查的被試樣本,最終保留29名有效樣本進行分析。人口學特征如下:年齡范圍為18-25歲;女性占 51.5% ( n=15 ),男性 41.4% ( n=12 ),另有2名被試不透露性別信息;所有被試均具有本科及以上學歷。
最終根據(jù)條目出現(xiàn)頻次、平均得分和專家討論,篩選出老年人年齡偏見量表5個條目,具體為:(1)大多數(shù)老年人有些地方比較怪,很難讓人理解;(2)大多數(shù)老年人能夠根據(jù)需要作出新的調(diào)整;(3)大多數(shù)老年人花太多時間來探究別人的事情并且過于主動地給出建議;(4)大多數(shù)老年人應該更關心自己的外表,他們太不整潔了;(5)大多數(shù)老年人是易怒、喜歡抱怨和令人不愉快的。
三、實驗1
(一)被試
實驗1共招募了160名被試,平均年齡 =24.04 歲( ),其中 5.62% 完成高中或同等學歷,41.25% 接受過大學教育, 53.13% 擁有碩士學位或更高學歷。
(二)實驗材料
1.實驗圖片:老年人生活場景圖
老年人生活場景圖(圖1)由ChatGPT-4o生成,呈現(xiàn)在公交車上,一位年輕男子與一位老人互動,老人坐在座位上指向男子,圖片可從多個視角進行解讀。旨在通過收集被試對圖片材料的描述,分析其中是否隱含對老年人具有偏見。
2.LLM年齡偏見評分助手
為分析LLM識別文本中潛在年齡偏見的能力,研究者基于預實驗篩選出的老年人年齡偏見量表構(gòu)建“LLM年齡偏見評分助手”的提示詞。隨后,研究者另招募14名被試對圖1進行描述,再由4名研究者獨立評分后計算平均值,以此作為基準經(jīng)過多輪優(yōu)化,最終確定了與研究者評分相符度達 85% 的最優(yōu)提示詞,用于構(gòu)建“LLM年齡偏見評分助手”。
(三)實驗過程
所有被試均通過微信小程序線上實驗平臺完成實驗。實驗要求被試觀察圖1,并基于圖片撰寫描述性文本,為確保文本內(nèi)容具有一定長度與深度,所有被試撰寫時間不少于3分鐘。被試需要重點關注圖中老年人的形象特征,包括面部表情、肢體動作、穿著風格及互動細節(jié),同時推測事件背景,分析人物關系,并結(jié)合情境推斷人物的心理狀態(tài)與生活背景。
(四)結(jié)果
剔除作答時間低于3分鐘、描述不完整的文本后,4名研究者對最終102份文本進行背對背評分,計算每份文本的均分后,將其與評分助手得分進行對比。結(jié)果顯示,人類平均評分與LLM評分的總體平均分差為1.02分,評分一致性達 83% 。
在102條描述中,LLM年齡偏見評分助手判定有13條描述存在偏見(得分大于4),人類評分判定有11條描述存在偏見。進一步分析這13條描述后,只有3條與人類評分存在較大分歧。其中,1條因描述不完整導致人類沒有將其判定為偏見,另外2條則因LLM未能準確捕捉細微差異,誤將客觀中立的表述判定為偏見。此外,在人類評分與AI評分差距最大的兩條描述中,最大分差達到4.5分。分析發(fā)現(xiàn),針對“年輕人請求老人讓座,老人用手指著別的地方,可能在說去別的地方找座位”這一描述,4名研究者的平均評分為5.5(認為存在偏見),而AI評分僅為1(認為無偏見)。進一步分析發(fā)現(xiàn),研究者基于中國社會文化背景下曾發(fā)生過因公交車占座引發(fā)的代際沖突,認為該文本可能帶有一定程度的年齡偏見;而LLM從事實層面判斷,認為文本敘述相對客觀,未顯露偏見。這表明LLM在識別跨文化偏見、具體情境和實時事件方面稍顯不足。盡管如此,從整體表現(xiàn)來看,LLM仍展現(xiàn)出較強的偏見識別能力。
(五)小結(jié)
總體而言,實驗1驗證了LLM在文本偏見識別中的有效性,LLM年齡偏見評分助手具有較強的識別能力,其評分結(jié)果與人類判斷具有較高的一致性。但實驗同時也揭示了LLM在處理跨文化偏見和實時事件等復雜情境下的局限性。LLM需要加強對不同文化背景的理解與整合,并實時收集真實案例和社會評論,以制定更符合當?shù)匚幕钠娮R別與干預策略。
四、實驗2
(一)被試
實驗2共招募86名被試,平均年齡 =23.63 歲( SD=4.88 ),其中 5.81% 具有高中或同等學歷,44.19% 的被試受過本科教育, 50.00% 的被試表示擁有碩士學位或更高學歷。實驗采用2(被試認知風格:啟發(fā)式vs系統(tǒng)式) ×2 (對年齡偏見干預與否:干預年齡偏見vs不干預年齡偏見)設計了組間對照實驗,因變量為LLM的說服效果,即偏見減少的程度。
(二)實驗材料
1.認知風格測試
在認知風格測試中選擇了經(jīng)典實驗材料:圖片分類任務(TriadTask)。任務一共包含13道題,由三張人物、車輛、家具、工具或食物類別圖片組成,被試被要求“從一組中的三個物體中選擇任意兩個相似或相關的物體”@。啟發(fā)式思考的被試更傾向于根據(jù)快速聯(lián)想和簡單決策來分組物體,例如,當看到一張兔子、貓和胡蘿卜的圖片時,被試可能會將胡蘿卜和兔子歸為一組,因為聯(lián)想到“兔子吃胡蘿卜”。相比之下,系統(tǒng)式思考的被試更傾向于根據(jù)類別歸屬或共同特征來分組物體,例如,將貓和兔子歸為一組,因為“它們都是動物”(如圖2)。
2.老年人年齡偏見量表
同預實驗中使用的老年人年齡偏見量表。
3.大語言模型提示詞
4組被試均與大語言模型ChatGPT-4o開展對話,模型溫度為0.6,整個對話過程提示詞均對被試隱藏,確保對話自然流暢。研究團隊將干預年齡偏見組被試的最具年齡偏見題(max)的信息整合至系統(tǒng)指令中,實現(xiàn)個性化說服,不干預年齡偏見組則采用中立對話策略,不針對具體的年齡偏見條目。具體提示詞見示例(表2)。
4.AI態(tài)度量表
研究團隊翻譯了GrassiniS.等人開發(fā)的AlAttitudeScale(AI態(tài)度量表),共有4個條目,采用Likert10點評分( 1= 完全不同意, 10= 完全同意)。 在本研究中,AI態(tài)度量表Cronbach's ∝ 系數(shù)為.791。具體條目如下:(1)我相信人工智能會改善我的生活;(2)我相信人工智能將改善我的工作;(3)我想我將來會使用人工智能技術(shù);(4)我認為人工智能技術(shù)對人類的作用是積極的。
(三)實驗過程
所有被試均通過微信小程序線上平臺完成實驗。首先,被試進行雙系統(tǒng)圖片分類任務,以確定主導認知風格。系統(tǒng)式思考得分高的被試被標記為“系統(tǒng)式認知風格”,啟發(fā)式思考得分高的被試被標記為“啟發(fā)式認知風格”,并隨機分配到不干預年齡偏見組或干預年齡偏見組。完成認知分類任務后,填寫年齡偏見問卷,小程序?qū)崟r記錄得分最高的“最具年齡偏見題(max)”。若有多道題得分相同且大于4,則隨機抽取一題作為“最具年齡偏見題(max)”。干預年齡偏見組與LLM圍繞該題展開對話,控制組則進行中立話題對話。所有對話均為5輪,干預結(jié)束后再次填寫年齡偏見問卷,完成AI態(tài)度量表,社會人口學信息及LLM產(chǎn)品使用歷史信息。
(四)結(jié)果
根據(jù)認知風格劃分,啟發(fā)式認知風格有14名被試,系統(tǒng)式認知風格有72名被試;按對年齡干預與否分組,干預年齡偏見組有35名被試,控制組有37名被試。實驗采用隨機分組方法確保分組的均衡性。但由于實驗根據(jù)被試的認知風格進行分組,86名被試中僅有14人符合啟發(fā)式認知風格,其中11人沒有偏見,3人對老年人持有偏見態(tài)度。因持有偏見的啟發(fā)式認知風格被試樣本太少,不足以分組,因此未納入后續(xù)分析,僅比較分析了系統(tǒng)式認知風格被試的在不同條件下的偏見水平。具體分配情況為:72名系統(tǒng)式認知風格被試隨機分配至干預年齡偏見組35人,接受針對最具年齡偏見題(max)的干預;37名分配至不干預年齡偏見組,進行中立對話。
1.不干預年齡偏見組、干預年齡偏見組前測比較
為了檢驗實驗分組的有效性,比較了干預年齡偏見組和不干預年齡偏見組在“整體年齡偏見水平(sum)”及“最具年齡偏見題(max)”上的前測得分(表3),其中整體年齡偏見水平(sum)指5道年齡偏見題目的平均得分;最具年齡偏見題(max)指5道題中得分最高的偏見條目。結(jié)果顯示,兩組在這兩個變量的前測得分上無顯著差異(ns.),表明實驗分組是合理且有效的。
2.不干預年齡偏見組、干預年齡偏見組前后測比較
不干預年齡偏見組、干預年齡偏見組的描述性統(tǒng)計結(jié)果如表4所示。本研究使用配對樣本t檢驗分析了兩組實驗干預前后的年齡偏見得分。首先,對不干預年齡偏見組前測和后測的整體年齡偏見水平(sum)進行配對樣本t檢驗,結(jié)果顯示整體年齡偏見水平( sum )無顯著差異, ,p=0.11 , d=-0.27 。
其次,對干預年齡偏見組進行配對樣本t檢驗,結(jié)果發(fā)現(xiàn)干預年齡偏見組在最具年齡偏見題( max )上的后測得分較前測顯著下降, Pp=0.003 , d/=-0.54 ,整體年齡偏見水平(sum)的后測得分也較前測顯著降低,
p=0.008 , d=-0.48 。結(jié)果表明,實驗干預有效,LLM基于事實性、糾正性信息的個性化干預可以有效說服人們改變其對老年人的年齡偏見,不僅減少了最具年齡偏見題( max )的得分,也顯著降低了整體年齡偏見水平(sum)。
為了檢驗兩組之間的差異,本研究分別對最具年齡偏見題(max)和整體年齡偏見水平( sum )的前測與后測變化量進行了獨立樣本 t 檢驗。結(jié)果顯示,在最具年齡偏見題(max)的變化量上,兩組間無顯著差異, t(70)=-0.041 , p=0.97 , d=-0.01 。同樣,在整體年齡偏見水平( sum )的變化量上,兩組也未出現(xiàn)顯著差異, t(70)=1.58 , p=0.12 , d=0.37 。這一結(jié)果表明,實驗干預未在整體變化量上引發(fā)顯著的組間差異。
綜上所述,實驗結(jié)果在一定程度上支持了H2假設,即LLM事實性、糾正性信息的個性化干預能夠有效影響個體對老年人的年齡偏見。然而,盡管組內(nèi)分析結(jié)果顯示干預具有顯著效果,但組間對比未能提供支持,本研究將在小結(jié)和討論部分進一步探討這一結(jié)果的潛在原因。
(五)小結(jié)
LLM基于事實性和糾正性信息的個性化干預能夠有效改變?nèi)藗儗夏耆说哪挲g偏見。實驗2結(jié)果顯示,干預年齡偏見組被試在與LLM對話后,最具年齡偏見題(max)得分和整體年齡偏見水平(sum)得分均明顯降低,表明其具有較好的說服效果,這與前人研究一致。然而,與不干預年齡偏見組相比,干預年齡偏見組的說服效果并無顯著差異。事后分析發(fā)現(xiàn),即使不干預年齡偏見組與LLM就“與醫(yī)生打交道的經(jīng)歷”進行對話,在5輪次的對話過程中也會對持有觀點進行討論并展開深入思考。這個過程會激發(fā)其反思性思維,從而影響被試對持有觀點的改變。在后測中,被試將反思性思維遷移應用于對老年人年齡偏見問題上,從而使得后測分值相比于前測有所下降。換言之,被試在與LLM對話過程中,即使討論不含年齡偏見的中性話題,也依然延續(xù)此前激活的偏見糾正的思維,對后測題目中的觀點進行反思與糾正,進而導致兩組之間的差異不顯著。此外,被試群體主要為985高校的學生,初始偏見水平較低(均值 4.24±0.78 ),這可能限制了干預效果對偏見的影響。
五、實驗3
(一)被試
實驗3共招募77名被試,平均年齡 =24.48 歲( SD=5.84 ),其中 2.6% 具有高中或同等學歷,37.7% 的被試受過本科教育, 59.7% 的被試表示擁有碩士學位或更高學歷。實驗采用2(被試認知風格:啟發(fā)式、系統(tǒng)式) ×2 (對認知風格干預與否:針對認知風格vs不針對認知風格)的組間對照實驗,因變量為LLM的說服效果,即偏見減少的程度。
(二)材料
實驗3沿用實驗2的認知風格測試、老年人年齡偏見量表、AI態(tài)度量表。研究團隊根據(jù)系統(tǒng)式認知線索對LLM提示詞進行了多輪調(diào)整以優(yōu)化施測版本。所有被試均與大語言模型ChatGPT- .4o (模型溫度 =0.6 )開展5輪對話,過程中提示詞對被試隱藏以確保對話自然流暢。
基于上述研究設計,研究團隊將系統(tǒng)式-針對認知風格組被試的認知風格信息整合至系統(tǒng)指令中,實現(xiàn)針對認知風格的個性化說服;系統(tǒng)式-不針對認知風格組則采用標準化對話策略,不包含認知風格信息。具體提示詞見示例(表5)。
(三)實驗過程
所有被試均通過微信小程序線上實驗平臺完成實驗。首先,被試進行雙系統(tǒng)圖片分類任務,以確定主導認知風格。后臺對系統(tǒng)式思考得分大于7的被試被標記為“系統(tǒng)式認知風格”,啟發(fā)式思考得分大于7的被試被標記為“啟發(fā)式認知風格”,并隨機分配至針對認知風格或不針對認知風格的組。其次,被試分組后填寫老年人年齡偏見量表,小程序后臺根據(jù)量表得分匹配相應的說服題目,所有被試均與LLM進行5輪次的對話,不同小組僅在說服策略上有區(qū)分。最后,說服干預結(jié)束后,被試再次填寫老年人年齡偏見量表,并完成AI態(tài)度量表,人口統(tǒng)計學變量及AI產(chǎn)品(LLM產(chǎn)品)使用歷史信息。
(四)結(jié)果
77名被試中,根據(jù)認知風格分類,啟發(fā)式認知風格的被試有8人,系統(tǒng)式有69人。按是否針對認知風格進行干預進行分組,針對認知風格有37名,不針對認知風格有40名。但由于實驗根據(jù)被試的認知風格進行分組,77人被試中僅有8人符合啟發(fā)式認知風格,其中3人不具備偏見,5人對老年人持有偏見態(tài)度。因持有偏見的啟發(fā)式認知風格被試樣本太少,不足以分組,因此未納入后續(xù)分析,僅分析了系統(tǒng)式認知風格被試的偏見差異。具體分配情況為:69名系統(tǒng)式認知風格的被試隨機分配至系統(tǒng)式-不針對認知風格組35人,僅接受針對最具年齡偏見題(max)的說服干預;34名分配至系統(tǒng)式-針對認知風格組,接受針對系統(tǒng)式認知風格及最具年齡偏見題(max)的說服干預。
1.系統(tǒng)式-針對認知風格、系統(tǒng)式-不針對認知風格前測比較
為了檢驗實驗分組的有效性,比較了系統(tǒng)式-針對認知風格和系統(tǒng)式-不針對認知風格在“整體年齡偏見水平(sum)”及“最具年齡偏見題(max)”上的前測得分(表6)。結(jié)果顯示,在這兩個變量的前測得分上,兩組之間無顯著差異,表明實驗分組是合理且有效的。
2.系統(tǒng)式-針對認知風格、系統(tǒng)式-不針對認知風格前后測比較
系統(tǒng)式-不針對認知風格組和系統(tǒng)式-針對認知風格組的描述性統(tǒng)計結(jié)果如表7所示。
本研究采用配對樣本 t 檢驗對兩組實驗干預前后的年齡偏見指標進行了組內(nèi)效果分析。首先,對系統(tǒng)式-針對認知風格組進行配對樣本 t 檢驗,結(jié)果發(fā)現(xiàn)該組在最具年齡偏見題(max)上的后測得分較前測顯著下降,t (34)=-3.19 , p=0.003 , d/=-0.54 ,整體年齡偏見水平( sum )的后測得分也較前測顯著降低,1 (34)=-2.84 , p=0.008 , d=-0.48 。這一結(jié)果表明,實驗干預有效,LLM基于事實性、糾正性信息的個性化干預可以有效說服人們改變其對老年人的年齡偏見,不僅減少了最具年齡偏見題(max)的得分,也顯著降低了整體年齡偏見水平(sum)。其次,對系統(tǒng)式-針對認知風格組前測和后測的最具年齡偏見題(max)和整體年齡偏見水平( sum )進行配對樣本t檢驗,結(jié)果顯示,最具年齡偏見題(max)得分較前測顯著下降, t , p=0.001 , d=-0.60, 0同樣,后測的整體年齡偏見水平( sum )也顯著低于前測,t (33)=-2.17 , p=0.037 , d=-0.37 。這一結(jié)果表明,實驗干預有效,LLM基于認知風格提供的個性化干預可以有效說服人們改變對老年人的年齡偏見,不僅降低了被試在最具年齡偏見題(max)上的偏見,還進一步減少了他們對其他未被直接干預題項的年齡偏見,使整體年齡偏見水平(sum)有所下降。
為了檢驗上述兩組在干預效果上是否存在差異,分別對兩個測量指標的前測與后測變化量進行了獨立樣本 t 檢驗。結(jié)果顯示,在最具年齡偏見題(max)變化量上,兩組間差異并不顯著,t(67) =0.557 p=0.579 , d=0.134 。同樣,在年齡偏見平均水平的變化量上,兩組間亦無顯著差異, t(67)=-0.234 p=0.816 , d=-0.56 。這一結(jié)果表明,相較于僅僅針對最具年齡偏見題(max)的說服,與同時針對認知風格和年齡偏見核心議題進行說服的實驗操作,并未在整體變化量上引發(fā)顯著的組間效應。
綜上所述,實驗結(jié)果在一定程度上支持H3的假設,即LLM基于認知風格提供的個性化干預可以有效說服人們改變其年齡偏見。然而,盡管組內(nèi)分析結(jié)果顯示干預具有顯著效果,但組間對比未能提供支持。本研究將在討論部分進一步探討這一結(jié)果的潛在原因。
(五)小結(jié)
LLM基于認知風格提供的個性化干預在一定程度上可以有效說服人們改變其年齡偏見。實驗3結(jié)果顯示,系統(tǒng)式-針對認知風格組與系統(tǒng)式-不針對認知風格組在與大語言模型互動后,整體年齡偏見水平(sum)得分均顯著下降,尤其是最具年齡偏見題(max)得分下降明顯。然而,兩組間的說服效果未達到統(tǒng)計學顯著性(ns.)。事后分析發(fā)現(xiàn),部分被試因過度說服引發(fā)逆火效應,導致偏見得分上升。例如,系統(tǒng)式-針對認知風格組中一位被試的最具年齡偏見題(max)得分下降1分,其余條目均上升,導致總分增加5分。因該被試在前3輪對話中已表示同意LLM的觀點(如“yes”,“對的”等),但LLM在后2輪對話中仍在持續(xù)進行說服,導致被試對話意愿降低。
從LLM的底層策略來看,其說服機制主要依賴于舉例和一般性論述,與系統(tǒng)式思考方式有相似之處,但仍有局限性。首先,LLM生成內(nèi)容時可能過度依賴模式化的語言表達,而未能充分整合具有說服力的實證數(shù)據(jù)或權(quán)威來源。因為系統(tǒng)式認知風格的被試對信息來源的可靠性和數(shù)據(jù)的準確性具有較高的敏感性,但當前LLM模型在說服過程中提供的論據(jù)往往較為籠統(tǒng),比如多以“哈佛大學心理學教授EllenLanger的研究表明,環(huán)境和認知框架的改變可以極大地影響老年人的適應能力(Langer,2009,Counterclockwise:MindfulHealthandthePowerof Possibility)”,其中缺乏具體的數(shù)字和實證支持,這可能導致系統(tǒng)式認知風格的被試對LLM的說法產(chǎn)生懷疑,從而削弱了說服效果。其次,模型的訓練數(shù)據(jù)可能缺乏對特定認知風格(如系統(tǒng)式認知風格)的針對性優(yōu)化,在與被試進行5輪次的對話中重復運用同樣的說服策略(如引用同一來源的例子、引用文獻時間較早、呈現(xiàn)形式單一),導致被試產(chǎn)生認知疲勞。這在一定程度上解釋了為什么兩組之間的說服效果未能達到統(tǒng)計學上的顯著差異。
六、討論
(一)理論貢獻與實踐啟示
既往研究中,心理學家發(fā)現(xiàn)東亞文化成長背景下的人更多地運用整體思維進行思考,即啟發(fā)式思維模式。然而,本研究收集的樣本數(shù)據(jù)分析顯示,系統(tǒng)式認知風格的被試數(shù)量遠遠大于啟發(fā)式認知風格,在153份樣本中占 84.97% ,與以往研究有所不同。這種顯著變化可能與信息爆炸時代個體思維策略的轉(zhuǎn)變密切相關,具體表現(xiàn)為信息處理方式從表面線索向整合信息的轉(zhuǎn)變。 普遍認為,人類通常只能獲取有限的、局部的信息,且信息往往是點狀分布的,因此人類往往從單一視角或有限的維度來理解和分析信息。
傳統(tǒng)的說服模式主要依賴于單一信息點的線性影響,即通過有限的、孤立的信息來影響受眾的認知和態(tài)度。隨著技術(shù)的發(fā)展,人們不再僅僅是信息的被動接受者,而是能夠通過互動和反饋影響信息的生成和傳播,人們獲取信息的方式從傳統(tǒng)的“人找信息”轉(zhuǎn)變?yōu)椤靶畔⒄胰恕?。LLM是一個信息集合體,能夠整合來自不同領域、層次和時間的海量數(shù)據(jù)。這種能力使得LLM在生成說服性內(nèi)容時,能夠超越人類的單因素限制,提供比人類更全面、更系統(tǒng)的多角度論證,從而在信息處理和知識生成方面展現(xiàn)出巨大的優(yōu)勢。此外,LLM的說服策略具有“高密集”和“高濃度”的特點,即它能夠集中、高效地傳遞關鍵信息。高密集體現(xiàn)為能在短時間內(nèi)整合大量相關信息,高濃度體現(xiàn)在能夠精準地識別受眾的核心需求和關注點,并圍繞這些關鍵要素展開論述。
憑借這些獨特的優(yōu)勢,LLM不僅改變了信息的生成和傳播方式,還對傳統(tǒng)說服理論提出了新的挑戰(zhàn)和機遇。傳統(tǒng)說服理論多基于單向的信息傳遞,相對而言LLM能夠?qū)崿F(xiàn)雙向互動,這種互動性使得LLM在說服過程中更具靈活性和針對性,邏輯連貫、結(jié)構(gòu)清晰,精準匹配個體的認知偏好的信息為傳播和說服理論的發(fā)展帶來了新的可能性。這一發(fā)現(xiàn)提示我們需要充分考慮信息環(huán)境改變對個體認知特征的塑造作用,構(gòu)建一個具有包容傳統(tǒng)和技術(shù)革新的整合理論框架,以解釋和預測AI時代下的說服機制。
認知風格深刻影響著人們對信息的接受、理解和反應。因此,無論在傳統(tǒng)的線性說服模式還是在基于海量信息協(xié)同作用的系統(tǒng)性認知重構(gòu)中,針對個體認知風格的說服策略具有顯著的影響力。本研究創(chuàng)新性地將大語言模型的說服機制與認知風格相結(jié)合,改變了AI的敘事策略。LLM結(jié)合認知風格對年齡偏見說服效果的影響具有較強的理論和實踐價值。這一發(fā)現(xiàn)為個性化信息傳播策略的制定提供了重要依據(jù)。在LLM輔助決策環(huán)境下,認知風格與說服效果的關系可能呈現(xiàn)出新的特征,這需要進一步探索和驗證。
(二)研究局限及未來展望
本研究為個性化說服策略在改變年齡偏見方面提供了證據(jù),但也發(fā)現(xiàn)了實施過程中需要避免的問題。研究不足體現(xiàn)在以下幾個方面。
第一,盡管我們借鑒前人經(jīng)驗,模擬了人們與大語言模型互動的模式,但受限于實驗條件,未能在實驗中完全體現(xiàn)人們與AI互動的復雜性,如刺激材料的多樣性和代表性可能有限,僅通過一張老年人生活場景的圖片引發(fā)被試的認知反應,可能無法全面反映被試對老年人形象的復雜認知。未來的研究應探索更自然的方式來激發(fā)互動過程,以增強研究的外部效度;可考慮增加圖片數(shù)量或引入動態(tài)視頻材料,以更全面地捕捉被試的認知反應。
第二,本研究僅由團隊成員考察了大語言模型信息生成和基準標準,但并未測量被試對大語言模型生成信息的準確性、相關性和說服性的感知,仔細分析實驗過程后發(fā)現(xiàn),請外部事實核查人員對大語言模型生成信息做評估具有必要性。在未來研究中,可以對LLM生成的內(nèi)容進行事實核查、控制話題或調(diào)解討論,以確保參與者的信息充分和討論的公平性,確保AI輔助的協(xié)商過程是公平和合法的;
需要考慮算法在政治過程中應扮演的角色,并尊重公眾對人工智能的看法。 盡管“LLM年齡偏見評分助手”對年齡偏見的量化分析具有一定的創(chuàng)新性,但其評分標準的客觀性和一致性仍有待進一步檢驗。在未來研究中可以不斷修改和測試的基礎上,可通過設置精準、有效的提示詞,提高對復雜描述的識別能力。此外,在未來的研究中,還應對輸出內(nèi)容做進一步細化的控制,比如每輪信息輸出長度差異不超過 10% ;對比不同模型溫度輸出內(nèi)容對結(jié)果影響等。
第三,此次研究中的被試多為985高校學生,教育程度偏高,在偏見話題上具有一定的偏態(tài)。同時,由于收集到的面向啟發(fā)式認知風格被試的樣本量較少,未能進行與面向系統(tǒng)式認知風格被試的有效對比分析,樣本量的限制不具備統(tǒng)計學意義上的有效性,兩組差異未得到驗證。未來的研究應考慮擴大樣本范圍,如增加啟發(fā)式組的樣本量,以獲取更具代表性的數(shù)據(jù),從而確保能夠在更大的樣本基礎上進行組間比較,以提高研究結(jié)果的可靠性與普適性,進一步探討不同認知風格對說服效果的影響。
七、結(jié)論
這項研究表明,大語言模型具有識別并改變偏見的能力,未來有望改變其他人類固有的想法和觀念,為促進社會平等提供新途徑。研究結(jié)果揭示了大語言模型在偏見識別與干預方面的關鍵要點:(1)大語言模型具備識別和分析描述性文本中潛在偏見的能力。(2)大語言模型基于事實性、糾正性信息的個性化干預能夠有效影響個體對老年人的年齡偏見。(3)針對認知風格提供的個性化干預并未表現(xiàn)出比非認知風格干預更優(yōu)的效果,但可以有效地改善個體本身的偏見。這一發(fā)現(xiàn)為個性化信息傳播策略的制定提供了重要依據(jù)。在LLM輔助決策環(huán)境下,認知風格與說服效果的關系可能呈現(xiàn)出新的特征,這需要進一步探索和驗證。為了實現(xiàn)更廣泛的社會應用,未來的研究需要進一步優(yōu)化模型的個性化干預能力,并探索其在多元文化背景下的適用性,這些努力將為構(gòu)建更具包容性和平等性的社會提供重要的技術(shù)支持。
參考文獻:
① Kiddegenerate pro-vaccination messges.Proceedingsof theACMonHuman-Computer Interaction,7(CSCW1),1-29.
②elGbsacefsieadq1814.
③ tzdfatscale.ScientificReports,14(1),4692.
④ Allport,G.W.,Clark,K.,amp;Pettigrew,T.(1954).Thenatureofprejudice.
⑤ 張亞洲、王夢遙、戎璐等:《ChatGPT可否充當情感專家?——調(diào)查其在情感與隱喻分析的潛力》,《北京大學學報(自然科學版)》2024年第1期。
⑥ ① LeMens,Gcnos)UveeeigrlAcademy of Sciences,120(49),e2309350120.
PoedearXiv:2410. 24190.
Chen,QigulddfoleelTechnologyamp;People.
Rogiers,,elsul.esihgdeepi
Duerr,S.,amp;Gloor,P.A.).ersuasiveNaturalLngugeGeneration-LiteratureReviewXivpreprintaXiv:578.
SlvFe程永佳、楊莉萍:《對抗偏見:作為偏見消減策略的社會行為》,《心理科學進展》2017年第4期。
Briolpersuasion.EuropeanReview ofSocial Psychology,31(1),350-389.
Cardabaresistance.JournalofAppliedSocialPsychology,44(5),343-353.③ 世界衛(wèi)生組織:《關于年齡歧視的全球報告》,世界衛(wèi)生組織網(wǎng)站,https://irs.who.int/handle/10665/355647,2022年。
③李露琪、侯麗、鄧勝利:《突發(fā)公共衛(wèi)生事件網(wǎng)絡虛假信息傳播行為影響因素研究——以新冠疫情期間微博虛假信息為例》,《圖書情報工作》2022年第9期。
(204號 ③ Dnetworks.AcmComputingSurveys (Csur),54(2),-8.
Ciken.social psychology,39(5),752.
Uleman,J.S.,amp;Bargh,J.A.(Eds.).(1989).Unintendedthought.GuilfordPress.
④ Gawronski,Buke,D.reihton,L...ualrocssoieseOfdboooialo.
(43644) ChenS.processing.Journal of personality and social psychology,71(2),262.
.,)ristisdectormklocalt(204 Eagly,A.H.,amp;Chaiken,S.(1993).Thepsychologyofatitudes.New York:Hartcourt BraceJanovich.
eydtisunder uncertainty.ience,85(4157),14-11.
systematicmodel.Decisionsupport systems,67,78-89.
iimisinformationfromgenerativeAI.NewMediaamp;Society,1461448241234040.
Luguatievesidentseedecfrosystematicmodel.Educationand Information Technologies,1-34.
Chike246-266.
Chaiken,S.,amp;Trope,Y. (Eds.).(1999).Dual-process theories insocialpsychology.GuilfordPres.
Kimof ConsumerResearch,45(2),429-450.
⑦ Song,XGetcontinuance usage intention.Information Technologyamp; Tourism,26(1),89-117.
劉云娥、楊文麗、馬艷林等:《中文版Kogan老年態(tài)度量表的修訂研究》,《中華護理雜志》2014年第11期。
Chiu242.
GrassiedlfedFrontiers in psychology,14,1191628.
@曹坡、趙思瑩、劉蕤:《信息來源可信度調(diào)節(jié)下的糾正類健康信息逆火效應作用機制研究——基于受控實驗的探索》,《圖書情報工作》2024年第6期。
Tahel,.byriceversus wheat agriculture.Science,344(6184),603-60.
8谷巖:《微傳播時代的信息整合路徑探析》,《情報科學》2012年第4期。
⑧ 王彥博、張洪忠:《從搜索引擎到AI搜索:大模型賦能下的信息獲取變遷分析》,《編輯之友》2025年2月19日網(wǎng)絡首發(fā)。 Tesslercgroundindemocraticdeliberation.Science,386(6719),eadq2852.
(通訊作者白麒鈺系北京大學新媒體研究院研究員;鄺清華系北京大學新媒體研究院碩士研究生;夏雪系北京大學社會學系碩士研究生;閣姝言系北京大學新媒體研究院博士研究生;張石靜怡系北京大學新媒體研究院碩士研究生。其中鄺清華、夏雪、閣姝言、張石靜怡四位作者貢獻相同,排名按姓氏首字母排序)
【責任編輯:韓勇】