本文聚焦金融領(lǐng)域中大模型的“幻覺(jué)”問(wèn)題,分析其成因、影響與監(jiān)管治理。文章指出,“幻覺(jué)”源于模型機(jī)制、數(shù)據(jù)質(zhì)量和用戶應(yīng)用三重因素,可以通過(guò)檢索增強(qiáng)生成(RAG)等技術(shù)手段加以治理。同時(shí)強(qiáng)調(diào),要正確看待大模型“幻覺(jué)”,推動(dòng)金融智能健康發(fā)展。
AI倫理與大模型 “幻覺(jué)”
隨著人工智能技術(shù)的快速發(fā)展,AI倫理問(wèn)題日益凸顯,成為人們廣泛關(guān)注的核心議題。AI倫理旨在確保人工智能研究、設(shè)計(jì)、開(kāi)發(fā)、服務(wù)和使用等科技活動(dòng)符合人類價(jià)值觀和行為規(guī)范。AI倫理主要包括大模型“幻覺(jué)”(Hallucinations)、隱私保護(hù)、公平性與非歧視、透明性與可解釋性、責(zé)任歸屬、數(shù)據(jù)治理以及算法安全等方面。其中,“幻覺(jué)”問(wèn)題是當(dāng)前AI倫理中的關(guān)鍵問(wèn)題之一?!盎糜X(jué)”不僅可能誤導(dǎo)用戶,造成信息不對(duì)稱和決策失誤,還可能帶來(lái)安全風(fēng)險(xiǎn)和倫理責(zé)任難以界定的問(wèn)題,因此,治理“幻覺(jué)”既是技術(shù)優(yōu)化的突破口,更是踐行AI倫理原則、筑牢AI信任基石的必然要求。
金融領(lǐng)域大模型“幻覺(jué)” 的表現(xiàn)與影響
在金融領(lǐng)域中,大模型被廣泛應(yīng)用于投研分析、智能投顧、風(fēng)險(xiǎn)預(yù)警、合規(guī)審查等領(lǐng)域,在效率提升、智能化轉(zhuǎn)型方面釋放出巨大潛能。然而,在要求高度準(zhǔn)確性和合規(guī)性的金融領(lǐng)域,大模型“幻覺(jué)”現(xiàn)象已成為制約其在金融行業(yè)落地的障礙。
天模型“幻覺(jué)”是指模型生成著似邏輯通順,但缺乏事實(shí)依據(jù)或完全錯(cuò)誤的信息。例如虛構(gòu)歷史事件、編造參考文獻(xiàn),甚至輸出自相矛盾的內(nèi)容。與簡(jiǎn)單的“錯(cuò)誤”或“偏見(jiàn)”不同,“幻覺(jué)”往往更具欺騙性,因?yàn)樗7铝苏鎸?shí)信息的結(jié)構(gòu)和語(yǔ)氣,使讀者更容易誤以為是真實(shí)內(nèi)容?!盎糜X(jué)”可歸納為四類典型表現(xiàn)。一是事實(shí)性“幻覺(jué)”,即編造虛假的事實(shí),如虛構(gòu)金融產(chǎn)品名稱及其功能。二是推理“幻覺(jué)”,如在邏輯鏈條中混淆因果關(guān)系,得出邏輯不通的結(jié)論。三是一致性“幻覺(jué)”,表現(xiàn)為模型在同一語(yǔ)境中前后給出自相矛盾的回答。四是知識(shí)邊界“幻覺(jué)”,即面對(duì)未知的答案模型進(jìn)行“胡編亂造”式回答,輸出虛構(gòu)但貌似合理的信息,例如生成尚未發(fā)布的經(jīng)濟(jì)數(shù)據(jù)或預(yù)測(cè)。
在金融領(lǐng)域,“幻覺(jué)”問(wèn)題的危害性被進(jìn)一步放大。因?yàn)榻鹑谛畔⒏叨纫蕾囀聦?shí)準(zhǔn)確性與邏輯嚴(yán)謹(jǐn)性,任何虛構(gòu)或失實(shí)內(nèi)容都可能對(duì)投資者行為、市場(chǎng)穩(wěn)定乃至金融監(jiān)管產(chǎn)生實(shí)際影響。圖1顯示了在不同金融主題下,ChatGPT-4o與O1-preview產(chǎn)生“幻覺(jué)”的概率對(duì)比。研究發(fā)現(xiàn),大模型在“金融監(jiān)管”和“債務(wù)”等復(fù)雜性較高的領(lǐng)域,“幻覺(jué)”問(wèn)題更為顯著,ChatGPT-4o在各類金融主題下的“幻覺(jué)”率普遍高于O1-preview。
不同金融主題下大模型“幻覺(jué)”率
天模型“幻覺(jué)”對(duì)金融行業(yè)的負(fù)面影響主要體現(xiàn)在市場(chǎng)穩(wěn)定、法律監(jiān)管與品牌聲譽(yù)三方面。一是市場(chǎng)穩(wěn)定性風(fēng)險(xiǎn)。2023年2月,AI聊天機(jī)器人GoogleBard因錯(cuò)誤宣稱詹姆斯·韋伯太空望遠(yuǎn)鏡首次拍攝了系外行星,引發(fā)廣泛轉(zhuǎn)載并導(dǎo)致市場(chǎng)恐慌,Alphabet市值在短短一天內(nèi)蒸發(fā)逾千億美元,凸顯了AI幻覺(jué)對(duì)金融市場(chǎng)的即時(shí)沖擊。此外,美國(guó)一家對(duì)沖基金使用大模型解讀美聯(lián)儲(chǔ)政策時(shí),也因誤將“暫緩加息”(pause)理解為“即將降息”(cut),導(dǎo)致基金大幅增持債券,結(jié)果在美聯(lián)儲(chǔ)后續(xù)鷹派表態(tài)下?lián)p失慘重,單周虧損達(dá)約4000萬(wàn)美元,約占基金凈值的 3% 。這一事件反映出大模型對(duì)政策語(yǔ)義的敏感度不足,以及訓(xùn)練數(shù)據(jù)存在偏差的問(wèn)題。更令人警惕的是,2024年二十國(guó)集團(tuán)(G20)金融穩(wěn)定委員會(huì)發(fā)出警告,指出AI生成并傳播虛假金融信息可能誘發(fā)“閃電崩盤”或銀行擠兌。而英國(guó)研究組織SayNotoDisinfo的報(bào)告則指出,僅須在社交媒體上投人10英鎊放大虛假信息,就可能導(dǎo)致高達(dá)100萬(wàn)英鎊的客戶存款被轉(zhuǎn)移。上述案例充分說(shuō)明,大模型“幻覺(jué)”在金融場(chǎng)景中不僅可能導(dǎo)致投資判斷失誤,更可能對(duì)整個(gè)金融系統(tǒng)的穩(wěn)定構(gòu)成系統(tǒng)性威脅。
二是法律與監(jiān)管壓力。2024年1月,《紐約時(shí)報(bào)》起訴OpenAI的ChatGPT和微軟的BingChat,指控其生成并錯(cuò)誤歸屬虛假引用內(nèi)容,涉嫌侵犯知識(shí)產(chǎn)權(quán)。這一案件揭示出大模型在內(nèi)容生成準(zhǔn)確性與知識(shí)產(chǎn)權(quán)合規(guī)性方面面臨巨大挑戰(zhàn)。
三是品牌與客戶信任危機(jī)。2022年,加拿大航空公司(AirCanada)因其AI客服系統(tǒng)錯(cuò)誤解讀公司折扣政策,誤導(dǎo)乘客,被用戶起訴并廣泛報(bào)道,引發(fā)公眾對(duì)AI客服系統(tǒng)可靠性的強(qiáng)烈質(zhì)疑。這類事件不僅損害企業(yè)形象,也動(dòng)搖了消費(fèi)者對(duì)金融科技服務(wù)的信任基礎(chǔ)。
大模型“幻覺(jué)”產(chǎn)生的原因
“幻覺(jué)”是當(dāng)前大語(yǔ)言模型(LargeLanguageModels,LLMs)在應(yīng)用中廣泛存在的問(wèn)題,其根本原因在于模型的語(yǔ)言預(yù)測(cè)機(jī)制。大模型本質(zhì)上是一個(gè)語(yǔ)言條件概率模型,它根據(jù)前面詞出現(xiàn)的條件,預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞。這種生成方式追求語(yǔ)言的連貫性與形式合理性,但不一定保證事實(shí)準(zhǔn)確性。
天模型“幻覺(jué)”的產(chǎn)生主要源于模型、數(shù)據(jù)和應(yīng)用三個(gè)層面的因素:從模型訓(xùn)練機(jī)制來(lái)看,“幻覺(jué)”現(xiàn)象的產(chǎn)生與過(guò)擬合有關(guān)。當(dāng)模型面對(duì)海量訓(xùn)練數(shù)據(jù)時(shí),不僅會(huì)學(xué)習(xí)其中具有代表性的語(yǔ)言規(guī)律,還可能“記住”其中的噪聲、錯(cuò)誤信息或偶然細(xì)節(jié)。如果模型對(duì)這些非共性特征進(jìn)行了過(guò)度學(xué)習(xí),就可能在生成過(guò)程中將其當(dāng)作規(guī)律加以復(fù)用,進(jìn)而影響輸出內(nèi)容的真實(shí)性。此外,雖然大模型具備一定的泛化能力,但其缺乏類似人類的推理與事實(shí)校驗(yàn)?zāi)芰?,難以對(duì)復(fù)雜語(yǔ)義或新情境做出邏輯判斷,這進(jìn)一步放天了“幻覺(jué)”風(fēng)險(xiǎn)。
在數(shù)據(jù)層面,模型“幻覺(jué)”的成因之一是訓(xùn)練語(yǔ)料的質(zhì)量問(wèn)題。當(dāng)前大語(yǔ)言模型普遍依賴大規(guī)模公開(kāi)數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)中可能夾雜著大量過(guò)時(shí)信息、錯(cuò)誤陳述、主觀偏見(jiàn),甚至存在斷章取義的內(nèi)容。如果缺乏有效的數(shù)據(jù)清洗與篩選,模型在學(xué)習(xí)過(guò)程中就可能“繼承”這些問(wèn)題,進(jìn)而在生成內(nèi)容時(shí)輸出與事實(shí)不符的結(jié)果。此外,訓(xùn)練語(yǔ)料的分布不均衡也是影響模型輸出質(zhì)量的重要因素。某些領(lǐng)域的數(shù)據(jù)量可能遠(yuǎn)遠(yuǎn)超過(guò)其他領(lǐng)域,導(dǎo)致模型在這些“強(qiáng)勢(shì)領(lǐng)域”表現(xiàn)較好,而在數(shù)據(jù)稀缺的“弱勢(shì)領(lǐng)域”則容易形成知識(shí)盲區(qū),在缺乏信息的情況下“憑空編造”答案。
在實(shí)際應(yīng)用中,用戶提示(Prompt)的質(zhì)量同樣會(huì)顯著影響模型的生成結(jié)果。如果用戶輸人的問(wèn)題描述模糊、缺乏上下文或目標(biāo)不明確,模型在理解任務(wù)時(shí)可能出現(xiàn)偏差,從而輸出與預(yù)期不符甚至錯(cuò)誤的內(nèi)容。此外,當(dāng)用戶的指令過(guò)于開(kāi)放或涉及多義詞、歧義表達(dá)時(shí),模型也容易產(chǎn)生語(yǔ)義漂移,生成表面上看似合理、實(shí)則與事實(shí)不符的回答。
大模型 “幻覺(jué)” 的治理
天模型“幻覺(jué)”的檢測(cè)技術(shù)不斷演進(jìn),以提升生成內(nèi)容的真實(shí)性與可靠性。當(dāng)前,天模型“幻覺(jué)”問(wèn)題已成為影響其可信度的重要因素,研究者正積極探索多種檢測(cè)技術(shù)以識(shí)別并緩解非事實(shí)性內(nèi)容。SelfCheckGPT是一種零資源、黑盒的檢測(cè)方法,由Manakul與Gales(2023)提出。其核心思想是通過(guò)多次采樣模型輸出內(nèi)容并進(jìn)行對(duì)比,判斷答案的一致性。若模型對(duì)某概念擁有真實(shí)知識(shí),則多次生成結(jié)果趨于一致;反之,虛構(gòu)信息則易產(chǎn)生分歧,從而暴露潛在“幻覺(jué)”。另一項(xiàng)是檢索增強(qiáng)生成(Retrieval-AugmentedGeneration,RAG)。Peng等人(2023)提出的LLM-Augmenter系統(tǒng)引人外部知識(shí)庫(kù),對(duì)生成內(nèi)容進(jìn)行事實(shí)校驗(yàn)。此外,工具輔助檢測(cè)系統(tǒng)也在“幻覺(jué)”治理中發(fā)揮關(guān)鍵作用。Chern等人(2023)提出的FacTool框架集成了Google搜索、GoogleScholar、代碼解釋器、Python及LLM本身等多種工具,構(gòu)建了一個(gè)多源融合的事實(shí)檢測(cè)體系,提升了事實(shí)驗(yàn)證的廣度和深度。
從模型、數(shù)據(jù)到應(yīng)用,“幻覺(jué)”治理須構(gòu)建全鏈條、多層次的綜合防控機(jī)制。在模型層面,RAG技術(shù)被廣泛應(yīng)用以增強(qiáng)知識(shí)可信度。通過(guò)外部檢索獲取與問(wèn)題相關(guān)的權(quán)威資料,將其作為生成模型的上下文輸人,能夠有效減少模型“幻覺(jué)”的概率,提升內(nèi)容的準(zhǔn)確性。例如用戶在使用一些模型進(jìn)行問(wèn)答時(shí),可進(jìn)行聯(lián)網(wǎng)搜索,模型可給出引用來(lái)源,便于用戶核實(shí)。在數(shù)據(jù)層面,高質(zhì)量訓(xùn)練數(shù)據(jù)是防止“幻覺(jué)”的根基。一方面,應(yīng)優(yōu)先選取國(guó)家統(tǒng)計(jì)局、上市公司年報(bào)等權(quán)威數(shù)據(jù)源作為訓(xùn)練語(yǔ)料;另一方面,加強(qiáng)數(shù)據(jù)清洗與語(yǔ)義標(biāo)注也至關(guān)重要。例如,在財(cái)經(jīng)新聞自動(dòng)摘要任務(wù)中,模型常誤將“公司擬發(fā)行債券”解讀為“已完成融資”,從而錯(cuò)誤判斷為利好消息。為此,在訓(xùn)練語(yǔ)料中進(jìn)行語(yǔ)義標(biāo)注,將“擬”“計(jì)劃”“預(yù)計(jì)”等表達(dá)明確標(biāo)記為非確定性事實(shí),并構(gòu)建包含事實(shí)等級(jí)和語(yǔ)氣類別的標(biāo)注體系。在應(yīng)用層面,構(gòu)建人機(jī)協(xié)同的輸出機(jī)制是減少“幻覺(jué)”的重要手段。通過(guò)專業(yè)化提示工程提升模型理解能力,同時(shí)引入專家審核機(jī)制,確保關(guān)鍵輸出內(nèi)容經(jīng)過(guò)人工驗(yàn)證與修正。
中國(guó)高度重視大模型等人工智能技術(shù)的健康發(fā)展,尤其關(guān)注科技倫理風(fēng)險(xiǎn)。2025年4月,習(xí)近平總書記在中共中央政治局第二十次集體學(xué)習(xí)中明確指出,要堅(jiān)持自立自強(qiáng)、突出應(yīng)用導(dǎo)向,推動(dòng)人工智能健康有序發(fā)展。2025年5月,人民銀行科技司司長(zhǎng)李偉亦指出,科技倫理隱患是人工智能發(fā)展面臨的重要挑戰(zhàn),模型“幻覺(jué)”問(wèn)題尤為突出,須持續(xù)加強(qiáng)金融領(lǐng)域的智能化治理能力建設(shè)。在政策層面,中國(guó)已出臺(tái)一系列與人工智能相關(guān)的監(jiān)管政策,如表1所示。未來(lái),治理模型“幻覺(jué)”應(yīng)在技術(shù)演進(jìn)與監(jiān)管協(xié)同中持續(xù)深化,確保人工智能真正服務(wù)于經(jīng)濟(jì)社會(huì)的高質(zhì)量發(fā)展。
正確看待大模型 “幻覺(jué)”
“幻覺(jué)”并非絕對(duì)負(fù)面。大模型的創(chuàng)造力與產(chǎn)生“幻覺(jué)”的機(jī)制相關(guān),二者均基于概率聯(lián)想與模式學(xué)習(xí)。因此,在需要?jiǎng)?chuàng)造力的應(yīng)用場(chǎng)景中,如電影劇本創(chuàng)作、營(yíng)銷文案撰寫等,大模型的“幻覺(jué)”往往能夠帶來(lái)想象力與新穎性,激發(fā)出超出常規(guī)的人類表達(dá)與構(gòu)思。若一味追求“零幻覺(jué)”,反而可能導(dǎo)致模型生成內(nèi)容趨于保守、缺乏洞察與創(chuàng)意。
金融場(chǎng)景中,需要正確看待大模型“幻覺(jué)”。在金融等對(duì)準(zhǔn)確性要求極高的場(chǎng)景中,需要對(duì)“幻覺(jué)”進(jìn)行嚴(yán)格控制。例如在合規(guī)報(bào)告、交易指令等場(chǎng)景中,必須優(yōu)先確保內(nèi)容的真實(shí)性與可驗(yàn)證性,建議通過(guò)RAG(檢索增強(qiáng)生成)、多重校驗(yàn)等技術(shù)手段來(lái)降低“幻覺(jué)”風(fēng)險(xiǎn)。而在探索性或輔助性任務(wù)中,如市場(chǎng)情緒分析、研究思路啟發(fā)等,則可以容忍一定程度的“模糊”與“推測(cè)”。不過(guò),這類內(nèi)容應(yīng)明確標(biāo)注為輔助性生成,并由具備專業(yè)判斷能力的人士加以解讀和使用。
結(jié)語(yǔ)
天模型“幻覺(jué)”,既是當(dāng)前人工智能技術(shù)發(fā)展的重要瓶頸,也是AI倫理與風(fēng)險(xiǎn)治理的核心議題。在生成式模型的實(shí)際應(yīng)用中,“幻覺(jué)”主要表現(xiàn)為編造虛假信息、邏輯推理錯(cuò)誤等。尤其在金融領(lǐng)域,這類問(wèn)題可能引發(fā)市場(chǎng)風(fēng)險(xiǎn)、造成金融市場(chǎng)的劇烈波動(dòng),甚至帶來(lái)法律責(zé)任與信任危機(jī)。其本質(zhì)在于大模型基于語(yǔ)言的條件概率進(jìn)行生成,但概率結(jié)果并不等同于客觀事實(shí)。為應(yīng)對(duì)這一挑戰(zhàn),業(yè)界正積極探索多種解決路徑,如引人“檢索增強(qiáng)生成(RAG)”技術(shù);同時(shí),結(jié)合前沿算法優(yōu)化模型訓(xùn)練流程,提升數(shù)據(jù)質(zhì)量與語(yǔ)義一致性;此外,還可通過(guò)提示工程優(yōu)化、引入專家人工校驗(yàn)等手段,有效降低“幻覺(jué)”發(fā)生率。然而,“幻覺(jué)”并非一概為負(fù)。在某些創(chuàng)造性任務(wù)中,例如金融營(yíng)銷內(nèi)容生成、金融產(chǎn)品創(chuàng)意設(shè)計(jì)等,其可激發(fā)新穎想法與表達(dá),具有積極價(jià)值。因此,我們應(yīng)依據(jù)不同金融場(chǎng)景對(duì)“幻覺(jué)”的容忍度差異,合理規(guī)劃其使用邊界。未來(lái),在推動(dòng)AI技術(shù)賦能金融創(chuàng)新的過(guò)程中,我們要認(rèn)識(shí)“幻覺(jué)”的雙面性,通過(guò)科學(xué)治理與有效監(jiān)管,破解“幻覺(jué)”難題,助力金融智能健康發(fā)展。
(張藝偉為清華大學(xué)五道口金融學(xué)院財(cái)富管理研究中心研究專員,張遠(yuǎn)遠(yuǎn)為清華大學(xué)五道口金融學(xué)院博士后研究員,張曉燕為清華大學(xué)五道口金融學(xué)院副院長(zhǎng)。責(zé)任編輯/王茅)
表1
監(jiān)管政策