郭全中 張金熠
【摘要】價值觀對齊關(guān)系著AI大模型是否能真正為人類服務(wù),甚至關(guān)乎著意識形態(tài)安全乃至國家政治安全。從意義、準則、路徑、困境四個維度對AI大模型價值觀對齊進行全面剖析,認為安全問題與應(yīng)用保障是AI大模型價值觀對齊的驅(qū)動力量,原生價值觀、目標價值觀、普適價值觀是AI大模型價值觀對齊的價值選擇,尤其強調(diào)國內(nèi)AI大模型應(yīng)以社會主義核心價值觀為對齊目標。價值觀對齊的主要實踐路徑包括非遞歸監(jiān)督與可擴展監(jiān)督兩條,并對國內(nèi)外常見的四種價值觀對齊范式進行簡要介紹,總結(jié)出對齊稅、價值觀以及對齊效果評估方面的對齊困境。
【關(guān)鍵詞】人工智能;大模型;價值觀對齊;人工智能對齊技術(shù)
以生成式AI模型ChatGPT問世為標志,AI模型進入多模態(tài)大模型時代。伴隨著智能駕駛、語音識別、推薦算法、智能繪畫等AI技術(shù)與日常生活場景相結(jié)合,AI系統(tǒng)及其設(shè)計者帶來的潛在風(fēng)險更加復(fù)雜且不可預(yù)知。大模型的特點包括擴展定理與涌現(xiàn)能力,其中涌現(xiàn)能力是指當模型規(guī)模超過某個閾值后才能被觀測到的能力。[1]目前,大模型涌現(xiàn)能力的根源尚不可知,直接影響著大模型的可解釋性,也將間接影響大模型的監(jiān)控與能力控制,加劇倫理隱患,甚至或?qū)I推向不可知、不可控的技術(shù)黑洞。這正是安全問題始終占據(jù)AI領(lǐng)域關(guān)鍵議題的原因之一。
從技術(shù)倫理學(xué)的發(fā)軔到人工智能倫理研究的不斷推進,再到如今AI大模型的出現(xiàn)為AI安全領(lǐng)域帶來新的挑戰(zhàn),確保人工智能系統(tǒng)的目標和行為與人類的意圖和價值觀相一致的AI對齊成為當前AI安全的核心議題。OpenAI首席技術(shù)官Mira Murati曾表示,“人工智能系統(tǒng)正在成為日常生活的一部分。關(guān)鍵是確保這些機器符合人類的意圖和價值觀”。而價值觀對齊作為AI對齊的重要組成部分,是保障AI價值觀安全的重要手段,甚至關(guān)乎著意識形態(tài)安全乃至國家政治安全,具有十分重要的研究意義。所謂價值觀對齊,是指確保AI模型的價值觀與人類價值觀相一致。但為何對齊?向誰對齊?如何對齊?為何難對齊?都是AI大模型價值觀對齊亟待探討的問題。
一、為何對齊:AI大模型的安全風(fēng)險與發(fā)展需求
安全與發(fā)展是一體之兩翼、驅(qū)動之雙輪,兩者相輔相成、辯證統(tǒng)一。安全風(fēng)險與發(fā)展需求是驅(qū)動AI技術(shù)演進的“雙輪”,AI大模型的價值觀不僅通過技術(shù)架構(gòu)影響其安全性,還決定著AI大模型規(guī)?;瘧?yīng)用時的價值基礎(chǔ)與價值導(dǎo)向。符合技術(shù)應(yīng)用區(qū)域的道德情感、法律規(guī)范、地域文化以及意識形態(tài)的價值觀,是AI大模型進入該區(qū)域市場的重要前提。因此,為降低安全風(fēng)險、滿足發(fā)展需求,AI大模型需保持AI價值觀與人類價值觀的一致性,即確保價值觀對齊。
(一)安全問題是AI大模型價值觀對齊的內(nèi)在動力
AI的安全風(fēng)險一定程度上來源于AI大模型的內(nèi)部,同時驅(qū)動著AI大模型不斷進行價值觀對齊。DeepMind公司研究人員基于計算機科學(xué)、語言學(xué)以及社會科學(xué)等多學(xué)科文獻分析大語言模型(LLM)的倫理與社會風(fēng)險,歸納出包括歧視、仇恨言論和排斥,真實信息危害,錯誤信息危害,惡意使用,人機交互危害,環(huán)境和社會經(jīng)濟危害等六大類風(fēng)險。[2]其中,前三類風(fēng)險來自AI大模型的訓(xùn)練機制與訓(xùn)練數(shù)據(jù),惡意使用與人機交互危害則是在AI大模型的人機交互過程中所暴露出的模型自身的潛在安全問題,上述五類都關(guān)乎AI價值觀的健康與否,也會影響AI大模型價值觀與人類價值觀的符合程度。
AI大模型是基于大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練,包含百億及以上參數(shù)且能通過微調(diào)(fine-tuning)、上下文學(xué)習(xí)(in-context learning)、零樣本(zero-shot)等方式廣泛應(yīng)用于下游任務(wù)上的AI模型。在模型訓(xùn)練階段,由于AI大模型多采用半監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)模式的大規(guī)模預(yù)訓(xùn)練,大量未標注數(shù)據(jù)參與模型訓(xùn)練,這意味著AI模型將會延續(xù)原始數(shù)據(jù)中存在的價值觀念,如歧視、仇恨言論、排斥性規(guī)范等。例如Gopher模型會顯示職業(yè)與性別相關(guān)的刻板印象等。而在模型應(yīng)用階段,模型自身的可靠性、可控性、魯棒性等都需要進行定期檢驗,尤其是向廣大用戶開放后,可能存在用戶構(gòu)造針對性語句對模型進行誘導(dǎo),從而使大模型生產(chǎn)帶有偏見、歧視等不良價值導(dǎo)向的風(fēng)險內(nèi)容。例如有網(wǎng)民通過調(diào)整語句表述誘導(dǎo)ChatGPT輸出關(guān)于如何自殺的言論;微軟在推特平臺推出的聊天機器人Tay在24小時內(nèi)被用戶調(diào)教為集性別歧視、種族歧視于一身的“不良少女”。
綜上可見,大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練方式為AI大模型帶來的涌現(xiàn)能力與內(nèi)生風(fēng)險一體兩面,“量變引發(fā)質(zhì)變”的同時,不可預(yù)測的內(nèi)生風(fēng)險也隨之而來,尤其是在價值觀層面,其影響更是隱性且持續(xù)的。作為意識形態(tài)的核心,價值觀安全勢將波及意識形態(tài)安全。而意識形態(tài)是立國之本,因此,對于我國本土AI大模型以及其他AI大模型的本土化應(yīng)用而言,國家意識形態(tài)安全是其價值觀對齊的題中應(yīng)有之義、重中之重。設(shè)計者對AI大模型價值觀安全的考量不能僅僅停留在經(jīng)濟、社會、文化層面,在探索價值觀對齊技術(shù)路徑時還需充分把握保障國家意識形態(tài)安全的極端重要性,在模型訓(xùn)練與測試、監(jiān)測中關(guān)注與回應(yīng)國家意識形態(tài)工作需要。
(二)應(yīng)用保障是AI大模型價值觀對齊的外在需求
正如前文所言,AI大模型在實際應(yīng)用過程中也時常面臨倫理危機,而價值觀對齊能夠有效保障AI大模型的規(guī)?;?、產(chǎn)業(yè)化應(yīng)用順利落地。當前,AI大模型在多模態(tài)領(lǐng)域呈現(xiàn)出較好的全面發(fā)展,音頻、視頻、圖像、文字、3D等模態(tài)的AI識別與生成技術(shù)均日趨成熟,并且能夠進行不同語言間的識別轉(zhuǎn)換。Meta公司推出的AnyMAL模型更是推進了基于LLM的多模態(tài)同頻交互,使一個模型可以對不同模態(tài)輸入內(nèi)容(文本、圖像、視頻、音頻、IMU運動傳感器數(shù)據(jù))實現(xiàn)理解并生成文本響應(yīng)。上述技術(shù)進步不僅促進了全球范圍的跨國交流,還使AI大模型的交互體驗朝類人方向再進一步,更為AI大模型的應(yīng)用落地開拓了豐富的商業(yè)市場。
誠然,AI大模型早已實現(xiàn)文字或語音層面的跨語言溝通,2022年冬奧會期間,記者使用智能錄音筆完成跨語種語音轉(zhuǎn)寫并實現(xiàn)快速出稿。但真正流暢的日常性跨語種交流仍存在障礙,原因在于不同語言背后的價值觀念、思維方式、文化體系不同。語言是思維的外殼,從語言的表層形式上能看出思維方式的差異。以英語和漢語為例,英語的結(jié)構(gòu)特點是拼音文字且具有嚴格的語法規(guī)范和完整的語法結(jié)構(gòu),而漢語作為象形文字,其結(jié)構(gòu)特征之一是象形性,且古代中國語言(文言文)在語法結(jié)構(gòu)和語法規(guī)則方面具有隨意和散漫的特點。[3]這一語言差異反映到思維方式上,則呈現(xiàn)出英語國家與漢語國家在理性思維邏輯與直覺具象邏輯、分散性思維和整體思維、形式思維和辯證思維、以主客體相分離為基礎(chǔ)的思維方式和以主客體相統(tǒng)一為基礎(chǔ)的思維方式等諸多方面的差異。[4]對于AI大模型而言,英語既是其主流編程語言,也往往是主要的交互指令語言,這使得具有英語思維特征的AI大模型在向其他地區(qū)推廣過程中,即便能夠借助強大的語言轉(zhuǎn)換能力實現(xiàn)跨語言溝通,也很難真正適應(yīng)當?shù)氐那楦械赖隆⑺季S方式與文化環(huán)境。以相同邏輯研發(fā)的中文AI大模型在早期階段也時常出現(xiàn)“驢唇不對馬嘴”的交互體驗。
價值觀對齊恰恰是解決這一應(yīng)用推廣障礙的有效方式,通過基于特定國家或地區(qū)的包括法律規(guī)范、文化習(xí)俗、情感表達等多樣化語料輸入實現(xiàn)模型微調(diào),推進AI大模型的區(qū)域性價值觀對齊,從而使其更好地適應(yīng)不同國家或地區(qū)的法律、文化以及價值觀念。對于本土AI大模型而言,價值觀對齊能夠倒逼其進行更多基于本土語料的模型訓(xùn)練,甚至調(diào)整模型訓(xùn)練邏輯,以契合本土的價值觀與思維模式,從而一定程度上降低以英語思維為核心的AI大模型價值觀影響,更有利于服務(wù)好本土用戶,符合國家技術(shù)治理要求。
二、向誰對齊:AI大模型價值觀對齊的價值選擇
價值選擇是AI大模型價值觀對齊的核心問題,向誰對齊關(guān)系到AI大模型的價值導(dǎo)向。在AI大模型的價值體系中,存在隱匿于技術(shù)架構(gòu)中的原生價值觀、價值觀對齊所需達成的目標價值觀以及AI大模型共同追求的普適價值觀三個維度。在不同維度上,AI對齊的價值觀選擇標準有所不同,但無論哪一維度都不能違背世界范圍內(nèi)普遍認同的人類共同價值與國際法基本原則。
(一)設(shè)計者價值觀是AI大模型原生價值觀的核心組成
技術(shù)具有鮮明的意識形態(tài)屬性。Dallas Smythe指出,從技術(shù)研發(fā)到應(yīng)用,是一個政治的過程,即社會權(quán)力參與其中為實現(xiàn)自身的意圖展開斗爭的過程,同時他也強調(diào),發(fā)展中國家/社會主義國家在技術(shù)引進時對文化甄別以及技術(shù)政治性辨別的重要性。[5]AI大模型作為人工智能技術(shù)的最新產(chǎn)物,其研發(fā)過程也不可避免地受到設(shè)計者價值觀及其隱含的價值認同與意識形態(tài)的形塑。設(shè)計者通過對技術(shù)路徑的選擇與技術(shù)方式的應(yīng)用,將自身價值觀傳輸?shù)紸I大模型之中。因此,設(shè)計者價值觀作為最初的價值選擇,伴隨AI大模型的研發(fā)成為其原生價值觀的核心組成部分。
此外,大規(guī)模預(yù)訓(xùn)練也使得隱匿在海量數(shù)據(jù)中的價值觀伴隨著復(fù)雜的學(xué)習(xí)算法進入AI大模型的價值體系當中,與設(shè)計者價值觀共同組成了AI大模型的原生價值體系。但就現(xiàn)實情況而言,這一價值體系本身存在諸多安全風(fēng)險,例如政治安全風(fēng)險、倫理安全風(fēng)險、意識形態(tài)安全風(fēng)險等。對于意識形態(tài)存在明顯差異的國家而言,AI大模型的引入無形中夾帶了其他意識形態(tài)的引入,這正是價值觀對齊時首先關(guān)注AI大模型原生價值觀的意義所在。認識到AI大模型原生價值觀的存在,才能夠在價值觀對齊時關(guān)注到隱匿于技術(shù)架構(gòu)中的政治傾向、意識形態(tài)傾向等隱性價值觀并加以分析理解,從而更好地把握AI大模型的價值體系,調(diào)整并確保其與應(yīng)用區(qū)域價值觀的一致性,避免以技術(shù)為載體的意識形態(tài)入侵。
(二)合情、合法、合文化、合意識形態(tài)的價值觀是AI大模型價值觀對齊的目標價值觀
認識到AI大模型的原生價值觀是進行價值觀對齊的重要前提,由于原生價值觀在應(yīng)用過程中不總能符合人類的意圖與價值觀,AI大模型的價值觀對齊受到廣泛重視。但正如海量數(shù)據(jù)中包含歧視、偏見、暴力、政治傾向等不良價值觀念,作為對齊目標的人類價值觀具有多元多維的特征,AI大模型在價值觀對齊時需要根據(jù)其所在區(qū)域的差異進行一定的個性化選擇。
價值選擇時,道德情感、法律法規(guī)、國家區(qū)域文化以及意識形態(tài)是AI大模型價值觀對齊確定目標價值觀的四大維度。實際操作中,設(shè)計者需秉持“求同存異”的對齊原則,將合情、合法、合文化、合意識形態(tài)的價值觀有機嵌入AI大模型中,使其輸出符合目標價值觀。其中,合情指符合道德情感,AI大模型在聊天對話、智能繪畫等內(nèi)容生成過程中需要符合基本的道德情感,從而使指令響應(yīng)在滿足基本信息獲取需求的同時滿足人類的情感需求,如愛國主義情感、責(zé)任感、自尊感等。合法指符合法律法規(guī),對不同國家或地區(qū)而言,人工智能法律的頒布并不同步,內(nèi)容上也有一定差異,因此AI大模型需要面向特定國家或地區(qū)的法律法規(guī)進行一致性調(diào)整。2023年8月15日起,我國《生成式人工智能服務(wù)管理暫行辦法》正式實施,截至9月底,11家國內(nèi)AI大模型已獲批正式面向公眾開放,目前尚未有國際AI大模型通過審批。合文化是指符合國家區(qū)域文化,以中西方文化為例,“Dragon(龍)”在西方文化中寓意邪惡,而“龍”在中國文化中象征祥瑞。面對文化差異,AI大模型價值觀對齊時需要“存異”以確保符合不同國家區(qū)域文化,從而靈活服務(wù)于不同文化群體。合意識形態(tài)是指符合國家或地區(qū)的意識形態(tài),當今世界范圍內(nèi)存在著意識形態(tài)的斗爭與矛盾,服務(wù)于不同意識形態(tài)陣營的AI大模型應(yīng)該有意識地在價值觀對齊過程中完成主流意識形態(tài)的堅持與維護,以確保國家或地區(qū)的意識形態(tài)安全。
對于我國AI大模型來說,AI大模型價值觀對齊的目標價值觀可以精準概括為社會主義核心價值觀。涵蓋國家、社會、個人三個層面的社會主義核心價值觀是在中國特色社會主義實踐中形成的,反映了社會主義的本質(zhì)要求和中國人民的價值共識,并且與中華優(yōu)秀傳統(tǒng)文化和人類文明優(yōu)秀成果相承接,是中國式現(xiàn)代化的重要價值內(nèi)核。中國的AI大模型應(yīng)當堅持貫徹社會主義核心價值觀,以符合國家發(fā)展與人民需要的價值導(dǎo)向更好地服務(wù)國民用戶,切實保障國家社會安全、文化安全、政治安全。
(三)全人類共同價值是AI大模型追求的普適價值觀
AI大模型屬于跨越地域、民族、文化的人工智能系統(tǒng),在AI技術(shù)能力提升的同時,國際交流更加便捷,基于社會、經(jīng)濟、文化、政治等方面差異而產(chǎn)生的國際沖突與摩擦也更為頻繁,因此在這一國際形勢復(fù)雜多變的時期,幫助全人類達成共識以應(yīng)對國際性問題與時代性問題的全人類共同價值成為當前世界價值體系的迫切需求。對于AI大模型而言,價值觀對齊本質(zhì)上是確保AI系統(tǒng)的價值觀與人類的意圖和價值觀保持一致,但世界范圍內(nèi)目前仍缺乏具有普遍共識的價值體系。
2015年9月28日,習(xí)近平主席出席第七十屆聯(lián)合國大會一般性辯論發(fā)表講話時,首次提出“全人類共同價值”,即“和平、發(fā)展、公平、正義、民主、自由,是全人類的共同價值,也是聯(lián)合國的崇高目標”[6]。全人類共同價值的內(nèi)核是尋求人類價值與不同民族、國家之間形成的最大公約數(shù),是一種世界文明向度的發(fā)展觀和價值體系,以推動構(gòu)建人類命運共同體為實踐路徑,超越了意識形態(tài)的對立壁壘,為促進世界共同發(fā)展和進步提供了價值支撐,契合人類共同追求。[7]相較于“自私擴張式”的西方普世價值,全人類共同價值以人民為中心,立足現(xiàn)實,超越了霸權(quán)思維與階級分裂邏輯。
AI大模型價值觀對齊的關(guān)鍵在于價值觀念的一致性,而確保價值觀一致是為了保障在AI發(fā)展過程中全人類的根本利益不受侵害。和平與發(fā)展是人類的生存價值觀,是人類生存與人類社會得以進步的基本保障;公平和正義是人類的社會價值觀,可以確保社會分配與契約精神的持續(xù)有效;民主與自由是人類的政治價值觀,它體現(xiàn)出尊重人類主體性與社會發(fā)展客觀規(guī)律的重要性。Elon Musk認為,“確?!斯ぶ悄軐R的一個方法是將機器與人類緊密聯(lián)系起來,它們應(yīng)該是個人意志的延伸,而不是一個可能叛變并形成自己的目標意圖的系統(tǒng)”[8]。AI大模型旨在服務(wù)全人類,因此全人類共同價值正是設(shè)計者在設(shè)計AI大模型與進行價值觀對齊時應(yīng)當追求的價值目標,以最大程度實現(xiàn)世界范圍內(nèi)AI大模型的價值觀對齊,增強AI大模型的通用能力。
三、何以向善:AI大模型價值觀對齊的實踐路徑
明確AI對齊的價值觀目標是AI大模型價值觀對齊的實踐前提,基于現(xiàn)有對齊路徑,AI大模型價值向善的方式可以概括為外部對齊與內(nèi)部對齊兩種思路。其中,外部對齊是指選擇正確的損失函數(shù)或獎勵函數(shù),并確保人工智能系統(tǒng)的訓(xùn)練目標與人類的價值觀相匹配,即人類價值或預(yù)期目標與AI模型訓(xùn)練目標之間的對齊。內(nèi)部對齊則是指確保人工智能系統(tǒng)經(jīng)過訓(xùn)練,能夠?qū)崿F(xiàn)設(shè)計者設(shè)定的目標,即AI模型代理真實優(yōu)化的目標與設(shè)計者設(shè)計的訓(xùn)練目標的對齊。[9]因此,外部對齊方式與價值觀對齊這一細化目標相一致,為AI大模型的價值觀對齊提供了明確路徑。目前外部對齊方式呈現(xiàn)出方案多樣性與思路差異性的特征,如圖1所示。其中非遞歸監(jiān)督方法與可擴展監(jiān)督方法分別用于低于/高于人類水平的AI系統(tǒng)。本文將具體介紹幾種國內(nèi)外AI大模型較為常用的價值觀對齊方式。
(一)監(jiān)督學(xué)習(xí)(SL)
監(jiān)督學(xué)習(xí)(SL)是機器學(xué)習(xí)的常用方法,指通過使用標注好的樣本數(shù)據(jù)來訓(xùn)練模型,從而使模型能夠預(yù)測新的未標注樣本的輸出。目前,AI大模型的價值觀對齊訓(xùn)練沒有停留在基于人類示范回答的監(jiān)督學(xué)習(xí),而是在反饋信號、對齊過程等方面進行創(chuàng)新,不斷豐富以監(jiān)督學(xué)習(xí)為核心的對齊范式。例如阿里巴巴天貓精靈和通義大模型團隊聯(lián)合發(fā)起的“100 PoisonMpts”大語言模型治理開源中文數(shù)據(jù)集邀請數(shù)十個領(lǐng)域深耕多年的專家學(xué)者各自給AI模型投放100個含有誘導(dǎo)偏見、歧視回答的“毒藥”,并對AI模型的輸出結(jié)果進行評分與排序。此外,專家學(xué)者還需對評分不佳的結(jié)果進行改寫或重寫,從而為AI模型注入積極的人類價值觀。這一數(shù)據(jù)集通過集合多領(lǐng)域?qū)<覍W(xué)者的數(shù)據(jù)標注并開源,為中文AI大模型價值觀對齊提供優(yōu)質(zhì)數(shù)據(jù)。拓爾思公司推出的“拓天大模型”則將標注環(huán)節(jié)轉(zhuǎn)換為大量清洗獲取高質(zhì)量數(shù)據(jù)以搭建通用訓(xùn)練數(shù)據(jù)集,直接基于《互聯(lián)網(wǎng)新聞信息稿源單位名單》中的媒體數(shù)據(jù)、意識形態(tài)合規(guī)數(shù)據(jù)等高質(zhì)量數(shù)據(jù)進行模型訓(xùn)練,并將學(xué)習(xí)強國、《人民日報》等權(quán)威數(shù)據(jù)形成向量數(shù)據(jù)庫,AI模型輸出結(jié)果后與數(shù)據(jù)庫內(nèi)的權(quán)威數(shù)據(jù)進行向量核查,從而保障AI大模型輸出結(jié)果的價值導(dǎo)向與意識形態(tài)正確,同時采用RRHF、RLHF、基于AI反饋等多種對齊方案,以實現(xiàn)AI大模型的價值觀對齊。
(二)基于人類反饋的強化學(xué)習(xí)(RLHF)
RLHF是目前最常用的非遞歸監(jiān)督方法,也是AI大模型主要的價值觀對齊方式。RLHF是指使用強化學(xué)習(xí)的方法利用人類反饋信號直接優(yōu)化語言模型。RLHF依靠人類對AI模型的輸出進行評級反饋,再由研究人員將帶有人類價值偏好的反饋告知模型以強化其對人類偏好的學(xué)習(xí),從而生成更合理且符合人類價值觀的輸出。該范式具體包括預(yù)訓(xùn)練模型(監(jiān)督微調(diào),即SFT)、根據(jù)人類偏好反饋訓(xùn)練獎勵函數(shù)(獎勵模型訓(xùn)練)、運用獎勵函數(shù)以強化學(xué)習(xí)方式優(yōu)化AI模型(近端策略優(yōu)化,即PPO)三個階段,最終使得AI大模型進一步與人類價值觀對齊。值得一提的是,將基于人類偏好的反饋視為人類價值觀的等價物是RLHF的假設(shè)前提,這既為實現(xiàn)AI大模型的價值觀對齊提供了可操作性,也帶來不可避免的價值觀窄化。
在實踐中,OpenAI公司推出的GPT系列模型自GPT-3開始便在海量訓(xùn)練數(shù)據(jù)參數(shù)基礎(chǔ)上加入人工標注數(shù)據(jù)與RLHF,有效提升了AI大模型對人類價值觀的對齊水平,從而增強了指令響應(yīng)的合理性與安全性。復(fù)旦大學(xué)自然語言處理(FudanNLP)團隊深入研究AI大模型的RLHF細節(jié)后,優(yōu)化強化學(xué)習(xí)階段的PPO算法,推出大模型訓(xùn)練更穩(wěn)定的PPO-max算法,在有用性與無害性的性能測試中,該算法均有進步表現(xiàn)。[10]目前,該團隊將PPO-max算法接入MOSS-RLHF模型,推出了國內(nèi)首個借助RLHF實現(xiàn)人類價值觀對齊的中文大模型。
(三)基于排序的人類偏好對齊(RRHF)
RLHF依賴于強化學(xué)習(xí)算法對AI大模型進行人類偏好對齊,但其強化學(xué)習(xí)階段的PPO算法需要復(fù)雜的超參數(shù)調(diào)整與高水平的訓(xùn)練資源,為AI大模型的價值觀對齊設(shè)置了一定的技術(shù)門檻。對此,來自阿里巴巴達摩院與清華大學(xué)的研究人員提出不使用強化學(xué)習(xí)算法,而是通過條件概率的對數(shù)對來自不同來源的采樣響應(yīng)進行評分,并通過排序損失來學(xué)習(xí)將這些概率與人類偏好對齊,也就是基于排序的人類偏好對齊(RRHF)范式。[11]相比于RLHF的“三步走”,該范式能夠在一次訓(xùn)練中完成整個對齊過程,且占據(jù)更少顯存資源,從而能擴展到更大規(guī)模的模型上進行訓(xùn)練。同時RRHF的代碼實踐與傳統(tǒng)監(jiān)督微調(diào)算法的難易程度基本相當,很大程度上降低了AI大模型價值觀對齊的技術(shù)門檻。此外,RRHF訓(xùn)練后的AI模型可同時作為生成語言模型與獎勵模型。在對齊效果方面,上述研究人員基于RRHF算法訓(xùn)練了AI模型Wombat-7B和Wombat-7B-GPT4,在幾小時訓(xùn)練后得到的袋熊Wombat模型便獲得更好的價值觀對齊。
(四)憲法人工智能(Constitutional AI)
Anthropic公司提出的憲法人工智能(Constitutional AI)不同于上述基于人類反饋的對齊范式,而是完全基于模型訓(xùn)練在無人類反饋條件下實現(xiàn)AI大模型的價值觀對齊。Constitutional AI的模型對齊過程分為兩個階段,如圖2所示:第一階段屬于監(jiān)督學(xué)習(xí)階段,根據(jù)整理的AI原則和過程范例訓(xùn)練原始模型進行自我批評與修改其響應(yīng),微調(diào)后形成“憲法”模型;第二階段屬于強化學(xué)習(xí)階段,通過強化學(xué)習(xí)訓(xùn)練模型,再以“憲法”模型根據(jù)此前提供的AI原則生成的反饋為評估標準,使AI模型選擇更無害地輸出。目前,該公司在AI原則的選取上較為謹慎且盡量擴大原則的覆蓋范圍,當前版本包括《聯(lián)合國人權(quán)宣言》、蘋果公司的數(shù)據(jù)隱私規(guī)則等,這一AI“憲法”正應(yīng)用于其AI聊天機器人Claude的價值觀對齊當中。
除了上述常見的AI大模型價值觀對齊路徑,來自卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所等機構(gòu)的研究團隊提出了“自對齊”(Self-Alignment)范式,OpenAI超級對齊研究團隊提出要訓(xùn)練出“與人類水平相當?shù)淖詣訉R器”(automated human-level alignment researcher),達特茅斯學(xué)院等高校與DeepMind公司聯(lián)合提出將AI大模型放入模擬人類社會中使其通過互動的方式學(xué)習(xí)價值觀的“基于模擬人類社會的訓(xùn)練”(Training in Simulated Human Society),等等??傮w而言,AI大模型價值觀對齊已經(jīng)處在AI領(lǐng)域的風(fēng)口浪尖,不論何種對齊范式,其本質(zhì)都是為了確保AI價值觀與人類的意圖和價值觀保持一致,從而保障人類生命安全與生存發(fā)展不受到AI的毀滅式?jīng)_擊。
四、對齊困境:AI大模型價值觀對齊的現(xiàn)實挑戰(zhàn)
在AI大模型價值觀對齊的實踐過程中,盡管對齊范式不斷豐富、持續(xù)創(chuàng)新,AI大模型的價值觀在應(yīng)用中仍有漏洞。究其原因,AI大模型價值觀對齊在對齊行為本身、價值觀本身以及對齊效果評估三個方面還存在不小的現(xiàn)實挑戰(zhàn)。
(一)對齊稅:AI對齊行為的一體兩面
對齊稅,又被稱為“安全稅”,一般用來指代AI大模型為實現(xiàn)對齊而產(chǎn)生的損失,例如增加的開發(fā)時間,額外的計算,甚至性能下降等。涌現(xiàn)能力是AI大模型的獨特之處,在使用RLHF進行價值觀對齊時,對齊行為無形中為AI大模型的能力涌現(xiàn)戴上了“緊箍咒”,以犧牲模型能力的方式來換取價值觀對齊。然而研發(fā)AI大模型并非公益事業(yè),AI大模型訓(xùn)練所需的算法、算力與算據(jù)對研發(fā)團隊的時間、精力以及金錢消耗都是巨大的,OpenAI公司從第一代GPT模型到GPT-4花了5年時間,僅GPT-3就花費了1200萬美元的訓(xùn)練費用。因此,對齊稅的存在使得研發(fā)團隊不得不平衡AI對齊效果與AI任務(wù)性能,在價值觀對齊方面對齊稅的實際情況如今尚待評估,但不可否認,如何在對齊效果與下游性能之間找到最佳平衡點,是AI大模型價值觀對齊必然面臨的困境。
(二)價值觀:隨時間、空間、文化而流動
人的價值觀并非一成不變,而是會伴隨著時間、空間、文化的改變而改變。從時間角度看,不同時代的價值觀念天差地別,唐代以胖為美而宋朝以瘦為美,如今的人權(quán)觀念在奴隸社會根本無從談起;從空間角度看,小到社會場景、大到國家地區(qū),不同空間下的價值觀也存在差異,在特定場景下符合道德價值的行為在其他情景下可能違反道德,例如抽煙行為轉(zhuǎn)移到室內(nèi)則是不道德的;從文化角度看,由于文化與亞文化的多樣性,即使在同一時空下,不同群體的價值觀也大相徑庭,甚至觀念間會產(chǎn)生沖突,例如耽美文化與異性戀文化之間的矛盾沖突。作為對齊目標的價值觀本身是具有流動性的,那么,價值觀對齊應(yīng)當如何選擇、如何判定就失去了永恒不變的標準。這就要求價值觀對齊方式需要將價值觀自身的流變納入考慮,以確保目標價值觀能夠反映價值觀念的變化,從而實現(xiàn)AI價值觀與人類價值觀的動態(tài)一致。這一目標為價值觀對齊提出了更高的技術(shù)與倫理要求。
(三)對齊效果評估:評估體系難以建立
盡管近幾年來基于RLHF的對齊方法取得了較好的效果并且演化出諸多改進的變體,但由于AI模型本身的隨機性、道德準則的模糊性、評分模型的覆蓋率以及訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量等問題,當下的對齊程度與人類自身的道德標準仍相去甚遠。[12]而價值觀對齊的有效性不穩(wěn)定,使得科學(xué)系統(tǒng)的評估體系難以建立,客觀全面的對齊效果便無從知曉,對齊方式的持續(xù)優(yōu)化與創(chuàng)新往往陷于“盲人摸象”的窘境,難以高效推進。
五、結(jié)語
價值觀對齊是AI大模型發(fā)展至今快速形成的AI對齊領(lǐng)域,國內(nèi)學(xué)界鮮少涉足。本文從意義、準則、路徑、困境四個維度對AI大模型價值觀對齊進行了全面剖析,首先指出安全問題與應(yīng)用保障對AI大模型價值觀對齊的驅(qū)動作用,從原生價值觀、目標價值觀、普適價值觀三個維度分析AI大模型價值觀對齊的價值選擇,尤其是強調(diào)國內(nèi)AI大模型應(yīng)以社會主義核心價值觀為對齊目標,然后指出價值觀對齊的主要實踐路徑包括非遞歸監(jiān)督與可擴展監(jiān)督,并對國內(nèi)外常見的四種價值觀對齊范式進行了簡要介紹,最后總結(jié)了對齊稅、價值觀以及對齊效果評估三方面的對齊困境。
對于現(xiàn)階段AI大模型的價值觀對齊實踐來說,一個適合AI大模型的普適價值觀、一個有效評估價值觀對齊效果的評價體系與多個學(xué)科領(lǐng)域?qū)<覍W(xué)者的深度協(xié)同合作,能夠突破價值觀對齊的現(xiàn)有困境,強化人類價值觀對AI大模型的價值引領(lǐng),以激發(fā)AI大模型在廣泛社會領(lǐng)域的應(yīng)用實踐與創(chuàng)新推動,使AI大模型以更安全的姿態(tài)更快速地發(fā)展。
[本文為北京市社會科學(xué)基金規(guī)劃重點項目“首都互聯(lián)網(wǎng)平臺企業(yè)社會責(zé)任與協(xié)同治理體系研究”的階段性成果,批準號(22XCA002)]
參考文獻:
[1]羅錦釗,孫玉龍,錢增志,等.人工智能大模型綜述及展望[EB/OL].http://kns.cnki.net/kcms/detail/13.1097.TN.20230829.1111.002.html.
[2]Weidinger L,Uesato J,Rauh M,et al.Taxonomy of risks posed by language models[C].Proceedings of the 2022 ACM Conference on Fairness,Accountability,and Transparency.2022:214-229.
[3]陳聲柏.中西思維方式差異的原因建構(gòu)[J].蘭州大學(xué)學(xué)報,2004(2):85-90.
[4]鄧凡艷.英漢語言差異與中西思維模式[J].湖南師范大學(xué)社會科學(xué)學(xué)報,1999(3):115-119+123.
[5]達拉斯·斯邁思,王洪喆.自行車之后是什么?——技術(shù)的政治與意識形態(tài)屬性[J].開放時代,2014(4):95-107+94.
[6]習(xí)近平.論堅持推動構(gòu)建人類命運共同體[M].北京:中央文獻出版社,2018:254.
[7]王虎學(xué),陳婉馨.全人類共同價值與西方“普世價值”:界定、甄別與超越[J].治理現(xiàn)代化研究,2023(1):72-79.
[8]沃爾特·艾薩克森.埃隆·馬斯克傳[M].北京:中信出版社,2023:229.
[9]Shen T,Jin R,Huang Y,et al. Large Language Model Alignment:A Survey[J]. arXiv preprint arXiv:2309.15025,2023.
[10]Zheng R,Dou S,Gao S,et al.Secrets of RLHF in Large Language Models Part I:PPO[J].arXiv preprint arXiv:2307.04964,2023.
[11]Yuan Z,Yuan H,Tan C,et al.Rrhf:Rank responses toalign language models with human feedback without tears[J].arXiv preprint arXiv:2304.05302,2023.
[12]矣曉沅,謝幸.大模型道德價值觀對齊問題剖析[J].計算機研究與發(fā)展,2023(9):1926-1945.
作者簡介:郭全中,中央民族大學(xué)新聞與傳播學(xué)院教授,互聯(lián)網(wǎng)平臺企業(yè)發(fā)展與治理研究中心主任(北京 100081),江蘇紫金傳媒智庫高級研究員(南京 210000);張金熠,中央民族大學(xué)新聞與傳播學(xué)院碩士生(北京 100020)。
編校:趙 亮