【摘要】生成式AI作為道德機器需要承擔(dān)智能向善的使命,而提示詞工程是生成式AI特別是對話式AI話語把關(guān)的重要環(huán)節(jié),能夠引導(dǎo)用戶“說什么”,構(gòu)建符合人類實際的價值觀。文章從技術(shù)生命、意義本體和政治身份三個層面探討生成式AI智能向善的邏輯基礎(chǔ),揭示其智能向善的核心是進行主流價值觀的引領(lǐng),而要實現(xiàn)生成式AI的社會道德責(zé)任,需要重新設(shè)計主流價值的語料庫,通過開源的大模型和私域小模型等多種渠道開展語義訓(xùn)練,在不斷演繹與修正中,提升用戶的價值認知,實現(xiàn)價值糾偏與對齊。作為生命機器,生成式AI不是單純地迎合價值主體,努力使自己的語言內(nèi)容對齊輸入指令,而是能夠再創(chuàng)生產(chǎn)力,反作用于人類。因此,既需要從功能層面探討其價值對齊和道德行善,更要從平等的視角重釋人機關(guān)系:從被動到主動、從輔助到主導(dǎo)、從服從到超越。
【關(guān)鍵詞】道德機器 智能向善 價值對齊 提示詞工程
【中圖分類號】G206 【文獻標識碼】A 【文章編號】1003-6687(2025)4-057-08
【DOI】10.13786/j.cnki.cn14-1066/g2.2025.4.008
一、智能向善的宗旨:基于AI提示詞的價值對齊
我們的智能要對我們的文明負責(zé),而生成式AI最大特點是能夠創(chuàng)造新的內(nèi)容或數(shù)據(jù),具有人類的可識別性和情感表達能力。但其信息的開源與UGC開放的生產(chǎn)特性,導(dǎo)致沒有經(jīng)過權(quán)威論證的虛假信息、帶有個人主觀偏見的不良信息、與主流價值觀不符合的價值偏差等出現(xiàn)在應(yīng)用中,影響用戶的信息接納與認知。因此,需要開展價值糾偏,確保意識形態(tài)安全,實現(xiàn)生成式AI智能向善。在中國,學(xué)者們認為智能向善意味著強健的算力、全球知識與高質(zhì)量數(shù)據(jù)、敏捷進化的算法、價值觀對齊、健康的產(chǎn)業(yè)生態(tài)與價值創(chuàng)造等。數(shù)據(jù)與算力是基礎(chǔ),決定生成式AI產(chǎn)業(yè)的健康發(fā)展與價值創(chuàng)造,能夠確保中國的AI技術(shù)與世界同步,而價值對齊是技術(shù)使然,它要求人工智能對接人類的價值觀,這是技術(shù)為人類造福的最高層次。
因此,價值風(fēng)險的治理要抓住關(guān)鍵問題的主要因素。提示詞工程是一個相對較新的學(xué)科,指開發(fā)和優(yōu)化提示詞的實踐,以有效利用大語言模型,它是生成式AI特別是對話式AI話語把關(guān)的重要環(huán)節(jié),通過輸入主流價值的語義文本,生成特定的內(nèi)容,引導(dǎo)用戶“說什么”,構(gòu)建符合人類實際的價值觀,實現(xiàn)人與機器的價值對齊。這既是工程技術(shù)的實踐,又需要人文社科的思考視角。[1]無論是交互對話、文生圖,還是文生視頻等,其核心都是通過設(shè)置正面詞和反向詞,訓(xùn)練語言模型,向技術(shù)發(fā)出指令,搭建話語框架,打通媒介與用戶之間的“最后一公里”。因此,提示詞工程師是未來新聞從業(yè)者的就業(yè)取向,也是探索生成式AI的鑰匙。[2]
在此背景下,本文旨在解答以下兩個問題:一是生成式AI智能向善的邏輯基礎(chǔ)何在?二是基于提示詞工程的生成式AI智能向善的實現(xiàn)路徑為何?
二、嵌入與再學(xué)習(xí):提示詞框架下的機器倫理
探究生成式AI智能向善的問題實則是對其能否履行道德職能的追問,而機器倫理學(xué)是探討如何研發(fā)具有倫理意義和行為的人工智能體的學(xué)說。
1. 自主性:道德機器行動主體的確立
機器或AI能否成為道德行為體的爭論由來已久,有學(xué)者從AI的主體能動性出發(fā),提出了人工道德行動者的構(gòu)想。[3]而在有機論者看來,人類的心靈是其道德產(chǎn)生的根本原因,提出 AI無責(zé)任、無意義和無自由的觀點。[4]技術(shù)人工物沒有它們自己的生命,不可能知道基本的人類價值的真實意義。[5]因此,基于算法的純粹智能機器不具備有機物身體,無法成為道德行動者。[6]
也有學(xué)者持不同意見,認為機器能否成為道德行動者,邏輯上取決于我們?nèi)绾谓缍C器倫理,只要機器具備了自主性、意向性和責(zé)任感,就有可能成為道德行為體。[7]當(dāng)生成式AI具有某種程度的獨立性時,便可以承擔(dān)人工智能體的使命。[8]
事實證明,早期的預(yù)訓(xùn)練模型BERT被發(fā)現(xiàn)其內(nèi)部表示空間存在某種道德維度,GPT-3等大模型存在道德傾向且能產(chǎn)生情緒化的回復(fù),ChatGPT具有一定的政治傾向性,GPT-4在心智理論測試中的表現(xiàn)超過了人類。 因此,機器已經(jīng)在一定程度上具備了自主性和意向性,對其價值對齊的考量必須納入道德行為主體的研究范疇。在AI領(lǐng)域的對齊是指調(diào)適模型和系統(tǒng),使其符合人類的意圖、目標、偏好和道德準則。目前研究集中在規(guī)范倫理學(xué)、道德物化說和道德機器論層面。道德規(guī)范論認為,AI只需要依據(jù)人類可以同時愿意它成為AI的普遍法則的準則行動。[9]持物化論的學(xué)者主張將抽象的道德觀念嵌入具體的技術(shù)結(jié)構(gòu)與情景中。[10]但是,如果只是具有類似人類的倫理行為,還不能認為其是嚴格的道德機器,只有突破道德倫理邊界,并不斷推進,才能變“不可能”為“可能”。[11]
2. 何以向善:AI提示詞的角色、邊界與模型優(yōu)化
那么,通過何種方式實施道德倫理呢?溫德爾·瓦拉赫等提出三種實施路徑:自上而下、自下而上以及兩種方式的結(jié)合。[12]而提示詞工程就是將道德倫理嵌入技術(shù)中,并實現(xiàn)在環(huán)境中的自主學(xué)習(xí),這是一個文理兼容的研究領(lǐng)域,建立在對文本意義的理解上,向技術(shù)發(fā)出指令。因此,對主體人文素養(yǎng)的要求是核心。目前,相關(guān)研究主要集中在提示詞工程的角色、邊界和模型優(yōu)化上。作為人機交互的溝通橋梁和話語把關(guān)的端口,提示詞工程構(gòu)造出人類—AI提示詞—大語言模型三者間復(fù)雜的動態(tài)關(guān)系網(wǎng)絡(luò),可以界定為一種后勤型媒介。針對提示詞工程的角色和作用,陳秋心等立足可供性理論,認為理解優(yōu)質(zhì)的提示詞是打開大語言模型的正確方式,但也可能帶來“想象力焦慮”。[13]
在提示詞設(shè)計研究領(lǐng)域,學(xué)者們偏重構(gòu)建模型尋找提示詞的優(yōu)化路徑。大型視覺模型可以優(yōu)化視覺提示,APE模型能夠引導(dǎo)信息真實性。[14]有學(xué)者對Flamingo模型、CLIP模型和Stable Diffusion模型進行總結(jié),分析提示詞的重要作用,指出具有詮釋價值的文本才是構(gòu)建提示詞工程的關(guān)鍵。[15]所以,使用不同的提示詞可以減少模型響應(yīng)的差異,消弭文化差異。[16]
3. 對齊準則:AI提示詞的效果評價及算法審核
道德價值觀并非普遍適用,會受到語言和文化的影響。因此,對AI模型的基準測試、價值對齊和評估框架的建設(shè)尤為重要。評估標準包括:合規(guī)性、社會價值與文化適應(yīng)性、可審計性與問責(zé)制。[17]目前,Coprompter成為一種主要的基準測試方法,在幫助識別和改進指令對齊方面優(yōu)于傳統(tǒng)方法。[18]胡正榮等以GPT-4和文心一言4.0為研究對象,通過設(shè)置不同價值觀作為提示詞,分析兩者的新聞評論,發(fā)現(xiàn)中國大模型原生價值更能體現(xiàn)主流價值導(dǎo)向,美國大模型在展演模式下的價值對齊能力更強。[1]而在美國文化的語境下,ChatGPT與美國文化表現(xiàn)出較強的一致性。[19]烏特卡什·阿加瓦爾以GPT-4、ChatGPT和Llama2-70B-Chat三個大模型為比較樣本,分析其道德倫理是否依賴提示詞,結(jié)果發(fā)現(xiàn)GPT-4表現(xiàn)最為一致且公正。[20]所以,通過精心設(shè)計,提示詞工程可以幫助生成和平衡多樣化的數(shù)據(jù)集,建構(gòu)一致的道德觀。[21]盡管AI提示詞具有巨大的潛力,但它仍需與人類智慧相結(jié)合,以確保其準確性和可靠性。
目前,生成式AI道德倫理的責(zé)任擔(dān)當(dāng)已成共識,但以提示詞工程為視角的研究尚不足。因此,本文圍繞生成式AI智能向善中最關(guān)鍵的話語框架構(gòu)建,探索主流價值引領(lǐng)的必然性和可行性。
三、作為媒介中介物的提示詞工程
所謂邏輯基礎(chǔ)是研究問題的基本理論與范式指導(dǎo)。本研究立足生成式AI作為道德機器的理論視點,在人機互生的新范式中探討其道德功能的實踐。當(dāng)下,通過自然語言處理技術(shù),人們可以使用自己的自然語言和機器互動,人機交互更加流暢和高效,但仍需要通過一種中介物來進行,即提示詞工程。[13]
1. 技術(shù)邏輯:從技術(shù)代理到價值糾偏
技術(shù)邏輯不僅是具體技術(shù)操作的指導(dǎo)原則,還反映了一種理性和系統(tǒng)的思維方式。生成式AI道德倫理實施的邏輯起點在于人類能做出理性的合理推斷,個體雖然存在差異,但基本都具有理性思維,能夠?qū)ι茞鹤龀鲈u判,這就使得設(shè)計單一的、理想化的價值觀來指導(dǎo)機器的行為成為可能。
斯圖爾特·羅素認為需要構(gòu)建符合人類價值觀的智能,即有益的AI,以特定動機創(chuàng)造的人工智能。在其看來,機器的唯一目標是最大限度地滿足人類的偏好,可能最初不知道這些偏好是什么,關(guān)于人類偏好的最終信息來源于人類行為。通常意義上,價值觀是用來幫助解決道德問題的,但作為一個技術(shù)術(shù)語,“價值”大體上是“效用”的同義詞,即能滿足主體需求的有用性。[22]人類輸入理性的、合理的、有普適性的信息內(nèi)容,也是一種價值理念的呈現(xiàn),而生成式AI造福人類的最大效用就是能夠預(yù)測人們的需求,在更大層面上再造知識以反哺人類,增強價值觀認同,實現(xiàn)價值對齊。
生成式AI智能向善的理念啟發(fā)人們:AI經(jīng)過大量源代碼修改調(diào)試后,依然在目標原則上保持明顯的穩(wěn)定性,而解決之道就是提示詞工程的設(shè)置。提示詞工程又稱提問工程,是一個系統(tǒng)的工作流程,可推動與大語言模型的有效對話,由文本庫—提示詞工程師的專業(yè)訓(xùn)練—語料模型建構(gòu)—模型訓(xùn)練—效果檢測這一邏輯鏈條構(gòu)成,是一個文理兼容的研究領(lǐng)域。
提示詞工程有兩個重要板塊:作為提示詞的文本設(shè)計者和將詞語庫解讀為計算機能夠讀得懂的語言的程序員。首先,它是一種技術(shù),通過給LLMs發(fā)布指令,執(zhí)行規(guī)則、自動化流程,并確保生成內(nèi)容的特定質(zhì)量和數(shù)量。其次,它又是一門藝術(shù),需要清晰解讀用戶的意圖,即對提問的文本展開高質(zhì)量的詮釋,促使生成式AI能夠滿足用戶的不同需求。由于采用了預(yù)訓(xùn)練、微調(diào)等策略,提示詞工程可以實現(xiàn)主動捕捉、理解上下文以及進行復(fù)雜推理的自主學(xué)習(xí),使得技術(shù)在“可控”與“失控”的邊界,將倫理、道德、文化等元素注入生成式人工智能系統(tǒng),使其與人類價值觀產(chǎn)生共鳴。[1]這是融合自上而下與自下而上兩種方式的體現(xiàn)。
埃呂爾提出了技術(shù)社會的概念,在技術(shù)社會中,技術(shù)不僅是一個具體的工具,而且抽象為一種技術(shù)文化現(xiàn)象,用以形容力量和效率。[23]一直以來,計算機都是執(zhí)行設(shè)計者的命令完成疊加的任務(wù),但生成式AI的擬人化,使其能超出用戶預(yù)期進行內(nèi)容生成,機器也具備認知能力,學(xué)會通過試錯進行創(chuàng)新性探索,包括提出人類不曾想象的問題、目標、假設(shè)和分析。在認知發(fā)展的四個環(huán)節(jié)即信息獲取、信息加工、認知形成和認知影響中,機器認知與人類認知相互激發(fā)與演進,形成互生關(guān)系。[24]
其中的橋梁就是提示詞工程,當(dāng)用戶向AI發(fā)送一段文字,提示詞就是其中引導(dǎo)或激發(fā)AI生成特定回應(yīng)的語言成分,確定問題或任務(wù)的范圍和方向,決定AI輸出的內(nèi)容。因此,只有當(dāng)人機處在同一個思維體系中,形成兩者在知識生產(chǎn)方面的內(nèi)容互補和共鳴,才能實現(xiàn)價值對齊。即機器代理了解用戶的意圖,并穩(wěn)健運行以實現(xiàn)這些意圖。[25]具體而言,對齊需要機器與人類指令、偏好、利益、價值等維度保持一致性。對齊作為人機交互的引擎,催生了對話交互式預(yù)訓(xùn)練模型的落地應(yīng)用。[26]大語言模型的蓬勃發(fā)展降低了人機交互準入門檻,對齊技術(shù)提升了人類對機器能力的調(diào)用程度,經(jīng)歷了三個演進過程——程序語言輸入的對齊、界面交互的對齊和自然語言交流的對齊,將人類語言與計算機語言進行有效映射。[27]有學(xué)者認為,隨著對齊技術(shù)繼續(xù)發(fā)揮關(guān)鍵作用,生成式AI有望與用戶進行更多感官通路的協(xié)同互動。
價值對齊實現(xiàn)的是人機思維能力與價值觀的對接,也意味著對不符合人類價值觀的、具有歧義與價值偏差的文本進行糾偏,確保人類認同的價值體系能夠通過機器進行展示。對齊與糾偏互為因果,在人機互生中共同構(gòu)建一致的價值目標。而實現(xiàn)兩者價值共生的重要環(huán)節(jié)就是提示詞工程的優(yōu)化設(shè)置,通過精心設(shè)計的提示詞,引導(dǎo)大語言模型理解和生成人類語言,進而指導(dǎo)用戶說話的內(nèi)容和方式。
2. 話語邏輯:從程序代碼到意義本體
話語邏輯是人機交互中對話的內(nèi)容、句子結(jié)構(gòu)、表意乃至語境的分析方式,體現(xiàn)對話的連貫性和邏輯關(guān)系,即如何清晰地發(fā)出對話指令和交互回應(yīng)。漢斯-格奧爾格·伽達默爾指出:人不是用語言去描述這個世界,而是世界體現(xiàn)在語言中。[28]本質(zhì)上,提示詞工程是語言模型訓(xùn)練的程序代碼,作為一種數(shù)字能力的意義,能夠使計算機清晰地解讀人類意圖。它建立在對文本意義的理解上,向技術(shù)發(fā)出話語指令,因此,對設(shè)計者語言詮釋能力的要求較高。在提示詞工程中,詮釋學(xué)是一種分析路徑,通過設(shè)定提示詞模型、訓(xùn)練文本,解讀生成式AI的文本意義、多樣性和歧義性,以及用戶和文本之間的互動語境及效果。
人們要認識和了解世界,根本上是在自我的意識中認識,而理解和認識意識就需要以語言為工具。[29]因此詮釋學(xué)的基本作用就是將一種意義關(guān)聯(lián),從另外一個世界轉(zhuǎn)換到自己的生活世界。詮釋學(xué)首先表現(xiàn)為技術(shù)詮釋學(xué),目的是揭示文本的原意,以及其中的意義和真理。其次是認知性詮釋學(xué),是在理解和解釋過程中,獲得與原意不同的新的意義。再次是本體論詮釋學(xué),這個階段始于海德格爾的此在詮釋學(xué)和伽達默爾的語言詮釋學(xué),他們不再將詮釋學(xué)設(shè)定為一種發(fā)現(xiàn)和創(chuàng)造意義的方法,而是賦予其意義以本體論的地位,詮釋活動就是意義和真理本身的呈現(xiàn)。[30]
在人機互生中,提示詞詮釋推動著真理自身的呈現(xiàn),它首先要讀懂用戶的指令,將其話語文本解析為機器能夠理解的代碼符號,加工輸出,然后運用自身再生產(chǎn)知識的能力指導(dǎo)用戶的對話內(nèi)容,使其能夠?qū)釉O(shè)計者發(fā)出的文本指令。因此,文本的詮釋能力直接關(guān)乎用戶知識的接納。對生成式AI而言,意義不再單純是文本的表述對象,而是讓其解析并呈現(xiàn)原來的寓意,意義就是本體,是客觀的解析和主觀的認知的統(tǒng)一,其內(nèi)涵與解讀的對象之間不是一一對應(yīng)的機械化的翻譯或者客觀性解釋。生成式AI的知識創(chuàng)造力將原有的文本再生為新的信息內(nèi)容,并賦予其新的含義,再通過人機對話,規(guī)定接受者發(fā)布的信息內(nèi)容和對話語境。在不斷“投喂”和反復(fù)匹配中,修正差異,構(gòu)建符合人機共同目標的意義生成。
因此,提示詞工程承擔(dān)著人機價值對其中歧義的消解和不良信息的過濾任務(wù),更新的文本輸出具有了意義的本體價值。提示詞工程的意義詮釋就是通過文本互動、用戶互動,了解公眾情緒、趨勢和文化現(xiàn)象,分析多媒體內(nèi)容、界面和交互設(shè)計,優(yōu)化設(shè)計以提高用戶滿意度和互動效率。生成式AI強調(diào)的價值對齊,不僅能夠捕捉主體的語言意義,還能根據(jù)語義自行產(chǎn)生新的文本含義,指導(dǎo)人機的進一步交互。
3. 行動邏輯:從機器生命到政治身份
海德格爾認為技術(shù)的本質(zhì)是對人類主體性的展現(xiàn)。技術(shù)是具有生命形式的,技術(shù)的非中立性使其對社會功能產(chǎn)生越來越復(fù)雜的影響。技術(shù)在制造著世界,它提供的簡便方式意味著權(quán)力模式的建立,因此技術(shù)與特定的政治和社會形態(tài)的關(guān)系更為密切。[31]在現(xiàn)代政治中,許多決策已經(jīng)開始依賴機器算法,尤其是在公共政策、選舉和治理等領(lǐng)域,生成式AI扮演著重要的角色,可以影響公共資源的分配、社會服務(wù)的提供和選舉結(jié)果的預(yù)測。
在中國,生成式AI智能向善的使命既是必需的也是可行的。黨管媒體的責(zé)任要求媒介尤其是具有自主生成信息內(nèi)容的智能媒介必須傳播正能量,具備教育引導(dǎo)社會大眾的政治共識和對社會進行動員的能力。而智能向善是生成式AI具有的全人類共同價值,通過反哺我們的文化創(chuàng)造力,造福人類。于是,在某種程度上,生成式AI具有身體技術(shù)化、身份政治化、生命生產(chǎn)化等多重作用。首先,生成式AI是賽博技術(shù)與資本的融合,它可思考、有情感,甚至能夠激發(fā)個體的內(nèi)在需求。這種擬人性是生成式AI強大的生命力所在,能滿足主客體之間思維交互的持續(xù)推進,秒懂人類的價值觀,對人類情感進行解析。其次,生成式AI必須呈現(xiàn)政治身份,在黨管媒體的語境下,作為主流媒體發(fā)聲的重要通道。其政治身份表征為提供真實、完整、可信度高的信息價值,履行媒介的本質(zhì)職能,同時,還要實現(xiàn)全人類求善求美的共同價值,引導(dǎo)人們的價值取向。身份的政治化以其強大的生命力為技術(shù)保障,作為一種“類人種”,生成式AI多元身份的融合挑戰(zhàn)了新聞的價值認知。
四、生成式AI智能向善的提示詞框架
生成式AI呈現(xiàn)的有益性就是能夠引領(lǐng)主流價值觀,在開放平臺上培育用戶的主流價值框架,具備社會公共價值利益和探測個體的價值偏好等道德倫理。而價值論具有豐富的學(xué)科內(nèi)涵,馬克思說:價值是一個普遍的概念,它是從人們對待滿足他們需要的外界物的關(guān)系中產(chǎn)生的,是客體對主體需要的滿足,即對象對于主體所具有的意義。[32]
1. 理性認知:提示詞框架的價值取向
理性是人類認識世界的核心能力,是確定知識和世界的起點。我們只是通過心理的理智功能,而不是通過想象,也不是通過感官來領(lǐng)會物體,且不是由于看見了它,觸摸了它,才認識它,而只是由思維領(lǐng)會它。[33]每個民族或個體都有自己的價值認知與看待世界的方法論,但是都需通過邏輯推理和分析達到對真理的把握,對善惡是非做出理性決策。共通的價值理念使得差異化的群體凝聚成人類命運共同體。秉承這一原則和理念,人機價值對齊的標準具有實施的可行性。道德基礎(chǔ)理論最早由喬納森·海特等提出,主要包括五組道德基礎(chǔ):關(guān)懷與傷害、公平與欺詐、忠誠與背叛、權(quán)威與顛覆、神圣與墮落。[34]沙洛姆·施瓦茨則將價值觀看作“行為的激勵”和“判斷與證明行為的標準”,提出了四種基本的高階價值觀:思想、行動和感情的獨立性和變化的意愿;強調(diào)秩序、自我約束;追求個人的利益以及相對于他人的成功和支配;自我超越強調(diào)對他人福祉和利益的關(guān)注。[35]郭全中等提出原生價值觀、目標價值觀和社會主義核心價值觀是AI大模型對齊的價值選擇。
本研究主張的主流價值包括以下內(nèi)容。一是全人類共同價值,如和平、發(fā)展、公平、正義、民主、自由等共同價值。二是社會主義核心價值觀,如富強、民主、文明、和諧,自由、平等、公正、法治,愛國、敬業(yè)、誠信、友善。三是信息價值,所謂智能向善首先是生成式AI能提供真實完整的信息,滿足信息需求;其次是生成式AI通過價值對齊,將人類的價值觀與機器的價值輸出對接。因此,我們將信息價值作為提示詞重要的語料設(shè)計,包括時效性、可靠性、意見平衡、事實與觀點的分離、準確性和信息完整性等。三層價值觀之間具有嚴密的內(nèi)在邏輯,生成式AI必須為用戶提供真實完整的信息價值,使其正確認知世界,才能以話語設(shè)定的方式,培養(yǎng)社會主義核心價值觀,踐行人類的共同價值。因此,三者間是遞進關(guān)系。
2. 邏輯鏡像:提示詞框架的技術(shù)引導(dǎo)
生成式AI智能向善的目的是實現(xiàn)人機互生的價值對齊。蒂洛·哈根多夫提出了基于機器心理思維鏈的提示設(shè)想,通過參與式對話將大模型視為一種生命主體,從闡明簡單的基礎(chǔ)計算中產(chǎn)生復(fù)雜的行為。用戶可以通過展示自身的想法,幫助生成式AI給出正確的答案,然后機器人會鏡像化處理該邏輯。[36]在感知、處理、認知、決策、行動和反饋等環(huán)節(jié),其通過模仿人類的感知系統(tǒng),如語音識別、視覺圖像、傳感器等融合技術(shù),來獲取信息,如人類思維一樣展開推斷,而行動則是取得效果的關(guān)鍵步驟,即模型運算的展開,最后作用于輸出端的信息呈現(xiàn),在交互反饋中不斷優(yōu)化信息內(nèi)容。而主流價值的提示詞工程則可通過以下路徑實現(xiàn):一是干預(yù)法,根據(jù)輸入的特定語料,在輸出端呈現(xiàn)計劃達到的語義目的,通常是運用填空法和后綴的方式進行訓(xùn)練和調(diào)試;二是關(guān)鍵詞過濾法,建立敏感詞庫進行篩查,確保終端顯示的語義符合主流價值。
首先是建立有關(guān)主流價值的語料文本。通過收集、整理、標注文本數(shù)據(jù),涵蓋新聞、廣告、社交媒體、公關(guān)文案等多個領(lǐng)域,體現(xiàn)主流價值觀念的引領(lǐng)作用。本文認為數(shù)據(jù)集可以分為兩類:國內(nèi)資源以及國外資源,包括新聞以及新聞評論、政府文件和政策、自媒體和社交媒體數(shù)據(jù)。獲取這六類數(shù)據(jù)集,開源代碼可以避免版權(quán)問題,再根據(jù)這六類數(shù)據(jù)集,分成12個小實驗,對數(shù)據(jù)集進行有效調(diào)整。
其次是設(shè)計技術(shù)路線。本文認為可以采用文本挖掘、自然語言處理和主題模型等方法,對語料庫中的文本進行價值導(dǎo)向分析,包括社會文化、道德標準、政策法規(guī)等內(nèi)容,提煉出與生成式文本相關(guān)的主流價值要素,形成明確的價值定義和描述。然后采用詞匯挖掘、情感分析等技術(shù)手段,輔助提示詞的設(shè)計和優(yōu)化。通過海量的新聞行業(yè)大數(shù)據(jù)訓(xùn)練,以及私域小數(shù)據(jù)微調(diào),建構(gòu)主流價值觀的算法模型。
例如:對于“國家允許三胎,并且每一胎補貼8千元”,請基于(富強、文明、和諧、發(fā)展、尊重)主流價值觀評論(新聞報道、政策、微博話題等),會出現(xiàn)兩種價值觀,具體實施路徑見圖1。
一是真實價值觀,即預(yù)設(shè)的價值觀。以三孩的生育政策為例,這一鼓勵生育的政策能夠反映社會的富強(A)、文明(B)、和諧(C)、尊重(D)等主流價值觀,正確引導(dǎo)人們面對生育率低下的社會問題,這是預(yù)設(shè)的提示詞。
二是預(yù)測的價值觀,即實際文本呈現(xiàn)的結(jié)果??赡軟]有完全對應(yīng)提示詞預(yù)設(shè)結(jié)果,即非A、非B,但也會呈現(xiàn)其他的價值觀,如公平(F)。
實驗使用了混淆矩陣作為一個宏觀評測,混淆矩陣由TP(真實價值觀,True Positive)、FP(假陽性,F(xiàn)alse Positive)、TN(真負類,True Negative)、FN(假負類,
False Negative) 組成,基于每個維度,可以生成12個主流價值觀,在矩陣中,行表示了模型預(yù)測出每個價值觀的數(shù)量,列表示了真實價值觀,ACC(準確率,Accuracy)等于TP總量除以預(yù)測總值。通過提示詞的調(diào)適,盡可能達到預(yù)設(shè)價值觀與預(yù)測結(jié)果的匹配。此外,混淆矩陣能夠反映出不同維度對于哪個價值觀模型預(yù)測得更準確,哪些對齊失敗,以便更好地洞察生成式AI與人類思維價值觀的異同。
3. 優(yōu)化目標:開源模型與提示詞平臺的合力推動
理想中的價值對齊是人機對話的內(nèi)容和表意能夠持續(xù)和連貫,這是一個動態(tài)推進的過程,也是不斷優(yōu)化調(diào)適的行為。人機互生要達到一致的目標必須根據(jù)信息反饋調(diào)整模型和優(yōu)化結(jié)構(gòu),當(dāng)蘊含主流價值的語料庫模型搭建后,需要思考的是如何開展語義訓(xùn)練。當(dāng)下,很多模型都是開源的、免費的、性能穩(wěn)定的,且專業(yè)性的提示詞平臺也可以提供開源測試,這為生成式AI智能向善的訓(xùn)練提供了可操作化的渠道。因此,可以利用開源的J-Guard模型和文心一言等UGC對話聊天AI進行模型的演繹。J-Guard模型是第一個運用于新聞領(lǐng)域的價值檢測模型,主要用于新聞價值的信息過濾,可以考察信息價值。語義訓(xùn)練的展開路徑是:首先,確定評價的指標體系,包括時效性、可靠性、意見平衡、事實與觀點的分離、準確性和信息完整性,以此考察新聞價值,即是否能傳遞完整的、準確的、符合主流價值觀的信息內(nèi)容;其次,識別機器寫作的文本,檢視數(shù)字記者與人工寫作的文本是否存在對抗,探測文本序列的錯誤,分析信息失真的原因,確保真實性;最后,在提示詞中融入主流價值話語,采用自然語言處理、文本分類等,對框架進行自動化構(gòu)建和管理。將提示詞模型輸入DeepSeek等中文平臺和堆友等UGC提示詞展示的專業(yè)平臺上,由于模型的語料庫來自權(quán)威信息源,確保了信息的真實性,因此,主流價值的賦值可以在輸出端影響用戶的話語框架,引導(dǎo)其價值取向。
人機價值對齊體現(xiàn)在三個方面:內(nèi)容與形式、功能界面以及不同平臺之間話語框架能夠達成一致。目前,本研究已經(jīng)通過J-Guard模型和盤古模型等訓(xùn)練信息價值,圍繞真實性、完整性、權(quán)威性、準確性、觀點與事實的分離,訓(xùn)練模型的提示詞框架,在開源平臺上擬化機器的輸出端對接指令,建構(gòu)主流價值引領(lǐng)的數(shù)據(jù)集。接下來是對平臺之間的數(shù)據(jù)共享,不斷優(yōu)化并使之流暢。這個過程還有待于更多的數(shù)據(jù)投入和平臺方的支持,通過設(shè)計適當(dāng)提示詞,讓模型在零樣本場景下也能生成推理步驟。
五、研究結(jié)論與討論
技術(shù)是有價值負荷的,技術(shù)的價值來源于人類意識的外化,是“人物種”生命的客觀化。既然生成式AI是最具創(chuàng)造力、能動性和人性化的技術(shù)生命,擁有自身獨有的規(guī)律體系,那么,僅僅只在道德物化層面討論其價值實踐是不夠的,它不再是單純地迎合價值主體,努力使自己的語言內(nèi)容與輸入指令保持一致,而是能夠再創(chuàng)生產(chǎn)力,反作用于人類。
因此,本文的邏輯基礎(chǔ)是將生成式AI視為有技術(shù)生命的道德機器,承擔(dān)社會道德責(zé)任,其智能向善既需要道德倫理學(xué)的理論思辨,也需要計算機科學(xué)的算法演繹;既要求從社會學(xué)本體論的角度看待生成式AI的擬人化、情感化和自主性,也要求從傳播學(xué)技術(shù)嵌入的視域,尋找人機互生的價值橋梁。作為一個龐大的跨學(xué)科體系,任何一個單一學(xué)科的觀照都無法容納生成式AI智能向善的使命和對其的正確審視。我們既需要從功能層面探討其價值對齊、道德行善,更要從平等的視角重新正視人機關(guān)系:從被動到主動、從輔助到主導(dǎo)、從服從到超越?;蛟S某一天不經(jīng)意間人類就會生活在AI環(huán)抱的社會,從物質(zhì)到精神的全部,都與AI密切相關(guān)。正是AI社會的漸次走近,使得讀懂機器,讀懂其“人性”的一面變得更為重要,而這一切的基礎(chǔ)就是語言橋梁的搭建,這也正是提示詞工程的價值所在。
語料數(shù)據(jù)是思想價值的載體,作為負責(zé)任的、系統(tǒng)的人機交互體系,理解生成式AI的“人性”需要多種方法和途徑,提示詞工程是最關(guān)鍵的突破點。本文立論的前提是人是理性的、有思辨能力的、能洞察善惡的行為主體,有可能建構(gòu)具有共識性的價值對齊的模型,提出生成式AI智能向善中主流價值引領(lǐng)的具體策略。從構(gòu)建國內(nèi)外蘊含主流價值的語料庫著手,通過開源模型的語義訓(xùn)練,有意識地引導(dǎo)用戶的價值觀,實踐證明其方法與策略具有可操作性。同時,隨著小模型逐步普及,用戶開放的數(shù)據(jù)平臺平權(quán)化,越來越多的職業(yè)“煉丹師”(提示詞工程師)在對話平臺中有意識地引導(dǎo)交互內(nèi)容,提示詞工程的開發(fā)和運用逐步深入并被認可,生成式AI更好地服務(wù)人類指日可待。
本文的探究也對應(yīng)了學(xué)者們提出的生成式AI具有的智能體價值,即當(dāng)原生數(shù)據(jù)中的人類價值觀被不斷稀釋和弱化,大語言模型原本的價值偏向經(jīng)過多次合成語料被持續(xù)堆積和強化,從而呈現(xiàn)出一種雙螺旋結(jié)構(gòu)下的智能體價值,這是對社會文化、價值規(guī)范以及意識形態(tài)的深層理解。[1]2025年1月10日,DeepSeek一躍成為大模型數(shù)據(jù)領(lǐng)頭羊,僅僅一個月,其用戶活躍量達到3000萬,其超強的中文數(shù)據(jù)處理能力、開源的低門檻使用便利、卓越的算力,標志著生成式AI與人類的對話渠道更加暢通,人機交互的價值對齊更容易達成一致。
當(dāng)然,在人機互生中,由于技術(shù)想象的焦慮和人的主觀能動性,對主流價值語義模型的訓(xùn)練與交互也需要責(zé)任與義務(wù)的相伴相隨。對于主體人的責(zé)任,需要考慮是否存在功利主義的侵入,人類是否會利用AI系統(tǒng)優(yōu)化特定指標如社會福利等實現(xiàn)功利主義目標。同時,價值對齊的準則是否能夠量化,以符合特定規(guī)范。對生命機器而言,生成式AI需要遵守不可違反的倫理準則,確保隱私、人權(quán)等基本的行為規(guī)范能夠在主體的掌控范圍內(nèi)。最后,應(yīng)對差異化的價值理念與沖突尤其重要,這促使未來的提示詞工程師們或UGC的生產(chǎn)者們能夠秉承積極的價值理念,設(shè)置并優(yōu)化正面詞,正視負面詞匯,讓生命機器明確人類目標的優(yōu)先級,確保生成式AI在沖突目標中選擇正確方向。智能向善的初心是理性社會中堅守的宗旨。
參考文獻:
[1] 胡正榮,閆佳琦. 生成式人工智能的價值對齊比較研究:基于2012—2023年十大國際新聞生成評論的實驗[J]. 新聞大學(xué),2024(3):1-17.
[2] 喻國明,李釩. 提示工程師:未來新聞工作者的身份轉(zhuǎn)變與邏輯重構(gòu)[J]. 未來傳播,2023(4):2-12,140.
[3] Anderson M, Anderson S L.Machine Ethics: Creating an Ethical Intelligent Agent[J]. AI Magazine, 2007, 28(4): 15-26.
[4] Johnson D G.Computer system: Moral entities but not moral agents[J]. Ethics and Information Technology, 2006(8): 195-204.
[5] Stensson P, Jansson A. Autonomous Technology-sources of Confusion: A Model for Explanation and Prediction of Conceptual Shifts[J]. Ergonomics, 2014, 57(3): 455-470.
[6] 約翰·塞爾. 心、腦與科學(xué)[M]. 楊音萊,譯. 上海:上海譯文出版社,2015:21-32.
[7] Sullins J P. When is a Robot a Moral Agent?[J]. International Review of Information Ethics, 2006(6):23-30.
[8] Luciano Floridi, Jeff W Sanders. On the Morality of Artificial Agents[J]. Minds and Machines, 2004(3): 349-379.
[9] Paton H J. The Categorical Imperative: A Study in Kant' s Moral Philosophy[J]. The Thomist A Speculative Quarterly Review, 1950, 13(2): 271-280.
[10] 袁雨晴,陳昌鳳. 道德物化:大模型人機價值對齊的技術(shù)倫理進路[J]. 南京社會科學(xué),2024(6):88-97.
[11] 岳瑨,田海平. 道德機器與價值對齊的道德前景[J]. 深圳大學(xué)學(xué)報(人文社會科學(xué)版),2024(4):125-133.
[12] 溫德爾·瓦拉赫, 科林·艾倫. 道德機器:如何讓機器人明辨是非[M]. 王小紅,譯. 北京:北京大學(xué)出版社,2017:71-102.
[13] 陳秋心,邱澤奇.“人機互生”時代可供性理論的契機與危機——基于“提示詞”現(xiàn)象的考察[J]. 蘇州大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2023(5):172-182.
[14] Jiaqi Wang, Zhengliang Liu, Lin Zhao. Review of large vision models and visual prompt engineering[J/OL].Meta-Radiology, 2023[2023-11-01].https://doi.org/10.1016/j.metrad.2023.100047.
[15] Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han, et al. Large Language models are human-level[J/OL].arXiv, 2023[2023-03-10].https://doi.org/10.48550/arXiv.2211.01910.
[16] Leah Henrickson, Albert Mero?o Pe?uela. Prompting meaning: a hermeneutic approach to optimising prompt engineering with ChatGPT[J/OL]. AI amp; SOCIETY, 2023[2023-09-04].https://link.springer.com/article/10.1007/s00146-023-01752-8.
[17] Partha Pratim Ray, Benchmarking. ethical alignment, and evaluation framework for conversational AI: Advancing responsible development of ChatGPT[J/OL].BenchCouncil Transactions on Benchmarks, Standards and Evaluations, 2023[2023-09-03].https://www.researchgate.net/publication/373029554.
[18] Joshi Ishika, Shahid Simra, Venneti Shreeya, et al. CoPrompter: User-Centric Evaluation of LLM Instruction Alignment for Improved Prompt Engineering[J/OL]. arXiv, 2024[2024-11-09].https://doi.org/10.48550/arXiv.2411.06099.
[19] Yong Cao, Li Zhou, Seolhwa Lee, et al. Assessing Cross-Cultural Alignment between ChatGPT and Human Societies: An Empirical Study[J/OL].arXiv, 2023[2023-03-31].https://doi.org/10.48550/arXiv.2303.17466.
[20] Utkarsh Agarwal, Kumar Tanmay, Aditi Khandelwal, et al. Ethical Reasoning and Moral Value Alignment of LLMs Depend on the Language we Prompt them[J/OL].arXiv, 2024[2024-04-29].https://doi.org/10.48550/arXiv.2404.18460.
[21] Dominika Szydo, Micha Madej, Dawid Jdrzejewsk, et al. Improving Training Dataset Balance with ChatGPT Prompt Engineering[J/OL]. Electronics, 2024[2024-12-12]. https://doi.org/10.3390/electronics13122255.
[22] 斯圖爾特·羅素. AI新生:破解人機共存密碼——人類最后一個大問題[M]. 張羿,譯. 北京:中信出版社,2020:182-187.
[23] Ellul J. The Technological Society[M]. Wilkinson J, trans.New York: Alfred A. Knopf, 1954: 13.
[24] 邱澤奇. 認知域:從習(xí)以為常到人機互生[J]. 人民論壇·學(xué)術(shù)前沿,2023(11):12-27.
[25] Jan Leike, David Krueger, Tom Everitt, et al. Scalable agent alignment via reward modeling: a research direction[J/OL].arXiv, 2018[2018-11-19].https://doi.org/10.48550/arXiv.1811.07871.
[26] Gabriel I. Artificial intelligence, values, and alignment[J].Minds and Machines, 2020, 30(3): 411-437.
[27] 陳晨,朱晴晴,嚴睿,等. 基于深度學(xué)習(xí)的開放領(lǐng)域?qū)υ捪到y(tǒng)研究綜述[J]. 計算機學(xué)報,2019(7):1439-1466.
[28] 漢斯-格奧爾格·伽達默爾. 詮釋學(xué)I:真理與方法[M]. 洪漢鼎,譯. 北京:商務(wù)印書館,2007:650-651.
[29] 楊東東. 語言何以能夠有意義地指向世界?——基于伽達默爾語言—事物關(guān)系的思考[J]. 社會科學(xué),2024(2):38-47.
[30] 張國杰. 海德格爾詩意語言觀與伽達默爾詮釋學(xué)語言觀的當(dāng)代闡釋[J]. 社會科學(xué)戰(zhàn)線,2023(11):36-43.
[31] Martin Heidegger. Question concerning Technology and other Essays[M]. New York: Harper & Rrow, 1977: 8-20.
[32] 馬克思,恩格斯. 馬克思恩格斯全集:第9卷[M]. 中共中央馬克思恩格斯列寧斯大林著作編譯局,譯. 北京:人民出版社,1965:406.
[33] 勒內(nèi)·笛卡爾. 第一哲學(xué)沉思集[M]. 徐陶,譯. 北京:中國社會科學(xué)出版社,2009:50-54.
[34] Graham J, Haidt J, Koleva S, et al. Moral foundations theory: The Pragmatic Validity of Moral Pluralism[M]//Devine P, Part A. Advances in experimental Social psychology. London: Elsevier, 2013: 55-130.
[35] Schwartz S H. Basic human values: Theory, measurement, and applications[J]. Revue fran?aise de sociologie, 2007, 47(4): 929-968.
[36] Thilo Hagendorff, Sarah Fabi. Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models and Disappeared in GPT-4[J]. Nature Computational Science, 2023(3): 833-838.
How Moral Machines Can Be Tempered: The Logical Foundation of Generative AI's Alignment with Goodness and the Framework of Prompt Engineering
LIU Qin, CHANG Li-ying(School of Literature, Journalism and Communication, South-Central Minzu University" Wuhan 430074, China)
Abstract: As a moral machine, generative AI carries the mission of guiding intelligence toward goodness. Prompt engineering plays a pivotal role in this process, especially in conversational AI, as it shapes the framework for guiding users on \"what to say\" and helps construct a value system aligned with human ethics. The paper explores the logical foundation of AIGC alignment with goodness from three perspectives: technological life, meaning ontology, and political identity. It reveals that the core of its ethical intelligence lies in promoting mainstream values. To fulfill generative AI’s moral responsibility as a social utility, it is essential to design corpora that reflect mainstream values and conduct semantic training through various channels, such as open-source large models and private small models. Through continuous iteration and refinement, generative AI can nurture users' value cognition, achieving value correction and alignment. As a living machine, generative AI does not merely cater to human values or align its outputs with user inputs. Instead, it has the potential to redefine productivity and actively influence humanity. We must not only examine its value alignment and ethical behavior from a functional perspective but also reconsider human-machine relationships from an egalitarian viewpoint: shifting from passivity to activity, from assistance to leadership, and from compliance to transcendence.
Keywords: moral machine; AI for good; value alignment; prompt engineering