摘要: 基于國產(chǎn)主流大語言模型, 設(shè)計一個Linux課程知識問答系統(tǒng). 該系統(tǒng)結(jié)合檢索增強技術(shù), 能根據(jù)人類反饋持續(xù)學(xué)習(xí), 有助于解決Linux課程教學(xué)中如何更有效輔助學(xué)生學(xué)習(xí)的問題. 實驗結(jié)果表明, 該系統(tǒng)提高了大語言模型回答的事實性, 能有效回答學(xué)生提問. 此外, 該系統(tǒng)以較低成本積累了以自然語言形式呈現(xiàn)的專業(yè)領(lǐng)域知識庫, 降低了教師教學(xué)資料搜集整理的工作量.
關(guān)鍵詞: Linux課程; 大語言模型; 持續(xù)學(xué)習(xí); 問答系統(tǒng)
中圖分類號: "TP391""文獻(xiàn)標(biāo)志碼: A""文章編號: 1671-5489(2024)06-1370-07
Linux Course Question Answering SystemBased on Large Language Models
GUO Dong1, HUANG Guangqiang1, LIU Ying2
(1. College of Computer Science and Technology, Jilin University, Changchun 130012, China;
2. Public Computer Education and Research Center, Jilin University, Changchun 130012, China)
Abstract: Based on a domestic mainstream large language model, we designed a question answering system for the Linux course. This system,
combined with "retrieval enhancement technology, could continuously learn from human feedback, which helped to solve the problem of how to more effectively assi
st students’ learning in the Linux course teaching. Experimental results show that the system improves the factuality of answers provided by the large language model and can effectively answer "students’ questions. In addition, the system accumulates a professional domain knowledge base presented in the form of natural
language at a "lower cost, reducing the workload of teachers in collecting and organizing teaching materials.
Keywords: "Linux course; large language model; continuous learning; question answering system
近年來, 以ChatGPT為代表的大語言模型(large language model, LLM), 因其出色的語言生成和問答能力, 在為學(xué)生提供個性化教學(xué)和答疑輔助方面具有巨大潛力. 基于LLM的
問答系統(tǒng)可以為學(xué)生提供實時、 個性化的答疑服務(wù), 上下文學(xué)習(xí)、 思維鏈等新技術(shù)的發(fā)展可極大提升問答系統(tǒng)效果[1]. 目前, 在語言和基礎(chǔ)數(shù)學(xué)等領(lǐng)域大語言模型的研究已取得很多成果. Gayed等[2]基于GPT-2構(gòu)建了AI-KAKU系統(tǒng), 幫助學(xué)生降低英語寫作難度. 面向閱讀理解教學(xué)場景, Abdelghani等[3]構(gòu)建了基于GPT-3的人機對話系統(tǒng)KidsAsk, 輔助學(xué)生提出問題, 加深對文章的理解程度. Pardos等[4]構(gòu)建了代數(shù)問題智能提示系統(tǒng), 通過ChatGPT生成代數(shù)問題的解答提示, 引導(dǎo)學(xué)生解決問題.
盡管LLM在教育領(lǐng)域應(yīng)用前景較好, 但其也存在一些不足.
1) GPT模型易產(chǎn)生幻覺. 在人工智能(AI)領(lǐng)域, 幻覺是指AI自信地給出不符合訓(xùn)練數(shù)據(jù)的響應(yīng), 生成錯誤或具有誤導(dǎo)性的回答. 由于缺乏特定領(lǐng)域的專業(yè)數(shù)據(jù), 在專業(yè)課程教學(xué)領(lǐng)域中該問題尤為突出[5].
2) 專業(yè)領(lǐng)域優(yōu)質(zhì)數(shù)據(jù)獲取困難. 如Linux操作系統(tǒng)課程教學(xué)領(lǐng)域, 存在普通教學(xué)材料的結(jié)構(gòu)和內(nèi)容不適合機器學(xué)習(xí)模型訓(xùn)練、 數(shù)據(jù)來源分散且格式不統(tǒng)一、 人工數(shù)據(jù)標(biāo)注成本較高等問題.
3) 大語言模型訓(xùn)練困難. 在特定領(lǐng)域數(shù)據(jù)上對預(yù)訓(xùn)練的模型進(jìn)行微調(diào)時, 雖然模型在特定任務(wù)的性能得到提高, 但在其他任務(wù)的性能會急劇下降, 即發(fā)生“災(zāi)難性遺忘”[6]. 另一方面, 微調(diào)大語言模型仍需大量的計算資源和時間[7].
為增強大語言模型的事實性, 減少產(chǎn)生幻覺, 以檢索外部數(shù)據(jù)增強語言模型能力的方法已廣泛應(yīng)用. Emily等[8]提出了以維基百科作為外部知識庫增強語言模型在開放領(lǐng)域問答的能力. He等[9]提出了Rethinking with Retrieval方法提高語言模型的事實性. Peng等[10]提出了基于維基百科等網(wǎng)絡(luò)資料庫和自主反饋的LLM-Augmenter框架, 并在任務(wù)型對話和開放領(lǐng)域問答中驗證了其有效性. Nakano等[11]設(shè)計了一個基于文本的瀏覽器環(huán)境, 并通過人類反饋等方式訓(xùn)練模型經(jīng)由網(wǎng)絡(luò)訪問獲取答案. 張鶴譯等[12]提出了融合知識圖譜的大語言模型問答系統(tǒng), 該系統(tǒng)能將自然語言轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù), 并匹配專業(yè)知識庫內(nèi)容. 總之, 目前的研究工作一般關(guān)注于開放領(lǐng)域的問答系統(tǒng), 注重增強檢索的準(zhǔn)確性. 本文也應(yīng)用了檢索增強技術(shù), 但實驗結(jié)果表明, 對于Linux課程教學(xué), 有效數(shù)據(jù)的缺乏對語言模型正確率影響更大, 因此本文更關(guān)注如何利用大語言模型豐富專業(yè)領(lǐng)域數(shù)據(jù).
如何有針對性地修正大語言模型的錯誤認(rèn)知, 提供持續(xù)學(xué)習(xí)能力是目前該領(lǐng)域的研究熱點之一. 部分研究[13-15]通過對模型參數(shù)進(jìn)行直接修改, 以增強模型的特定領(lǐng)域知識儲備, 糾正錯誤認(rèn)知. 但該類方法的適用范圍目前還相對有限. Kassner等[16]在BeliefBank項目中提出了一個將檢索系統(tǒng)先前的回答作為上下文的反饋機制. Tandon等[17]從用戶的自然語言反饋入手, 探索了通過后處理方式修正模型錯誤認(rèn)知、 提升對用戶指令理解的新方法. Dalvi等[18]提出了TeachMe系統(tǒng), 該系統(tǒng)的記憶功能與文獻(xiàn)[17]的工作類似, 但采用了不同的方法修正模型認(rèn)知.
這些研究集中于開放領(lǐng)域的問答系統(tǒng), 通過記憶用戶的反饋降低模型邏輯推理的錯誤率. 而本文研究更注重于通過自動構(gòu)建專業(yè)課程教學(xué)知識庫, 以增強模型的事實性.
本文研究以減少幻覺現(xiàn)象為核心目標(biāo), 使用LLM自動化數(shù)據(jù)集處理, 降低專業(yè)領(lǐng)域數(shù)據(jù)收集難度, 并利用大語言模型的上下文學(xué)習(xí)(in-context learning)能力規(guī)避模型訓(xùn)練與微調(diào)的困難, 提高跨領(lǐng)域泛化能力.
1"系統(tǒng)設(shè)計
本文系統(tǒng)由知識庫和問答器兩部分構(gòu)成, 系統(tǒng)整體架構(gòu)如圖1所示. 其中, 知識庫和問答器的核心基于百川智能推出的Baichuan系列大模型[19], 該系列模型在開源社區(qū)中受到廣泛關(guān)注, 并在多個基準(zhǔn)測試中均性能優(yōu)異, 特別是在對話、 邏輯推理和語義理解等方面. 在知識庫部分, 本文采用參數(shù)規(guī)模更大的Baichuan 53B模型, 因其預(yù)訓(xùn)練更充分, 幻覺現(xiàn)象更少.
在問答器部分, 考慮到實時響應(yīng)、 算力和用戶規(guī)模的要求, 本文選擇參數(shù)規(guī)模相對較小的Baichuan 7B模型. 問答器的主要功能是根據(jù)用戶的提問, 查詢知識庫獲取相關(guān)的事實性資料, 生成答案, 并進(jìn)一步引導(dǎo)學(xué)生主動思考.
1.1"知識庫
提供與問題相關(guān)的事實性信息, 有助于降低大語言模型的幻覺.
但傳統(tǒng)的教學(xué)材料數(shù)據(jù)格式混亂, 不利于機器檢索, 而完全手動構(gòu)建和標(biāo)注知識庫成本較高. 本文利用大語言模型, 將作業(yè)題庫、 教輔資料等專業(yè)領(lǐng)域知識整合并轉(zhuǎn)化為問答對格式. 該格式的一個樣例如圖2所示. 采用問答對的形式有利于提高檢索準(zhǔn)確性. 通過利用大語言模型的隱含知識和能力, 能實現(xiàn)專業(yè)領(lǐng)域知識庫的自動化生成. 此外, 為確保知識庫內(nèi)容的準(zhǔn)確性, 該方法以人類反饋為核心, 不斷進(jìn)行迭代.
1.1.1"內(nèi)容生成
本文知識庫內(nèi)容的來源有如下兩方面:
1) 模型的內(nèi)隱知識. 參數(shù)量更大的LLM通常具有更大的預(yù)訓(xùn)練集和較少的幻覺現(xiàn)象, 因此能準(zhǔn)確回答部分題目和Linux相關(guān)概念. 對該特性的利用分兩個階段進(jìn)行, 均采用基于思維鏈技術(shù)的提示詞以引導(dǎo)模型產(chǎn)生更詳細(xì)的回復(fù). 第一階段, 對數(shù)據(jù)集中具有明確答案的Linux習(xí)題, 進(jìn)行多次采樣, 只有當(dāng)模型多次產(chǎn)生正確答案時才納入知識庫中. 第二階段, 為提高知識庫的泛化性和系統(tǒng)在其他試題上回答的準(zhǔn)確率, 通過模型對納入知識庫中的試題提取出關(guān)鍵概念, 并讓模型進(jìn)行詳細(xì)解釋, 組成新的問答對.
2) 教輔資料. 為進(jìn)一步提升知識庫的泛用性和內(nèi)容的多樣性, 從Linux相關(guān)教輔資料中截取片段, 設(shè)計一個提示詞引導(dǎo)模型提煉關(guān)鍵概念并生成問題. 對每個生成的問題, 將其與教輔資料重新組合, 再次使用模型獲得該問題的答案. 生成內(nèi)容將被用于計算Knowledge F1指標(biāo), 以刪除與原文相關(guān)性不足的回答.
1.1.2"迭代修正
為緩解自動生成的知識庫重復(fù)度較高、 質(zhì)量較差的問題, 采用如下方法對知識庫進(jìn)行迭代修正, 并引入人類反饋以確保生成問答對的質(zhì)量. 該方法分為如下兩部分:
1) 去重. 對每個新加入的問答對, 在知識庫中根據(jù)余弦距離檢索知識點并計算相似度, 若相似度高于閾值, 則被標(biāo)記為待合并. 對所有待合并的知識點, 拼接后提交給Baichuan 53B模型進(jìn)行合并操作. 提示詞將指示Baichuan 53B模型不失泛化性和信息性地合并知識點.
2) 優(yōu)化. 對在人工審核中發(fā)現(xiàn)有誤的問答對, 采用一種融合人工反饋與模型自我修正的策略進(jìn)行優(yōu)化. 審核員在標(biāo)記錯誤的同時, 提供自然語言描述, 明確錯誤原因或改進(jìn)建議. 結(jié)合原始提示詞與相關(guān)反饋, 模型重新生成答案. 新答案經(jīng)再次審核后, 如滿足質(zhì)量標(biāo)準(zhǔn), 則替代原始答案, 否則重新進(jìn)行優(yōu)化. 該策略旨在保障知識庫內(nèi)容質(zhì)量, 以提高問答對的事實準(zhǔn)確性.
1.2"問答器
問答器是系統(tǒng)的核心部分, 負(fù)責(zé)與用戶進(jìn)行交互并提供答案. 為確保答案的準(zhǔn)確性并提供與用戶的有效交互, 問答器由3個主要模塊組成: 檢索模塊、 回答模塊和互動模塊.
1.2.1"檢索模塊
檢索模塊的主要任務(wù)是從知識庫中找到與用戶問題最相關(guān)的問答對. 該過程由兩個子模塊完成: FlagEmbedding[20]和Baichuan 7B. 首先, FlagEmbedding模塊將用
戶的問題轉(zhuǎn)化為語義向量, 并在知識庫中檢索與之相似的問答對. 檢索到的問答對將與原始問題進(jìn)行拼接, 使用Baichuan 7B模塊進(jìn)行評估, 以確定其與原始問題的相關(guān)性和有益性.
得分較高的問答對將作為參考信息提供給回答模塊, 否則繼續(xù)判斷下一個相關(guān)的問答對.
1.2.2"回答模塊
回答模塊的目標(biāo)是生成用戶問題的直接答案. 該模塊主要由Baichuan 7B模型實現(xiàn). 通過大模型思維鏈(CoT)技術(shù)[21], 本文設(shè)計了特定的提示詞, 引導(dǎo)Baichuan 7B模型
利用檢索模塊獲得的相關(guān)事實性材料對用戶的問題進(jìn)行回答. 在Temperature=0.8的條件下, 本文進(jìn)行5次答案采樣, 選擇出現(xiàn)次數(shù)最多的答案作為最終答案, 并將該答案出現(xiàn)的次數(shù)作為置信度.
1.2.3"互動模塊
互動模塊旨在與用戶進(jìn)行深入交互, 幫助用戶更好地理解答案或相關(guān)概念,
而不是直接給出解答. 該模塊也由Baichuan 7B模型實現(xiàn). 根據(jù)回答模塊產(chǎn)生答案置信度的不同, 互動模塊將采用兩種回答策略: 1) 若置信度較低, 則模塊會選擇解釋與問題相關(guān)的概念, 并拒絕對問題進(jìn)行解答, 避免產(chǎn)生誤導(dǎo); 2) 若置信度較高, 則模塊采用蘇格拉底式提問法, 通過一系列的問題引導(dǎo)學(xué)生主動思考. 采用蘇格拉底式提問法引導(dǎo)學(xué)生主動思考的問答實例如圖3所示. 如果交互輪次超過預(yù)設(shè)的限制, 則模塊會直接給出回答模塊得到的答案, 并結(jié)束對話, 以確保不會超出模型上下文限制.
2"數(shù)據(jù)收集
為構(gòu)建一個高效的Linux課程知識問答系統(tǒng), 首先需建立一個全面且具有代表性的題庫. 題庫數(shù)據(jù)不僅可以作為系統(tǒng)的基礎(chǔ)知識庫, 還可用于后續(xù)的模型評估和驗證.
2.1"數(shù)據(jù)來源
單一的數(shù)據(jù)來源可能會導(dǎo)致偏見或遺漏某些關(guān)鍵知識點. 因此, 本文綜合考慮兩個主要的數(shù)據(jù)來源: 校內(nèi)超星課程的教學(xué)題庫和公開的網(wǎng)絡(luò)資料. 超星課程題庫經(jīng)過教師的篩選和
審核, 有較高的權(quán)威性和準(zhǔn)確性. 公開網(wǎng)絡(luò)資料涉及知識領(lǐng)域更廣, 確保了題庫內(nèi)容的多樣性和規(guī)模.
2.2"數(shù)據(jù)集特性
本文收集的題目廣泛涵蓋了Linux的基本概念(5.3%)、 命令(39.2%)、 Git與Vim(27.6%)、 系統(tǒng)管理與配置(19.6%)以及Shell及其程序設(shè)計(8.3%)等主要方面, 題目組成對體現(xiàn)Linux的教學(xué)知識點具有代表性.
3"實"驗
下面在收集到的Linux題目數(shù)據(jù)集基礎(chǔ)上進(jìn)行一系列實驗, 以驗證本文系統(tǒng)的有效性, 并通過消融實驗檢測系統(tǒng)中各模塊的效果. 實驗在配置24核3.0 GHz Intel
Core i9-13900K處理器和Nvidia GeForce RTX 4090顯卡的服務(wù)器上運行Baichuan 7B模型. 其他大語言模型, 如Baichuan 57B模型等, 使用官方API提供的接口訪問. 算法部分基于深度學(xué)習(xí)框架Pytorch和微軟大語言模型提示詞工程庫Guidance實現(xiàn). 為保證穩(wěn)定性, 除特別標(biāo)明的部分, 均采用Temperature=0的參數(shù)進(jìn)行貪心解碼. 數(shù)據(jù)集隨機劃分為90%的訓(xùn)練集和10%的測試集. 訓(xùn)練集將被用于生成知識庫內(nèi)容.
3.1"知識庫內(nèi)容生成質(zhì)量
為檢驗知識庫模塊的生成質(zhì)量和人工介入的作用, 本文設(shè)計兩個階段的生成策略. 第一階段完全依賴大語言模型自動化地生成知識庫并進(jìn)行去重處理. 第二階段在第一階段基礎(chǔ)上進(jìn)行人工反饋. 人工反饋包括對模型未能成功生成或生成不夠詳細(xì)的內(nèi)容, 補充事實性材料重新生成, 并對模型生成的事實性錯誤進(jìn)行修正. 實驗以GPT-4[22]作為基線標(biāo)準(zhǔn), 從兩個階段得到的知識庫中隨機抽取問答對, 生成對應(yīng)內(nèi)容. 從事實性與信息性兩方面與GPT-4生成內(nèi)容進(jìn)行人工對比, 實驗結(jié)果如圖4所示. 由圖4可見, 知識庫模塊有效利用了人類反饋, 在專業(yè)領(lǐng)域確保了內(nèi)容的準(zhǔn)確性和完整性.
3.2"問答器性能評估
為深入評估問答器的性能, 本文選取幾種主流的大語言模型, 并在多個數(shù)據(jù)集上進(jìn)行系統(tǒng)性的測試. 為確保測試的一致性和公正性, 所有測試題目均采用選擇題格式, 并對每個大語言模型使用統(tǒng)一的思維鏈提示詞進(jìn)行提問. 在評分標(biāo)準(zhǔn)上, 對于多項選擇題, 少選不被視為錯誤, 但錯選計入錯誤.
3.2.1"使用訓(xùn)練集進(jìn)行評估
由于本文研究的應(yīng)用場景在于輔助課堂Linux教學(xué), 學(xué)生用戶大部分問題可能已存在訓(xùn)練集中. 為驗證該模塊是否能識別同一問題的不同表達(dá)方式,
從訓(xùn)練集中隨機選取題目, 并對其進(jìn)行語義上的微調(diào), 以模擬實際教學(xué)場景中學(xué)生可能采用的多樣化提問方式.
圖5為不同模型在訓(xùn)練集上的正確率. 由圖5可見, 盡管問題的表述發(fā)生了細(xì)微的變化, 模塊仍能正確識別, 正確率相比原始的Baichuan 7B模型取得了顯著提升.
3.2.2"使用測試集進(jìn)行評估
在知識庫中不存在與測試集相同的題目. 圖6為不同模型在測試集上的正確率. 由圖6可見, 使用測試集進(jìn)行測試時, 模塊的準(zhǔn)確率仍有上升, 表明知識庫內(nèi)容具有一定通用性, 能泛化到不同題目.
為確保系統(tǒng)在實際應(yīng)用場景中的實用性, 本文對其校準(zhǔn)能力進(jìn)行測試. 在大語言模型中, 校準(zhǔn)能力代表模型對答案的信心在多大程度上與其實際的準(zhǔn)確率匹配, 實驗結(jié)果如圖7所
示. 由圖7可見, 對于該系統(tǒng), 高度確信的答案(置信度gt;4)正確率顯著上升. 因此, 通過規(guī)避對置信度較低的問題進(jìn)行回答, 能有效減少該系統(tǒng)在實際應(yīng)用場景中的幻覺現(xiàn)象.
3.3"消融實驗
為進(jìn)一步驗證本文系統(tǒng)中關(guān)鍵模塊的有效性, 下面進(jìn)行消融實驗.
3.3.1"知識庫內(nèi)容來源與系統(tǒng)泛化能力
第一組實驗僅使用數(shù)據(jù)集中具有明確答案的Linux習(xí)題作為知識庫, 即知識庫內(nèi)容生成中只利用模型內(nèi)隱知識進(jìn)行問答, 稱為PQ.
第二組實驗問答則是在習(xí)題基礎(chǔ)上, 補充基本概念的解釋, 并加入教輔資料, 即采用本文所描述的完整方式生成知識庫內(nèi)容, 稱為Q+SMG.
實驗在測試集上進(jìn)行, 結(jié)果如圖8所示. 由圖8可見, 第二組問答實現(xiàn)了更全面的知識覆蓋, 提升了系統(tǒng)在未知題目中的正確率.
3.3.2"檢索模塊的效果
為進(jìn)一步驗證檢索模塊的性能, 下面在測試集上進(jìn)行實驗, 采用3種不同的檢索策略.
1) 直接相似度排序(DSR): 直接根據(jù)向量化后的余弦相似度進(jìn)行排序, 選取高于閾值的問題.
2) 模型自我評估(ME): 在相似度排序的基礎(chǔ)上, 引入模型自我評估機制, 即對問答對的有用性進(jìn)行評分, 選取高于閾值的問題.
3) 人工查找(Human): 人工手動從知識庫中選擇最相關(guān)、 最有幫助的問答對, 作為基線標(biāo)準(zhǔn).
圖9為不同檢索方式下問答器的正確率. 由圖9可見, 3種檢索方式對問答器的正確率影響較小. 但在模型自我評估策略中, 有近56%的相似問答對被檢索模塊拒絕采用, 減少了回答模塊的提示詞長度, 總體正確率卻略有提升. 考慮到問答器在此過程中僅進(jìn)行了5次采樣, 提示詞長度的減少有效節(jié)省了計算資源.
綜上所述, 基于國內(nèi)主流大語言模型, 本文設(shè)計了一個基于檢索增強技術(shù)的Linux課程知識問答系統(tǒng). 首先, 基于國產(chǎn)大語言模型提出了一種自動生成專業(yè)領(lǐng)域知識庫, 并
根據(jù)人類反饋進(jìn)行知識迭代、 持續(xù)學(xué)習(xí)的方法; 其次, 設(shè)計了一個針對專業(yè)課程教學(xué)領(lǐng)域的智能問答系統(tǒng), 該系統(tǒng)基于思維鏈與檢索增強技術(shù), 能根據(jù)知識庫中的事實進(jìn)行回答, 從而減少產(chǎn)生幻覺現(xiàn)象, 并采用蘇格拉底式提問引導(dǎo)學(xué)生得出答案. 實驗結(jié)果表明, 通過結(jié)合檢索增強技術(shù)和人類反饋, 可以提高系統(tǒng)的回答正確率, 降低算力需求, 使系統(tǒng)能有效應(yīng)用于Linux課程的輔助教學(xué)中.
參考文獻(xiàn)
[1]"車萬翔, 竇志成, 馮巖松, 等. 大模型時代的自然語言處理: 挑戰(zhàn)、 機遇與發(fā)展 [J]. "中國科學(xué): 信息科學(xué), 2023, 53(9): 1645-1687. (CHE W X, DOU Z C, FENG Y S, et a
l. Towards a Comprehensive Understanding of the Impact of Large Language Models on Natural
Language Processing: Challenges, Opportunities and Future Directions [J]. Scientia "Sinica: Informationis, 2023, 53(9): 1645-1687.)
[2]"GAYED J M, CARLON M K J, ORIOLA A M, et al. Exploring an AI-Based Writing Ass
istant’s Impact on English Language Learners [J]. Computers and Education: Artificial Intelligence, 2022, 3: 100055-1-100055-7.
[3]"ABDELGHANI R, WANG Y H, YUAN X D, et al. GPT-3-Driven Pedagogical Agents to Train Children’s Curio
us Question-Asking Skills [J]. International Journal of Artificial Intelligence in Education, 2023, 34: 483-518.
[4]"PARDOS Z A, BHANDARI S. Learning Gain Differences between ChatGPT and Human Tutor Generated Algebra Hints [EB/OL]. (2023-02-14)[2023-03-10]. https://arxiv.org/abs/2302.06871.
[5]"JI Z W, LEE N, FRIESKE R, et al. Survey of Hallucination in Natural Language Generation [J]. ACM Computing Surveys, 2023, 55(12): 1-38.
[6]"PARISI I G, KEMKER R, PART L J, et al. Continual Lifel
ong Learning with Neural Networks: A Review [J]. Neural Networks, 2019, 113: 54-71.
[7]"LIU H K, TAM D, MUQEETH M, et al. Few-Shot Parameter-Efficient Fine-Tuning
Is Better and Cheaper than In-Context Learning [J]. Advances in Neural Information Processing Systems, 2022, 35: 1950-1965.
[8]"EMILY D, STEPHEN R, KURT S, et al. Wizard of Wikipedia: Knowledge-Powered Con
versational Agents [C]//Proceedings of the International Conference on Learning Representations. Piscataway, NJ: IEEE, 2019: 1-18.
[9]"HE H F, ZHANG H M, ROTH D. Rethinking with Retrieval: Faithful Large Language Model Inference [EB/OL]. (2022-12-31)[2023-02-01]. https://arxiv.org/abs/2301.00303.
[10]"PENG B L, GALLEY M, HE P C, et al. Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [EB/OL]. (2023-02-24)[2023-03-10]. https://arxiv.org/abs/2302.12813.
[11]"NAKANO R, HILTON J, BALAJI S, et al. Webgpt: Browser-Assisted Question-Ans
wering with Human Feedback [EB/OL]. (2022-07-01)\12]"張鶴譯, 王鑫, 韓立帆, 等. 大語言模型融合知識圖譜的問答系統(tǒng)研究 [J]. 計算機科學(xué)與探索, 2023, 17(10): 2377-2388. (ZHANG H Y, WANG X, HAN L F, et al. Res
earch on Question Answering System on Joint of Knowledge Graph and Large Language Models [J]. Journal of Frontiers of Computer Science and Technology, 2023, 17(10): 2377-2388.)
[13]"MITCHELL E, LIN C, BOSSELUT A, et al. Fast Model Editing at Scale [EB/OL]. (2022-07-13)[2023-03-15]. https://arxiv.org/abs/2110.11309.
[14]"DE CAO N, AZIZ W, TITOV I. Editing Factual Knowledge in Language Models [C]
//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. [S.l.]: ACL, 2021: 6491-6506.
[15]"HASE P, DIAB M, CELIKYILMAZ A, et al. Do Language Models Have Beliefs? Metho
ds for Detecting, Updating, and Visualizing Model Beliefs [EB/OL]. (2021-11-26)[2023-02-15]. https://arxiv.org/abs/2111.13654.
[16]"KASSNER N, TAFJORD O, SCHTZE H, et al. BeliefBank: Adding Memory to a Pre-
trained Language Model for a Systematic Notion of Belief [C]//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. [S.l.]: ACL, 2021: 8849-8861.
[17]"TANDON N, MADAAN A, CLARK P, et al. Learning to Repair: Repairing Model Outp
ut Errors after Deployment Using a Dynamic Memory of Feedback [C]//Findings of the Association for Computational Linguistics: NAACL 2022. [S.l.]: ACL, 2022: 339-352.
[18]"DALVI B, TAFJORD O, CLARK P. Towards Teachable Reasoning Systems: Using a Dyn
amic Memory of User Feedback for Continual System Improvement [C]//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. [S.l.]: ACL, 2022: 9465-9480.
[19]"YANG A Y, XIAO B, WANG B N, et al. Baichuan 2: Open Large-Sscale Language Models [EB/OL]. (2023-09-13)[2023-10-01]. https://arxiv.org/abs/2309.10305.
[20]"FLAGOPEN. FlagEmbedding: Open-Source Embeddings [EB/OL]. (2023-08-02)[2023-09-03]. https://github.com/FlagOpen/FlagEmbedding.
[21]"WEI J, WANG X Z, SCHUURMANS D, et al. Chain-of-Thought Prompting Elicits Reason
ing in Large Language Models [J]. Advances in Neural Information Processing Systems, 2022, 35: 24824-24837.
[22]"OPENAI. GPT-4 Technical Report [EB/OL]. (2023-03-15)[2023-05-10]. https://arxiv.org/abs/2303.08774.
(責(zé)任編輯: 韓"嘯)