中圖分類號:G252.61;TP18 文獻標識碼:A
Abstract As large language model technology continues to mature,generative AI is reshaping various industries.This studyevaluatestheefectivenessofgenerativeAI inrespondingtofact-basedreferencequestions withinreal-worldlibrary service scenarios.Teselectedquestions,characterizedbystrongobjectivitycover fourcategories:statisticalinformation, noun definitions,origins of allusions,and historicalresearch.Four generative AI models werechosen to generate answers based onthe original queries,and their responses were compared with standard replies providedby librarians to assess performance.The analysis reveals that while generative AI demonstrates strong capabilities in informationretrieval and generation,its performanceinprovidingauthoritative sources remains inconsistent.Moreover,itlackstheability to deeplyunderstand and integrate information to answer more specialized inquiries.The future of reference services necesitates that libraryprofessionals leverage theirinnovativecapacities tocontinuously explore and refine strateges for AI integration.
KeyWordsartificialintellgence;referencesvices;largelanguagemodel;smartlibrary;artificialintelligencegeated content
1引言
2022年11月,OpenAI的生成式人工智能(ArtificialIntelligence,AI)應(yīng)用ChatGPT上線,其智能化解析自然語言輸入并生成連貫文本的能力為問答系統(tǒng)以及人工智能生成內(nèi)容帶來了顛覆性變革。2023年3月,
GPT-4大語言模型的橫空出世更是開啟了人工智能的研發(fā)熱潮。全球各大科技企業(yè)相繼推出自研的生成式AI,如谷歌的BARD、百度的文心一言和阿里的通義千問等[]。
從技術(shù)適用性而言,生成式AI與圖書館行業(yè)近年來的智慧化轉(zhuǎn)型不謀而合,其強大的文字交互和大數(shù)據(jù)整合處理等優(yōu)勢技術(shù)對相關(guān)業(yè)務(wù)的重塑產(chǎn)生了深刻的影響,其中包括參考咨詢服務(wù)。許多從業(yè)者已經(jīng)開始探索生成式AI在參考咨詢中的實際應(yīng)用:盧森堡國家圖書館與OpenAI公司簽署合作協(xié)議,共同開發(fā)基于ChatGPT技術(shù)的機器人,用以檢索已數(shù)字化的館藏報紙上的800萬篇文章2;12所美國高校在圖書館主頁上開辟專欄,為師生提供針對具體學(xué)科和各類應(yīng)用場景下的ChatGPT服務(wù)3;瑞典國家圖書館的數(shù)據(jù)實驗室著手將類型豐富的館藏資料整理成數(shù)據(jù)集,用于訓(xùn)練高性能的瑞典語文本大語言模型4。可以發(fā)現(xiàn),目前的研究方向側(cè)重于圖書館業(yè)務(wù)咨詢和館藏揭示,而生成式AI回答通識性參考咨詢問題的潛力尚未得到充分挖掘?;诖?,本文選取不同類型的事實型參考咨詢問題,通過與多個生成式AI交互獲取答案,并與館員的標準回復(fù)進行對比以檢驗其效果,探討AI技術(shù)深度參與智慧圖書館參考咨詢服務(wù)的可能性。
2 研究設(shè)計
2.1 任務(wù)設(shè)計
為了驗證生成式AI回答較有知識深度的通識性參考咨詢問題的能力,本文以上海圖書館實際業(yè)務(wù)中遇到的咨詢問題(來源為上海圖書館讀者服務(wù)中心編纂出版的《你問我答,知識導(dǎo)航:上海圖書館參考咨詢案例集錦》以及目前上海圖書館對外提供參考咨詢服務(wù)的“網(wǎng)上聯(lián)合知識導(dǎo)航站”微信小程序中知識庫收錄的問答案例)為主,根據(jù)《你問我答,知識導(dǎo)航:上海圖書館參考咨詢案例集錦》一書中對參考咨詢案例的劃分[5]6-19,選取答案客觀性較強的事實型問題作為主要研究對象,提問內(nèi)容包括統(tǒng)計信息、名詞解釋、典故出處、歷史考據(jù)。圍繞以上分類,選取了4類共8道事實型參考咨詢例題,具體如表1所示。
參考新華社研究院中國企業(yè)發(fā)展研究中心2023年發(fā)布的3份《人工智能大模型體驗報告》以及近期行業(yè)熱門應(yīng)用,選取以下4個中文大語言模型生成式AI作為測試對象:訊飛星火、商量、智譜清言Kimi[9] 。為了公平統(tǒng)一地進行比較,測試選取2024年7月同一天進行,模擬實際的參考咨詢線上服務(wù)場景,將8道涉及不同知識領(lǐng)域的例題原始提問直接作為輸人,在不加人任何提示詞指令的情況下,與受測
AI逐一進行問答交互,以考察生成式AI在多樣化實際需求下的跨學(xué)科知識檢索能力。
2.2效果評估方法
本文選取的例題均包含由上海圖書館參考咨詢館員提供的答案,且答案普遍具有客觀唯一性,可作為評估受測AI回答效果的主要依據(jù)。具體評估標準如下:一方面,在保證準確性的前提下,關(guān)注答案的權(quán)威性和時效性[518;另一方面,根據(jù)參考咨詢服務(wù)的相關(guān)要求,應(yīng)盡可能提供信息來源或解答思路,介紹檢索途徑、檢索用詞,幫助讀者提高利用信息資源的技能和意識[0]
3 結(jié)果與討論
3.1統(tǒng)計信息類問題
例題一是對于特定統(tǒng)計信息獲取渠道的咨詢。如表2所示,所有受測AI均能給出指導(dǎo)性的檢索建議,但就回答準確性而言稍顯不足,僅有智譜清言和Kimi在回答或資料來源中提及了具體的目標文獻。從兩款應(yīng)用的交互頁面可以推測,它們在回答過程中均采用了通過互聯(lián)網(wǎng)檢索識別主題相關(guān)網(wǎng)頁并抓取內(nèi)容進行文本理解的檢索增強生成(retrieval-augmentedgeneration,RAG)技術(shù)。
例題二是對于客觀水文數(shù)據(jù)的咨詢。由于題目中“可使用”概念未給出明確定義,導(dǎo)致受測AI的回答不盡相同,但根據(jù)其各自給出的參考資料可以核實數(shù)據(jù)基本準確。且除了商量外,其他均提供了權(quán)威可靠的信息來源(見表3)。以智譜清言的回答為例,其資料來源分別為世界經(jīng)濟論壇、全球水伙伴組織和聯(lián)合國官網(wǎng)的相關(guān)信息
由以上兩例可知,對于統(tǒng)計信息類問題,生成式AI的回答效果較好。即使是面對學(xué)科專業(yè)性較強的咨詢問題,生成式AI在無法直接檢索到具體答案的情況下,也能提供檢索思路上的幫助。不難看出,生成式AI對此類問題的回答準確程度與目標信息的公開獲取難度負相關(guān),即目標信息的相關(guān)權(quán)威資料越多、獲取難度越低,AI越容易抓取信息并整理成準確的回答。
3.2 名詞解釋類問題
例題三和例題四均為專有名詞的釋義咨詢。受測AI對此類問題的回答普遍較為準確,但除Kimi以外,其他受測AI均未給出可靠的資料來源或參考文獻(見表4、表5)。根據(jù)生成式AI的技術(shù)原理推測,這一現(xiàn)象可能與專有名詞作為固定搭配在日常生活中的頻繁使用有關(guān),它們很可能被包含在大語言模型的訓(xùn)練數(shù)據(jù)中。因此,AI在回答問題時可以直接引用這些釋義,無需額外查找資料。但從參考咨詢服務(wù)規(guī)范角度出發(fā),名詞解釋類問題的答案需要權(quán)威性,尤其是在當前虛假信息泛濫的環(huán)境中,即使無法提供經(jīng)過專家編審的權(quán)威參考文獻,也應(yīng)引用可信度較高的互聯(lián)網(wǎng)信息來源。目前,大部分受測AI對名詞解釋類問題的回答不符合參考咨詢服務(wù)的標準。
3.3 典故出處類問題
例題五為典型的包含錯誤信息的咨詢提問,此類情況在實際服務(wù)中時有發(fā)生。根據(jù)館員回答,該定理首次提出是在1958年,而非問題中所指的1961年。結(jié)果顯示,商量受錯誤信息影響,將兩位作者后續(xù)所寫的另一篇相關(guān)論文誤認為原始出處,導(dǎo)致回答錯誤,而其他受測AI均能給予糾正并給出正確答案(見表6)。
例題六是難度較高的名人名言出處咨詢。經(jīng)人工檢索可知,這句名言在中文互聯(lián)網(wǎng)環(huán)境中多寫作“我死后哪管他洪水滔天”,且關(guān)于其出處的信息中存在大量無來源的捏造內(nèi)容。比較受測AI的回答,可以發(fā)現(xiàn)商量的答案最為準確、全面,智譜清言和Kimi的答案提及了出處的主要爭議,而訊飛星火的答案錯誤(見表7)。
由以上兩例可知,對于典故出處類問題,生成式AI即使面對提問中的少量錯誤、模糊信息,也能予以糾正并提供有效回答,然而僅依賴單一AI的回答,無法完全規(guī)避AI幻覺現(xiàn)象等風險。人工對比多個生成式AI對于同一問題的回答,可以有效提升答案的準確性。而對于具備信息素養(yǎng)和檢索能力的圖書館員來說,利用數(shù)據(jù)庫、工具書等權(quán)威信息源對AI生成內(nèi)容進行二次驗證也是可行的方法。
3.4 歷史考據(jù)類問題
例題七為中國古代度量衡制度的考據(jù)。受測AI在回答此類復(fù)雜咨詢問題時的表現(xiàn)大相徑庭。訊飛星火的答案部分錯誤;智譜清言無法完成回答;商量和Kimi提供了正確的答案,但只有Kimi給出了相關(guān)的考證依據(jù)(見表8)。
例題八為地名歷史考據(jù)。訊飛星火回答錯誤;商量無法完成回答;智譜清言和Kimi提供了正確答案,但均未包含資料來源(見表9)。
由例七和例八可以看出,面對“難、偏、?!钡臍v史考據(jù)類問題,受測AI的表現(xiàn)顯著下滑。這與相關(guān)學(xué)科參考文獻專業(yè)性高、可公開獲取的權(quán)威信息稀缺有關(guān)。此外,回答此類問題需要將檢索得到的資料根據(jù)一定的論證邏輯進行整合歸納才能得出結(jié)論,這也會導(dǎo)致AI回答的準確性下降。目前,生成式AI在回答歷史考據(jù)類問題時提供的幫助相對有限。
4結(jié)論與建議
4.1 研究結(jié)論
通過對生成式AI回答事實型參考咨詢問題的效果進行分析,得出以下結(jié)論:
(1)面對以自然語言提出的事實型問題,即使不添加任何提示詞,生成式AI依然能在大多數(shù)情況下提供答案或檢索思路。主要的不足是無法確保回答中包含可靠的參考資料,目前只有采用檢索增強生成技術(shù)的AI在這方面的表現(xiàn)較為出色。
(2)在回答歷史考據(jù)等專業(yè)咨詢問題時,生成式AI無法取代圖書館員的作用。其尚不具備必要的學(xué)科知識和邏輯推理能力,無法在參考資料稀缺的條件下滿足專業(yè)知識的復(fù)雜整合需求。
(3)AI回答的準確度與大語言模型語料庫及互聯(lián)網(wǎng)中相關(guān)信息的獲取難度并非簡單的負相關(guān)關(guān)系。對于學(xué)科專業(yè)問題,AI可能因資料不足而無法回答;對于大眾知識類問題,大量非權(quán)威信息的干擾又使得AIGC(Artificial Intelligence Generated Content,人工智能生成內(nèi)容)虛假信息成為無法忽視的現(xiàn)象[]。
(4)盡管當前應(yīng)用尚不成熟,生成式AI的潛力及發(fā)展速度不容忽視,其極低的使用門檻和強大的信息獲取能力不可避免地將對圖書館參考咨詢業(yè)務(wù)帶來沖擊和變革。
4.2 建議
(1)圖書館作為公共信息服務(wù)機構(gòu),擁有大量的圖書情報類業(yè)務(wù)數(shù)據(jù),積累了豐富的參考咨詢案例數(shù)據(jù),且從事編目、元數(shù)據(jù)制作等信息處理工作的專業(yè)人才儲備也較為充足。圖書館應(yīng)利用以上優(yōu)勢,將傳統(tǒng)信息服務(wù)的經(jīng)驗運用到生成式AI訓(xùn)練數(shù)據(jù)處理中,整理匯編適用于圖情業(yè)務(wù)的專業(yè)語料庫。這有助于AI深入學(xué)習參考咨詢的回答方法與規(guī)范,擴展服務(wù)能力范圍,提高生成內(nèi)容的準確性。
(2)館員需要適應(yīng)參考咨詢服務(wù)的智慧化轉(zhuǎn)型,學(xué)會使用AI獲取檢索幫助以解答讀者的復(fù)雜提問,包括:掌握各類生成式AI的使用方法,通過添加提示詞等手段調(diào)整提問指令,更高效準確地通過AI獲取信息;了解AI檢索的局限性,對AI幻覺以及AI生成的虛假內(nèi)容具備一定的辨識能力;發(fā)揮自身信息檢索特長,結(jié)合圖書館館藏與數(shù)據(jù)庫資源等權(quán)威資料核實AI生成內(nèi)容的準確性,對AI暫時無法準確提供的內(nèi)容加以補充,以滿足讀者需求和服務(wù)規(guī)范。
(3)圖書館業(yè)界需要加強對新技術(shù)的了解與應(yīng)用,探索參考咨詢服務(wù)與AI深度融合的可能性??梢园凑崭采w領(lǐng)域從單一到通用、咨詢深度由基礎(chǔ)到專業(yè)的步驟,以館藏揭示類參考咨詢?yōu)槠瘘c,設(shè)計規(guī)劃不同階段AI融合咨詢的業(yè)務(wù)場景和實現(xiàn)路徑,并在具體實踐中根據(jù)現(xiàn)有的技術(shù)水平和實際需求加以調(diào)整。同時,制定相關(guān)業(yè)務(wù)規(guī)范以避免運用AI生成內(nèi)容時遭遇版權(quán)糾紛、數(shù)據(jù)泄露等問題。
5結(jié)語
直面生成式AI帶來的技術(shù)變革,提高參考咨詢服務(wù)效率,為讀者提供智慧化體驗,是圖書館的重要任務(wù)。雖然生成式AI在復(fù)雜邏輯推理、內(nèi)容可靠性等方面有待完善,但其在自然語言處理、人機交互等方面取得的跨越式進步不容忽視。圖書館正處于智慧化轉(zhuǎn)型的重要階段,如何與人工智能融合發(fā)展,借助這一新質(zhì)生產(chǎn)力重構(gòu)圖書館業(yè)務(wù),值得所有業(yè)內(nèi)人員的關(guān)注與思考。
參考文獻:
[1]王翼虎,白海燕,孟旭陽.大語言模型在圖書館參考咨詢服務(wù)中的智能化實踐探索[J].情報理論與實踐,2023,46(8):96-103.
[2]盧森堡:國家圖書館使用ChatGPT檢索館藏[J].陜西檔案,2024(1):61.
[3]于曦.美國高校圖書館ChatGPT服務(wù)實踐及啟示[J].山東圖書館學(xué)刊,2023(6):97-105.
[4]IshaSalian.Bookedforbriliance:Sweden’sNationalLibraryturnspagetoAItoparsecenturiesofdataEB/OL](01-23)[2024-O8-15].https://blogs.nvidia.com/blog/sweden-library-ai-open-source/.
[5]馮潔音.你問我答 知識導(dǎo)航:上海圖書館參考咨詢案例集錦[M].上海:上??茖W(xué)技術(shù)文獻出版社,2011.
[6]科大訊飛.訊飛星火[EB/OL].[2024-06-15].https:/xinghuo.xfyun.cn/.
[7]商湯科技.商量[EB/OL].[2024-06-15].https://chat.sensetime.com/.
[8]智譜AI.智譜清言[EB/OL].[2024-06-15].https://chatglm.cn/.
[9]Moonshot AI.Kimi[EB/OL].[2024-06-15].https://kimi.moonshot.cn/.
[10]樊佳怡.圖書館虛擬參考咨詢與互動問答咨詢的比較與啟示[J].圖書館研究與工作,2007(4):37-40.[11]莫祖英,盤大清,劉歡,等.信息質(zhì)量視角下AIGC虛假信息問題及根源分析[J].圖書情報知識,2023,40(4):32-4C
作者簡介:湯浩家,上海圖書館(上??茖W(xué)技術(shù)情報研究所)助理館員,研究方向為參考咨詢、前沿科技主題服務(wù)。
收稿日期:2024-11-18編校:王曉琳鄭秀花