摘要:傳統(tǒng)圖書館的咨詢服務(wù)中,圖書館員及讀者都浪費大量的時間和精力在溝通問答上,業(yè)務(wù)量大及問題重復等原因使得這種服務(wù)模式無法為讀者提供有效的問答服務(wù),為此需要有一種智能問答服務(wù)來減輕圖書館員的工作負擔。圖書館中應(yīng)用智能問答能夠解決海量信息與用戶特定需求之間的矛盾,在快速獲取目標內(nèi)容、節(jié)省時間的同時滿足用戶對高質(zhì)量信息的需要。
關(guān)鍵詞:智慧圖書館智能問答知識庫閱讀體驗
中圖分類號:G250.7
ResearchontheApplicationofIntelligentQuestionsandAnswersinSmartLibraries
WUChengying
(SanmingLibrary,Sanming,F(xiàn)ujianProvince,353000China)
Abstract:Inthetraditionalconsultingservicesoflibraries,bothlibrariansandreaderswastealotoftimeandenergyoncommunicatingquestionsandanswers,andthisservicemodelcannotprovideeffectivequestionandanswerservicesforreadersduetothelargevolumeofbusinessandrepetitivequestions,soanintelligentquestionandanswerserviceisneededtoreducetheworkloadoflibrarians.Theapplicationofintelligentquestionsandanswersinlibrariescansolvethecontradictionbetweenmassiveinformationandspecificuserneeds,whichmeetstheneedsofusersforhigh-qualityinformationwhilequicklyobtainingtargetcontentandsavingtime.
KeyWords:Smartlibrary;Intelligentquestionsandanswers;Knowledgebase;Readingexperience
隨著人工智能、聊天生成式預訓練模型(ChatGenerativePre-trainedTransformer,ChatGPT)等技術(shù)的發(fā)展,圖書館服務(wù)的智慧化是其發(fā)展的必然結(jié)果。學校與公共圖書館要實現(xiàn)智能化發(fā)展首先需要改變傳統(tǒng)的人工服務(wù)臺咨詢模式,從人工問答轉(zhuǎn)變到智能問答甚至是個性化咨詢。智能問答模擬一個能夠與讀者進行對話的人機交互界面,有針對性地回答讀者提出的問題,在了解用戶咨詢內(nèi)容的前提下滿足讀者隨時隨地的咨詢需求,能夠有效提升讀者滿意度。要在智慧圖書館中應(yīng)用智能問答,需要從不同的數(shù)據(jù)源構(gòu)建知識庫[1],并構(gòu)建一個面向知識庫的智能問答。
1知識庫構(gòu)建
作為圖書館問答服務(wù)的基礎(chǔ),讀者咨詢的對象主要是紙質(zhì)圖書、文獻及索引等圖書館館藏,而且很多咨詢的問題都符合固定的模式,如某某書的存放位置等。圖書館累積了大量諸如此類規(guī)律性、高重復性并且有價值的咨詢記錄,這些咨詢記錄的來源不僅僅限于現(xiàn)場咨詢記錄,也包括圖書館網(wǎng)頁的在線留言、電話訪問、郵件咨詢、微信公眾號等[2],可以將這些不同來源的咨詢記錄集中存儲,并經(jīng)過一定的加工處理后重組成知識單元,以此構(gòu)建一個核心問題庫。
在分析智能問答領(lǐng)域的知識庫后,本文匯總上述咨詢來源的數(shù)據(jù)并分析常見及重復率較高的讀者咨詢問題,將所有的問題庫劃分成不同類別,問題庫的設(shè)置是為了適應(yīng)多種數(shù)據(jù)源的語料,對于每個咨詢的問題及答案都支持多種提問方式。另外,問題庫中語料還具備不同的優(yōu)先級,如果讀者咨詢的問題是高頻常見問題則將其放入標準化問答列表[3];如果問題雖然已經(jīng)在標準列表中,但是讀者的提問方式不符合任何語料來源導致系統(tǒng)無法識別,則將這種提問方式增加到提問模式中;如果問題不在問答列表中而且提問方式也不常見,則由圖書館工作人員進行補充回答;通過上述方式即可利用知識庫實現(xiàn)智能問答。
領(lǐng)域知識庫的質(zhì)量對智慧圖書館的智能問答效果影響很大,由于不同知識領(lǐng)域有其專門的專有名詞、表達方式,因此構(gòu)建一個高質(zhì)量的領(lǐng)域知識庫不僅僅是基于常見問題解答(Frequently-AskedQuestions,F(xiàn)AQ)進行簡單的數(shù)據(jù)整合。整個構(gòu)建過程包括獲取大量咨詢問答記錄、數(shù)據(jù)預處理、識別并聚合關(guān)鍵詞、分詞標注并構(gòu)建領(lǐng)域字典等[4]。
2面向知識庫的智能問答
智慧圖書館智能問答系統(tǒng)的作用是在讀者輸入查詢詞句后,可以利用后臺的人工智能算法自動為讀者返回比較精確的咨詢結(jié)果。讀者的輸入可能是口語化的,而且讀者咨詢的目標信息可能保存在結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中,這樣一來智能問答的“智能”水平就取決于問答模型。
智能問答環(huán)節(jié)涉及知識庫、讀者輸入的問題、問題處理、答案抽取及輸出等部分,其核心是知識推理,也就是將問題和答案進行正確的匹配。問答模型主要包括用戶輸入模塊、問題處理模塊、答案抽取模塊以及輸出模塊[5]。其中用戶輸入模塊用于用戶輸入提問信息;問題處理模塊的作用是對用戶提問信息進行自然語言處理,并進行問題分類;答案抽取模塊主要作用是從領(lǐng)域知識庫中抽取對應(yīng)答案。面向知識庫的智能問答模型如圖1所示。
輸入問題經(jīng)過預處理后需要整合成規(guī)范格式的訓練數(shù)據(jù),也就是問題訓練庫。用戶輸入的問題語料一般具有不確定性,對其進行自然語言處理時需要先進行分詞,并借助自然語言規(guī)則完成詞性標記和識別。分詞后需要對單詞進行嵌入處理,在經(jīng)過單詞向量化后方便程序理解其意思。問題處理的過程就是對用戶語料進行自然語言處理的過程,智能問答基于自然語言處理技術(shù),將由單詞、短語甚至句子組成的特定問題計算機化,使程序深入理解用戶意圖,進而以接近于人的語言習慣回答用戶問題。問題處理的主要步驟包括如下。
(1)分詞。分詞是將用戶輸入的問題按照一定規(guī)則進行拆分,拆分后的每一部分都可以單獨處理。由于人的自然語言存在一詞多義、一義多詞以及派生詞等現(xiàn)象,因此需要借助分詞這一手段進行合理劃分才可以為后續(xù)索引建立良好的基礎(chǔ)。(2)標注詞性。分詞完畢的每一部分都需要指定詞性,以便區(qū)分名詞、動詞、形容詞以及副詞等;詞性標注有助于理解同一詞匯在上下文的不同意思。(3)停用詞刪除。一句話中可能會有一些常見的無意義的詞,比如語氣助詞、連接詞等,這些詞匯沒有實際意義,對于理解用戶的實際語義并無幫助,需要將這些詞匯刪除。(4)問題分類。根據(jù)用戶問題的特征可以將其分配到一組預定義的類別,這種以問題為中心的信息檢索方式將問題的焦點放到其搜索屬性或?qū)嶓w上。
問題處理完畢后就進入答案抽取環(huán)節(jié),也就是將提取出的信息檢索結(jié)果呈現(xiàn)為答案。問題答案并不是簡單的內(nèi)容匹配,而是根據(jù)問題類型以及問題的語義信息從相關(guān)知識庫中檢索得到的,在用戶問題和知識庫中的預定義之間進行推斷,縮小答案范圍后得到相似答案集合。對所有答案進行排序后將最佳答案反饋給用戶。
3智能問答系統(tǒng)的實現(xiàn)
智能問答系統(tǒng)的功能是幫助圖書館工作人員回答讀者的問題,而問答庫的建立需要先對所有問題進行預處理,主要的處理步驟是去噪、分詞、停用詞過濾以及關(guān)鍵詞提取。接下來主要介紹智能問答系統(tǒng)的預處理模塊、關(guān)鍵詞擴展模塊、答案抽取模塊等模塊的實現(xiàn)。
3.1預處理
預處理的主要流程包括:文本去噪—語句分詞(自定義詞典)—停用詞過濾(停用詞表)—關(guān)鍵詞提取。
用戶提出的問題中可能會包含一些無意義或非文本信息,這些噪聲信息對于智能問答沒有作用甚至會有副作用,因此問題處理的第一步就是去除問題中的噪聲信息。本文采用Python語言自帶的re正則匹配模塊提取問題字符串中需要的內(nèi)容。漢語的詞匯之間并不像英文那樣有空格作為分隔符,這就需要在對漢字序列組成的問題處理前將其分成一個個的詞匯,這一操作就是分詞。目前成熟的分詞算法主要是基于字符串匹配的分詞方法、基于理解的分詞方法以及基于統(tǒng)計的分詞方法。本文在對不同分詞工具進行比較分析后選擇使用jieba分詞工具,此工具能夠較好地滿足智能問答系統(tǒng)的需求。分詞過后的停用詞過濾方面,本文參考了自然語言處理中使用廣泛的“百度停用詞表”以及“哈工大停用詞表”,并在此基礎(chǔ)上根據(jù)智能問答系統(tǒng)以及圖書館領(lǐng)域的實際需要添加和刪除了部分詞匯,并在停用詞過濾后使用樸素貝葉斯算法進行拼寫檢查。
本文采用TF-IDF算法提取用戶問題中的關(guān)鍵詞。TF(TermFrequency)即為某詞匯在用戶問題中出現(xiàn)的頻率,稱為詞頻;IDF(InverseDocumentFrequency)表示某詞匯在問答庫中出現(xiàn)的頻率,稱為逆文檔頻率。用戶問題中所有詞匯的TF-IDF值計算完畢后對其進行排序,值最大的被認為是用戶問題的關(guān)鍵詞。
3.2 關(guān)鍵詞擴展
問答庫中的問題預處理完畢后,由于用戶問題中的關(guān)鍵詞不一定與問題庫中問題的關(guān)鍵詞完全一致,因此在使用這些預處理數(shù)據(jù)前還需要進行關(guān)鍵詞的擴展。例如,用戶提出的問題“有沒有適合小孩看的圖書?”,在這個問題中“小孩”和詞匯“兒童”“幼兒”有近似含義,如果不進行關(guān)鍵詞的擴展則問題庫中的問題及答案就不能很好地匹配到用戶問題。常見的關(guān)鍵詞擴展方法有基于同義詞詞典的擴展方法以及基于詞向量的擴展方法,由于基于同義詞詞典的關(guān)鍵詞擴展方法需要預先創(chuàng)建同義詞詞典,而幾乎難以覆蓋所有的同義詞,因此本文使用word2vec工具進行關(guān)鍵詞擴展。
3.3答案抽取
問答庫中問答對的內(nèi)容及個數(shù)不是一成不變的,因此在保存問答對時并不是存儲為文本文件的形式,而是將數(shù)據(jù)按照一定格式存放在數(shù)據(jù)庫中,這樣就可以方便地對問答對數(shù)據(jù)進行增、刪、改、查操作。在讀者提出咨詢問題后,將用戶問題和數(shù)據(jù)庫中的問答對進行相似度計算,并進行最終的答案抽取。
計算相似度時需要先對用戶問題進行向量化表示,然后對用戶問題進行關(guān)鍵詞擴展,找到問題關(guān)鍵詞的同義詞,然后選擇余弦相似度來計算用戶問題和問答庫中問題句子間的相似度;相似度計算完畢后將滿足閾值的問題及其答案返回給用戶即可。
4結(jié)語
本文對智慧圖書館中的智能問答應(yīng)用進行研究。首先,分析了智慧圖書館中應(yīng)用智能問答的基礎(chǔ)——領(lǐng)域知識庫的構(gòu)建,并闡述了面向知識庫構(gòu)建智能問答模型,最后說明了智能問答系統(tǒng)實現(xiàn)過程中的一些細節(jié),包括問題預處理、關(guān)鍵詞擴展以及答案抽取等。智能圖書館中的智能問答應(yīng)用能夠自動回答讀者的咨詢問題,減輕圖書館工作人員的負擔,提高讀者的閱讀體驗。
參考文獻
[1]錢彥,梅影.從理念到實踐:生成式人工智能在智慧圖書館中的應(yīng)用探索[J].圖書館研究與工作,2023(12):27-34.
[2]堯遲月.人工智能時代圖書館智慧閱讀推廣服務(wù)實踐分析和啟示[J].圖書館研究,2023(11):11-18.
[3] 樓紀洋.“第二個結(jié)合”視域下的中華優(yōu)秀傳統(tǒng)文化“兩創(chuàng)”路徑研究[D].長春:吉林大學,2023.
[4]林麗.公共服務(wù)屬性與供給機制選擇[D].長春:吉林大學,2023.
[5]王翼虎,白海燕,孟旭陽.大語言模型在圖書館參考咨詢服務(wù)中的智能化實踐探索[J].情報理論與實踐,2023(6):96-103.