孫 萍
(平頂山學院 圖書館,河南 平頂山 467000)
OPAC檢索和FAQ在線服務(wù)是幫助讀者了解圖書館、利用圖書館資源的關(guān)鍵服務(wù),長期以來這兩項服務(wù)相互獨立,尤其是FAQ服務(wù),只能提供最簡單的目錄檢索功能。隨著NLP(Natural Language Processing)技術(shù)的發(fā)展,人們研究出了基于詞向量近似度計算的算法模型,F(xiàn)AQ開始向具有人機交互對話功能的智能客服演變,并在極少數(shù)圖書館得到了應(yīng)用。
如何將OPAC和智能客服結(jié)合在一起,使之能準確識別讀者的意圖并執(zhí)行相應(yīng)的操作,比如讀者提問:“圖書館幾點開門”,或者“圖書館有沒有深度學習的書”。系統(tǒng)能準確識別前者為FAQ咨詢,返回相應(yīng)的幫助信息,而后者為資料檢索需求,返回OPAC檢索結(jié)果。解決這個問題將有助于為讀者提供更加友好智能的服務(wù),并有助于整合圖書館數(shù)據(jù),提供簡潔單一的服務(wù)入口。
意圖識別的研究起源于搜索引擎,搜索引擎必須能夠準確地理解用戶的搜索意圖。隨著蘋果公司人機對話系統(tǒng)Siri的推出,為人們指明了人機對話的應(yīng)用前景。如今,各種人機交互系統(tǒng)如雨后春筍一樣,Google Now、微軟小娜、小米小愛等等,已經(jīng)深入人們的生活。而所有這些系統(tǒng)的核心技術(shù)之一,就是意圖識別,其準確性決定著人機交互的質(zhì)量和用戶體驗。
雖然以深度學習和自然語言處理為代表的人工智能研究近幾年得到了較大的進展,人工智能技術(shù)在很多行業(yè)得到了廣泛的應(yīng)用,出現(xiàn)了以自動駕駛、智能助理為代表的典型技術(shù)應(yīng)用,但是在目前的圖書館界,人工智能的應(yīng)用幾乎還是空白,圖書館的辦公系統(tǒng)經(jīng)過這么多年的迭代,本質(zhì)上還是針對傳統(tǒng)業(yè)務(wù)模式、基于關(guān)系數(shù)據(jù)庫開發(fā)的MIS應(yīng)用,針對AI在圖書館應(yīng)用的研究,也少之又少。筆者以CNKI數(shù)據(jù)庫為對象,以“圖書館”“人工智能”“意圖識別”作為主題詞,統(tǒng)計了近十年圖書館AI研究論文和其他研究論文之間的數(shù)據(jù)分布。
從表1可以看出,2011年—2020年,以圖書館專業(yè)人工智能技術(shù)為研究對象的論文數(shù)量在整體論文中占比很少,在2019年之前,論文數(shù)不足百篇,占比不到0.5%,從2019年開始迎來爆發(fā)性增長,達到533篇,占比1.6%。2020年雖然數(shù)量略有下降,為513篇,但是總體占比達到2%。
表1 圖書館研究論文和圖書館人工智能研究論文數(shù)量統(tǒng)計
在這1 500多篇關(guān)于圖書館人工智能研究的論文當中,涉及意圖識別地到目前為止只有3篇[1-3],表明這項極有應(yīng)用價值的研究目前還處于萌芽階段。
1.3.1 自然語言的靈活性和模糊
自然語言的靈活性和模糊性一直是阻礙意圖識別的一大障礙,有的語言具有明確的意圖,比如“我明天早上8點從平頂山開車去北京”,這句話里面的行為主體、時間、出發(fā)地、目的地和出行方式都很明確,這句話如果變成“明天早上8點開車去北京”,雖然省略了行為主體和出發(fā)地,但是人們也可以理解,計算機通過語義槽填充算法,可以還原這個句子默認的行為主體是“我”,出發(fā)地是“我”當前所在的“平頂山”。但是并不是所有的自然語言都可以通過語義槽填充方式來獲取其意圖,很多句子的意圖不明顯甚至是指向其他互不相干的意圖。再比如圖書館的讀者在人機交互界面的提問是“我的書丟了”。其真實語義是尋求幫助,計算機從單純的字面分析很難得出這樣的結(jié)論。再比如“圖書館有沒有計算機類的書”和“圖書館有沒有老人與海這本書”,這是兩個極為相似的語句,即便是人工識別其意圖,也可能將其意圖識別為尋求FAQ幫助,但是實際上,前者包含的信息過于寬泛,可以認為其意圖是尋求幫助,而后者信息則較為具體,可以認為其意圖是OPAC數(shù)據(jù)檢索。
1.3.2 評價標準主觀
很多時候,同一句話,不同的人會有不同的理解,就像我們經(jīng)常所說的,一千個人眼中有一千個哈姆雷特,不同的算法、甚至是不同的數(shù)據(jù)標記方法都會產(chǎn)生不同的識別結(jié)果,所謂“言者無心,聽者有意”其實也反映了這個問題。因此,評價的主觀性決定了意圖識別的準確率不可能達到100%的準確性。
1.3.3 樣本數(shù)據(jù)量不足
對于大部分部門來說,其業(yè)務(wù)較為簡單,因此可用于研究的業(yè)務(wù)數(shù)據(jù)也很少。比如對于高校圖書館來說,其涉及的業(yè)務(wù)范圍基本上和“借書證”“書籍借還”“規(guī)章制度”“資源使用”等內(nèi)容相關(guān),即便是研究人員窮舉讀者所有可能遇到的問題,所生成的FAQ數(shù)據(jù)量還是不足以作為研究對象,這也是限制意圖識別研究的一個原因。
研究和實踐表明,經(jīng)驗知識有助于我們對未知情況的判定,比如下棋,每一步對弈就是建立在已有經(jīng)驗知識基礎(chǔ)上做出的新的判斷。又比如一個非圖書館專業(yè)的研究者,對于諸如“圖書館幾點開門”這樣的問題,仍然可以準確判斷出其意圖是一個服務(wù)咨詢性質(zhì)的問題,而非一個圖書檢索需求。
而有監(jiān)督計算機深度學習正是基于這個原理:機器通過監(jiān)督性學習,從而在大量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上,具備一定的分類(判斷)能力,比如基于神經(jīng)網(wǎng)絡(luò)的情感分析系統(tǒng)[4-6],經(jīng)過學習后可以準確預(yù)測文章的情感。
通過分析,發(fā)現(xiàn)基于神經(jīng)網(wǎng)絡(luò)深度學習的意圖識別和情感分析都是在已有知識(語料)的基礎(chǔ)上,判斷出有限結(jié)果:即分類的過程,二者具有一定的相似性。因此利用深度學習進行意圖識別是可行的。
2.1.1 模型的影響
不同結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)有其不同的特征和擅長處理的數(shù)據(jù)對象,比如卷積神經(jīng)網(wǎng)絡(luò)更適合處理數(shù)據(jù)量較大的圖像數(shù)據(jù),常用于圖像數(shù)據(jù)的識別和分類;循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理有序數(shù)據(jù),比如一段文字、一段音樂,用于學習序列模型,并預(yù)測輸出的序列。
神經(jīng)網(wǎng)絡(luò)的深度對識別模型的結(jié)果也有一定的影響,一般來說較深的模型能夠更好地擬合訓(xùn)練數(shù)據(jù)并得到較高的測試結(jié)果,但是也會顯著增加系統(tǒng)的時間復(fù)雜度和空間復(fù)雜度,另外,誤差在反向傳遞的過程中,超過三層后的節(jié)點,誤差對其權(quán)重的影響就變得很小。
2.1.2 樣本數(shù)據(jù)的影響
分類樣本數(shù)據(jù)量對比懸殊是影響識別的主要因素,對于本研究來說,用于訓(xùn)練的書目數(shù)據(jù)有35萬多條,而問答類型的數(shù)據(jù),能搜集到的僅有3萬多條,數(shù)據(jù)數(shù)量對比懸殊,采用通常的數(shù)據(jù)混合、打亂再訓(xùn)練的方法,雖然仍然可以得到穩(wěn)定的誤差下降:基于樣本數(shù)據(jù)的訓(xùn)練準確率可以達到90以上,但是測試數(shù)據(jù)的準確率卻在30%以下,顯然,這樣的模型不具備任何應(yīng)用價值。
2.1.3 分詞粒度的影響
分詞粒度的大小通過以下幾個方面影響意圖的理解:①首先影響語義的識別,比如“蘇東坡”,如果分詞為“蘇”“東”“坡”,顯然破壞了原有的語義,因此,過小的粒度不僅無助于理解語義,在實際搜索應(yīng)用中,也會影響搜索結(jié)果,增加無關(guān)噪音結(jié)果。②影響詞向量的近似度,詞向量的粒度也影響隱藏馬爾可夫模型的統(tǒng)計計算結(jié)果。進而影響詞向量的近似度。因此,分詞時候的詞向量粒度應(yīng)合理、科學,尤其是應(yīng)當加強命名實體數(shù)據(jù)詞袋的建設(shè)。
2.2.1 采用BP網(wǎng)絡(luò)模型
本研究的述模型框架,如圖1所示。
圖1 意圖識別系統(tǒng)結(jié)構(gòu)框架
從圖1可知,本研究采用BP神經(jīng)網(wǎng)絡(luò),之所以選用BP神經(jīng)網(wǎng)絡(luò):①因為BP神經(jīng)網(wǎng)絡(luò)具有任意復(fù)雜的模式分類能力和優(yōu)良的多維函數(shù)映射能力,具有廣泛的適用性。②同CNN相比,BP神經(jīng)網(wǎng)絡(luò)沒有卷積和池化層,因此也不會降低本來就稀疏的文檔向量的維度,不會引起數(shù)據(jù)特征的丟失。③BP網(wǎng)絡(luò)更具有彈性,層數(shù)以及中間的節(jié)點數(shù)可以根據(jù)問題的規(guī)模設(shè)定。
2.2.2 小批數(shù)據(jù)量對等的方法
針對圖書數(shù)據(jù)和問答數(shù)據(jù)數(shù)量對比懸殊的情況,筆者采用小批量數(shù)據(jù)對等的方法來解決這個問題,總體思路為:根據(jù)小批量問答數(shù)據(jù)的條數(shù),將大批量的書目數(shù)據(jù)分割為數(shù)目大致相等的若干組,分別與小批量問答數(shù)據(jù)亂序混合訓(xùn)練,經(jīng)過驗證,該方法優(yōu)于通常的不分批亂序訓(xùn)練方法。基于測試數(shù)據(jù)的識別的準確率達到98.6%,而基于平頂山學院圖書館有限FAQ數(shù)據(jù)的實測準確率為100%。
2.2.3 分詞、詞向量和文檔向量維度的規(guī)范方法
2.2.3.1 中文分詞的實現(xiàn)。本模型采用Jieba分詞,最新的Jieba分詞不僅支持利用PaddlePaddle深度學習框架分詞,同時支持傳統(tǒng)的詞袋分詞,利用這個特征,我們可以在數(shù)據(jù)處理階段提取責任者、出版社、出版地等數(shù)據(jù),并以此構(gòu)造命名實體數(shù)據(jù)詞袋,提高分詞的準確性,控制分詞的粒度。
2.2.3.2 詞向量。 神經(jīng)網(wǎng)絡(luò)利用文檔向量作為訓(xùn)練數(shù)據(jù),從而在不斷的學習過程中、獲取一組能夠較為完美擬合所有數(shù)據(jù)的參數(shù),實現(xiàn)識別或判斷的功能。而文檔向量的質(zhì)量與構(gòu)成文檔的詞向量有關(guān),因此,系統(tǒng)實現(xiàn)的重點在于詞向量的生成以及文檔向量的構(gòu)造。
雖然神經(jīng)網(wǎng)絡(luò)通常采用浮點張量作為訓(xùn)練數(shù)據(jù),理論上低緯數(shù)張量也可以表示大量的樣本數(shù)據(jù),但是實踐經(jīng)驗表明,維數(shù)的高低對于神經(jīng)網(wǎng)絡(luò)的準確率有較大的影響,究其原因,筆者認為,維數(shù)過低的張量在表示大量樣本數(shù)據(jù)的時候,會降低樣本數(shù)據(jù)之間的離散度,弱化樣本數(shù)據(jù)數(shù)字特征之間的區(qū)別。而過高維數(shù)的數(shù)據(jù)則又會增加運算量,必須采用適當?shù)奶卣魈崛》椒ń档途S度,比如卷積神經(jīng)網(wǎng)絡(luò)。因此采用合理的維數(shù)表示詞向量十分重要,本系統(tǒng)采用Word2Vect計算詞向量,維數(shù)設(shè)置為200,具有較好的識別效果和較低的計算量。
2.2.3.3 文檔向量的合成。 咨詢問題和書目數(shù)據(jù)具有不同數(shù)量的詞向量,顯然,這樣的數(shù)據(jù)必須統(tǒng)一到相同維度和維數(shù)才可以被神經(jīng)網(wǎng)絡(luò)處理,本系統(tǒng)采用簡單平均算法計算文檔向量。
深度神經(jīng)網(wǎng)絡(luò)的智能化基于大數(shù)據(jù)的學習,而再多的有限數(shù)據(jù)也不可能涵蓋所有的問題,比如筆者在最初設(shè)計系統(tǒng)的時候,考慮采用騰訊AILAB開源的詞向量工具,限于開發(fā)平臺硬件配置,采用其100萬詞向量精簡版本,理論上可以覆蓋90%以上的常用分詞,對于業(yè)務(wù)簡單的圖書館來說足夠用,但是實際使用中發(fā)現(xiàn)很多分詞匹配不到對應(yīng)的詞向量。
同樣道理,Wrod2Vect基于有限的書目數(shù)據(jù)和百度知道數(shù)據(jù)生成的詞向量也不可能在實際應(yīng)用中適用于新詞匯,因此,系統(tǒng)必須具備學習演化的能力。
系統(tǒng)的學習演化還體現(xiàn)在對新問題的學習方面:對于讀者的問題,如果系統(tǒng)沒有遇到并收錄,則將之作為訓(xùn)練數(shù)據(jù)保存,并在適當?shù)臅r候重新學習。
根據(jù)訓(xùn)練樣本數(shù)據(jù)在系統(tǒng)中50次迭代訓(xùn)練過程中損失的表現(xiàn),實驗針對測試數(shù)據(jù)的識別準確度達到98.6%。表明本系統(tǒng)模型對于意圖識別具有良好的適用性,可用于圖書館智能客服系統(tǒng),準確判斷讀者的意圖。
新技術(shù)從產(chǎn)生到應(yīng)用從來不是一帆風順的事情,涉及技術(shù)成熟度、業(yè)務(wù)需求等,甚至需要我們大膽思維、敢于想象、勇于實踐。
本文闡述的“利用神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)讀者意圖識別”的方法,首次提出并探討了整合圖書館OPAC業(yè)務(wù)和智能客服業(yè)務(wù)的觀點,并驗證了利用人工神經(jīng)網(wǎng)絡(luò)準確分析讀者意圖的可行性,并在模型構(gòu)建、數(shù)據(jù)處理、數(shù)據(jù)向量化等方面做了較為細致的研究,對有興趣整合圖書館業(yè)務(wù),或者挖掘圖書館智能化服務(wù)的業(yè)界同人具有一定的借鑒意義。