李海闊 白強(qiáng) 康蕓瑋
摘要:隨著電子書閱讀的增加,人們往往需要從大量文本中抽取部分有用信息?;谖谋拘畔z索問題,首先對文本進(jìn)行預(yù)處理,通過連續(xù)空間詞向量模型生成了文本詞向量,并利用剪支卷積神經(jīng)網(wǎng)絡(luò)建立了問句向量的生成模型,之后通過長短期記憶卷積神經(jīng)網(wǎng)絡(luò)對問題完成分類,再利用文檔列表法讓計算機(jī)通過排序?qū)W習(xí)對剩下的數(shù)據(jù)進(jìn)行訓(xùn)練打分。最后通過不斷訓(xùn)練調(diào)整得到訓(xùn)練結(jié)果最好的參數(shù),將該參數(shù)下的打分函數(shù)投入到測試數(shù)據(jù)計算結(jié)果,并通過閾值計算和歸一化處理最終得到所有測試數(shù)據(jù)的標(biāo)簽輸出,最終答案檢索的排名第一的準(zhǔn)確率為65%以上,排名第二的答案準(zhǔn)確率達(dá)到80%以上,一定程度上能夠達(dá)到輔助閱讀的作用。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);排序?qū)W習(xí);文本檢索;閾值
引言
日常生活中人們要閱讀大量的txt文本,其內(nèi)容可能是小說、教程、文集、詞典等。很多情況下我們只是需要從文本中查找某一些片段來解決我們的問題。比如,通過查找法律文獻(xiàn)中的一些段落來解決我們的法律疑惑,這時并不需要精讀整個法律文獻(xiàn)。因此我們希望智能閱讀技術(shù)能夠在這方面提供一些幫助。為此需將自然語言類的文本材料和相關(guān)問題轉(zhuǎn)化成計算機(jī)可識別語言,再通過對問題的分類和分析,實現(xiàn)計算機(jī)對自然語言問題[1-2]的讀取和理解,然后建立可靠模型對相關(guān)文本材料進(jìn)行智能檢索[3-4],最終穩(wěn)定地實現(xiàn)計算機(jī)對正確答案的準(zhǔn)確定位,以滿足用戶的實際需求。
1 詞向量與問句向量
在進(jìn)行所有操作前,首先對所有文本內(nèi)容尤其是問題進(jìn)行分詞、去停頓詞處理以及詞性標(biāo)注等預(yù)處理工作。
由于計算機(jī)不能直接識別自然語言,因此將文本內(nèi)容轉(zhuǎn)化成計算機(jī)可識別語言是必要的也是關(guān)鍵的一步。詞向量技術(shù)就是一種將單詞表征成為多維空間向量的方法,本文所采用的詞向量生成方法主要是由Mikolov等人提出的連續(xù)空間詞向量技術(shù)[5],該模型有效的避免了向量稀疏性和高維性等問題,具體方法是,首先隨機(jī)初始化訓(xùn)練樣本中出現(xiàn)過單詞的向量,其次從訓(xùn)練樣本中的第一個單詞開始,用訓(xùn)練單詞的上下文單詞的向量更新訓(xùn)練單詞的向量。
由于需要對文本進(jìn)行檢索,因而對于問句也需要生成對應(yīng)的向量。相比于圖像和語音識別領(lǐng)域,在自然語言處理中卷積神經(jīng)網(wǎng)絡(luò)不需要表征那么復(fù)雜的信息,語句用淺層網(wǎng)絡(luò)表示即可。采用的問句向量生成模型對傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了剪支處理,只保留了輸入層、卷積層、采樣層和輸出層四層卷積神經(jīng)網(wǎng)絡(luò)[6]。問句向量生成模型的訓(xùn)練目標(biāo)下所示:
式中:為由卷積神經(jīng)網(wǎng)絡(luò)生成的問句向量;為與向量屬于同一類的抽樣向量; 為不屬于向量所屬類的抽樣向量。
問句向量由采樣層經(jīng)過全連接神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換得到,采樣層變換到傳輸層的函數(shù)[]。
式中:表示輸出向量;表示采樣層向量;表示加權(quán)變換時的權(quán)值信息。
2 答案檢索
2.1 排序?qū)W習(xí)
進(jìn)行答案檢索前,采用的是一種基于長短期記憶卷積神經(jīng)網(wǎng)絡(luò)(LSTM-MFCNN)的方法[7]對問題進(jìn)行聚類,以減少候選答案的選擇空間。排序?qū)W習(xí)[8]是指在排序生成和排序整合中用于構(gòu)建排序模型的機(jī)器學(xué)習(xí)方法,旨在使用機(jī)器學(xué)習(xí)的方法,根據(jù)有標(biāo)簽的數(shù)據(jù)解決排序問題。
對此針對性地采用了文檔列表方法進(jìn)行排序。將每個查詢對應(yīng)的搜索結(jié)果列表作為一個訓(xùn)練樣例,通過優(yōu)化最優(yōu)評分函數(shù)F,對應(yīng)新的查詢,評分F對每個文檔打分,然后根據(jù)得分由高到低排序,產(chǎn)生最終的結(jié)果,對于訓(xùn)練集中的數(shù)據(jù),通過排序?qū)W習(xí)對每個問題所對應(yīng)的不同文檔中的各個段落不斷進(jìn)行打分,通過不斷調(diào)整參數(shù)最終得到各段落的打分結(jié)果與段落0、1標(biāo)簽匹配程度最高的評分函數(shù)F,用于測試階段對測試數(shù)據(jù)的打分排序操作。
2.2 參數(shù)訓(xùn)練
通過排序?qū)W習(xí)對文檔進(jìn)行評分之后,需要評定問題的答案是否位于該行,因而需要確定評分的閾值以完成對文檔行的標(biāo)記,即評分大于等于閾值,標(biāo)記為1;評分小于閾值,標(biāo)記為0。閾值的計算公式如下:
式中:為i個問題對應(yīng)的評分閾值,為第i個問題最高分,為i個問題最低分,為權(quán)重且。
顯然對于不同的問題,閾值選取并不相同,但要求使得整體的準(zhǔn)確率較高,即:
因而需要對進(jìn)行確定。評估指標(biāo)F1為:
式中:為預(yù)測標(biāo)簽為的材料數(shù),為真實標(biāo)簽為1的材料數(shù)。
3 結(jié)果展示
本文數(shù)據(jù)源于2018年第六屆泰迪杯數(shù)據(jù)挖掘競賽官網(wǎng)。
3.1 參數(shù)訓(xùn)練結(jié)果
對文本進(jìn)行處理后,通過排序?qū)W習(xí)對問題進(jìn)行檢索,進(jìn)而可對應(yīng)生成各個passage的評分,同時還必須對對應(yīng)passage進(jìn)行標(biāo)記,對于上優(yōu)化模型,通過訓(xùn)練集中的3萬條問題,通過排序?qū)W習(xí)生成評分,進(jìn)而導(dǎo)入到優(yōu)化模型,訓(xùn)練得到L值與F1的關(guān)系如下圖。
顯然根據(jù)圖像,當(dāng)L位于0.5-0.6之間時評價指標(biāo)F1能夠達(dá)到最大,具體計算求得L=0.55,F(xiàn)1max=0.54。
3.2 結(jié)果分析
針對問題的文檔進(jìn)行評分,顯然按照評分進(jìn)行排序,評分越高,則其為正確答案概率就越高,則理應(yīng)作為最佳推薦結(jié)果,但實際上在排序中發(fā)現(xiàn),當(dāng)某些文檔評分最高時,其卻往往不對應(yīng)為正確答案,進(jìn)而討論排名處于前三的為正確答案的比率,如下圖所示。
排名前三的累積答案準(zhǔn)確率如下圖。
顯然,由圖可知排名為第一的對應(yīng)答案準(zhǔn)確率為65%以上,在排名前二答案中答案準(zhǔn)確率超過80%,對于問題基本能夠滿足要求。
4 結(jié)語
結(jié)合數(shù)據(jù),確定得分結(jié)果與標(biāo)簽最佳匹配狀態(tài)下的最優(yōu)參數(shù),從而得到所有測試數(shù)據(jù)的標(biāo)簽輸出。結(jié)果表明:得分最高的答案是正確解的比例達(dá)到 56.3%;得分前三包含正確解的概率達(dá)到83.8%,得分前五包含正確解的概率達(dá)到 92.9%。最終得到訓(xùn)練集的F1值為 0.54。對于文本存在多選答案的情況,能夠起到較好的閱讀輔助作用。
參考文獻(xiàn):
[1] 高明霞,劉椿年. 基于約束的自然語言問題到OWL的語義映射方法研究[J]. 電子學(xué)報,2007,35(8):1598-1602.
[2] 張琪玉. 關(guān)于自然語言檢索問題[J]. 圖書館論壇,2004,24(6):211-213.
[3] 郭慶琳,樊孝忠. 自然語言理解與智能檢索[J]. 信息與控制,2004,33(1):120-123.
[4] 晏創(chuàng)業(yè),張玉峰. 智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索[J]. 中國圖書館學(xué)報,2002,28(3):49-51.
[5] 胡學(xué)鋼,董學(xué)春,謝飛. 基于詞向量空間模型的中文文本分類方法[J]. 合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2007,30(10):1261-1264.
[6] 邢超. 智能問答系統(tǒng)的設(shè)計與實現(xiàn)[D]. 北京交通大學(xué),2015:6-28.
[7] 謝逸,饒文碧,段鵬飛,等. 基于CNN和LSTM混合模型的中文詞性標(biāo)注[J].武漢大學(xué)學(xué)報(理學(xué)版),2017,63(3):246-250.
[8] 李超,柴玉梅,南曉斐,等. 基于深度學(xué)習(xí)的問題分類方法研究[J]. 計算機(jī)科 ,2016,43(12):115-119.
作者簡介:
李海闊,男,1997,四川南充人,主要從事應(yīng)用數(shù)學(xué)研究,15328079311,LHKfromswpu@163.com