周黎源
(上海城建職業(yè)學(xué)院 圖文信息中心,上海 201999)
數(shù)字化圖書館是存儲結(jié)構(gòu)化信息的數(shù)字化資源庫,傳統(tǒng)圖書館、博物館、檔案館、大學(xué)、政府部門、專業(yè)機構(gòu)或個人都可以獲得這些數(shù)字資源[1-2]。數(shù)字化圖書館的最終目標(biāo)是使人們可以在任何時間和任何地點使用任何與因特網(wǎng)相連的數(shù)字設(shè)備,從而獲得人類所需的知識[3-4]。數(shù)字化圖書館需要進(jìn)行文本特征提取,作為一種有效的降維技術(shù),特征提取在多標(biāo)簽文本分類中有著廣泛的應(yīng)用[5]。
趙勤魯?shù)热颂岢龌贚STM-Attention 神經(jīng)網(wǎng)絡(luò)的文本特征抽取方法,首先分別使用LSTM網(wǎng)絡(luò)對文本的詞語與詞語和句子與句子的特征信息進(jìn)行抽取,其次使用分層的注意力機制網(wǎng)絡(luò)層分別對文本中重要的詞語和句子進(jìn)行選擇,最后將網(wǎng)絡(luò)逐層抽取到的文本特征向量使用softmax 分類器進(jìn)行文本分類[6]。但是該方法在抽取文本特征時,文本特征不完整。李杰等人提出了基于深度學(xué)習(xí)的產(chǎn)品特征抽取方法,采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行短文本評論情感分類,以情感分類標(biāo)簽標(biāo)注相應(yīng)評論中提抽取的產(chǎn)品特征詞,并利用詞向量對產(chǎn)品特征詞聚類,通過爬取的筆記本電腦和手機評論對方法進(jìn)行訓(xùn)練和測試[7]。但是該方法的文本特征抽取準(zhǔn)確率較低。
針對上述方法存在的問題,本文提出基于多標(biāo)簽分類的數(shù)字圖書館文本特征抽取方法。
在多標(biāo)簽分類的基礎(chǔ)上,對文本特征進(jìn)行研究,以適應(yīng)分類樣本中存在多標(biāo)簽的情況,它在基因功能識別,音樂情感分類,圖像語義標(biāo)注等方面有著廣泛的應(yīng)用[8]。多個識別的具體步驟:
(1) 從引文功能標(biāo)簽集合L 中隨機選取m 個k 子集,組成集合Lm。
(2) 對集合Lm中的任意元素Lk,將其所有集合都標(biāo)記為L'k。結(jié)合單標(biāo)簽分類算法作為訓(xùn)練分類器hk;輸入引文功能標(biāo)簽集合樣本,輸出集合標(biāo)簽的任意元素。
(3) 對集合中的任意元素按照步驟(2)訓(xùn)練,得到m 個分類器。
(4) 針對新的引文全局功能分類設(shè)計,應(yīng)遵循步驟(3),從中可得到m個分類結(jié)果,由此組成集合Qm。
對每個L中的標(biāo)簽li進(jìn)行如下操作:設(shè)定=0。將集合Qm中l(wèi)i的個數(shù)記為Sli。設(shè)定一個閾值t。標(biāo)簽集合L 中ti>t的標(biāo)簽組成的集合即為該樣本的引文全局功能集合[9]。
圖1是一個引文句功能合并示例。
圖1 引文句功能合并示例
(1) 詞匯特征
詞匯學(xué)特征一直是數(shù)字圖書館文本的核心特征,詞匯表中的詞語是否包含在引文中作為詞匯的特點。另外,為了彌補有限的詞匯覆蓋范圍,還選取了1-Gram作為詞匯特征[10]。
(2) 句法特征
在被引的語境中,除了詞匯本身能夠反映被引功能外,某些特定的句型和語法結(jié)構(gòu)也能反映被引功能。
(3) 物理特征
引文的物理性質(zhì)決定了引文的分布和頻率特點,不同地點的引文在功能上也可能有差異。所用分布特征包括:引文所在的章節(jié)、引文標(biāo)記在引用句中的位置,以及能很好地識別“背景”功能性標(biāo)記頻譜特征。
(4) 整體特征
除引文主體的特點外,引文主體還具有某些特點,這些特點決定了引文的整體功能。
選定的參考級別特征包括:是否為自引,以及該參考在被引文獻(xiàn)中被多次引用。
通過對基于多標(biāo)簽分類的文本特征的研究發(fā)現(xiàn),文本分類的首要任務(wù)是在不影響分類效果的前提下,尋找降低矢量空間維數(shù)的方法。特征向量空間中剔除信息較少的詞,使得向量空間的維數(shù)減少,即在文本分類中特征提取。圖2顯示了基于多標(biāo)簽分類的數(shù)字圖書館文本特征提取模型。
圖2 基于多標(biāo)簽分類特征抽取模型
交互信息是用于測量兩個隨機變量之間的統(tǒng)計關(guān)系的信息論中的一個基本概念,基于互信息MI的特征選擇,應(yīng)從文本分類中隨機選取一個常用的特征提取方式。結(jié)合最小二乘法,表示特征tk類Ci的相關(guān)性:
在上面公式中,P(tk,Ci)為類別Ci、特征tk同時出現(xiàn)的概率,P(tk)為特征tk出現(xiàn)的概率,P(Ci)為類別Ci出現(xiàn)的概率,P(tk|Ci)為特征tk在類別Ci中出現(xiàn)概率。
從上述公式中可看出,MI 算法是已給詞和類別之間的獨立關(guān)系,對每一個獨立的詞,將其在每一類中的出現(xiàn)概率與整個文本集合概率作對比,得到一類貢獻(xiàn)量。根據(jù)公式(1)可知,如果計算出來的P(tk|Ci)的絕對值較大,那么可按照互信息算法排列順序,此時可將P(tk|Ci)作為大負(fù)值的特征,并剔除tk,但是實際上,由此計算出來的結(jié)果只能說明具有tk特征。
如果tk特征不出現(xiàn)在類別Ci中,那么無法排除tk在其它類別中的重要性,結(jié)合MI算法計算方式,由此得到的特征tk容易被淘汰,因此,需要進(jìn)一步改進(jìn),保留MI值大而為負(fù)的特征項。
MI 算法存在的另一個問題是,雖然用公式(1)計算出的特征詞的概率不同,但其MI 值相同,該方法計算完畢后,在特征詞的選取上容易出現(xiàn)問題。根據(jù)存在的問題,逐步對MI算法進(jìn)行改進(jìn)。以下是具體步驟:
(1) 在MI值為負(fù)的情況下,即使它很大,特征詞也會被刪除。這個計算步驟是:
(2) 計算步驟如下,以防止不同概率的詞在特定文檔中使用相同的MI值:
由此得到的新特征tk類別Ci的相關(guān)性為:
通過對上述內(nèi)容的分析,提出了采用絕對值法和增加概率系數(shù)法的改進(jìn)措施,避免了特征詞的缺失,使特征在文檔中的分類更加清晰。
針對基于多標(biāo)簽分類的數(shù)字圖書館文本特征抽取方法研究進(jìn)行實驗驗證分析。
實驗平臺如軟硬件環(huán)境如表1所示。
表1 實驗平臺如軟硬件環(huán)境
首先選取了3190 篇與芒果遺傳育種相關(guān)的論文,其中1190篇論文涉及芒果的遺傳育種,其余4類主題文獻(xiàn)為2000篇。將番茄遺傳育種主題分為二級目標(biāo)分類,其余4類為干擾分類。在課文集合中,每個選擇1000 篇目標(biāo)分類和干擾分類的文章作為訓(xùn)練集,剩下的1190 篇論文作為測試集,5個題目的比例為1:1,每題平均測試集文獻(xiàn)近390篇。圖3顯示了特征提取和文本分類的實驗過程。
圖3 特征抽取及文本分類實驗流程
分別使用深度學(xué)習(xí)抽取方法、LSTM-Attention神經(jīng)網(wǎng)絡(luò)抽取方法、基于多標(biāo)簽分類抽取方法對抽取文本特征完整度、準(zhǔn)確率展開分析,結(jié)果如下所示。
4.3.1 抽取文本特征完整度
針對抽取文本特征完整度研究,使用三種方法進(jìn)行對比分析,結(jié)果如圖4所示。
圖4 三種方法抽取文本特征完整度對比分析
由圖4 可知:使用深度學(xué)習(xí)抽取方法在特征詞數(shù)量為500個時,特征完整度較低,為30%。當(dāng)特征詞數(shù)量為200個時,特征完整度較高,為52%;使用LSTM-Attention神經(jīng)網(wǎng)絡(luò)抽取方法在特征詞數(shù)量為500 個時,特征完整度較低,為70%。當(dāng)特征詞數(shù)量為200 個時,特征完整度較高,為80%;使用基于多標(biāo)簽分類抽取方法在特征詞數(shù)量為100個時,特征完整度較低,為90%。當(dāng)特征詞數(shù)量為200個時,特征完整度較高,為95%。因此,使用基于多標(biāo)簽分類抽取方法特征完整度較高。
4.3.2 抽取文本特征準(zhǔn)確率
針對抽取文本特征準(zhǔn)確率研究,使用三種方法進(jìn)行對比分析,結(jié)果如圖5所示。
圖5 三種方法抽取文本特征準(zhǔn)確率對比分析
由圖5 可知:使用深度學(xué)習(xí)抽取方法受到技術(shù)影響,導(dǎo)致部分特征不能完全抽取,準(zhǔn)確率也降低,當(dāng)特征詞為300個時,準(zhǔn)確率基本穩(wěn)定在55%左右;使用LSTM-Attention神經(jīng)網(wǎng)絡(luò)抽取方法,在特征訓(xùn)練過程中易產(chǎn)生單一特征缺陷,導(dǎo)致部分特征不能完全抽取,準(zhǔn)確率也降低,當(dāng)特征詞為400個時,準(zhǔn)確率基本穩(wěn)定在75%左右;使用基于多標(biāo)簽分類抽取方法最高抽取準(zhǔn)確率可達(dá)到96%,因此,使用基于多標(biāo)簽分類抽取方法特征準(zhǔn)確率較高。
利用多標(biāo)簽分類原理由主題模型得到文本的局部特征和整體特征;可在不同層次上提取文本特征,對文本功能的更全面探索。實驗表明,與傳統(tǒng)特征提取方法相比,在多標(biāo)簽特征提取模型中,基于不同數(shù)據(jù)集的分類性能有明顯改善,其次,將所提出的多標(biāo)簽分類特征提取模型應(yīng)用于序列模型,得到類別標(biāo)簽間的相關(guān)關(guān)系。
數(shù)字化圖書館是多學(xué)科融合的沃土,要想取得較好的效果,必須把各種信息處理和理解方法有機地結(jié)合起來。下一步工作方向是:
(1)日志挖掘技術(shù)在數(shù)字圖書館中的應(yīng)用,通過對用戶日志的分析,發(fā)現(xiàn)其規(guī)律與模式,完善信息組織結(jié)構(gòu),提高信息查詢效率。
(2) 數(shù)字化圖書館的信息和過濾技術(shù),通過信息結(jié)構(gòu)化處理和用戶建模,實現(xiàn)數(shù)字化圖書館個性化信息服務(wù)。