楊 瑩,王慶文
(北京航空航天大學(xué),北京 100191)
面向制造領(lǐng)域文本的多標(biāo)簽分類方法
楊 瑩,王慶文
(北京航空航天大學(xué),北京 100191)
機(jī)械制造領(lǐng)域存在大量的領(lǐng)域知識,這些領(lǐng)域知識將特征項(xiàng)與文本類別關(guān)聯(lián)起來,有助于區(qū)分文本的類別?;诖?,本文提出一種融合領(lǐng)域知識的多標(biāo)簽分類方法旨在提高機(jī)械制造領(lǐng)域文本的分類性能,該方法首先采用融合領(lǐng)域知識的x2統(tǒng)計(jì)特征選擇方法得到文本表示特征項(xiàng)集合和對應(yīng)的相關(guān)度矩陣R,R反映了各特征項(xiàng)與類別的相關(guān)度;然后將文本是否包含某類別標(biāo)簽這一事件和文本與該類別的相關(guān)度關(guān)聯(lián)起來,文本與該類別相關(guān)度視作特征項(xiàng)與該類別相關(guān)度的集聚,其相關(guān)度越大,文本包含該類別標(biāo)簽的概率也越大,統(tǒng)計(jì)文本各類別相關(guān)度的貢獻(xiàn)率,根據(jù)最大后驗(yàn)概率準(zhǔn)則推理文本類別標(biāo)簽集合。在3個(gè)多標(biāo)簽分類常用評測指標(biāo)下的實(shí)驗(yàn)結(jié)果表明:與MLKNN方法進(jìn)行對比,對于機(jī)械制造領(lǐng)域文本,融合領(lǐng)域知識的多標(biāo)簽分類方法具有更好的分類性能。
機(jī)械制造領(lǐng)域;領(lǐng)域知識;相關(guān)度;多標(biāo)簽;文本分類
隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)量劇增,有研究表明,文本信息這一類非結(jié)構(gòu)化數(shù)據(jù)占了互聯(lián)網(wǎng)數(shù)據(jù)的50%以上,因此,對文本信息的處理顯得尤為重要。文本分類是對文本進(jìn)行有效管理的一種方式,方便用戶進(jìn)行查詢、定位信息等,同時(shí)文本分類也是信息檢索,信息過濾,數(shù)據(jù)挖掘等相關(guān)領(lǐng)域的技術(shù)基礎(chǔ)[1]。機(jī)械制造領(lǐng)域研究的內(nèi)容非常廣泛,包括材料分析,制造加工,車間管理調(diào)度,機(jī)構(gòu)設(shè)計(jì)應(yīng)用,檢測監(jiān)控等,各研究內(nèi)容不完全獨(dú)立,存在著交叉研究,因此對機(jī)械制造領(lǐng)域的文本進(jìn)行分類時(shí),文本可能包含多個(gè)類別標(biāo)簽?;诖耍疚膶γ嫦驒C(jī)械制造領(lǐng)域文本的多標(biāo)簽分類問題展開研究。
目前多標(biāo)簽文本分類問題的解決方法主要有兩種:問題轉(zhuǎn)換法和算法適應(yīng)法[2]。問題轉(zhuǎn)化法的思想是首先根據(jù)一定的規(guī)則將多標(biāo)簽問題轉(zhuǎn)化為一個(gè)或多個(gè)單標(biāo)簽問題,然后利用單標(biāo)簽學(xué)習(xí)算法進(jìn)行處理。算法適應(yīng)法則是通過擴(kuò)展單標(biāo)簽學(xué)習(xí)算法來適用于多標(biāo)簽學(xué)習(xí)問題,無需將多標(biāo)簽文本轉(zhuǎn)化為單標(biāo)簽問題。張敏靈提出了一種基于K近鄰的多標(biāo)簽文本分類方法:MLKNN,該方法是一種典型的算法適應(yīng)法,使用K近鄰方法統(tǒng)計(jì)近鄰樣本的類別標(biāo)簽信息,通過最大化后驗(yàn)概率的方法推理待分類文本的標(biāo)簽集合[3]。與其他多標(biāo)簽分類方法相比,MLKNN方法具有無需學(xué)習(xí),實(shí)現(xiàn)簡單,分類性能好的特點(diǎn),為此,許多學(xué)者在其基礎(chǔ)上展開了進(jìn)一步研究。張敏靈后來針對MLKNN未考慮標(biāo)簽間的相關(guān)性的不足提出一種新型多標(biāo)記懶惰學(xué)習(xí)算法IMLLA,這種方法在對文本每個(gè)類別進(jìn)行預(yù)測時(shí)利用了蘊(yùn)含于其他類別中的信息,充分考察了多個(gè)標(biāo)簽的相關(guān)性[4]。Ruben Nicolas提出了一種基于案例推理學(xué)習(xí)的多標(biāo)簽分類方法MLCBR,MLCBR基于案例推理學(xué)習(xí)近鄰樣本標(biāo)簽重用概率的閾值,使用近鄰樣本標(biāo)簽的分布概率推理文本的類別標(biāo)簽集合,與MLKNN相比,其算法復(fù)雜度低且分類性能相當(dāng)[5]。Everton AlvaresCherman采用MLKNN方法進(jìn)行多標(biāo)簽分類時(shí),不僅考慮樣本的K近鄰標(biāo)簽集合還考慮近鄰樣本的K近鄰標(biāo)簽集合用于推理樣本的標(biāo)簽,與原始的MLKNN方法相比,其方法的準(zhǔn)確率有進(jìn)一步的提高[6]。
目前采用的多標(biāo)簽分類方法基本都是基于機(jī)器學(xué)習(xí)的思想。根據(jù)經(jīng)驗(yàn),有些專業(yè)詞匯具有明顯的類別傾向性,是判斷文本類別的重要依據(jù),如:當(dāng)文本中大量出現(xiàn)“云制造”、“制造服務(wù)”這些詞語時(shí),我們很容易將文本聯(lián)想到制造工程這一類別。我們稱“云制造”和“制造服務(wù)”包含的行業(yè)內(nèi)流通度高、眾所周知、與具體類別相關(guān)的語義知識為領(lǐng)域知識[7],顯然領(lǐng)域知識有助于文本分類。在實(shí)際應(yīng)用中,往往由于樣本集的有限性,機(jī)器學(xué)習(xí)不能將特征項(xiàng)的領(lǐng)域知識都學(xué)習(xí)出來用于分類,在機(jī)械制造領(lǐng)域,存在著大量的領(lǐng)域知識?;诖?,本文提出一種融合領(lǐng)域知識的多標(biāo)簽分類方法旨在進(jìn)一步提高機(jī)械制造領(lǐng)域文本的分類性能。
1.1特征選擇
特征選擇一般采用機(jī)器學(xué)習(xí)的方法,其步驟是構(gòu)造特征項(xiàng)的評估函數(shù),依據(jù)評估函數(shù)計(jì)算每個(gè)特征項(xiàng)的權(quán)重,權(quán)重越大表示特征項(xiàng)區(qū)分文本類別的能力越強(qiáng),特征項(xiàng)被選擇的可能性也越大,按照權(quán)重降序排列,確定閾值,選取排名滿足條件的特征項(xiàng)表示文本,常用的特征選擇方法有:文檔頻率,信息熵,互信息和X2統(tǒng)計(jì)等。本文采取的特征選擇方法將領(lǐng)域知識和機(jī)器學(xué)習(xí)結(jié)合起來。
有研究結(jié)果指出X2統(tǒng)計(jì)方法的降維效果比較好[8],本文首先選擇X2統(tǒng)計(jì)作為特征選擇的方法,其計(jì)算方法如下所示:
其中,N表示文本總數(shù),A表示包含類別標(biāo)簽ck和特征項(xiàng)wi的文本數(shù)量,B表示不包含類別標(biāo)簽ck但包含特征項(xiàng)wi的文本數(shù)量,C表示包含類別標(biāo)簽ck但不包含特征項(xiàng)wi的文本數(shù)量,D表示不包含類別標(biāo)簽ck和特征項(xiàng)wi的文本數(shù)量??紤]到B=C=0時(shí),式(1)取得最大值N,將式(1)進(jìn)行歸一化處理,χ2統(tǒng)計(jì)值的計(jì)算公式變換為如下所示:
特征項(xiàng)wi與類別ck的相關(guān)程度包含正相關(guān)和負(fù)相關(guān)兩種情況,由原始公式(1)的數(shù)學(xué)意義可知,當(dāng)ADBC>0時(shí),特征項(xiàng)wi與類別ck呈正相關(guān),此時(shí)wi的出現(xiàn)使得文本傾向于包含類別ck,x2(wi,ck)值越大,這種傾向性越明顯;當(dāng)時(shí)AD-BC≤0,特征項(xiàng)wi與類別ck呈負(fù)相關(guān),此時(shí)wi的出現(xiàn)使得文本傾向于包含類別ck以外的標(biāo)簽,包含類別ck的傾向性則為最小值0。因此,將特征項(xiàng)wi與類別ck的正負(fù)相關(guān)性考慮進(jìn)去,將式(2)變換為如下所示:
式(3)中,x2(wi,ck)取值范圍為[0,1],對于多類問題,通常首先計(jì)算特征項(xiàng)wi對于每個(gè)類別的x2統(tǒng)計(jì)值,將其表示為x2統(tǒng)計(jì)列向量x2(wi)=(x2(wi,c1),…,x2(wi,ck),…,x2(wi,cm)),m為數(shù)據(jù)集的類別標(biāo)簽總數(shù),然后取列向量x2(wi)中值最大的元素作為特征項(xiàng)wi的x2統(tǒng)計(jì)值x2(wi)value,即:
確定排名閾值α,將所有特征項(xiàng)的x2統(tǒng)計(jì)值x2(wi)value按降序排列,選擇排名為α和α之前的特征項(xiàng)用于表示文本,則文本表示特征項(xiàng)集合為W'=(w1',w2',…,wi',…,wα')。
對于機(jī)械制造領(lǐng)域文本,由于數(shù)據(jù)集樣本數(shù)量有限,有些詞匯只是集中出現(xiàn)在某一類別的少量文本中,根據(jù)式(3)可知,這些詞匯的x2統(tǒng)計(jì)值較小,與文本類別的相關(guān)度較小。然而根據(jù)經(jīng)驗(yàn),這類詞匯很可能包含領(lǐng)域知識,與某類別相關(guān)度較大,有助于文本分類。除此之外,還有一些專業(yè)詞匯未出現(xiàn)在數(shù)據(jù)集中,一般這些詞匯不會作為文本表示特征項(xiàng),然而當(dāng)待分類文本包含這些特征項(xiàng)并且這些特征項(xiàng)包含領(lǐng)域知識時(shí),這些詞匯能夠有效地的區(qū)分文本類別?;诖?,本文提出一種融合領(lǐng)域知識的特征選擇方法,在x2統(tǒng)計(jì)方法的基礎(chǔ)上融合領(lǐng)域知識選擇出有助于文本分類的特征項(xiàng),領(lǐng)域知識的融合主要體現(xiàn)在以下兩個(gè)方面:
1)修改出現(xiàn)在數(shù)據(jù)集中的特征項(xiàng)的x2統(tǒng)計(jì)值列向量x2(wi)。對于那些出現(xiàn)在數(shù)據(jù)集中,并且包含領(lǐng)域知識的特征項(xiàng),根據(jù)經(jīng)驗(yàn)修改該特征項(xiàng)的x2統(tǒng)計(jì)值列向量x2(wi),向量中每個(gè)元素的取值范圍為[0,1],值越大表示特征項(xiàng)與某類別的相關(guān)程度越大;
2)增加未出現(xiàn)在數(shù)據(jù)集中,但是包含領(lǐng)域知識的特征項(xiàng)。根據(jù)經(jīng)驗(yàn)構(gòu)造這些特征項(xiàng)的x2統(tǒng)計(jì)值列向量x2(wi),向量中每個(gè)元素的取值范圍為[0,1],值越大表示特征項(xiàng)與某類別的相關(guān)程度越大;
最后,根據(jù)閾值α得到表示文本的特征項(xiàng)集合W=(w1,w2,…,wi,…,wα),集合W中的每一個(gè)特征項(xiàng)對應(yīng)一個(gè)x2統(tǒng)計(jì)列向量x2(wi),這些列向量形成了一個(gè)相關(guān)度矩陣R=(x2(w1),x2(w2),…,x2(wi),…,x2(wα)),R反映了各特征項(xiàng)與類別的相關(guān)度。與x2統(tǒng)計(jì)方法相比,融合領(lǐng)域知識的特征選擇方法增加和修正了特征項(xiàng)的x2統(tǒng)計(jì)向量,從而更加準(zhǔn)確的反映了特征項(xiàng)與各類別的相關(guān)度,有助于區(qū)分文本的類別。
1.2多標(biāo)簽分類方法
領(lǐng)域知識一般將特征項(xiàng)與文本的類別關(guān)聯(lián)起來,因此本文提出融合領(lǐng)域知識的多標(biāo)簽分類方法基本思想是將文本是否包含類別標(biāo)簽ck這一事件和文本與類別ck的相關(guān)度關(guān)聯(lián)起來,根據(jù)最大化后驗(yàn)概率推理文本是否包含類別標(biāo)簽ck。
首先引入相關(guān)符號和定義:給定文本X及對應(yīng)的類別向量C(X)。文本X表示為向量X=(x1,x2,…,xi,…,xα),xi對應(yīng)特征項(xiàng)集合W中的一個(gè)特征項(xiàng)wi,表示wi在文本X中出現(xiàn)的頻率;C={c1,c2,…,ci,…,cm}表示數(shù)據(jù)集的類別標(biāo)簽集合;C(X)=(C(X,c1),C(X,c2),…,C(X,ci),…C(X,cm))表示文本X的類別向量,類別標(biāo)簽ci對應(yīng)C(X,ci),如果文本包含標(biāo)簽ci則C(X,ci)=1,否則C(X,ci)=0;ξ(X,ck)表示文本X與類別ck的相關(guān)度。
1.2.1相關(guān)度計(jì)算
本文將文本X與類別ck的相關(guān)度看作是各特征項(xiàng)與類別ck的相關(guān)度的集聚,那么ξ(X,ck)的計(jì)算方法可由式(5)表示:
其中xi表示特征項(xiàng)wi在文本X中出現(xiàn)的頻率,x2(wi,ck)表示特征項(xiàng)wi與類別ck的相關(guān)度。由上文可知,x2(wi,ck)是相關(guān)度矩陣R中的一個(gè)元素,根據(jù)式(3)計(jì)算或經(jīng)驗(yàn)知識確定。
對于不同的文本,由于其篇幅的不同,文本中各特征項(xiàng)的頻率具有較大的差異,由式(5)可知,包含類別標(biāo)簽ck的不同文本與類別ck的相關(guān)度差異較大。本文引入類別相關(guān)度貢獻(xiàn)率δ(X,ck)這一定義,將文本與類別ck的相關(guān)度歸一化處理,用來衡量不同的文本與各類別相關(guān)度的大小,其計(jì)算方法如下:
其中ξ(X,ck)表示文本X與類別ck的相關(guān)度,表示文本X與各類別標(biāo)簽的相關(guān)度之和。δ(X,ck)的取值范圍是[0,1],δ(X,ck)越大,文本包含類別標(biāo)簽ck的概率越大,否則文本包含類別標(biāo)簽ck的概率越小。
1.2.2多標(biāo)簽分類
根據(jù)貝葉斯法則可得:
其中N表示訓(xùn)練集文本數(shù)量總和,N(ck)表示包含標(biāo)簽ck的文本數(shù)量,N'(ck)表示不包含標(biāo)簽ck的文本數(shù)量,N(ck,s)表示包含類別標(biāo)簽ck且類別ck相關(guān)度貢獻(xiàn)率小于s的文本數(shù)量,N'(ck,s)表示不包含類別標(biāo)簽ck且與類別ck相關(guān)度貢獻(xiàn)率大于或等于s的文本數(shù)量。
根據(jù)上述分析,融合領(lǐng)域知識的多標(biāo)簽文本分類方法的具體實(shí)現(xiàn)步驟可由圖1表示。
為了驗(yàn)證分類方法的有效性,實(shí)驗(yàn)中建立制造領(lǐng)域數(shù)據(jù)集作為實(shí)驗(yàn)庫,該數(shù)據(jù)集包含六個(gè)類別:材料工程,動力學(xué),機(jī)構(gòu),機(jī)器人,儀器科學(xué)與技術(shù)和制造科學(xué)與技術(shù)。語料庫中總共有970個(gè)樣本,其中約10%的樣本包含多個(gè)類別標(biāo)簽。
本文將MLKNN作為對比算法,采用多標(biāo)簽文本分類中常用的3個(gè)評測指標(biāo)[9](漢明損失,準(zhǔn)確率,召回率)比較兩種分類方法在制造領(lǐng)域文本數(shù)據(jù)集上的性能。漢明損失考察的是文本預(yù)測分類結(jié)果與實(shí)際分類結(jié)果的差異,評估了預(yù)測標(biāo)簽錯誤的次數(shù);準(zhǔn)確率考察的是文本預(yù)測標(biāo)簽屬于文本實(shí)際標(biāo)簽的情況,評估了預(yù)測標(biāo)簽的平均準(zhǔn)確度;召回率考察的是文本預(yù)測分類結(jié)果與實(shí)際分類結(jié)果相符的情況,評估了預(yù)測標(biāo)簽的平均查全率。
圖1 融合領(lǐng)域知識的多標(biāo)簽文本分類算法
【】【】
表1 本文方法與MLKNN性能比較
由表1可以看出,對于評測指標(biāo)漢明損失、準(zhǔn)確率和召回率,與MLKNN相比,本文方法具有較明顯的優(yōu)勢。因此,本文提出的融合領(lǐng)域知識的多標(biāo)簽文本分類方法對于制造領(lǐng)域文本具有較好的分類性能。
機(jī)械制造領(lǐng)域存在大量的領(lǐng)域知識,這些領(lǐng)域知識將特征項(xiàng)與文本類別關(guān)聯(lián)起來,有助于區(qū)分文本的類別,基于此,本文提出了一種融合領(lǐng)域知識的多標(biāo)簽文本分類方法。該方法將文本是否包含某類別標(biāo)簽這一事件和文本與該類別的相關(guān)度關(guān)聯(lián)起來,在進(jìn)行特征選擇時(shí),充分利用已有的領(lǐng)域知識增加和修正衡量特征項(xiàng)與類別相關(guān)程度的x2統(tǒng)計(jì)向量,從而選擇出更為準(zhǔn)確,具有代表性的特征項(xiàng)表示文本。實(shí)驗(yàn)結(jié)果表明,與MLKNN多標(biāo)簽文本分類方法比較,對于機(jī)械制造領(lǐng)域文本,本文方法的總體分類性能更優(yōu)。
[1] 周浩.中文多標(biāo)簽文本分類算法研究[D].上海交通大學(xué),2014.
[2] Tsoumakas G,Katakis I,VlahavasI.Mining Multi-label Data. Data Mining and Knowledge Discovery Handbook[M]. Maimon O, RokachL.2nd ed.Springer,2010:667-685.
[3] Zhang Minling, Zhou Zhihua. ML-kNN:A lazy learning approach to multi-label learning[J].Pattern Recognition,2007(7):2038-2048.
[4] 張敏靈.一種新型多標(biāo)記懶惰學(xué)習(xí)算法[J].計(jì)算機(jī)研究與發(fā)展,2012,11:2271-2282.
[5] Ruben Nicolas,Andreu Sancho-Asensio, ElisabetGolobardes, Albert Fornells, Albert Orriols-Puig, Multi-label classification based on analog reasoning[J].Expert Systems with Applications, 2013(40):5924-5931.
[6] Everton AlvaresCherman.Lazy Multi-label Learning Algorithms Based on Mutuality Strategies[J].Intell Robot Syst,2014(10):1007-1022.
[7] 朱靖波,陳文亮.基于領(lǐng)域知識的文本分類[J].東北大學(xué)學(xué)報(bào),2005,08:733-735.
[8] 龐觀松,蔣盛益.文本自動分類技術(shù)研究綜述[J].情報(bào)理論與實(shí)踐,2012,02:123-128.
[9] Tsoumakas G.Multi-label classification[J].International Journal of Data Warehousing&Mining ,2007(3):1-13.
A multi-label classification method for manufacturing-text
YANG Ying, WANG Qing-wen
TP391.1
A
1009-0134(2016)02-0010-05
2015-10-14
國家科技重大專項(xiàng):漢川機(jī)床采用國產(chǎn)數(shù)控系統(tǒng)加工大型機(jī)床零件應(yīng)用示范工程(2012ZX04011-011)
楊瑩(1992 -),女,江西樟樹人,碩士研究生,研究方向?yàn)槠髽I(yè)信息化。