李 曉(北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京,100081)
一種具有主次標(biāo)簽的多標(biāo)簽文本分類方法
李 曉
(北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京,100081)
在自然語(yǔ)言文本分類處理領(lǐng)域中,各種主流的多標(biāo)簽分類方法都只能使文本具有多個(gè)標(biāo)簽類別,但并不能識(shí)別哪個(gè)標(biāo)簽對(duì)使用者來(lái)說(shuō)最重要,哪些標(biāo)簽次重要。本文以文本信息為研究對(duì)象,通過(guò)對(duì)幾種主流多標(biāo)簽分類算法原理的研究分析,提出了能識(shí)別主、次標(biāo)簽的多標(biāo)簽文本分類方法-具有主次標(biāo)簽的多標(biāo)簽分類方法(Multi-Labels Text Classifier with Primary and Secondary Labels:MLTCPSL)。
文本分類;主、次標(biāo)簽;MLTCPSL
多標(biāo)簽文本分類問(wèn)題的研究對(duì)海量文本信息迅速分流,協(xié)助信息用戶檢索并準(zhǔn)確定位所需信息,解決信息雜亂等問(wèn)題都有著十分重要的意義,但現(xiàn)有的多標(biāo)簽分類方法雖然把信息分到了多個(gè)類別中,卻無(wú)法識(shí)別那個(gè)標(biāo)簽對(duì)用戶來(lái)說(shuō)是最重要的,那些是次重要的。例如:一篇關(guān)于中國(guó)和美國(guó)籃球賽的文章,可以分到中國(guó)和美國(guó)兩個(gè)類別里,如果這篇文章重點(diǎn)談的是中國(guó)隊(duì)的訓(xùn)練和備戰(zhàn),那它的主類別就是中國(guó),次類別是美國(guó),如果用戶查詢中國(guó)這個(gè)關(guān)鍵詞就可以顯示這篇文章,如果用戶查詢美國(guó)這個(gè)關(guān)鍵詞就可以把這篇文章放到檢索結(jié)果靠后的位置,因?yàn)樗皇谴我劦搅嗣绹?guó)。所以,研究能識(shí)別主、次標(biāo)簽的多標(biāo)簽分類方法,對(duì)提高用戶使用效率有著十分重要的意義。
本文所研究的對(duì)文本按不同類別進(jìn)行分類,是根據(jù)文本內(nèi)容涉及的國(guó)家或地域名稱對(duì)文本添加地理標(biāo)簽的過(guò)程,之所以選擇地理標(biāo)簽是因?yàn)榈乩順?biāo)簽界限比較明確,數(shù)據(jù)收集和整理比較方便。當(dāng)然也可以選擇其它標(biāo)簽進(jìn)行分類,只要類別清楚,已知類別數(shù)據(jù)量充足即可。根據(jù)文本內(nèi)容添加地理標(biāo)簽這一步驟實(shí)際上是以既定的地理標(biāo)簽為類別判斷標(biāo)準(zhǔn),研究文本與已知類別標(biāo)簽之間的多重歸屬關(guān)系,也就是說(shuō),其實(shí)質(zhì)是一個(gè)多類多標(biāo)簽分類問(wèn)題。但是與常見(jiàn)的多類多標(biāo)簽分類問(wèn)題相比,它還具有以下特點(diǎn):
(1)每個(gè)文本添加的多個(gè)標(biāo)簽有主次之分,且數(shù)量有別。主標(biāo)簽有且只有一個(gè),次標(biāo)簽可有可無(wú)、數(shù)量不限。而在常規(guī)多類多標(biāo)簽分類問(wèn)題中,標(biāo)簽之間并無(wú)區(qū)別。
(2)添加主次標(biāo)簽時(shí)使用的評(píng)價(jià)標(biāo)準(zhǔn)不一致。為更好地對(duì)文本進(jìn)行處理,通常必須選定一個(gè)文本主類別,也就是說(shuō),添加主標(biāo)簽要準(zhǔn)確;同時(shí),該文本涉及信息面可能較廣,所以還要保證文本處理的全面性,也就是說(shuō),添加次標(biāo)簽要全,盡量不要遺漏。因此,在區(qū)分主次標(biāo)簽時(shí),不能象常規(guī)多類多標(biāo)簽分類問(wèn)題采用查準(zhǔn)率和查全率均衡的評(píng)價(jià)方法,而是需在區(qū)分主標(biāo)簽時(shí)以查準(zhǔn)率為主,區(qū)分次標(biāo)簽時(shí)以查全率為主。
必須面對(duì)訓(xùn)練文本中類別不均衡問(wèn)題。由于標(biāo)簽數(shù)目很多,不同類別的樣本數(shù)量可能存在量級(jí)上的差距,導(dǎo)致經(jīng)訓(xùn)練構(gòu)建的分類器無(wú)法準(zhǔn)確反映各類別文本的分布情況,導(dǎo)致分類器容易被大類淹沒(méi)而忽略小類。即使對(duì)主標(biāo)簽分類時(shí),可以對(duì)訓(xùn)練文本集合進(jìn)行調(diào)整,達(dá)到對(duì)主標(biāo)簽平衡的狀態(tài),但是也無(wú)法達(dá)到對(duì)每個(gè)次標(biāo)簽都平衡的狀態(tài)。
文獻(xiàn)研究結(jié)果表明,現(xiàn)有文本分類算法主要解決單標(biāo)簽文本分類問(wèn)題,而多標(biāo)簽文本分類問(wèn)題一般采用多分類器集成學(xué)習(xí)方法,通過(guò)將多標(biāo)簽文本分類問(wèn)題轉(zhuǎn)化為多個(gè)相互獨(dú)立的單標(biāo)簽文本分類問(wèn)題,然后綜合各個(gè)單標(biāo)簽文本分類問(wèn)題求解結(jié)果,形成最終的多標(biāo)簽分類結(jié)果。這種方式,往往沒(méi)有考慮標(biāo)簽之間的主次關(guān)系,不能解決有主次區(qū)分的多標(biāo)簽文本分類問(wèn)題。為此,本文借鑒多分類器集成學(xué)習(xí)方法,針對(duì)主次標(biāo)簽相對(duì)獨(dú)立的特點(diǎn),將在不同類別信息區(qū)分過(guò)程中具有主次標(biāo)簽的多標(biāo)簽分類問(wèn)題,分解為以主標(biāo)簽為目標(biāo)的多類單標(biāo)簽分類和以次標(biāo)簽為目標(biāo)的多類多標(biāo)簽分類兩個(gè)問(wèn)題。
文獻(xiàn)研究結(jié)果表明,針對(duì)文本分類問(wèn)題提出的文本表示模型和分類算法種類繁多、各有特點(diǎn),與文本分類的性能息息相關(guān)。但是,單個(gè)文本表示模型或分類算法往往在解決某類特定的問(wèn)題時(shí)表現(xiàn)出相對(duì)更佳的性能,而在解決其他問(wèn)題上的表現(xiàn)則差強(qiáng)人意。因此,直接采用已有的分類算法或者全新設(shè)計(jì)一個(gè)分類方案,以期解決具有主次標(biāo)簽的多標(biāo)簽分類問(wèn)題,是不現(xiàn)實(shí)的。為此,針對(duì)主、次標(biāo)簽相對(duì)獨(dú)立的特點(diǎn),將在不同類別信息區(qū)分過(guò)程中具有主次標(biāo)簽的多標(biāo)簽分類問(wèn)題,分解為以主標(biāo)簽為目標(biāo)的多類單標(biāo)簽分類和以次標(biāo)簽為目標(biāo)的多類多標(biāo)簽分類兩個(gè)問(wèn)題,從而提出了具有主次標(biāo)簽的多標(biāo)簽文本分類方法(Multi-Labels Text Classifier with Primary and Secondary Labels:MLTCPSL)。
2.1 主標(biāo)簽分類方法
對(duì)主標(biāo)簽分類器的選擇,實(shí)質(zhì)上是以精度為指標(biāo),選擇能夠在實(shí)際數(shù)據(jù)環(huán)境中表現(xiàn)最優(yōu)的分類器。
本文首先選擇Na?ve Bayesian(樸素貝葉斯)、LR(邏輯斯特回歸)、SVM(支持向量機(jī))和Sparse Bayesian(稀疏貝葉斯)等具有代表性的分類器進(jìn)行分類精度實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1 所示。
表1 各種分類器在Reuters-21578上的實(shí)驗(yàn)結(jié)果
從表中可以看出LR和SVM性能相當(dāng),都比Na?ve Bayesian、Sparse Bayesian好。
用戶的數(shù)據(jù)環(huán)境是一個(gè)典型的類別數(shù)據(jù)分布不平衡環(huán)境,不同的類別間數(shù)據(jù)量差異較大。本文進(jìn)一步對(duì)比LR和SVM對(duì)不平衡類別分布的健壯性,研究發(fā)現(xiàn)SVM對(duì)實(shí)例分布的健壯性要好于LR。
因此,本文確定線性SVM作為MLTCPSL主標(biāo)簽分類器的訓(xùn)練算法。
2.2 次標(biāo)簽分類方法
MLTCPSL中的次標(biāo)簽分類器設(shè)計(jì)問(wèn)題,實(shí)質(zhì)上是一個(gè)以macro-F1作為性能指標(biāo)的標(biāo)準(zhǔn)多標(biāo)簽分類問(wèn)題。
本文選擇問(wèn)題轉(zhuǎn)換法的二值法來(lái)解決多標(biāo)簽分類問(wèn)題:為每個(gè)標(biāo)簽訓(xùn)練一個(gè)兩分類器(正類為該標(biāo)簽,反類為非該標(biāo)簽),這樣如果有n個(gè)標(biāo)簽,就構(gòu)造n個(gè)分類器;分類時(shí),如果相應(yīng)的分類器輸出為正值就把分類器對(duì)應(yīng)的標(biāo)簽輸出。
每個(gè)標(biāo)簽是一個(gè)兩分類問(wèn)題,由于要考慮的標(biāo)簽很多(十幾個(gè)),這就使得對(duì)應(yīng)于每一個(gè)分類器,正類數(shù)據(jù)由該標(biāo)簽對(duì)應(yīng)的數(shù)據(jù)構(gòu)成,而反類數(shù)據(jù)則是由其它所有不屬于這個(gè)標(biāo)簽的數(shù)據(jù)構(gòu)成,正反類數(shù)據(jù)之間嚴(yán)重不平衡。解決不平衡類別的方法很多,調(diào)整決策門(mén)限是比較簡(jiǎn)單和有效的一種方法。
本文選擇了Pcut、Scut和Rcut等三種決策門(mén)限選取方法進(jìn)行了研究,確定Scut在校驗(yàn)集合上為每個(gè)標(biāo)簽分別選擇各自的決策門(mén)限。
在校驗(yàn)集上優(yōu)化決策門(mén)限需要確定優(yōu)化準(zhǔn)則,本文選擇F1作為評(píng)估指標(biāo)。F1有macro-和micro-兩種計(jì)算方法,其中稀少類的性能對(duì)macro-F1有較大影響,通過(guò)優(yōu)化macro-F1可以使各類的性能相差不大,分類時(shí)就不會(huì)出現(xiàn)有些類性能很好,有些類性能很差的現(xiàn)象;另外有文獻(xiàn)指出,即使目標(biāo)是優(yōu)化macro-F1,也能保證得到較小的micro-F1,反之則不一定,因此本文選擇macro-F1作為準(zhǔn)則。
2.3 MLTCPSL方法
表2 以3個(gè)文檔3個(gè)標(biāo)簽為例說(shuō)明了本文構(gòu)造的分類器,對(duì)主標(biāo)簽使用一個(gè)多類別的分類器。在MLTCPSL中是單標(biāo)簽多類別的SVM分類器。實(shí)際上最基本的SVM是兩分類器,該多分類器實(shí)際是使用one-against-rest策略從兩分類器得到。、、是針對(duì)3個(gè)標(biāo)簽采用二值方法分別建立的三個(gè)兩分類器,用macro-F1最大化作為訓(xùn)練指標(biāo)。
表2 具有主次標(biāo)簽的多標(biāo)簽文本分類算法(MLTCPSL)示例
算法3-1給出了本文提出的MLTCPSL算法流程,分別處理主標(biāo)簽和次標(biāo)簽,訓(xùn)練出一個(gè)多類別的主標(biāo)簽分類器和n個(gè)次標(biāo)簽分類器。主標(biāo)簽分類器的訓(xùn)練以精度最大化為指標(biāo),而多個(gè)次標(biāo)簽分類器以macro-F1為優(yōu)化目標(biāo),選擇在校驗(yàn)集合上使macro-F1最大的門(mén)限作為決策門(mén)限。
本文提出了能識(shí)別主、次標(biāo)簽的多標(biāo)簽文本分類算法(MLTCPSL),解決了在多標(biāo)簽分類方法中識(shí)別主要標(biāo)簽和次要標(biāo)簽的問(wèn)題。
作者簡(jiǎn)介
[1] D.D.Lewis.Naive Bayes at forty:the independence assumption in information retrieval[C].The 10th European Conference on Machine Leaming, Heidelberg,Germany,1998.
[2] N.Kamal,L.John,M.Andrew.Using maximum entropy for text classification [C].Proceedings of the IJCAI-99,Workshop on Information Filtering,Stokholm, Sweden,1999.
[3] Y.Yang.An evaluation of statistical approaches to text categorization[J].Joumal of Information Retrieval,1999,l(1/2):69-90.
[4] T.Joachims.Text categorization with support vector machine:learning with many relevant features[C]. Proeeedings of the 10th European Conference on Machine Leaming,1998:137-142.
李曉,男,民族:漢,出生年月日:1982年2月4日,籍貫(省市):湖北隨州,最后學(xué)歷:碩士研究生,畢業(yè)院校:北京理工大學(xué),專業(yè):計(jì)算機(jī)科學(xué)與技術(shù),職稱(職務(wù)):在讀研究生
表3.2 基于三個(gè)函數(shù)的鏈路預(yù)測(cè)算法準(zhǔn)確性比較
利用WCN,WAA,WRA三個(gè)預(yù)測(cè)算法,通過(guò)三個(gè)節(jié)點(diǎn)活躍度函數(shù)分別在三個(gè)算法中的驗(yàn)證分析,結(jié)果表明,在考慮節(jié)點(diǎn)活躍度這一屬性時(shí),鏈路預(yù)測(cè)的準(zhǔn)確度都有明顯的提高,這說(shuō)明將節(jié)點(diǎn)活躍度融合到算法中是必要可行的。
參考文獻(xiàn)
[1] 劉宏鯤,呂琳媛,周濤.利用鏈路預(yù)測(cè)推斷網(wǎng)絡(luò)演化機(jī)制.中國(guó)科學(xué), 2011, 41(7):816-823.
[2] Yu H,Braun P,Yildirim M A,et al.High-quality binary protein interaction map of the yeast interactome network.Science,2008,322(5898):104-110.
[3] Stumpfm P H,Thornet T,Silva E de,et al.Estimating the size of the human interactome.Proc Natl Sci Acad USA,2008,105(19):6959-6964.
黃勇(198-),男,工程師,研究方向?yàn)樾畔踩饫w網(wǎng)絡(luò)等。
A major label multi label text categorization method
Li Xiao
(School of Computer Technology ,Beijing Institute of Technology,Beijing,100081)
This paper take the text as the object of study,through the research of several mainstream multi label classification algorithm analysis, put forward to the identification of the main,secondary label multi label text classification methods with primary and secondary label multi label classification method (Multi-Labels Text Classifier with Primary and Secondary Labels:MLTCPSL).
text classification;principal;time tag;MLTCPSL
王燁(1981-,女(滿族),博士研究生,研究方向?yàn)橘惒┛臻g,社交網(wǎng)絡(luò),云計(jì)算等;
朱正祥(1974-),男,博士后,研究方向?yàn)橹饕芯款I(lǐng)域?yàn)閿?shù)據(jù)挖掘、系統(tǒng)科學(xué)等;
劉增良(1958-),男,博士生導(dǎo)師,博士,研究方向?yàn)樾畔踩?,網(wǎng)絡(luò)戰(zhàn),人工智能等;
宋文超(1981-),男,中級(jí)測(cè)評(píng)師,研究方向?yàn)樾畔踩?、等?jí)保護(hù)、云計(jì)算等;