張磊
\摘要:文本分類是一種能在海量文本信息資源中快速準(zhǔn)確地獲取所需信息的機(jī)器學(xué)習(xí)方法。文中闡述了文本分類的發(fā)展進(jìn)程以及文本分類的一般流程,根據(jù)不同的文檔特征對(duì)文本信息資源進(jìn)行分類并對(duì)幾種常見的文本分類算法進(jìn)行了對(duì)比分析。
關(guān)鍵詞:文本分類;文本內(nèi)容;情感傾向;分類算法
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)34-0225-02
Abstract: Text categorization is a machine learning method that can obtain the required information quickly and accurately in the mass text information resources. Text categorizations development of the process and the general process of text categorization are discussed in the paper, text information resources are classified according to different characteristics of documents and several common algorithm of text categorization is analyzed in the paper.
Key words: text categorization; text content; emotional tendency; classification algorithm
1 背景
隨著互聯(lián)網(wǎng)在社會(huì)中的大規(guī)模應(yīng)用,網(wǎng)絡(luò)上的信息資源正在以指數(shù)級(jí)爆炸增長,Web已經(jīng)成為一個(gè)規(guī)模十分龐大的信息資源庫。在各種形式的信息中,非結(jié)構(gòu)化的文本信息仍然是十分重要的信息資源之一。在海量的文本信息中,獲取最有效的信息資源是信息處理的基礎(chǔ),而文本分類能更好地幫助人們組織管理好海量的文本信息,快速準(zhǔn)確地獲取所需信息,實(shí)現(xiàn)個(gè)性化的信息。文本分類在眾多領(lǐng)域中均有應(yīng)用,常見的應(yīng)用包括:郵件分類、網(wǎng)頁分類、文本索引、自動(dòng)文摘、信息檢索、信息推送、數(shù)字圖書館以及學(xué)習(xí)系統(tǒng)等。
2 文本分類
2.1 文本分類的發(fā)展進(jìn)程
文本分類是指根據(jù)預(yù)先定義的主題類別,按照一定的規(guī)則將文檔集合中未知類別的文本自動(dòng)確定一個(gè)或幾個(gè)類別的過程[1]?;仡櫸谋痉诸惖南嚓P(guān)研究,可追溯到20世紀(jì)60年代,那個(gè)時(shí)期Maron開創(chuàng)性的提出了概率索引模型,采用了貝葉斯公式來進(jìn)行文本分類[2]。到了20世紀(jì)80年代,主要通過各領(lǐng)域?qū)<姨峁┑闹R(shí)形成規(guī)則,手工建立文本分類器,在這個(gè)時(shí)期采用的文本自動(dòng)分類方法主要是基于傳統(tǒng)的知識(shí)工程。直到20世紀(jì)90年代,以機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法為基礎(chǔ)的文本分類技術(shù)逐步發(fā)展起來并不斷完善了人工建立分類器的不足,使得文本分類更加準(zhǔn)確、有效。目前,文本分類也已經(jīng)開始應(yīng)用于對(duì)國內(nèi)中文文本的研究,在Web文檔自動(dòng)分類、自動(dòng)文摘、數(shù)字圖書館等諸多領(lǐng)域開始了應(yīng)用。
2.2 文本分類的一般流程
文本分類是根據(jù)已被標(biāo)注的訓(xùn)練文本集,通過特征選擇、特征提取等方法得到特征項(xiàng)或者根據(jù)文本表示方法通過訓(xùn)練得到文本類別間的關(guān)系模型即文本分類器,然后用訓(xùn)練得到的關(guān)系模型對(duì)測(cè)試文本集進(jìn)行文本表示得到文本分類結(jié)果的一個(gè)有指導(dǎo)的學(xué)習(xí)過程。文本分類的過程可分為訓(xùn)練和分類兩個(gè)過程,大致分為文本表示、分類器構(gòu)建和效果評(píng)估三個(gè)步驟。文本分類的一般流程如圖1所示:
2.3 文本的分類
在具體的研究中,根據(jù)文檔的特征不同可以將文本按不同的方式進(jìn)行分類,如按文本標(biāo)題、文本內(nèi)容、情感傾向性、文本風(fēng)格等方式進(jìn)行分類。
1)按文本標(biāo)題分類
按文本標(biāo)題分類顧名思義即根據(jù)文本的標(biāo)題信息進(jìn)行文本分類的一種方法。標(biāo)題中蘊(yùn)含了文本的主要信息,是對(duì)文本內(nèi)容的高度概括,并且標(biāo)題有著簡潔、語句簡單等特征,使得對(duì)文本標(biāo)題的分析更準(zhǔn)確有效。葛文鎮(zhèn)等(2016)[3]提出了基于層級(jí)類別信息的雙向特征選擇算法,并實(shí)現(xiàn)了標(biāo)題分類,能有效提高分類效率。楊敏,谷?。?012)[4]構(gòu)建了基于混合特征矩陣的支持向量機(jī)算法對(duì)中文書目進(jìn)行分類的書目自動(dòng)分類系統(tǒng)??娊鞯龋?008)[5]通過標(biāo)題信息蘊(yùn)含的領(lǐng)域信息激活對(duì)應(yīng)的HNC領(lǐng)域,對(duì)文本進(jìn)行了自動(dòng)分類,測(cè)試速度、分類的準(zhǔn)確度有了明顯的提升。
2)按文本內(nèi)容分類
按文本內(nèi)容進(jìn)行分類,是最常見的一種分類,其關(guān)注點(diǎn)在于能區(qū)別不同文本內(nèi)容的關(guān)鍵性詞語。按文本內(nèi)容分類是對(duì)根據(jù)文檔主題進(jìn)行自動(dòng)分類,在教育學(xué)、法學(xué)等領(lǐng)域研究中都十分有用。吳昊(2009)[6]闡述了基于Web信息挖掘的英語閱讀自動(dòng)選篇的分類研究方法,將按文本內(nèi)容分類應(yīng)用于教育研究中。在法學(xué)研究中,熊小梅等(2007)[7]基于LSA的二次降維法以及改進(jìn)的互信息特征提取通過文本分類對(duì)中文法律案情文本進(jìn)行自動(dòng)分流,加快了分類系統(tǒng)的處理速度,減輕工作人員的負(fù)擔(dān)。
3)按情感傾向性分類
按情感傾向性分類是指根據(jù)文檔中作者對(duì)所表達(dá)的事物所持有的觀點(diǎn)、態(tài)度,如正面、負(fù)面、積極、消極、中性等。在研究中也被稱作情感分析、觀點(diǎn)挖掘或是文本意見挖掘等。按情感傾向性的分類中,情感特征的選擇與抽取對(duì)分類的性能有比較大的影響。目前的文本情感分析在網(wǎng)絡(luò)輿情分析、政策文件分析、問卷調(diào)查等方面應(yīng)用較多。朱建平等(2016)[8]結(jié)合詞云、關(guān)聯(lián)規(guī)則、文本傾向性分析等技術(shù)對(duì)中國房地產(chǎn)網(wǎng)絡(luò)輿情做了實(shí)證分析與研究并給出了相關(guān)的政策建議。鄧雪琳(2015)[9]采用文本分析法,使用文本挖掘軟件對(duì)政府文件中的關(guān)鍵詞等做計(jì)量,測(cè)量了中國政府職能的轉(zhuǎn)變并給出了中國政府職能的轉(zhuǎn)變邏輯和發(fā)展趨向。張珍珍,李君軼等(2014)[10]主要采用問卷調(diào)查與網(wǎng)絡(luò)評(píng)論的方式獲取游客對(duì)旅游的形象感知數(shù)據(jù),通過文本挖掘?qū)Ρ确治鲅芯績煞N途徑的旅游形象問題。夏火松等(2013)[11]通過對(duì)商品具體屬性情感傾向的分析將情感分類分為初分類和細(xì)分類兩個(gè)過程,構(gòu)建的細(xì)分類模型縮短了購買決策的時(shí)間,降低了決策的復(fù)雜度,并經(jīng)過特征算法的測(cè)試發(fā)現(xiàn)情感細(xì)分類中互信息達(dá)到了更高的準(zhǔn)確度。
4)按文本風(fēng)格分類
按文本風(fēng)格分類主要是指在文本語言特色方面的分類,是對(duì)文本作者在詞語使用、句式使用等方面的特色進(jìn)行分類。針對(duì)這種分類方式可以應(yīng)用于文本作者身份識(shí)別、文學(xué)作品流派等的研究中。施建軍(2011)[12]運(yùn)用支持向量機(jī)技術(shù)對(duì)《紅樓夢(mèng)》進(jìn)行了分類研究,更有效地區(qū)分了古典文學(xué)作品的作者。年洪東,陳小荷等(2010)[13]利用支持向量機(jī)統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型對(duì)中國現(xiàn)當(dāng)代文學(xué)作品做了作者身份識(shí)別研究。張?jiān)屏嫉龋?009)[14]利用向量空間模型及混合句類分解等技術(shù)構(gòu)建了作者寫作風(fēng)格分類器研究了《紅樓夢(mèng)》的作者問題。
3 常見文本分類算法
分類是數(shù)據(jù)挖掘中的重要方法之一,在文本分類中常見的算法有樸素貝葉斯算法、支持向量機(jī)、K近鄰算法、Rocchio算法等。樸素貝葉斯算法是在文檔自動(dòng)分類中應(yīng)用概率模型的一種簡單而有效的方法,關(guān)注的是文檔屬于某類別的概率。支持向量機(jī)是通過構(gòu)造一個(gè)分類超平面,使得分類間隔達(dá)到最大,最大限度地分開兩類訓(xùn)練樣本的一種方法。K近鄰算法是為待分類文本找出最為相似的K個(gè)樣本,統(tǒng)計(jì)這些樣本所屬的類別,待分類文本的類別就是包含樣本最多的類別。Rocchio算法是對(duì)一個(gè)類別里的所有樣本文檔各項(xiàng)計(jì)算平均值,得到一個(gè)稱為質(zhì)心的新向量,若需要對(duì)新文檔作判斷時(shí)就通過計(jì)算距離比較新文檔和質(zhì)心的相似程度。下面主要對(duì)樸素貝葉斯算法、支持向量機(jī)、K近鄰算法、Rocchio算法等四種算法進(jìn)行比較分析,見表1所示。
4 結(jié)束語
本文對(duì)文本分類及常見的分類算法作了綜述性研究,闡述了文本分類的發(fā)展和一般流程,根據(jù)文本標(biāo)題、文本內(nèi)容、文本情感傾向性以及文本風(fēng)格等角度對(duì)文本進(jìn)行了分類,最后針對(duì)幾種常見的分類算法作了各自優(yōu)缺點(diǎn)的比較分析,希望對(duì)讀者研究文本分類及算法有一定的參考價(jià)值。
參考文獻(xiàn):
[1] 王仁武. Python與數(shù)據(jù)科學(xué)[M]. 上海: 華東師范大學(xué)出版社, 2015: 267.
[2] 陸旭. 文本挖掘中若干關(guān)鍵問題研究[M]. 合肥: 中國科學(xué)技術(shù)大學(xué)出版社, 2008: 2.
[3] 葛文鎮(zhèn), 劉柏嵩, 王洋洋, 等. 基于層級(jí)類別信息的標(biāo)題自動(dòng)分類研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2016, 07: 2030-2033.
[4] 楊敏, 谷俊. 基于SVM的中文書目自動(dòng)分類及應(yīng)用研究[J]. 圖書情報(bào)工作, 2012, 56(9): 114-119.
[5] 繆建明, 張全, 趙金仿. 基于文章標(biāo)題信息的漢語自動(dòng)文本分類[J]. 計(jì)算工程, 2008(20): 13-14,17.
[6] 吳昊. 一種Web信息挖掘的英語閱讀選篇分類研究[J]. 現(xiàn)代教育技術(shù), 2009, 19(2): 67-70.
[7] 熊小梅, 劉永浪. 基于LSA的二次降維法在中文法律案情文本分類中應(yīng)用[J]. 電子測(cè)量技術(shù), 2007(10): 111-114.
[8] 朱建平, 謝邦昌, 駱翔宇, 等. 中國房地產(chǎn)網(wǎng)絡(luò)輿情分析[J]. 數(shù)理統(tǒng)計(jì)與管理, 2016, 35(4): 722-741.
[9] 鄧雪琳. 改革開放以來中國政府職能轉(zhuǎn)變的測(cè)量——基于國務(wù)院政府工作報(bào)告(1978-2015)的文本分析[J]. 中國行政管理, 2015(8): 30-36.
[10] 張珍珍, 李君軼. 旅游形象研究中問卷調(diào)查和網(wǎng)絡(luò)文本數(shù)據(jù)的對(duì)比——以西安旅游形象感知研究為例[J]. 旅游科學(xué), 2014(6): 73-81.
[11] 夏火松, 朱慧毅, 魏鳳蕊. 商品主觀評(píng)論的情感細(xì)分類模型研究[J]. 情報(bào)雜志, 2013(2): 117-120,92.
[12] 施建軍. 基于支持向量機(jī)技術(shù)的《紅樓夢(mèng)》作者研究[J]. 紅樓夢(mèng)學(xué)刊, 2011(5): 35-52.
[13] 年洪東, 陳小荷, 王東波. 現(xiàn)當(dāng)代文學(xué)作品的作者身份識(shí)別研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010, 46(4): 226-229.
[14] 張運(yùn)良, 朱禮軍, 喬曉東, 等. 基于句類特征的作者寫作風(fēng)格分類研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009(22): 129-131+223.