摘 要:隨著信息快速增長(zhǎng),大數(shù)據(jù)時(shí)代的來(lái)臨,對(duì)文本數(shù)據(jù)的分類(lèi)越發(fā)重要,且海量數(shù)據(jù)意味著高度依賴(lài)文本自動(dòng)分類(lèi)。本文從文本自動(dòng)分類(lèi)技術(shù)演進(jìn)路線(xiàn)、專(zhuān)利申請(qǐng)情況和重點(diǎn)申請(qǐng)人幾個(gè)方面分析了文本自動(dòng)分類(lèi)技術(shù)專(zhuān)利情況,并結(jié)合重點(diǎn)專(zhuān)利進(jìn)行技術(shù)分析。
關(guān)鍵詞:文本分類(lèi);專(zhuān)利
一、引言
文本分類(lèi)是指依據(jù)文本語(yǔ)義內(nèi)容將未知類(lèi)別的文本歸類(lèi)到已知類(lèi)別體系中的過(guò)程,在眾多領(lǐng)域中均有應(yīng)用,常見(jiàn)的應(yīng)用包括:郵件分類(lèi)、網(wǎng)頁(yè)分類(lèi)、文本索引、自動(dòng)文摘、信息檢索、信息推送、數(shù)字圖書(shū)館以及學(xué)習(xí)系統(tǒng)等[1]。
二、文本分類(lèi)技術(shù)演進(jìn)路線(xiàn)
回顧文本分類(lèi)的相關(guān)研究,以20世紀(jì)60年代出現(xiàn)貝葉斯文本分類(lèi)器為界限,將文本分類(lèi)分為兩個(gè)階段:20世紀(jì)60年代以前主要依靠人工篩選,之后,文本分類(lèi)開(kāi)始自動(dòng)分類(lèi)。20世紀(jì)80年代,出現(xiàn)采用知識(shí)工程的方法進(jìn)行分類(lèi),通過(guò)建立專(zhuān)家知識(shí)庫(kù)與字典等一系列分類(lèi)規(guī)則來(lái)構(gòu)建分類(lèi)器,但知識(shí)工程方法需要大量領(lǐng)域的專(zhuān)家和工程師參與,勢(shì)必耗費(fèi)很多人力物力,當(dāng)電子文檔急劇增長(zhǎng)時(shí)將無(wú)法滿(mǎn)足需求。
此后,由于基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類(lèi)系統(tǒng)幾乎可以達(dá)到與人類(lèi)專(zhuān)家相當(dāng)?shù)恼_度,但是卻不需要任何知識(shí)工程師或領(lǐng)域?qū)<业母深A(yù),機(jī)器學(xué)習(xí)方法在文本分類(lèi)領(lǐng)域得到了深入的研究和廣泛的應(yīng)用。
在20世紀(jì)末以來(lái),出現(xiàn)了大量基于監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等機(jī)器學(xué)習(xí)算法在文本分類(lèi)上的研究,例如樸素貝葉斯文本分類(lèi)器、基于決策樹(shù)的分類(lèi)、K近鄰聚類(lèi)、SVM支持向量機(jī)等,并且,在當(dāng)前研究中,對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法在文本分類(lèi)的研究依然沒(méi)有停止。
在實(shí)際應(yīng)用中,考慮到數(shù)據(jù)的復(fù)雜性和多樣性,往往單一的分類(lèi)方法不夠有效。因此學(xué)者們?cè)诙喾N分類(lèi)方法的融合方面進(jìn)行了廣泛的研究.例如基于投票機(jī)制(bagging或者boosting)的多分類(lèi)器研究[2]。
伴隨著人工智能的飛速發(fā)展以及深度學(xué)習(xí)理論在圖像和語(yǔ)音方面的良好表現(xiàn),研究者將深度學(xué)習(xí)理論應(yīng)用在文本處理中,出現(xiàn)了基于深度學(xué)習(xí)的文本分類(lèi)研究。目前研究的熱點(diǎn)就在于基于不同應(yīng)用下文本類(lèi)型的特點(diǎn),將神經(jīng)網(wǎng)絡(luò)應(yīng)用在文本分類(lèi)中。
三、文本分類(lèi)技術(shù)專(zhuān)利分析
通過(guò)在標(biāo)題和摘要中利用關(guān)鍵詞“text catego+ or text classif+”進(jìn)行檢索,將過(guò)濾出的專(zhuān)利按照年限統(tǒng)計(jì)分析如下:
圖1示出了文本分類(lèi)近30年全球申請(qǐng)量變化情況,從圖中可以看出,20世紀(jì)90年代,全球申請(qǐng)量較低,雖然整體上申請(qǐng)量在增長(zhǎng),但處于發(fā)展緩慢階段。從2000年開(kāi)始,申請(qǐng)量出現(xiàn)增長(zhǎng)高潮,尤其從2003年開(kāi)始,申請(qǐng)量呈現(xiàn)指數(shù)增長(zhǎng)形式,出現(xiàn)該狀況的原因在于互聯(lián)網(wǎng)的飛速發(fā)展,新一代通信技術(shù)市場(chǎng)化的普及,使得文本分類(lèi)的需求增加,從而促使在文本分類(lèi)方面的研究。
四、重點(diǎn)專(zhuān)利分析
通過(guò)對(duì)專(zhuān)利的同族數(shù)量和被引證次數(shù)進(jìn)行分析并結(jié)合文本分類(lèi)技術(shù)演進(jìn),下面對(duì)該領(lǐng)域重點(diǎn)專(zhuān)利進(jìn)行詳細(xì)技術(shù)分析。
1、基于字典、語(yǔ)法結(jié)構(gòu)、知識(shí)庫(kù)等進(jìn)行文本分類(lèi)
在機(jī)器學(xué)習(xí)的分類(lèi)算法沒(méi)有廣泛應(yīng)用之前,基于知識(shí)庫(kù)、字典等方式對(duì)文本進(jìn)行分析歸類(lèi)是常見(jiàn)的方法。1988年IBM公司的專(zhuān)利申請(qǐng)EPEP0282721,提出了基于范式的形態(tài)文本分析,利用結(jié)構(gòu)化知識(shí)庫(kù)和字典,對(duì)文本進(jìn)行分析歸類(lèi)。該方案用于自然語(yǔ)言文本分類(lèi)并生成單詞形式,其中涉及到的字典表示、語(yǔ)法分析、自動(dòng)索引和同義詞檢索應(yīng)用在多種自然語(yǔ)言中。
1998年,THE DIALOG公司提出公開(kāi)號(hào)為WO9858344的申請(qǐng),將文本按照主題進(jìn)行分類(lèi),將文本語(yǔ)料庫(kù)中的文本實(shí)體表征為相關(guān)的主題區(qū)域,包括確定所述文本實(shí)體中的所選術(shù)語(yǔ)和所選擇的術(shù)語(yǔ)。該申請(qǐng)中依然利用到了單詞字符串的匹配,并且設(shè)置了多種匹配規(guī)則,將詞語(yǔ)出現(xiàn)次數(shù)這一特征納入分類(lèi)的影響因素之中,可以提高分類(lèi)的準(zhǔn)確性。
2、基于傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行文本分類(lèi)
機(jī)器學(xué)習(xí)算法的普遍應(yīng)用逐漸替代了認(rèn)為設(shè)定規(guī)則與知識(shí)庫(kù)的分類(lèi)方式。決策樹(shù)、樸素貝葉斯分類(lèi)、SVM算法等均在文本分類(lèi)中各具優(yōu)勢(shì)。
IBM公司于1998年提出申請(qǐng)US6253169,請(qǐng)求保護(hù)一種提高基于決策樹(shù)的文本分類(lèi)準(zhǔn)確率的方法。決策樹(shù)分類(lèi)算法作為一種有監(jiān)督學(xué)習(xí)算法,需要分類(lèi)標(biāo)注出訓(xùn)練數(shù)據(jù)的類(lèi)標(biāo)與主題。該方法中,首先分析樣本集文件中的文字以識(shí)別多個(gè)主題;然后開(kāi)發(fā)多個(gè)本地詞典;接著,為樣本集中的每個(gè)文檔生成向量,為樣本集中的每個(gè)文檔生成的向量是針對(duì)所述多個(gè)主題中的相應(yīng)一個(gè)開(kāi)發(fā)的所述多個(gè)本地詞典中的相應(yīng)一個(gè)中的單詞;基于在所述分類(lèi)步驟中執(zhí)行的樣本集中的文檔的分類(lèi)形成預(yù)測(cè)模型。
華為技術(shù)有限公司于2009年申請(qǐng)了專(zhuān)利CN101887443A,申請(qǐng)人發(fā)現(xiàn)由于現(xiàn)有技術(shù)提供的技術(shù)方案是根據(jù)文本中的基本特征來(lái)判斷該文本的類(lèi)型,其判斷方式僅根據(jù)文本的基本特征來(lái)計(jì)算文本的分類(lèi),文本分類(lèi)不準(zhǔn)確,因此,在設(shè)計(jì)方案時(shí),不僅考慮了文本的基本特征,還考慮了句式特征、重復(fù)詞特征和疊置詞特征中的一種或多種,增加計(jì)算的參數(shù),使得分類(lèi)準(zhǔn)確。
3、融合分類(lèi)器
面對(duì)眾多機(jī)器學(xué)習(xí)分類(lèi)算法,研究者認(rèn)為單一分類(lèi)器的效果不夠準(zhǔn)確,因此考慮將多個(gè)分類(lèi)器的分類(lèi)結(jié)果進(jìn)行“融合”,形成了融合分類(lèi)器。CHOU WU等人于2004年在專(zhuān)利申請(qǐng)US2006069678提出了這一思路。該申請(qǐng)?jiān)诔跏紡V義線(xiàn)性分類(lèi)器上執(zhí)行最小分類(lèi)錯(cuò)誤訓(xùn)練以生成訓(xùn)練的初始分類(lèi)器,將AdaBoost算法的增強(qiáng)算法應(yīng)用于訓(xùn)練的初始分類(lèi)器以生成m個(gè)備選分類(lèi)器,然后使用最小分類(lèi)誤差訓(xùn)練來(lái)訓(xùn)練m個(gè)備選分類(lèi)器以生成m個(gè)訓(xùn)練的備選分類(lèi)器,基于訓(xùn)練集上的分類(lèi)錯(cuò)誤率,從所述訓(xùn)練的初始分類(lèi)器和所述m個(gè)訓(xùn)練的替代分類(lèi)器中選擇最終分類(lèi)器。該方法可以良好適應(yīng)各種類(lèi)型的文本數(shù)據(jù),在保證準(zhǔn)確率的情況下有較強(qiáng)的適應(yīng)性。
4、基于深度學(xué)習(xí)的文本分類(lèi)
由于傳統(tǒng)機(jī)器學(xué)習(xí)分類(lèi)方法需要人工做特征工程(文本預(yù)處理、文本表示和特征提取等),成本很高,而深度學(xué)習(xí)可以解決大規(guī)模文本分類(lèi)中文本表示,且諸如CNN/RNN等網(wǎng)絡(luò)可以自動(dòng)獲取特征表達(dá),因此,省去了繁雜的人工特征工程。微軟于2014年提出專(zhuān)利申請(qǐng)US2015310862 A1,利用深度學(xué)習(xí)解析語(yǔ)義,進(jìn)行文本分類(lèi)。該方法可以用于在線(xiàn)網(wǎng)頁(yè)日志分類(lèi)中,從一個(gè)或多個(gè)查詢(xún)點(diǎn)擊日志獲得未標(biāo)記的數(shù)據(jù)。深度學(xué)習(xí)網(wǎng)絡(luò)被訓(xùn)練為具有解析單詞、短語(yǔ)或句子語(yǔ)義嵌入層的網(wǎng)絡(luò),無(wú)需人工標(biāo)記,可以從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)而來(lái)。該申請(qǐng)?zhí)岢龅姆桨冈跓o(wú)需數(shù)據(jù)標(biāo)注情況下可以良好解析幾種具有相同語(yǔ)義的不同文本,提高分類(lèi)準(zhǔn)確性。
五、總結(jié)
本文從文本分類(lèi)技術(shù)的發(fā)展概況及原理入手,從文本分類(lèi)技術(shù)的專(zhuān)利申請(qǐng)趨勢(shì)及國(guó)內(nèi)外主要申請(qǐng)人分析,重點(diǎn)解讀文本分類(lèi)技術(shù)的技術(shù)演進(jìn)路線(xiàn)。
參考文獻(xiàn):
[1] 張磊,文本分類(lèi)及分類(lèi)算法研究綜述[J],電腦知識(shí)與技術(shù),2016(34):231-232+23338.
[2] 陳祎荻,秦玉平,基于機(jī)器學(xué)習(xí)的文本分類(lèi)方法綜述[J],渤海大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,31(2):201-205.
作者簡(jiǎn)介:
李若晨(1992-),女,理學(xué)碩士,專(zhuān)利審查員,從事大數(shù)據(jù)方向?qū)@麑彶楣ぷ鳌?/p>