劉冬明,楊爾弘
(1. 中北大學(xué) 計(jì)算機(jī)與控制工程學(xué)院,山西 太原 030051;2. 北京語言大學(xué) 應(yīng)用語言學(xué)研究所,北京 100083)
隨著自然語言可計(jì)算性研究的發(fā)展,在詞匯級(jí)別上,人們不再滿足于僅僅在語法層次上的處理,當(dāng)前更加注重于語義及語用層次上的處理。在不同的表述領(lǐng)域,人們使用的詞不盡相同,也即詞在語義和語用層次上具有領(lǐng)域特征。如果能夠在信息處理中有效地定義、描述和使用這種特征,那么對(duì)于當(dāng)前許多自然語言應(yīng)用的研究都具有重要的意義,例如,信息檢索、話題檢測(cè)、文本分類、自動(dòng)文摘等。
國(guó)內(nèi)外研究人員構(gòu)建了眾多的以詞為基本語義單位的知識(shí)庫(kù),如WordNet[1]、HowNet[2]等,這些知識(shí)庫(kù)大多致力于語義角度對(duì)詞形進(jìn)行詳細(xì)的可計(jì)算性的描述,如果要從中獲取詞的可計(jì)算性領(lǐng)域特征比較困難。由于領(lǐng)域本身是一個(gè)較為模糊的概念,領(lǐng)域之間存在著包含關(guān)系、交叉關(guān)系等,不可能采用一個(gè)清晰的結(jié)構(gòu)來刻畫所有的領(lǐng)域,因此詞和領(lǐng)域的關(guān)系就更為模糊和復(fù)雜。還有許多研究人員開發(fā)了各種各樣的算法來確定詞的所屬領(lǐng)域,這類研究的一個(gè)前提是有一個(gè)確定的領(lǐng)域結(jié)構(gòu)體系——一般來講是一個(gè)元素各自獨(dú)立領(lǐng)域集合,并且假設(shè)每個(gè)要作為研究對(duì)象的詞只能屬于其中一個(gè)領(lǐng)域,然后通過各個(gè)領(lǐng)域的文本樣本,采用有指導(dǎo)的機(jī)器學(xué)習(xí)算法、自舉等方法,充分利用具有明顯領(lǐng)域?qū)傩缘脑~的邊界特征、內(nèi)部結(jié)構(gòu)特征等進(jìn)行領(lǐng)域詞的抽取,提取的結(jié)果可以有效地應(yīng)用于后續(xù)的文本挖掘中,如文本分類、自動(dòng)文摘等[3-6]。這類研究的一個(gè)明顯的局限性在于領(lǐng)域結(jié)構(gòu)的劃分,其抽取結(jié)果只能應(yīng)用于研究開始設(shè)定的領(lǐng)域結(jié)構(gòu)體系,因此這類研究對(duì)于專業(yè)領(lǐng)域的深層次信息挖掘具有重要意義,但是如果應(yīng)用于領(lǐng)域特性較差的語料中,如大眾媒體,則由于領(lǐng)域的模糊性,不可能具有好的效果。
本文致力于量化詞的領(lǐng)域特性,并不把詞歸于某一個(gè)特定的領(lǐng)域,而是在不假定領(lǐng)域體系結(jié)構(gòu)的前提下,給予每一個(gè)詞的一個(gè)具體的可比較的數(shù)值,表明該詞的領(lǐng)域特性。其值可以作為該詞固有的特征,應(yīng)用于話題檢測(cè)、文本分類、自動(dòng)文摘等等自然語言處理領(lǐng)域,同時(shí)也能夠作為一個(gè)重要的特征應(yīng)用于上述特定領(lǐng)域詞抽取研究中。
下面第2節(jié)介紹詞的領(lǐng)域性度量的研究思路;第3節(jié)詳細(xì)詞的領(lǐng)域度的獲取方法;第4節(jié)分析實(shí)驗(yàn)結(jié)果;最后是總結(jié)和展望。
詞的領(lǐng)域特性,即詞和領(lǐng)域之間關(guān)系的性質(zhì)。通俗來講,即描述某一領(lǐng)域是否會(huì)用到該詞,或者該詞的出現(xiàn)是說明了文本正在描述某一領(lǐng)域。有些詞語的領(lǐng)域性較強(qiáng),如文本中出現(xiàn)“積分”,極大概率說明該文本描述數(shù)學(xué)領(lǐng)域,而另外一些詞如“變量”,可以出現(xiàn)在數(shù)學(xué)領(lǐng)域也可以出現(xiàn)在計(jì)算機(jī)領(lǐng)域,還有一些詞如“變化”,幾乎所有的領(lǐng)域都會(huì)出現(xiàn)。本文所指詞的領(lǐng)域特性的度量,定義為從詞本身可以體現(xiàn)的領(lǐng)域特性程度。以上例子可以用如下方式形式化表示:
f(“積分”)> f(“變量”)> f(“變化”) 其中f是一個(gè)自變量為詞的實(shí)函數(shù)。
本文的目標(biāo)就在于實(shí)例化f——詞和實(shí)數(shù)的映射關(guān)系。結(jié)合人類的認(rèn)知層面,通常人工進(jìn)行文本分類、信息檢索、話題檢測(cè)、關(guān)鍵詞提取等過程中,明顯會(huì)注重于f值較大的詞,而忽略f值較小的詞,當(dāng)然不同的人根據(jù)掌握知識(shí)程度的不同,這個(gè)函數(shù)取值會(huì)不同,但是只要不涉及到個(gè)人的專業(yè)領(lǐng)域,那么大多數(shù)人的認(rèn)識(shí)還是較為一致的。設(shè)想如果在機(jī)器自動(dòng)文本分類、信息檢索、話題檢測(cè)、關(guān)鍵詞提取等過程中,存在這一函數(shù),那么必定有助于效率和效果。特別是當(dāng)前這類應(yīng)用中通常將文本作為“詞袋”看待,這一函數(shù)將更加有助于降低噪音,獲取更加準(zhǔn)確的文本特征。
人類掌握這一函數(shù)依靠自己本身的經(jīng)驗(yàn)和知識(shí),并不存在明確的學(xué)習(xí)過程。這些經(jīng)驗(yàn)通常是哪些詞經(jīng)常在一起描述某一領(lǐng)域,即便某個(gè)詞自己并不知道其準(zhǔn)確的定義,也能通過經(jīng)常關(guān)聯(lián)的詞聯(lián)系到某一領(lǐng)域。根據(jù)這一特性,本文從大規(guī)模語料庫(kù)中獲取詞之間的關(guān)聯(lián)關(guān)系,領(lǐng)域性強(qiáng)的詞通常和它同現(xiàn)的詞不多,并且互信息較大;而領(lǐng)域性弱的詞,即在眾多領(lǐng)域都出現(xiàn)的詞,同現(xiàn)詞較多且和每個(gè)同現(xiàn)詞的互信息較小。因此,詞語獲得關(guān)聯(lián)關(guān)系之后,利用這一特征計(jì)算出映射關(guān)系f。
直觀來看,詞的關(guān)聯(lián)關(guān)系應(yīng)該源于詞的領(lǐng)域同現(xiàn)關(guān)系。在不能明確劃定領(lǐng)域的前提下,我們近似以詞義的影響范圍作為同現(xiàn)關(guān)系的提取范圍。詞的同現(xiàn)可以分為詞的相鄰?fù)F(xiàn)、句子同現(xiàn)、段落同現(xiàn)和文章同現(xiàn),相鄰?fù)F(xiàn)更多地反映出詞的語法關(guān)系,而段落同現(xiàn)和文章同現(xiàn)往往會(huì)超出該詞的意義影響范圍,帶來更多的噪音,句子作為具有完整意義的語言單位,可以近似地作為每個(gè)詞的意義影響范圍。
信息論中,互信息表達(dá)了一個(gè)事件的發(fā)生,蘊(yùn)含了關(guān)于另一個(gè)事件的發(fā)生的信息量的大小。同一領(lǐng)域中的詞其同現(xiàn)的互信息值應(yīng)較大,而不同領(lǐng)域的詞之間的同現(xiàn)互信息值相對(duì)較小。因此,本文以詞之間的互信息作為同現(xiàn)關(guān)系的度量值。
任一個(gè)詞與其他詞的句子同現(xiàn)互信息可以表示為一個(gè)向量,本文稱之為關(guān)聯(lián)向量,如式(1)所示。
wi:(eil,ei2,…,eik) wi∈W
(1)
其中,eik表示詞wi和wk的句子同現(xiàn)互信息值,W為所有詞構(gòu)成的集合,n=|W|。這個(gè)向量實(shí)際上也就蘊(yùn)含了關(guān)于詞wi的領(lǐng)域信息。如前所述,可以根據(jù)此向量獲取該詞的領(lǐng)域特征值。
如果一個(gè)詞使用的領(lǐng)域范圍有限,它僅僅和同它在同一領(lǐng)域的詞的互信息較大,而和其他詞的互信息較小,其關(guān)聯(lián)向量中少數(shù)分量較大,大多分量較小甚至為0;反之,則所有的分量較為平均。因此,關(guān)聯(lián)向量的所有分量的方差可以近似的表示詞的領(lǐng)域特征值。理論上,詞wi的方差g為式(2)。
(2)
在實(shí)際的計(jì)算中,由于計(jì)算效率以及不同詞的領(lǐng)域特征值數(shù)值上差異明顯,我們采用式(3)計(jì)算。
(3)
其中ni為實(shí)際上與詞wi關(guān)聯(lián)的詞數(shù),對(duì)大多數(shù)詞來說ni要遠(yuǎn)小于n。式(3)中的第二項(xiàng)可以從式(2)推導(dǎo)得出,而第一項(xiàng)是為了彌補(bǔ)ni替換n之后損失的關(guān)于詞wi關(guān)聯(lián)詞數(shù)的信息。
直觀來看,領(lǐng)域同詞之間根據(jù)關(guān)聯(lián)關(guān)系所形成的團(tuán)塊結(jié)構(gòu)密切相關(guān)。這就說明一個(gè)詞領(lǐng)域特性不僅取決于單獨(dú)針對(duì)這個(gè)詞的關(guān)聯(lián)關(guān)系的統(tǒng)計(jì)信息,而且同這個(gè)詞具體關(guān)聯(lián)哪些詞有關(guān)。例如,對(duì)于詞wi和wj,g′(wi)=g′(wj),如果同詞wi關(guān)聯(lián)的詞的領(lǐng)域性要強(qiáng)于同詞wj關(guān)聯(lián)的詞的領(lǐng)域性,那么合理的結(jié)果應(yīng)該是f(wi)>f(wj)。
基于以上推斷,很自然的想到了圖和迭代,具體方法如下:
詞之間的關(guān)聯(lián)關(guān)系也可以作為圖的形式表示: G(W,E),其中W表示所有詞的集合,E表示詞之間的關(guān)聯(lián)關(guān)系,其值即為互信息。圖的形式能夠更加直觀的體現(xiàn)詞集的領(lǐng)域特征,團(tuán)塊結(jié)構(gòu)明顯的子集通常代表了一個(gè)領(lǐng)域。因此,為了更好地反映詞的領(lǐng)域特征,本文利用Google基于圖的排序算法PageRank[7],使詞的領(lǐng)域特征值在g′(wi)的基礎(chǔ)上進(jìn)一步強(qiáng)化其領(lǐng)域信息。
由于PageRank算法基于有向圖,而詞的互信息關(guān)聯(lián)圖是無向圖,在此本文以g′(wi)值來確定關(guān)聯(lián)圖中邊的方向:
如果g′(wi) 領(lǐng)域特征明顯的詞入邊數(shù)大于出邊數(shù),反之則出邊大于入邊。這樣在從無向圖轉(zhuǎn)化為有向圖的過程中融合了前述基于方差的領(lǐng)域特征。 將eij的初始值置1,采用PageRank算法迭代,最終獲取了詞的領(lǐng)域特征映射關(guān)系f。 詞的領(lǐng)域特征值可以直接融合于各種應(yīng)用,例如,自動(dòng)文本分類、信息檢索、話題檢測(cè)、關(guān)鍵詞提取、術(shù)語識(shí)別等。簡(jiǎn)明起見,本文僅將其應(yīng)用于話題檢測(cè),并與傳統(tǒng)的詞的特征提取方法TF*IDF對(duì)比,顯示其效果。 實(shí)驗(yàn)中關(guān)聯(lián)關(guān)系的獲取來自2012年1月到10月的18份中文報(bào)刊,為了提高效率,分詞之后根據(jù)HowNet中的詞類標(biāo)識(shí)僅提取其中的動(dòng)詞作為實(shí)驗(yàn)詞集。評(píng)測(cè)語料下載自新浪網(wǎng)站中的專題板塊,由于僅僅使用動(dòng)詞,因此人工標(biāo)識(shí)了話題類別信息,分別為“出訪”、“島嶼爭(zhēng)端”、“航天”、“獲獎(jiǎng)”、“科技發(fā)布”、“槍擊事件”、“事故”、“逝世”、“體育”、“選舉”、“演唱會(huì)”、“娛樂婚戀”、“自然災(zāi)害”、“盜竊案件”、“金融”,每一類別中隨機(jī)抽取50篇文本作為測(cè)試語料庫(kù)。 話題類別檢測(cè)采用聚類工具Cluto[8],聚類方法采用k-way clustering solution,相似度計(jì)算采用余弦相似度,準(zhǔn)則函數(shù)定義為類內(nèi)相似度最大,評(píng)測(cè)準(zhǔn)則采用Cluto使用的entropy和purity[9],詳細(xì)定義如下: 對(duì)于聚類結(jié)果中的第r個(gè)聚類Sr,設(shè)nr為其包含的文檔數(shù)量,那么該類的entropy定義見式(4)。 (4) (5) 其中,k為聚類結(jié)果的類別數(shù),本文實(shí)驗(yàn)僅用于比較采用不同特征值的效果,因此在聚類參數(shù)中設(shè)定k=q。entropy越小,則聚類效果越好,如果每一個(gè)聚類中僅僅包含一類文檔,那么entropy值將為1。 對(duì)于聚類結(jié)果中第r個(gè)聚類Sr的purity定義為式(6)。 (6) 其中參數(shù)的定義同式(4),其意義在于用Sr中文檔數(shù)最多的一類代表該聚類。同樣,整個(gè)聚類結(jié)果的purity則定義為結(jié)果中每個(gè)聚類的加權(quán)平均值,如式(7)。 (7) 其中參數(shù)的定義同式(5)。從以上兩式可以看到,purity值越大,那么聚類結(jié)果越好。 為了使結(jié)果更加直觀,本文另外定義了一個(gè)綜合指標(biāo)F-value,如式(8)所示。 (8) 為了和TF*IDF對(duì)比效果,本文實(shí)驗(yàn)主要關(guān)注不同數(shù)量對(duì)比的兩類話題檢測(cè),如從前述話題類別中抽取兩類,分別指定不同數(shù)量文本進(jìn)行聚類,表1為部分結(jié)果。 表1 部分聚類結(jié)果 注: 表中綜合是指詞的特征值以領(lǐng)域特征為基礎(chǔ)在其上疊加上TF*IDF運(yùn)算結(jié)果。 將所有的類別分別以數(shù)量50∶50和50∶10測(cè)試,其平均結(jié)果如表2所示。 表2 聚類結(jié)果各種指標(biāo)的平均值 從上表可以看出在不同類別文本數(shù)量一致的情況下,各種特征選取的結(jié)果幾乎相差不大,其中綜合采用TF*IDF和領(lǐng)域特征所得的結(jié)果最好,當(dāng)不同類別文本數(shù)量分布不均時(shí),采用領(lǐng)域特征要比其余二者高了許多。 原因在于: 首先,TF*IDF算法是建立在這樣一個(gè)假設(shè)之上的: 對(duì)區(qū)別文檔最有意義的詞語應(yīng)該是那些在文檔中出現(xiàn)頻率高,而在整個(gè)文檔集合的其他文檔中出現(xiàn)頻率少的詞語,所以如果特征空間坐標(biāo)系取TF詞頻作為測(cè)度,就可以體現(xiàn)同類文本的特點(diǎn)。另外考慮到詞區(qū)別不同類別的能力,該算法假定一個(gè)詞出現(xiàn)的文本頻數(shù)越小,它區(qū)別不同類別文本的能力就越大。因此引入了逆文本頻度IDF的概念,以TF和IDF的乘積作為特征空間坐標(biāo)系的取值測(cè)度,并用它完成對(duì)權(quán)值TF的調(diào)整,調(diào)整權(quán)值的目的在于突出重要單詞,抑制次要單詞。但是在本質(zhì)上IDF是一種試圖抑制噪聲的加權(quán) ,并且單純地認(rèn)為文本頻率小的單詞就越重要,文本頻率大的單詞就越無用,顯然這并不是完全正確的。例如,如果某類文本的數(shù)量占據(jù)了測(cè)試語料的絕大多數(shù),那么其中本該作為特征的詞因?yàn)镮DF導(dǎo)致取值較小,使結(jié)果下降,這種情況從上面結(jié)果可以看出。而領(lǐng)域特征相對(duì)于測(cè)試語料為一恒定值,不會(huì)受到類別比例的影響。 再次,不論是TF*IDF,還是當(dāng)前流行的各種概率模型如LSI、LDA,其獲取特征完全來自于待測(cè)語料,沒有知識(shí)庫(kù)的支持,就如同考試僅僅根據(jù)考題特征,結(jié)合應(yīng)試技巧來通過考試一樣,難以獲取實(shí)質(zhì)性的進(jìn)展。而領(lǐng)域特征來自于大規(guī)模訓(xùn)練語料庫(kù),提取的領(lǐng)域特征就相當(dāng)于已有知識(shí)的簡(jiǎn)約表示,因此結(jié)果較好。 本文從領(lǐng)域和詞的關(guān)系出發(fā),提出了詞的領(lǐng)域特征量化方法,明確指出了這種量化值在自動(dòng)文本分類、信息檢索、話題檢測(cè)、關(guān)鍵詞提取、術(shù)語識(shí)別等研究領(lǐng)域的意義。同時(shí)以簡(jiǎn)明的實(shí)驗(yàn)展示了其有效性。 本文將詞的領(lǐng)域特征作為了一個(gè)可以比較的詞的特有屬性,其實(shí)通過基于句子同現(xiàn)的詞的關(guān)聯(lián)關(guān)系,還能夠獲得更為具體的關(guān)于詞的領(lǐng)域知識(shí),例如,哪些詞可以代表一個(gè)領(lǐng)域,同時(shí)一個(gè)領(lǐng)域和另一領(lǐng)域的關(guān)聯(lián)關(guān)系等,這將是我們下一步研究的重點(diǎn)。 [1] George A Miller. The WordNet project[DB/OL].[2012]. http://wordnet.princeton.edu/ [2] 董振東, 董強(qiáng). 知網(wǎng)[DB/OL]. [2013]. http://www.keenage.com/. [3] Fabrizio Sebastiani. Machine Learning in Automated Text Categorization[C]//Proceedings of ACM Computing Surveys (CSUR), 2002, 34(1):1-47. [4] Navigli R, Faralli S, Soroa A, et al. Two birds with one stone: learning semantic models for Text Categorization and Word Sense Disambiguation[C]//Proceedings of the 20th ACM international conference on information and knowledge management. ACM, 2011: 2317-2320. [5] Gu H, Zhou K. Text classification based on domain ontology[J]. Journal of Communication and Computer, 2006, 3(5): 29-32. [6] Reeve L H, Han H, Brooks A D. The use of domain-specific concepts in biomedical text summarization[J]. Information Processing & Management, 2007, 43(6): 1765-1776. [7] S. Brin, L. Page. The anatomy of a large-scale hypertextual web searchengine[C]//Proceedings of 7th International WWW Conference, 1998: 107-117. [8] Karypis, George. CLUTO-a clustering toolkit[CP/OL]. http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview.2002. [9] Ying Zhao, George Karypis. Criterion functions for document clustering: Experiments and analysis[C]//Proceedings of Technical Report TR #01-40, Department of Computer Science, University of Minnesota, Minneapolis, MN, 2001.4 實(shí)驗(yàn)及結(jié)果分析
4.1 實(shí)驗(yàn)設(shè)計(jì)
4.2 結(jié)果分析
5 總結(jié)和展望