張新陽(yáng) 李輝
摘要:文本特征空間通常具有稀疏性,即可以選取一個(gè)緊支持且規(guī)模遠(yuǎn)小于原始文本數(shù)據(jù)的表達(dá)來代表原始數(shù)據(jù)而不喪失其主要特征或在某些處理操作中所得到的結(jié)果與原始文本所得到的結(jié)果相近似。近似表達(dá)非常適合于應(yīng)用在文本壓縮、大規(guī)模文本可視化、文本特征提取、文摘生成等領(lǐng)域。文本特征空間的稀疏性的一個(gè)對(duì)偶特征即是文本信息的冗余性。采用迭代閾值算法循環(huán)選擇文本中特征較強(qiáng)的分詞與句子,能夠?qū)崿F(xiàn)文本特征的有效表達(dá)同時(shí)減小文本規(guī)模。迭代閾值算法可以構(gòu)建一個(gè)文本數(shù)據(jù)漸進(jìn)近似的框架,從而為線性的的文本數(shù)據(jù)建立一個(gè)層次化的存儲(chǔ)結(jié)構(gòu),從而在文本檢索、文本聚類等應(yīng)用領(lǐng)域發(fā)揮作用。試驗(yàn)表明,基于特征空間稀疏近似的文本特征表達(dá)能夠有效地構(gòu)建按需取值的文本檢索與在線查詢,在實(shí)際的文本檢索與自然語(yǔ)言處理中具有很好的實(shí)際應(yīng)用效果。
關(guān)鍵詞:迭代閾值法;文本特征空間;特征表達(dá);文本檢索;在線查詢
一 引言
文本特征表達(dá)是基于內(nèi)容的文本處理中的基礎(chǔ)關(guān)鍵技術(shù)。文本特征表達(dá)需要龐大的領(lǐng)域詞表支持,依靠具有強(qiáng)文本內(nèi)容表示功能的特征詞語(yǔ)進(jìn)行類目或主題的區(qū)分、主題詞或關(guān)鍵詞的標(biāo)引。在信息抽取和信息檢索中,抽取和檢索的對(duì)象很大程度上也是領(lǐng)域相關(guān)的。
目前很多著名的知識(shí)庫(kù)主要依靠專家手工構(gòu)建,如WordNet、HowNet。除此之外,也有許多自動(dòng)方法來獲取領(lǐng)域詞語(yǔ),主要分為兩類:基于規(guī)則和基于統(tǒng)計(jì)的。基于規(guī)則的方法利用人工構(gòu)建好的領(lǐng)域詞語(yǔ)特征字(詞)庫(kù)、經(jīng)常與領(lǐng)域詞語(yǔ)共現(xiàn)的指示詞庫(kù)和指示領(lǐng)域關(guān)系的關(guān)系詞語(yǔ)庫(kù),在大規(guī)模語(yǔ)料中利用模板匹配的方式獲取領(lǐng)域詞語(yǔ)?;诮y(tǒng)計(jì)的方法簡(jiǎn)單快速,主要利用機(jī)器學(xué)習(xí)的方法進(jìn)行領(lǐng)域詞語(yǔ)獲取,如基于Bootstrapping、互信息、TFIDF等的領(lǐng)域詞語(yǔ)自動(dòng)獲取。
本文將利用文本分類中的特征提取方法在大規(guī)模分類語(yǔ)料中自動(dòng)獲取領(lǐng)域詞語(yǔ)。
二 約定說明
在本文中將用到以下概念:
1.領(lǐng)域詞語(yǔ)
詞語(yǔ)表可分為通用詞語(yǔ)和領(lǐng)域詞語(yǔ)兩部分,簡(jiǎn)單地說,領(lǐng)域詞語(yǔ)是具有強(qiáng)文本表示功能的特征詞語(yǔ)。所謂強(qiáng)文本表示功能,是指在文本表示時(shí),能將文本的內(nèi)容特征(例如領(lǐng)域類別、主題思想、中心意義等)鮮明地表示出來。例如,常見的虛詞性成分(“總而言之”)的文本表示功能弱,而一些領(lǐng)域性強(qiáng)的體詞性成分(“封閉式基金”)則文本表示功能強(qiáng)。
2.領(lǐng)域通用詞和領(lǐng)域?qū)n愒~
領(lǐng)域詞語(yǔ)中又可根據(jù)詞語(yǔ)的領(lǐng)域流通度分為領(lǐng)域通用詞和領(lǐng)域?qū)n愒~。領(lǐng)域通用詞是表示領(lǐng)域的基本詞語(yǔ),代表了該類領(lǐng)域的質(zhì)心特征,如體育類的“比賽、球隊(duì)”;領(lǐng)域?qū)n愒~專指性強(qiáng)、區(qū)別度高,能將領(lǐng)域的詳細(xì)特征區(qū)分開來,如體育類中的“世界拳擊理事會(huì)、拳王”則不僅可以將體育類和其他類區(qū)分開,還能將體育類內(nèi)部的小類如拳擊區(qū)分出來。
三 特征表達(dá)方法分析
在文本自動(dòng)分類中,關(guān)鍵的一個(gè)技術(shù)是特征提取。特征提取的步驟包括:詞語(yǔ)切分,詞頻統(tǒng)計(jì),加權(quán)計(jì)算和特征選擇(二者通常結(jié)合在一起進(jìn)行)。
經(jīng)過權(quán)重計(jì)算和特征選擇后,就能生成文本類別的核心向量,這些向量中的特征詞可以認(rèn)為是能代表該類文本特征的類別領(lǐng)域詞。
權(quán)重計(jì)算和特征選擇有很多計(jì)算公式,如信息增益、期望交叉熵、文本證據(jù)權(quán)、χ2 統(tǒng)計(jì)量等,其中最著名的是TFIDF公式。那么,權(quán)重計(jì)算和特征選擇的公式究竟哪個(gè)為優(yōu)呢?其實(shí)在這些公式中,關(guān)鍵在于特征選擇時(shí)的傾向:高頻詞或稀有詞,也就是公式中的P(w)因子起很大作用,因?yàn)橐粋€(gè)單詞出現(xiàn)的頻繁程度,并不能說明這個(gè)單詞對(duì)于分類很重要,有許多重要單詞只出現(xiàn)很少次數(shù),而很多次要單詞卻頻繁出現(xiàn)。例如游戲類中很多的游戲名稱、體育娛樂類中人名等專名,往往頻次不高,卻能一詞定類。在以往研究者的文章中,都傾向于高頻單詞,其中Yang和Djujia Mladenic的文章綜合比較分析了很多種特征評(píng)估函數(shù)的優(yōu)劣,并特別指出,信息增益的缺點(diǎn)在于考慮了單詞未發(fā)生的情況,互信息的缺點(diǎn)在于沒有考慮P(w)因子,以致傾向于稀有單詞。期望交叉熵克服了兩者的缺點(diǎn),所以效果比它們都好,同理,文本證據(jù)權(quán)也考慮了P(w),也是一種較好的評(píng)估函數(shù)。[唐煥玲等,2003]的實(shí)驗(yàn)表明,如果修改一下信息增益及文本證據(jù)權(quán)的公式,把它們的P(w)因子去掉,它們的權(quán)值調(diào)整效果即會(huì)大幅度提高,接近于互信息的量級(jí)。
在第二節(jié)中,我們提到領(lǐng)域詞語(yǔ)可分為領(lǐng)域通用詞和領(lǐng)域?qū)n愒~。其實(shí),二者的區(qū)別是在領(lǐng)域區(qū)別度基礎(chǔ)上的頻率差別,即二者都具有較高的領(lǐng)域區(qū)別度,但在領(lǐng)域內(nèi)的頻率不同。因此,在特征選擇時(shí),我們應(yīng)該充分考慮P(w)因子的作用,既要保證高頻的領(lǐng)域通用詞,又要照顧到較低頻的領(lǐng)域?qū)n愒~,這樣既可滿足我們對(duì)領(lǐng)域通用詞和領(lǐng)域?qū)n愒~的需求,又可克服特征選擇時(shí)片面傾向于高頻詞或稀有詞的缺點(diǎn)。
[陳克利,2003]對(duì)TF*IDF和TF*IWF*IWFF公式進(jìn)行了分析并作了一些改進(jìn)。[陳克利,2003]認(rèn)為關(guān)鍵詞在某類的權(quán)重受三個(gè)因素的影響:該詞在當(dāng)前類中的出現(xiàn)頻率;該詞在總語(yǔ)料中的出現(xiàn)頻率;該詞在不同類別之間出現(xiàn)頻率的差異。
第一個(gè)因素由TF表示,但如我們上面的分析,類別中詞的出現(xiàn)頻率和其對(duì)該類的重要度并不完全成正比,頻率在計(jì)算中起了過度的作用,應(yīng)該采取頻率的n次方根(n>=1)的形式消弱其影響,并且可根據(jù)n的取值隨意調(diào)節(jié),以滿足對(duì)領(lǐng)域通用詞和領(lǐng)域?qū)n愒~的需求。
第二個(gè)因素由IWF*IWF表示,含義為:總訓(xùn)練語(yǔ)料中出現(xiàn)次數(shù)越少的關(guān)鍵詞其權(quán)重越高。但TF*IWF*IWFF(和TF*IDF)忽略了第三因素,關(guān)鍵詞在總語(yǔ)料中的出現(xiàn)次數(shù)并不能完全說明該詞在分類中的重要性,頻率相同的關(guān)鍵詞在分類中的重要性是不同的:在各類之間分布月均勻,其重要性越?。环粗酱?。
方差是體現(xiàn)數(shù)據(jù)分布是否均勻的很好的數(shù)學(xué)指標(biāo),但從方差公式中可以看出,方差大小又受到詞頻大小的影響,為了消除此影響(因?yàn)樵~頻因素已經(jīng)在TF中得到表示了,方差需要的只是詞頻之間的差異性表示),可以用方差除以該詞在各類中詞頻之和,于是得到公式:
表示關(guān)鍵詞在不同類之間的分布差異性。從上面的分析可以得到關(guān)鍵詞在類中的權(quán)重計(jì)算公式:
其中, , 是類 含有的所有詞的次數(shù)之和, 是詞i在類 出現(xiàn)的次數(shù);
,其中m為類別數(shù); 表示訓(xùn)練語(yǔ)料中出現(xiàn)詞 的次數(shù),N是訓(xùn)練語(yǔ)料中所有詞出現(xiàn)次數(shù)之和;n>=1。
四 詞語(yǔ)表與訓(xùn)練語(yǔ)料介紹
(一)擴(kuò)充的詞語(yǔ)表
詞語(yǔ)切分一般采用最大匹配法。雙向最大匹配法速度快,詞表開放、格式簡(jiǎn)單易擴(kuò)充,而且由于分詞錯(cuò)誤多集中于常見詞,并不影響領(lǐng)域特征詞的提取,分詞結(jié)果正確率對(duì)于提取特征詞可以充分接受。但是切詞底的詞條對(duì)領(lǐng)域詞語(yǔ)抽取影響重大,特別是當(dāng)大家專注于進(jìn)行特征提取和特征權(quán)值計(jì)算的算法改進(jìn)時(shí),卻忽視了進(jìn)行提取和權(quán)重計(jì)算的特征本身(即詞條)。如果詞表中缺乏具有一定完整性和區(qū)別度(專指度)的領(lǐng)域詞條,那么最先進(jìn)的算法也是緣木求魚。
我們?cè)谠型ㄓ迷~條的基礎(chǔ)上,擴(kuò)充了大量領(lǐng)域性強(qiáng)的詞語(yǔ),特別是短語(yǔ),總詞語(yǔ)表達(dá)32萬(wàn)余條詞語(yǔ)。新增加的詞語(yǔ)主要抽取自門戶網(wǎng)站網(wǎng)頁(yè)上專家標(biāo)引的關(guān)鍵詞語(yǔ)?!瓣P(guān)鍵詞”是對(duì)一個(gè)網(wǎng)頁(yè)的主題的描述詞語(yǔ),更適合作為領(lǐng)域聚類的特征項(xiàng)。
(二)訓(xùn)練語(yǔ)料
訓(xùn)練用的分類語(yǔ)料庫(kù)約1萬(wàn)個(gè)XML文件,1千萬(wàn)字。XML文件標(biāo)注了語(yǔ)料的標(biāo)題、關(guān)鍵詞、類別(詳細(xì)標(biāo)明到細(xì)致的主題,如“經(jīng)濟(jì)-證券-債券”,共兩百多個(gè))、時(shí)間、段落等屬性。具體領(lǐng)域和文件數(shù)分布如下:
采用如此大規(guī)模的語(yǔ)料主要是考慮到如下兩個(gè)因素:
1、一個(gè)詞語(yǔ)是否屬于領(lǐng)域詞匯關(guān)鍵在于它區(qū)分領(lǐng)域的能力,只有將詞語(yǔ)放在整個(gè)分類系統(tǒng)中,比較詞語(yǔ)在該領(lǐng)域與其它各個(gè)領(lǐng)域的出現(xiàn)差異,才能較好地獲得這種區(qū)別能力。因此,在進(jìn)行領(lǐng)域詞語(yǔ)聚類時(shí),必須將整個(gè)分類系統(tǒng)考慮進(jìn)去,而不是只比較兩三個(gè)領(lǐng)域。
2、各個(gè)領(lǐng)域的語(yǔ)料量必須足夠大,這樣才能克服詞語(yǔ)在語(yǔ)料中出現(xiàn)的偶然性因素,而且,隨著語(yǔ)料規(guī)模的擴(kuò)大,新的領(lǐng)域詞語(yǔ)也隨之增多。
五 算法實(shí)現(xiàn)
算法具體步驟如下:
Step1:雙向最大切分。同時(shí)識(shí)別出底表中沒有的數(shù)字字母詞。
Step2:統(tǒng)計(jì)詞次。統(tǒng)計(jì)時(shí)根據(jù)位置加權(quán),加權(quán)時(shí)文本長(zhǎng)度會(huì)對(duì)加權(quán)因子產(chǎn)生影響。例如,對(duì)一篇200字的文章和一篇1000字的文章中的標(biāo)題中的詞,都乘以相同加權(quán)因子,那么,1000字的文章的標(biāo)題中的詞的詞數(shù)就會(huì)湮沒在整個(gè)文章中的詞的詞數(shù)中了,沒有體現(xiàn)標(biāo)題中詞的獨(dú)特標(biāo)示作用。因此,對(duì)關(guān)鍵字、標(biāo)題加權(quán)時(shí),應(yīng)該動(dòng)態(tài)加權(quán),即按文章正文詞數(shù)動(dòng)態(tài)調(diào)整加權(quán)系數(shù)。標(biāo)題加權(quán)底數(shù)為2,關(guān)鍵字加權(quán)底數(shù)為3,正文詞數(shù)按200字分級(jí),每增加一級(jí),在原來系數(shù)上相應(yīng)加1。最終詞次統(tǒng)計(jì)公式如下:
其中, 表示詞w在正文中的計(jì)數(shù), 表示詞w在標(biāo)題中的計(jì)數(shù), 表示詞w在關(guān)鍵詞中的計(jì)數(shù), \200(整除)。
Step3:權(quán)重計(jì)算。按照第三節(jié)中的公式計(jì)算每個(gè)詞在類中的權(quán)重,n(n>=1)參數(shù)主要原來調(diào)節(jié)詞頻的影響,當(dāng)n取值小時(shí),傾向于詞頻大的詞;當(dāng)n取值大時(shí),則詞頻的影響減弱,傾向于詞頻小的詞。
Step4:特征選擇。通過觀察提取結(jié)果,根據(jù)不同類別的具體情況設(shè)定不同的閾值,約為3.5到5.5之間。
六 實(shí)驗(yàn)和結(jié)果分析
(一)實(shí)驗(yàn)與結(jié)果分析1
我們分別對(duì)n取1、2、3、4、5、6不同的值,然后與該類未作權(quán)重計(jì)算的頻率進(jìn)行對(duì)比,觀察權(quán)重計(jì)算及n值對(duì)特征提取的影響(限于篇幅,只列舉了n為1、3、6時(shí)的情況)。下表在財(cái)經(jīng)領(lǐng)域?qū)ξ宸N待對(duì)比的分表中各取前30個(gè)詞,按降序排列。頻率這一列指只對(duì)財(cái)經(jīng)領(lǐng)域分詞后統(tǒng)計(jì)詞頻得到的分表(前30個(gè)),未做權(quán)重計(jì)算;差集指n=6時(shí)的詞集減n=3時(shí)的詞集后的余集。
頻率這一列中只有財(cái)經(jīng)、公司、市場(chǎng)和企業(yè)可以算作經(jīng)濟(jì)類的領(lǐng)域詞,大量出現(xiàn)的是那些高頻常用詞。通過對(duì)n取不同值時(shí)詞語(yǔ)的觀察,權(quán)重計(jì)算時(shí)n取值對(duì)詞語(yǔ)的領(lǐng)域通用度(或領(lǐng)域稀有度)的影響顯而易見,n取1時(shí),區(qū)別度不夠,出現(xiàn)了如:的、TOM、公司這樣的詞語(yǔ);隨著n值的加大(n=6),經(jīng)濟(jì)領(lǐng)域中高區(qū)別度的詞語(yǔ)大量出現(xiàn),很多基本上都是經(jīng)濟(jì)領(lǐng)域中獨(dú)有的詞語(yǔ),如:半年線、金匯通、重組股、券商、重倉(cāng)股、雙底、超跌股、外匯通等。差集中的詞也是區(qū)別度很高的詞語(yǔ),并且能夠補(bǔ)充n=3時(shí)領(lǐng)域通用詞中沒有出現(xiàn)的詞語(yǔ)。
(二)實(shí)驗(yàn)與結(jié)果分析2
由于沒法進(jìn)行召回率的測(cè)試,因此對(duì)領(lǐng)域詞匯聚類進(jìn)行評(píng)價(jià)的最簡(jiǎn)單指標(biāo)是準(zhǔn)確率。我們以經(jīng)濟(jì)領(lǐng)域?yàn)槔謩e取聚類后(n=2)的前1000、2000、3000、4000、5000個(gè)詞語(yǔ),人工進(jìn)行評(píng)測(cè),評(píng)測(cè)時(shí)將與經(jīng)濟(jì)相關(guān)的專名,如機(jī)構(gòu)名、人名等也作為經(jīng)濟(jì)領(lǐng)域的詞語(yǔ)。但這種人工評(píng)價(jià)方法主觀性較強(qiáng),只是一個(gè)無奈的選擇。評(píng)價(jià)結(jié)果如下表:
從結(jié)果可以看出,整體效果較好。隨著詞語(yǔ)的增加,準(zhǔn)確率逐漸下降。
(三)實(shí)驗(yàn)與結(jié)果分析3
和專家人工構(gòu)建的領(lǐng)域詞表進(jìn)行比較是本節(jié)的目標(biāo)。我們與北京大學(xué)合作完成的HSK(商務(wù))詞表(共2382個(gè)詞語(yǔ))包括由領(lǐng)域?qū)<沂占x擇的經(jīng)濟(jì)領(lǐng)域的詞語(yǔ)。我們與之進(jìn)行了對(duì)比,
詞表1(10000)指的是我們自動(dòng)聚類得到的詞表(n=3,前10000個(gè)詞語(yǔ)),詞表2表示HSK(商務(wù))詞表,非表示詞語(yǔ)不在詞表中,詞表2與非詞表1(10000)相交的數(shù)字1109表示“出現(xiàn)在詞表2中但不出現(xiàn)在詞表1中的詞語(yǔ)數(shù)為1109個(gè)”。
從上表可以看出,二者的重合率比較低,當(dāng)自動(dòng)聚類的詞表取前2382個(gè)時(shí),重合率僅為0.22%。綜合分析,原因如下:
1、HSK(商務(wù))詞表所收詞語(yǔ)以領(lǐng)域通用詞為主,甚至包括一些領(lǐng)域不強(qiáng)的一般通用詞語(yǔ),如“生效、維修、實(shí)時(shí)”(皆不在我們自動(dòng)聚類得到的詞表中);我們自動(dòng)聚類得到的詞表中則偏向領(lǐng)域性強(qiáng)的領(lǐng)域?qū)n愒~語(yǔ),如“股指、藍(lán)籌股、社?;稹保ń圆辉贖SK(商務(wù))詞表中)。
2、HSK(商務(wù))詞表基本上不收經(jīng)濟(jì)領(lǐng)域的專名,如公司名、經(jīng)濟(jì)人物名;而我們自動(dòng)聚類得到的詞表中含有大量專名,如“”智富基金、華夏銀行、周小川(皆不在HSK(商務(wù))詞表中)。
3、HSK(商務(wù))詞表的詞條基本上是詞,較少短語(yǔ);而我們的切詞底表中短語(yǔ)數(shù)多于詞數(shù),因此我們自動(dòng)聚類得到的詞條很多是HSK(商務(wù))詞表的詞條組合,如“社?;?、機(jī)構(gòu)投資者、資本市場(chǎng)、鋼鐵板塊”。
七 結(jié)語(yǔ)
采用迭代閾值算法循環(huán)選擇文本中特征較強(qiáng)的分詞與句子,能夠?qū)崿F(xiàn)文本特征的有效表達(dá)同時(shí)減小文本規(guī)模。迭代閾值算法可以構(gòu)建一個(gè)文本數(shù)據(jù)漸進(jìn)近似的框架,從而為線性的的文本數(shù)據(jù)建立一個(gè)層次化的存儲(chǔ)結(jié)構(gòu),從而在文本檢索、文本聚類等應(yīng)用領(lǐng)域發(fā)揮作用。試驗(yàn)表明,基于特征空間稀疏近似的文本特征表達(dá)能夠有效地構(gòu)建按需取值的文本檢索與在線查詢,在實(shí)際的文本檢索與自然語(yǔ)言處理中具有很好的實(shí)際應(yīng)用效果。
參考文獻(xiàn)
[1]周雪忠.中文文本分類特征表示及分類方法比較研究[C].Advances in Computation of Oriental Languages.北京:清華大學(xué)出版社,2003.
[2]唐煥玲.文本分類系統(tǒng)SECTSCS中若干技術(shù)問題的探討[J].計(jì)算機(jī)工程與應(yīng)用,2003,(11).
[3]陳克利.基于大規(guī)模真實(shí)文本的平衡語(yǔ)料分析與文本分類方法[C].Advances in Computation of Oriental Languages.北京:清華大學(xué)出版社,2003.
[4]鐘敏娟等.基于分類和關(guān)鍵詞組抽取的信息檢索算法[J].系統(tǒng)仿真學(xué)報(bào),2004,(16).
[5]牟廉明.數(shù)據(jù)挖掘中聚類方法比較研究[J].內(nèi)江師范學(xué)學(xué)報(bào),2003,(4).
(作者單位:云南電網(wǎng)有限責(zé)任公司信息中心)