鞏 政,關(guān)高娃
(內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,內(nèi)蒙古 呼和浩特 010021)
隨著互聯(lián)網(wǎng)技術(shù)、多媒體技術(shù)的迅猛發(fā)展,多媒體數(shù)據(jù)量不斷膨脹。在海量的多媒體數(shù)據(jù)中,文本資料在數(shù)據(jù)量和包含信息內(nèi)容上都占有舉足輕重的地位。如何快速有效地從如此龐大的數(shù)據(jù)中檢索到想要的數(shù)據(jù)變得越來(lái)越重要。同時(shí)對(duì)信息中出現(xiàn)頻率很高但所包含信息對(duì)檢索沒(méi)有多大貢獻(xiàn)的停用詞(Stop Words)的處理,從很大程度上決定了檢索性能的高低。幾乎所有涉及到機(jī)器學(xué)習(xí)的文本預(yù)處理都包括對(duì)停用詞表(Stoplist)[1]的處理。
停用詞是指為節(jié)省存儲(chǔ)空間和提高搜索效率,搜索引擎在索引頁(yè)面或處理搜索請(qǐng)求時(shí)會(huì)自動(dòng)忽略的某些字或詞[2]。通常意義上,停用詞大致分為如下兩類: 1)應(yīng)用廣泛,比如“Web”一詞幾乎在每個(gè)網(wǎng)站上均會(huì)出現(xiàn),對(duì)這樣的詞搜索引擎無(wú)法保證能夠給出真正相關(guān)的搜索結(jié)果,難以幫助縮小搜索范圍,同時(shí)還會(huì)降低搜索的效率;2)文檔中出現(xiàn)的語(yǔ)氣助詞、副詞、介詞、連接詞等,這類詞通常自身并無(wú)明確的意義,只有將其放入一個(gè)完整的句子中才有一定作用,如漢語(yǔ)中常見的“的”、“在”,蒙古語(yǔ)中的格的附加成分。蒙古文文檔中的停用詞集合就稱為蒙古文停用詞表。
隨著互聯(lián)網(wǎng)的普及和信息化的發(fā)展,使用信息檢索系統(tǒng)的用戶變得越來(lái)越多,文檔的語(yǔ)言種類及內(nèi)容也越來(lái)越多。很多語(yǔ)種已經(jīng)有了確定的停用詞表。但是迄今為止蒙古文還沒(méi)有確定的停用詞表。所以有必要通過(guò)英文停用詞和蒙古文停用詞進(jìn)行比較研究,來(lái)確定和完善蒙古文停用詞表。
蒙古語(yǔ)是個(gè)詞性較多、語(yǔ)法較復(fù)雜的一個(gè)語(yǔ)言。蒙古語(yǔ)從詞法角度可分為三類。第一類為靜詞類,它具有靜詞類的一系列的形態(tài)變化。第二類是動(dòng)詞類,它具有動(dòng)詞類的一系列的形態(tài)變化。第三類是無(wú)變化詞類,這類詞的絕大部分主要表示某種語(yǔ)法意義[3]。靜詞類包括名詞、形容詞、數(shù)量詞、時(shí)位詞、代詞等。靜詞類有格、數(shù)、領(lǐng)屬等范疇的形態(tài)變化,表示事物、時(shí)間地點(diǎn)、性質(zhì)特征、數(shù)量等意義。動(dòng)詞類分為實(shí)義動(dòng)詞和虛義動(dòng)詞。無(wú)變化詞類是指沒(méi)有形態(tài)變化的詞,如: 副詞、情態(tài)詞、模擬詞、后置詞、語(yǔ)氣詞、感情詞等。
基于熵計(jì)算的選取方式,傾向于選取文本中穩(wěn)定出現(xiàn)的詞,因此容易受到文本行文方式等的影響。用聯(lián)合熵法選取的停用詞傾向于選取在句子中穩(wěn)定出現(xiàn)且出現(xiàn)較多的詞,因此受文本的行文方式影響較少,選取出的停用詞更能反映文本的真實(shí)情況[4]。
基于聯(lián)合熵算法選取蒙古文停用詞的思想,是用詞在句子中出現(xiàn)的頻率與包含該詞的句子頻率的聯(lián)合熵,分別計(jì)算詞條在語(yǔ)料中各個(gè)句子內(nèi)發(fā)生的概率,以及包含該詞條的句子在文本中發(fā)生的概率pj,計(jì)算它們的熵,并依據(jù)它們的聯(lián)合熵選取停用詞[5]:
W(wi)=H(wi)+H(s|wi)
(1)
其中,H(wi)表示詞wi在句子中的熵,用公式(2)計(jì)算:
(2)
H(s|wi)表示包含詞wi的句子j的熵,用公式(3)計(jì)算:
式中:fj(wi)為單詞w在句子j中出現(xiàn)的頻率;n為句子數(shù);fl(s|wi)為包含wi的句子在文本l中出現(xiàn)的頻率;m為文本數(shù)。
采用聯(lián)合熵作為停用詞選取方法的理論依據(jù)是: 當(dāng)一個(gè)詞在句子中出現(xiàn)的平均信息量和包含該詞的句子的平均信息量較大時(shí),表示該詞較為普通。應(yīng)用該方法可以有效避免語(yǔ)料選取不均衡造成的停用詞選取錯(cuò)誤。
因此,經(jīng)過(guò)統(tǒng)計(jì)算法得到的蒙古文停用詞中還存在一些干擾檢索結(jié)果,降低檢索精度的實(shí)體名詞及同形異義詞,這些詞也需要從蒙古文停用詞表中去除。
本文在進(jìn)行實(shí)驗(yàn)時(shí),選取了按照TREC文檔規(guī)范進(jìn)行整理后的27 401個(gè)蒙古文文檔。這些文檔來(lái)源于《內(nèi)蒙古日?qǐng)?bào)》蒙文版,約54MB大小,語(yǔ)料內(nèi)容大多屬于新聞報(bào)道類。圖1為語(yǔ)料中的一個(gè)蒙古文文檔。圖2為把聯(lián)合熵(UE)算法應(yīng)用到蒙古文語(yǔ)料中所獲取的排序后的前50個(gè)蒙古文停用詞。
圖1 一個(gè)符合TREC規(guī)范的蒙古文文檔
圖2 UE方法獲得的部分停用詞
圖3 部分英文停用詞及對(duì)應(yīng)的蒙古文
圖4 部分蒙古文停用詞及對(duì)應(yīng)的英文
經(jīng)過(guò)以上的比較分析,我們可以對(duì)蒙古文停用詞表進(jìn)行進(jìn)一步的優(yōu)化,即把英文停用詞中出現(xiàn)的介詞和冠詞用蒙古文中能夠表達(dá)同樣意義的其他詞性的詞代替,將它們添加到蒙古文停用詞表中,來(lái)完善蒙古文停用詞。
本文首先使用UE算法從蒙古文語(yǔ)料中初步獲得停用詞表,然后從該表中去掉那些與主題關(guān)系較大的實(shí)體名詞和同形異義詞,又增加了一些能夠表示英文停用詞中的介詞和冠詞詞意的詞,最終確定了蒙古文停用詞表。
為了驗(yàn)證所定蒙古文停用詞表在檢索中的貢獻(xiàn),本文分別做了以下實(shí)驗(yàn)。一是將蒙古文停用詞翻譯成英文,然后將該停用詞表和英文停用詞表分別應(yīng)用到英文文檔中做檢索,比較檢索的結(jié)果。二是將英文停用詞表翻譯成蒙古文,然后將該停用詞表和蒙古文停用詞表分別應(yīng)用到蒙古文文檔集中做檢索,比較檢索的結(jié)果。圖5和圖6為英文停用詞表和蒙古文停用詞表的檢索結(jié)果對(duì)比圖。
圖5 英文與翻譯成英文的蒙古文停用詞檢索結(jié)果比較
圖6 蒙古文與翻譯成蒙古文的英文停用詞檢索結(jié)果比較
從實(shí)驗(yàn)結(jié)果可知,使用從英文停用詞翻譯成的蒙古文停用詞對(duì)蒙古文文檔進(jìn)行檢索,不如使用本文所述蒙古文停用詞對(duì)蒙古文文檔進(jìn)行檢索的效果好(圖6所示);同樣使用蒙古文停用詞翻譯成英文對(duì)英文文檔進(jìn)行檢索,也不如使用原英文停用詞對(duì)英文文檔進(jìn)行檢索的效果好(圖5所示)。因此,不能直接將英文停用詞翻譯成蒙古文作為蒙古文停用詞,而是要結(jié)合英文和蒙古文的詞類特征來(lái)確定蒙古文停用詞表。
[1] 化柏林.知識(shí)抽取中的停用詞處理技術(shù)[J].現(xiàn)代圖書情報(bào)技術(shù),2007,8:48-51.
[2] 什么是停用詞、靜止詞[EB/OL][2010-10-25]http://www.semshare.net/什么是停用詞、靜止詞-SEO中的Stop Words/.
[3] 清格爾泰.蒙古語(yǔ)語(yǔ)法[M].呼和浩特: 內(nèi)蒙古人民出版社,1999.
[4] 蔣斌.基于停用詞處理的漢語(yǔ)語(yǔ)音檢索方法[D].哈爾濱工業(yè)大學(xué)碩士論文.2008.
[5] 顧益軍,樊孝忠,王建華,等.中文停用詞表的自動(dòng)選取[J].北京理工大學(xué)學(xué)報(bào),2005,25(4):337-340.
[6] GongZheng, Guangaowa. The Selection of Mongolian Stop Words[C]//Proceedings 2010 IEEE International Conference on Intelligent Computing and Intelligent Systems Volume 2.Xiamen,China: IEEE Comput,2010: 71-74.
[7] 白音寶力高.蒙古語(yǔ)同形詞詞典[M].呼和浩特: 內(nèi)蒙古人民出版社,2001.