李學(xué)文 周子璇 熊能 陳瑜
摘要 分析文本中詞語關(guān)聯(lián)規(guī)律對于解決信息檢索與文本語義研究中許多問題具有重要的價值和意義。首先建立測試平臺,對詞對語義與構(gòu)成詞對的兩詞在文本中語義的相符性進行人工判斷,然后依據(jù)兩詞語在文本中所處位置差異、文本類型、分句長度、詞頻等標(biāo)準(zhǔn),對數(shù)據(jù)進行分組統(tǒng)計和聚類分析得出兩詞在文本中的關(guān)聯(lián)規(guī)律,最后指出不足及下一步研究的方向。
關(guān)鍵詞 中文文本 詞語關(guān)聯(lián) 規(guī)律
分類號 G354
DOI 10.16603/j. issn1002 -1027. 2018. 01. 007
l 引言
研究詞語之間的語義關(guān)系對解決自然語言理解、人工智能以及機器翻譯等方面的問題,都具有重要的價值和意義。信息檢索與文本語義研究時,為了提高信息過濾、關(guān)聯(lián)度計算和語義索引建立等各項技術(shù)處理結(jié)果的完整性、準(zhǔn)確性和可靠性都有必要對文本中詞語之間的語義關(guān)聯(lián)規(guī)律進行分析。信息過濾中,當(dāng)輸入線索是多個檢索詞(或可轉(zhuǎn)化為多個檢索詞)時,字段檢索、關(guān)鍵詞索引檢索和全文檢索技術(shù)會通過布爾檢索連接這些詞語并判斷出所需信息,布爾檢索將文本中是否含有檢索詞作為信息命中與否的依據(jù),用戶檢索時不管這些檢索詞有多么生疏,只要在文本中出現(xiàn)了一次就可以檢索到。例如,對包含文字“寧夏枸杞、蘭州百合”的信息進行“蘭州and枸杞”的檢索時,這段信息將符合檢索條件,導(dǎo)致獲取錯誤檢索結(jié)果。排序技術(shù)將信息檢索結(jié)果按照與輸入線索的關(guān)聯(lián)度排列,關(guān)聯(lián)度主要是通過關(guān)鍵詞在文本中出現(xiàn)的位置和頻率進行計算。許多研究利用詞的關(guān)聯(lián)關(guān)系按照主題凝聚的原則提取出反映主題信息的關(guān)鍵詞詞典,從而發(fā)掘文章主題并進行文本內(nèi)容分析。語義檢索提出增加對文本內(nèi)容語意的理解,借助語義索引定位符合輸入線索的信息,語義索引就是在概念空間的基礎(chǔ)上構(gòu)造具有網(wǎng)狀結(jié)構(gòu)的索引,從文檔中抽取出概念,同一文檔可由具有相關(guān)語義的多個概念進行索引。
信息檢索與文本語義研究領(lǐng)域有許多關(guān)于詞語關(guān)系的研究,楊梁彬探討了潛在語義索引解決文本檢索中存在的同義和多義問題;國內(nèi)外有關(guān)詞語在文本中的語義角色標(biāo)注的研究比較豐富,目前已有成熟的語義角色標(biāo)注軟件;張建娥利用復(fù)雜網(wǎng)絡(luò)中節(jié)點的度與聚集特征表示詞語之間的關(guān)聯(lián)度;孫日昕等分析了文本中詞語的內(nèi)聯(lián)關(guān)系和外聯(lián)關(guān)系并指出詞語間互信息表征兩個詞在同一篇文檔中的相關(guān)性大??;趙冬曉等從詞、句子和篇章粒度概括了現(xiàn)有文本語義挖掘方法、算法。這些研究可分為兩類:一是基于規(guī)則,主要利用語言的詞法、句法、詞性等知識以及上下文信息來識別詞語關(guān)系;一是基于統(tǒng)計,主要根據(jù)詞語在文本中出現(xiàn)的頻率、位置等信息,應(yīng)用不同的統(tǒng)計參數(shù)分析詞語關(guān)系,本文采用第二類方法。
2 測試數(shù)據(jù)獲取
兩個詞語組合時將兩詞稱為詞對,這兩個詞會限制出比它們各自更具體的語義,稱之為詞對語義,本文中兩詞語關(guān)聯(lián)性是通過它們所組成的詞對語義與它們所在文本中的語義的相符性來體現(xiàn),語義相符表示這兩個詞在文本中關(guān)聯(lián),不相符則表示不關(guān)聯(lián)。
2.1 約定條件
為了便于分析,特做以下約定:
(1)文本中兩詞關(guān)系設(shè)定為:同義詞、可搭配、不可搭配。此處不可搭配指兩詞在語義或語法上矛盾,不可能組合在一起或組合在一起不包含任何語義信息。當(dāng)可搭配時,兩個詞所在文本中的語義與詞對語義關(guān)系分為相符和不相符兩種。本文約定:兩個詞所在文本中的語義與詞對語義都匹配時,表示兩詞在此文本中的語義與詞對語義相符;當(dāng)其中有一個(或兩個)所在文本中的語義與詞對語義不匹配時,表示兩詞在此文本中的語義與詞對語義不相符,例如:文本“枸杞病蟲害可持續(xù)調(diào)控技術(shù)”中包含病蟲害調(diào)控的含義,但與枸杞調(diào)控?zé)o關(guān),因此該文本中“病蟲害”“調(diào)控”兩詞組成的詞對與兩詞在文本中的語義相符,而“枸杞”“調(diào)控”兩詞組成的詞對與兩詞在文本中的語義不相符。本文主要通過分析語義相符詞對數(shù)與可搭配詞對數(shù)的比率特征來發(fā)現(xiàn)文本中兩詞語關(guān)聯(lián)性規(guī)律。
(2)提取文本中的詞語,并以標(biāo)點符號為分隔號標(biāo)記它們所在段、句、分句,同時對段、句、分句按順序進行編號。其中段分隔號有:“回車符”“換行符”,測試中多段落文本取的是同一標(biāo)題下相連的段落,且限制在三個自然段以內(nèi);句分隔號有:問號、驚嘆號、分號、句號;分句不包含任何標(biāo)點符號,其分隔號有:逗號、頓號、冒號、破折號、引號、書名號、括號等。
2.2 測試過程
2.2.1 建立測試平臺并錄入信息
首先根據(jù)需求建立測試平臺,然后選取與“枸杞”相關(guān)的網(wǎng)頁、期刊、圖書等目前常見類型的信息,錄入標(biāo)題、摘要及正文文摘等文本,最后將文本按照段、句、分句等層次進行分割,自動加手動提取文本中的詞語,并標(biāo)記它們所在段、句、分句及分句中的位置。
測試選取的文本樣本共30個,其中網(wǎng)頁6個、論文10個、圖書13個、實體介紹1個,涉及摘要5個、標(biāo)題11個、正文文摘14個,多段落文本2個。提取詞語共936種,稱每個文本中提取的詞語字?jǐn)?shù)與該文本字?jǐn)?shù)(不含標(biāo)點)比率為詞語覆蓋率,本測試平均詞語覆蓋率為0.80,所有文本樣本中最大詞語覆蓋率為1.02,最小詞語覆蓋率為0.57。
2.2.2 人工判斷詞對關(guān)系并獲取測試數(shù)據(jù)
將每個文本中提取的詞語兩兩組合成詞對,并由人工確認(rèn)詞對關(guān)系,可選擇關(guān)系有:默認(rèn)、相符、不相符、不可搭配、同義詞,其中相符與不相符均為可搭配關(guān)系。為排除人為因素,本測試選擇不同專業(yè)不同職稱多個人員對詞對關(guān)系進行判斷,以此獲取測試數(shù)據(jù),共組合詞對26133組,其中可搭配詞對25872組。
3 測試數(shù)據(jù)分析
根據(jù)測試需求對人工確認(rèn)的詞對關(guān)系以多種因素作為標(biāo)準(zhǔn)分組統(tǒng)計出相符數(shù)、不相符數(shù)并進行聚類分析,定義相符率為:相符數(shù)/(相符數(shù)十不相符數(shù))或相符數(shù)/可搭配數(shù),相符率可反映兩詞語在文本中的關(guān)聯(lián)概率。下面從以下幾個方面對兩詞語關(guān)聯(lián)規(guī)律進行分析。
3.1 兩詞語在文本中所處位置差異
根據(jù)詞語所在段、句、分句及分句中的位置可確定詞語在文本中的位置,稱文本中兩詞語中間所夾文本長度(分句數(shù))為詞間距(分句間距)。
測試位于同一分句的兩詞組成的可搭配詞對樣本數(shù)5283組,相符率43.6%,表示同分句中的兩個詞語在文本中的語義有43.6%的可能與這兩個詞語組合成的詞對語義是相符的,即兩個詞出現(xiàn)在同分句中有43.6%的可能是關(guān)聯(lián)的,信息檢索或語義分析時如果同分句中出現(xiàn)需要檢索或分析的兩個詞,那么這條信息有43.6%的可能滿足或符合要求,43.6%這個值可用作相關(guān)度排序依據(jù)。所有文本樣本中最大相符率76.3%,最小相符率24%。圖1中實線是位于同一分句的兩詞組成的詞對相符率隨兩詞間距變化的折線圖,圖中僅取了詞間距對應(yīng)可搭配詞對數(shù)不小于50的數(shù)據(jù)。
當(dāng)兩詞間互相包含(如:abcd、bc)或首末位有交集(如:abc、bcd)時兩詞間距會小于0,此種情況的樣本數(shù)252組,相符率26.2%,本文不做過多分析。由圖1可見,當(dāng)兩詞間距大于等于0時,隨著兩詞間距增大相符率減小。通過SPSS軟件對該數(shù)據(jù)集進行非線行回歸分析,依據(jù)曲線圖型選擇適當(dāng)函數(shù)進行擬合,表1是R方值最大的兩個函數(shù)回歸分析結(jié)果。
圖1中虛線為函數(shù)y=0.554-0.319*LG (x+0.178)的分布曲線。更多函數(shù)回歸分析結(jié)果如下:
冪函數(shù):d+a*(x+c)b,(a>=O;b<=0;c>=0)。參數(shù)值:a=3.724,b=-0. 040,c=0.225,d=-3.160,R方=0.933。
雙曲線函數(shù):1/(a+b/(x+c))+d,(b<=0)。參數(shù)值:a=16.174,b=-373.031,c=25.226,d=0.052,R方=0.915。
指數(shù)函數(shù):a*e(b*(x+c))+d,(a>=O.b<=0)。參數(shù)值:a=0.568,b=-0.333,c=0.206,d=0.208,R方=0.890。
a*e(b/(x+c)+d,(a>=0;b>=0)。參數(shù)值:a=0.566,b=2.478,c=3.221,d=-0.452,R方=0.915。
以上函數(shù)回歸分析R方均接近或大于0.9,說明這些擬合模型能解釋因變量90%左右的變異,擬合效果較好。
位于同句不同分句的兩詞組成的可搭配詞對樣本數(shù)5441組,相符率20.3%。圖2是該情況下詞對相符率隨兩詞所在分句間距變化的折線圖,該圖只取了分句間距對應(yīng)可搭配詞對數(shù)不小于100的數(shù)據(jù)。當(dāng)兩詞位于同句不同分句時相符率在20%附近徘徊,最大24.9%,最小16.7%。
位于同段不同句的可搭配詞對樣本13541組,相符率9.5%。
位于同一文本不同段的可搭配詞對樣本1607組,相符率為1.9%。
3.2 分句長度
將位于同分句的詞對相符數(shù)據(jù)以所在分句長度(不含標(biāo)點符號)進行分組,相符率隨分句長度變化如圖3所示,其中僅取了分句長度對應(yīng)可搭配詞對數(shù)不小于48的數(shù)據(jù)。由圖可知,當(dāng)分句長度小于等于25時曲線兩頭低中間高:小于8時相符率在33%附近;在8-20區(qū)間內(nèi)相符率基本在40%到50%之間;大于20時平均相符率為35%。當(dāng)分句長度大于25時相符率隨分句長度變化波動較大。
3.3 文本類型
表2、表3分別從文本出處(標(biāo)題、摘要、正文文摘)和信息類型(圖書、網(wǎng)頁、論文)兩個方面對文本中位于同分句的兩詞語相符率進行分類統(tǒng)計。表2顯示來自標(biāo)題、摘要、正文文摘等不同出處的詞對相符率差別較大,摘要比正文文摘文本中詞對相符率高出18.7%;表3顯示三種信息類型文本中詞對相符率相差不大。
3.4 詞頻
詞頻和位置對于分析詞語和文獻(xiàn)主題的關(guān)系有重要作用,那么詞語在文本中的詞頻對于它在該文本中與其他詞的關(guān)聯(lián)性是否有影響?對詞語在每個文本中的頻次分別統(tǒng)計,以詞頻進行分組分析,結(jié)果如圖4所示,其中相符率1是先對每個文本以詞頻分組計算相符率,再計算全部樣本中各詞頻相符率的平均值;相符率2是統(tǒng)計每個文本以詞頻分組后的相符數(shù)與不相符數(shù),再合計全部樣本中各詞頻的總相符數(shù)與總不相符數(shù),最后計算得出相符率,這兩組值有所不同,曲線變化卻基本吻合,相符率隨著詞頻的增加在33%與62%之間波動。
詞頻隨文本長度增加而增加,對于某文本中的詞語,稱詞頻與文本字?jǐn)?shù)之商為詞現(xiàn)率,即詞現(xiàn)率一詞頻/文本字?jǐn)?shù),對相符率與詞現(xiàn)率關(guān)系統(tǒng)計分析,結(jié)果如圖5所示。其中相符率是先對每個文本以詞現(xiàn)率分組計算相符率,再計算全部樣本中各詞現(xiàn)率對應(yīng)相符率的平均值,可見,相符率與詞現(xiàn)率沒有明顯函數(shù)關(guān)系。
4 結(jié)論及下一步研究方向
4.1 結(jié)論
詞對所限制語義與構(gòu)成詞對的兩詞在文本中語義的相符率反映了兩詞語在文本中的關(guān)聯(lián)概率。由以上測試數(shù)據(jù)可以得出如下結(jié)論:
(1)同分句中兩個詞關(guān)聯(lián)概率為43.6%,當(dāng)兩詞語相連(詞間距為0)時關(guān)聯(lián)概率為79.7%,關(guān)聯(lián)概率隨著詞間距的增加而減小,與對數(shù)函數(shù)y-0.554 -0.319*LG(x+0.178)及y=0.554 -0.139*LN(x+0.178)的擬合度較高。位于同句不同分句時兩詞語關(guān)聯(lián)概率降低為20.3%,不到同分句時的一半,沒有發(fā)現(xiàn)兩詞語關(guān)聯(lián)概率隨著它們所在分句間距的增加而減小或增大的趨勢,只是在20%附近上下波動。位于文本不同段或者不同句時兩詞語關(guān)聯(lián)概率低于10%,相對于前面的情況此時兩詞語關(guān)聯(lián)規(guī)律的研究意義相對較小。
(2)位于同分句的兩詞語關(guān)聯(lián)概率隨分句長度變化而波動。分句長度在8-20時,兩詞關(guān)聯(lián)概率穩(wěn)定在45%附近,相對較高;分句長度小于8時關(guān)聯(lián)概率在33%附近,相對較低且穩(wěn)定;分句長度大于20時關(guān)聯(lián)概率有減小趨勢,平均關(guān)聯(lián)概率為35%;分句長度大于24時關(guān)聯(lián)概率波動較大。
(3)標(biāo)題、摘要和正文等詞語出處影響到詞語關(guān)聯(lián)概率,概括和總結(jié)性文本中詞語關(guān)聯(lián)概率較高。圖書、論文和網(wǎng)頁等不同信息類型文本中詞語關(guān)聯(lián)概率差別不大,都在平均值43.6%附近,即沒有發(fā)現(xiàn)信息類型對詞語關(guān)聯(lián)概率的明顯影響。
(4)位于同分句的兩詞關(guān)聯(lián)概率隨詞語在文本中詞頻的增加而波動,但維持在40%附近,沒有發(fā)現(xiàn)關(guān)聯(lián)概率隨詞頻的增加而有減小或增大的趨勢。
4.2 不足及下一步研究方向
(1)測試樣本不足。因每一條樣本數(shù)據(jù)都來自人工標(biāo)注,局限于樣本數(shù),本測試將文本樣本限制到單一領(lǐng)域,選擇了枸杞相關(guān)文本,分析結(jié)果可在該領(lǐng)域內(nèi)應(yīng)用,對于其他領(lǐng)域或更大領(lǐng)域內(nèi)是否具有同樣的結(jié)論需要進一步研究。
(2)只對中文詞語關(guān)聯(lián)規(guī)律進行分析,沒有對外文進行分析。從語義角度來看,無論什么語種詞語關(guān)聯(lián)規(guī)律都會存在,但在分詞技術(shù)及語法上中外文有所不同,因此外文詞語關(guān)聯(lián)規(guī)律也會表現(xiàn)出不同結(jié)果,尤其是英文用空格分割詞語,分詞更加準(zhǔn)確,詞語關(guān)聯(lián)規(guī)律也將表現(xiàn)得更加明顯。
(3)僅對標(biāo)點符號進行了分類,沒有分析不同標(biāo)點符號對詞語關(guān)聯(lián)的影響。本文結(jié)論中位于同句不同分句的兩詞關(guān)聯(lián)概率為20.3%,不到同分句時的一半,由于位于不同分句的兩詞語詞間距比同分句的大,且兩詞語關(guān)聯(lián)概率隨詞間距增加而減少,同時不同分句的兩詞由標(biāo)點符號分割,各標(biāo)點符號的作用和意義不同,因此針對標(biāo)點符號對所分割的詞語關(guān)聯(lián)性是否有影響、影響大小等問題的分析具有實際意義,需進一步研究。
(4)未考慮詞法、句法、詞性、專指度、與文本主題相關(guān)性等特性對詞語關(guān)聯(lián)概率的影響。表4是統(tǒng)計位于同分句的詞對中以詞進行分組且詞對樣本數(shù)不低于30的數(shù)據(jù)。其中“信息數(shù)”指包含該詞語的文本數(shù),為了避免單一文本對統(tǒng)計結(jié)果的影響,表4只取了信息數(shù)大于1的樣本,從中可以看出不同詞語相符率相差很大.這其中是否有規(guī)律可循尚需研究。
(5)沒有對兩個詞以上的詞對關(guān)聯(lián)規(guī)律進行分析。檢索線索往往不只包含兩個詞語,多個詞語對語義范圍的限制更加具體,分析多詞語在文本中的關(guān)聯(lián)規(guī)律不但可以滿足用戶檢索需求而且可以提高信息檢索、語義分析等操作結(jié)果的準(zhǔn)確性。
5 結(jié)語
本文結(jié)論不足以支撐文本中兩詞語是否關(guān)聯(lián)的確定,測試首先是通過人工確認(rèn)兩詞語是否關(guān)聯(lián),然后以不同標(biāo)準(zhǔn)通過分組的形式對關(guān)聯(lián)與不關(guān)聯(lián)的數(shù)據(jù)進行聚類分析以發(fā)現(xiàn)其中存在的規(guī)律性,當(dāng)將這些規(guī)律應(yīng)用于詞語間關(guān)聯(lián)關(guān)系的計算時,計算結(jié)果與人工確認(rèn)的關(guān)系能達(dá)到一定程度匹配(按照二八定律,須達(dá)到80%的匹配率)時,文本中詞語關(guān)聯(lián)規(guī)律才能支撐詞語關(guān)聯(lián)關(guān)系的確定。
雖然已發(fā)現(xiàn)的詞語關(guān)聯(lián)規(guī)律不足以支撐文本中兩詞語關(guān)聯(lián)關(guān)系的確定,但其中計算文本中兩詞語關(guān)聯(lián)概率的結(jié)論可以用于許多領(lǐng)域。搜索系統(tǒng)利用倒排索引進行預(yù)搜索實現(xiàn)數(shù)據(jù)過濾,獲取盡量小的滿足用戶需求的結(jié)果集,其中索引技術(shù)是當(dāng)前主流檢索系統(tǒng)的主要技術(shù)之一,記錄有關(guān)鍵詞在文本中出現(xiàn)的次數(shù)和位置,在現(xiàn)有索引技術(shù)的基礎(chǔ)上利用文本中兩詞語關(guān)聯(lián)規(guī)律可提升搜索系統(tǒng)的質(zhì)量。結(jié)論應(yīng)用于信息過濾可排除更多不符合需求的信息,提高數(shù)據(jù)過濾的準(zhǔn)確性,為關(guān)鍵詞檢索、排序技術(shù)提供一種科學(xué)的信息相關(guān)度排序依據(jù),為文本內(nèi)容、語義分析以及建立語義索引梳理出新的可行方法。