張雷瀚,呂學(xué)強(qiáng),李 卓
(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京100101)
縮略語(yǔ)作為一類典型的未登錄詞,在給人們的交流提供便利的同時(shí),也給自然語(yǔ)言處理帶來(lái)了很多挑戰(zhàn)。例如,漢語(yǔ)分詞、機(jī)器翻譯以及信息檢索等都無(wú)法避開(kāi)縮略語(yǔ)問(wèn)題。解決這些問(wèn)題需要縮略語(yǔ)對(duì)照表資源的支撐,而自由文本中縮略語(yǔ)的自動(dòng)抽取是獲取縮略語(yǔ)資源的方法之一。
縮略語(yǔ)(記為A),在構(gòu)造形態(tài)上是由一個(gè)較長(zhǎng)的短語(yǔ)經(jīng)過(guò)壓縮、概括等操作,形成的長(zhǎng)度縮短、意義不變的特殊“短語(yǔ)”。壓縮之前的形式稱為完整形式或全稱(記為F)。為了方便,下文使用“縮略語(yǔ)對(duì)”表示“縮略語(yǔ)與對(duì)應(yīng)完整形式”(記為(A,F(xiàn)))。
完整形式變換為縮略語(yǔ)有3種主要形式:縮合、截略和統(tǒng)括[1]。所謂縮合,是指將完整形式按照語(yǔ)義分成幾部分,保留各部分中最能代表原義的字或詞組合成為縮略語(yǔ),如“調(diào)研(調(diào)查/研究)”。所謂截略,是指截取完整形式中某個(gè)連續(xù)的子字串作為縮略語(yǔ),如“解放軍(中國(guó)人民解放軍)”。所謂統(tǒng)括,是指把完整形式的并列成分中共有的字、詞或短語(yǔ)抽取出來(lái),在其之前添加相應(yīng)的數(shù)詞或者數(shù)量短語(yǔ),組合形成縮略語(yǔ),如“三軍(陸軍、空軍、海軍)”。根據(jù)縮略語(yǔ)的形成方式,可以把縮略語(yǔ)相應(yīng)地分為3類:縮合類、截略類和統(tǒng)括類。
目前已經(jīng)有很多針對(duì)縮略語(yǔ)的研究。英語(yǔ)縮略語(yǔ)的研究工作主要集中在縮略語(yǔ)與完整形式的對(duì)應(yīng)關(guān)系挖掘以及歧義消解。對(duì)應(yīng)關(guān)系挖掘是指從文本中抽取縮略語(yǔ)及對(duì)應(yīng)完整形式,得到縮略語(yǔ)與完整形式對(duì)照表。Okazaki[2]等提出了一個(gè)基于最大熵判別式的縮略語(yǔ)識(shí)別模型。此外,Stevenson[3]等使用樸素貝葉斯和支持向量機(jī),對(duì)英語(yǔ)縮略語(yǔ)的歧義消解進(jìn)行了研究。
漢語(yǔ)縮略語(yǔ)與英語(yǔ)縮略語(yǔ)有很大不同。其一,漢字本身蘊(yùn)涵語(yǔ)義信息,而英文字母本身不代表特別的概念,這就導(dǎo)致漢語(yǔ)縮略語(yǔ)與英語(yǔ)縮略語(yǔ)的形成方式有所不同;其二,漢語(yǔ)縮略語(yǔ)中的非一對(duì)一現(xiàn)象遠(yuǎn)遠(yuǎn)少于英語(yǔ)縮略語(yǔ)。
鑒于以上不同,漢語(yǔ)縮略語(yǔ)的相關(guān)研究主要集中在:完整形式的縮略、縮略語(yǔ)的擴(kuò)展、縮略語(yǔ)識(shí)別以及縮略語(yǔ)與完整形式的對(duì)應(yīng)關(guān)系挖掘[4]。Sun[5]利用支持向量回歸的方法對(duì)完整形式的縮略進(jìn)行了研究。焦妍[6]利用條件隨機(jī)場(chǎng)對(duì)完整形式進(jìn)行標(biāo)注,獲得縮略語(yǔ)候選,然后借助搜索引擎對(duì)候選縮略語(yǔ)重新排序。謝麗星[7]從搜索日志和錨文字的主題相關(guān)性出發(fā)獲取候選縮略語(yǔ)對(duì),準(zhǔn)確率達(dá)到了68.3%。該研究以搜索日志和錨文字為實(shí)驗(yàn)語(yǔ)料,方法本身具有一定的特殊性。劉友強(qiáng)[8]提出了一種從英漢平行語(yǔ)料庫(kù)中獲取中文縮略語(yǔ)的方法。
綜上所述,當(dāng)前縮略語(yǔ)對(duì)應(yīng)關(guān)系挖掘的相關(guān)研究存在一些不足之處:方法僅適用于某些特殊的語(yǔ)料,通用性不強(qiáng);操作復(fù)雜,且自動(dòng)化程度不高;對(duì)應(yīng)關(guān)系挖掘的準(zhǔn)確率較低。
對(duì)袁暉的《現(xiàn)代漢語(yǔ)縮略語(yǔ)詞典》[9]中八千余條縮略語(yǔ)對(duì)進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)縮合類縮略語(yǔ)占據(jù)了八成以上的比例。據(jù)此,本文以縮合類縮略語(yǔ)為研究對(duì)象,提出了一種從自由文本中自動(dòng)抽取縮略語(yǔ)對(duì)的方法。分析縮略語(yǔ)與完整形式的詞性構(gòu)成規(guī)律,設(shè)計(jì)詞性模板匹配法,獲取候選縮略語(yǔ)與候選完整形式;并按照“字對(duì)齊”和“一對(duì)一”等約束規(guī)則匹配得到候選縮略語(yǔ)對(duì)。通過(guò)分析縮略語(yǔ)與完整形式之間的關(guān)聯(lián)特性,分別從新聞文檔、百科知識(shí)、搜索引擎的錨文字以及《知網(wǎng)》等相關(guān)資源中獲取縮略語(yǔ)對(duì)的3組特征,構(gòu)造決策樹(shù),進(jìn)而判別候選縮略語(yǔ)對(duì)的真?zhèn)巍?/p>
縮略語(yǔ)和完整形式的識(shí)別是縮略語(yǔ)對(duì)應(yīng)關(guān)系挖掘的基礎(chǔ)。觀察發(fā)現(xiàn),縮略語(yǔ)和完整形式的詞性構(gòu)成存在一定的統(tǒng)計(jì)規(guī)律,且二者之間存在字詞對(duì)應(yīng)和統(tǒng)計(jì)共現(xiàn)的特性。據(jù)此,本文提出了詞性模板匹配法和基于規(guī)則的縮略語(yǔ)配對(duì)法。
當(dāng)前很多研究借助專用分詞詞典對(duì)縮略語(yǔ)進(jìn)行定位。然而,縮略語(yǔ)的數(shù)量龐大,且隨著時(shí)代的變遷而不斷消失和產(chǎn)生。這就意味著要花費(fèi)大量的人力、資金構(gòu)造來(lái)維護(hù)此類詞典。此外,縮略語(yǔ)的領(lǐng)域性和地域性也增加了構(gòu)造這類詞典的難度。
在術(shù)語(yǔ)抽取領(lǐng)域,短語(yǔ)的詞性結(jié)構(gòu)常被作為挖掘候選術(shù)語(yǔ)的依據(jù)。類似的,縮略語(yǔ)與完整形式也存在一定的詞性結(jié)構(gòu)。對(duì)《現(xiàn)代漢語(yǔ)縮略語(yǔ)詞典》[2]收錄的縮略語(yǔ)對(duì)進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)縮略語(yǔ)的詞性模板頻次分布遵循帕雷托法則(Pareto principle),即二八定律——約20%的詞性模板的出現(xiàn)頻次占據(jù)了約80%的模板總頻次。完整形式的詞性模板頻次分布也遵循同樣的規(guī)律。限于篇幅,只給出縮略語(yǔ)的詞性模板頻次分布圖,如圖1所示。
圖1 縮略語(yǔ)詞性模板的散點(diǎn)分布
上述詞性模板頻次的分布規(guī)律意味著,可以使用頻次較高的詞性模板從文本中抽取候選縮略語(yǔ)和完整形式。選擇頻次大于α的詞性模板,分別構(gòu)建縮略語(yǔ)和完整形式的詞性模板庫(kù),依次記為T(mén)A和TF。表1列舉了縮略語(yǔ)的部分詞性模板,其中“?!贝頋h字。類似的,表2給出了完整形式的部分詞性模板實(shí)例。
表1 縮略語(yǔ)詞性模板實(shí)例
表2 完整形式的詞性模板實(shí)例
有研究指出,漢語(yǔ)中長(zhǎng)度大于、等于4的縮略語(yǔ)僅占總量不足1%的比例[5]。因此,根據(jù)構(gòu)建的詞性模板,利用模式匹配的思想,獲取字長(zhǎng)小于4且出現(xiàn)頻次大于β的認(rèn)定為候選縮略語(yǔ);字長(zhǎng)大于、等于4且出現(xiàn)頻次大于γ的認(rèn)定為候選完整形式。因?yàn)榭s略語(yǔ)通常比完整形式有著更高的使用率,所以參數(shù)β的取值應(yīng)大于參數(shù)γ。
縮合類縮略語(yǔ)中的字或詞與完整形式中的詞語(yǔ)存在一定的對(duì)應(yīng)關(guān)系,即縮略語(yǔ)中的每個(gè)字或詞都能在完整形式中找到一個(gè)詞與之對(duì)應(yīng),本文將這一現(xiàn)象稱為字面關(guān)聯(lián)。此外,在文檔集中,縮略語(yǔ)與其對(duì)應(yīng)的完整形式趨向于聚集出現(xiàn)于同一篇文檔的相鄰區(qū)域內(nèi),本文將這種現(xiàn)象稱為統(tǒng)計(jì)共現(xiàn)。綜上,縮略語(yǔ)和完整形式在字面和統(tǒng)計(jì)兩個(gè)方面存在一定的關(guān)聯(lián)關(guān)系。本文從這兩個(gè)方面出發(fā),定義若干約束規(guī)則,對(duì)候選縮略語(yǔ)和候選完整形式進(jìn)行配對(duì)。
定義 縮略語(yǔ)與完整形式的對(duì)應(yīng)關(guān)系約束是一個(gè)三元組R=(Ai,F(xiàn)j,A(Ai,F(xiàn)j)),其中,Ai表示候選縮略語(yǔ),F(xiàn)j表示候選完整形式,A(Ai,F(xiàn)j)表示Ai和Fj必須滿足的約束規(guī)則集。
在對(duì)約束規(guī)則進(jìn)行詳細(xì)說(shuō)明之前,列出將要使用的符號(hào)及函數(shù)。
s1、s2和s3代表字符串;
set表示文本集;
LCS(s1,s2)表示s1和s2的最長(zhǎng)公共子序列;
uncon(s1,s2)表示s2不是s1的子字符串;
S(s1,λ)表示在百度搜索中搜索s1的返回結(jié)果集,即在百度搜索引擎中查找s1時(shí)返回的前λ條搜索結(jié)果的摘要集合;
exist(s1,set)表示字符串s1存在于文本集set中;
DF(s1,s2)表示字符串s1和s2在文檔集中共現(xiàn)的文檔數(shù)。
下面介紹約束規(guī)則:
約束規(guī)則1:非子串規(guī)則
形式表示
直觀意義:對(duì)于縮合類縮略語(yǔ),縮略語(yǔ)不能是完整形式的連續(xù)子字符串。
約束規(guī)則2:最長(zhǎng)公共子序列規(guī)則
形式表示
直觀意義:縮略語(yǔ)中的每個(gè)字都可以映射到完整形式中,且在完整形式中必須有字詞與之對(duì)應(yīng)。
約束規(guī)則3:交叉共現(xiàn)規(guī)則
形式表示
直觀意義:縮略語(yǔ)與對(duì)應(yīng)完整形式在文本中存在共現(xiàn)規(guī)律,而搜索引擎返回的結(jié)果蘊(yùn)含豐富的縮略語(yǔ)信息。從統(tǒng)計(jì)的角度分析,縮略語(yǔ)應(yīng)該在完整形式的搜索返回結(jié)果中出現(xiàn)或者完整形式應(yīng)該在縮略語(yǔ)的搜索返回結(jié)果中出現(xiàn)。
約束規(guī)則4:一對(duì)一規(guī)則
形式表示
直觀意義:本文研究的是一對(duì)一的縮略語(yǔ)現(xiàn)象,對(duì)于一個(gè)候選縮略語(yǔ)對(duì)應(yīng)多個(gè)候選完整形式的現(xiàn)象,文檔共現(xiàn)數(shù)最多的候選縮略語(yǔ)與候選完整形式最有可能是正確的縮略語(yǔ)對(duì)。
規(guī)則1和規(guī)則2是依據(jù)縮合類縮略語(yǔ)的字面關(guān)聯(lián)特性設(shè)定的。規(guī)則3和規(guī)則4是利用縮略語(yǔ)與完整形式的統(tǒng)計(jì)共現(xiàn)特性,篩選得到一對(duì)一的候選縮略語(yǔ)對(duì)。
縮略語(yǔ)的形成受很多因素的影響,很難找到覆蓋所有縮略語(yǔ)現(xiàn)象的完全統(tǒng)一的規(guī)律。分析縮略語(yǔ)與完整形式之間的關(guān)聯(lián)關(guān)系,借助內(nèi)外界資源,總結(jié)出3組關(guān)聯(lián)特征,把候選縮略語(yǔ)對(duì)的判別問(wèn)題轉(zhuǎn)換為二元分類問(wèn)題——候選縮略語(yǔ)與候選完整形式是否匹配。利用.3組特征構(gòu)造ADTree(alternating decision tree)[10],進(jìn)而對(duì)候選縮略語(yǔ)對(duì)進(jìn)行過(guò)濾。
ADTree的算法思想最早由Freund和Mason提出,是一種基于AdaBoost[11]的決策樹(shù)學(xué)習(xí)算法。ADTree不同于一般的決策樹(shù),它的構(gòu)成節(jié)點(diǎn)可以分為兩類:一類是預(yù)測(cè)節(jié)點(diǎn),另一類是決策節(jié)點(diǎn)。每個(gè)預(yù)測(cè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)預(yù)測(cè)值。每個(gè)決策節(jié)點(diǎn)對(duì)應(yīng)一個(gè)分裂判斷,訓(xùn)練集中的樣本元組經(jīng)過(guò)一次分裂測(cè)試被劃分到相應(yīng)的預(yù)測(cè)節(jié)點(diǎn)中。ADTree模型通常通過(guò)t次迭代產(chǎn)生,t為經(jīng)驗(yàn)值。一次迭代由評(píng)估分裂測(cè)試和執(zhí)行分裂兩個(gè)部分組成。前者評(píng)估所有的預(yù)測(cè)節(jié)點(diǎn),得到最優(yōu)分裂測(cè)試。后者只需對(duì)節(jié)點(diǎn)進(jìn)行劃分,生成新節(jié)點(diǎn)并更新樣本元組。
ADTree能夠有效地模擬小規(guī)模數(shù)據(jù)集中復(fù)雜的分類規(guī)則,多次迭代能夠保證較高的分類準(zhǔn)確率和魯棒性。而縮略語(yǔ)與完整形式之間的關(guān)聯(lián)關(guān)系也比較復(fù)雜,且縮略語(yǔ)的數(shù)據(jù)集規(guī)模也相對(duì)較小。因此,本文采用ADTree模型處理候選縮略語(yǔ)對(duì)的分類問(wèn)題。
構(gòu)造模型的關(guān)鍵是特征的選擇。分析發(fā)現(xiàn),縮略語(yǔ)與完整形式之間存在多種關(guān)聯(lián)特征:縮略語(yǔ)和完整形式的字面語(yǔ)義相近、縮略語(yǔ)的構(gòu)成字詞趨向于均勻地分布于完整形式中、縮略語(yǔ)與完整形式在文本中的上下文存在一定的相似性[12]、縮略語(yǔ)與完整形式在百科文本中通常以關(guān)聯(lián)的形式出現(xiàn)、縮略語(yǔ)與完整形式在搜索引擎的錨本文中存在共現(xiàn)現(xiàn)象、縮略語(yǔ)與完整形式在文本集中有較高的文檔共現(xiàn)頻率。以上特征可以歸為3組:內(nèi)在關(guān)聯(lián)特征、外部語(yǔ)義特征和外部統(tǒng)計(jì)特征。內(nèi)在關(guān)聯(lián)特征描述的是縮略語(yǔ)與對(duì)應(yīng)完整形式本身存在字面關(guān)聯(lián)和語(yǔ)義同指特性;外部語(yǔ)義特征是指縮略語(yǔ)與對(duì)應(yīng)完整形式的上下文語(yǔ)境存在一定的關(guān)聯(lián);外部統(tǒng)計(jì)特征指的是縮略語(yǔ)與對(duì)應(yīng)完整形式在大規(guī)模文本集中所呈現(xiàn)出的統(tǒng)計(jì)規(guī)律。
2.2.1 內(nèi)在關(guān)聯(lián)特征
縮略語(yǔ)的形成遵循等義性原則,即縮略語(yǔ)表示的意義要與完整形式一致??s略語(yǔ)和完整形式都是由若干字或詞組成的短語(yǔ),并且二者的組成字詞之間存在一定的對(duì)應(yīng)關(guān)系。本文提出基于《知網(wǎng)》的縮略語(yǔ)對(duì)相似度計(jì)算方法,通過(guò)計(jì)算縮略語(yǔ)與完整形式之間對(duì)應(yīng)字詞的語(yǔ)義相似度,得到縮略語(yǔ)與完整形式的語(yǔ)義相似度。
基于《知網(wǎng)》的詞匯相似度計(jì)算方法[13],可以比較準(zhǔn)確地計(jì)算兩個(gè)中文詞匯(單字詞或多字詞)的語(yǔ)義相似度。假設(shè)ui和vj為兩個(gè)中文詞匯,可以得到二者基于《知網(wǎng)》的語(yǔ)義相似度sim(ui,vj)。對(duì)于縮合類縮略語(yǔ),構(gòu)成縮略語(yǔ)的每個(gè)字都存在于完整形式中,而構(gòu)成完整形式的詞語(yǔ)在縮略語(yǔ)中卻并非都有對(duì)應(yīng)的縮略式。因此,可以把構(gòu)成完整形式的詞語(yǔ)分為兩類:在縮略語(yǔ)中存在對(duì)應(yīng)縮略式的一類和不存在對(duì)應(yīng)縮略式的一類,依次用S1和S2表示。設(shè)A和F分別為縮略語(yǔ)及對(duì)應(yīng)的完整形式,相應(yīng)的S1={u1,u2,…,um},S2={w1,w2,…,wn},集合S1中的詞語(yǔ)在縮略語(yǔ)中對(duì)應(yīng)的縮略式集合為S3={v1,v2,…,vm}。例如,對(duì)于“二/戰(zhàn)”和“第二/次/世界/大戰(zhàn)”,相應(yīng)的S1={“第二”,“大戰(zhàn)”},S2={“次”,“世界”},S3={“二”,“戰(zhàn)”}。借助《知網(wǎng)》語(yǔ)義相似度計(jì)算方法,計(jì)算A和F的語(yǔ)義相似度HS(A,F(xiàn)),方法如下
其中,m和n分別表示詞集S1和S2包含元素的個(gè)數(shù),sim(uk,vk)表示S1和S3中對(duì)應(yīng)字詞uk和vk的相似度,若二者的相似度為零,則使用一個(gè)極小值替代。
(2)縮略語(yǔ)對(duì)的覆蓋均勻度
丁遠(yuǎn)鈞[14]提出了縮略語(yǔ)對(duì)于完整形式的詞匯覆蓋重心的概念,以描述二者語(yǔ)義重心的重合度。完整形式通常由多個(gè)詞語(yǔ)組成,在變換為縮略語(yǔ)時(shí),完整形式的一個(gè)或多個(gè)詞語(yǔ)可能被省略,但縮略語(yǔ)的構(gòu)成字詞趨向于均勻地分布在完整形式中。本文把縮略語(yǔ)中的字詞在完整形式中分布的均勻程度稱為覆蓋均勻度,用以描述縮略語(yǔ)與對(duì)應(yīng)完整形式之間字詞覆蓋的位置特性。
延用本節(jié)第一部分對(duì)A、F、S1和S2這4個(gè)變量的定義,設(shè)S1={u1,u2,…,um},S2={w1,w2,…,wn},cen(F)表示縮略語(yǔ)A對(duì)于完整形式F的詞匯覆蓋重心,直觀意義為完整形式F中S1類詞匯的位置中心。U(A,F(xiàn))表示A和F的覆蓋均勻度,量化表示為完整形式的S2類詞語(yǔ)相對(duì)于cen(F)的距離的算術(shù)平均值
其中,loc(wk)表示wk在完整形式中相對(duì)于最左端詞語(yǔ)的以詞為單位的位置偏移量。
2.2.2 外部語(yǔ)義特征
除此以外,惡劣天氣還影響車速、交通流量等。綜合而言,惡劣天氣對(duì)道路交通系統(tǒng)各要素的交通特性都有不同程度的負(fù)面影響,直接影響人們的工作生活出行。
(1)上下文相似度
縮略語(yǔ)與對(duì)應(yīng)完整形式的指代意義相同,在同樣的文本環(huán)境使用時(shí)存在一定的可替換性,可以認(rèn)為二者具有相似的上下文[12]。因此,可以通過(guò)計(jì)算縮略語(yǔ)和完整形式上下文的相似度來(lái)反應(yīng)縮略語(yǔ)與完整形式的匹配關(guān)系。
在文本中搜索包含目標(biāo)短語(yǔ)的語(yǔ)句。由于不同的縮略語(yǔ)和完整形式在文本中出現(xiàn)的頻次不同,抽取得到的對(duì)應(yīng)語(yǔ)句的數(shù)量也相差很大??紤]上下文相似度計(jì)算的可操作性和有效性,從得到的包含目標(biāo)短語(yǔ)的語(yǔ)句中隨機(jī)選擇ε個(gè),并從目標(biāo)短語(yǔ)的上文和下文各提取δ個(gè)詞,最終獲得A的上下文文本B(A),以及F的上下文文本B(F)。
文本對(duì)象T可以形式化地表示為T(mén)F(term frequency)向量TV=(tv1,tv2,…,tvn),其中tvi的取值為字典中第i個(gè)詞在語(yǔ)料中的出現(xiàn)頻次,i=1…n,n為字典收錄字詞的數(shù)量。對(duì)于B(A)和B(F),分別提取二者的TF特征向量TVA和TVF,通過(guò)計(jì)算向量TVA和TVF的余弦距離得到A和F的上下文相似度CS A,(F)
(2)基于百科知識(shí)的模式關(guān)聯(lián)度
互聯(lián)網(wǎng)的百科知識(shí)系統(tǒng)是利用“眾包”(Crowdsourcing)的力量得到的知識(shí)庫(kù),通過(guò)大量人員整理、分析和篩選構(gòu)建而成,蘊(yùn)含豐富的可信度較高的縮略語(yǔ)信息。目前,百度百科收錄了六百多萬(wàn)個(gè)詞條,互動(dòng)百科收集了七百多萬(wàn)個(gè)詞條。在這龐大的知識(shí)庫(kù)中,大量的縮略語(yǔ)與對(duì)應(yīng)完整形式以關(guān)聯(lián)的模式出現(xiàn)。如百度百科對(duì)縮略語(yǔ)“臺(tái)?!庇腥缦陆忉屛谋?臺(tái)灣海峽(Taiwan Strait),簡(jiǎn)稱“臺(tái)?!?。
對(duì)縮略語(yǔ)和完整形式在百科知識(shí)庫(kù)中的關(guān)聯(lián)出現(xiàn)現(xiàn)象進(jìn)行觀察和分析后,總結(jié)得到一個(gè)關(guān)聯(lián)模式集。表3列舉了本文總結(jié)出的4類關(guān)聯(lián)模式,其中“*”代表漢字或者英文,“|”表示“或者”。
表3 關(guān)聯(lián)模式及實(shí)例
如果候選縮略語(yǔ)對(duì)在百科知識(shí)中以前文所述的關(guān)聯(lián)模式出現(xiàn),那么二者匹配的概率就很大。本文提出基于百科知識(shí)的模式關(guān)聯(lián)度的概念,在百科知識(shí)中,縮略語(yǔ)和完整形式能以表3中某種模式出現(xiàn),則認(rèn)定二者是關(guān)聯(lián)的,用“1”量化這種關(guān)聯(lián)現(xiàn)象,否則認(rèn)為二者基于百科知識(shí)不關(guān)聯(lián),記為“0”。
2.2.3 外部統(tǒng)計(jì)特征
(1)基于搜索引擎的匹配度
焦妍[6]和謝麗星[7]的研究表明,搜索引擎的返回結(jié)果作為一種主題針對(duì)性較強(qiáng)的摘要性文本,蘊(yùn)含密集的縮略語(yǔ)信息,對(duì)縮略語(yǔ)的對(duì)應(yīng)關(guān)系挖掘有很強(qiáng)的輔助作用??s略語(yǔ)和對(duì)應(yīng)完整形式的統(tǒng)計(jì)共現(xiàn)規(guī)律在搜索引擎的返回結(jié)果中表現(xiàn)為:二者很可能共同出現(xiàn)于同一段摘要中。本文提出了基于搜索引擎的匹配度的概念,以縮略語(yǔ)和對(duì)應(yīng)的完整形式在搜索引擎返回的摘要文本中的共現(xiàn)頻次為主要依據(jù),反映二者匹配程度的強(qiáng)弱。
候選縮略語(yǔ)對(duì)有3種主題組合方式:候選縮略語(yǔ)、候選完整形式和二者添加線索詞后的組合形式。例如,“北大”、“北京大學(xué)”和“北京大學(xué)簡(jiǎn)稱北大”。針對(duì)候選縮略語(yǔ)對(duì)的3類主題,可以得到相應(yīng)的3類主題的返回結(jié)果。本文調(diào)用百度搜索分別得到3類主題的返回結(jié)果的前λ條摘要信息:SA表示以候選縮略語(yǔ)為查詢對(duì)象獲取的摘要文本集、SF表示以候選完整形式為查詢對(duì)象得到的摘要文本集、SAF表示以候選縮略語(yǔ)對(duì)的線索詞連接文字串為查詢對(duì)象獲取的摘要文本集。設(shè)T表示文本集,str表示字符串,CF(A,F(xiàn),T)表示A和F在T中的共現(xiàn)頻次,C(T,str)表示str在T中出現(xiàn)的頻次。由于搜索引擎返回結(jié)果中的某些摘要信息為空,所以實(shí)際得到的摘要數(shù)目并非都為λ條,實(shí)際條數(shù)用size表示。
可以由式(5)計(jì)算得到基于文本集SA的A和F匹配度W1(A,F(xiàn))
其中,C(SA,F(xiàn))和C(SA,A)分別表示在摘要文本集SA中,候選縮略語(yǔ)A和候選完整形式F出現(xiàn)的頻次,CF(A,F(xiàn),SA)表示候選縮略語(yǔ)A和候選完整形式F在摘要集SA中共現(xiàn)的摘要數(shù)目。η為經(jīng)驗(yàn)值,用于調(diào)節(jié)兩個(gè)共現(xiàn)頻次的影響權(quán)重。
類似的,可以計(jì)算由摘要文本集SF得到的A和F匹配度W2(A,F(xiàn))
這里η與式(5)相同。
由摘要文本集SAF得到的A和F匹配度W3(A,F(xiàn))
(2)文檔共現(xiàn)頻次比
縮略語(yǔ)與對(duì)應(yīng)完整形式在大量文本中呈現(xiàn)出一定的統(tǒng)計(jì)規(guī)律。從單一文檔的角度出發(fā),當(dāng)縮略語(yǔ)在正文中的某個(gè)位置出現(xiàn),對(duì)應(yīng)的完整形式在其附近的語(yǔ)句中出現(xiàn)的概率很大。這種分布規(guī)律反應(yīng)到文檔集中就表現(xiàn)為,二者共現(xiàn)的文檔數(shù)與二者各自出現(xiàn)的文檔數(shù)乘積的比值較大,本文稱這個(gè)比值為文檔共現(xiàn)頻次比。二者的文檔共現(xiàn)頻次比越大,候選縮略語(yǔ)和對(duì)應(yīng)的候選完整形式的匹配度就越高。
設(shè)CDF(A,F(xiàn))表示候選縮略語(yǔ)對(duì)(A,F(xiàn))在文檔集中共同出現(xiàn)的文檔數(shù),DF(A)和DF(F)分別表示候選縮略語(yǔ)A和候選完整形式F在文檔集中出現(xiàn)的文檔數(shù)。A和F的文檔共現(xiàn)頻次比W4(A,F(xiàn))的計(jì)算方法如下
本文以2008年1-6月的搜狐新聞為實(shí)驗(yàn)語(yǔ)料,從中選擇軍事、旅行和健康3個(gè)領(lǐng)域的文本。經(jīng)過(guò)去重、過(guò)濾等預(yù)處理,最終得到軍事類文檔14449篇,旅行類文檔19883篇,健康類文檔31859篇。把實(shí)驗(yàn)分為候選縮略語(yǔ)對(duì)的獲取和構(gòu)造ADTree進(jìn)行縮略語(yǔ)對(duì)的過(guò)濾兩個(gè)階段進(jìn)行。
對(duì)候選縮略語(yǔ)對(duì)的抽取結(jié)果,以準(zhǔn)確率和候選縮略語(yǔ)對(duì)的數(shù)量作為評(píng)價(jià)指標(biāo);對(duì)ADTree的分類結(jié)果統(tǒng)計(jì)6個(gè)指標(biāo)進(jìn)行評(píng)價(jià):ADTree模型判定為正確的縮略語(yǔ)對(duì)數(shù)量T1、判定為正確的縮略語(yǔ)對(duì)中實(shí)際正確的數(shù)量T2、候選縮略語(yǔ)對(duì)中實(shí)際正確的數(shù)量T3、準(zhǔn)確率P、召回率R和F值,其中
以袁暉的《現(xiàn)代漢語(yǔ)縮略語(yǔ)詞典》[2]中的8321條縮略語(yǔ)對(duì)為數(shù)據(jù)源,選擇在百度開(kāi)放的搜索日志中出現(xiàn)過(guò)的3200條。使用ICTCLAS2013分詞工具對(duì)縮略語(yǔ)和完整形式分詞,按照1.1節(jié)所述方法,分別得到包含389個(gè)模板的縮略語(yǔ)詞性模板庫(kù)和包含472個(gè)模板的完整形式詞性模板庫(kù)。利用這些模板,分別從3個(gè)領(lǐng)域的語(yǔ)料抽取候選縮略語(yǔ)和完整形式,并采用基于規(guī)則的方法進(jìn)行縮略語(yǔ)與完整形式的配對(duì),得到候選縮略語(yǔ)對(duì)的結(jié)果。結(jié)果評(píng)測(cè)數(shù)據(jù)見(jiàn)表4。本步驟中的參數(shù)模板頻次閾值α、候選縮略語(yǔ)頻次閾值β、候選完整形式頻次閾值γ和抽取搜索引擎摘要的條數(shù)λ分別取1、60、50和50,均為經(jīng)驗(yàn)值。
觀察表4數(shù)據(jù)可知,從語(yǔ)料規(guī)模的角度看,隨著實(shí)驗(yàn)數(shù)據(jù)中文檔數(shù)量的增加,獲取的縮略語(yǔ)對(duì)數(shù)量也呈逐漸增加的趨勢(shì);從3類語(yǔ)料中獲取的候選縮略語(yǔ)的準(zhǔn)確率處于34%到45%之間,匯總后的候選縮略語(yǔ)集的準(zhǔn)確率為36.86%;獲取的候選縮略語(yǔ)對(duì)的數(shù)量不夠豐富??偨Y(jié)以上結(jié)論,利用基于詞性模板和規(guī)則匹配的方法能夠獲取一定數(shù)量的縮略語(yǔ)對(duì),但是獲取的數(shù)量并不夠豐富。究其原因主要有以下3點(diǎn):①受限于縮略語(yǔ)詞典的規(guī)模以及縮略語(yǔ)本身的多變性,詞性模板庫(kù)不可能覆蓋所有的縮略語(yǔ)現(xiàn)象;②配對(duì)約束規(guī)則過(guò)于嚴(yán)格,導(dǎo)致一部分縮略語(yǔ)對(duì)的流失;③獲取的搜索引擎返回結(jié)果的數(shù)量不夠充足,對(duì)應(yīng)的共現(xiàn)語(yǔ)料的稀疏削弱了共現(xiàn)信息的影響效力。
表4 候選縮略語(yǔ)對(duì)的數(shù)量及準(zhǔn)確率
本階段設(shè)計(jì)兩組實(shí)驗(yàn),分別用來(lái)對(duì)比每組特征的影響力和評(píng)估本文方法的有效性。
第一組實(shí)驗(yàn),以上一階段抽取得到的候選縮略語(yǔ)對(duì)的匯總為實(shí)驗(yàn)數(shù)據(jù),分別使用內(nèi)在關(guān)聯(lián)、外部語(yǔ)義、外部統(tǒng)計(jì)以及所有特征的組合構(gòu)造ADTree模型。將實(shí)驗(yàn)數(shù)據(jù)隨機(jī)分成10份,進(jìn)行10組交叉訓(xùn)練和測(cè)試,統(tǒng)計(jì)相應(yīng)的P、R和F值。對(duì)比每組特征的影響力,實(shí)驗(yàn)數(shù)據(jù)和效果分別見(jiàn)圖2和表5。圖表中的“未使用特征的準(zhǔn)確率”為分類前候選縮略語(yǔ)對(duì)匯總集的準(zhǔn)確率,用以與采用特征分類后的準(zhǔn)確率進(jìn)行對(duì)比。
圖2 不同特征組合的ADTree分類結(jié)果
表5 ADTree模型實(shí)驗(yàn)結(jié)果
由實(shí)驗(yàn)數(shù)據(jù)可知:①采用任何一種特征進(jìn)行分類后,準(zhǔn)確率都有大幅提升;②相比之下,內(nèi)在關(guān)聯(lián)特征與外部語(yǔ)義特征能保證較高的準(zhǔn)確率,但只有外部統(tǒng)計(jì)特征能夠得到較高的召回率,這說(shuō)明內(nèi)在關(guān)聯(lián)特征和外部語(yǔ)義特征對(duì)縮略語(yǔ)現(xiàn)象的覆蓋率不高,也間接反映了縮略語(yǔ)內(nèi)在結(jié)構(gòu)的多變性和語(yǔ)義理解的復(fù)雜性;③當(dāng)3組特征聯(lián)合使用時(shí),3個(gè)評(píng)價(jià)指標(biāo)都達(dá)到了最高值,驗(yàn)證了ADTree模型能夠較好地融合3組特征。綜上,縮略語(yǔ)的形成受多種因素的影響,很難找到單一的規(guī)律描述所有的縮略語(yǔ)現(xiàn)象。采用多種特征相組合的方式,選擇合適的機(jī)器學(xué)習(xí)方法,可以近似地對(duì)縮略語(yǔ)現(xiàn)象建模;此外,鑒于縮略語(yǔ)的結(jié)構(gòu)多變性和語(yǔ)義理解的復(fù)雜性,除了進(jìn)一步探究其結(jié)構(gòu)和語(yǔ)義特征之外,利用知識(shí)庫(kù)對(duì)縮略語(yǔ)進(jìn)行相關(guān)研究是個(gè)不錯(cuò)的選擇。
第二組實(shí)驗(yàn),分別在3個(gè)領(lǐng)域的候選縮略語(yǔ)對(duì)集和三者的匯總集上,綜合使用所有特征構(gòu)造ADTree模型。進(jìn)行10組交叉訓(xùn)練和測(cè)試。統(tǒng)計(jì)對(duì)應(yīng)的6個(gè)指標(biāo):T1、T2、T3、P、R和F值,實(shí)驗(yàn)結(jié)果見(jiàn)表6。本步驟中參數(shù)上下文取詞個(gè)數(shù)δ、上下文選取語(yǔ)句個(gè)數(shù)ε和權(quán)重調(diào)節(jié)參數(shù)η分別取2、50和0.5。
表6 ADTree模型實(shí)驗(yàn)結(jié)果
分析表6可知,在ADTree模型分類中,隨著實(shí)驗(yàn)數(shù)據(jù)量的增加,分類的準(zhǔn)確率保持平穩(wěn),召回率和F值都有穩(wěn)步的提升;在匯總后的候選縮略語(yǔ)對(duì)集合上,準(zhǔn)確率達(dá)到了最高的72.1%,召回率也達(dá)到了66%的平均水平,而綜合評(píng)價(jià)指標(biāo)也保持著較高的水平。與同類方法相比,本文方法獲取的縮略語(yǔ)對(duì)準(zhǔn)確率達(dá)到了72.1%,這比文獻(xiàn)[7]方法的68.3%要好;其次,本文方法有較強(qiáng)的通用性和可擴(kuò)展性,能夠應(yīng)用到其它領(lǐng)域語(yǔ)料的縮略語(yǔ)對(duì)應(yīng)關(guān)系挖掘中。
本文給出了一種從自由文本中自動(dòng)抽取縮略語(yǔ)對(duì)的方法。提出詞性模板匹配方法和基于規(guī)則的縮略語(yǔ)配對(duì)方法。利用縮略語(yǔ)與完整形式之間的多種特征構(gòu)造ADTree模型。相比于前人研究,本文方法突破了語(yǔ)料的限制,可以在保證較高準(zhǔn)確率的前提下,從自由文本中抽取一定數(shù)量的縮略語(yǔ)對(duì)。此外,本文方法有著較強(qiáng)的通用性,可以作為構(gòu)造大規(guī)??s略語(yǔ)對(duì)照表的參考方法。本文方法仍存在一些局限,對(duì)縮略語(yǔ)的類別和字長(zhǎng)都有一定的限制。下一步將在縮略語(yǔ)的配對(duì)約束規(guī)則及縮略語(yǔ)的非一對(duì)一現(xiàn)象等方面開(kāi)展進(jìn)一步的研究工作。
[1]WANG Houfeng.Survey:Abbreviation processing in Chinese text[J].Journal of Chinese Information Processing,2011,25(5):60-67(in Chinese).[王厚峰.漢語(yǔ)縮略語(yǔ)自動(dòng)處理研究現(xiàn)狀[J].中文信息學(xué)報(bào),2011,25(5):60-67.]
[2]Okazaki N,Ananiadou S,Tsujii J.A discriminative alignment model for abbreviation recognition[C]//Proceedings of the 22nd International Conference on Computational Linguistics,2008.
[3]Stevenson Mark,Guo Yikun,Abdulaziz Al Amri,et al.Disambiguation of biomedical abbreviations[C]//Proceedings of the Workshop on BioNLP,2009.
[4]YANG Hua,HONG Yu,HUA Zhenwei,et al.Combination method of rules and statistics for abbreviation and its full name recognition[C]//Proceedings of the International Conference on Informatics,Cybernetics,and Computer Engineering,2012:707-714.
[5]Xu Sun,Wang Hofeng,Bo Wang.Predicting Chinese abbreviations from definitions:An empirical learning approach using support vector regression[J].Journal of Computer Science and Technology,2008,23(4):602-611.
[6]JIAO Yan,WANG Houfeng,ZHANG Longkai.Abbreviation prediction using conditional random field and Web data[J].Journal of Chinese Information Processing,2012,26(2):61-68(in Chinese).[焦妍,王厚峰,張龍凱.基于條件隨機(jī)場(chǎng)與Web數(shù)據(jù)的縮略語(yǔ)預(yù)測(cè)[J].中文信息學(xué)報(bào),2012,26(2):61-68.]
[7]XIE Lixing,SUN Maosong,TONG Zijian,et al.Identification of Chinese abbreviations using query log and anchor text[C]//Chinese Computational Linguistics Research Frontier,2009(in Chinese).[謝麗星,孫茂松,佟子健,等.基于用戶查詢?nèi)罩竞湾^文字的漢語(yǔ)縮略語(yǔ)識(shí)別[C]//中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展,2009.]
[8]LIU Youqiang,LI Bin,XI Ning,et al.A bilingual corpus based approach to Chinese abbreviation extraction[J].Journal of Chinese Information Processing,2012,26(2):69-74(in Chinese).[劉友強(qiáng),李斌,奚寧,等.基于雙語(yǔ)平行語(yǔ)料的中文縮略語(yǔ)提取方法[J].中文信息學(xué)報(bào),2012,26(2):69-74.]
[9]YUAN Hui,RUAN Xianzhong.Modern Chinese abbreviations dictionary[M].Beijing:Language and Literature Press,2002(in Chinese).[袁暉,阮顯忠.現(xiàn)代漢語(yǔ)縮略語(yǔ)詞典[M].北京:語(yǔ)文出版社,2002.]
[10]Freund Y,Mason L.The alternating decision tree learning algorithm[C]//Proceeding of the Sixteenth International Conference on Machine Learning,1999:124.
[11]Freund Y,Schapire RE.A decision-theoretic generation of on-line learning and an application to boosting[G].LNCS 904:Computational Learning Theory.London:Springer-Verlag London,1995:23-37.
[12]Akira Terada,Takenobu Tokunaga,Hozumi Tanaka.Automatic expansion of abbreviations by using context and character information[J].International Journal of Information Processing and Management,2004,40(1):31-45.
[13]LIU Qun,LI Sujian.Word similarity computing based on Hownet[J].Computational Languistic and Chinese Information Processing,2007,31(7):59-76(in Chinese).[劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].計(jì)算機(jī)語(yǔ)言學(xué)及中文信息處理,2007,31(7):59-76.]
[14]DING Yuanjun.Extracting abbreviated names for Chinese entities from the Web[J].Computer Science,2012,39(3):174-182(in Chinese).[丁遠(yuǎn)鈞.從中文Web網(wǎng)頁(yè)中獲取實(shí)體簡(jiǎn)稱的研究[J].計(jì)算機(jī)科學(xué),2012,39(3):174-182.]