王厚峰
(北京大學 信息科學技術(shù)學院,北京 100871;北京大學 計算語言學教育部重點實驗室,北京 100871)
縮略語是自然語言中的一種典型現(xiàn)象,廣泛存在于不同語言中。例如,漢語中的“非典”是由“非典型性肺炎”縮略的,對應(yīng)于英語的縮略語“SARS”則來自于完整形式“Severe Atypical Respiratory Syndrome”;日語中的“健保連”由“健康保険組合連合會”縮略而成;德語的“KGI”由“Katholische Glaubensinformation”縮略而成;法語的“RDI”由“Le Réseau d’Information”縮略而成[1]。據(jù)統(tǒng)計,在漢語新聞文章中,有大約20%的句子可能含有縮略語[2-3]。自然語言處理毫無疑問地不能避開縮略語問題。
所謂縮略語,在構(gòu)形上是一個或多個詞經(jīng)過壓縮和變序而形成的長度縮短,意義不變的特殊“詞”。壓縮之前的形式稱為完整形式、原形語或者定義式。
上述定義是非形式化的。雖然語言學上已有相當多的研究,但目前并沒有被廣泛認可的縮略語形式化定義或界定準則。我們知道,漢語詞的界定缺乏形式準則,縮略語的界定同樣如此,而且縮略語與普通詞之間的界限還存在模糊。如“美”既可以是普通詞又可以是“美國”的縮略;并且不少縮略語也會固化為普通詞,例如,由“鐵車路”縮略而成的“鐵路”以及由“高等學校統(tǒng)一招生考試”縮略成的“高考”,現(xiàn)在大多不再認為是縮略語。因為縮略語界定有一定的難度,所以使縮略語的處理在一開始就遇到了很大困難。對漢語而言,縮略語的界定是縮略語識別的基礎(chǔ),而縮略語的識別直接影響詞切分的性能??s略語是未登錄詞的主要來源,有分析認為,未登錄詞造成的切詞精度失落比歧義切分精度的失落大5.6~14.2倍[4]。
同其他的未登錄詞一樣,縮略語還會導(dǎo)致自然語言處理的其他困難,甚至還會造成理解上的障礙。例如,在1998年1月2日的《人民日報》中一篇文章上有這樣一句話: “中國還廣泛認真地參與了聯(lián)合國大會有關(guān)人權(quán)、裁軍、維和、經(jīng)社、環(huán)發(fā)和科技等總計160多項議題的審議”,在本句中,人們也不容易在所給的這一局部上下文理解縮略語“經(jīng)社”和“環(huán)發(fā)”。
理解縮略語的關(guān)鍵是確定對應(yīng)的完整形式。完整形式很可能與縮略語同現(xiàn)于上下文,此時的理解就是建立彼此間的關(guān)聯(lián),即所謂的銜接[5];但并不是在所有情況下,兩種形式都會同時出現(xiàn)在上下文中。為了解釋這類縮略語,還需要有一部縮略語與完整形式的對照表。然而,兩者之間并不總是一對一的關(guān)系,例如,“人大”可以是“人民代表大會”,也可以是“中國人民大學”。對于這樣的情況,還需要進行 “詞義消歧”;當然,這類現(xiàn)象在英語中更突出。例如,縮略語 CIA除了表示美國中央情報局(Central Intelligence Agency)以外,還可以表示很多其他的完整形式,2010年8月初通過英語縮略語網(wǎng)站 http://acronymfinder.com 查詢縮略語“CIA”,結(jié)果返回了110個完整形式。
縮略語對信息檢索之類的典型應(yīng)用也有很大的影響。有的文檔可能只含有檢索項對應(yīng)的縮略語,有些可能只含有完整形式。如果用戶給出的檢索條目只有其中一種形式,就會導(dǎo)致目標文檔的漏檢。我們曾在一個月份的《人民日報》語料上檢索“歐洲經(jīng)濟與貨幣聯(lián)盟”,只檢索到了約20%的目標文檔,漏檢的目標文檔不含有“歐洲經(jīng)濟與貨幣聯(lián)盟”,只含有縮略語“歐盟”。當然,為了減少漏檢,可以同時輸入兩種形式的檢索項,但這樣無疑會加重用戶的負擔。特別是有的完整形式可能對應(yīng)著多個縮略語,如“中央電視臺”可以縮略為“中央臺”或者“央視”;有的還可以多重縮略。例如,“道·瓊斯股票價格平均指數(shù)”縮略成“道·瓊斯指數(shù)”,還可以進一步縮略為“道指”。
縮略語與完整形式之間多對多的關(guān)系也不少見。在百度上分別使用檢索詞“華師”,“華師大”搜索,結(jié)果發(fā)現(xiàn)這兩個縮略語都被大量使用,而且都可以是“華東師范大學”、“華中師范大學”和“華南師范大學”;此外,三所大學分別還可以有縮略語“華東師大”、“華中師大”和“華南師大”。這種多對多的關(guān)系如圖1所示。
圖1 多縮略語與多完整形式對應(yīng)關(guān)系
上述分析表明,無論作為一種典型的語言現(xiàn)象本身,還是對語言分析的影響以及實際的應(yīng)用需求,都要求對縮略語問題展開深入系統(tǒng)的研究。目前從計算的角度開展的研究相對還不多,但不乏有一些值得總結(jié)的方法。本文的主要目的是針對漢語的縮略語處理研究的現(xiàn)狀和問題進行分析。為借鑒其他語言縮略語處理的方法,本文還簡要總結(jié)了英語縮略語的研究現(xiàn)狀,并比較了兩種語言縮略語在處理上的差異。
一般認為,縮略語與完整形式之間具有等價關(guān)系,但事實上,兩者至少在用法上存在差異。例如,“物超所值”的縮略語“超值”,可以用于“這套家具十分超值”,但幾乎不能替換成“這套家具十分物超所值”。馬慶株先生對縮略語功能和性質(zhì)作了研究[6],他認為:
(1) 縮略語既是常用的,又是定型的。常用體現(xiàn)為它在一定時期、一定范圍內(nèi)經(jīng)常會被使用,有的縮略語在一段時間的使用之后甚至取代了其完整形式的地位,如“高中(高級中學)”、“鐵路(鐵車路)”等。定型則體現(xiàn)在縮略語一旦確定就很難改變。
(2) 大部分縮略語受到時空限制,少數(shù)被長期廣泛使用。有的縮略語具有地域性、行業(yè)性,例如,“第一汽車制造廠”在長春常被簡稱作“汽車廠”,而全國范圍內(nèi)則一般被簡稱作“一汽”;同樣,合肥的“科大”指“中國科技大學”,長沙的“科大”則指“國防科學技術(shù)大學”;此外,“清華大學”,在大陸縮略成“清華”,而在臺灣縮略成“清大”。
(3) 縮略是形成新詞的一種重要手段,新的縮略語每天都在產(chǎn)生,因而縮略語具有開放性,并且數(shù)量巨大。
從完整式向縮略語變換有三種主要形式: 縮合、截略和統(tǒng)括[7]。
所謂縮合,是指將完整形式按意義分成幾個部分,然后從各部分中抽取最能代表原義的語素(或詞)保留,省掉其他部分。例如,“郵編(郵政/編碼)”、 “政協(xié)(政治/協(xié)商/會議)”、“老少邊窮地區(qū)(老區(qū)、少數(shù)民族地區(qū)、邊疆地區(qū)、窮困地區(qū))”、“特別聯(lián)大(聯(lián)合國/大會/特別/會議)”和“中西醫(yī)(中醫(yī)、西醫(yī))”。
所謂截略,是指在完整形式中,直接截取其中某個連續(xù)的子串作為縮略語。例如,“清華(清華大學)”、解放軍(中國人民解放軍)”和“也門(阿拉伯也門共和國)”。
所謂統(tǒng)括,是指把完整形式的并列短語中原詞語所共有的一個詞或語素抽取出來,然后在它之前加上表示原詞語數(shù)目的數(shù)詞或數(shù)量短語,省略其余部分。例如,“兩漢(西漢、東漢)”和 “三老(當老實人、說老實話、辦老實事)”。
上述的三種變換形式涵蓋了大部分的對應(yīng)關(guān)系,但有些縮略語并不簡單的由某種對應(yīng)關(guān)系產(chǎn)生。如“參眾兩院(參議院、眾議院)”和“四總部(總參謀部、總政治部、總后勤部、總裝備部)”,都不能單獨采用上述任何一種方式生成。此外,縮合和截略之間有時具有交叉性,例如,“甘(甘肅)”和“清華(清華大學)”從構(gòu)詞上看實際是兩種很不一樣的縮略方式——“甘”不是一個可成詞的成分,而“清華”在一定程度上可以認為是一個可成詞的成分,從這個角度看,“甘(甘肅)”似乎更適合歸入“縮合”而非“截略”。
自然語言處理在詞層面上的兩個關(guān)鍵問題是識別與解釋,而縮略語的解釋很大程度上依賴于其完整形式。因此,漢語縮略語處理分成以下四種情況。
(1) 縮略語識別
縮略語識別就是判斷哪些字串是縮略語,這在漢語中尤其突出。因為漢語的書面表達是漢字(有時會包含特殊字符)流,沒有明顯的詞界限。漢語縮略語的識別包括分界和判別兩個方面,對應(yīng)于分詞和分類(是縮略語/不是縮略語)。
(2) 縮略語與完整形式的對應(yīng)關(guān)系挖掘
對應(yīng)關(guān)系挖掘就是從文本中獲取縮略語及其完整形式,形成縮略語與完整形式對照表,為縮略語解釋服務(wù)。縮略語和完整形式很可能在文本中同現(xiàn),特別是當一個新的縮略語出現(xiàn)的時候。在這種情況下,可以利用上下文信息獲取對應(yīng)關(guān)系。
(3) 完整形式的縮略: 縮略語預(yù)測
縮略語預(yù)測就是依據(jù)完整形式推測可能的縮略語。根據(jù)情況不同,縮略語預(yù)測的難度也不相同。例如,在有對照表的情況下可以利用對照表;在沒有對照表的情況下,如果有上下文信息,可以利用上下文信息;最難的情況是只有“孤立”的完整形式(如信息檢索的檢索項),而沒有任何上下文信息。
(4) 縮略語的擴展: 完整形式預(yù)測
完整形式預(yù)測是指在給定縮略語的情況下,預(yù)測對應(yīng)的完整形式。這正好是縮略語預(yù)測的逆過程。
在漢語中,上述四類問題都有相應(yīng)的研究。下面分別予以介紹。
漢語縮略語研究中較有代表性的工作當屬Chang[2]。他研究了漢語完整形式的縮略語預(yù)測、縮略語向完整形式的擴展及其在漢語切詞中的運用。
為了在切詞過程中識別縮略語,Chang會先將“疑似”縮略語按一定準則還原為完整形式,然后在沒有縮略語的詞序列上建立模型。Chang的這一處理實際上隱含著一個假設(shè): 縮略語與完整形式具有等價關(guān)系。
(2)
其中PA(c|w)為已知對齊A的字符串生成概率,它可通過如下式子估算:
Chang的方法有較嚴格的約束,如公式(1)。此外,還要求完整形式中的每個詞必須至少有一個字在縮略語中出現(xiàn),將“Word-to-Null”的映射排除在外。其實,漢語中有大量的縮略語存在“Word-to-Null”的情況,例如,“甲亢”對應(yīng)的“甲狀腺功能亢進癥”,“非典”對應(yīng)的“非典型性肺炎”,“駕?!睂?yīng)“汽車駕駛員培訓(xùn)學?!币约啊皣艺Z委”對應(yīng)的“國家語言文字工作委員會”。此外,他們的方法還要求縮略后的字順序與完整形式的出現(xiàn)的字順序保持一致,沒有考慮變序問題。
Chang和Teng進一步研究了通過詞縮略成字,再組合生成縮略語[3]。如“臺灣大學”可以看成兩個詞“臺灣”與“大學”,其中,臺灣縮略成“臺”,“大學”縮略成“大”,于是“臺灣大學”縮略成“臺大”。這種分離加組合的模式忽視了完整形式內(nèi)在的關(guān)系。例如,“北京”在形成縮略時,常取“北”;如“北大”,“北影廠”,但是,“北京棉紡廠”則縮成“京棉”,“北京郊區(qū)”縮成“京郊”。同樣是“北京”,在不同情況下所取的縮略字是不一樣的。
在縮略語向完整形式的擴展方面,F(xiàn)u 也做了類似于Chang的工作。基本思想是將“壓縮”、“截略”、“統(tǒng)括”三種對應(yīng)關(guān)系劃分成兩大類,“壓縮”作為第一類,“截略”和“統(tǒng)括”均作為第二類,兩類各自生成完整形式的候選,然后再利用HMM 模型對每一候選打分[8]。
對于第一類擴展,主要利用縮略語中的短形式(主要是縮略語中的字)和可能包含該短形式的詞構(gòu)成映射關(guān)系,然后將映射后的詞順次連接成完整形式的候選。例如:
工: 工業(yè)/工程/工會/工作/……
委: 委員/委員會/委內(nèi)瑞拉/……
由于每一個短形式(如上面的縮略字)對應(yīng)的詞表可能很大,通過組合后得到的候選完整形式的數(shù)目也將十分龐大。
對于第二類擴展,主要通過“縮略語—完整形式”對照表形成對應(yīng)的完整形式。例如:
三通: 通郵、通商、通航;
世貿(mào): 世界貿(mào)易組織。
當然,如果已經(jīng)有了對照表,再查表是比較容易的,但通常沒有這樣的對照表,即便有,也是難以窮盡的,因為新的縮略語在不斷增加之中。
與上述情況相對的是預(yù)測某個完整形式的縮略語,孫栩?qū)@一問題進行了較為系統(tǒng)的研究[9]。這里所指的縮略語預(yù)測,是在沒有上下文的情況下,孤立地對一個(或多個)詞可能的縮略語進行預(yù)測。
孫栩首先研究了基于支持向量回歸(SVR)的縮略語預(yù)測方法,這實際上是一種排序方法,即,對于預(yù)測的各個可能候選,通過回歸方式計算得分,分值在 [0, 1] 之間,值越大,成為正確縮略語的可能性也越大。在訓(xùn)練時,參考答案對應(yīng)的值為1,其余的情況按串的相似程度計算。在模型中,引入了五類特征模板: 映射模式特征,詞特征(完整形式中的哪些詞類的詞可能被完全忽視,哪些詞類的詞中會有字保留在縮略語中),字特征,形成特征和長度特征。其中,映射模式類似于Chang的bit縮略模式;詞特征則用于表示完整形式中的哪些詞類的詞可能被完全忽視;哪些詞類的詞中會有字保留在縮略語中;字特征表示哪些類型的字可能保留在縮略語中;形成特征表示了縮略語與完整形式之間的概念對應(yīng)關(guān)系,例如,“上影廠”和“北工大”可以認為服從同一個概念結(jié)構(gòu)“地名+行業(yè)名+機構(gòu)名后綴”,并通過聚類獲取這種關(guān)系。
孫栩提出的另一種方法是在序列標注的基礎(chǔ)上引入了隱變量的模型[10]。下面圖2是一般的序列標注模型和帶隱變量的序列模型。
帶隱變量的序列模型可以形式化為式(5):
其中,y=y1y2…ym,x=x1x2…xm,h=h1h2…h(huán)m。
圖2 一般序列標注與帶隱變量的標注模型
在不帶隱變量的序列標注模型,比較了兩種標注方法,第一種引入標注集{p,s}: 如果某個字標成p,則該字出現(xiàn)在縮略語中;反之,如果標為s,則略去;第二種序列標注方法是建立p和s之間的聯(lián)系,這種聯(lián)系通過p的下標和s 的下標表示,基本思想如下:
(1) 第一個p的下標總是為1;
(2) 每個p的下標都是在前一個p的下標基礎(chǔ)上加1;
(3) 每個s 的下標總是與其前面最近的p的下標一樣;如果前面沒有p,s的編號為0。
以“香港武術(shù)聯(lián)合會”縮略為“港武聯(lián)”為例,兩種序列標注見圖3。
圖3 兩種序列標注
從圖3可以看出,后一種標注考慮了更大距離的上下文關(guān)聯(lián),其實驗也表明,得到的結(jié)果更好。
此外,計峰針對漢語機構(gòu)名(主要是公司企業(yè)名和高校名)的縮略(作者稱為簡稱)預(yù)測也使用序列標注方式[11]。通過CRF模型對完整形式中的每個字作{0,1}標注。該方法特別強調(diào)了地名在縮略時的作用。
縮略語擴展和縮略語預(yù)測的困難都是因為缺乏縮略語與完整形式對照表,或者對照表不夠全。因此,挖掘照應(yīng)關(guān)系是縮略語處理的最重要任務(wù)之一。
崔世起等人研究了在大規(guī)模的語料中自動抽取漢語縮略語與對應(yīng)的完整形式[12]?;舅枷肜谩白帧~”對齊關(guān)系,輔之以概率模型抽取“縮略語—完整形式”對。不過,他們嚴格限定了兩者之間的對應(yīng)關(guān)系,規(guī)定:
(1) 縮略語中的每個字都唯一映射到完整形式中的某一個詞;
(2) 完整形式中的每一個詞也都唯一映射到縮略語中的某一個字;
(3) 不存在序列的重排。
上述限制與Chang的限制基本是一致的,因此,也存在類似的不足。
孫栩使用機器學習方法研究了漢語縮略語與完整形式的挖掘。以縮略語與潛在的完整形式的上下文以及兩者的相對位置作為特征,進行正負類的分類判斷[13]。
Li 在漢英機器翻譯中,研究了縮略語的翻譯問題,基本思想是將未知的漢語縮略語轉(zhuǎn)換為對應(yīng)的完整形式,然后再翻譯為英語。為了便于轉(zhuǎn)換,他們研究了在大規(guī)模的漢語語料中挖掘相應(yīng)的完整形式。在挖掘中,主要用到了共現(xiàn)頻率[14]。
Liu 通過Web 資源,研究了漢語縮略語的完整形式挖掘方法[15]?;舅枷胧窍扔貌糠挚s略語和完整形式的對應(yīng)關(guān)系作為實例,通過搜索引擎獲取結(jié)果片段,學習能反映兩者關(guān)系的“幫助詞表”,再利用幫助詞表和搜索引擎,獲取含有可能完整形式候選的片段,利用啟發(fā)式規(guī)則得到候選集合,再利用KNN排序得到最后的完整形式。
謝麗星利用查詢?nèi)罩竞湾^文件以及相關(guān)的URL作為橋梁,挖掘漢語縮略語和完整形式匹配對[16]。不過,查詢?nèi)罩镜墨@取是一個問題。
上述挖掘方法都是用了網(wǎng)絡(luò)資源。網(wǎng)絡(luò)上含有豐富的信息,可以通過利用相同的鏈接(如機構(gòu)名與其縮略相同網(wǎng)址)以及通過大量網(wǎng)絡(luò)數(shù)據(jù)擴大兩者同現(xiàn)的可能性來挖掘?qū)?yīng)關(guān)系。
Chang工作的一個重要內(nèi)容是漢語縮略語識別。即,在切詞過程中,識別出漢語的縮略語。另一方面,縮略語識別可以采取排除方法,即,排除哪些不是縮略語。漢語的詞可以分為一般的詞典詞、命名實體、數(shù)值(包括日期)以及縮略語為代表的衍生成詞[17],縮略語屬于衍生詞。
孫栩在沒有限定縮略語類型的情況下,研究了漢語縮略語的識別問題[18]。其思想是先進行分詞處理,包括命名實體和日期數(shù)字識別,不能識別的部分作為“未知詞”;然后再對未知詞使用SVM分類器進行分類處理,以判斷是否為縮略語。當然,“未知詞”并不一定恰好為一個“詞”,也可能包含多個。為此,該方法將縮略語的長度限定為2~4個漢字,并進行詞的形態(tài)分析,視情況還可能將未知詞分割為多個“詞單元”。
也有研究只考慮命名實體的縮略語(或簡稱)識別。如Sun使用簡單的啟發(fā)式規(guī)則來識別人名、地名和機構(gòu)名的縮略語[19]。他們分別使用了三條啟發(fā)式規(guī)則:
(1) 人名縮略語: 如果一個姓后面跟了一個職務(wù)頭銜,則認為此字符序列為一個人名縮略語。例如,“左/校長”。
(2) 地名縮略語: 如果兩個地名縮寫(有一個地名縮寫表用來識別地名縮寫)連續(xù)出現(xiàn),則認為此字符序列在總體上也是一個地名縮寫。例如,“中/日/關(guān)系”中的“中/日”。
(3) 機構(gòu)名縮略語: 如果機構(gòu)名縮寫(有一個機構(gòu)名縮寫表用來識別機構(gòu)名縮寫)后面跟了一個地名,然后又跟了一個機構(gòu)名關(guān)鍵詞,則認為這三個部分在總體上形成了一個機構(gòu)名縮略語。例如,“中共/北京/市委”。
與 Sun 類似,沈嘉懿研究了機構(gòu)名簡稱(主要是縮略語)的識別問題,也是通過引入相應(yīng)的規(guī)則實現(xiàn)[20]。
命名實體的縮略語規(guī)律性相對明顯,處理相對容易,處理的效果也好一些。
英語縮略語與漢語縮略語的生成方式表面上看大同小異,但實際上有著很大的不同。
其一,漢字本身具有語義,在生成漢語縮略語時,很大程度上也會考慮漢字語義的代表性。人們即便未見過縮略語的完整形式,常常也能推測可能的意義,其原因就在于此。這在英語中幾乎是不可能的,因為英語的字母本身不代表特別概念;其二,由于上面的原因,漢語縮略語通常體現(xiàn)著某種隱含的概念結(jié)構(gòu)。例如,“哈爾濱工業(yè)大學”縮略成“哈工大”,“中國科學技術(shù)大學”縮略成“中科大”,兩者都具有: 地名縮略+行業(yè)屬性縮略(如工業(yè)、科學技術(shù))+分類屬性縮略(大學)。同樣“北京電影制片廠”(北影廠)和“亞洲游泳聯(lián)合會”(亞泳聯(lián))也屬于這種結(jié)構(gòu); 其三,在漢語的縮略語與完整形式之間雖然也存在一對多、多對一和多對多的關(guān)系,這種非一對一的關(guān)系相對于英語而言要少得多。
基于上述情況,兩種語言的研究側(cè)重點也有所不同。在漢語中,孤立地由完整形式預(yù)測縮略語或由縮略語預(yù)測完整形式都有一定的可行性,但在英語中,如果沒有對照表和上下文,進行兩種預(yù)測幾乎是不可能的。因此,英語縮略語處理研究的重點之一是挖掘縮略語與完整形式的對應(yīng)關(guān)系,盡可能完善對照表;此外,縮略語對應(yīng)多完整形式的情況也相對嚴重,有研究表明,在MEDLINE摘要中,81%的縮略語有歧義,且平均義項 (sense) 數(shù)達到了16[21]。因此,英語縮略語的歧義消解是另一個重要的研究內(nèi)容。下面,針對這兩種情況介紹幾種代表性的方法。
在對應(yīng)關(guān)系的挖掘上,Park 和 Byrd利用英語習慣的文本表達形式,提出了基于規(guī)則的處理方法[22]。其一,用特殊的符號識別對應(yīng)關(guān)系,例如,小括號和中括號,括號內(nèi)可能就是完整形式的縮略語或縮略語對應(yīng)的完整形式;其二,使用了特殊的線索詞(例如,stand, short 等);其三,使用了三元組縮略規(guī)則
Chang 使用了動態(tài)規(guī)劃法實現(xiàn)縮略語與完整形式的對齊,類似于找最長公共子序列,找出所有與縮略語對齊的完整形式候選。再從所有對齊中獲得特征向量,并使用邏輯斯蒂回歸進行分類,得到正確的完整形式。該方法屬于有指導(dǎo)的機器學習方法[23]。
Schwartz 和 Hearst 提出了一個簡單而快速的匹配算法來發(fā)現(xiàn)縮略語與對應(yīng)的完整形式[24]。該算法有兩個條件,其一,縮略語的第一個字符必須與完整形式的第一個詞的首字符匹配;其二,縮略語中的其他字符只需要出現(xiàn)在潛在的完整形式中,沒有位置要求,但是順序必須一致。為了加快速度,算法按照從兩者的末端反方向匹配。
Sohn等提出了一種基于準確度自動評估的縮略語與完整形式挖掘方法[25]。他們提出了17種匹配策略盡可能地覆蓋不同構(gòu)型的完整形式。匹配過程和匹配方法與上述Schwartz等人的方法一致,也是反向匹配,縮略語中的每個字需要匹配完整形式中的某個位置的字符,縮略語的首字符的匹配稍有變化,即,縮略語的首字符或者與完整形式的首字符匹配,或者是第一個節(jié)點(包括一般的詞、復(fù)合詞等)中非字母數(shù)字后的第一個字符(例如,Word-Word),此外,完整形式的長度(字符數(shù))應(yīng)大于縮略語的長度。在匹配過程中,縮略語中的非字母數(shù)字字符忽略不考慮。在多個匹配中,利用所謂的Pseudo-precision估計其精確度,以確定兩者之間是否構(gòu)成對應(yīng)關(guān)系。
Okazaki等提出了縮略語與完整形式的判別式對齊方法[26]?;舅枷胧牵粼谀硞€句子中出現(xiàn)了縮略語(在小括號中),就在同一個句子中(如左邊)找完整形式的候選,與縮略語對應(yīng)的候選(有字符對應(yīng)關(guān)系)可能存在多個。假設(shè)某個完整形式候選的字串形式為x=(x1,x2,…xL),縮略語字串為y=(y1,y2,…yM),其對應(yīng)關(guān)系可以由對齊模式表示為a=(a1,a2,…aT),其中,每個ai記錄了字之間的對應(yīng)關(guān)系。例如,ai=(j,k),表示xj映射到y(tǒng)k;如果xj不映射到縮略語中,則,ai=(j,0);當然,如果某個yk不來自于完整形式(如漢語統(tǒng)括式中的數(shù)字或量詞),則,ai=(0,k)。只有當xj與某個yk相同時,才有對齊ai。對齊關(guān)系可以用最大熵模型參數(shù)化:
其中,C(x,y) 是給定的 (x,y) 下可能的對齊集合。他們使用了大量的特征,同時進行組合優(yōu)化。不同的對齊決定了不同的完整形式候選,決策就是取最佳的對齊關(guān)系,表示為:
(7)
在國內(nèi),也有相關(guān)研究。王寶勛等研究了英語縮略語和完整形式挖掘[27]。匹配過程與Schwartz等人的方法類似,同時,也引入系統(tǒng)相似模型對完整形式進行選擇(過濾)。
英語縮略語與完整形式關(guān)系的挖掘相對于漢語而言要復(fù)雜一些,主要的原因是英文只有26個字母,導(dǎo)致可能的對應(yīng)關(guān)系更多。例如,“We investigate the effect of thyroid transcription factor x: 1 (TTF1)...”,假設(shè)只考慮與縮略語“TTF1”同一個句子左邊的完整形式,有8個“T”,3個“F”(假設(shè)不考慮 of ),于是完整形式的候選可以有“transcription factor x: 1”、“thyroid transcription factor x: 1”、“effect of thyroid transcription factor x: 1”等多個[26]。
英語縮略語歧義消解的研究也有不少,從本質(zhì)上看,這一問題可以歸結(jié)為詞義消歧。因此,詞義消歧方法可以用于縮略語消歧中。Stevenson等人作了類似研究[28]。他們使用Na?ve Bayes 和 SVM 兩種有指導(dǎo)的方法,在特征上使用了三類: (1) 縮略語的上下文特征,包括左右搭配特征(詞和詞性2-gram和3-gram),凸顯的2-gram特征以及目標詞左右窗口內(nèi)的unigram特征等,這是詞義消歧中最常使用的特征;(2) 概念唯一性標識(Concept Unique Identifiers,CUI)特征,語料在預(yù)處理后,每個詞(term)都會映射到UMLS定義的 CUI,對于歧義的詞(Term),映射后可能對應(yīng)一個集合。例如句子,“Lean BSA was obtained from height and lean body weight ...”,先分成幾個Chunk,Lean BSA是其中的一個Chunk。映射后,對應(yīng)三個CUI: “C1261466: BSA (Body surface area)”,“C1511233: BSA (NCI Board of Scientific Advisors)” and “C0036774: BSA (Serum Albumin, Bovine)”,如果某個CUI在一個摘要中出現(xiàn)多于2次,便選擇為特征,這類特征在醫(yī)學文本的詞義消歧中也常常使用;(3) 最后一類特征也是與醫(yī)學領(lǐng)域密切相關(guān)的特征,稱為Medical Subject Headings (MeSH),這是一部與生物醫(yī)學和健康相關(guān)的受控詞典,用于手工對文本(摘要)進行標引。
Pakhomov也研究了臨床報告中的縮略語消歧問題[21]。他們在臨床報告中“隨機”選擇了8個縮略語進行實驗,義項數(shù)最少2個,最多13個,8個縮略語長度為2 或 3個字符。主要研究了半指導(dǎo)消歧方法,使用C5.0和基于實例的相似度方法。其中,半指導(dǎo)主要體現(xiàn)在訓(xùn)練語料的構(gòu)造上,通過收集不同義項的語料作為訓(xùn)練數(shù)據(jù)。語料來源于Web網(wǎng),醫(yī)學領(lǐng)域特定的網(wǎng)站以及臨床報告相關(guān)的數(shù)據(jù),語料的獲取方法是用完整形式作為檢索條目,通過調(diào)用Google的API返回相應(yīng)“義項”的上下文,在此基礎(chǔ)上再形成特征向量。
英語縮略語處理的研究也大多針對生物醫(yī)學領(lǐng)域的文本。一方面,生物醫(yī)學上的縮略語特別多,另一方面,有相應(yīng)的評測數(shù)據(jù)。漢語縮略語處理的研究并沒有集中在某個特定的領(lǐng)域,評測語料的建立也是一個問題。
本文主要考察了漢語的縮略語的語言現(xiàn)象及其對自然語言處理的影響,并對生成方式作了分析。針對漢語縮略語對自然語言處理不同層面的影響,本文將漢語縮略語處理劃分為四種不同的類別,包括縮略語識別、縮略語到完整形式的擴展、完整形式到縮略語的預(yù)測以及縮略語與完整形式對應(yīng)關(guān)系的挖掘。然后,結(jié)合這四類問題,對漢語縮略語的研究現(xiàn)狀分別作了介紹和評述。
英語縮略語處理有自身的特點,本文比較并分析了英語縮略語與漢語縮略語的區(qū)別以及處理上的不同,同時,對英語縮略語兩類處理的典型方法作了總結(jié)。
在自然語言處理中,特別是在中文信息處理中,對縮略語處理的研究還不太多,特別是縮略語研究所需資源相對匱乏。目前,北京大學雖然已經(jīng)做了一些工作,例如,收錄了8 000多對縮略語—完整形式對照表,在《人民日報》的一部分語料上標記了縮略語以及同現(xiàn)的完整形式對應(yīng)關(guān)系,但規(guī)模不大。加強縮略語的資源建設(shè)仍然是縮略語研究的一項基礎(chǔ)性工作。
本文將漢語縮略語處理分成四種情況,最核心的問題則是通過分析縮略語與完整形式之間的對應(yīng)關(guān)系,揭示縮略語本身的表層構(gòu)成特點和深層概念結(jié)構(gòu)。表層構(gòu)成特點有助于縮略語自動識別,深層概念結(jié)構(gòu)有助于解釋縮略語。但為了盡可能完整地分析之間的關(guān)系,需要獲得大規(guī)模的對照表,因此,從大規(guī)模語料中自動挖掘兩者之間的對應(yīng)關(guān)系也將是我們要重點研究的問題之一。
[1] Manuel Zahariev. ACRONYMS[D]. PHD thesis, Simon Fraser University, 2004.
[2] J.Chang, Y.Lai. A Preliminary Study on Probabilistic Models for Chinese Abbreviations[C]//Proceedings of the Third SIGHAN Workshop on Chinese Language Learning, 2004, Barcelona, Spain.
[3] J. Chang, W. Teng. Mining Atomic Chinese Abbreviation Pairs: A Probabilistic Model for Single Character Word Recovery[C]//Proceedings of the Third SIGHAN Workshop on Chinese Language Learning, 2006, Sydney, Australia.
[4] 黃昌寧,趙海. 中文分詞十年回顧[J]. 中文信息學報,2007,21(3): 8-19.
[5] Michael Halliday, Ruqaiya Hasan: Cohesion in English[M]. London: Longman. 1976.
[6] 馬慶株. 縮略語的性質(zhì)、語法功能和運用[J]. 語言教學研究,1987,(3): 20-27.
[7] 張小克. 現(xiàn)代漢語縮略語新論[J]. 廣西民族學院學報(哲學社會科學版),2004, 26(3): 112-116.
[8] Guohong Fu, Kang-Kuong Luke, Min Zhang, Guo-Dong Zhou. A Hybrid Approach to Chinese Abbreviation Expansion[C]//Proceedings of ICCPOL. LNAI 4285, 2006, Springer.
[9] Xu Sun, Hou-Feng Wang, Bo Wang. Predicting Chinese Abbreviations from Definitions: An Empirical Learning Approach Using Support Vector Regression[J]. Journal of Computer Science and Technology. Jul. 2008, 23(4): 602-611.
[10] Xu Sun, Naoaki Okazaki, Jun′ichi Tsujii. Robust Approach to Abbreviating Terms: A Discriminative Latent Variable Model with Global Information[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore, 2009.
[11] 計峰,高沫,邱錫鵬,等. 中文機構(gòu)名簡稱的自動生成研究[C]//孫茂松,陳群秀. 中國計算語言學研究前沿進展,北京: 清華大學出版社,2009: 546-550.
[12] 崔世起, 劉群,林守勛,等. 中文縮略語自動抽取初探[C]//孫茂松,陳群秀. 自然語言處理與大規(guī)模內(nèi)容計算,北京: 清華大學出版社,2005: 53-58.
[13] Xu Sun, Houfeng Wang, Yu Zhang. Chinese Abbreviation-Definition Identification: A SVM Approach Using Context Information[C]//Proceedings of PRICAI 2006: Trends in Artificial Intelligence. LNAI-4099, Springer, 2006.
[14] Zhifei Li, David Yarowsky. Unsupervised Translation Induction for Chinese Abbreviations using Monolingual Corpora[C]//Proceedings of ACL-08: HLT, 2008.
[15] Hui Liu, Yuquan Chen, Lei Liu. Automatic Expansion of Chinese Abbreviations by Web Mining[C]//Proceedings of the International Conference on Artificial Intelligence and Computational Intelligence. LNAI 5855, 2009, Springer.
[16] 謝麗星,孫茂松,佟子健,等. 基于用戶查詢?nèi)罩竞湾^文字的漢語縮略語識別[C]//孫茂松,陳群秀.中國計算語言學研究前沿進展.北京: 清華大學出版社,2009:551-556.
[17] J. Gao, M Li, C. Huang. Improved Source-channel Models for Chinese Word Segmentation[C]//Proceedings of the 41st Annual Meeting of Association for Computational Linguistics (ACL). 2003, July: 8-10, Sapporo, Japan.
[18] Xu Sun, Houfeng Wang. Chinese Abbreviation Identification Using Abbreviation-Template Features and Context Information[C]//Proc. of ICCPOL-2006, LNAI-4285, 2006.
[19] J. Sun, J. Gao, L. Zhang, M. Zhou, C. Huang. Chinese Named Entity Identification Using Class-based Language Model[C]//Proceedings of the 19th International Conference on Computational Linguistics(COLING), Taipei, 2002.
[20] 沈嘉懿,李芳,徐飛玉,等. 中文組織機構(gòu)名稱與簡稱的識別[J].中文信息學報,2007,21(6):17-21.
[21] S. Pakhomov, T. Pedersen, C.G. Chute. Abbreviation and Acronym Disambiguation in Clinical Discourse[C]//Proceedingd of the American Medical Informatics Association Annual Symposium, Washington, DC. 2005.
[22] Y. Park, R.J. Byrd. Hybrid Text Mining for Finding Abbreviations and Their Definitions[C]//Proceedings of the 2001 Conference on Empirical Methods in Natural Language Processing, Pittsburgh (USA). 2001 : 126-133.
[23] Chang JT, Schutze H, Altman RB. Creating an Online Dictionary of Abbreviations from MEDLINE[J]. JAMIA, 2002, 9(6).
[24] Schwartz A, Hearst M. A simple algorithm for identifying abbreviation definitions in biomedical texts[C]//Proceedings of the Pacific Symposium on Biocomputing, 2003.
[25] Sohn S, Comeau DC, Kim W, Wilbur WJ. Abbreviation definition identification based on automatic precision estimates[J]. BMC Bioinformatics, 2008,(9).
[26] N. Okazaki, S. Ananiadou, J. Tsujii. A Discriminative Alignment Model for Abbreviation Recognition[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, UK.
[27] 王寶勛, 王曉龍, 劉秉權(quán), 等. 一種基于無監(jiān)督學習的詞變體識別方法[J].中文信息學報,2008,22(3): 32-36.
[28] Mark Stevenson, Yikun Guo, Abdulaziz Al Amri, Robert Gaizauskas. Disambiguation of Biomedical Abbreviations[C]//Proceedings of the Workshop on BioNLP, 2009.