閆琪琪 張海軍
摘要:論文梳理總結(jié)了目前術(shù)語自動抽取的研究現(xiàn)狀,分析討論了術(shù)語自動抽取的研究方法,通過對術(shù)語抽取方法剖析和比較,提出了目前研究中存在的問題和發(fā)展趨勢,這對后續(xù)的中文領(lǐng)域術(shù)語自動抽取的研究具有一定的指導(dǎo)意義。
關(guān)鍵詞:術(shù)語自動抽??;中文信息處理;研究現(xiàn)狀
中圖分類號:TP18 文獻標(biāo)識碼:A 文章編號:1009-3044(2014)28-6716-03
術(shù)語是人類智慧在語言中的結(jié)晶,它凝聚了領(lǐng)域知識的精髓。領(lǐng)域術(shù)語使用過程中,由于術(shù)語標(biāo)準(zhǔn)化工作沒有及時對新產(chǎn)生術(shù)語進行規(guī)范化處理,導(dǎo)致各領(lǐng)域術(shù)語混亂,領(lǐng)域內(nèi)部和領(lǐng)域間的科學(xué)交流困難重重。因此,開展術(shù)語庫自動構(gòu)建和術(shù)語規(guī)范化已迫在眉睫,利用計算機手段開展術(shù)語抽取和規(guī)范化工作已成為術(shù)語學(xué)研究和自然語言處理中的重要問題[1]。研究將從領(lǐng)域術(shù)語自動抽取方法、術(shù)語抽取研究中存在的問題及術(shù)語抽取研究發(fā)展趨勢幾個部分展開。
1 中文領(lǐng)域術(shù)語抽取研究現(xiàn)狀及發(fā)展趨勢
自動術(shù)語抽取是從特定的領(lǐng)域文本中抽取體現(xiàn)領(lǐng)域核心術(shù)語詞匯的過程。目前中文術(shù)語抽取的研究中通常綜合考慮術(shù)語的語言特征和術(shù)語領(lǐng)域特征。主要體現(xiàn)在候選術(shù)語提取和候選術(shù)語過濾階段的工作中,術(shù)語抽取的一般流程如下圖:
術(shù)語抽取流程反映了術(shù)語抽取工作開展的一般步驟。選擇合適的領(lǐng)域語料是開展術(shù)語抽取工作的必要條件;預(yù)處理的處理方式與術(shù)語抽取采用的方法有直接關(guān)系,主要是生語料的格式轉(zhuǎn)化、去噪、分詞及詞性標(biāo)注等;采用統(tǒng)計或規(guī)則的方法從語料中提取候選術(shù)語,通過統(tǒng)計參數(shù)或規(guī)則過濾候選術(shù)語以獲取領(lǐng)域術(shù)語列表。候選術(shù)語提取階的詞典資源主要有,普通詞語前綴后綴詞典、停用詞詞典等。
1.1 領(lǐng)域術(shù)語自動抽取方法研究
1.1.1 基于詞典與規(guī)則的方法
基于詞典的方法就是利用現(xiàn)有術(shù)語資源定位術(shù)語在文本中的出現(xiàn),一定程度上來說,術(shù)語本身就是術(shù)語最基本的語言特征,它本身包含著術(shù)語的最大信息。基于規(guī)則的方法就是利用術(shù)語語言特征進行術(shù)語抽取的方法。研究[2]借助一般詞典和種子擴展方法自動識別單詞術(shù)語,實驗表明該方法是有效的,但召回率較低。研究[3]借助早期的語法過濾器,較之前研究使用的語法規(guī)則寬松,能夠匹配更多不同語言結(jié)構(gòu)的術(shù)語,提高了術(shù)語抽取的召回率,但降低了準(zhǔn)確率。研究[4]運用正則表達式的字符串匹配功能對特定數(shù)據(jù)庫中的術(shù)語實現(xiàn)抽取,證明了簡化正則表達式規(guī)則能提高特定應(yīng)用的需求匹配效率,研究將抽取效率提高1倍左右。
詞典與規(guī)則的方法對特定領(lǐng)域和特定類型的術(shù)語抽取具有良好的效果。此類方法有準(zhǔn)確率高、處理過程簡單、計算量小等特點,但術(shù)語構(gòu)詞規(guī)則靈活、表達方式復(fù)雜且存在術(shù)語變體和領(lǐng)域新詞等問題,致使術(shù)語的語言規(guī)則難以把握,術(shù)語規(guī)則庫構(gòu)造困難。目前國內(nèi)外純基于規(guī)則的術(shù)語抽取研究很少,它在術(shù)語抽取研究中多用于低頻術(shù)語抽取和準(zhǔn)確率提高。
1.1.2 基于統(tǒng)計的方法
基于統(tǒng)計的方法[5-7]以統(tǒng)計理論為基礎(chǔ),從概率意義上衡量多字單元是否為術(shù)語。術(shù)語的統(tǒng)計特征有兩類,一是術(shù)語單元性即術(shù)語作為獨立的語言單位具有穩(wěn)定的語言結(jié)構(gòu);二是術(shù)語領(lǐng)域特性即測度詞匯單元與特定領(lǐng)域之間的相關(guān)程度。
融合多統(tǒng)計特征的統(tǒng)計模型是目前主流的統(tǒng)計方法,選擇符合領(lǐng)域術(shù)語特征的統(tǒng)計參數(shù)是對術(shù)語抽取研究的有效嘗試。基于統(tǒng)計的方法適用于大規(guī)模語料、容易實現(xiàn)自動化且對不同領(lǐng)域的適應(yīng)性很強,但存在依賴分詞結(jié)果、易受測試語料規(guī)模影響、缺乏語義邏輯等問題。
1.1.3 規(guī)則與統(tǒng)計相結(jié)合的方法
規(guī)則與統(tǒng)計相結(jié)合的方法又稱混合方法,此類方法是從經(jīng)驗主義和理性主義兩方面對術(shù)語進行量度的,即采用了統(tǒng)計方法適用于大規(guī)模語料的特征,又融合了語言規(guī)則精確度高的特征用于提取領(lǐng)域術(shù)語。混合方法,特別是統(tǒng)計機器學(xué)習(xí)模型,是目前領(lǐng)域術(shù)語抽取研究的重點和熱點。研究[8]提出的基于質(zhì)子串分解的方法,使用參數(shù)F-MI抽取簡單質(zhì)詞,質(zhì)子串分解方法抽取復(fù)雜結(jié)構(gòu)合詞,有效的提高術(shù)語抽取的準(zhǔn)確率。研究[9]的研究中采用的IC-value方法從逆文檔頻率、公共破碎字串和術(shù)語長度三個方面改進了C-value方法,實驗證明500詞內(nèi)的抽回術(shù)語準(zhǔn)確率和召回率分別為77.8%和29.81%,此算法能有效識別長術(shù)語和公共破碎字串,但對低頻術(shù)語的識別能力較差。條件隨機場(CRFs)兼具最大熵模型(ME)和隱馬爾科夫模型(HMM)的特征,是目前標(biāo)注和切分序列數(shù)據(jù)效果最好的機器學(xué)習(xí)模型。研究[10]以CRFs為依托,融合了詞性、詞典、領(lǐng)域頻率等術(shù)語特征,并采用交叉驗證方法確定模型訓(xùn)練參數(shù),準(zhǔn)確率、召回率分別為84.61%、80.5%。但此方法需要合適的訓(xùn)練集對模型參數(shù)進行訓(xùn)練,而訓(xùn)練集構(gòu)建耗費大量的時間和人力,且不同領(lǐng)域訓(xùn)練集也不同,這就導(dǎo)致了訓(xùn)練模型的可移植性很差。
混合方法是當(dāng)前術(shù)語抽取研究的主流方法。此類方法吸取統(tǒng)計方法適用于大規(guī)模語料處理的特征并融合了規(guī)則方法抽取精度高等優(yōu)點,在對領(lǐng)域語料整理、領(lǐng)域概念和領(lǐng)域特征分析的基礎(chǔ)上,選擇符合領(lǐng)域特征的統(tǒng)計參數(shù)與語言規(guī)則,有效提高了術(shù)語抽取的準(zhǔn)確率和召回率。
1.2 領(lǐng)域術(shù)語抽取工作中存在的問題
1) 依賴分詞及詞性標(biāo)注的準(zhǔn)確度
由于專業(yè)領(lǐng)域詞匯的缺乏,在分詞過程中,專業(yè)領(lǐng)域詞匯常會被錯誤的切分成多個單詞或形成單詞碎片。目前的一些研究直接對分詞結(jié)果進行統(tǒng)計作為候選術(shù)語,忽略了可能存在的分詞錯誤對術(shù)語單元性和領(lǐng)域性造成的破壞。
2) 過分依賴前景知識(領(lǐng)域詞典)
Krauthammer(2004)曾對詞典術(shù)語抽取方法進行實驗,結(jié)果表明由于詞典易受到靈活的語言表達和術(shù)語變體的影響,此類方法不但領(lǐng)域移植性較差而且術(shù)語識別率較低。針對術(shù)語抽取詞典方法中存在的問題,研究[11]提出了不依賴領(lǐng)域詞典的術(shù)語抽取算法,取得了一定的效果。
3) 重視領(lǐng)域特征而忽視了術(shù)語的單元性特征
術(shù)語單元性和領(lǐng)域性是術(shù)語的兩個基本統(tǒng)計指標(biāo),為了有效的提高領(lǐng)域術(shù)語抽取的召回率和準(zhǔn)確率,術(shù)語抽取研究應(yīng)對術(shù)語單元性和領(lǐng)域性兩方面給予同等的關(guān)注。研究[12]表明集成術(shù)語的單元特征和領(lǐng)域特征能有效提高術(shù)語抽取的準(zhǔn)確率。
1.3 領(lǐng)域術(shù)語抽取研究發(fā)展趨勢
多策略融合無疑是提升術(shù)語抽取效果的有效途徑,其基本思想即不同術(shù)語抽取策略間的補充。目前基于多策略術(shù)語抽取方法主要有兩個方面:一是融合多種規(guī)則和術(shù)語統(tǒng)計參數(shù)的多策略融合術(shù)語抽取方法;二是統(tǒng)計機器學(xué)習(xí)方法融合多種術(shù)語特征。多種統(tǒng)計特征結(jié)合術(shù)語構(gòu)詞規(guī)則的術(shù)語抽取方法已成為術(shù)語抽取研究的主要方向,研究[13]提出的NC-value參數(shù)和互信息結(jié)合的方法,集中識別三字以上的長術(shù)語,實驗表明此方法在準(zhǔn)確率和召回率均獲得了一定的提升。而研究[14]提出一種雙層HMM算法,利用HMM有效的解決語法規(guī)則的概率存在和窮舉局限性問題,實驗表明此方法具有良好的性能。
關(guān)注自然語言處理各領(lǐng)域中的最新研究動態(tài),將相關(guān)領(lǐng)域的研究策略向術(shù)語自動抽取進行有效的遷移是對術(shù)語自動抽取研究的一種有意義的探索。此外領(lǐng)域術(shù)語抽取是從領(lǐng)域文本中獲取代表領(lǐng)域核心概念的詞語集合,如果術(shù)語抽取能夠在抽取術(shù)語的同時構(gòu)建術(shù)語的內(nèi)涵和外延,實現(xiàn)從領(lǐng)域術(shù)語短語數(shù)據(jù)到知識的價值轉(zhuǎn)化,將對術(shù)語抽取相關(guān)研究具有極其重要的意義。
2 結(jié)束語
領(lǐng)域術(shù)語抽取的研究與實現(xiàn)是一個復(fù)雜的過程,從領(lǐng)域術(shù)語研究的整體視角對各類方法和關(guān)鍵技術(shù)進行探討,并對目前研究中存在問題的反思,對于不同特征識別算法的有效融合具有重要的理論意義。
參考文獻:
[1] 馮志偉.現(xiàn)代術(shù)語學(xué)引論[M].北京:商務(wù)印書館,2011.
[2] 段國成.基于CCD的術(shù)語抽取研究[D].鄭州:鄭州大學(xué),2007.
[3] Sui Z, Chen Y, Wei Z. Automatic recognition of Chinese scientific and technological terms using integrated linguistic knowledge[C]//Natural Language Processing and Knowledge Engineering, 2003. Proceedings. 2003 International Conference on. IEEE, 2003: 444-451.
[4] 姚振軍,黃德根.正則表達式在漢英對照中國文化術(shù)語抽取中應(yīng)用[J].大連理工大學(xué)學(xué)報,2010,2:140-144.
[5] 周浪,馮沖,黃河燕.一種面向術(shù)語抽取的短語過濾技術(shù)[J].計算機工程與應(yīng)用,2009,45(19):9-11.
[6] 潘虹,徐朝軍.LCS算法在術(shù)語抽取中的應(yīng)用研究[J].情報學(xué)報,2010,29(5):853-857.
[7] 周浪,張亮,馮沖,等.基于詞頻分布變化統(tǒng)計的術(shù)語抽取方法[J].計算機科學(xué),2009,36(5):177-180.
[8] 何婷婷,張勇.基于質(zhì)子串分解的中文術(shù)語自動抽取[J].計算機工程,2006,32(23):188-190.
[9] 胡阿沛,張靜,劉俊麗.基于改進C-value方法的中文術(shù)語抽取[J].現(xiàn)代圖書情報技術(shù),2013,(02):24-29.
[10] 李麗雙,黨延忠.基于條件隨機場的汽車領(lǐng)域術(shù)語抽取[J].大連理工大學(xué)學(xué)報,2013,53(2):267-272.
[11] 王衛(wèi)民,賀冬春,符建輝.基于種子擴充的專業(yè)術(shù)語識別方法研究[J].計算機應(yīng)用研究,2012,29(11):4105-4107.
[12] Kang Jingjing, Liu Tao, Hu He. Discovering Chinese compound term using termhood and unithood measure[C]//IEEE 2011 Sixth Annual China Grid Conference Dalian,2011:60-67.
[13] 梁穎紅,張文靜.基于混合策略的高精度長術(shù)語自動抽取[J].中文信息學(xué)報,2009,23(6):26-30.
[14] 岑詠華,韓哲.基于隱馬爾科夫模型的中文術(shù)語識別研究[J].現(xiàn)代圖書情報技術(shù),2008,12:54-58.