摘 要:文章簡要介紹了自動術(shù)語提取任務(wù)的定義、主要方法和評價指標(biāo)。針對傳統(tǒng)的自動術(shù)語提取方法,以互信息、t值、tf-idf、C/NC-value為例介紹了單元度和術(shù)語度的概念;針對自動術(shù)語標(biāo)注方法,主要介紹了基于序列標(biāo)注的建模思想。從提取效果來看,現(xiàn)有自動術(shù)語提取技術(shù)距離期望仍有差距,文章也嘗試給出了一些值得探索的方向。
關(guān)鍵詞:自動術(shù)語提取;自動術(shù)語標(biāo)注;單元度;術(shù)語度;機(jī)器學(xué)習(xí)
中圖分類號:TP391;H083? 文獻(xiàn)標(biāo)識碼:A? DOI:10.12339/j.issn.1673-8578.2022.01.001
Techniques of Automatic Term Extraction:Current Sate and Reflections//CHANG Baobao
Abstract: This paper overviews the definition, major approaches and the evaluation metrics of the ATE task. For the traditional approaches, we mainly elaborate the measurement of the Unithood and Termhood, using pointwise mutual information, t-value, ti-idf weighting and C/NC-value as examples. For Automatic Term Labelling, we mainly present the sequence labelling modelling. We think the performance of Automatic Term Extraction/Labelling is still not satisfactory from a point of view of real application, and try to offer a few directions of further improvements.
Keywords: automatic term extraction; automatic term labelling; unithood; termhood; machine learning
引言
術(shù)語(term)是“各門學(xué)科的專門用語,在專業(yè)范圍內(nèi)表示單一的專門概念”[1]。術(shù)語處在專業(yè)知識體系構(gòu)建的基石位置,術(shù)語的獲取、整理和規(guī)范不僅對專業(yè)知識體系的構(gòu)建和發(fā)展有重要作用,也會對專業(yè)領(lǐng)域之外的其他許多行業(yè)產(chǎn)生影響。
傳統(tǒng)上,術(shù)語的收集整理主要依靠領(lǐng)域?qū)<疫M(jìn)行,這種工作方式的優(yōu)點(diǎn)是質(zhì)量高,缺點(diǎn)也很明顯,成本高,速度慢,難以適應(yīng)當(dāng)今科技高速發(fā)展中術(shù)語大量急速涌現(xiàn)的現(xiàn)狀。20世紀(jì)90年代前后,伴隨著語料庫建設(shè)的進(jìn)步,利用信息技術(shù)和自然語言處理技術(shù)進(jìn)行術(shù)語快速獲取——自動術(shù)語提取(automatic term extraction,ATE)的想法就應(yīng)運(yùn)而生并成為一個重要的研究議題[2]。
術(shù)語自動提取有著不言而喻的重要意義。如果擁有可靠的術(shù)語自動提取技術(shù),科技術(shù)語整理、審定與專業(yè)詞典編纂的工作效率和質(zhì)量就會得到極大提高。術(shù)語作為一種特殊詞匯,在語言實(shí)踐中,常有與普通語言詞匯不同的處理策略和規(guī)律,可靠的術(shù)語自動提取技術(shù)也會對許多語言文字工作帶來積極影響,例如,在翻譯、教育等很多行業(yè),及時、規(guī)范、全面的術(shù)語資源都是非常寶貴的資源。術(shù)語提取和識別還是專業(yè)自然語言理解的基礎(chǔ)技術(shù),對于自然語言處理而言,術(shù)語通常都是未登錄詞(out of vocabulary,OOV),術(shù)語自動提取技術(shù)的進(jìn)步有助于改善自然語言處理系統(tǒng)未登錄詞的處理能力,有助于推動專業(yè)文本機(jī)器理解技術(shù)的發(fā)展。
經(jīng)過研究人員近三十年的努力,自動術(shù)語提取技術(shù)取得了許多進(jìn)展,也出現(xiàn)了一些術(shù)語提取工具。例如,在許多機(jī)器輔助翻譯平臺中都有相應(yīng)的自動術(shù)語管理和提取工具,譬如在著名的機(jī)器輔助翻譯平臺SDL-Trados中就配備了術(shù)語提取組件SDL MultiTerm Extract,可用于輔助翻譯工作者定位專業(yè)文檔及翻譯記憶庫中潛在的單語或者雙語術(shù)語,從而輔助翻譯工作者改進(jìn)術(shù)語翻譯質(zhì)量。不過,自動術(shù)語提取也是一個有挑戰(zhàn)性的研究任務(wù),總的看來,自動術(shù)語提取技術(shù)的性能還不能令人滿意,還需要研究人員的持續(xù)攻關(guān)和努力。
1 自動術(shù)語提取的任務(wù)定義
自動術(shù)語提取研究從特定專業(yè)文本中提取術(shù)語的自動技術(shù)和方法。自動術(shù)語提取系統(tǒng)的輸入是特定領(lǐng)域的專業(yè)文本,任務(wù)是通過對這些文本的自動分析和處理,提取其中的術(shù)語條目并以列表的形式輸出。例如,從給定計算語言學(xué)文本中,提取其中的計算語言學(xué)術(shù)語。盡管自動術(shù)語提取系統(tǒng)在應(yīng)用時面向特定的目標(biāo)領(lǐng)域,但現(xiàn)有自動提取技術(shù)基本上是通用的,并不因?yàn)樗幚淼念I(lǐng)域不同采用不同的方法。為了指稱的統(tǒng)一,在本文中,我們把自動術(shù)語提取所處理的特定領(lǐng)域文本統(tǒng)稱為目標(biāo)領(lǐng)域文本,即自動術(shù)語提取系統(tǒng)的輸入是目標(biāo)領(lǐng)域文本,輸出是目標(biāo)領(lǐng)域文本中所使用的目標(biāo)領(lǐng)域術(shù)語條目。
文獻(xiàn)中,除了術(shù)語自動提取這個名稱外,還有一些其他說法也指向術(shù)語提取或相關(guān)研究,例如,自動術(shù)語識別(automatic term recognition或automatic term identification)、自動術(shù)語檢測(automatic term detection)、自動術(shù)語挖掘(automatic term mining)等。許多文獻(xiàn)不加區(qū)別地使用這些術(shù)語,含義都是從目標(biāo)領(lǐng)域文本中提取相應(yīng)的術(shù)語條目。
不過,這里也想特別指出,針對目標(biāo)領(lǐng)域文本中的術(shù)語,從語型(type)和語例(token)兩個處理角度,實(shí)際上可以構(gòu)思出兩種既相互聯(lián)系又相互區(qū)別的處理任務(wù)。在語型處理層面,旨在提取目標(biāo)領(lǐng)域文本中的術(shù)語條目,而不關(guān)心精確標(biāo)記術(shù)語條目在目標(biāo)領(lǐng)域文本中的每個使用實(shí)例。與之不同,我們還可以界定一種語例層面的自動術(shù)語處理任務(wù),即在目標(biāo)領(lǐng)域文本中精確標(biāo)記所有的術(shù)語實(shí)例。傳統(tǒng)上所說的自動術(shù)語提取主要指語型層面的處理,我們在本文中稱之為自動術(shù)語提取。為了與之區(qū)別,在本文中,我們把上述語例層面的術(shù)語處理任務(wù)統(tǒng)一稱作自動術(shù)語標(biāo)注(automatic term labelling,ATL)任務(wù)。二者區(qū)別如下:
a) 目標(biāo)領(lǐng)域文本→自動術(shù)語提取ATE→術(shù)語表
b) 目標(biāo)領(lǐng)域文本→自動術(shù)語標(biāo)注ATL→標(biāo)注了術(shù)語的目標(biāo)領(lǐng)域文本
自動術(shù)語標(biāo)注和提取可以獨(dú)立研究,但也可以結(jié)合進(jìn)行。事實(shí)上,可以將自動術(shù)語標(biāo)注看作自動術(shù)語提取的前驅(qū)任務(wù),如果可以成功識別并標(biāo)記目標(biāo)領(lǐng)域文本中的術(shù)語,那么只要將這些標(biāo)記好的術(shù)語提取出來并進(jìn)行去重操作就可以得到相應(yīng)的術(shù)語條目列表,從而實(shí)現(xiàn)術(shù)語提取的目的。
這里之所以對自動術(shù)語提取和自動術(shù)語標(biāo)注區(qū)別對待,除了自動術(shù)語標(biāo)注可以作為術(shù)語提取的實(shí)現(xiàn)技術(shù)之外,更為重要的是,從專業(yè)文本機(jī)器理解這個更為一般的角度出發(fā),自動術(shù)語標(biāo)注更具基礎(chǔ)意義,在許多專業(yè)文本的機(jī)器理解任務(wù)中,更加需要語例層級的術(shù)語標(biāo)注處理,因此自動術(shù)語標(biāo)注技術(shù)除可以用以支持術(shù)語提取外,也是專業(yè)文本機(jī)器理解的基礎(chǔ)技術(shù)。
2 術(shù)語的組成和統(tǒng)計特性
要想利用計算機(jī)自動標(biāo)注或提取目標(biāo)領(lǐng)域文本中的術(shù)語,就需要研究和總結(jié)術(shù)語在組成和分布方面的形式特征。作為一種特殊的語言表達(dá),術(shù)語有著與普通詞語和短語不同的區(qū)別性特征。
從術(shù)語的組成來看,術(shù)語通常由一個或多個單詞組成。由一個單詞組成的術(shù)語通常稱作簡單術(shù)語(simple term)或單詞術(shù)語(single-word term),由不止一個單詞組成的術(shù)語通常稱作復(fù)雜術(shù)語(complex term)或多詞術(shù)語(multi-word term)。僅從組成單詞的數(shù)量上看,術(shù)語與普通短語并沒有區(qū)別。但術(shù)語與普通短語具有性質(zhì)上的差異,術(shù)語是指稱領(lǐng)域概念的,所指通常固定明確。即便是復(fù)雜術(shù)語,本質(zhì)上仍是詞匯層面的語言單位[3]。術(shù)語與普通短語在性質(zhì)上的不同決定了術(shù)語必然具有不同于普通短語的特殊組成模式和特殊統(tǒng)計特性。
(1) 從語言學(xué)角度看,術(shù)語大多是名詞或者名詞短語,這是由術(shù)語是對概念的指稱這一特點(diǎn)決定的。例如,根據(jù)文獻(xiàn)[3]對四個領(lǐng)域術(shù)語的抽樣調(diào)查,名詞短語在英語術(shù)語中所占比例很高,在所調(diào)查的四個領(lǐng)域中比例介于92.5%和99.0%之間。
(2) 術(shù)語意義一般不是其組成單詞意義的簡單疊加,在使用中,變化有限。不具有一般短語所具有的(修飾詞)省略、變化、替換甚至增添等靈活變化現(xiàn)象[3]。術(shù)語形式變化,通常會導(dǎo)致所指的變化,也會造成歧義,所以同一術(shù)語在使用中形式基本不發(fā)生變化。
(3) 術(shù)語組成模式相對有限。例如,根據(jù)文獻(xiàn)[3]對四個領(lǐng)域中多詞術(shù)語的調(diào)查,僅由名詞、形容詞和介詞組成的名詞短語型術(shù)語占比在99%以上,僅由名詞和形容詞組成的名詞短語型術(shù)語占比可達(dá)97%,并認(rèn)為英語術(shù)語的組成可用正則表達(dá)式描述如下[3]:
((A|N)+(A|N)*(NP)?(A|N)*)N
這里A、N、P分別代表形容詞、名詞和介詞。AN、NN、AAN、ANN、NAN、NNN、NPN等常見的英語術(shù)語組成模式都可以由該表達(dá)式所生成并覆蓋。
(4) 在目標(biāo)領(lǐng)域文本中,術(shù)語通常具有較高的出現(xiàn)頻率。而且與普通短語不同,術(shù)語在領(lǐng)域文本和一般文本中有較大的分布差異,集中出現(xiàn)在所屬領(lǐng)域的文本中,而在其他領(lǐng)域文本中則較少出現(xiàn)。
(5) 復(fù)雜術(shù)語的組成單詞之間結(jié)合緊密穩(wěn)定,形成領(lǐng)域文本中的特有固定搭配。從統(tǒng)計學(xué)的角度看,復(fù)雜術(shù)語各組件的共現(xiàn)頻度通常會顯著超過一般預(yù)期。
(6) 在專業(yè)文本中,術(shù)語的上下文語境也有一定封閉性,尤其是與術(shù)語共現(xiàn)的實(shí)詞往往因領(lǐng)域不同而不同。
術(shù)語的組成和統(tǒng)計特性是利用計算機(jī)識別和提取術(shù)語的主要依據(jù),大多數(shù)術(shù)語自動提取方法是根據(jù)和利用上述術(shù)語特點(diǎn)而設(shè)計的。例如,利用術(shù)語的語言學(xué)特點(diǎn),將目標(biāo)領(lǐng)域文本中符合特定模式的名詞短語視作潛在的術(shù)語候選,或者利用術(shù)語的統(tǒng)計特性設(shè)計不同的度量指標(biāo)衡量單詞和多詞組合作為術(shù)語的可能性。
3 單元度和術(shù)語度
從計算機(jī)的角度出發(fā),目標(biāo)領(lǐng)域文本中任何一個單詞或者連續(xù)幾個單詞的組合都有成為術(shù)語的可能。在本文中,我們把目標(biāo)領(lǐng)域文本中任意一個由n個單詞組成的連續(xù)片段稱作n元組(n≥1)。理論上,任何一個長度小于術(shù)語最大長度的n元組都有成為術(shù)語的可能,我們把這些n元組稱作術(shù)語候選(term candidate),計算機(jī)需要逐一評價這些術(shù)語候選,計算它們作為術(shù)語的可能性。
衡量一個n元組是否構(gòu)成術(shù)語通常被歸結(jié)為計算兩個指標(biāo)的問題,即計算單元度和術(shù)語度[4]的問題。
單元度(unithood)是針對復(fù)雜術(shù)語而言的,一個包含多個單詞的n元組要成為一個術(shù)語,前提是它們需要構(gòu)成一個固定搭配,組成單詞間需要結(jié)合緊密并整體構(gòu)成一個語言單位。單元度就是衡量一個多詞n元組中詞與詞之間關(guān)聯(lián)強(qiáng)度的指標(biāo)。但組合緊密穩(wěn)定的多詞組合未必就是術(shù)語,術(shù)語需要具有領(lǐng)域性,術(shù)語度(termhood)就是用來衡量一個n元組與特定領(lǐng)域關(guān)聯(lián)程度的度量指標(biāo)。
因此,對于目標(biāo)領(lǐng)域文本中的某個n元組是否構(gòu)成術(shù)語,可以分別計算該n元組的單元度和術(shù)語度分值,如果單元度和術(shù)語度得分都高的話,那么這個n元組很可能是一個術(shù)語。
多年來,研究人員先后設(shè)計和使用了很多計算單元度和術(shù)語度的具體方法,這些方法形式各不相同,但原理上都是利用術(shù)語的形式和分布特點(diǎn)。
3.1 單元度計算
常見的單元度計算方法包括t值、χ2值、對數(shù)似然比、點(diǎn)式互信息、Dice系數(shù)等多種方法。一一羅列和介紹這些方法并無必要,我們這里只介紹其中兩個計算指標(biāo),分別是點(diǎn)式互信息和t值。選擇這兩個指標(biāo),主要是因?yàn)辄c(diǎn)式互信息比較常見,而t值可以作為一類方法的代表。
(1) 基于點(diǎn)式互信息的單元度計算
點(diǎn)式互信息(point-wise mutual information)源自信息論,用于衡量兩個具體事件所共有的信息量。點(diǎn)式互信息值可以區(qū)分三種不同的事件依賴關(guān)系:若兩個事件高度依賴,總是相伴出現(xiàn),則其點(diǎn)式互信息通常為較大的正值;若兩個事件相互獨(dú)立,則其點(diǎn)式互信息為0;若兩個事件互相排斥,則其點(diǎn)式互信息為負(fù)值。以二元組wawb為例,wa和wb間的點(diǎn)式互信息計算如下:
Iwa,wb=log2Pwa,wbPwaPwb
這里,P(wa,wb)、P(wa)和P(wb)分別代表二元組wawb、wa和wb在目標(biāo)領(lǐng)域文本中出現(xiàn)的概率,它們均可以通過目標(biāo)領(lǐng)域文本加以估計。
若在目標(biāo)領(lǐng)域文本中,wa和wb總是結(jié)伴出現(xiàn),此時二者之間聯(lián)系緊密,其點(diǎn)式互信息為正值;若wa和wb相互獨(dú)立或者在語料中互相排斥,則點(diǎn)式互信息為0或者負(fù)值。所以互信息值可以作為單元度的一種度量值,互信息值越大,說明單詞之間結(jié)合穩(wěn)定緊密。而互信息為0或者為負(fù)值,即使二者相伴共現(xiàn),也是偶然共現(xiàn),wa出現(xiàn)不會提升wb出現(xiàn)的可能性或者會降低wb出現(xiàn)的可能性。
點(diǎn)式互信息會有低頻偏執(zhí)問題,當(dāng)wa和wb在文本中出現(xiàn)稀疏時,容易得到虛高的點(diǎn)式互信息,習(xí)慣上,人們通常采用下面的方式減緩低頻偏執(zhí)問題:
I-wa,wb=fwa,wb×Iwa,wb
其中,fwa,wb是二元組wawb在目標(biāo)領(lǐng)域文本中出現(xiàn)的頻率,Iwa,wb是未加改進(jìn)的點(diǎn)式互信息,I-wa,wb是改進(jìn)后的點(diǎn)式互信息。
(2) 基于t值的單元度計算
在單元度計算中,有一類方法脫胎于數(shù)理統(tǒng)計中的假設(shè)-檢驗(yàn)法,是對假設(shè)-檢驗(yàn)法的簡化使用,用t值作為單元度計算指標(biāo)就是這樣一種方法,同樣基于假設(shè)-檢驗(yàn)原理的單元度計算方法還包括χ2值、對數(shù)似然比等計算方法。
用假設(shè)-檢驗(yàn)的方法確定n元組組成單詞之間結(jié)合是否緊密,首先需要預(yù)設(shè)兩個假設(shè):原假設(shè)(null hypothesis)和備擇假設(shè)(alternative hypothesis)。原假設(shè)假定組成單詞之間結(jié)合不緊密,這些單詞之所以共現(xiàn)完全是偶然所致。而備擇假設(shè)假定這些單詞之間結(jié)合緊密。
假設(shè)-檢驗(yàn)法采用一種類似反證法的邏輯來論證n元組組成單詞之間結(jié)合是否緊密。首先假定原假設(shè)成立,那么基于原假設(shè),可根據(jù)統(tǒng)計學(xué)知識推斷該n元組在目標(biāo)領(lǐng)域文本中應(yīng)該具有的統(tǒng)計特性,然后與目標(biāo)領(lǐng)域文本中觀察到的真實(shí)統(tǒng)計特性做比對,如果推斷得到的統(tǒng)計特性和真實(shí)統(tǒng)計特性有較大差異,以至于大到在假定原假設(shè)成立的前提下不大可能發(fā)生的程度,那么我們就可以有較大的信心確定作為推斷基礎(chǔ)的原假設(shè)不成立,而轉(zhuǎn)向承認(rèn)認(rèn)為單詞間結(jié)合穩(wěn)定緊密的備擇假設(shè)成立;反過來,如果根據(jù)原假設(shè)推斷得到的統(tǒng)計特性和真實(shí)統(tǒng)計特性差異較小,在原假設(shè)成立的前提下發(fā)生的概率很大,那此時就需要承認(rèn)認(rèn)為單詞之間結(jié)合不緊密的原假設(shè)。不同的假設(shè)-檢驗(yàn)方法對數(shù)據(jù)分布和差異度量有不同的規(guī)定,但道理基本一樣。在利用假設(shè)-檢驗(yàn)方法計算單元度時,通常并不完整使用假設(shè)-檢驗(yàn)的完整流程,而只關(guān)心統(tǒng)計特性的差異值,差異值越大,則認(rèn)為單詞間結(jié)合越緊密,t值就是一種這樣的差異值,具體而言,t值是反映樣本均值和原假設(shè)成立前提下推斷值的差異程度的統(tǒng)計量,一般形式如下:
t=x-μSE
這里x代表樣本均值,μ代表原假設(shè)成立前提下的推斷值,SE是均值估計的標(biāo)準(zhǔn)誤差(standard error),t值以標(biāo)準(zhǔn)誤差為單位衡量樣本均值和推斷值的差異程度。
這里,我們?nèi)砸杂嬎愣Mwawb的單元度為例,說明t值的計算過程。原假設(shè)是wa與wb結(jié)合不緊密,也就是說wa與wb在文本中出現(xiàn)時相互獨(dú)立,按照獨(dú)立性的判定原則,可以推斷二元組wawb在目標(biāo)領(lǐng)域文本中出現(xiàn)的概率Pwa,wb為:
P0=Pwa·Pwb
同時利用目標(biāo)領(lǐng)域文本,也可得到二元組wawb在目標(biāo)領(lǐng)域文本中出現(xiàn)概率Pwa,wb的估值P1。t值即可用來衡量二者間的差異:
t=P1-P0SE
由于估算P1采用均值估算,若用N代表目標(biāo)領(lǐng)域文本的長度,依據(jù)大數(shù)定律,估值P1的標(biāo)準(zhǔn)誤差為:
SE= P11-P1N
因此,只要給定目標(biāo)領(lǐng)域文本,就能計算出給定二元組的t值。t值越大,表明P1與P0之間的差異越大,說明wawb在目標(biāo)領(lǐng)域文本中結(jié)伴出現(xiàn)的概率遠(yuǎn)大于二者獨(dú)立出現(xiàn)的概率,也就說明二者組合可視作結(jié)合穩(wěn)定緊密的整體。在假設(shè)檢驗(yàn)的實(shí)踐中,通常還需要計算置信區(qū)間并進(jìn)一步做出推翻原假設(shè)和接受原假設(shè)的結(jié)論,但對于單元度計算而言,通常只考慮t值的相對大小,t值越大,單元度越大;t值越小,單元度越小,無須明確做出接受原假設(shè)和推翻原假設(shè)的結(jié)論。
在上面的介紹中,我們以二元組為例進(jìn)行說明,若對一般的n元組可以進(jìn)行計算方式的推廣或者采用迭代方式進(jìn)行[5]。
3.2 術(shù)語度計算
術(shù)語度計算術(shù)語候選和領(lǐng)域的關(guān)聯(lián)程度。術(shù)語度計算的出發(fā)點(diǎn)依然是充分利用術(shù)語的統(tǒng)計特性。術(shù)語具有領(lǐng)域分布不平衡的特點(diǎn),在計算術(shù)語度時要利用這一特點(diǎn),單純使用目標(biāo)領(lǐng)域文本是不夠的,需要引入目標(biāo)領(lǐng)域文本之外的其他領(lǐng)域文本或不具備領(lǐng)域色彩的普通文本作為比對參照,這樣的文本稱作參照文本(reference text)。
與單元度計算類似,現(xiàn)有術(shù)語度計算方法也有很多,這里介紹兩種較為常見的計算方法:
(1) 基于項(xiàng)頻率-逆向文檔頻率的術(shù)語度計算方法
項(xiàng)頻率(term frequency,tf)、文檔頻率(document frequency,df)、逆向文檔頻率(inverse document frequency,idf)等概念源自信息檢索研究。項(xiàng)頻率-逆向文檔頻率(tf-idf)計算方法是一種為文檔中項(xiàng)(term)賦以權(quán)值的方法,項(xiàng)是信息檢索中用以表征文檔內(nèi)容的詞或者短語,項(xiàng)的tf-idf權(quán)值用來代表項(xiàng)對于文檔的重要程度。在英文中,項(xiàng)與術(shù)語均用term指稱,含義不完全相同,但也有共性,項(xiàng)是一個文檔中最具信息意義的詞或者短語,而術(shù)語則是一個目標(biāo)領(lǐng)域中最具信息價值的詞或短語。鑒于這種共性,tf-idf計算方法常被術(shù)語提取研究作為術(shù)語度計算方法。
設(shè)D為一個文檔集合,D=d1,d2,…,dD,其中,d1,d2,…,dD代表集合中所包含的文檔,在術(shù)語度計算的語境下,可以將這些文檔看作領(lǐng)域文本,這里我們把其中的di看作目標(biāo)領(lǐng)域文本,其余的文本看作普通文本或者其他領(lǐng)域文本,起參照文本的作用。
對于給定的n元組tc,基于上述文檔集合D,可以得到兩個統(tǒng)計數(shù)據(jù),一是tc在目標(biāo)領(lǐng)域文本di中的頻率,稱作項(xiàng)頻率,記作tfi(tc);另一個是tc所出現(xiàn)過的所有文本的數(shù)量,稱作文檔頻率,記作df(tc)。項(xiàng)頻率高意味著tc在目標(biāo)領(lǐng)域文本中頻率高,可能是術(shù)語,而文檔頻率底,則意味著tc只在少量文本中出現(xiàn),區(qū)別于在所有文本中都大致均勻出現(xiàn)的非術(shù)語詞匯,組合這兩個因素,即可形成一種集項(xiàng)頻率和文檔頻率的術(shù)語度度量指標(biāo):
tf-idfitc=tfitc·log2Ddftc
在上述計算公式中,文檔頻率是以倒數(shù)形式出現(xiàn)的,因文檔頻率的倒數(shù)形式被稱作逆向文檔頻率,這種計算方法被稱作基于項(xiàng)頻率和逆向文檔頻率的計算方法。可以看出,對于一個候選術(shù)語tc而言,它在目標(biāo)領(lǐng)域文本中頻率越高,且出現(xiàn)在其他參照文本中的數(shù)量越少,則其tf-idf值就越大,tc是術(shù)語的可能性就越高,這與術(shù)語分布的統(tǒng)計特性是一致的。
(2) 基于C-value和NC-value的術(shù)語度計算方法
C-value與NC-value[7-8]也是自動術(shù)語提取研究中常見的術(shù)語度計算方法。
C-value在計算時考慮了術(shù)語候選之間的嵌套關(guān)系。綜合而言,對于一個候選術(shù)語tc而言,其C-value可通過下面的公式加以計算:
C-value(tc)=
log2|tc|·f(tc),若tc不被嵌套
log2|tc|·(f(tc)-1|Ttc|∑b∈Ttcf(b)),若tc被嵌套
在上面的式子中,f(tc)代表術(shù)語候選tc在目標(biāo)領(lǐng)域文本中出現(xiàn)的頻率,tc代表術(shù)語候選tc的長度,即tc中包含單詞的數(shù)量??梢钥吹?,術(shù)語候選tc在目標(biāo)領(lǐng)域文本中出現(xiàn)的次數(shù)越多,其C-value就會越大,tc就越可能是一個術(shù)語。C-value將術(shù)語候選的長度因素也納入考慮范圍,可以看出,若頻率相同,一個較長的n元組比一個較短的n元組更可能是術(shù)語。
C-value的一個主要創(chuàng)新在于將術(shù)語候選之間的嵌套關(guān)系考慮在內(nèi)。在計算一個術(shù)語候選tc的C-value時,tc可能會作為一個組成部分嵌套在其他更長的n元組中,而在統(tǒng)計tc的頻率時,會將嵌套在其他n元組中的tc的頻率也計算在內(nèi),從而高估了tc作為術(shù)語的可能。因此,在評價tc作為術(shù)語的可能性時,需要將嵌套在其他n元組的這部分tc頻率做折減處理。一般而言,當(dāng)tc被其他n元組嵌套時,會有兩種可能,一種可能為tc是術(shù)語,另一種可能為tc不是術(shù)語。若tc是術(shù)語,那么完全折減嵌套在其他n元組中的頻率又會引起低估tc作為術(shù)語的可能,因此需要根據(jù)tc是術(shù)語的可能性大小做不同的折減處理。那么如何判斷一個處在嵌套中的tc作為術(shù)語的可能性呢?一個可行的辦法是評判tc的獨(dú)立性。通常而言,若tc可以被很多不同的n元組所嵌套,說明tc可以出現(xiàn)在很多不同的語境中,具有較強(qiáng)的獨(dú)立性,此時tc更可能是一個術(shù)語,在頻率折減時,應(yīng)該折減少一些;但若tc只能被很少其他的n元組所嵌套,甚至只能被一個n元組所嵌套時,這說明tc具有較強(qiáng)的黏著性,只是包含它的n元組的組成部分,此時更應(yīng)該考慮包含它的n元組是否為術(shù)語,這種情況下,在折減頻率時,可以折減得多一些,降低tc作為術(shù)語的可能性。C-value在計算時通過按照包含tc的n元組個數(shù)對折減頻率總和取平均的方式體現(xiàn)了這一思想。在上面的公式中,Ttc代表由所有包含tc的n元組組成的集合,b代表其中的n元組,fb代表n元組b在目標(biāo)領(lǐng)域文本中的頻率。式中首先累加包含tc的所有n元組的頻率,然后按照包含tc的n元組個數(shù)Ttc對頻率和取平均作為最終折減頻率。
需要補(bǔ)充說明的是,上述的C-value計算公式只能計算多詞術(shù)語候選的術(shù)語度。原因在于對于單詞術(shù)語候選而言,公式中的系數(shù)log2tc恒為0,使得所有單詞術(shù)語候選的術(shù)語度計算結(jié)果均為0。針對這一問題,文獻(xiàn)[9]提出將公式中的系數(shù)部分修改為1+log2tc,從而將單詞術(shù)語候選術(shù)語度計算問題涵蓋在內(nèi)。
C-value計算綜合考慮了n元組的頻率、n元組的長度和n元組間的嵌套關(guān)系,根據(jù)這些因素計算n元組作為術(shù)語的可能性。但在C-value的計算中,沒有考慮到術(shù)語候選語境中的詞對術(shù)語度計算的影響。一般而言,術(shù)語對其語境中的詞有選擇限制作用,一些詞比另外一些詞更容易出現(xiàn)在術(shù)語的語境中,換句話說,如果某個術(shù)語候選的語境中出現(xiàn)了這樣的詞,那么這個術(shù)語候選就更有可能是術(shù)語。這也就是說,語境中出現(xiàn)的詞對判定術(shù)語候選是否為術(shù)語有指示作用。NC-value計算正是基于這一動機(jī),在C-value計算的基礎(chǔ)上增加了語境影響因素。
并非所有出現(xiàn)在術(shù)語候選語境中的詞對術(shù)語判定都有指示作用,即使有指示作用,不同詞指示能力的強(qiáng)弱也不盡相同。因此,計算NC-value之前需要事先確定哪些詞對術(shù)語判定有指示作用,若有指示作用,還要確定表征它們指示能力強(qiáng)弱的權(quán)重。這些對術(shù)語判定有指示作用的詞稱作術(shù)語語境詞(term context word)。術(shù)語語境詞包含哪些詞與處理的目標(biāo)領(lǐng)域有關(guān),在一個領(lǐng)域中是目標(biāo)語境詞,在另一個目標(biāo)領(lǐng)域中未必是目標(biāo)語境詞。
為給定的目標(biāo)領(lǐng)域選擇語境詞,需要首先準(zhǔn)備一個包含一定條目的種子術(shù)語表。這個術(shù)語表可以從現(xiàn)有的術(shù)語詞表中選擇一些術(shù)語組成。如果沒有這樣的術(shù)語表,也可以基于C-value,選擇C-value靠前的若干術(shù)語候選組成目標(biāo)領(lǐng)域術(shù)語表。
確定一個詞w是否為術(shù)語語境詞,可以統(tǒng)計w曾經(jīng)在多少種子術(shù)語的語境中出現(xiàn)過,w在越多的種子術(shù)語語境中出現(xiàn)過,就越可能是一個術(shù)語語境詞,因而其權(quán)重可用與其共現(xiàn)過的種子術(shù)語的比例來衡量:
weight(w)=|T(w)||T|
其中,T代表種子術(shù)語集合,T(w)是語境中出現(xiàn)過w的所有種子術(shù)語的集合。
NC-value在C-value的基礎(chǔ)上增加了對術(shù)語語境詞影響的考慮,術(shù)語候選tc作為術(shù)語的可能性由其C-value和語境詞影響兩個部分按照不同的比例綜合計算得到:
NC-value(tc)=0.8C-value(tc)+0.2∑b∈Ctcftc(b)weight(b)
上式中,Ctc是出現(xiàn)在tc語境中的所有術(shù)語語境詞的集合,在計算這些語境詞的影響時,一個語境詞b對tc是否為術(shù)語的影響由其權(quán)重weight(b)與其出現(xiàn)在tc語境中的次數(shù)ftc(b)共同決定。
4 術(shù)語提取的一般流程
術(shù)語提取系統(tǒng)通常采用兩階段的流水線架構(gòu),其中第一階段生成術(shù)語候選,第二階段對術(shù)語候選進(jìn)行單元度和術(shù)語度評分,整體流程如下:
目標(biāo)領(lǐng)域文本→提取術(shù)語候選①→評分和排序②→術(shù)語條目列表
4.1 提取術(shù)語候選
提取術(shù)語候選的目的是從目標(biāo)領(lǐng)域文本中選擇可能是術(shù)語的單詞或者多詞組合,這些選擇出的單詞或者多詞組合未必是術(shù)語,它們是否為術(shù)語需要交給后續(xù)階段進(jìn)一步評估。從這一階段的目的和在整個提取流程中的作用來看,理想的結(jié)果應(yīng)該是既不漏掉真正的術(shù)語也不應(yīng)該生成太多的術(shù)語候選。生成太多的術(shù)語候選會增加第二階段的工作負(fù)擔(dān),降低效率,但漏掉真正術(shù)語會影響術(shù)語提取任務(wù)的準(zhǔn)確率,造成提取質(zhì)量下降。
術(shù)語的長度有限,對術(shù)語提取系統(tǒng)而言,長度在一定范圍內(nèi)的連續(xù)n元詞串都有可能是術(shù)語,因此生成術(shù)語候選最簡單的辦法是首先設(shè)定一個術(shù)語的長度上限MaxLen,然后窮盡列出目標(biāo)領(lǐng)域文本中長度不超過MaxLen的所有n元組(1≤n≤MaxLen),然后將所有這些n元組作為術(shù)語候選提供給第二階段進(jìn)行評判。
當(dāng)然這種方法會生成大量的術(shù)語候選,通??梢赃x擇利用下面的策略對候選做進(jìn)一步的裁剪和篩選:
(1)引入停用詞表(stop list),列出所有不可能在術(shù)語中出現(xiàn)的單詞;應(yīng)用停用詞表,將其中含有或特定位置含有停用詞的n元組剔除,從而減少術(shù)語候選的數(shù)量。
(2)引入語言學(xué)知識,如前文所述,多詞術(shù)語絕大多數(shù)由名詞、形容詞按照一定的模式構(gòu)成,可以利用預(yù)定義的詞類模式對術(shù)語候選進(jìn)行過濾篩選,如可把能與第2節(jié)中正則表達(dá)式成功匹配的n元組作為術(shù)語候選。這種策略是一種常見的將語言學(xué)知識引入術(shù)語提取過程中的做法。不過,由于模式匹配建立在詞類模式的基礎(chǔ)上,需要事先對目標(biāo)領(lǐng)域文本進(jìn)行詞類標(biāo)注處理,由于現(xiàn)有詞類標(biāo)注程序并不完美,存在錯誤標(biāo)注的情況,也會對術(shù)語候選生成產(chǎn)生一定的影響。
(3)鑒于術(shù)語多為名詞短語,也有研究限定只處理名詞短語,規(guī)定術(shù)語候選需要是名詞短語。這會對目標(biāo)領(lǐng)域文本處理提出更高的要求,需要對目標(biāo)領(lǐng)域文本進(jìn)行句法或者名詞組塊分析處理。同樣自動句法或組塊分析的效果也會對術(shù)語候選質(zhì)量產(chǎn)生影響。
4.2 評分和排序
評分和排序階段的任務(wù)是通過評分的方式對第一階段生成的術(shù)語候選逐一評價,按照一定的準(zhǔn)則評判術(shù)語候選作為術(shù)語的分值,并根據(jù)分值對術(shù)語候選排序,截取得分較高的術(shù)語候選條目作為最終結(jié)果輸出給用戶。用戶通??梢灾付ㄝ敵鲂g(shù)語候選條目的數(shù)量,如可以設(shè)定提取條目數(shù)量,輸出得分排序靠前的r個術(shù)語候選條目;也可以設(shè)定得分閾值,輸出得分超過閾值的術(shù)語候選條目;還可以采用相對比例的方式,選取得分排在前x%的術(shù)語條目作為最終術(shù)語提取結(jié)果。
術(shù)語候選評分是自動術(shù)語提取的核心環(huán)節(jié),評分方法主要是統(tǒng)計方法,如可以從上面介紹的單元度和術(shù)語度兩個角度進(jìn)行評判,再將二者得分進(jìn)行綜合排序。當(dāng)然在具體系統(tǒng)實(shí)現(xiàn)中,未必需要專門的單元度和術(shù)語度評分組件,但評分一般應(yīng)能體現(xiàn)出對術(shù)語候選在這兩個方面的考量。
有時會進(jìn)行不止一次的評分和排序處理,這樣的策略被稱作重排序(reranking)策略。之所以這樣,通常是希望在前一種評分策略的基礎(chǔ)上增加新的關(guān)注因素,在第一次排序所得到的結(jié)果中使用改進(jìn)的或新的評分策略重新評分并排序,以達(dá)到改進(jìn)術(shù)語提取質(zhì)量的目標(biāo)。例如,首先使用C-value對術(shù)語候選進(jìn)行評分并排序,選取C-value得分最高的若干提取結(jié)果選擇術(shù)語語境詞,在選定語境詞后,計算候選術(shù)語的NC-value,并再次基于NC-value的大小對術(shù)語候選進(jìn)行排序。由于在計算NC-value時,考慮了候選術(shù)語的語境特征,新的排序結(jié)果會更加準(zhǔn)確合理。
5 自動術(shù)語標(biāo)注和機(jī)器學(xué)習(xí)
在本文第1節(jié),我們對自動術(shù)語提取和自動術(shù)語標(biāo)注兩個任務(wù)進(jìn)行了區(qū)分,也指出自動術(shù)語標(biāo)注可作為自動術(shù)語提取的實(shí)現(xiàn)技術(shù)。例如,對于下面的文本片段:
進(jìn)行詞法分析的程序或者函數(shù)叫作詞法分析器
自動術(shù)語標(biāo)注的結(jié)果是:
進(jìn)行[詞法分析]的[程序]或者[函數(shù)]叫作[詞法分析器]
自動術(shù)語標(biāo)注程序需要把文本中的術(shù)語實(shí)例標(biāo)記出來(方括號括起來的部分)。
經(jīng)過自動術(shù)語標(biāo)注處理目標(biāo)領(lǐng)域文本,其中出現(xiàn)的術(shù)語實(shí)例均已明確標(biāo)記,提取匯集這些術(shù)語即可實(shí)現(xiàn)術(shù)語提取的目的。例如,根據(jù)標(biāo)注結(jié)果,從上面的例子中,可以提取得到“程序”“詞法分析”“詞法分析器”和“函數(shù)”四個術(shù)語條目。
5.1 序列標(biāo)注模型
作為一種語例層級的標(biāo)注任務(wù),在模型構(gòu)建層面,自動術(shù)語標(biāo)注展現(xiàn)出與自動分詞、詞類標(biāo)注、命名實(shí)體識別等眾多自然語言處理任務(wù)類似的特性,可被視作一個典型的序列標(biāo)注型機(jī)器學(xué)習(xí)任務(wù)。序列標(biāo)注任務(wù)的輸入是一個序列X,輸出是一個長度相等的標(biāo)記序列Y:
X=x1x2…xn→Y=y1y2…yn
這里xi和yi分別是輸入序列和輸出序列的組成元素,且xi和yi一一對應(yīng),yi可視作xi的類別標(biāo)記,這種任務(wù)稱作序列標(biāo)注(sequence labeling)任務(wù),是一種給序列中每個元素賦以類別標(biāo)記的機(jī)器學(xué)習(xí)任務(wù)。
利用序列標(biāo)注模型解決自動術(shù)語標(biāo)注問題,輸入X是單詞序列,序列中每個基本元素xi是單詞。漢語、日語等語言中詞和詞之間沒有空格,任務(wù)的輸入也可是字符序列,序列中每個基本元素xi是單個字符(漢字或字母)。在序列標(biāo)注任務(wù)中,標(biāo)記的種類、數(shù)量和含義通常會因任務(wù)不同而有所差異。對于自動術(shù)語標(biāo)注而言,一個較為簡單的選擇是采用BIO標(biāo)記集。BIO標(biāo)記可用于標(biāo)記序列中的目標(biāo)片段,對于自動術(shù)語標(biāo)注而言,這個目標(biāo)片段就是術(shù)語。BIO標(biāo)記有三個基本標(biāo)記,B標(biāo)記術(shù)語中的首字(或詞),I標(biāo)記術(shù)語中除首字(或詞)之外的其他字(或詞),O標(biāo)記非術(shù)語組成部分的字(或詞)。所以自動術(shù)語標(biāo)注任務(wù)的輸出是由BIO三個標(biāo)記組成的序列。下面是一個標(biāo)記示例:
OOBIIIOBIOOBI…
↑↑↑↑↑↑↑↑↑↑↑↑↑…
進(jìn)行詞法分析的程序或者函數(shù)…
在這個例子中,輸入是字符序列“進(jìn)行詞法分析的程序或者函數(shù)…”,輸出序列是“OOBIIIOBIII BI…”。如“進(jìn)”和“行”被標(biāo)注O標(biāo)記,表明“進(jìn)行”兩字不是術(shù)語或術(shù)語的組成部分,“詞”被標(biāo)注B標(biāo)記,表明“詞”是一個術(shù)語的首字,“法”“分”“析”被標(biāo)注I標(biāo)記,表明這三個字是術(shù)語的組成部分??梢钥吹?,如果可以成功給輸入字符序列加注這樣的標(biāo)記序列,根據(jù)標(biāo)記序列就可以確定其中的術(shù)語,任何一個由B開始并接續(xù)若干I的標(biāo)記序列片段對應(yīng)的字符序列片段就是術(shù)語,如在上例中,由標(biāo)記序列片段“BIII”可得知“詞法分析”是一個術(shù)語。
序列標(biāo)注模型是自然語言處理中使用最為頻繁的模型之一,現(xiàn)有多種不同的序列標(biāo)注模型可供使用,在經(jīng)典模型中,使用最多的是條件隨機(jī)場(CRF)模型。 條件隨機(jī)場模型是一種基于特征的模型,模型要確定某個字的正確標(biāo)記,需要根據(jù)這個字在句子中的上下文特征做出決策,因此構(gòu)建基于CRF的自動術(shù)語標(biāo)注模型需要進(jìn)行人工特征工程(feature engineering),需要人工事先設(shè)定特征模板或特征。文獻(xiàn)[10]和[11]都是使用CRF模型解決自動術(shù)語標(biāo)注問題的示例。
近年來,深度學(xué)習(xí)(deep learning)技術(shù)的應(yīng)用為自然語言處理等領(lǐng)域帶來很多進(jìn)展。深度學(xué)習(xí)在多個方面推進(jìn)了經(jīng)典機(jī)器學(xué)習(xí)技術(shù),主要體現(xiàn)在:從(對數(shù))線性模型升級為非線性模型,提升了模型容量,改善了模型的表達(dá)能力;從高維離散型特征升級為低維連續(xù)型特征表示,實(shí)現(xiàn)了處理對象間關(guān)聯(lián)關(guān)系的表示和建模;實(shí)現(xiàn)了特征的自動學(xué)習(xí)和分層學(xué)習(xí),消除或減少了對人工特征工程的依賴,也為機(jī)器決策提供了從具體到抽象的多層特征表示;靈活的預(yù)訓(xùn)練機(jī)制,提供了利用大數(shù)據(jù)改善性能的可能。深度學(xué)習(xí)中常見的序列處理模型,例如長短期記憶網(wǎng)絡(luò)模型(LSTM)、變換器模型(transformer)、基于編碼-解碼架構(gòu)的序列到序列(seq2seq)模型,原則上都可以用來建模自動術(shù)語標(biāo)注任務(wù)。在自動術(shù)語標(biāo)注任務(wù)中利用深度學(xué)習(xí)技術(shù)的研究目前并不多見,文獻(xiàn)[12]提出一種基于自注意力機(jī)制的自動術(shù)語標(biāo)注模型,可作為運(yùn)用深度學(xué)習(xí)技術(shù)處理自動術(shù)語標(biāo)注問題的一個示例。
5.2 術(shù)語標(biāo)注語料庫
總體而言,自動術(shù)語標(biāo)注研究不夠充分,相關(guān)研究在頂級學(xué)術(shù)會議和學(xué)術(shù)期刊上鮮有展現(xiàn)。原因有可能是多方面的,但是缺乏大規(guī)模術(shù)語標(biāo)注語料庫應(yīng)是主要原因之一。
無論是CRF等經(jīng)典機(jī)器學(xué)習(xí)模型還是目前流行的深度學(xué)習(xí)模型,都屬有指導(dǎo)的機(jī)器學(xué)習(xí)(supervised learning)技術(shù),都需要以大規(guī)模術(shù)語標(biāo)注語料庫作為學(xué)習(xí)素材,對于深度學(xué)習(xí)模型而言,由于模型容量大的原因,理論上需要更大規(guī)模的術(shù)語標(biāo)注語料庫才能產(chǎn)生更具推廣能力的術(shù)語標(biāo)注效果。
針對術(shù)語標(biāo)注語料庫缺乏的現(xiàn)象,除人工構(gòu)建外,似乎并無省時省力的快捷辦法,但遠(yuǎn)程指導(dǎo)(distant supervision)技術(shù)或不失為一種權(quán)宜解決辦法。遠(yuǎn)程指導(dǎo)技術(shù)最早被用于關(guān)系提取研究[13],是一種通過知識庫回標(biāo)方式產(chǎn)生弱標(biāo)注數(shù)據(jù)的技術(shù)。文獻(xiàn)[12]在自動術(shù)語標(biāo)注研究中使用了這一技術(shù),基本思想是利用現(xiàn)有術(shù)語詞表,將術(shù)語詞表中的術(shù)語回標(biāo)至目標(biāo)領(lǐng)域文本,簡單地說,就是將目標(biāo)領(lǐng)域文本中出現(xiàn)的術(shù)語表中的術(shù)語標(biāo)注為術(shù)語實(shí)例并作為術(shù)語標(biāo)注語料庫用作機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)。遠(yuǎn)程指導(dǎo)技術(shù)存在錯誤標(biāo)注和漏標(biāo)的問題,文本中出現(xiàn)了術(shù)語表中沒有的術(shù)語時,就會出現(xiàn)漏標(biāo)現(xiàn)象。如果文本中出現(xiàn)術(shù)語的非術(shù)語用法(這種情況盡管很少出現(xiàn)),也會導(dǎo)致錯標(biāo)的現(xiàn)象。遠(yuǎn)程指導(dǎo)技術(shù)的優(yōu)點(diǎn)是無須人工干預(yù)、速度快,可以在短時間內(nèi)產(chǎn)生大規(guī)模術(shù)語標(biāo)注語料,用以支持基于經(jīng)典機(jī)器學(xué)習(xí)技術(shù)和深度學(xué)習(xí)技術(shù)的自動術(shù)語標(biāo)注研究。例如,文獻(xiàn)[12]利用一個包含7萬多個條目的計算機(jī)領(lǐng)域中文術(shù)語表應(yīng)用遠(yuǎn)程指導(dǎo)技術(shù)回標(biāo)了6萬多個論文摘要文本作為術(shù)語標(biāo)注語料,以支持術(shù)語標(biāo)注研究,并取得了一定的自動術(shù)語標(biāo)注效果。
6 自動術(shù)語提取與標(biāo)注的評價
與其他很多研究一樣,方法的好和壞、改進(jìn)方向、應(yīng)用意義都需要通過評價來體現(xiàn)和基于評價來做出判斷,自動術(shù)語提取研究也不例外。與很多自然語言處理任務(wù)評價類似,在自動術(shù)語標(biāo)注和提取任務(wù)中,最常用的評價指標(biāo)是F值。
測試術(shù)語提取系統(tǒng)的性能,需要引入目標(biāo)領(lǐng)域的測試文本。對于給定的目標(biāo)語料測試文本,其中包含的術(shù)語條目理論上是確定的,如果由領(lǐng)域?qū)<野堰@些術(shù)語條目提取出來,就可以作為自動方法評判的標(biāo)準(zhǔn)答案。通過比對術(shù)語提取系統(tǒng)返回的術(shù)語條目和標(biāo)準(zhǔn)答案,會有三種情況出現(xiàn):
(1) 正確提取,也就是在標(biāo)準(zhǔn)答案中的術(shù)語被術(shù)語提取系統(tǒng)正確提取的情況。這里用nA代表術(shù)語自動提取系統(tǒng)正確提取的術(shù)語的數(shù)量。
(2) 漏提,也就是正確答案中有但未能被術(shù)語提取系統(tǒng)提取的情況。這里用nB代表被術(shù)語自動提取系統(tǒng)漏提的術(shù)語的數(shù)量。
(3) 錯提,也就是并非術(shù)語但被自動術(shù)語提取系統(tǒng)誤認(rèn)作術(shù)語的情況。這里用nC代表自動提取結(jié)果中這種被錯認(rèn)的術(shù)語數(shù)量。
基于上述三種不同情況和對應(yīng)的統(tǒng)計數(shù)據(jù),可以分別定義精確率(precision)和召回率(recall)兩個評價指標(biāo)。其中精確率用來評判自動提取系統(tǒng)提取結(jié)果的準(zhǔn)確程度,定義為自動提取結(jié)果中正確結(jié)果所占的百分比,即:
precision=nAnA+nC×100%
召回率用來評判自動提取結(jié)果對正確結(jié)果的覆蓋情況,定義為正確的提取結(jié)果占標(biāo)準(zhǔn)答案的百分比,即:
recall=nAnA+nB×100%
而F值是結(jié)合精確率和召回率的綜合評價指標(biāo),定義為精確率和召回率的調(diào)和平均值,即:
F-measure=2·precision·recallprecision+recall
對于術(shù)語提取而言,最終輸出的術(shù)語條目數(shù)量會受用戶預(yù)設(shè)的數(shù)量或得分閾值的影響,因而設(shè)定不同,評價結(jié)果也會不同。對同一個術(shù)語提取系統(tǒng)而言,提取的準(zhǔn)確率通常會隨著輸出條目數(shù)量的增加而降低,而召回率則會隨著輸出條目數(shù)量的增加而升高。
對于自動術(shù)語標(biāo)注而言,通常也采用F值來評價效果,只不過術(shù)語標(biāo)注是標(biāo)注文本中所有的術(shù)語實(shí)例,因此是在語例層次進(jìn)行評價。評價時需要事先準(zhǔn)備正確標(biāo)注了所有術(shù)語實(shí)例的目標(biāo)領(lǐng)域測試文本作為標(biāo)準(zhǔn)答案,與自動術(shù)語標(biāo)注系統(tǒng)的標(biāo)注結(jié)果做比對,計算標(biāo)注的精確率、召回率及相應(yīng)的F值。
7 結(jié)語
自動術(shù)語提取研究取得了不少進(jìn)展,但距離人們的期望還有不小的差距。這表現(xiàn)在,現(xiàn)有術(shù)語提取結(jié)果中存在大量的噪聲,人工核校剔除需要花費(fèi)大量成本;術(shù)語漏提現(xiàn)象也普遍存在,尤其是現(xiàn)有術(shù)語提取技術(shù)大多基于統(tǒng)計技術(shù),限于長尾效應(yīng),一些低頻術(shù)語很難被識別和提取。如何減少噪聲和漏提現(xiàn)象仍是術(shù)語提取研究要解決的核心問題。
從方法層面而言,形成了基于術(shù)語評分統(tǒng)計量的提取策略和基于機(jī)器學(xué)習(xí)的術(shù)語標(biāo)注策略兩大類方法?;谛g(shù)語評分統(tǒng)計量的辦法無需大規(guī)模術(shù)語標(biāo)注語料庫,因而得到了較多的關(guān)注和研究?;跈C(jī)器學(xué)習(xí)的術(shù)語標(biāo)注技術(shù)由于需要大規(guī)模術(shù)語標(biāo)注語料庫,限于缺乏這樣的標(biāo)注數(shù)據(jù),效果和潛力仍未充分體現(xiàn)。尤其值得指出的是,近年來深度學(xué)習(xí)技術(shù)在自然語言處理的許多任務(wù)中有突出表現(xiàn),但在自動術(shù)語提取和標(biāo)注任務(wù)上的深入探索仍不多見。在基于深度學(xué)習(xí)技術(shù)的自動術(shù)語提取和標(biāo)注研究中,至少有兩個方面值得進(jìn)一步關(guān)注:一是許多神經(jīng)網(wǎng)絡(luò)架構(gòu)已被證實(shí)在自然語言處理的許多任務(wù)中可以帶來效果提升,諸如CNN、LSTM、Transformer等,這些模型可為術(shù)語提取技術(shù)帶來何種影響需要實(shí)踐驗(yàn)證,研究人員也需要在此基礎(chǔ)上探索并提出適于自動術(shù)語提取問題的新型模型架構(gòu);二是大規(guī)模預(yù)訓(xùn)練語言模型發(fā)展如火如荼,BERT、GPT、XLNet、T5等眾多大規(guī)模預(yù)訓(xùn)練語言模型在許多自然語言處理任務(wù)中的價值已得到證實(shí),但在自動術(shù)語提取方面的價值仍有待探索和關(guān)注。
術(shù)語提取和標(biāo)注主流技術(shù)仍是數(shù)據(jù)驅(qū)動的技術(shù),術(shù)語標(biāo)注資源的建設(shè)至關(guān)重要。但術(shù)語標(biāo)注語料構(gòu)建耗時費(fèi)力,在這種情況下,有效利用遠(yuǎn)程指導(dǎo)等弱指導(dǎo)技術(shù)和有效應(yīng)對遠(yuǎn)程指導(dǎo)技術(shù)的噪聲問題值得研究和探索。術(shù)語標(biāo)注資源的建設(shè)還有利于形成統(tǒng)一基準(zhǔn)評測語料,為準(zhǔn)確有效評價不同術(shù)語提取或標(biāo)注方法提供基礎(chǔ)資源,有利于術(shù)語提取和標(biāo)注技術(shù)的持續(xù)發(fā)展。
隨著科學(xué)技術(shù)的進(jìn)步,新術(shù)語層出不窮,從術(shù)語整理和審定的角度看,新術(shù)語提取效果更具應(yīng)用價值,如何在方法、評價層面考慮新術(shù)語提取能力也是有待關(guān)注的問題。
參考文獻(xiàn)
[1] 語言學(xué)名詞審定委員會.語言學(xué)名詞[M]. 北京:商務(wù)印書館,2011.
[2] CABR CASTELLV M T , BAGOT R E , PALATRESI J V. Automatic term detection: a review of current systems[M]//BOURIGAULT D, JACQUEMIN C, L’HOMME M-C. Recent Advances in Computational Terminology. Amsterdam:John Benjamins Publishing Company, 2001:53-88.
[3] JUSTESON J,KATZ S. Technical Terminology: Some Linguistic Properties and an Algorithm for Identification in Text[J]. Natural Language Engineering, 1995,1(1):9-27.
[4] KYO K,BIN U. Methods of automatic term recognition:a review[J]. Terminology, 1996,3(2):1-23.
[5] CHANG B B, DANIELSSON P, TEUBERT W. Extraction of Translation Unit from Chinese-English Parallel Corpora[C]//Proceedings of The First SIGHAN Workshop on Chinese Language Processing, 2002.
[6] CHURCH K W,GALE W A. Inverse document frequency (idf): A measure of deviations from poisson[C]//Proceedings of the ACL 3rd Workshop on Very Large Corpora, 1995:121-130.
[7] FRANTZI K, ANANIADOU S, MIMA H. The C-value/NC-value method of automatic recognition for multi-word terms[C]//Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries (ECDL),1998:585-604.
[8] FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of multi-word terms: the C-value/NC-value method[J]. International Journal on Digital Libraries,2000, 3(2):115-130.
[9] BARRN-CEDEO A, SIERRA G, DROUIN P, et al. An improved automatic term recognition method for Spanish[C]//International Conference on Intelligent Text Processing and Computational Linguistics, 2009:125-136.
[10] 王海雄,郭劍毅,余正濤,等. 基于CRFs的中文領(lǐng)域術(shù)語自動抽取研究[C]//第六屆全國信息檢索學(xué)術(shù)會議論文集,北京:中國中文信息學(xué)會,2010:505-512.
[11] ZHANG X, SONG Y, FANG A C. Term recognition using Conditional Random fields[C]//International Conference on Natural Language Processing and Knowledge Engineering, IEEE, 2010:1-6.
[12] 趙頌歌,張浩,常寶寶. 基于自注意力機(jī)制的科技術(shù)語自動提取技術(shù)研究[J]. 中國科技術(shù)語,2021,23 (2):20-26.
[13] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, 2009:1003-1011.
[14] KIM J-D,OHTA T,TATEISI Y,et al. GENIA corpus:a semantically annotated corpus for bio-textmining[J]. Bioinformatics, 2003,19(1):i180-i182.
[15] ZADEH B Q,HANDSCHUH S. The ACL RD-TEC: A Dataset for Benchmarking Terminology Extraction and Classification in Computational Linguistics[C]//Proceedings of the 4th International Workshop on Computational Terminology (Computerm),2014:52-63.
[16] 馮志偉. 一個新興的術(shù)語學(xué)科:計算術(shù)語學(xué)[J]. 術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2008(4):4-9.
[17] ZHANG Z Q,GAO J,CIRAVEGNA F. JATE 2.0: Java Automatic Term Extraction with Apache Solr[C]//Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 2016:2262-2269.
[18] KANG B, CHANG B B, CHEN Y R, et al. Extracting Terminologically Relevant Collocations in the Translation of Chinese Monograph[C]//International Joint Conference on Natural Language Processing, 2005:1017-1028.
[19] KANG B, CHANG B B, CHEN Y R, et al. Translating multi word terms into Korean from Chinese documents[C]//International Conference on Natural Language Processing and Knowledge Engineering, 2005:449-454.
作者簡介:常寶寶(1971—),博士,北京大學(xué)信息科學(xué)技術(shù)學(xué)院副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。先后主持多個國家自然科學(xué)基金和國家社會科學(xué)基金等項(xiàng)目,在包括ACL、EMNLP、COLING、IJCAI、AAAI等國際頂級會議在內(nèi)的國內(nèi)外學(xué)術(shù)會議及期刊上發(fā)表論文近百篇。作為主要成員,先后獲得教育部科技進(jìn)步一等獎、中國電子學(xué)會科技進(jìn)步一等獎、國家科技進(jìn)步二等獎等。通信方式:chbb@pku.edu.cn。