周玉新
摘 要:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和極大普及,以及相關(guān)領(lǐng)域研究的不斷深入,可用信息資源得到了極大豐富。人們迫切需要從海量的非結(jié)構(gòu)化文本中獲取有用的信息。在這一背景下,信息抽取技術(shù)應(yīng)運而生。命名實體識別自誕生之日起,就被看作信息抽取系統(tǒng)的一個重要子任務(wù),受到廣大國內(nèi)外學(xué)者的廣泛關(guān)注。本文探討了命名實體識別的基本概念和意義,并對現(xiàn)有的命名實體識別技術(shù)、特征、評估方法進(jìn)行了總結(jié)。
關(guān)鍵詞:命名實體識別;信息抽?。辉u估方法
目前廣泛應(yīng)用于自然語言處理領(lǐng)域的“命名實體”最初于1996年在第六屆信息理解會議(MUC-6)上提出,那時,MUC主要側(cè)重于信息抽取任務(wù)。信息抽取是從給定文本中抽取諸如公司活動和國防活動等特定的信息,這些文本可以是結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。在進(jìn)行信息抽取任務(wù)時,人們發(fā)現(xiàn)識別文本中某些具有特殊意義的實體,如包括人名、機(jī)構(gòu)名稱和地名在內(nèi)的名稱和包括具有特殊意義的時間、日期及百分?jǐn)?shù)在內(nèi)的數(shù)字是必不可少的。在文本中識別這些實體的任務(wù)被稱為“命名實體識別”,普遍被認(rèn)為是信息抽取的一個重要子任務(wù),它的主要任務(wù)是抽取文本中的專有名詞、生物物種和有意義的時間、日期扥數(shù)量短語并進(jìn)行分類。
早期的命名實體識別研究工作主要對文本中的“專有名詞”進(jìn)行識別,其中研究最多的三種“專有名詞”是人名、地名和結(jié)構(gòu)名稱,這些名稱可以被轉(zhuǎn)換為更細(xì)化的類型,如地名可以被細(xì)化為:城市、州和國家。同樣,人名可以細(xì)化為政治家和演員等。
近年來,除了識別一般文本中的專有名詞外,一些生物醫(yī)學(xué)語料庫,如GENIA的出現(xiàn)引起了一些命名實體識別研究者對生物醫(yī)學(xué)實體識別研究的興趣,這些命名實體主要包括蛋白質(zhì)、DNA、RNA和細(xì)胞類型等。大多數(shù)生物醫(yī)學(xué)領(lǐng)域的命名實體識別研究主要集中于對蛋白質(zhì)的識別,也有一些關(guān)于藥品和化學(xué)名稱實體識別的研究。
最近的一些研究并不局限于抽取這些可能的實體類型,一些細(xì)化的類如博物館、河流或機(jī)場等引起了一些研究人員的興趣,并且還增加了一些范圍更廣的類,如產(chǎn)品和事件,以及物質(zhì)、動物、種族或顏色等。隨著命名實體識別研究范圍的進(jìn)一步擴(kuò)大,針對不同的特定領(lǐng)域,越來越多的實體類型得到了廣大實體識別研究工作者的關(guān)注。
1 學(xué)習(xí)方法
在信息抽取系統(tǒng)中,識別未知實體的能力是一個非常重要的部分,這樣的能力取決于系統(tǒng)所使用的識別和分類規(guī)則,這些規(guī)則由與正例和負(fù)例相關(guān)的特有規(guī)則觸發(fā)。早期的研究大多采用基于人工構(gòu)造規(guī)則的方法,而現(xiàn)在大多使用監(jiān)督的機(jī)器學(xué)習(xí)方法。
監(jiān)督學(xué)習(xí)方法的思想是在大量標(biāo)注的文檔上學(xué)習(xí)命名實體正例和負(fù)例的特征并設(shè)計捕獲給定類型本質(zhì)的規(guī)則。而語料庫的缺乏和構(gòu)造這些資源的高昂成本導(dǎo)致了兩種可替代的學(xué)習(xí)方法:半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。
1.1 監(jiān)督學(xué)習(xí)
目前,命名實體識別所使用的主流技術(shù)是監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)包括隱馬爾科夫模型、決策樹、最大熵模型、支持向量機(jī)、條件隨機(jī)域等[ 4 ],這些方法都是命名實體識別系統(tǒng)的變體,這些系統(tǒng)都是讀取大量的標(biāo)注語料,存儲一系列實體,并且構(gòu)造基于特征的判別規(guī)則。
通常提出的基本監(jiān)督方法包括標(biāo)注測試語料庫的詞,這些詞在訓(xùn)練集中被注釋為實體。系統(tǒng)的性能依賴于同時出現(xiàn)在訓(xùn)練語料庫和測試語料庫中的詞所占的比例,通常稱之為詞匯轉(zhuǎn)移。
1.2 半監(jiān)督學(xué)習(xí)
由于可用標(biāo)注語料庫的匱乏以及大量未標(biāo)注語料庫的存在,研究人員提出了一種半監(jiān)督學(xué)習(xí)方法,也稱為弱監(jiān)督學(xué)習(xí)。主要的半監(jiān)督學(xué)習(xí)方法被稱為“bootstrapping”,它只需要提供少量的標(biāo)注數(shù)據(jù),例如一組種子用于開始的學(xué)習(xí)。然后,系統(tǒng)搜索包含這些已提供數(shù)據(jù)的句子并嘗試發(fā)現(xiàn)出現(xiàn)在相似上下文中實體的其他實例。接著將學(xué)習(xí)過程應(yīng)用于新發(fā)現(xiàn)的例子以發(fā)現(xiàn)新的相關(guān)上下文。通過重復(fù)這一過程收集大量命名實體和大量上下文信息。半監(jiān)督方法只需要較少的已標(biāo)注數(shù)據(jù),從而在大量無標(biāo)注數(shù)據(jù)的條件下獲得可以與監(jiān)督學(xué)習(xí)方法相媲美的性能。
1.3 無監(jiān)督學(xué)習(xí)
由于現(xiàn)實中存在的大量無標(biāo)注數(shù)據(jù),在未進(jìn)行標(biāo)注的數(shù)據(jù)中,試圖找到隱藏的實體,即無監(jiān)督學(xué)習(xí)問題被提上日程。提供給系統(tǒng)的實例是無標(biāo)記的,這區(qū)別于監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。典型的無監(jiān)督學(xué)習(xí)方法是聚類[ 5 ],我們可以嘗試根據(jù)上下文的相似性從聚類組中收集命名實體。
2 命名實體識別的特征空間
特征是用來描述命名實體的各種屬性,對不同的識別系統(tǒng)來說所采用的特征也不同。我們通常用特征向量來描述系統(tǒng)所使用的特征,特征向量描述是由一個或多個布爾型數(shù)據(jù)、數(shù)值數(shù)據(jù)和標(biāo)量數(shù)據(jù)所表示的每個詞的文本抽象。經(jīng)常用于命名實體識別和分類的特征通常包括三種:詞級特征、列表查找特征以及文檔和語料特征。
3 評估指標(biāo)
對命名實體識別系統(tǒng)的發(fā)展來說,對系統(tǒng)的全面評估是必不可少的,許多系統(tǒng)被要求根據(jù)它們標(biāo)注文本的能力來對系統(tǒng)進(jìn)行排序。目前,通常采用的評估指標(biāo)主要有正確率、召回率和F值,它們的定義如下:
正確率=識別出的正確實體數(shù)/識別出的實體數(shù)
召回率=識別出的正確實體數(shù)/樣本中的實體數(shù)。
兩者的取值都在0和1之間,數(shù)值越接近1,正確率或召回率就越高。正確率和召回率有時會出現(xiàn)矛盾的情況,這時需要綜合考慮它們的加權(quán)調(diào)和平均值,也就是F值,其中最常用的F1值,當(dāng)F1值較高時說明試驗方法比較有效。F1值定義如下:
F1值=(2*正確率*召回率)/(正確率+召回率)。
4 結(jié)語
命名實體識別作為信息抽取的重要子任務(wù),從提出伊始就得到了廣大國內(nèi)外學(xué)者的廣泛重視,并且受到了各方面的持續(xù)關(guān)注,取得了巨大的進(jìn)展。本文探討了命名實體識別的基本概念和意義,并對現(xiàn)有的命名實體識別技術(shù)、特征、評估方法進(jìn)行了總結(jié)。目前,對某些領(lǐng)域如新聞的命名實體識別研究已經(jīng)相當(dāng)成熟,如何將新聞領(lǐng)域中成熟的技術(shù)方法應(yīng)用于一些新興領(lǐng)域如生物醫(yī)學(xué)等是未來命名實體識別系統(tǒng)發(fā)展的趨勢。
參考文獻(xiàn):
[1] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計算機(jī)工程與應(yīng)用,2003(10):1-5.
[2] 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才.基于層疊隱馬爾科夫模型的中文命名實體識別[J].通信學(xué)報,2006(02).
[3] 張祝玉,任飛亮,朱靖波.基于條件隨機(jī)場的中文命名實體識別特征比較研究[C].第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集,2008.
[4] 王丹,樊興華.面向短文本的命名實體識別[J].計算機(jī)應(yīng)用,2009,29(1).