敬 星
(貴州師范大學(xué) 大數(shù)據(jù)與計算機科學(xué)學(xué)院,貴州 貴陽 550001)
基于詞向量與CRF的命名實體識別研究
敬 星
(貴州師范大學(xué) 大數(shù)據(jù)與計算機科學(xué)學(xué)院,貴州 貴陽 550001)
文章提出了一種基于詞向量與CRF中文命名實體。核心觀點為:命名實體識別任務(wù)本質(zhì)上為序列標(biāo)注任務(wù)。常見的序列標(biāo)注模型有HMM,MEMM,CRF。HMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率建立模型。MEMM模型為將轉(zhuǎn)移概率與表現(xiàn)概率構(gòu)建為聯(lián)合概率,統(tǒng)計為條件概率。MEMM經(jīng)常為局部最優(yōu),原因是MEMM歸一在部分。CRF模型計算了整體概率,當(dāng)歸一時,顧及信息在整體的出現(xiàn),所以避免了MEMM標(biāo)記偏移的出現(xiàn)。
CRF 標(biāo)注;轉(zhuǎn)移概率;條件概率
在統(tǒng)計自然語言處理領(lǐng)域,經(jīng)常要面對的是序列標(biāo)注問題:根據(jù)觀察值序列來確定其狀態(tài)序列。例如在詞性標(biāo)注任務(wù)中,需要對每個詞標(biāo)注其詞性。在這里,詞就是觀察值,而詞性就是觀察值的狀態(tài)。一個觀察值可能有多個狀態(tài),這個狀態(tài)是隱藏在觀察值下面不可見的。如何對整個觀察值序列進行建模,來求出最佳的觀察值序列,是統(tǒng)計自然語言處理經(jīng)常要面對的一個決策問題。
在本文的命名實體識別實驗中,筆者將文本內(nèi)容采用單字分割的方法。結(jié)合前人的研究成果,基于單個字的識別效果擁有很多的好處。第一,對文本內(nèi)容的處理方便,只需要把文本進行字符分割就行。第二,實驗效果好,在命名實體識別系統(tǒng)中[1],將使用采用單個字的模型。采用詞的模型與采用類的模型進行了對比。把采用字的模型整體性能比另外兩種方法好。最后,可以防止不正確的分詞造成的錯誤。在實際的實驗過程中,采用B(開始),I(中間),E(結(jié)束),N(空),對每個處理字符進行表述,所以對人名、地名、機構(gòu)名識別的任務(wù)定義了10種字符串的集合,L={BPER,I-PER,E-PER ,B-LOC ,I-LOC,E-LOC,B-ORG,I-ORG,E-ORG,N}。對于每個字符串的含義為:中文人名起始,中文人名中間,中文人名末,中文地名起始,中文地名中間,中文地名末,中文機構(gòu)名起始,中文機構(gòu)名中間,中文機構(gòu)名末,空。
例如下面的一句話,“巴菲特是美國的慈善家”,依據(jù)前文描述筆者把它分割為原始字符,打標(biāo)隊列:“巴……B-PER, 菲……I-PER,特……E-PER,是……O,美……B-LOC,國……E-LOC,的……O,慈……O,善……O,家……O?!贝藭r的輸入序列為:
X={巴,菲,特,是,美,國,的,慈,善,家}
對應(yīng)的標(biāo)注序列為:
把人民日報1998年的文本資料通過上述方法處理就能得到可使用的訓(xùn)練文本,文本由原始字符,打標(biāo)隊列{i(x),j(y)}組成。
2.1 函數(shù)集合
函數(shù)集合在條件隨機場中作為一個關(guān)鍵的概念。筆者先通過訓(xùn)練文本獲得函數(shù)fj=(yi-1,yi,x,i),接著再給不同的函數(shù)相應(yīng)的權(quán)重。fj=(yi-1,yi,x,i)為狀態(tài)與轉(zhuǎn)移函數(shù)相結(jié)合的表達。該函數(shù)只有兩個函數(shù)值,為0或1。為了構(gòu)建該函數(shù)的需要,筆者先定義原始文本上觀察特征b(x,i)的集合。該函數(shù)如公式1表示。
公式中b(x,i)代表實際值,出現(xiàn)某種情況是1,其余是0。
公式中wi="b"代表i的實際值是“b”,如果獲得了所有i位置的實際值的b(x,i),就能得到模型的函數(shù)集。對于i位置的實際值,在具體應(yīng)用中會給合適的窗口。
2.2 條件隨機場的特征模板
特征模板是用來配置特征的。在CRF中,使用的特征函數(shù)是已知的,模型訓(xùn)練的參數(shù)只是各特征的權(quán)重。因此你配置的是特征的位置關(guān)系,在訓(xùn)練預(yù)料中出現(xiàn)的符合這個位置的,成為一個特征。根據(jù)你的特征模板,CRF++從訓(xùn)練語料中得到了好多特征函數(shù),然后訓(xùn)練得到各特征函數(shù)的權(quán)重。
每個模板都只考慮一種因素。
Y[-3,1],Y[-1,0],Y[1,1],Y[1,0],Y[-2,1],在括號內(nèi)的首個數(shù)字代表窗口位置,末位數(shù)字代表特征種類。
2.3 確認(rèn)模型參數(shù)
獲得CRF模型分為兩個階段,首先獲取特征函數(shù)集,最后確認(rèn)模型里面的參數(shù)。
確認(rèn)模型參數(shù)本質(zhì)上就是獲取λ,λ是相應(yīng)特征函數(shù)的權(quán)重,極大似然估計(MLE)通過似然函數(shù)獲取λ。
2.4 參數(shù)估計的訓(xùn)練算法
本文實驗使用L-BFGS算法[2]進行模型訓(xùn)練。
如GIS和IIS的迭代梯度算法為經(jīng)典學(xué)習(xí)算法[3]。CRF模型符合最大熵原理,所以迭代梯度算法能夠適用CRF模型訓(xùn)練,然而采用了L-BFGS算法,基于該算法獲取CRF模型比傳統(tǒng)方法迅速,并且比變化斜率方法效果更好[4]。
詞向量是深度學(xué)習(xí)的產(chǎn)物,它包含了豐富的句法、語義特征,同時由于詞向量的連續(xù)性,使得它能夠在原本離散的無關(guān)聯(lián)的詞與詞之間建立關(guān)系,更重要的是,在產(chǎn)生詞向量時,可以使用各種領(lǐng)域的語料來一起訓(xùn)練,因而,詞向量具有領(lǐng)域獨立性,所以將詞向量特征使用到模型訓(xùn)練中,可以讓模型具有更強適用性。
4.1 原始文本來源
該實驗選擇1998年1月《人民日報》公開文本用作原始數(shù)據(jù)。把該文本劃分為訓(xùn)練文本和測試測試,其文本長度比例為4∶1。訓(xùn)練文本的句子數(shù)目共21 569。
4.2 工具的選擇
word2vec 是一個使用比較廣泛的開源的詞向量生成工具包,它可以將輸入的分好詞的文本中的詞語轉(zhuǎn)換成向量的形式。條件隨機場的訓(xùn)練和測試使用CRF++。CRF++可用于各種自然語言處理的問題,如命名實體識別、信息抽取、文本分塊等等。
4.3 實驗結(jié)果
實驗結(jié)果如表1所示,其中P,R,F(xiàn)分別表示精確率,召回率和F值。
表1 實驗結(jié)果數(shù)據(jù)
通過實驗發(fā)現(xiàn),使用條件隨機場進行命名實體識別實驗時準(zhǔn)確率較高,但召回率比較低,認(rèn)為是條件隨機場模型對訓(xùn)練數(shù)據(jù)產(chǎn)生了一定程度的過擬合造成的。
[1]郭家清.基于條件隨機場的命名實體識別研究 [D].沈陽:沈陽航空工業(yè)學(xué)院,2007.
[2]WALLACH H. Conditional Random Field: An Introduction[D]. University of Pennsylvaania CIS Technical Report MS-CIS-04-21,2004 .
[3]ANDREWB A. Maximum Entrop Approach to Natural Language Processing[J].Computation Linguistics,1996(1):39-72.
[4]JAYNES E T.Information Theory and Statistical Mechanics[J].Physics Reviews,1957(106):620-630.
Research on named entity recognition based on word vector and CRF
Jing Xing
(Data and Computer Science College of Guizhou Normal University, Guiyang 550001, China)
In this paper, a Chinese named entity based on word vector and CRF is proposed. The key point of this paper is: named entity recognition task is essentially a sequence tagging task. Common sequence annotation models includes HMM, MEMM, CRF. HMM model is a model of the transition probability and performance probability. The MEMM model is a model for the transition probability and the performance probability. The MEMM model is to construct the transition probability and the probability of expression as the joint probability, which is statistics of the conditional probability. Often MEMM is the local optimum, for MEMM is part normalization. CRF model calculated the overall probability, when normalization, taking into account the emergence of information in the whole, so avoid the emergence of MEMM mark offset.
CRF annotation; transition probability; conditional probability
敬星(1990— ),男,四川南部,碩士;研究方向:自然語言處理。