葉 楓 陳鶯鶯 周根貴* 李昊旻 李 瑩(浙江工業(yè)大學(xué)經(jīng)貿(mào)管理學(xué)院,杭州 3003)
2(浙江大學(xué)生物醫(yī)學(xué)工程與儀器科學(xué)學(xué)院,杭州 310027)
面對信息爆炸帶來的嚴(yán)重挑戰(zhàn),人們迫切需要一些自動化的工具幫助他們快速尋找到真正重要的信息。信息抽取(information extraction,IE)可以從文本中抽取出特定的信息并形成結(jié)構(gòu)化數(shù)據(jù),幫助人們對信息內(nèi)容進(jìn)行整理和分析[1],于是信息抽取技術(shù)應(yīng)運(yùn)而生。命名實體識別(named entity recognition,NER)是指識別文本中具有特定意義的實體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等,它作為信息抽取的第一步起著關(guān)鍵性的作用。
在國外,各個研究領(lǐng)域都對命名實體識別展開了大量研究,尤其是在生物醫(yī)學(xué)領(lǐng)域,已經(jīng)進(jìn)行了深入研究[2-5]。我國對命名實體識別的研究相對起步較晚,主要集中在人名、地名、機(jī)構(gòu)名等實體的識別[6]。近年來,我國學(xué)者開始對生物醫(yī)學(xué)領(lǐng)域內(nèi)的專有名詞進(jìn)行智能識別,與國外一樣,其研究內(nèi)容主要集中在蛋白質(zhì)、基因、核糖核酸等實體的識別[7-10]。
隨著臨床信息化的發(fā)展,電子病歷開始在臨床中逐漸普及,如何智能地利用其中的信息也越來越受到關(guān)注,不少臨床決策支持系統(tǒng)(clinical decision support system,CDSS)都將電子病歷作為重要的知識來源[11-12]。然而,以自然語言形式存在的病歷信息成為信息智能利用的障礙,如何讓計算機(jī)自動匯總患者信息,構(gòu)建和挖掘大型臨床數(shù)據(jù)庫以服務(wù)于臨床決策,成為臨床信息化所亟需解決的問題。
在病歷中,命名實體的類別繁多,除了時間、人名、組織機(jī)構(gòu)等常見的實體類別外,還有疾病、癥狀、手術(shù)操作、病因、病理、藥品等特有的實體類別。本研究面向病歷中最常見的3類實體(疾病、臨床癥狀、手術(shù)操作),利用條件隨機(jī)場(conditional random field,CRF)方法進(jìn)行自動識別,取得了良好的效果。
目前,命名實體的識別方法主要有3種:基于詞典的方法、基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法[5]。基于詞典的方法,需要建立具有廣泛覆蓋性的命名實體詞典,并添加相應(yīng)的個類,如縮寫、同義詞,變形詞甚至通常錯誤詞等注釋內(nèi)容,配合相應(yīng)的匹配算法來實現(xiàn)對于文本中命名實體的識別,其缺陷是對于出現(xiàn)的新命名實體缺乏兼容能力,往往存在覆蓋率不足的問題,特別是在醫(yī)學(xué)領(lǐng)域,術(shù)語量非常龐大,國內(nèi)尚缺乏能夠有效支撐自然語言處理能力的中文醫(yī)學(xué)術(shù)語詞典?;谝?guī)則的方法,雖然在一定程度上彌補(bǔ)了基于詞典方法不能識別未收錄詞的缺陷,但是對于特定領(lǐng)域需要專業(yè)知識的工程師和專家來說,建立針對性的識別規(guī)則庫,規(guī)則的制定不僅需要消耗大量的時間和人力,而且所制定的規(guī)則可移植性差。相對于前兩種方法,基于機(jī)器學(xué)習(xí)的方法具有更好的實用性,通?;跇?biāo)注過的語料進(jìn)行訓(xùn)練,然后基于訓(xùn)練結(jié)果來智能完成對于命名實體的識別。因此,該方法具有很好的移植性,目前已經(jīng)廣泛應(yīng)用于包括命名實體識別在內(nèi)的許多自然語言處理任務(wù)中。
在實體命名識別研究中,常用的機(jī)器學(xué)習(xí)模型包括支持向量機(jī)(support vector machine,SVM)、隱馬爾可夫(hidden Markov model,HMM)、最大熵馬爾可夫(maximum entropy Markov model,MEMM)、條件隨機(jī)場(CRF)等[9,13-14]。
1)支持向量機(jī):將識別問題看作是一個分類問題,通過構(gòu)造一個超平面,以超平面間的距離作為最大邊緣來把訓(xùn)練實例分割為兩類,因此主要處理二元分類。但是,VM的識別效率低,需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,單獨(dú)使用效果不佳。
2)隱馬爾可夫:是一種被應(yīng)用得較早的模型,在語音識別中獲得廣泛應(yīng)用,在生物醫(yī)學(xué)領(lǐng)域的實體識別研究中也有使用[10]。由于其輸出獨(dú)立性假設(shè),導(dǎo)致其不能考慮上下文的特征,在一定程度上限制了特征的選擇。
3)最大熵馬爾可夫:是一種較早就被應(yīng)用并對NER系統(tǒng)有較大促進(jìn)的指數(shù)線性模型,它解決了隱馬爾可夫的問題,可以任意選擇特征,但由于其在每一節(jié)點(diǎn)都要進(jìn)行歸一化,所以只能找到局部的最優(yōu)值,同時也帶來了標(biāo)記偏見的問題,凡是訓(xùn)練語料中未出現(xiàn)的情況全都忽略。
4)條件隨機(jī)場:只需要考慮當(dāng)前已經(jīng)出現(xiàn)的觀測狀態(tài)特征,沒有獨(dú)立性的嚴(yán)格要求,并很好地解決了MEMM的標(biāo)注偏見問題。它并不在每一個節(jié)點(diǎn)進(jìn)行歸一化,而是對所有特征進(jìn)行全局歸一化,因此可以求得全局的最優(yōu)值。此外,在小規(guī)模的訓(xùn)練數(shù)據(jù)上,它也獲得了理想的效果。
在生物醫(yī)學(xué)領(lǐng)域,有許多相關(guān)研究證明了該模型的有效性。Tsai等利用CRF對GENIA V3.02中的5類實體進(jìn)行識別,其中蛋白質(zhì)的F值達(dá)70.2%[7],彭春艷等在相似的實驗中達(dá)到了73.7%的F值,這兩個實驗都證明CRF優(yōu)于其他機(jī)器學(xué)習(xí)模型[10]。Leaman等對生物醫(yī)學(xué)文獻(xiàn)中的多類實體進(jìn)行識別,總體F值達(dá)81.96%,其中疾病的F值僅為54.84%[4]。而在其隨后針對Arizona疾病語料庫(Arizona Disease Corpus,AZDC)的研究中,疾病的F值提升到了77.9%[5]。同樣,基于AZDC語料庫,F(xiàn)aisal等則采用了一系列針對疾病量身定制的特征,達(dá)到了81.8%的F值[15]。在中醫(yī)學(xué)領(lǐng)域,王世昆等在數(shù)據(jù)清洗和特征空間降維的基礎(chǔ)上,對中醫(yī)病案中的病癥和發(fā)病機(jī)理進(jìn)行智能識別,達(dá)到87.16%的F值,而同實驗中SVM的F值僅為81.92%[16]。綜上所述,在各種機(jī)器學(xué)習(xí)模型中,CRF具有諸多優(yōu)于其他識別模型的特點(diǎn),對各類實體都具有很好的識別效果。
CRF是一種較新的無向圖模型,最早由Lafferty和McCallum在2001年提出[17],以給定的輸入節(jié)點(diǎn)值為條件來預(yù)測輸出節(jié)點(diǎn)值的概率。其中,最簡單也是最常用的為線性鏈?zhǔn)浇Y(jié)構(gòu),如圖1所示。
圖1 CRF線性鏈?zhǔn)浇Y(jié)構(gòu)Fig.1 CRF linear chain structure
命名實體識別過程可以看成序列標(biāo)注過程,即:將每一自然句看成一個觀察序列,把句中的每一個字或詞看成是一個符號,再給每一個符號賦予一個標(biāo)記(或狀態(tài))。對于觀察序列x=(x1,x2,…,xn)和狀態(tài)序列y=(y1,y2,…,yn),可以定義一個CRF模型,形式為
式中,fk(yi-1,yi,x)為觀察序列x位置為i和i-1的輸出節(jié)點(diǎn)的特征函數(shù),gk(yi,x)為位置為i的輸出和輸入節(jié)點(diǎn)的特征函數(shù),λk和μk是相應(yīng)特征函數(shù)的權(quán)重。Z(x)為所有狀態(tài)序列的歸一化因子,有
通過對訓(xùn)練集進(jìn)行訓(xùn)練,可以獲得滿足條件概率(見式(1))最大化的參數(shù)λk和μk。在此基礎(chǔ)上,與HMM類似,CRF也可以使用Viterbi解碼以獲得最佳的狀態(tài)序列,即:
由于特征的選擇對CRF的訓(xùn)練效果具有很大的影響,因此除了要選擇合適的機(jī)器學(xué)習(xí)方法,也需要選擇一個有效的特征集合,以獲得理想的準(zhǔn)確率和召回率。理論上CRF允許使用任意的特征,使得模型可以獲得豐富的信息。鑒于病歷中實體的特殊性,本研究對病歷進(jìn)行了分析,采用了以下特征。
1)語言符號特征:在中文命名實體中,常用的語言符號主要有基于字和詞兩種。字是漢語中最基本的組成,一般是指單個漢字,而本研究所指的“字”還包括標(biāo)點(diǎn)符號、外文字母、數(shù)字等。由于中文文本缺乏像英語那樣的天然分詞標(biāo)記,因此,當(dāng)選用詞作為特征時,首先要進(jìn)行分詞工作。中文領(lǐng)域已經(jīng)存在一些較為實用的分詞軟件,研究中選用中科院的ICTCLAS作為分詞工具。由于它不是專門面向醫(yī)學(xué)領(lǐng)域的分詞工具,缺乏領(lǐng)域詞匯,因此對其字典進(jìn)行了擴(kuò)展,將ICD-10(The International Classification of Disease,10thRevision)和ICD-9-CM(The International Classification of Diseases,9th Revision,Clinical Modification)中的術(shù)語添入其用戶字典中。
2)詞性特征:該特征對于識別命名實體的邊界有很大幫助,如在病歷中“患”、“診斷”等動詞指出了疾病等實體的左邊界。由于ICTCLAS分詞工具可以在分詞的同時進(jìn)行詞性標(biāo)注,本研究的詞性標(biāo)注工作也將借助于它來完成。
3)構(gòu)詞模式特征:對ICD-10和ICD-9-CM中的術(shù)語進(jìn)行統(tǒng)計分析可以發(fā)現(xiàn),疾病名通??梢杂尚揎棽糠?、人名/地名、身體部位或組成、基本疾病名等幾部分組合而成,如“孤立性氣管結(jié)核”可以拆分為“孤立性”、“氣管”、“結(jié)核”3部分;手術(shù)操作通常由疾病名、身體部位和組成、核心詞等幾部分組合而成,如“腦室引流術(shù)”可以拆分為“腦室”、“引流”、“術(shù)”。本研究依據(jù)ICD-10和ICD-9-CM,通過人工收集,構(gòu)建了4個外部字典,如表1所示。
4)詞邊界特征:對于病歷中出現(xiàn)的命名實體和外部字典中的字詞都采用了BIEO標(biāo)記,B表示標(biāo)記塊的開始,I表示標(biāo)記塊的內(nèi)部,E表示標(biāo)記塊的結(jié)尾,O表示不屬于標(biāo)記塊。
5)上下文特征:在由連續(xù)出現(xiàn)的多個字詞所構(gòu)成的“上下文窗口”中,字詞間的各種特征存在內(nèi)在的規(guī)律和特點(diǎn),也常被用于命名實體識別。文本選用兩種不同的窗口長度(3和5),并將其所屬范圍內(nèi)的各種字詞特征進(jìn)行組合,以構(gòu)成新的聯(lián)合特征。
表1 外部字典Tab.1 External dictionaries
如前所述,只關(guān)注表2所示的3類命名實體。為了實現(xiàn)自動識別,建立了3個處理流程:首先利用相關(guān)的醫(yī)學(xué)語言處理技術(shù)準(zhǔn)備CRF訓(xùn)練語料,然后依據(jù)實體的命名規(guī)律以及所選的特征設(shè)計CRF學(xué)習(xí)模板,最后使用學(xué)習(xí)模板通過訓(xùn)練獲得CRF模型,基于生成的CRF模型對實體類型進(jìn)行自動標(biāo)注。下面結(jié)合所做實驗,對實體自動識別流程進(jìn)行詳細(xì)介紹,并對實驗結(jié)果進(jìn)行分析。
表2 命名實體類別Tab.2 Named entity types
由于目前還沒有大規(guī)模的中文病歷的語料庫,因此本研究組織了適當(dāng)?shù)娜肆Γ瑯?biāo)注了小規(guī)模的病歷語料庫,以備實驗所用。隨機(jī)抽取來自臨床醫(yī)院各個科室的250份電子病歷,涵蓋了腫瘤、消化系統(tǒng)疾病、神經(jīng)性疾病等25個疾病大類。由于全病歷內(nèi)容復(fù)雜且所研究的實體主要集中出現(xiàn)在現(xiàn)病史和既往史中,因此本語料庫只包含這兩塊內(nèi)容。對于不同的病歷,現(xiàn)病史中出現(xiàn)重復(fù)語句的情況較少,而既往史中卻常出現(xiàn)完全相同的語句,因此本研究保留了所有病歷的現(xiàn)病史內(nèi)容,而針對既往史,每個疾病大類只隨機(jī)保留10份中的3份。同時,為避免既往史的內(nèi)容訓(xùn)練和測試不足,另從600份病歷中,摘取包含命名實體且不完全相同的語句,共432句。最終,構(gòu)建了一個包含以上3個部分的語料庫,共計71 766個字符。
隨后,依據(jù)ICD-10、ICD-9-CM以及上述的4個外部字典,采用高精度的反向最大匹配算法進(jìn)行自動標(biāo)注??紤]到詞典的覆蓋率問題,對自動標(biāo)注后的語料庫進(jìn)行了人工核對,以保證標(biāo)注的正確性。部分標(biāo)注集如下:
5年前因<D<BP膽囊><BN息肉>>行<M<BP膽囊><KW切除><KW術(shù)>>。否認(rèn)有過<D<BP肝><BN炎>>、<D<BP肺><BN結(jié)核>>。1月余前,患者出現(xiàn)<S惡心>、<S嘔吐>,在紹興市第二醫(yī)院住院治療。
選用CRF++[18]作為條件隨機(jī)場算法的執(zhí)行工具。CRF++對于訓(xùn)練集和測試集有嚴(yán)格的格式要求:每行數(shù)據(jù)為一個標(biāo)記(token),每個語句由多行標(biāo)記組成,中間用空行隔開以區(qū)分句子的邊界;每個token可以用多個被空格間斷的列來表示多種特征,但必須包含相同的列數(shù),且最后列為類別標(biāo)簽。類別標(biāo)簽,即前述的“狀態(tài)”,用于表示每個token的正確分類。本研究通過自行編寫的格式轉(zhuǎn)換工具,將語料庫轉(zhuǎn)換成如圖2所示的兩種格式。其中,首列為語言符號特征(L),第二列為詞性特征(P),第三列為構(gòu)詞特征(S),第四列為類別標(biāo)簽。與詞邊界特征一樣,類別標(biāo)簽也采用了BIEO標(biāo)記,用以標(biāo)識實體的邊界。
圖2 采用不同語言符號的標(biāo)注集。(a)基于字;(b)基于詞Fig.2 Marked set with different linguistic symbol.(a)based on character;(b)based on word
CRF++利用用戶設(shè)定的模板文件(template file)對以上標(biāo)注語料進(jìn)行訓(xùn)練學(xué)習(xí)。在模板文件中,每行代表一個特征模板,用于確定輸入數(shù)據(jù)中的一個token。一維特征模板的基本格式為%x[row,col],其中,row確定與當(dāng)前token的相對行數(shù),col用于確定絕對列數(shù)。類似地,“%x[row1,col1]/%x[row2,col2]/…/%x[rown,coln]”為多維特征模板,通過定義不同維度的特征模板,就能組合使用多種特征。本研究將語言符號特征視為基礎(chǔ)特征,而將其他特征視為備選組合特征,通過選用不同的特征模板來分析各種特征對實驗結(jié)果的影響。
為了更簡潔地表述各模板文件,將一維特征模板簡化表達(dá)為“英文字母+數(shù)字”,如L0、P-2、S1。其中字母L、P、S分別對應(yīng)于標(biāo)注集中的前三列(詳見本文3.1節(jié)),數(shù)字0表示當(dāng)前token,1、-2等非零數(shù)字表示與當(dāng)前token的相對行數(shù)。同時,將多維特征模板表述為P-1/P0/P1等形式,表示該特征模板由當(dāng)前token的詞性特征與前后相對位置為1的token的詞性特征組合而成。表3給出了實驗所設(shè)的4個模板文件,用T1~T4加以區(qū)分。其中:T1的上下文窗口長度為3,T2~T4的上下文窗口長度均為5;T1和T2只考慮語言符號和詞性特征;T3只考慮語言符號和構(gòu)詞特征;T4同時考慮3列特征。
表3 模板文件Tab.3 Template files
將先前所建的兩種格式的語料庫大致按照2:1分為訓(xùn)練集和測試集兩部分,分別用于CRF模型學(xué)習(xí)和測試。首先對訓(xùn)練集進(jìn)行特征學(xué)習(xí),將學(xué)習(xí)結(jié)果以模型文件(model file)形式輸出,再利用生成的模型文件,自動在每行測試數(shù)據(jù)的最后給出相應(yīng)的類別標(biāo)簽,從而實現(xiàn)對病歷文本中實體類型的自動標(biāo)注。實驗最后,使用評測程序conlleval.pl[19]比較測試集中最后兩列的差異,對實驗結(jié)果進(jìn)行自動測評。
為了逐步分析不同的特征或特征組合對于CRF自動識別的影響、尋求相對最佳的模板設(shè)置,本研究有選擇地進(jìn)行了3次對照實驗,后兩次實驗將參照前面的實驗結(jié)果進(jìn)行設(shè)置,其中實驗結(jié)果通過正確率(P)、召回率(R)以及F值3類指標(biāo)進(jìn)行評價。實驗1和實驗2分別用于分析上下文、語言符號這兩種特征在采用不同形式時對實驗效果的影響,依據(jù)實驗結(jié)果提出特征或模板選擇的一些基本規(guī)則;在實驗1和實驗2的基礎(chǔ)上,實驗3用于分析語言符號、詞性、構(gòu)詞模式等多種特征的不同組合對實驗效果的影響,在結(jié)果中尋找其中的最佳模板設(shè)置。3次對照實驗的具體實驗設(shè)置如表4所示。
表4 實驗說明Tab.4 Experiment description
在實驗1中,通過采用T1和T2兩種模板,將提取特征的上下文窗口長度由3擴(kuò)大到5。為了更直觀地進(jìn)行比較,表5中直接給出了兩組實驗結(jié)果的差值(T2-T1),其中符號+和-分別用于表示實驗效果的提升和降低。從數(shù)據(jù)上可以看出,當(dāng)上下文窗口大小從3擴(kuò)大到5時,實驗效果大體上是提高了,因此后續(xù)實驗均采用了長度為5的上下文窗口。但是,對于不同類型的命名實體,其效果不同:提高了疾病和手術(shù)操作的識別效果,卻降低了臨床癥狀的識別效果。究其原因,發(fā)現(xiàn)了一個有趣的規(guī)律。通過對實驗語料中3類實體的平均長度進(jìn)行統(tǒng)計計算,可得3類實體的平均字符長度為:手術(shù)操作(5.23)>疾病名稱(4.07)>臨床癥狀(2.85);而從提高效果上看:手術(shù)和操作>疾病名稱>臨床癥狀,兩者一致。由此說明,實體識別效果與選取的上下文窗口長度有很大的關(guān)聯(lián)。當(dāng)上下文窗口長度與實體長度相近時,實驗識別效果較好;當(dāng)上下文窗口長度過長時,可能存在特征過度提取的現(xiàn)象,在一定程度上降低了識別效果。因此,實驗在選擇上下文窗口的長度時,應(yīng)考慮實體本身的長度,不宜過長或過短。
表5 上下文窗口擴(kuò)大對實驗的影響Tab.5 Influence of context window expanding on results
在隨后的實驗2中,通過模板和語言符號的兩兩組合,共形成4個實驗組。為了便于比較,本研究僅選擇3個指標(biāo)中的綜合性指標(biāo)(F值),對不同實驗組的識別效果進(jìn)行評價,結(jié)果如圖3所示。不難發(fā)現(xiàn),無論模板為T2還是T3,采用字形時的效果明顯優(yōu)于采用詞形時的效果,其中以手術(shù)操作的效果差距最大。于是,對識別效果最差的實驗組2進(jìn)行了結(jié)果統(tǒng)計,發(fā)現(xiàn)有9.5%的手術(shù)操作術(shù)語存在錯誤分割和詞性標(biāo)注的現(xiàn)象,而ICTCLAS的分詞精度一般情況下可達(dá)97%以上。通過對這9.5%的術(shù)語做更進(jìn)一步的分析,發(fā)現(xiàn)其中有59%未被正確識別,占了未正確識別總數(shù)的20%。筆者認(rèn)為,這是由于目前的分詞工具主要是針對新聞領(lǐng)域的,即使向分詞工具中添加了醫(yī)學(xué)領(lǐng)域的詞匯,但這些詞匯在分詞工具的字典中屬于低頻詞匯,仍然會存在較多錯誤分詞和詞性標(biāo)注的情況,在一定程度上影響了實驗效果。因此,在缺乏專業(yè)分詞工具的情況下,語言符號采用字形比采用詞形更為恰當(dāng)。
圖3 采用不同語言符號的結(jié)果比較Fig.3 Compare the results of different linguistic symbols
實驗3在實驗2的基礎(chǔ)上進(jìn)行改進(jìn),保留了實驗2中采用字形的實驗組1和實驗組3,并新添了一個實驗組,其語言符號同樣為字形,而模板采用T4。在3個實驗組中,新添的實驗組得到了最佳的實驗結(jié)果,如表6所示。比較圖3和表6中各類命名實體的F值可知,在語言符號均采用字形的前提下,本研究的最佳模板為T4,說明組合3列特征時的效果要優(yōu)于只組合2列特征時的效果,因此選擇相對豐富的特征集將有助于命名實體的識別。在生物醫(yī)學(xué)領(lǐng)域的其他實體識別研究中,F(xiàn)值一般為70%~85%[7],而從表6的數(shù)據(jù)上看,各類實體的F值都達(dá)到90%以上,說明實驗取得了良好的效果。
表6 最優(yōu)實驗結(jié)果Tab.6 The best results
本實驗取得了相對較好的結(jié)果,筆者認(rèn)為主要有以下幾個原因:首先,中文病歷中的醫(yī)學(xué)用語相對比較規(guī)范,由于病歷可以分為多個相對獨(dú)立的部分,且每部分的用語具有一定的相似性和重復(fù)性,所以這些病歷自身的特點(diǎn)決定了其非常適合采用機(jī)器學(xué)習(xí)的方法進(jìn)行實體識別;其次,采用了適當(dāng)?shù)臋C(jī)器學(xué)習(xí)模型(CRF),該模型具有其他機(jī)器學(xué)習(xí)模型所沒有的諸多優(yōu)點(diǎn),可以在全局范圍內(nèi)得到最優(yōu)值;最后,結(jié)合了語言符號、詞性、構(gòu)詞特征等多種特征,使模型能較好地將普通詞與實體區(qū)分開。實驗不足的是訓(xùn)練集和測試集的規(guī)模較小,且來自于同一家臨床醫(yī)院,沒有進(jìn)行開放性測試。因此,如何構(gòu)建更大規(guī)模的語料庫進(jìn)行訓(xùn)練和測試,是今后所需致力解決的問題。
總之,病歷中命名實體的良好識別,能夠為病歷信息的智能抽取打下良好的基礎(chǔ),為匯總患者信息、構(gòu)建臨床數(shù)據(jù)庫提供基礎(chǔ)技術(shù)的支持。
[1]Doan A,Naughton JF,Ramakrishnan R,et al.Information extraction challenges in managing unstructured data[J].ACM SIGMOD Record,2008,37(4):14-20.
[2]Vlachos A,Gasperin C.Bootstrapping and evaluating named entity recognition in the biomedical domain[C]∥Proceedings of the HLT-NAACL BioNLP Workshop on Linking Natural Language and Biology.New York:Association for Computational Linguistics Morristown,2006:138-145.
[3]Bundschus M,Dejori M,Stetter M,et al.Extraction of semantic biomedical relations from text using conditional random fields[J].BMC Bioinformatics,2008,9:207.
[4]Leaman R,Gonzalez GR.BANNER:An executable survey of advances in biomedical named entity recognition[C]∥Proceedings of Pacific Symposium on Biocomputing.Hawaii:World Scientific Publishing Co.Pte.Ltd,2008:652-663.
[5]Leaman R,Miller C,Gonzalez G.Enabling recognition of diseases in biomedical text with machine learning:Corpus and benchmark[C]∥Proceedings of the 3rd International Symposium on Lagauges in Biology and Medicine.Seogwipo-si:LBM,2009:82-89.
[6]俞鴻魁,張華平,劉群.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學(xué)報,2006,27(2):87-93.
[7]Tsai Tzong-han,Chou Wen-Chi,Wu Shih-Hung,etal.Integrating Linguistic Knowledge into a Conditional Random Field Framework to Identify Biomedical Named Entities[J].Expert Systems with Applications,2006,30(1):117-128.
[8]Sun ChengJie,Guan Yi,Wang XiaoLong,et al.Biomedical named entities recognition using conditional random fields model[J].Lecture notes in computer science,2006,4223:1279-1288.
[9]鄭強(qiáng),劉齊軍,王正華,等.生物醫(yī)學(xué)命名實體識別的研究與進(jìn)展[J].計算機(jī)應(yīng)用研究,2010,27(3):811-815.
[10]彭春艷,張暉,包玲玉,等.基于條件隨機(jī)域的生物命名實體識別[J].計算機(jī)工程,2009,35(22):197-199.
[11]Salem ABM.Casebased reasoning technology for medical diagnosis[J].World Academy of Science,Engineering and Technology,2007,25:9-13.
[12]Rossille D,Laurentc JF,Burgun A.Modelling a decisionsupport system for oncology using rule-based and case-based reasoning methodologies[J].International Journal of Medical Informatics,2005,74:299-306.
[13]Lee KJ,HwangYS,Rim HC.Two-phase biomedical NE recognition based on SVMs[C]//Proceedings of the ACL 2003 Workshop on Natural Language Processing in Biomedicine.Morristown:Association for Computational Linguistics,2003:33-40.
[14]Zhang Jie,Shen Dan,Zhou Guodong,et al.Enhancing HMM-based biomedical named entity recognition by studying special phenomena[J].Journal of Biomedical Informatics,2004,37:411-422.
[15]FaisalMD,Chowdhury M,LavelliA.Disease Mention Recognition with Specific Feature[C]∥Proceedings of the 2010 Workshop on Biomedical Natural Language Processing.Uppsala:ACL,2010:83-90.
[16]王世昆,李紹滋,陳彤生.基于條件隨機(jī)場的中醫(yī)命名實體識別[J].廈門大學(xué)學(xué)報,2009,48(3):360-364.
[17]Lafferty J,McCallum A,Pereira F.Conditional random fields:Probabilistic models for segmenting and labeling sequence data//Proceedings of the 18th international Conference on Machine Learning.San Francisco:Morgan Kaufmann,2001:282-289.
[18]CRF++:Yet another CRF toolkit[EB/OL].http://crfpp.sourceforge.net/,2009-05-06/2010-09-12.
[19]Output example conlleval[EB/OL].http://www.cnts.ua.ac.be/conll2000/chunking/output.html,2003-8-23/2010-09-12.