• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      在線醫(yī)療文本中的實(shí)體識(shí)別研究

      2016-10-13 04:28:20蘇婭劉杰黃亞樓
      關(guān)鍵詞:后綴詞典實(shí)體

      蘇婭 劉杰 黃亞樓

      ?

      在線醫(yī)療文本中的實(shí)體識(shí)別研究

      蘇婭 劉杰?黃亞樓

      南開(kāi)大學(xué)計(jì)算機(jī)與控制工程學(xué)院(軟件學(xué)院), 天津 300071; ? 通信作者, E-mail: nkjieliu@gmail.com

      針對(duì)在線醫(yī)療文本, 設(shè)計(jì)考慮醫(yī)療領(lǐng)域特性的識(shí)別特征, 并在自建數(shù)據(jù)集上進(jìn)行實(shí)體識(shí)別實(shí)驗(yàn)。針對(duì)常見(jiàn)的5類(lèi)疾病: 胃炎、肺癌、哮喘、高血壓和糖尿病, 采用近年來(lái)較先進(jìn)的機(jī)器學(xué)習(xí)模型條件隨機(jī)場(chǎng), 進(jìn)行訓(xùn)練和測(cè)試, 抽取目標(biāo)實(shí)體包括疾病、癥狀、藥品、治療方法和檢查5類(lèi)。通過(guò)采用逐一添加特征的實(shí)驗(yàn)方式, 驗(yàn)證所提特征的有效性, 取得總體上81.26%的準(zhǔn)確率和60.18%的召回率, 隨后對(duì)識(shí)別特征給出進(jìn)一步分析。

      實(shí)體識(shí)別; 數(shù)據(jù)挖掘; 條件隨機(jī)場(chǎng); 醫(yī)療信息

      隨著生活水平的提高, 人們對(duì)于健康問(wèn)題日益關(guān)注?;ヂ?lián)網(wǎng)行業(yè)的迅猛發(fā)展催生一大批在線醫(yī)療社區(qū)和醫(yī)療信息網(wǎng)站, 為患者提供了多元化的醫(yī)療信息獲取渠道[1]。這些網(wǎng)站主要以健康知識(shí)、疾病信息、醫(yī)療新聞等為主要內(nèi)容, 同時(shí)也提供用戶(hù)在線疾病問(wèn)答功能。國(guó)內(nèi)比較知名的有新浪健康、尋醫(yī)問(wèn)藥、好大夫在線、39問(wèn)醫(yī)生等。據(jù)調(diào)查, 單是尋醫(yī)問(wèn)藥網(wǎng)就包含2004年11月24日至今十余年的疾病問(wèn)答數(shù)據(jù), 每天還會(huì)涌現(xiàn)數(shù)萬(wàn)條新提問(wèn)。日積月累, 這些疾病問(wèn)答信息將匯成一股非常可觀的大數(shù)據(jù)。這樣的數(shù)據(jù)有著廣泛的參與人群, 其中包含大量真實(shí)的個(gè)人案例, 潛藏著豐富的醫(yī)療價(jià)值。然而, 它們?cè)谖谋局写蠖嗵幱谝环N非結(jié)構(gòu)化的狀態(tài)。為了實(shí)現(xiàn)信息的充分利用, 抽取和挖掘出其中有用的醫(yī)療知識(shí), 進(jìn)行命名實(shí)體識(shí)別通常是第一步。

      目前, 在醫(yī)療領(lǐng)域, 針對(duì)電子病歷、各種醫(yī)療報(bào)告、醫(yī)學(xué)文獻(xiàn)等的實(shí)體識(shí)別工作已有不少, 但針對(duì)醫(yī)療問(wèn)答網(wǎng)站中的疾病問(wèn)答信息尚未見(jiàn)相關(guān)研究。本文針對(duì)這樣的問(wèn)答信息, 首次進(jìn)行實(shí)體識(shí)別和挖掘工作。本文抽取的實(shí)體類(lèi)別包括疾病、癥狀、藥品、治療方法和檢查5類(lèi)。在特征選取方面, 除使用一般的實(shí)體識(shí)別文本特征(例如符號(hào)特征、詞性特征、英文數(shù)字特征等)外, 還添加了醫(yī)療領(lǐng)域特有的一些特征(包括詞的后綴特征、身體部位指示詞特征)來(lái)輔助完成識(shí)別和抽取工作, 最終在自建數(shù)據(jù)集上達(dá)到81.26%的準(zhǔn)確率和60.18%的召回率。

      1 相關(guān)工作

      命名實(shí)體識(shí)別是自然語(yǔ)言處理領(lǐng)域一個(gè)重要的研究方向, 1995年舉行的第六屆消息理解會(huì)議(MUC-6)[2]正式提出命名實(shí)體識(shí)別任務(wù)。它作為文本挖掘中的第一步, 主要任務(wù)是識(shí)別文本中代表其知識(shí)主體的詞語(yǔ)。MUC將命名實(shí)體定義為兩類(lèi): 專(zhuān)有名詞和數(shù)量詞。在不斷的研究中, 命名實(shí)體的含義和范圍也在持續(xù)地豐富和擴(kuò)展。MUC之后, 出現(xiàn)自動(dòng)內(nèi)容抽取會(huì)議(Automatic Content Extraction, ACE)[3], 它由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(NIST)組織創(chuàng)辦, 從1999年至今已經(jīng)舉辦多次關(guān)于信息內(nèi)容自動(dòng)抽取的評(píng)測(cè)任務(wù), ACE數(shù)據(jù)集已經(jīng)成為測(cè)試新的信息抽取算法的公認(rèn)標(biāo)準(zhǔn)。

      在生物醫(yī)學(xué)領(lǐng)域, 識(shí)別對(duì)象集中在以下幾類(lèi): 電子醫(yī)療記錄、醫(yī)學(xué)文獻(xiàn)和在線醫(yī)療社區(qū)。目前比較集中的研究是針對(duì)醫(yī)學(xué)文獻(xiàn)中的基因、蛋白質(zhì)、藥物名、組織名等進(jìn)行的生物命名實(shí)體識(shí)別工作[4]。隨著醫(yī)療系統(tǒng)的信息化, 出現(xiàn)大量針對(duì)電子病歷進(jìn)行的識(shí)別工作, 目前識(shí)別值一般在0.82左右[5]。

      命名實(shí)體的識(shí)別方法包括3種: 基于詞典的方法、基于啟發(fā)式規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法?;谠~典的方法通過(guò)字符串匹配實(shí)現(xiàn)實(shí)體識(shí)別, 但對(duì)詞典有很強(qiáng)的依賴(lài)性。在國(guó)外, 英文醫(yī)療實(shí)體識(shí)別日趨成熟, 可供參考的資料也比較詳實(shí), 最著名的詞典包括國(guó)際疾病分類(lèi)ICD-10 (Interna-tional Classification of Diseases-10)[6]、醫(yī)學(xué)一體化語(yǔ)言UMLS(Unified Medical Language System)[7]和醫(yī)學(xué)主題詞表MeSH(Medical Subject Headings)[8]。在中文方面, 國(guó)內(nèi)研究還較少, 可使用的資源也相對(duì)匱乏。在基于啟發(fā)式規(guī)則的方法方面, Kraus等[9]針對(duì)大學(xué)醫(yī)療系統(tǒng)的臨床記錄, 通過(guò)構(gòu)建正則表達(dá)式, 對(duì)其中提及的藥品、劑量、服用方法等信息進(jìn)行識(shí)別。目前比較流行的是基于機(jī)器學(xué)習(xí)的方法。

      命名實(shí)體識(shí)別可以看成一個(gè)分類(lèi)問(wèn)題, 采用類(lèi)似支持向量機(jī)、貝葉斯模型等分類(lèi)方法, 同時(shí), 也可以看成一個(gè)序列標(biāo)注問(wèn)題, 采用隱馬爾可夫、最大熵馬爾可夫、條件隨機(jī)場(chǎng)等機(jī)器學(xué)習(xí)方法[10]。Sondhi等[11]針對(duì)醫(yī)療論壇HealthBoards上的疾病話題信息, 利用SVM和CRF方法進(jìn)行淺層的信息抽取。在中文方面, 葉楓等[12]自建詞典, 采用條件隨機(jī)場(chǎng)對(duì)電子病歷中的疾病、臨床癥狀、手術(shù)操作3類(lèi)比較常見(jiàn)的命名實(shí)體進(jìn)行識(shí)別, 達(dá)到90%以上的值。王世昆等[13]對(duì)明清古醫(yī)案中的癥狀和病機(jī)進(jìn)行識(shí)別, 采用CRF和SVM分別進(jìn)行訓(xùn)練和測(cè)試, 是在中文方面的較為大膽的嘗試。

      2 模型和特征選取

      在前面提到的眾多方法中, 條件隨機(jī)場(chǎng)是一種較優(yōu)秀的識(shí)別方法, 它不僅去除了HMM中的獨(dú)立性假設(shè), 而且通過(guò)全局的歸一化解決了標(biāo)記偏置的問(wèn)題, 在命名實(shí)體識(shí)別、詞性標(biāo)注等問(wèn)題上都取得不錯(cuò)的效果。如果采用CRF建立疾病問(wèn)答中的實(shí)體識(shí)別模型, 將更易于融合新的特征, 使用有重疊性非獨(dú)立的特征。利用其強(qiáng)大的推理能力, 有可能識(shí)別出訓(xùn)練語(yǔ)料中未出現(xiàn)的情況。因此, 本文選擇CRF模型進(jìn)行醫(yī)療文本中命名實(shí)體的識(shí)別。

      2.1 條件隨機(jī)場(chǎng)模型

      條件隨機(jī)場(chǎng)(Conditional Random Fields, CRF)是一種無(wú)向圖模型, 1958年由Luhn[14]提出。它提供了一種概率框架, 計(jì)算在給定一個(gè)觀察數(shù)據(jù)序列= (1,2, …,x)的條件下, 該序列所對(duì)應(yīng)標(biāo)簽序列= (1,2, …,y)整體出現(xiàn)的概率[15], 即

      其中= (1,2, …,)代表模型參數(shù),(,) 是任意定義的以為參數(shù)關(guān)于觀察序列和標(biāo)簽序列的特征函數(shù),(;)是歸一化因子。

      用CRF模型進(jìn)行命名實(shí)體識(shí)別, 可以視為一個(gè)序列標(biāo)注問(wèn)題。將要識(shí)別的每個(gè)句子作為一個(gè)觀察序列, 句子中的每個(gè)詞作為一個(gè)符號(hào), 為每一個(gè)符號(hào)賦予一個(gè)類(lèi)別標(biāo)簽。CRF模型最簡(jiǎn)單的一個(gè)結(jié)構(gòu)就是鏈?zhǔn)浇Y(jié)構(gòu)[16], 如圖1所示。

      進(jìn)行模型訓(xùn)練時(shí), 給定一個(gè)訓(xùn)練數(shù)據(jù)集= {(1,1), (2,2), …, (X,Y)}, 其對(duì)應(yīng)的經(jīng)驗(yàn)分布為, 一般可以通過(guò)最大化對(duì)數(shù)似然值, 得出模型參數(shù)估計(jì):

      為了避免過(guò)擬合, 可以運(yùn)用一些調(diào)整的方法, 通常在參數(shù)上加上高斯先驗(yàn), 目標(biāo)函數(shù)()就變?yōu)?/p>

      其中是高斯先驗(yàn)的方差。得到參數(shù)之后, 可以進(jìn)一步推斷給定目標(biāo)序列最可能的標(biāo)簽序列:

      目前已有一些成熟的算法可以用來(lái)推斷這一值, 比如Viterbi算法[17]。

      2.2 特征選取

      對(duì)于CRF模型, 特征的選取很關(guān)鍵。通過(guò)對(duì)疾病問(wèn)答文本的分析, 本文選擇以下特征進(jìn)行識(shí)別。

      1)符號(hào)特征。中文之間沒(méi)有類(lèi)似英文空格的天然分隔符, 因此在進(jìn)行實(shí)體識(shí)別時(shí), 需要首先進(jìn)行分詞操作, 將分詞之后的每一個(gè)詞語(yǔ)作為符號(hào)特征。為提高分詞準(zhǔn)確率, 引入自定義詞典。通過(guò)從多個(gè)輸入法(包括搜狗、百度、QQ)和醫(yī)療網(wǎng)站(尋醫(yī)問(wèn)藥、好大夫在線等)中分別獲取, 去重合并之后綜合成疾病、癥狀、藥物、檢查、治療方法和身體部位詞語(yǔ)6類(lèi)輔助詞典。

      2)詞性特征。在病人描述中經(jīng)常會(huì)出現(xiàn)“患”、“服用”、“吃”等動(dòng)詞, 這些詞后會(huì)出現(xiàn)疾病名或者藥品名, 這就為實(shí)體的邊界的識(shí)別提供了線索。在本文中, 該特征即為采用Ansj分詞后的詞性。本文采用開(kāi)源代碼庫(kù)Github上的Ansj[18]系統(tǒng)的分詞詞性作為這一維特征。

      3)形態(tài)特征。形態(tài)特征指當(dāng)前詞的構(gòu)成情況, 包括兩個(gè)特征: 英文字母特征和數(shù)字特征。英文字母特征用于標(biāo)記詞當(dāng)中是否包含有英文字母, 因?yàn)閷?duì)于檢查來(lái)說(shuō), 經(jīng)常會(huì)出現(xiàn)“ct”、“MRI”之類(lèi)的英文, 而在疾病名、藥物等類(lèi)別中卻不常出現(xiàn)。同樣, 數(shù)字特征用于標(biāo)記該詞是否由數(shù)字構(gòu)成。

      4)后綴特征。在英文命名實(shí)體識(shí)別中, 經(jīng)常采用詞的后綴特征進(jìn)行識(shí)別, 并且被證明是有效的。本文研究工作雖然是針對(duì)中文開(kāi)展的命名實(shí)體識(shí)別, 但經(jīng)觀察發(fā)現(xiàn), 文本中的各類(lèi)醫(yī)療實(shí)體也有一定的規(guī)律性, 比如病名通常以“病”、“癥”這類(lèi)詞結(jié)尾, 而藥品則以“顆?!薄ⅰ巴琛?、“劑”等詞語(yǔ)結(jié)尾, 治療方法則常以“術(shù)”結(jié)尾。因此, 本文也加入后綴特征, 即選取詞語(yǔ)的最后一個(gè)字作為特征。

      5)身體部位指示詞特征。該特征用于標(biāo)記當(dāng)前詞是否為身體部位相關(guān)的詞語(yǔ), 因?yàn)檫@樣的詞語(yǔ)在癥狀描述中經(jīng)常出現(xiàn)。

      6)上下文特征。在詞語(yǔ)組成的序列中, 上下文之間存在相關(guān)性, 該特征即為CRF模型中的邊的特征。當(dāng)選用不同的窗口長(zhǎng)度時(shí), 將對(duì)各種特征進(jìn)行組合, 形成新的特征。

      3 在線醫(yī)療文本中的實(shí)體識(shí)別

      針對(duì)在線醫(yī)療文本信息, 我們主要考慮表1中顯示的5類(lèi)命名實(shí)體。實(shí)體識(shí)別流程如圖2所示, 主要包括預(yù)處理、特征計(jì)算、CRF模型訓(xùn)練、實(shí)體識(shí)別和識(shí)別結(jié)果抽取。首先對(duì)獲取的在線醫(yī)療文本進(jìn)行預(yù)處理, 包括特殊符號(hào)的過(guò)濾、人工標(biāo)注、分詞、大小寫(xiě)轉(zhuǎn)化等操作; 然后, 利用程序從處理好的文本中自動(dòng)計(jì)算并抽取特征, 將所有數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集兩部分。將訓(xùn)練集放到模型中進(jìn)行訓(xùn)練, 隨后再利用訓(xùn)練得到的參數(shù)測(cè)試模型識(shí)別效果。

      表1 命名實(shí)體類(lèi)別

      3.1 數(shù)據(jù)預(yù)處理

      為了對(duì)在線醫(yī)療文本進(jìn)行實(shí)驗(yàn), 本文采集好大夫在線的5類(lèi)疾病的全部問(wèn)答信息, 涉及疾病包括胃炎、肺癌、哮喘、高血壓和糖尿病。每一篇文本包含一個(gè)提問(wèn)及相應(yīng)回答, 其中已經(jīng)過(guò)濾掉沒(méi)有回答的提問(wèn)信息。

      針對(duì)問(wèn)答文本, 首先進(jìn)行一些相關(guān)的預(yù)處理(如對(duì)特殊字符、英文大小寫(xiě)、標(biāo)點(diǎn)符號(hào)等的處理)。隨后進(jìn)行人工數(shù)據(jù)標(biāo)注。采取的標(biāo)注方式為BIO模型[19], 可以將分塊轉(zhuǎn)化為序列標(biāo)記確定問(wèn)題, 格式為B-X, I-X或者O, 其中B, I, O分別代表Begin, Internal, Other, 即類(lèi)別的開(kāi)始、中間或其他, X代表標(biāo)注的類(lèi)別。

      識(shí)別實(shí)驗(yàn)采用開(kāi)源工具CRF++: Yet Another CRF toolkit[20], 其輸入有一定的格式要求。標(biāo)注時(shí)首先進(jìn)行人工標(biāo)注, 為力求準(zhǔn)確, 對(duì)不熟悉的語(yǔ)匯都進(jìn)行查閱和了解。隨后將標(biāo)注數(shù)據(jù)轉(zhuǎn)換成所需格式, 如表2所示。本文采用Ansj分詞系統(tǒng), 對(duì)于自定義詞典中的詞都有自定義的類(lèi)別標(biāo)簽。表中“輔舒酮”為自定義藥品詞典中的詞, 因此詞性有別于其他詞語(yǔ)。最終對(duì)每類(lèi)疾病分別標(biāo)注了200篇問(wèn)答信息, 共1000篇作為訓(xùn)練和測(cè)試數(shù)據(jù), 共包含4812個(gè)不同的實(shí)體名詞。

      表2 數(shù)據(jù)標(biāo)注示例

      CRF++采用用戶(hù)模板進(jìn)行特征計(jì)算。在選擇窗口大小時(shí), 首先在500條問(wèn)答數(shù)據(jù)上, 采用同樣的模板, 設(shè)置不同窗口大小進(jìn)行測(cè)試。窗口大小為3時(shí)的效果優(yōu)于窗口大小為1和2, 此后再增加窗口大小, 效果提升不大, 因此本文最終將窗口大小設(shè)定為3。針對(duì)每一列輸入特征(0~5)設(shè)置模板, 包括兩類(lèi)形式:

      T1 = num: %x[index,], (7)

      T2 = num: %x[index,]/%x[index+1,], (8)

      其中, num為模板的編號(hào), index為窗口大小范圍內(nèi)的索引(0~2), T2由特征前后位置情況組合而成。

      3.2 實(shí)驗(yàn)

      本文進(jìn)行兩組實(shí)驗(yàn): 第1組字典實(shí)驗(yàn)驗(yàn)證自定義詞典的有效性: 第2組為不同特征實(shí)驗(yàn), 通過(guò)逐一添加特征的方式, 觀察實(shí)驗(yàn)效果的變化。實(shí)驗(yàn)結(jié)果的評(píng)測(cè)標(biāo)準(zhǔn)由精確度(precision)、召回率(recall)、準(zhǔn)確率(accuracy)和F1值(F1-measure) 構(gòu)成, 這也是數(shù)據(jù)挖掘中經(jīng)常用到的評(píng)測(cè)指標(biāo)[21]。對(duì)結(jié)果的評(píng)估采用conlleval.pl評(píng)測(cè)程序[22]。最后針對(duì)實(shí)驗(yàn)的詞性特征和后綴特征進(jìn)行分析。

      3.2.1 字典實(shí)驗(yàn)

      前面提到, 為提高分詞準(zhǔn)確率, 自建6類(lèi)醫(yī)療詞匯詞典。然而, 由于是從多個(gè)輸入法或者醫(yī)療網(wǎng)站獲取的詞匯, 所構(gòu)筑的6類(lèi)詞典之間難免會(huì)有重疊, 同時(shí)其中也充斥著一些不相關(guān)的詞匯, 由于數(shù)量巨大, 如疾病和藥品均有上萬(wàn)個(gè)詞匯(未能一一過(guò)濾), 因此存在噪聲。為驗(yàn)證其對(duì)實(shí)驗(yàn)的影響及添加詞典的識(shí)別效果, 首先進(jìn)行字典實(shí)驗(yàn)。

      實(shí)驗(yàn)在一個(gè)較小的數(shù)據(jù)集上開(kāi)展, 選取5類(lèi)疾病各100條問(wèn)答數(shù)據(jù), 采用符號(hào)特征和詞性特征進(jìn)行實(shí)驗(yàn)。包括3組不同的設(shè)置, 第1組分詞時(shí)不使用自定義詞典, 第2組和第3組添加同樣的自定義詞典, 但第2組只將自定義詞典中的詞都標(biāo)注為同一個(gè)詞性類(lèi)別“userDifine”, 第3組則根據(jù)詞語(yǔ)的詞典來(lái)源標(biāo)注不同的詞性。自定義詞典的詞數(shù)統(tǒng)計(jì)信息如表3所示。用B(basic)表示第1組, B+D為第2組, D代表Dictionary, B+Ds為第3組, Ds代表多個(gè)詞典, 不同設(shè)置的標(biāo)注示例如表4所示。

      表3 自定義詞典情況

      表4 不同詞典設(shè)置的標(biāo)注示例

      從實(shí)驗(yàn)結(jié)果表5可以看出, 添加了自定義詞典的識(shí)別效果要好于沒(méi)有添加的情況, 將詞典分為多個(gè)不同類(lèi)別的效果又好于只設(shè)定為一個(gè)詞典的情況。這是因?yàn)閷⒃~典設(shè)置為多個(gè)比設(shè)置為一個(gè)粒度更細(xì), 因此提供的信息也更為豐富。這組實(shí)驗(yàn)也說(shuō)明雖然詞典存在噪聲, 但總體上, 影響不大, 添加多個(gè)詞典有助于識(shí)別效果的提升, 因此, 在下面的實(shí)驗(yàn)中, 分詞時(shí)都采用多個(gè)字典的方式。

      表5 字典實(shí)驗(yàn)結(jié)果

      3.2.2 不同特征實(shí)驗(yàn)

      為了驗(yàn)證本文提出的各種特征在問(wèn)答實(shí)體識(shí)別中的效果, 采用逐一添加特征的方式對(duì)1000條標(biāo)注數(shù)據(jù)進(jìn)行實(shí)驗(yàn), 即每次在符號(hào)特征的基礎(chǔ)上增加一種特征。首先添加一些常用的實(shí)驗(yàn)特征(如詞性, 英文、數(shù)字特征等), 再添加本文提出的后綴和身體部位指示詞特征。為了保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確, 均采用5折交叉驗(yàn)證。圖3為實(shí)驗(yàn)結(jié)果總體的變化情況, “word”、“pos”、“al”、“num”、“suffix”和“body”分別代表符號(hào)特征、詞性特征、英文字母特征、數(shù)字特征、后綴特征和身體部位指示詞特征。

      表6~9為實(shí)驗(yàn)結(jié)果的詳細(xì)情況??梢钥吹? 隨著各類(lèi)特征的逐一添加, 識(shí)別精確度略有下降, 主要體現(xiàn)在添加詞性特征時(shí); 在后面加入后綴和身體部位指示詞特征后, 精確度又有所回升??傮w說(shuō)來(lái), 精確度變化不大。另一方面, 實(shí)驗(yàn)的召回率在各類(lèi)實(shí)體上都有大幅度提升, 尤其是在藥物這一類(lèi)別最終得到41.63%的提升, 比原來(lái)37.83%的召回率提升了一倍多。F1值在各類(lèi)實(shí)體上也都有不同程度的提升, 總體上, 從只用符號(hào)特征到所有特征都用, 共提升23.63%。

      表6 不同特征實(shí)驗(yàn)的precision

      表7 不同特征實(shí)驗(yàn)的recall

      表8 不同特征實(shí)驗(yàn)的F1

      表9 不同特征實(shí)驗(yàn)總體的accuracy

      實(shí)驗(yàn)結(jié)果表明, 在識(shí)別的5類(lèi)實(shí)體中, 藥物的識(shí)別效果最好, 特別是在召回率和F1兩個(gè)指標(biāo)上遠(yuǎn)遠(yuǎn)超過(guò)其他類(lèi)別的實(shí)體。在精確度上, 藥物最優(yōu), 其次是檢查和治療方法, 最低為疾病和癥狀, 在召回率上正好相反。這可能是因?yàn)樗幟话惚容^固定, 而且在用戶(hù)輸入信息時(shí)格式也比較規(guī)整。對(duì)于疾病和癥狀通常有多樣化的描述方式, 因此識(shí)別精度不如其他類(lèi)別。

      識(shí)別結(jié)果大致包含以下幾種錯(cuò)誤類(lèi)型: 1)識(shí)別邊界不準(zhǔn)確, 例如“胸部CT檢查”只識(shí)別出了“CT檢查”, 遺漏了相關(guān)的指示部位, “中央型肺癌”遺漏了修飾語(yǔ)“中央型”等情況; 2)未識(shí)別出較長(zhǎng)實(shí)體, 像“痰中帶血絲”、“嗓子老發(fā)癢”這樣的癥狀; 3)誤分類(lèi), 例如“腔積液”(疾病)被誤分類(lèi)為藥物。導(dǎo)致錯(cuò)誤的原因可能與數(shù)據(jù)集規(guī)模有關(guān), 下一步可以擴(kuò)充數(shù)據(jù)集, 豐富特征, 尋找真正能抓住其本質(zhì)的特征進(jìn)行實(shí)驗(yàn)。

      3.3 特征分析

      對(duì)不同特征進(jìn)行的實(shí)驗(yàn)表明, 詞性特征和后綴特征對(duì)于識(shí)別效果有很大的提升, 所以本文進(jìn)行以下兩組分析。

      3.3.1 各類(lèi)實(shí)體詞性構(gòu)成模式分析

      這里的詞性構(gòu)成綜合考慮了當(dāng)前實(shí)體的前一個(gè)詞的詞性、當(dāng)前詞的詞性和后一個(gè)詞的詞性, 如表10所示。針對(duì)被標(biāo)注為藥物的詞語(yǔ)“易瑞沙”, 分析其詞性構(gòu)成, 前一個(gè)是動(dòng)詞“服用”, 詞性為“v”, 后一個(gè)為標(biāo)點(diǎn)符號(hào)“?!?詞性為“w”, 當(dāng)前詞詞性為藥物專(zhuān)有名詞“medicine”, 因此這個(gè)藥名的詞性構(gòu)成為“v+medicine+w”。為了對(duì)比不同實(shí)體類(lèi)別在詞性構(gòu)成上的情況, 我們繪制不同實(shí)體的排名前30種詞性構(gòu)成模式的頻次圖(圖4)??梢钥闯? 藥物類(lèi)的曲線非常陡峭, 說(shuō)明藥物這類(lèi)實(shí)體的詞性的構(gòu)成在實(shí)驗(yàn)文本中是有規(guī)律性的, 大部分具有固定的模式, 因此詞性特征才能如此好地提升藥物的識(shí)別效果。其他幾類(lèi), 雖然詞性也有一些模式, 但不如藥物明顯, 實(shí)驗(yàn)結(jié)果也有一定程度的提升。

      表10 詞性分析句子示例

      藥物類(lèi)詞性構(gòu)成的前10種模式如表11所示??梢钥闯? 藥物基本上都通過(guò)分詞被準(zhǔn)確標(biāo)注為藥物專(zhuān)有名詞, 前后出現(xiàn)最多的詞性是標(biāo)點(diǎn)、動(dòng)詞、連詞和數(shù)詞。這也準(zhǔn)確地反映了文本的潛在結(jié)構(gòu): 用戶(hù)常將多種藥物進(jìn)行羅列, 因此前后出現(xiàn)標(biāo)點(diǎn)(如頓號(hào)、逗號(hào))和連詞(如“阿法替尼/和/azd9291/效果/怎么樣”); 藥物名前, 通常有許多提示性的動(dòng)詞(如“服用/口服/使用/注射/吃/開(kāi)了”); 藥物名后, 會(huì)緊接著給出服用劑量(如“維生素c/一天/2/-/3片”)。

      表11 藥物類(lèi)詞性構(gòu)成前10種模式

      說(shuō)明: w為標(biāo)點(diǎn)符號(hào), medicine為藥物專(zhuān)有名詞, v為動(dòng)詞, m為數(shù)詞, n為名詞, c為連詞。

      3.3.2 各類(lèi)實(shí)體后綴分析

      后綴特征對(duì)于疾病類(lèi)提升較大。統(tǒng)計(jì)1000條實(shí)驗(yàn)數(shù)據(jù)中疾病名后綴的分布情況, 如圖5所示。在疾病名中, 出現(xiàn)最多的前7個(gè)字分別是炎、病、癌、喘、壓、冒、癥, 以它們結(jié)尾的疾病名共占所有出現(xiàn)的疾病的64%, 其他166個(gè)字只占36%, 說(shuō)明了后綴特征對(duì)疾病名稱(chēng)識(shí)別有效的原因。

      圖6給出對(duì)其他幾類(lèi)實(shí)體后綴的分析情況, 可以看到, 不同實(shí)體類(lèi)別的后綴具有不同程度的規(guī)律,因此后綴特征才能有效地提升實(shí)驗(yàn)效果。

      4 總結(jié)與展望

      本文針對(duì)在線醫(yī)療問(wèn)答信息, 設(shè)計(jì)了考慮醫(yī)療領(lǐng)域特性的識(shí)別特征, 并采用機(jī)器學(xué)習(xí)模型CRF, 在好大夫問(wèn)答數(shù)據(jù)上針對(duì)5類(lèi)醫(yī)療實(shí)體(疾病、癥狀、藥品、治療方法和檢查)進(jìn)行實(shí)體識(shí)別工作。全部設(shè)計(jì)特征包括符號(hào)特征、詞性特征、形態(tài)特征、后綴特征、身體部位指示詞特征和上下文特征。首先進(jìn)行了一組字典實(shí)驗(yàn), 表明自定義詞典對(duì)識(shí)別效果的有效提升, 然后采用逐一添加特征的方式, 觀察實(shí)驗(yàn)結(jié)果的變化情況。結(jié)果表明, 隨著所提特征的逐一添加, 識(shí)別精確度有所浮動(dòng), 而召回率普遍呈上升趨勢(shì), 總體的F1值也不斷上升, 當(dāng)采用所提全部特征時(shí), 達(dá)到總體81.26%的精確度和60.18%的召回率。我們還分析了后綴特征和各類(lèi)實(shí)體的詞性構(gòu)成模式, 說(shuō)明了該特征的有效性。

      實(shí)驗(yàn)結(jié)果表明, 本文方法可以有效地識(shí)別出問(wèn)答文本中大部分的醫(yī)療實(shí)體。但是還需繼續(xù)提高識(shí)別準(zhǔn)確率, 獲得更精準(zhǔn)的挖掘結(jié)果。未來(lái)的工作中, 我們將進(jìn)一步豐富實(shí)體識(shí)別的特征, 特別是針對(duì)在線的醫(yī)療問(wèn)答文本, 進(jìn)一步區(qū)分問(wèn)與答兩種文本的區(qū)別和聯(lián)系, 設(shè)計(jì)相應(yīng)特征并引入實(shí)驗(yàn)。我們還會(huì)考慮前面有否定意義詞匯的實(shí)體, 處理實(shí)體嵌套的情況。

      [1]黃丹. 網(wǎng)絡(luò)醫(yī)療對(duì)醫(yī)療服務(wù)理念的挑戰(zhàn). 中藥研究與信息, 2006, 7(9): 31–32

      [2]Grishman R, Sundheim B. Message Understanding Conference-6: a brief history // COLING. Copen-hagen, 1996, 96: 466–471

      [3]Doddington G R, Mitchell A, Przybocki M A, et al. The automatic content extraction (ACE) program-tasks, data, and evaluation // LREC. Lisbon, 2004: 837–840

      [4]胡雙, 陸濤, 胡建華. 文本挖掘技術(shù)在藥物研究中的應(yīng)用. 醫(yī)學(xué)信息學(xué)雜志, 2013(8): 49–53

      [5]楊錦鋒, 于秋濱, 關(guān)毅, 等. 電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述. 自動(dòng)化學(xué)報(bào), 2014, 40 (8): 1537–1562

      [6]DiSantostefano J. International classification of diseases 10th revision (ICD-10). The Journal for Nurse Practitioners, 2009, 5(1): 56–57

      [7]Lindberg D A, Humphreys B L, McCray A T. The unified medical language system. Methods of Infor-mation in Medicine, 1993, 32(4): 281–291

      [8]McDonald C J, Overhage J M, Tierney W M, et al. The regenstrief medical record system: a quarter century experience. International Journal of Medical Informatics, 1999, 54(3): 225–253

      [9]Kraus S, Blake C, West S L. Information extraction from medical notes // Medinfo 2007. Brisbane, 2007: 1–2

      [10]鄭強(qiáng), 劉齊軍, 王正華, 等. 生物醫(yī)學(xué)命名實(shí)體識(shí)別的研究與進(jìn)展. 計(jì)算機(jī)應(yīng)用研究, 2010, 27(3): 811–816

      [11]Sondhi P, Gupta M, Zhai C X, et al. Shallow information extraction from medical forum data // Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics. Beijing, 2010: 1158–1166

      [12]葉楓, 陳鶯鶯, 周根貴, 等. 電子病歷中命名實(shí)體的智能識(shí)別. 中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào), 2011, 30(2): 256–262

      [13]王世昆, 李紹滋, 陳彤生. 基于條件隨機(jī)場(chǎng)的中醫(yī)命名實(shí)體識(shí)別. 廈門(mén)大學(xué)學(xué)報(bào): 自然科學(xué)版, 2009, 48(3): 359–364

      [14]Luhn H P. The automatic creation of literature abstracts. IBM Journal of Research and Development, 1958, 2(2): 159–165

      [15]Lafferty J, McCallum A, Pereira F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data // ICML’01 Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco, 2001: 282–289

      [16]Sutton C, McCallum A. An introduction to conditional random fields. Machine Learning, 2011, 4(4): 267–373

      [17]University of Leeds UK. Hidden Markov Models [EB/OL]. (2010)[2014–11–01]. http://www.comp.lee ds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html

      [18]孫建. Ansj_seg [EB/OL]. (2012–09–07) [2014–12–01]. https://github.com/NLPchina/ansj_seg

      [19]Ramshaw L A, Marcus M P. Text chunking using transformation-based learning // Text Speech & Lan-guage Technology. Boston, 1995: 82–94

      [20]Kudo T. CRF++: Yet another CRF toolkit [EB/OL]. (2005) [2015–03–01].http://CRFpp.sourceforge.net

      [21]Powers D M. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation. Journal of Mach Learn Technol, 2011, 2(1): 37–63

      [22]Tjong K S E F, Buchholz S. Introduction to the CoNLL-2000 shared task: chunking // Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning-Volume 7. Lisbon, 2000: 127–132

      Entity Recognition Research in Online Medical Texts

      SU Ya, LIU Jie?, HUANG Yalou

      College of Computer and Control Engineering (Software Institute), Nankai University, Tianjin 300071; ? Corresponding author, E-mail: nkjieliu@gmail.com

      The authors design recognition features with the consideration of medical field characteristic for the online medical text, and the experiment of the entity recognition is carried out on the self-built data set. Concerned about five common diseases: gastritis, lung cancer, asthma, hypertension and diabetes. In the experiment, an advanced machine learning model Conditional Random Field is used for training and testing. The target entities include five kinds: disease, symptoms, drugs, treatment methods and check. The effectiveness of the proposed features is verified by using the experimental method, and the accuracy of the total 81.26% is obtained and the recall rate is 60.18%. Subsequently, the further analysis is given for the recognition features.

      named entity recognition; data mining; conditional random field; medical information

      10.13209/j.0479-8023.2016.020

      TP391

      2015-06-06;

      2015-08-16; 網(wǎng)絡(luò)出版日期: 2015-09-30

      天津市科技支撐項(xiàng)目(13ZCZDGX01098)、天津市自然科學(xué)基金(14JCQNJC00600)和中國(guó)民航信息技術(shù)科研基地開(kāi)放課題(CAAC-ITRB-201303)資助

      猜你喜歡
      后綴詞典實(shí)體
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      詞典例證翻譯標(biāo)準(zhǔn)探索
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      河北霸州方言后綴“乎”的研究
      TalKaholic話癆
      說(shuō)“迪烈子”——關(guān)于遼金元時(shí)期族名后綴問(wèn)題
      桐乡市| 宜兰县| 岱山县| 出国| 呼伦贝尔市| 确山县| 康马县| 肥东县| 新平| 兴安县| 仁化县| 乡宁县| 双鸭山市| 多伦县| 许昌县| 南溪县| 甘泉县| 德惠市| 西青区| 萍乡市| 潼南县| 新巴尔虎左旗| 泰来县| 湖南省| 南川市| 南华县| 东海县| 道真| 唐河县| 浦东新区| 长丰县| 清河县| 金乡县| 奈曼旗| 长葛市| 东莞市| 汉阴县| 泰兴市| 丰都县| 镇赉县| 舒城县|