• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)模型的我國藥品不良反應(yīng)報(bào)告實(shí)體關(guān)系抽取研究

      2019-04-27 01:42:12葛衛(wèi)紅張海霞
      關(guān)鍵詞:結(jié)構(gòu)化實(shí)體藥品

      陳 瑤,吳 紅,葛衛(wèi)紅,張海霞,廖 俊,3*

      (1中國藥科大學(xué)理學(xué)院,南京 211198;2南京大學(xué)醫(yī)學(xué)院附屬鼓樓醫(yī)院藥學(xué)部,南京210008;3藥物質(zhì)量與安全預(yù)警教育部重點(diǎn)實(shí)驗(yàn)室(中國藥科大學(xué)),南京 210009)

      藥品在使用過程中出現(xiàn)的不良反應(yīng)(adverse drug reaction,ADR)常常會(huì)影響藥物治療效果甚至對(duì)病人造成生命威脅,對(duì)藥品不良事件的收集及分析是藥物安全監(jiān)管與評(píng)價(jià)的重要工作內(nèi)容[1]。常見的ADR數(shù)據(jù)來源有ADR報(bào)告、電子病歷、醫(yī)學(xué)文獻(xiàn)、社交媒體等,其中不良反應(yīng)監(jiān)測中心所收集的ADR報(bào)告是藥品上市后安全評(píng)價(jià)的主要參照之一(圖1)。我國的ADR報(bào)告由結(jié)構(gòu)化和非結(jié)構(gòu)化兩個(gè)部分組成[2],其中結(jié)構(gòu)化部分包括病人的基本信息、患病信息、治療信息、不良反應(yīng)信息、評(píng)價(jià)信息等,非結(jié)構(gòu)化部分主要是對(duì)藥品不良反應(yīng)發(fā)生過程的具體描述,通常包含病人的用藥原因、用藥信息以及藥品不良反應(yīng)信息等,監(jiān)管人員通常會(huì)以非結(jié)構(gòu)化部分的ADR過程描述為參考對(duì)上報(bào)的ADR進(jìn)行評(píng)價(jià),涉及大量人工閱讀與判斷過程,降低評(píng)價(jià)的效率且伴隨一定的誤差。

      圖1 藥品不良反應(yīng)/事件報(bào)告表信息分布圖

      現(xiàn)有針對(duì)ADR報(bào)告的研究主要集中于對(duì)其結(jié)構(gòu)化部分中的藥品種類、患者類別、ADR累及系統(tǒng)-器官等進(jìn)行描述性統(tǒng)計(jì)分析,而非結(jié)構(gòu)化文本的結(jié)構(gòu)特征導(dǎo)致很難用統(tǒng)計(jì)方法等對(duì)其直接進(jìn)行分析。對(duì)于案例中出現(xiàn)的多種藥物及多種不良反應(yīng)情況,結(jié)構(gòu)化部分可能僅包含上報(bào)者認(rèn)為主要相關(guān)的“藥品-不良反應(yīng)”對(duì),而完整的信息則可以在非結(jié)構(gòu)化文本中體現(xiàn)。實(shí)體關(guān)系抽取旨在確定句子中指定兩個(gè)實(shí)體間的語義關(guān)系,是信息提取與自然語言處理的重要分支,將其運(yùn)用于ADR過程描述中可實(shí)現(xiàn)“藥品-不良反應(yīng)”關(guān)系的確定,從而用于ADR的輔助評(píng)價(jià)并獲得結(jié)構(gòu)化部分所不能體現(xiàn)的多藥聯(lián)用等信息。

      深度學(xué)習(xí)可以從數(shù)據(jù)樣本中自動(dòng)提取特征,減少人為特征構(gòu)建的過程且對(duì)于大數(shù)據(jù)集的處理更具優(yōu)勢,近幾年在圖像分類、語音識(shí)別、自然語言處理等領(lǐng)域已經(jīng)取得了很好的研究成果,常見的有遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等結(jié)構(gòu),就其在自然文本等序列問題中的應(yīng)用而言,循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具備一定的優(yōu)勢[3]。本文以一種名為雙向門控循環(huán)單元(bidirectional gated recurrent unit,Bi-GRU)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ),通過添加注意力機(jī)制及字向量、分詞向量等對(duì)模型進(jìn)行調(diào)整,用于對(duì)中文ADR報(bào)告中ADR過程描述模塊中的“藥品-不良反應(yīng)”關(guān)系進(jìn)行自動(dòng)抽取。所獲得的“藥品-不良反應(yīng)”關(guān)系可以實(shí)現(xiàn)ADR報(bào)告的輔助評(píng)價(jià),幫助評(píng)價(jià)人員快速獲取報(bào)告中所有可能的藥物與不良反應(yīng)的關(guān)系,從而實(shí)現(xiàn)對(duì)結(jié)構(gòu)化部分上報(bào)的信息進(jìn)行綜合考量;此外,所提取的信息一方面可用于特定藥物與不良反應(yīng)之間統(tǒng)計(jì)學(xué)關(guān)系的分析研究,另一方面也是ADR知識(shí)庫構(gòu)建的重要組成部分。

      1 藥品不良反應(yīng)報(bào)告研究

      1.1 不良反應(yīng)報(bào)告關(guān)系提取

      不同于英文關(guān)系抽取,中文關(guān)系抽取技術(shù)還不夠成熟且面臨諸多挑戰(zhàn)。一方面,中文詞與詞之間無類似英文中的空格作為明顯分割界限,因此中文自然語言處理任務(wù)中首先需要解決分詞的問題,而特殊領(lǐng)域中的專業(yè)詞匯、縮寫等使得難以完全依靠分詞工具實(shí)現(xiàn)準(zhǔn)確的詞切分;另一方面,中文開放性標(biāo)注語料的缺乏也進(jìn)一步限制了中文實(shí)體關(guān)系提取的研究[4]。就中文關(guān)系抽取的應(yīng)用而言,李明耀等[5]使用依存分析從搜狗新聞?wù)Z料庫中提取人名、地名與機(jī)構(gòu)名的關(guān)系;Luo等[6]則采用了與本研究類似的基于注意力機(jī)制的Bi-GRU模型對(duì)中文地質(zhì)數(shù)據(jù)進(jìn)行了關(guān)系抽取。醫(yī)藥領(lǐng)域的中文實(shí)體關(guān)系抽取主要集中于對(duì)電子病歷中疾病、癥狀、治療與檢查等之間關(guān)系的研究,例如,馬敬東等[7]采用自舉及依存句法分析對(duì)中文電子病歷中的“疾病/手術(shù)-時(shí)間”關(guān)系進(jìn)行抽取;劉凱等[8]則利用半監(jiān)督和卷積神經(jīng)網(wǎng)絡(luò)的方法提取了中文醫(yī)藥領(lǐng)域網(wǎng)站中的癥狀、檢查、治療等之間的關(guān)系。

      目前針對(duì)藥品不良反應(yīng)關(guān)系抽取的研究主要在英文環(huán)境中進(jìn)行,例如,研究人員分別從英文生物醫(yī)學(xué)文獻(xiàn)[9]、臨床記錄[10]、社交媒體[11]中進(jìn)行了藥品不良反應(yīng)關(guān)系提取研究。而無論是中文還是英文的藥品不良反應(yīng)報(bào)告,均只集中于對(duì)其結(jié)構(gòu)化部分的信息進(jìn)行統(tǒng)計(jì)分析等工作,對(duì)于中文ADR報(bào)告中ADR過程描述的非結(jié)構(gòu)化文本的研究還缺少標(biāo)注語料與相關(guān)經(jīng)驗(yàn)借鑒。

      1.2 深度學(xué)習(xí)模型與注意力機(jī)制應(yīng)用于藥品不良反應(yīng)報(bào)告分析

      循環(huán)神經(jīng)網(wǎng)絡(luò)除了層與層之間的連接,在隱含層之間的節(jié)點(diǎn)之間也設(shè)立了連接,從而實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象之前的信息進(jìn)行記憶,增強(qiáng)基于時(shí)間序列上的變化進(jìn)行建模的能力[3],這一特點(diǎn)使得其在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用。為解決循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)在處理大數(shù)據(jù)集時(shí)存在的梯度消失和梯度爆炸問題,長短期記憶模型(long short-term memory,LSTM)被提出[12],通過遺忘門、輸入門和輸出門這3個(gè)門實(shí)現(xiàn)對(duì)記憶單元中信息的交互,最終解決遠(yuǎn)距離依賴問題。GRU模型是LSTM模型的一個(gè)變體,在保留LSTM遺忘和更新機(jī)制的基礎(chǔ)上將網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步簡化,提高運(yùn)算速率的同時(shí)減小了梯度彌散的風(fēng)險(xiǎn)[13]。此外,為了提高模型對(duì)上下文的學(xué)習(xí)能力,Graves[12]提出雙向RNN的概念,這使得LSTM和GRU模型在機(jī)器翻譯、語音識(shí)別、實(shí)體識(shí)別及實(shí)體關(guān)系抽取等序列問題中能夠充分學(xué)習(xí)目標(biāo)對(duì)象的前后信息從而獲得較好的表現(xiàn)[14]。在實(shí)體關(guān)系識(shí)別應(yīng)用中,Huang等[15]和Luo[16]使用LSTM分別從生物醫(yī)學(xué)文獻(xiàn)和臨床紀(jì)錄中提取“藥物-藥物”和“醫(yī)療事件-治療/檢查/醫(yī)學(xué)事件”之間的關(guān)系;Kim等[17]使用的Bi-GRU模型,在SemEval-2010實(shí)體關(guān)系識(shí)別任務(wù)中取得了84.3%的F值。

      注意力機(jī)制可以理解為從大量信息中選擇性篩選出重要信息的過程,該過程通過權(quán)重值體現(xiàn),在神經(jīng)網(wǎng)絡(luò)模型中則主要表現(xiàn)為權(quán)重向量,通過與字符向量或詞向量相乘得到句子級(jí)的特征向量。自然語言處理領(lǐng)域中,注意力機(jī)制常與深度學(xué)習(xí)結(jié)合應(yīng)用于機(jī)器翻譯、文本概述、語音識(shí)別等,在關(guān)系識(shí)別的任務(wù)中常用來與RNN結(jié)合以提高模型準(zhǔn)確率[14,17-18]。

      2 基于注意力機(jī)制的Bi-GRU模型應(yīng)用于藥品不良反應(yīng)報(bào)告分析

      (1)

      本研究在Bi-GRU結(jié)構(gòu)的基礎(chǔ)上引入注意力機(jī)制(attention),注意力機(jī)制通過計(jì)算注意力概率分布產(chǎn)生詞或句子的權(quán)重向量,并通過此權(quán)重向量將GRU模型的每一個(gè)時(shí)間節(jié)點(diǎn)連接起來,從而加深輸入層對(duì)輸出層的影響,所獲得的句子級(jí)特征向量最終用于關(guān)系分類。此外,為了充分利用中文語料中的字符特征及詞特征[19],本研究使用Word2Vec[20]工具對(duì)數(shù)據(jù)進(jìn)行字向量(character embedding)的預(yù)訓(xùn)練,同時(shí)利用分詞工具jieba(https://github.com/fxsjy/jieba)對(duì)文本作分詞處理,生成的分詞特征向量聯(lián)合預(yù)訓(xùn)練的字向量共同組成嵌入層(embedding layer)加入到網(wǎng)絡(luò)模型中。模型框架結(jié)構(gòu)見圖2。

      圖2 基于注意力機(jī)制的Bi-GRU的不良反應(yīng)描述關(guān)系提取模型框架圖

      3 基于“藥品-不良反應(yīng)”的關(guān)系提取模型的實(shí)驗(yàn)過程與結(jié)果分析

      3.1 基于“藥品-不良反應(yīng)”的關(guān)系提取模型的語料介紹

      ADR報(bào)告作為ADR研究最主要的來源之一,可以分為結(jié)構(gòu)化和非結(jié)構(gòu)化兩個(gè)部分[2]。其中結(jié)構(gòu)化部分可直接用于統(tǒng)計(jì)分析或信號(hào)挖掘等,但該部分?jǐn)?shù)據(jù)通常以藥物為單位進(jìn)行記錄,當(dāng)同一案例中出現(xiàn)多藥合用的情況時(shí),一般僅上報(bào)其中認(rèn)為主要相關(guān)的一條或多條分開上報(bào),很難直接從這些獨(dú)立報(bào)告之間發(fā)現(xiàn)多種藥物與多種不良反應(yīng)之間的關(guān)系情況。而非結(jié)構(gòu)化部分的“ADR過程描述”模塊則包含了ADR具體信息,例如病人的用藥原因、使用藥物名稱、用藥產(chǎn)生的ADR以及ADR的結(jié)果與處理情況,對(duì)于該模塊的挖掘利用,能夠在一定程度上彌補(bǔ)結(jié)構(gòu)化數(shù)據(jù)中的信息缺失及信息孤立。例如,在案例“患兒因上呼吸道感染在我院靜脈滴注5%葡萄糖注射液100 mL+頭孢唑肟1.25 g,續(xù)滴5%葡萄糖注射液100 mL+喜炎平2 mL約5分鐘后,患兒頭部手部出現(xiàn)皮疹,立即通知醫(yī)生,遵醫(yī)囑更換生理鹽水100 mL續(xù)滴,輸液結(jié)束后皮疹消退,自述無其他不適?!敝?,所對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)只包含了其中“喜炎平-皮疹”的藥物不良反應(yīng)對(duì),直接對(duì)這部分?jǐn)?shù)據(jù)的分析將忽略“頭孢唑肟”與“皮疹”之間的關(guān)系。

      本文研究數(shù)據(jù)來自江蘇省藥品不良反應(yīng)監(jiān)測中心2010- 2016年不良反應(yīng)報(bào)告中關(guān)于不良反應(yīng)過程描述部分的自由文本,在總數(shù)約60萬的數(shù)據(jù)中隨機(jī)抽取其中的3萬條進(jìn)行人工標(biāo)注。標(biāo)注工作分為實(shí)體標(biāo)注和實(shí)體關(guān)系標(biāo)注兩部分。

      3.1.1 藥品不良反應(yīng)描述中的實(shí)體的標(biāo)注 本文旨在研究藥品不良反應(yīng)報(bào)告中“藥品-不良反應(yīng)”關(guān)系對(duì),因此僅對(duì)自由文本中的“藥品”和“不良反應(yīng)”進(jìn)行標(biāo)注,其中“藥品”標(biāo)注過程中將劑型與藥品名稱作為整體,“不良反應(yīng)”的標(biāo)注過程則主要參考國際醫(yī)學(xué)字典MedDRA中關(guān)于不良事件的定義與分類,藥品不良反應(yīng)描述中的實(shí)體的標(biāo)注規(guī)則及實(shí)例如表1。

      3.1.2 藥品不良反應(yīng)描述中的實(shí)體關(guān)系的標(biāo)注 在本文所使用的研究數(shù)據(jù)中,“藥品-不良反應(yīng)”之間的關(guān)系可歸納為“直接”“可能”“否認(rèn)”和“后處理”4類,具體藥品不良反應(yīng)描述中的實(shí)體關(guān)系的標(biāo)注規(guī)則如表2所示。

      為提高標(biāo)注效率,我們開發(fā)了實(shí)體及實(shí)體關(guān)系的標(biāo)注工具(https://github.com/cpuchenyao/NER_RE_Annotation),實(shí)現(xiàn)案例的自動(dòng)讀取以及相應(yīng)格式的標(biāo)注結(jié)果輸出。實(shí)體采用‘BIO’格式界定實(shí)體位置,其中‘B’表示實(shí)體開端字符,‘I’表示實(shí)體非開端位置字符,‘O’表示非實(shí)體字符,具體案例見表3。在不良反應(yīng)監(jiān)管人員指導(dǎo)下,10名藥學(xué)專業(yè)背景的學(xué)生經(jīng)過培訓(xùn),共花費(fèi)一個(gè)月的時(shí)間完成了數(shù)據(jù)的四輪標(biāo)注工作,包括一輪預(yù)標(biāo)注、兩輪正式標(biāo)注以及一輪標(biāo)注修正,在除去無效數(shù)據(jù)(未提及具體藥品名稱或不良反應(yīng)名稱的案例)后得到24 137條有效不良反應(yīng)過程描述案例,總共包含116 321例“藥品-不良反應(yīng)”關(guān)系(同一案例中可能同時(shí)包含多組“藥品-不良反應(yīng)”關(guān)系)。

      表1 藥品不良反應(yīng)描述中的實(shí)體的標(biāo)注規(guī)則及實(shí)例

      表2 藥品不良反應(yīng)描述中的實(shí)體關(guān)系的標(biāo)注規(guī)則及實(shí)例關(guān)系類別

      定 義實(shí) 例標(biāo)注結(jié)果直接明確表述兩者之間的直接相關(guān)性患者輸液頭孢曲松后出現(xiàn)全身皮疹,停藥后皮疹消失頭孢曲松--皮疹→直接可能聯(lián)合用藥時(shí),無法確定必然關(guān)系給予患者奧美拉唑、克拉霉素同服,用藥后出現(xiàn)惡心癥狀?yuàn)W美拉唑--惡心→可能;克拉霉素--惡心→可能否認(rèn)明確表述兩者之間無直接相關(guān)性患者予參麥注射液5 min后出現(xiàn)寒戰(zhàn),無發(fā)熱參麥注射液--寒戰(zhàn)→直接;參麥注射液--發(fā)熱→否認(rèn)后處理針對(duì)不良反應(yīng)采取的用藥措施患者輸液后出現(xiàn)皮疹,停藥后予非拉更肌注,皮疹消失非拉更--皮疹→后處理

      表3 ‘BIO’格式的藥品不良反應(yīng)報(bào)告中藥品不良反應(yīng)描述的實(shí)體標(biāo)注案例

      案 例BIO 標(biāo)注患者因咳嗽、咳痰來醫(yī)院診治,給予阿奇霉素靜滴,在靜滴過程中患者出現(xiàn)寒顫患(O)者(O)因(O)咳(O)嗽(O)來(O)醫(yī)(O)院(O)診(O)治(O),(O)給(O)予(O)阿(B-Drug)奇(I-Drug)霉(I-Drug)素(I-Drug)靜(O)滴(O),(O)在(O)靜(O)滴(O)過(O)程(O)中(O)患(O)者(O)出(O)現(xiàn)(O)寒(B-ADR)顫(I-ADR)

      在表3的案例中,被標(biāo)記的“藥品-不良反應(yīng)”實(shí)體有“阿奇霉素”和“寒顫”,標(biāo)記的“藥品-不良反應(yīng)”關(guān)系組有“阿奇霉素-寒顫:可能”。

      3.2 基于“藥品-不良反應(yīng)”的關(guān)系提取模型的超參數(shù)設(shè)置

      本研究參考基于文獻(xiàn)[14,21]改進(jìn)的中文關(guān)系識(shí)別開源代碼(https://github.com/crownpku/Information-Extraction-Chinese/tree/master/RE_BGRU_2ATT),采用TensorFlow框架構(gòu)建基于注意力機(jī)制的Bi-GRU網(wǎng)絡(luò),其中20維分詞特征向量和100維的預(yù)訓(xùn)練字向量共同構(gòu)成120維的嵌入層,初始學(xué)習(xí)率為0.002,在Bi-GRU隱藏層中的單元數(shù)為230,為了防止Bi-GRU模型訓(xùn)練過程中出現(xiàn)過擬合,在網(wǎng)絡(luò)中設(shè)置了dropout為0.5。模型訓(xùn)練了13個(gè)epoch后,藥品不良反應(yīng)報(bào)告中不良反應(yīng)過程描述的關(guān)系識(shí)別效果最佳。實(shí)驗(yàn)采用Python編程,運(yùn)行服務(wù)器配置為Intel Xeon Gold 6136 CPU、NVIDIA Tesla V100 GPU及768 GB內(nèi)存,軟件使用Linux操作系統(tǒng)。

      3.3 實(shí)驗(yàn)結(jié)果及分析

      實(shí)體關(guān)系提取任務(wù)中常采用的模型評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Precision,P)和召回率(Recall,R),本研究選取綜合考慮準(zhǔn)確率和召回率的F值作為模型評(píng)價(jià)指標(biāo),其計(jì)算如公式(2)~(4)所示,其中TP表示將正例樣本預(yù)測為正例的樣本數(shù)量,F(xiàn)P表示將負(fù)例樣本預(yù)測為正例的樣本數(shù)量,F(xiàn)N表示將負(fù)例樣本預(yù)測為負(fù)例的樣本數(shù)量。

      (2)

      (3)

      (4)

      在“3.2”所示的參數(shù)設(shè)置下,將標(biāo)注語料按8∶2的比例隨機(jī)劃分為訓(xùn)練集與測試集,最終取得四種類型關(guān)系以及總體的提取結(jié)果如表4所示。模型取得了87.52%的整體F值,但是可以發(fā)現(xiàn)各類型關(guān)系之間的抽取效果存在較大差異,“直接”和“后處理”兩類關(guān)系的抽取效果要明顯好于另外兩類關(guān)系,這可能與樣本中關(guān)系種類分布的不均勻有關(guān)。在所有116 321條標(biāo)注樣本中,各類型關(guān)系樣本所占比例為:直接(55.9%)、可能(2.9%)、否認(rèn)(3.5%)、后處理(37.7%),其中“可能”與“否認(rèn)”關(guān)系所占比例較低。本研究建立在案例文本語義的基礎(chǔ)上,即在案例中不良反應(yīng)出現(xiàn)在某藥物使用之后,只要未明確表示兩者之間是可能相關(guān)或不相關(guān),則均認(rèn)為其關(guān)系為“直接”,未加入醫(yī)學(xué)知識(shí)或人為經(jīng)驗(yàn)進(jìn)行判斷?!翱赡堋迸c“否認(rèn)”兩類關(guān)系主要出現(xiàn)在多藥聯(lián)用的案例中,而就上報(bào)的藥品不良事件而言,大多數(shù)在不良反應(yīng)過程描述中未進(jìn)行排除分析,這就導(dǎo)致即使是在多藥聯(lián)用的案例中,“可能”和“否認(rèn)”兩類關(guān)系總共也僅占了不足15%,“直接”和“后處理”兩類關(guān)系在樣本量上的優(yōu)勢也促使了其在抽取效果上表現(xiàn)更優(yōu)。

      表4 藥品不良反應(yīng)報(bào)告中藥品與不良反應(yīng)間各類關(guān)系提取的準(zhǔn)確率、召回率及F值

      關(guān)系類型準(zhǔn)確率/%召回率/%F/%直接 95.9595.3695.65可能 77.1386.8081.68否認(rèn) 75.7478.0576.88后處理95.9995.7895.88總體 86.2089.087.52

      4 小 結(jié)

      本研究對(duì)中文ADR報(bào)告中的關(guān)于ADR過程描述的自由文本部分進(jìn)行標(biāo)注并制定相應(yīng)的標(biāo)注規(guī)則與標(biāo)注工具,通過引入注意力機(jī)制及字向量與分詞向量的Bi-GRU模型對(duì)標(biāo)注好的數(shù)據(jù)進(jìn)行學(xué)習(xí),智能分類不良反應(yīng)描述中所出現(xiàn)的“藥品”實(shí)體及“不良反應(yīng)”實(shí)體之間的關(guān)系,實(shí)現(xiàn)對(duì)句子中包含的“藥品-不良反應(yīng)”實(shí)體關(guān)系自動(dòng)抽取并取得了整體較好的抽取效果。從生物醫(yī)學(xué)領(lǐng)域的科研文章、醫(yī)療記錄等文本中提取生物醫(yī)學(xué)實(shí)體及其之間的關(guān)系,已經(jīng)成為當(dāng)前生物醫(yī)藥領(lǐng)域的研究熱點(diǎn),對(duì)生物醫(yī)學(xué)研究具有重要應(yīng)用價(jià)值?;谏疃葘W(xué)習(xí)的藥品不良反應(yīng)報(bào)告實(shí)體關(guān)系抽取模型具有普適性,同樣適用于生物醫(yī)學(xué)中藥品實(shí)體與疾病間關(guān)系抽取、對(duì)臨床文本等碎片化的內(nèi)容進(jìn)行關(guān)系抽取以及抽取生物醫(yī)學(xué)文獻(xiàn)中化學(xué)品蛋白質(zhì)之間的關(guān)系,將大大減輕使用傳統(tǒng)方法所需時(shí)間且獲得更好的關(guān)系抽取效果。針對(duì)樣本分布不均導(dǎo)致的誤差,除了采取人工標(biāo)注的方法,還可以在已有標(biāo)注數(shù)據(jù)集的基礎(chǔ)上,通過半監(jiān)督學(xué)習(xí)等方法自動(dòng)獲取標(biāo)簽,從而實(shí)現(xiàn)對(duì)訓(xùn)練集的進(jìn)一步擴(kuò)充,改善因樣本量不足導(dǎo)致的“可能”和“否認(rèn)”兩類關(guān)系抽取效果較差的情況。對(duì)于ADR報(bào)告中“藥品-不良反應(yīng)”關(guān)系的自動(dòng)抽取,可用于輔助監(jiān)管人員對(duì)ADR的評(píng)價(jià)工作,同時(shí)能夠挖掘出結(jié)構(gòu)化數(shù)據(jù)中所忽略的信息,發(fā)現(xiàn)更多潛在的不良反應(yīng)信息。將模型運(yùn)用于電子病歷或其他相關(guān)文本中自動(dòng)提取ADR相關(guān)信息從而對(duì)ADR報(bào)告所包含的信息作進(jìn)一步補(bǔ)充有待進(jìn)一步的研究。

      猜你喜歡
      結(jié)構(gòu)化實(shí)體藥品
      是不是只有假冒偽劣藥品才會(huì)有不良反應(yīng)?
      促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      藥品采購 在探索中前行
      藥品集中帶量采購:誰贏誰輸?
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      井冈山市| 彝良县| 会昌县| 澜沧| 旬阳县| 兴国县| 新野县| 连城县| 西贡区| 明光市| 富民县| 建昌县| 嘉义县| 阿拉善盟| 鄄城县| 六盘水市| 历史| 通化县| 铅山县| 台山市| 都江堰市| 台北市| 棋牌| 河西区| 寿阳县| 呼和浩特市| 龙南县| 陆良县| 四平市| 宝应县| 洞头县| 庆安县| 绥滨县| 松原市| 阜平县| 阿克苏市| 清徐县| 错那县| 十堰市| 辽源市| 朝阳市|