• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向醫(yī)療問答系統(tǒng)的大語言模型命名實(shí)體識(shí)別方法

    2023-10-29 04:20:42孫曉虎黨佳怡趙海燕
    計(jì)算機(jī)與生活 2023年10期
    關(guān)鍵詞:命名實(shí)體醫(yī)療

    楊 波,孫曉虎,黨佳怡,趙海燕,金 芝+

    1.北京林業(yè)大學(xué) 信息學(xué)院,北京 100083

    2.國家林業(yè)和草原局林業(yè)智能信息處理工程技術(shù)研究中心,北京 100083

    3.北京大學(xué) 計(jì)算機(jī)學(xué)院,北京 100871

    4.高可信軟件技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)),北京 100871

    近年來,醫(yī)療領(lǐng)域的信息化建設(shè)不斷推進(jìn),各種電子病歷系統(tǒng)、醫(yī)學(xué)影像系統(tǒng)、藥物信息系統(tǒng)等醫(yī)療信息管理系統(tǒng)層出不窮。而在這些系統(tǒng)中,醫(yī)療命名實(shí)體識(shí)別(medical named entity recognition,MNER)是非常重要的一環(huán)。MNER 是指通過對(duì)醫(yī)學(xué)文本進(jìn)行分析,自動(dòng)識(shí)別出其中涉及到的疾病、藥物、治療方式等醫(yī)學(xué)實(shí)體,并將其分類和標(biāo)注,以便更好地管理和利用這些數(shù)據(jù)。

    醫(yī)療領(lǐng)域的命名實(shí)體識(shí)別方法主要經(jīng)歷了3 個(gè)階段,分別是基于規(guī)則的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法?;谝?guī)則的方法首先需要制作全面涵蓋醫(yī)療領(lǐng)域的中文醫(yī)學(xué)名詞詞典,通過與之相適應(yīng)的匹配算法完成醫(yī)療命名實(shí)體識(shí)別,詞典的規(guī)模和質(zhì)量是影響識(shí)別結(jié)果的關(guān)鍵因素。例如:楊錦鋒等人[1]在醫(yī)生的參與和指導(dǎo)下,構(gòu)建了規(guī)模較大、質(zhì)量較高的標(biāo)注語料庫;Wang等人[2]建立的腫瘤相關(guān)的語料庫對(duì)識(shí)別腫瘤相關(guān)的信息有明顯的效果?;谝?guī)則的方法還需要對(duì)待處理的文本進(jìn)行分析并構(gòu)建規(guī)則模板,之后在同類型文本上使用特定規(guī)則模板,通過模式匹配的方法實(shí)現(xiàn)命名實(shí)體識(shí)別。例如:Quimbaya等人[3]提出了一種基于規(guī)則和字典的醫(yī)療命名實(shí)體識(shí)別方法;Gorinski 等人[4]通過對(duì)比實(shí)驗(yàn)證明基于規(guī)則的方法可以非常有效地進(jìn)行醫(yī)療實(shí)體識(shí)別并進(jìn)一步提高機(jī)器學(xué)習(xí)方法的準(zhǔn)確率。

    基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法在醫(yī)療領(lǐng)域?qū)嶓w識(shí)別的應(yīng)用較為廣泛。例如:Zhang 等人[5]提出了一種無監(jiān)督的生物醫(yī)學(xué)命名實(shí)體的方法,在該領(lǐng)域取得了不錯(cuò)的效果;McCallum等人[6]提出了一種基于條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別方法。

    但是,傳統(tǒng)的基于規(guī)則或模板的MNER 方法需要專業(yè)人員創(chuàng)建大量的模板和規(guī)則,不僅耗費(fèi)大量時(shí)間和人力,而且沒有辦法解決醫(yī)療領(lǐng)域知識(shí)不斷迅速更新的問題。

    近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,以深度學(xué)習(xí)為基礎(chǔ)的MNER算法越來越受到研究人員的關(guān)注。例如:Santos等人[7]利用CNN(convolutional neural network)來捕獲詞序列的語義信息,識(shí)別出醫(yī)療命名實(shí)體;Xu 等人[8]提出一種將預(yù)訓(xùn)練語言模型BERT(bidirectional encoder representations from transformers)和雙向長短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)、條件隨機(jī)場(chǎng)(conditional random fields,CRF)模型相結(jié)合應(yīng)用于生物命名實(shí)體識(shí)別的模型;Su等人[9]利用全局歸一化的思路來進(jìn)行命名實(shí)體識(shí)別,可以無差別地識(shí)別嵌套實(shí)體和非嵌套實(shí)體。

    但是,深度學(xué)習(xí)方法通常使用固定大小的窗口或卷積核來處理文本,這就要求處理的文本是連續(xù)的,限制了其處理非連續(xù)和嵌套實(shí)體的能力。此外,深度學(xué)習(xí)模型通常需要大量的標(biāo)注數(shù)據(jù)來訓(xùn)練,以便有效地學(xué)習(xí)實(shí)體識(shí)別任務(wù),而在醫(yī)療領(lǐng)域因大規(guī)模標(biāo)注數(shù)據(jù)非常昂貴和耗時(shí),標(biāo)注數(shù)據(jù)的稀缺性可能限制了深度學(xué)習(xí)方法的性能。

    例如:圖1中基于傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)的實(shí)體識(shí)別方法對(duì)于“真菌性和過敏性肺炎應(yīng)該如何治療?”這一問題只能識(shí)別出來“過敏性肺炎”,對(duì)于“體溫較前下降了很多應(yīng)該如何治療?”這一問題識(shí)別不出實(shí)體。

    圖1 傳統(tǒng)機(jī)器學(xué)習(xí)與大語言模型的識(shí)別效果對(duì)比Fig.1 Comparison of recognition effects between traditional machine learning and large language models

    但是,大型語言模型能夠捕捉文本中的上下文信息,并通過上下文來推斷實(shí)體的邊界和類型,這有助于識(shí)別出文本中的非連續(xù)實(shí)體。并且ChatGPT(chat generative pre-trained transformer)可以進(jìn)行遷移學(xué)習(xí),從其他領(lǐng)域的文本中學(xué)習(xí)到的知識(shí)可能有助于處理醫(yī)療文本中的實(shí)體。通過實(shí)驗(yàn)發(fā)現(xiàn),大語言模型可以識(shí)別出醫(yī)療文本的嵌套實(shí)體和非連續(xù)實(shí)體,并將它們轉(zhuǎn)化為規(guī)范化的醫(yī)療實(shí)體。為此,本文提出了一種基于大語言模型進(jìn)行醫(yī)療命名實(shí)體識(shí)別的方法,并與傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行比較。使用大語言模型ChatGPT,提出了一種輸入的格式,包括要識(shí)別的實(shí)體類型列表、具體的需求指令和規(guī)定輸出格式的指令等。將實(shí)體識(shí)別的結(jié)果應(yīng)用到醫(yī)療問答系統(tǒng)中的知識(shí)圖譜,能夠得到最終的醫(yī)療問題的答案。

    本文的主要貢獻(xiàn)包括如下三點(diǎn):

    (1)提出了一種基于大語言模型的實(shí)體識(shí)別方法(named entity recognition method of large language model,NERLLM),該方法首先需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,按照規(guī)定的指令格式,將問題輸入到ChatGPT中,然后將輸出的內(nèi)容進(jìn)行分類,根據(jù)不同的分類進(jìn)行分析。

    (2)將實(shí)體識(shí)別的結(jié)果作為輸入放入到醫(yī)療問答系統(tǒng)中,利用醫(yī)療問答系統(tǒng)中的知識(shí)圖譜,來進(jìn)行推理分析,從而獲得相應(yīng)問題的答案。

    (3)在三個(gè)典型的醫(yī)療數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),研究結(jié)果表明,基于大語言模型的MNER 方法在醫(yī)學(xué)文本中具有較高的準(zhǔn)確性和泛化能力,并且具有識(shí)別非連續(xù)實(shí)體和嵌套實(shí)體的能力,能夠較好地應(yīng)用在醫(yī)療問答系統(tǒng)中。

    1 相關(guān)工作

    命名實(shí)體識(shí)別方法主要包括基于規(guī)則的方法、基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法。

    1.1 基于規(guī)則的方法

    基于規(guī)則的方法需要對(duì)待處理的醫(yī)療文本進(jìn)行分析并建立規(guī)則模板。如Kim 等人[10]提出在對(duì)話輸入中使用Brill 規(guī)則推理方法,該工作實(shí)現(xiàn)了一個(gè)基于Brill 的詞性標(biāo)注器自動(dòng)生成方法;Hanisch 等人[11]提出了ProMiner,在生物醫(yī)學(xué)領(lǐng)域,它通過采用規(guī)則模板和近義詞詞典來識(shí)別生物醫(yī)學(xué)文本中的各種實(shí)體;Chen等人[12]在傳統(tǒng)的機(jī)器學(xué)習(xí)模型外,附加規(guī)則模板來抽取模型不能識(shí)別的實(shí)體;Gorinski 等人[4]通過對(duì)比實(shí)驗(yàn)證明基于規(guī)則的方法可以非常有效地進(jìn)行醫(yī)療實(shí)體識(shí)別,并進(jìn)一步提高機(jī)器學(xué)習(xí)方法的準(zhǔn)確率。

    基于規(guī)則的方法優(yōu)點(diǎn)是便于維護(hù),缺點(diǎn)是需要大量人力和時(shí)間成本投入,規(guī)則的可移植性也較差。

    1.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法

    利用傳統(tǒng)機(jī)器學(xué)習(xí)方法,可以對(duì)實(shí)體進(jìn)行識(shí)別,其中主要包括有監(jiān)督的實(shí)體識(shí)別和無監(jiān)督的實(shí)體識(shí)別。

    在有監(jiān)督的學(xué)習(xí)過程中,實(shí)體的識(shí)別問題被轉(zhuǎn)換成了序列標(biāo)注或者多類別分類問題。給出了帶標(biāo)注的數(shù)據(jù)樣本,分別設(shè)計(jì)了不同特征來代表各個(gè)訓(xùn)練的樣本。在此基礎(chǔ)上,采用機(jī)器學(xué)習(xí)方法對(duì)未知數(shù)據(jù)進(jìn)行建模,并對(duì)其進(jìn)行特征提取。特征向量表示是對(duì)文本的抽象,其中單詞由一個(gè)或多個(gè)布爾值、數(shù)值或標(biāo)稱值[13-14]表示。共有三大類特征:第一類是單詞級(jí)特征,具體包括大小寫[15]、形態(tài)學(xué)[16]、詞性標(biāo)簽[17];第二類是列表查找特征[18-21],具體包括維基百科地名錄和數(shù)據(jù)庫地名錄;第三類是文檔和語料庫特征[22-25],具體包括本地語法和多次出現(xiàn)。這三大類特征已被廣泛用于各種基于監(jiān)督學(xué)習(xí)的NER系統(tǒng)。

    基于上述三類特征,人們提出了大量的機(jī)器學(xué)習(xí)方法與命名實(shí)體識(shí)別任務(wù)進(jìn)行結(jié)合,包括隱馬爾可夫模型(hidden Markov model,HMM)[26]、決策樹[27]、最大熵模型[28]、支持向量機(jī)(support vector machine,SVM)[29]和條件隨機(jī)場(chǎng)[30]。Bikel等人[31-32]提出了Identi-Finder 系統(tǒng),該系統(tǒng)首次將HMM 應(yīng)用在命名實(shí)體識(shí)別任務(wù)上。McNamee 等人[33]使用大量特征來訓(xùn)練SVM分類器,從而進(jìn)行實(shí)體的抽取。由于基于SVM的命名實(shí)體識(shí)別方法不能夠考慮上下文信息,Mc-Callum等人[6]將CRF應(yīng)用到命名實(shí)體識(shí)別中,取得了顯著的效果。在此基礎(chǔ)上,Krishnan 等人[25]將兩個(gè)CRF 應(yīng)用到命名實(shí)體識(shí)別中,他們將第一個(gè)CRF 的輸出利用在第二個(gè)CRF 中。通過調(diào)研表明,CRF 已經(jīng)被廣泛應(yīng)用于命名實(shí)體識(shí)別任務(wù)中,并且取得了很好的結(jié)果。

    無監(jiān)督的實(shí)體識(shí)別方法主要用到的是聚類[13]。該類方法根據(jù)上下文相似度,從群集中抽取出一個(gè)命名實(shí)體。該方法的核心思路是利用詞源、詞形以及在大規(guī)模語料庫上的統(tǒng)計(jì)信息,對(duì)命名實(shí)體進(jìn)行推理。Collins 等人[34]首先使用兩個(gè)分類器識(shí)別實(shí)體的邊界,然后利用一個(gè)分類器進(jìn)行實(shí)體類型的識(shí)別,提供了一種實(shí)體識(shí)別的思路。同樣,Etzioni等人[35]通過人工編寫規(guī)則模板從Web 中進(jìn)行無監(jiān)督的、獨(dú)立于領(lǐng)域和面向可伸縮的實(shí)體自動(dòng)化匹配。

    Nadeau 等人[36]提出一種無監(jiān)督方法,可應(yīng)用于地名錄的構(gòu)建和命名實(shí)體消歧。此外,Zhang 等人[5]根據(jù)生物醫(yī)學(xué)領(lǐng)域相應(yīng)實(shí)體類型的句法和詞法特征提出了一種無監(jiān)督的方法。這兩種模型將監(jiān)督學(xué)習(xí)替代為術(shù)語、語料庫統(tǒng)計(jì)和淺層句法知識(shí)。實(shí)驗(yàn)結(jié)果表明,這兩種無監(jiān)督學(xué)習(xí)方法在兩個(gè)主流生物醫(yī)學(xué)數(shù)據(jù)集上具有較高的識(shí)別效率和普適性。

    1.3 基于深度學(xué)習(xí)的方法

    基于深度學(xué)習(xí)的方法利用大規(guī)模高質(zhì)量標(biāo)注過的語料進(jìn)行模型訓(xùn)練,再利用模型完成對(duì)命名實(shí)體的識(shí)別,基于深度學(xué)習(xí)的方法在醫(yī)療命名實(shí)體識(shí)別上相較于基于詞典的方法和基于規(guī)則的方法表現(xiàn)出較好的實(shí)用性和可移植性。它不僅可以較好地解決中文電子病歷文本的非規(guī)范性和專業(yè)性造成的命名實(shí)體識(shí)別困難的問題,而且在特殊醫(yī)療命名實(shí)體識(shí)別上表現(xiàn)優(yōu)異。

    隨著深度學(xué)習(xí)技術(shù)的發(fā)展,由于其在命名實(shí)體識(shí)別任務(wù)上的優(yōu)異表現(xiàn),迅速成為研究熱點(diǎn)。從最初以長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)為代表的單向循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)到以BiLSTM為代表的雙向RNN網(wǎng)絡(luò),從基本的卷積神經(jīng)網(wǎng)絡(luò)(CNN)到其變種迭代膨脹卷積(iterated dilated convolution neural network,IDCNN)[37],從類似CRF 這樣的單一模型到諸如BiLSTM+CRF[8]的多模型融合,人工參與工作量不斷減少,識(shí)別精度也不斷提高。Santos 等人[7]利用CNN 來捕獲詞序列的語義信息,識(shí)別出醫(yī)療命名實(shí)體。

    預(yù)訓(xùn)練模型和遷移學(xué)習(xí)方法引入后,模型對(duì)語義的理解更進(jìn)一步,首先在語料充足的領(lǐng)域上通過監(jiān)督學(xué)習(xí)訓(xùn)練出一個(gè)通用的預(yù)訓(xùn)練模型,然后遷移到像實(shí)體識(shí)別這樣的特定領(lǐng)域的語言任務(wù)上。比如從Word2vec 到GloVE(global vectors for word representation),再到BiLSTM、BERT 以及以RoBERTa(robustly optimized BERT pretraining approach)[38]為代表的BERTology 系列,這些預(yù)訓(xùn)練模型依次出現(xiàn),在優(yōu)化升級(jí)過程中不斷提高了命名實(shí)體識(shí)別的精度。Wang等人[39]首先使用RoBERTa-wwm(RoBERTawhole word masking)進(jìn)行編碼,然后利用CNN 提取漢字特征,最后將多語義特征輸入到BiLSTM+CRF中從而實(shí)現(xiàn)實(shí)體識(shí)別。Hu等人[40]提出了一種基于協(xié)同決策策略的新型深度醫(yī)療命名實(shí)體識(shí)別方法,該方法可以識(shí)別在線健康專家問答環(huán)境中的標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)醫(yī)療實(shí)體。Hofer等人[41]采用XLM-RoBERTa模型進(jìn)行命名實(shí)體識(shí)別,并對(duì)英文數(shù)據(jù)的命名實(shí)體識(shí)別跨語言模型進(jìn)行了微調(diào)。

    深度學(xué)習(xí)方法通常使用固定大小的窗口或卷積核來處理文本,這限制了其處理非連續(xù)和嵌套實(shí)體的能力。并且,深度學(xué)習(xí)模型通常需要大量的標(biāo)注數(shù)據(jù)進(jìn)行模型的訓(xùn)練,而在醫(yī)療領(lǐng)域標(biāo)注數(shù)據(jù)的稀缺性會(huì)限制深度學(xué)習(xí)方法的性能。隨著大語言模型的出現(xiàn),有效解決了標(biāo)注數(shù)據(jù)不足的情況,因?yàn)榇笮驼Z言模型是由大量的數(shù)據(jù)訓(xùn)練而成,能夠捕捉文本中的上下文信息,并通過上下文來推斷實(shí)體的邊界和類型,這有助于識(shí)別出文本中的命名實(shí)體。目前有一些基于大語言模型做命名實(shí)體識(shí)別的研究,例如:Zheng等人[42]將命名實(shí)體識(shí)別任務(wù)分解為實(shí)體跨度提取和實(shí)體類型確定兩個(gè)子任務(wù),然后利用大語言模型逐步解決問題。Wei 等人[43]將零樣本信息提取任務(wù)轉(zhuǎn)化為具有兩階段框架的多輪問答問題,借助ChatGPT的強(qiáng)大功能,在關(guān)系抽取、命名實(shí)體識(shí)別和時(shí)間抽取這三個(gè)信息提取任務(wù)上廣泛評(píng)估原文提出的框架方法。Polak 等人[44]提出了ChatExtract,該方法由一組經(jīng)過設(shè)計(jì)的提示組成,這些提示既可以識(shí)別帶有數(shù)據(jù)的句子,提取數(shù)據(jù),又可以通過一系列后續(xù)問題確保數(shù)據(jù)的正確性。Wang 等人[45]提出了GPT-NER,該方法首先將序列標(biāo)記任務(wù)轉(zhuǎn)換為大語言模型可以輕松完成的生成任務(wù),然后提出了一種自我驗(yàn)證策略,通過向大語言模型詢問自己識(shí)別出的實(shí)體是否屬于標(biāo)記的實(shí)體標(biāo)簽,有效地解決大語言模型的“幻覺”問題。

    2 方法

    系統(tǒng)整體框架如圖2所示,該系統(tǒng)包括數(shù)據(jù)預(yù)處理、實(shí)體識(shí)別、意圖識(shí)別、知識(shí)圖譜查詢和回答生成五部分。用戶的輸入文本為整個(gè)系統(tǒng)的輸入,經(jīng)過系統(tǒng)的五個(gè)部分處理,最后以系統(tǒng)生成的回答作為輸出。

    圖2 系統(tǒng)框架圖Fig.2 System framework diagram

    2.1 數(shù)據(jù)預(yù)處理

    數(shù)據(jù)預(yù)處理主要完成對(duì)輸入數(shù)據(jù)的處理。在問答系統(tǒng)的日常使用中,用戶有時(shí)候因?yàn)槭终`或者相關(guān)知識(shí)的欠缺,輸入的文本可能會(huì)出現(xiàn)錯(cuò)誤,例如“小兒氨酚那敏顆立”其中“顆?!北徽`寫。針對(duì)這種情況,需要進(jìn)行錯(cuò)誤詞的處理。處理后的語句,系統(tǒng)會(huì)將其進(jìn)行問題分類。這一工作是為了方便第三部分的意圖識(shí)別和槽位填充,然后對(duì)識(shí)別出來的問題進(jìn)行解析。

    其中錯(cuò)誤詞處理,在實(shí)驗(yàn)訓(xùn)練階段,使用人工處理的方式,主要方式是人工針對(duì)數(shù)據(jù)集中的錯(cuò)誤詞進(jìn)行改正。在系統(tǒng)中,增加了的相應(yīng)的錯(cuò)誤詞表對(duì)用戶輸入進(jìn)行更改。

    2.2 命名實(shí)體識(shí)別

    命名實(shí)體識(shí)別主要實(shí)現(xiàn)對(duì)輸入文本的實(shí)體抽取。在自然語言處理中,實(shí)體識(shí)別指的是將文本中的特定實(shí)體(如人名、地名、組織機(jī)構(gòu)名等)標(biāo)記或識(shí)別出來。對(duì)于醫(yī)療問答系統(tǒng),需要識(shí)別出用戶輸入文本中的疾病、癥狀和藥物等實(shí)體。命名實(shí)體識(shí)別可以幫助更好地理解文本,并且可以用于后續(xù)的語句意圖識(shí)別和方便進(jìn)行鏈接知識(shí)圖譜的查詢。

    大語言模型可以較好地應(yīng)用于實(shí)體識(shí)別任務(wù)。由于大語言模型通常使用的是預(yù)訓(xùn)練加微調(diào)的方式進(jìn)行訓(xùn)練,可以充分利用大規(guī)模的文本數(shù)據(jù)對(duì)實(shí)體識(shí)別任務(wù)進(jìn)行建模。

    在具體實(shí)現(xiàn)上,一種常見的方法是將實(shí)體識(shí)別任務(wù)看作一種序列標(biāo)注(sequence labeling)問題,將每個(gè)輸入的單詞作為模型的輸入,并輸出相應(yīng)的實(shí)體類別。大語言模型通常采用Transformer 架構(gòu),通過堆疊多層Transformer 編碼器來學(xué)習(xí)輸入句子中各個(gè)位置之間的關(guān)系,從而更好地捕捉上下文信息。同時(shí),還可以引入自注意力機(jī)制(self-attention),使得模型能夠更好地處理長文本輸入和序列中的依賴關(guān)系。

    2.2.1 輸入與輸出

    輸入是一個(gè)由N個(gè)字組成的序列,也叫作“符號(hào)”。結(jié)果就是一個(gè)詞,它最有可能被放在一個(gè)詞的后面。以GPT模式為基礎(chǔ)的各種應(yīng)用,例如對(duì)白、事例、事例產(chǎn)生等,都采用了這個(gè)輸入-輸出模式:先給出一系列的輸入,然后得出下一個(gè)詞。

    在NERLLM里,給定ChatGPT一些提示,讓其按照提示返回答案,在具體的實(shí)驗(yàn)中,規(guī)定提示的模板分為以下四部分:

    1.待識(shí)別的醫(yī)療文本。

    2.要識(shí)別的實(shí)體類型列表。

    3.具體的需求指令。

    4.規(guī)定輸出格式的指令。

    例如,待識(shí)別的醫(yī)療文本為“流行性感冒應(yīng)該吃什么藥”,規(guī)定輸入為:

    給定的句子為:“流行性感冒應(yīng)該吃什么藥”

    給定的實(shí)體列表為[疾病,癥狀,治療方式,藥物,檢查]

    在這個(gè)句子中,可能包含了哪些實(shí)體和實(shí)體類型

    按照字典的形式給出,兩個(gè)key 值分別是“實(shí)體”和“實(shí)體類型”

    由于ChatGPT 具有一定的隨機(jī)性,即使給出返回格式為字典的指令,它也不像機(jī)器學(xué)習(xí)方法能夠返回規(guī)范化的結(jié)果,經(jīng)過統(tǒng)計(jì),ChatGPT 會(huì)返回8 種格式的結(jié)果,如表1所示。

    表1 ChatGPT的返回格式Table 1 Return format of ChatGPT

    針對(duì)ChatGPT 返回結(jié)果不規(guī)范的問題,將返回的結(jié)果重新輸入到ChatGPT,并且再次給出更加具體的規(guī)定返回格式的指令,該指令如下所示:

    返回json格式,例如:[{'實(shí)體':'','實(shí)體類型':''},{'實(shí)體':'','實(shí)體類型':''}]

    具體的ChatGPT輸入例子如下所示:

    實(shí)體:流行性感冒,感冒

    實(shí)體類型:疾病,疾病

    返回json格式,例如:[{'實(shí)體':'','實(shí)體類型':''},{'實(shí)體':'','實(shí)體類型':''}]

    2.2.2 編碼和向量化

    GPT 的第一個(gè)步驟就是把所有的字集合起來,形成一個(gè)詞匯庫,這樣就可以給每一個(gè)字賦值。最后,可以把每一個(gè)字轉(zhuǎn)化成一個(gè)單獨(dú)的點(diǎn)編碼向量,在這個(gè)向量中,只有指數(shù)i的維數(shù)是1,其他的維數(shù)都是0。ChatGPT是利用字節(jié)對(duì)編碼(byte pair encoding,BPE)的符號(hào)化來實(shí)現(xiàn)高效的編碼。這表示詞匯表內(nèi)的“單詞”并非全詞,而只是文字中頻繁出現(xiàn)的一群字符。

    GPT使用的向量維度是50 257,這是一個(gè)非常大的向量,它的大多數(shù)內(nèi)容是0,但是這樣的設(shè)定太浪費(fèi)空間,為了解決這個(gè)問題,模型使用一個(gè)自動(dòng)復(fù)制函數(shù):一個(gè)接受長度為50 257 的1 和0 向量,并輸出長度為n的數(shù)字向量的神經(jīng)網(wǎng)絡(luò)。

    2.2.3 解碼

    假設(shè)下游任務(wù)的標(biāo)注數(shù)據(jù)為C,其中每個(gè)樣例的輸入為x=x1,x2,…,xn構(gòu)成的長度為n的文本序列,與之對(duì)應(yīng)的標(biāo)簽為y。獲取通過GPT3模型訓(xùn)練得來的最后一層的最后一個(gè)詞對(duì)應(yīng)的隱含層輸出

    緊接著將該隱含層輸出通過一層全連接層變換,來預(yù)測(cè)最終的標(biāo)簽。

    其中,Wy∈Rd×k表示全連接層權(quán)重(k表示標(biāo)簽個(gè)數(shù))。最終,通過優(yōu)化以下?lián)p失函數(shù)來進(jìn)行具體任務(wù)優(yōu)化:

    2.2.4 其他模型

    BiLSTM+CRF方法,對(duì)輸入的文本進(jìn)行編碼,將單詞映射到詞嵌入空間,以便模型能夠理解每個(gè)單詞的語義,利用兩個(gè)方向的LSTM 層,分別從前向和后向掃描輸入序列,以捕獲上下文信息,添加一個(gè)CRF 層,它用于建模標(biāo)簽之間的依賴關(guān)系。CRF 考慮了整個(gè)序列的標(biāo)簽分布,以確保生成合理的實(shí)體邊界。CRF層的轉(zhuǎn)移矩陣表示從一個(gè)標(biāo)簽到另一個(gè)標(biāo)簽的可能性。

    本文也選取四種預(yù)訓(xùn)練模型(BERT、ALBERT、ERNIE、RoBERTa)作為與本文模型進(jìn)行對(duì)比的方法,輸入文本經(jīng)過錯(cuò)誤詞處理,問題分類和問題分析后會(huì)輸入各預(yù)訓(xùn)練模型,對(duì)于各預(yù)訓(xùn)練模型處理得到的結(jié)果,無需像2.2.1 小節(jié)對(duì)于輸出部分介紹的那樣進(jìn)行人為處理,因?yàn)槠浔旧砭湍軐?duì)模型結(jié)果進(jìn)行解碼和實(shí)體邊界的劃分,達(dá)到預(yù)期輸出的要求。

    2.3 知識(shí)圖譜

    系統(tǒng)中查詢使用到的知識(shí)圖譜,為北京大學(xué)提供的中文醫(yī)療問答知識(shí)圖譜[46]。知識(shí)圖譜中包含的實(shí)體類型有疾病、癥狀、檢查、藥物、病原體和治療方式。

    該知識(shí)圖譜,將以往的實(shí)體三元組進(jìn)行關(guān)系抽取,抽取出29 種關(guān)系,將關(guān)系直接設(shè)為圖譜的節(jié)點(diǎn)。這樣設(shè)計(jì)可以避免傳統(tǒng)知識(shí)圖譜三元組(<實(shí)體1,關(guān)系,實(shí)體2>)的弊端,舉一個(gè)例子,假如感冒必須同時(shí)吃布洛芬、阿司匹林和三九感冒靈才能治好,僅用三元組的形式可以表示為:

    <感冒,藥物治療,布洛芬>

    <感冒,藥物治療,阿司匹林>

    <感冒,藥物治療,三九感冒靈>

    但這樣沒有辦法表示出“同時(shí)吃布洛芬、阿司匹林和三九感冒靈才能治療感冒”,只能表示出“感冒可以吃布洛芬”“感冒可以吃阿司匹林”“感冒可以吃三九感冒靈”。

    對(duì)關(guān)系進(jìn)行抽象后,可以用圖3所示的形式表示“感冒必須同時(shí)吃布洛芬和阿司匹林才能治好”并且可以很清晰地表示出多路方法的查詢,如“感冒的檢查方式”,根據(jù)圖4的表達(dá),可以很清楚地看到兩種檢查方式。

    圖3 知識(shí)圖譜實(shí)例1Fig.3 Knowledge graph example 1

    圖4 知識(shí)圖譜實(shí)例2Fig.4 Knowledge graph example 2

    在系統(tǒng)的意圖識(shí)別模塊,將意圖與知識(shí)圖譜的關(guān)系進(jìn)行映射連接,關(guān)系對(duì)應(yīng)如表2所示。

    表2 對(duì)應(yīng)關(guān)系映射表Table 2 Correspondence mapping table

    3 實(shí)驗(yàn)

    3.1 研究問題

    為了驗(yàn)證實(shí)驗(yàn)的效果,提出以下3個(gè)研究問題:

    RQ1:大語言模型和傳統(tǒng)方法在實(shí)體識(shí)別上的效果對(duì)比如何?

    RQ2:數(shù)據(jù)集的質(zhì)量,對(duì)大語言模型實(shí)體識(shí)別的影響是怎樣的?

    RQ3:實(shí)體識(shí)別的效果對(duì)整個(gè)問答系統(tǒng)的效果是怎樣的?

    3.2 數(shù)據(jù)集

    在3 個(gè)中文醫(yī)療數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),如表3 所示。它們分別是中文醫(yī)療信息處理挑戰(zhàn)榜(Chinese Biomedical Language Understanding Evaluation,CBLUE)中的CMeEE(https://tianchi.aliyun.com/dataset/95414)和IMCS-NER(https://tianchi.aliyun.com/dataset/95414)以及ChineseBLUE 中的cMedQANER(https://tianchi.aliyun.com/dataset/81513?spm=a2c22.28136470.0.0.1726cc93snEzMC)。

    CMeEE中文醫(yī)療對(duì)話數(shù)據(jù)集將醫(yī)學(xué)文本命名實(shí)體劃分為九大類,包括:藥物(dru)、醫(yī)療程序(pro)、疾?。╠is)、醫(yī)學(xué)檢驗(yàn)項(xiàng)目(ite)、科室(dep)、臨床表現(xiàn)(sym)、醫(yī)療設(shè)備(equ)、身體(bod)、微生物類(mic)。該數(shù)據(jù)集訓(xùn)練集數(shù)據(jù)15 000條,驗(yàn)證集數(shù)據(jù)5 000條,測(cè)試集數(shù)據(jù)3 000 條。標(biāo)注數(shù)據(jù)總字?jǐn)?shù)達(dá)到220 萬,包含47 194 個(gè)句子,938 個(gè)文件,平均每個(gè)文件的字?jǐn)?shù)為2 355。數(shù)據(jù)集包含7 085 種身體部位、4 354 種醫(yī)療程序、504 種常見的兒科疾病、12 907 種臨床表現(xiàn)等9大類醫(yī)療實(shí)體。

    IMCS-NER 中文醫(yī)療對(duì)話數(shù)據(jù)集訓(xùn)練集樣本2 472 條、驗(yàn)證集樣本833 條、測(cè)試集樣本811 條。共包含5類命名實(shí)體,分別是:癥狀、藥物、藥物類別、檢查、操作。標(biāo)注方式采用BIO三位字符級(jí)標(biāo)注,其中B-X代表實(shí)體X的開頭,I-X代表實(shí)體的結(jié)尾,O代表不屬于任何類型。

    cMedQANER 中文醫(yī)療數(shù)據(jù)集由中國社區(qū)問答標(biāo)記,共包含疾病、治療方式、藥物等10類實(shí)體,訓(xùn)練集1 673條、驗(yàn)證集175條、測(cè)試集215條。

    數(shù)據(jù)集中的訓(xùn)練集用于訓(xùn)練文中復(fù)現(xiàn)模型的參數(shù),測(cè)試集用于驗(yàn)證模型的效果,驗(yàn)證集的作用是通過監(jiān)控模型在驗(yàn)證集上的性能,在模型性能達(dá)到最佳時(shí)停止訓(xùn)練,避免過擬合,從而提高模型的泛化能力。

    3.3 評(píng)價(jià)指標(biāo)

    命名實(shí)體識(shí)別的可量化評(píng)價(jià)指標(biāo)有3個(gè),分別是準(zhǔn)確率(Precision,簡記為Prec)、召回率(Recall,簡記為Rec)和F1-Score(簡記為F1)值。其中,準(zhǔn)確率衡量命名實(shí)體識(shí)別模型正確識(shí)別實(shí)體的能力,召回率衡量命名實(shí)體識(shí)別模型識(shí)別整個(gè)語料庫中全部實(shí)體的能力,F(xiàn)1取兩者的調(diào)和平均值。

    設(shè)模型正確識(shí)別的相關(guān)實(shí)體數(shù)為TP,模型錯(cuò)誤識(shí)別的不相關(guān)實(shí)體數(shù)為FP,模型未識(shí)別的相關(guān)實(shí)體數(shù)為FN,則:

    3.4 實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置

    本文利用了HMM[26]、CRF[30]、Lattice LSTM[47]、BiLSTM+CRF[8]等模型,以及包括ALBERT(a lite BERT)、ERNIE(enhanced representation through knowledge integration)、BERT、RoBERTa 在內(nèi)的預(yù)訓(xùn)練模型和大語言模型ChatGPT 進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)參數(shù)如下所示。

    對(duì)于RQ1,比較了HMM[26]、CRF[30]、Lattice LSTM[47]、BiLSTM+CRF[8]和GlobalPointer[9]5 種傳統(tǒng)機(jī)器學(xué)習(xí)實(shí)體識(shí)別方法。對(duì)于BiLSTM+CRF,python 版本為3.6,pytorch 工具包版本為1.8.1。在訓(xùn)練的過程中,采用Adam優(yōu)化算法進(jìn)行參數(shù)優(yōu)化,初始學(xué)習(xí)率設(shè)置為0.01。同時(shí),為了防止過擬合化,采用early-stop和dropout 策略,并通過梯度裁剪來解決梯度爆炸問題。具體實(shí)驗(yàn)參數(shù)設(shè)置如表4所示。

    表4 本文方法實(shí)驗(yàn)參數(shù)設(shè)置Table 4 Parameter configurations of proposed approach

    GlobalPointer 中采用BERT 對(duì)輸入進(jìn)行向量化,在此基礎(chǔ)上,將BERT 替換為RoBERTa、ERNIE 和ALBERT 進(jìn)行實(shí)驗(yàn),在Hugging Face 調(diào)用,直接使用原有模型的參數(shù)。

    使用ChatGPT 大語言模型,采用其中的textdavinci-002 模型,它可以理解并生成自然語言或代碼,并且與text-davinci-003 類似的能力,但使用監(jiān)督微調(diào)而不是強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,當(dāng)沒有上下文示例、零樣本的時(shí)候,text-davinci-002 在零樣本任務(wù)完成方面表現(xiàn)更好。從這個(gè)意義上說,text-davinci-002 更符合人類的期待。為了探究本文提出的方法是否適用于其他大語言模型,在Llama2-13B 模型上進(jìn)行同樣的實(shí)驗(yàn),查看實(shí)驗(yàn)效果。

    對(duì)于RQ2,是基于對(duì)3 個(gè)典型的數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)其中存在少量質(zhì)量較差的數(shù)據(jù),主要分為以下3類:

    (1)數(shù)據(jù)集標(biāo)注不全。例如“水腫”“靜脈充血”“血紅蛋白下降”等實(shí)體沒有標(biāo)注出來。

    (2)實(shí)體標(biāo)注不完整。例如“喉嚨疼痛”原始數(shù)據(jù)集只標(biāo)注出“疼痛”,具體哪里疼痛卻沒有標(biāo)注出。

    (3)實(shí)體標(biāo)注錯(cuò)誤。例如“腫瘤”原始數(shù)據(jù)集標(biāo)注的是癥狀類型,實(shí)際上應(yīng)該是疾病類型。

    針對(duì)這種情況,在RQ2對(duì)應(yīng)的實(shí)驗(yàn)中,對(duì)沒有更正的數(shù)據(jù)集和更正后的數(shù)據(jù)集,進(jìn)行了實(shí)體識(shí)別對(duì)比實(shí)驗(yàn)。

    對(duì)于RQ3,采用基于規(guī)則的方法識(shí)別出問題的意圖,結(jié)合ChatGPT識(shí)別出的實(shí)體,通過關(guān)系鏈接將意圖鏈接到知識(shí)圖譜中的具體關(guān)系,最后查詢出答案。

    4 實(shí)驗(yàn)結(jié)果及分析

    4.1 對(duì)RQ1的回答

    在3 個(gè)數(shù)據(jù)集上,復(fù)現(xiàn)了5 個(gè)實(shí)體識(shí)別方法,分別是HMM[26]、CRF[30]、Lattice LSTM[47]、BiLSTM+CRF[8]和GlobalPointer[9],其中,GlobalPointer 中采用BERT對(duì)輸入進(jìn)行向量化,在此基礎(chǔ)上,將BERT 替換為RoBERTa、ERNIE 和ALBERT 進(jìn)行實(shí)驗(yàn),共8 組實(shí)驗(yàn)。在下面的表中,GlobalPointer簡寫成GP,括號(hào)內(nèi)的內(nèi)容表示對(duì)輸入進(jìn)行向量化的預(yù)訓(xùn)練模型,實(shí)驗(yàn)結(jié)果如表5所示。

    表5 機(jī)器學(xué)習(xí)方法的比較Table 5 Comparison of machine learning methods

    從表5可以看出,預(yù)訓(xùn)練模型RoBERTa在3個(gè)數(shù)據(jù)集上的F1 都是最高的,它的效果與BERT 相差不大;在Recall 評(píng)價(jià)指標(biāo)上,RoBERTa 在CMeEE 和IMCS-NER數(shù)據(jù)集上的表現(xiàn)是最好的,分別能夠達(dá)到66.53%和94.85%,在cMedQANER 數(shù)據(jù)集上能夠達(dá)到79.40%,僅比最好的BERT 相差0.005 4;這表明RoBERTa 模型在醫(yī)療命名實(shí)體識(shí)別任務(wù)中具有更好的泛化能力,能夠識(shí)別出更多的實(shí)體。在Precision評(píng)價(jià)指標(biāo)上,RoBERTa 和BERT 在IMCS-NER 和cMedQANER 兩個(gè)數(shù)據(jù)集的效果比其他方法好。綜上所述,RoBERTa 和BERT 預(yù)訓(xùn)練模型具備識(shí)別出更多醫(yī)療實(shí)體的能力,并且在IMCS-NER 和cMedQANER數(shù)據(jù)集上識(shí)別得更加精確,說明RoBERTa和BERT 比其他預(yù)訓(xùn)練模型更加適合做醫(yī)療命名實(shí)體識(shí)別任務(wù)。

    復(fù)現(xiàn)的方法在數(shù)據(jù)集CMeEE、IMCS-NER 和cMedQANER上的loss曲線圖分別如圖5~圖7所示。

    圖5 CMeEE數(shù)據(jù)集上的loss曲線圖Fig.5 Loss curve graph on CMeEE dataset

    圖6 IMCS-NER數(shù)據(jù)集上的loss曲線圖Fig.6 Loss curve graph on IMCS-NER dataset

    圖7 cMedQANER數(shù)據(jù)集上的loss曲線圖Fig.7 Loss curve graph on cMedQANER dataset

    監(jiān)控訓(xùn)練過程中的損失函數(shù)值,隨著訓(xùn)練的進(jìn)行,損失函數(shù)逐漸減小,CMeEE、IMCS-NER 和cMedQANER 數(shù)據(jù)集分別在第7 輪、第3 輪和第5 輪的loss值趨于穩(wěn)定或不再減少,表示模型已收斂。

    由于人工標(biāo)注和訪問ChatGPT 接口成本較高,cMedQANER 數(shù)據(jù)集采用全集進(jìn)行實(shí)驗(yàn),CMeEE 和IMCS-NER 各從中抽取100 條數(shù)據(jù)。由于這兩個(gè)都是中文多輪醫(yī)療問答數(shù)據(jù)集,里面包含了很多噪聲語句,例如“你好”“謝謝幫助”和“再見”等。在抽取時(shí)先對(duì)整個(gè)數(shù)據(jù)集進(jìn)行分層處理,針對(duì)每一層進(jìn)行隨機(jī)抽樣,根據(jù)具體數(shù)據(jù)集的情況,進(jìn)行了長度篩選,去除文本長度小于6 個(gè)中文字符的樣本(日常問候語等不包含實(shí)體和明確意圖的數(shù)據(jù)),從而組成測(cè)試集。在隨機(jī)抽取的測(cè)試集上的實(shí)驗(yàn)結(jié)果如表6所示。

    從表6 可以看出,在F1 評(píng)價(jià)指標(biāo)上,ChatGPT 在CMeEE 數(shù)據(jù)集上的表現(xiàn)是最好的,在IMCS-NER 和cMedQANER 兩個(gè)數(shù)據(jù)集上效果不如傳統(tǒng)機(jī)器學(xué)習(xí)的方法,主要有以下兩點(diǎn)原因:(1)IMCS-NER是一個(gè)多輪對(duì)話數(shù)據(jù)集,里面包含了大量的不存在醫(yī)療實(shí)體的數(shù)據(jù);(2)IMCS-NER 和cMedQANER 這兩個(gè)數(shù)據(jù)集存在大量標(biāo)注錯(cuò)誤、標(biāo)注不全和標(biāo)注不完整的問題,降低了實(shí)驗(yàn)的結(jié)果。因此在RQ2 中將標(biāo)注錯(cuò)誤的數(shù)據(jù)進(jìn)行人工糾正,并且進(jìn)行實(shí)驗(yàn)。在Recall評(píng)價(jià)指標(biāo)上,ChatGPT 在CMeEE 和cMedQANER 兩個(gè)數(shù)據(jù)集上的表現(xiàn)比傳統(tǒng)機(jī)器學(xué)習(xí)方法好,說明像ChatGPT 這樣的大語言模型比RoBERTa 和BERT 預(yù)訓(xùn)練模型具有更強(qiáng)的泛化能力,大語言模型能夠更加充分地挖掘文本中的語義信息,對(duì)于文本中有錯(cuò)別字的情況,大語言模型可以很好地識(shí)別,因此能夠識(shí)別出更多的醫(yī)療實(shí)體,隨之帶來的是精確率的下降。另一個(gè)導(dǎo)致精確率降低的原因是:這兩個(gè)數(shù)據(jù)集是多輪中文醫(yī)療對(duì)話數(shù)據(jù)集,隨機(jī)抽取出來的測(cè)試集中包括一些不包含醫(yī)療實(shí)體的對(duì)話文本。綜上所述,ChatGPT 具備識(shí)別醫(yī)療命名實(shí)體的能力,在數(shù)據(jù)集標(biāo)注準(zhǔn)確的情況下,能夠比傳統(tǒng)機(jī)器學(xué)習(xí)方法識(shí)別出更多的醫(yī)療實(shí)體。

    從表6的最后兩組實(shí)驗(yàn)可以看出,采用本文的方法,在3 個(gè)評(píng)價(jià)指標(biāo)上,大語言模型Llama2 比ChatGPT低2~5個(gè)百分點(diǎn),因此本文提出的方法同樣適用于像Llama2 這樣的大語言模型,但是由于Llama2 的模型大小是13 billion,導(dǎo)致識(shí)別效果不如ChatGPT。

    4.2 對(duì)RQ2的回答

    針對(duì)數(shù)據(jù)集標(biāo)注不全、標(biāo)注不完整和標(biāo)注錯(cuò)誤3類問題,本文根據(jù)國際疾病分類(international classification of diseases,ICD)標(biāo)準(zhǔn),人工進(jìn)行數(shù)據(jù)集的補(bǔ)全和糾錯(cuò),根據(jù)從原始數(shù)據(jù)集中隨機(jī)抽取的結(jié)果,共更正了416 條數(shù)據(jù)。數(shù)據(jù)集更正后的醫(yī)療實(shí)體識(shí)別效果如表7所示。

    表7 數(shù)據(jù)集進(jìn)行更正后的識(shí)別效果Table 7 Recognition effect after correcting dataset

    在RQ1 的實(shí)驗(yàn)中,針對(duì)實(shí)驗(yàn)中的結(jié)果進(jìn)行了分析,發(fā)現(xiàn)原始數(shù)據(jù)集在標(biāo)注上有較多的錯(cuò)誤,有的實(shí)體還未標(biāo)注,或者實(shí)體屬于非連續(xù)性和嵌套實(shí)體,這些情況傳統(tǒng)機(jī)器學(xué)習(xí)方法并未很好地識(shí)別出來,但ChatGPT識(shí)別出來了,因此降低了實(shí)驗(yàn)得分。針對(duì)數(shù)據(jù)集做了人工的更正后,再次進(jìn)行實(shí)驗(yàn),由表6和表7的結(jié)果可以看出,在數(shù)據(jù)集進(jìn)行更正之后,各個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)效果得到了明顯的提升,并且明顯高于其他機(jī)器學(xué)習(xí)方法,這表明數(shù)據(jù)集的質(zhì)量對(duì)實(shí)體識(shí)別的效果有很大影響。綜上所述,ChatGPT在CMeEE、IMCS-NER 和cMedQANER 數(shù)據(jù)集上能夠識(shí)別出更多的醫(yī)療實(shí)體,在醫(yī)療實(shí)體豐富的文本上,ChatGPT比傳統(tǒng)機(jī)器學(xué)習(xí)方法更加適合做醫(yī)療命名實(shí)體識(shí)別任務(wù)。另外,ChatGPT 相較于其他傳統(tǒng)機(jī)器學(xué)習(xí)方法,在高得分的情況下,還能夠識(shí)別出非連續(xù)性實(shí)體和嵌套實(shí)體,應(yīng)用在對(duì)話系統(tǒng)中,會(huì)得到更好的效果。

    4.3 對(duì)RQ3的回答

    將ChatGPT 識(shí)別出來的實(shí)體應(yīng)用到醫(yī)療問答系統(tǒng)上,采用自己構(gòu)建的問答數(shù)據(jù)集,該數(shù)據(jù)集共225條,每條數(shù)據(jù)由醫(yī)療問題和問題答案組成,包含治療、相關(guān)導(dǎo)致和檢查等類型的問題,部分問題中包含嵌套實(shí)體和非連續(xù)性實(shí)體,問題的答案通過百度和智慧問診系統(tǒng)獲得,問答結(jié)果如表8所示。

    表8 問答結(jié)果Table 8 QA result

    從表8可以看出,將ChatGPT識(shí)別出來的實(shí)體應(yīng)用到醫(yī)療問答系統(tǒng)里,在3個(gè)評(píng)價(jià)指標(biāo)值上相較傳統(tǒng)機(jī)器學(xué)習(xí)方法有明顯提升,這表明ChatGPT 能夠識(shí)別出更多的并且更加適用于醫(yī)療問答系統(tǒng)的實(shí)體。綜上所述,ChatGPT不僅在中文醫(yī)療實(shí)體識(shí)別上有較好的效果,應(yīng)用到系統(tǒng)中也有較好的效果。

    4.4 實(shí)驗(yàn)進(jìn)一步討論

    (1)輸入形式對(duì)大語言模型實(shí)體識(shí)別有影響

    在實(shí)驗(yàn)過程中,首先可以發(fā)現(xiàn)大語言模型實(shí)體識(shí)別中輸入和輸出對(duì)識(shí)別效果影響較大。對(duì)于輸入的文本,需要給定預(yù)期輸出的格式,但大語言模型返回的輸出格式還是具有多樣性,這樣就會(huì)導(dǎo)致不適用于下游任務(wù),需要進(jìn)行處理,否則會(huì)有許多的實(shí)體遺漏,造成結(jié)果的不準(zhǔn)確。比如在最開始使用ChatGPT完成實(shí)體識(shí)別任務(wù)的時(shí)候,并沒有對(duì)輸出格式進(jìn)行規(guī)定,這樣得到的結(jié)果五花八門,格式也較為混亂,因此對(duì)ChatGPT 輸出的結(jié)果進(jìn)行了人為的規(guī)定,例如表1中所提到的8種格式。

    (2)數(shù)據(jù)集的質(zhì)量對(duì)結(jié)果有影響

    在針對(duì)RQ1 的實(shí)驗(yàn)中,發(fā)現(xiàn)數(shù)據(jù)集的質(zhì)量存在問題,并且影響實(shí)驗(yàn)結(jié)果。主要體現(xiàn)在兩方面:

    一方面,數(shù)據(jù)集中有些實(shí)體標(biāo)注錯(cuò)誤,有些實(shí)體并未標(biāo)注出來。例如:“患者的神經(jīng)細(xì)胞質(zhì)中發(fā)現(xiàn)內(nèi)基小體”,在原始數(shù)據(jù)集中,“內(nèi)基小體”并未標(biāo)注出來,這類情況在一定程度上影響整個(gè)實(shí)驗(yàn)結(jié)果,因此人為對(duì)數(shù)據(jù)集進(jìn)行了更新,修正了這部分錯(cuò)誤。

    另一方面,數(shù)據(jù)集中存在著錯(cuò)別字以及語序混亂的情況。例如“氨酚黃那敏顆?!?,原始數(shù)據(jù)集給出的是“氨酚黃那敏科利”,錯(cuò)別字對(duì)模型識(shí)別的時(shí)候有一定的影響,模型就只能識(shí)別出“氨酚黃那敏”,這樣該實(shí)體并沒有識(shí)別完全。

    對(duì)數(shù)據(jù)集進(jìn)行更新并再次進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了利用大語言模型識(shí)別出的醫(yī)療實(shí)體應(yīng)用在醫(yī)療問答系統(tǒng)上更具優(yōu)勢(shì)。

    (3)大語言模型對(duì)識(shí)別非連續(xù)性實(shí)體、嵌套實(shí)體效果好

    通過對(duì)ChatGPT 問答結(jié)果的分析,發(fā)現(xiàn)大語言模型具有識(shí)別非連續(xù)性實(shí)體、嵌套實(shí)體的能力。

    對(duì)于嵌套實(shí)體,例如在“它能應(yīng)對(duì)各種原發(fā)及繼發(fā)性腎臟疾病”這一醫(yī)療文本的識(shí)別中,傳統(tǒng)的機(jī)器學(xué)習(xí)方法只能識(shí)別出“原發(fā)及繼發(fā)性腎臟疾病”,但是大語言模型可以識(shí)別出“原發(fā)性腎臟疾病”和“繼發(fā)性腎臟疾病”兩個(gè)實(shí)體。

    對(duì)于非連續(xù)性實(shí)體,例如“體溫較前已在下降了”,傳統(tǒng)的機(jī)器學(xué)習(xí)方法未能識(shí)別出實(shí)體,但是大語言模型可以識(shí)別出“體溫下降”這個(gè)實(shí)體。

    這兩種情況在日常的醫(yī)療問診對(duì)話里經(jīng)常出現(xiàn),因此將大語言模型應(yīng)用到醫(yī)療問答系統(tǒng)中更具優(yōu)勢(shì)。

    5 總結(jié)與展望

    本文首先分析了以往醫(yī)療文本實(shí)體識(shí)別問題的局限性。為解決醫(yī)療文本實(shí)體識(shí)別存在非連續(xù)實(shí)體和嵌套實(shí)體識(shí)別的問題,提出了大語言模型的實(shí)體識(shí)別方法。該方法首先需要對(duì)醫(yī)療文本進(jìn)行預(yù)處理,然后使用大語言模型,使得能夠識(shí)別其中的非連續(xù)實(shí)體和嵌套實(shí)體。其次,大語言模型實(shí)體識(shí)別的輸出沒有統(tǒng)一的格式,為此進(jìn)行了分類和分析。提出的大語言模型實(shí)體識(shí)別方法在三個(gè)公開的數(shù)據(jù)集上有著優(yōu)秀的表現(xiàn),實(shí)驗(yàn)結(jié)果表明了方法的有效性。

    由于大語言模型的訓(xùn)練數(shù)據(jù)是通用領(lǐng)域的數(shù)據(jù),沒有專業(yè)領(lǐng)域的數(shù)據(jù),導(dǎo)致大語言模型對(duì)醫(yī)學(xué)領(lǐng)域的問題回答不專業(yè)或不準(zhǔn)確,未來考慮使用醫(yī)療領(lǐng)域的語料微調(diào)目前的大語言模型,例如Llama2、miniGPT和GPT4等,進(jìn)一步優(yōu)化任務(wù)表現(xiàn)。

    猜你喜歡
    命名實(shí)體醫(yī)療
    命名——助力有機(jī)化學(xué)的學(xué)習(xí)
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    中國外匯(2019年18期)2019-11-25 01:41:54
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    為一條河命名——在白河源
    散文詩(2017年17期)2018-01-31 02:34:08
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    京張醫(yī)療聯(lián)合的成功之路
    我們?cè)鯓永斫忉t(yī)療創(chuàng)新
    醫(yī)療扶貧至關(guān)重要
    阿克苏市| 兖州市| 慈利县| 龙胜| 嘉黎县| 龙里县| 平湖市| 玉溪市| 南昌县| 城口县| 兴安盟| 莱西市| 瑞昌市| 长宁县| 庄河市| 六枝特区| 新巴尔虎右旗| 湟源县| 大埔县| 松原市| 灵石县| 民勤县| 仙游县| 荆州市| 石棉县| 陇川县| 阳新县| 保定市| 松滋市| 云浮市| 英超| 漠河县| 苗栗县| 镇远县| 沅江市| 利辛县| 屏山县| 大同县| 冷水江市| 柳林县| 宿松县|