羊艷玲,李燕
(甘肅中醫(yī)藥大學(xué),甘肅 蘭州 730000)
中醫(yī)歷經(jīng)幾千年發(fā)展過程,積累了大量珍貴的臨床經(jīng)驗(yàn),形成了無數(shù)經(jīng)典理論,產(chǎn)生的醫(yī)案成為推動(dòng)學(xué)術(shù)發(fā)展的重要文本載體。近代著名學(xué)者章太炎說:“中醫(yī)之成績(jī),醫(yī)案最著”[1]。名老中醫(yī)是中醫(yī)學(xué)術(shù)造詣最深、臨床水平最高的群體,是將中醫(yī)理論、前人經(jīng)驗(yàn)與當(dāng)今臨床實(shí)踐相結(jié)合的典范。通過對(duì)名老中醫(yī)理論思維與臨床實(shí)踐經(jīng)驗(yàn)的總結(jié)和傳播,推動(dòng)了中醫(yī)藥傳承工作的進(jìn)一步開展,亦是中醫(yī)藥創(chuàng)新發(fā)展的新思路[2]。如何借助信息科學(xué)技術(shù)將潛藏于醫(yī)案中的理論、實(shí)踐及辨證方法可視化,是推動(dòng)中醫(yī)藥信息化進(jìn)一步發(fā)展中值得探究的問題。知識(shí)圖譜是數(shù)據(jù)時(shí)代的新興技術(shù),其作為知識(shí)管理和服務(wù)的工具應(yīng)用于知識(shí)工程領(lǐng)域,可將醫(yī)學(xué)知識(shí)嵌入到網(wǎng)絡(luò)用來指導(dǎo)和豐富文本得以表示,為中醫(yī)臨床知識(shí)的關(guān)聯(lián)、整合與分析提供了理想手段[3]。已有學(xué)者在中醫(yī)藥知識(shí)圖譜構(gòu)建中進(jìn)行了嘗試與探索,袁凱琦等[4]自底向上地對(duì)知識(shí)圖譜應(yīng)用于醫(yī)學(xué)領(lǐng)域所需的關(guān)鍵技術(shù),就數(shù)據(jù)存在的跨語種、高技術(shù)、多結(jié)構(gòu)等特點(diǎn)進(jìn)行了全面分析。孫華君[5]研究團(tuán)隊(duì)簡(jiǎn)要論述知識(shí)圖譜的發(fā)展概況,分析知識(shí)圖譜與本體的關(guān)系,最后總結(jié)了知識(shí)圖譜在中醫(yī)基礎(chǔ)、臨床、養(yǎng)生保健的典型應(yīng)用。然而,在知識(shí)圖譜應(yīng)用于醫(yī)學(xué)領(lǐng)域的現(xiàn)有研究中,由于數(shù)據(jù)多結(jié)構(gòu)和高專業(yè)性要求的特點(diǎn),其構(gòu)建存在著一定困難。本文就中醫(yī)知識(shí)圖譜概述、關(guān)鍵技術(shù)、目前存在的問題及未來發(fā)展趨勢(shì)進(jìn)行述評(píng)。
知識(shí)圖譜是以結(jié)構(gòu)化的方式描述客觀世界中概念、實(shí)體及其關(guān)系,以“語義網(wǎng)絡(luò)”為框架搭建起來的大型知識(shí)庫系統(tǒng),將分散的知識(shí)進(jìn)行匯總與整合,為解決“知識(shí)孤島”問題提供了理想的技術(shù)手段[6]。目前醫(yī)學(xué)知識(shí)圖譜的構(gòu)建過程主要包括數(shù)據(jù)獲取、知識(shí)抽取、知識(shí)融合、知識(shí)加工4個(gè)步驟,其中數(shù)據(jù)獲取是構(gòu)建過程的基礎(chǔ),數(shù)據(jù)源包含結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),其主要來源為醫(yī)學(xué)專業(yè)論文、書籍文獻(xiàn)、醫(yī)案和電子病歷等;知識(shí)抽取是把已有非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中的知識(shí)從不同種格式或表示方法中提煉出來,處理為相同形式數(shù)據(jù)的過程,包括實(shí)體抽取、關(guān)系抽取和屬性抽取3個(gè)部分;在獲取實(shí)體、關(guān)系及屬性后,要對(duì)其進(jìn)行清理和整合的過程即知識(shí)融合,包括共指解析和實(shí)體消歧,保證知識(shí)的正確性和邏輯性;最后通過知識(shí)加工,包括本體抽取、知識(shí)推理、知識(shí)發(fā)現(xiàn)和質(zhì)量評(píng)估,提高醫(yī)學(xué)知識(shí)圖譜的可信度與準(zhǔn)確度[7]。
目前,知識(shí)圖譜在中醫(yī)藥領(lǐng)域主要運(yùn)用在以下四個(gè)方面:
一是檢索中醫(yī)知識(shí),對(duì)中醫(yī)術(shù)語及實(shí)體指定的路徑查詢等基本知識(shí)檢索服務(wù),以交互式圖形化的方式展示出檢索結(jié)果。于彤等[8]以中醫(yī)藥學(xué)語言系統(tǒng)作為骨架,集成了中醫(yī)藥領(lǐng)域的一系列知識(shí)圖譜,并將其嵌入中醫(yī)藥知識(shí)服務(wù)平臺(tái)中加以利用;Yu et al.[9]利用中醫(yī)藥領(lǐng)域積累的數(shù)字化資源,構(gòu)建了面向中醫(yī)養(yǎng)生領(lǐng)域的知識(shí)圖譜,從而實(shí)現(xiàn)術(shù)語、文獻(xiàn)、數(shù)據(jù)庫等知識(shí)資源的相互關(guān)聯(lián)和系統(tǒng)組織,促進(jìn)中醫(yī)養(yǎng)生知識(shí)的共享、傳播與利用。
二是分析中醫(yī)醫(yī)案,為醫(yī)案的臨床診斷和理解醫(yī)案思路打下基礎(chǔ)。鄭子強(qiáng)[10]以中醫(yī)在治療慢性腎臟病方面的醫(yī)案為數(shù)據(jù)支撐構(gòu)建知識(shí)圖譜,并通過特征發(fā)現(xiàn)對(duì)知識(shí)圖譜進(jìn)行推理,從而實(shí)現(xiàn)了對(duì)學(xué)習(xí)的有效指導(dǎo)及對(duì)臨床的輔助決策。
三是輔助診療,基于知識(shí)圖譜結(jié)合多種中醫(yī)辨證方法進(jìn)行辨證論治的策略。張瑩瑩[11]基于構(gòu)建的中醫(yī)藥知識(shí)圖譜設(shè)計(jì)了舌診系統(tǒng),根據(jù)用戶癥狀辨證論治,為用戶提供初步診斷以實(shí)現(xiàn)輔助診療。
四是分析名老中醫(yī)個(gè)性化知識(shí),基于知識(shí)圖譜進(jìn)行漸進(jìn)式中醫(yī)學(xué)術(shù)思想的發(fā)現(xiàn),為進(jìn)一步的中醫(yī)經(jīng)驗(yàn)傳承和臨床知識(shí)總結(jié)進(jìn)行探索。鄧宇等[12]基于名老中醫(yī)醫(yī)案構(gòu)建知識(shí)圖譜,分析蘊(yùn)涵的知識(shí)和關(guān)系,將隱含在其中非結(jié)構(gòu)化的診療經(jīng)驗(yàn)系統(tǒng)地顯式出來。
想要在海量的中醫(yī)醫(yī)案中更高效地挖掘出重要的診療信息就需要對(duì)醫(yī)案文本進(jìn)行預(yù)處理,前提須解決中文序列切分問題——中文分詞。中文分詞是通過某種方法或方法的組合,將輸入的中文文本基于某種需求并按照特定的規(guī)范劃分為“詞”的過程。中文分詞模型算法主要經(jīng)歷以下三個(gè)階段:
(1)基于字符串匹配算法按照規(guī)定策略將分詞對(duì)象與適用詞典進(jìn)行匹配來確定詞的劃分,常見的匹配算法包括:正向最大匹配法(Forward Maximum Matching,F(xiàn)MM)、逆向最大匹配法(Reverse Maximum Matching,RMM)、雙向最大匹配法、全切分法等。由于算法簡(jiǎn)單,機(jī)械分詞具有分詞速度快的天然優(yōu)勢(shì);然而,分詞準(zhǔn)確率與詞典的好壞成正相關(guān),在未登錄詞較多的情況下,算法的準(zhǔn)確率無法保證。
(2)基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法充分利用漢語組詞的規(guī)律來分詞,該方法需要大量預(yù)先分好的語料進(jìn)行支撐,另外特征選擇的好壞是決定結(jié)果的關(guān)鍵性因素;傳統(tǒng)機(jī)器學(xué)習(xí)算法需要人工設(shè)計(jì)特征模塊,影響分詞效率。最初影響力較大的模型是最大熵模型(Maximum Entropy,ME)[13-14]和隱馬爾可夫模型(Hidden Markov Model,HMM)[15]。最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)[16]集成了上述兩個(gè)模型的優(yōu)點(diǎn),將上下文信息引入到模型中,可以選擇任意特征,模型學(xué)習(xí)和識(shí)別的準(zhǔn)確率都有所提升。但是模型對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行獨(dú)立歸一化,存在偏置問題。條件隨機(jī)場(chǎng)(CRF)[17-18]結(jié)合了多方面優(yōu)勢(shì),對(duì)所有的特征進(jìn)行全局歸一化,避免了偏置問題,成為傳統(tǒng)機(jī)器學(xué)習(xí)中應(yīng)用最多、最具代表性的模型算法之一,但模型復(fù)雜導(dǎo)致分詞效率略低。
(3)2011年,Collobert等[19]首次將深度學(xué)習(xí)算法引入自然語言處理任務(wù)中。該方法可以通過最終的分詞標(biāo)注訓(xùn)練集,有效學(xué)習(xí)原始特征和上下文表示。隨后CNN[20-21]、GRN[22]、LSTM[23]、BiLSTM[24]等深度學(xué)習(xí)模型都被引入到中文分詞任務(wù)中,并結(jié)合中文分詞進(jìn)行多種改進(jìn)?;诶斫獾纳疃葘W(xué)習(xí)算法讓計(jì)算機(jī)模擬人類思維,對(duì)句子進(jìn)行結(jié)構(gòu)語義分析,無須進(jìn)行特征行為選擇,可以有效保留長距離句子信息,是對(duì)機(jī)器學(xué)習(xí)的有效補(bǔ)充。
中醫(yī)醫(yī)案具有明顯個(gè)體差異性、實(shí)用性與地域性等特點(diǎn)[25],故醫(yī)案具有一定的復(fù)雜性。綜合現(xiàn)階段中醫(yī)分詞研究文獻(xiàn)來看,我們需要將文本中實(shí)體的多種描述方式與標(biāo)準(zhǔn)實(shí)體進(jìn)行對(duì)應(yīng)。目前影響分詞精度的主要問題是歧義性和多樣性問題[26],同時(shí)針對(duì)中醫(yī)醫(yī)案,大量專業(yè)術(shù)語的集合亦嚴(yán)重影響著分詞性能。此外,古代醫(yī)案多用晦澀的文言文,屬于具有籠統(tǒng)模糊的特性,使得中醫(yī)醫(yī)案研究學(xué)者既要考慮現(xiàn)代中文語法又要考慮到中文古漢語用詞特點(diǎn),增加了分詞難度以及歧義詞的消解工作;且中醫(yī)領(lǐng)域詞典不完善,缺乏規(guī)范與條理,將傳統(tǒng)醫(yī)案轉(zhuǎn)化為數(shù)字醫(yī)案的過程中,醫(yī)學(xué)術(shù)語、計(jì)量單位、癥狀名稱等內(nèi)容受地域、個(gè)人影響極大,給數(shù)據(jù)處理帶來極大困難[25]。綜上現(xiàn)有問題,王莉軍等[27]為解決中醫(yī)文獻(xiàn)內(nèi)容多,術(shù)語雜的問題,使用通用領(lǐng)域分詞構(gòu)建了基于BILSTM-CRF的模型對(duì)中醫(yī)領(lǐng)域文獻(xiàn)進(jìn)行分詞,結(jié)果表明基于該模型的分詞取得了優(yōu)秀的分類性能和魯棒性。王冰[28]為解決中醫(yī)醫(yī)案中存在組合型歧義字段問題,分別構(gòu)建了中醫(yī)文本消歧模型和中醫(yī)文本分詞模型,通過醫(yī)案驗(yàn)證了模型的有效性和高效性。張帆[29]等基于JAVA實(shí)現(xiàn)采用層疊隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS,通過建立相關(guān)中醫(yī)領(lǐng)域詞典及測(cè)試語料庫,經(jīng)過分詞和評(píng)測(cè)得出方法的性能。該方法能初步解決中醫(yī)醫(yī)案文獻(xiàn)的分詞問題,對(duì)現(xiàn)代醫(yī)案文獻(xiàn)的詞性標(biāo)注也基本正確,但對(duì)古代醫(yī)案文獻(xiàn)的詞性標(biāo)注上有待進(jìn)一步的研究改進(jìn)。
經(jīng)過多年努力,中文分詞研究已經(jīng)取得了一定進(jìn)展,但對(duì)于中醫(yī)醫(yī)案的分詞仍面臨諸多挑戰(zhàn)。目前的分詞方法研究已不再局限于某個(gè)單一分詞方法的應(yīng)用,經(jīng)過實(shí)驗(yàn)驗(yàn)證將幾種方法融合到一起的分詞模型相較于單一分詞方法在中醫(yī)文獻(xiàn)分詞上具有更高的準(zhǔn)確性和強(qiáng)大的泛化能力;同時(shí)分詞方法的性能要求也從著重追求有效性轉(zhuǎn)變?yōu)榧骖櫢咝浴?/p>
實(shí)體抽取是從文本中自動(dòng)獲取實(shí)體間關(guān)系事實(shí)的任務(wù)。目前人工提取的代價(jià)太大,因此自動(dòng)獲取是目前重點(diǎn)研究方向,也是將來構(gòu)建知識(shí)圖譜的趨勢(shì)。醫(yī)學(xué)領(lǐng)域的實(shí)體抽取是從醫(yī)學(xué)數(shù)據(jù)源中提取出來特定類型的命名實(shí)體,將醫(yī)學(xué)實(shí)體的抽取方法分為以下三類:
該方法通過人工定義規(guī)則和模式匹配生成詞典,Wu等[30]基于醫(yī)學(xué)詞典從醫(yī)學(xué)領(lǐng)域的無結(jié)構(gòu)化數(shù)據(jù)中提取醫(yī)療實(shí)體。優(yōu)點(diǎn)是足夠簡(jiǎn)單,計(jì)算復(fù)雜度低,且不需要人工標(biāo)注數(shù)據(jù);但缺點(diǎn)也較明顯,首先目前沒有完整的中醫(yī)詞典囊括所有的命名實(shí)體,所以簡(jiǎn)單的文本匹配是不足以應(yīng)對(duì)實(shí)體識(shí)別;其次過分依賴專家編寫的詞典和規(guī)則,在通用性和擴(kuò)展性方面表現(xiàn)較差。因此,該方法只能適用于某些特定的場(chǎng)景下,很難應(yīng)用到大規(guī)模醫(yī)療數(shù)據(jù)中。
該方法通過使用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法,集合醫(yī)學(xué)數(shù)據(jù)源的特點(diǎn)訓(xùn)練模型進(jìn)行實(shí)體識(shí)別。目前常用的方法有支持向量機(jī)模型(SVM)、隱馬爾可夫模型(HMM)、條件隨機(jī)場(chǎng)模型(CRF)等。王世昆等[31]基于CRF對(duì)明清古醫(yī)案中癥狀、病機(jī)進(jìn)行自動(dòng)識(shí)別,不需要醫(yī)學(xué)詞典就能取得較滿意的結(jié)果,并且具有不錯(cuò)的穩(wěn)定性。然而該方法需要人工定義特征模板,并且某些模板具有較大的局限性,這就會(huì)限制模型的泛化能力。
近年來,深度學(xué)習(xí)方法被成功應(yīng)用于實(shí)體抽取任務(wù)中,能夠自動(dòng)學(xué)習(xí)有效特征,無需人工定義的特征模板。常見的實(shí)體抽取神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。基于深度學(xué)習(xí)的抽取需要大量的標(biāo)注樣本,而人工標(biāo)注費(fèi)時(shí)費(fèi)力,因此有研究學(xué)者提出了遠(yuǎn)程監(jiān)督[32]的思想。這種思想類比兩個(gè)現(xiàn)實(shí)世界的實(shí)體在某種程度上具有關(guān)聯(lián),則只要某句子含該實(shí)體對(duì),它就會(huì)被自動(dòng)標(biāo)注為知識(shí)庫中所對(duì)應(yīng)的實(shí)體。遠(yuǎn)程監(jiān)督一定程度上不僅免除了繁瑣的人工標(biāo)記,還可以有效地針對(duì)大規(guī)模數(shù)據(jù)進(jìn)行處理,但遠(yuǎn)程監(jiān)督也引入了數(shù)據(jù)噪聲問題,使得模型訓(xùn)練效果可能受到一定程度的影響。為了緩解遠(yuǎn)程監(jiān)督帶來的數(shù)據(jù)噪聲問題,研究學(xué)者提出多實(shí)例學(xué)習(xí)[33](Multi-Instance Learning)的方法,它將包含相同實(shí)體對(duì)的句子放置在同一個(gè)包(Bag)內(nèi),用包級(jí)數(shù)據(jù)取代原來的句子級(jí)別數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。還有研究學(xué)者把遠(yuǎn)程監(jiān)督思想與多實(shí)例學(xué)習(xí)方法相結(jié)合[33],采用At-Least-One的多實(shí)例學(xué)習(xí)機(jī)制,每次從包中選取最大概率的句子進(jìn)行訓(xùn)練,該機(jī)制的應(yīng)用使得模型取得較好的預(yù)測(cè)效果。Wang[34]將基于詞典和深度學(xué)習(xí)方法結(jié)合,應(yīng)用于中文電子病例進(jìn)行命名實(shí)體識(shí)別,結(jié)果達(dá)到了最優(yōu)水平。趙立鵬[35]研究中醫(yī)文本實(shí)體識(shí)別的方法,采用了雙向長短記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)相結(jié)合的模型來實(shí)現(xiàn)對(duì)中醫(yī)文本實(shí)體對(duì)的識(shí)別。綜合近幾年相關(guān)文獻(xiàn)研究來看,基于深度學(xué)習(xí)的實(shí)體抽取模型經(jīng)過不斷優(yōu)化在中醫(yī)領(lǐng)域?qū)嶓w抽取上表現(xiàn)出了更好的預(yù)測(cè)性以及更為廣泛的適用性。
值得注意的是上述方法都是面向句子級(jí)別的實(shí)體識(shí)別和關(guān)系抽取,而中文醫(yī)療領(lǐng)域的文本往往是以篇章形式存在,因此本文后續(xù)將探索更好的句子切分方法,使得模型在文檔級(jí)醫(yī)療識(shí)別任務(wù)重取得更好的效果。
本文提出了研究與醫(yī)學(xué)任務(wù)配對(duì)的醫(yī)學(xué)知識(shí)圖譜,即用知識(shí)圖譜表示醫(yī)學(xué)文本,這是中醫(yī)藥信息研究的重要方向之一,是通往魯棒性可解釋性人工智能的必由之路,是“互聯(lián)網(wǎng)+醫(yī)學(xué)”的雙向驅(qū)動(dòng)意義所在。我們通過知識(shí)圖譜可以更加行之有效地對(duì)這些臨床病例歸納與總結(jié),養(yǎng)成理論聯(lián)系實(shí)際的臨床思維模式,構(gòu)建出臨床可用、理論適用的路徑體系,從而更好地應(yīng)用到實(shí)際工作中,為祖國醫(yī)學(xué)的傳承與發(fā)展貢獻(xiàn)微薄之力。目前知識(shí)圖譜主要應(yīng)用于中醫(yī)證候分析、計(jì)算機(jī)輔助治療等階段,而有關(guān)中醫(yī)醫(yī)案挖掘與分析研究較少,且不論是數(shù)據(jù)還是技術(shù)上都存在著一些不足。
(1)在數(shù)據(jù)層面上,醫(yī)案數(shù)據(jù)利用率不高。隨著醫(yī)療信息化水平的提高,雖然已經(jīng)積累了大量的醫(yī)案,但數(shù)據(jù)停留在淺層面無法推進(jìn)。中醫(yī)醫(yī)學(xué)詞典和知識(shí)庫較少,增加了學(xué)者研究醫(yī)學(xué)知識(shí)圖譜的成本和難度。此外,由于中醫(yī)醫(yī)案尚未統(tǒng)一、保持著多樣化特點(diǎn),對(duì)于醫(yī)案術(shù)語、計(jì)量單位等未作明確要求,同一實(shí)體有多種表達(dá)形式,為醫(yī)學(xué)實(shí)體消歧帶來困難,也難以適應(yīng)信息時(shí)代的要求。
(2)在技術(shù)層面上,中文醫(yī)療文本工具相對(duì)缺乏,醫(yī)案數(shù)據(jù)大多基于非結(jié)構(gòu)化或半結(jié)構(gòu)化為主,需要利用自然語言進(jìn)行處理。但大量的中醫(yī)專業(yè)術(shù)語,縮略語等增加了知識(shí)抽取的難度。同時(shí),知識(shí)圖譜的構(gòu)建匯集了理、工、醫(yī)等多學(xué)科知識(shí),且圍繞著大數(shù)據(jù)與人工智能、科學(xué)與工程計(jì)算等重大戰(zhàn)略的關(guān)鍵技術(shù)問題展開研究,對(duì)研究人員各方面能力有較高的要求。
為解決現(xiàn)存問題,我們需要進(jìn)行多學(xué)科交叉融合研究,大力培養(yǎng)兼具計(jì)算機(jī)和中醫(yī)知識(shí)儲(chǔ)備的復(fù)合型人才。同時(shí),專業(yè)機(jī)構(gòu)應(yīng)加強(qiáng)中文專業(yè)術(shù)語詞典和知識(shí)庫的構(gòu)建,為醫(yī)學(xué)領(lǐng)域提供更多規(guī)范化的詞典和知識(shí)庫。人工智能作為數(shù)據(jù)時(shí)代的研究熱點(diǎn),據(jù)此產(chǎn)生的新技術(shù)新工具不斷涌現(xiàn),今后可利用人工智能相關(guān)技術(shù)建立更加適合中醫(yī)領(lǐng)域的有效模型及算法,為中醫(yī)學(xué)理論體系發(fā)展提供支撐,為探索中醫(yī)發(fā)展提供新思路。