鄭宇辰,段旭博,楊 威
(貴州大學(xué)醫(yī)學(xué)院,貴州 貴陽 550025)
阻生智齒主要是由于人類的進(jìn)化,骨量小于牙量,受鄰牙、骨或軟組織的阻礙而只能部分萌出或完全不能萌出的第三磨牙。阻生智齒發(fā)病率很高[1],且其危害很大,一般進(jìn)行拔除治療。由于阻生智齒位于口腔后部,手術(shù)空間窄、視野小,且形態(tài)多樣、并發(fā)癥多,所以阻生智齒的拔除多數(shù)為復(fù)雜牙拔除術(shù)[2]。
目前,諸多學(xué)者對(duì)阻生智齒的研究主要針對(duì)拔除的臨床效果及術(shù)后并發(fā)癥的防治和用藥,通過不斷改進(jìn)手術(shù)方案和術(shù)后護(hù)理方式,減小治療損傷。大多數(shù)研究方法為人工總結(jié),通過對(duì)一段時(shí)間內(nèi)阻生智齒拔除發(fā)生嚴(yán)重并發(fā)癥的病例進(jìn)行回顧分析,總結(jié)經(jīng)驗(yàn)、應(yīng)用到臨床,缺乏全面性,無法系統(tǒng)性地針對(duì)不同病例研究預(yù)防及處理的可靠方法[3]。
Google 公司在2012 年提出知識(shí)圖譜(Knowledge Graph)[4]這一概念,它已經(jīng)成為大數(shù)據(jù)時(shí)代最為重要的知識(shí)表示形式。典型的通用知識(shí)圖譜有DBpedia[5]、YAGO[6]、CN-Probase[7]等,這些大規(guī)模知識(shí)圖譜廣泛抽取信息,包含上億條實(shí)體屬性,涵蓋面巨大,信息資源豐富,但也存在無法全面完整地描述某些復(fù)雜領(lǐng)域知識(shí)的缺陷,繼而產(chǎn)生領(lǐng)域知識(shí)圖譜。醫(yī)學(xué)領(lǐng)域是知識(shí)圖譜應(yīng)用最廣泛的垂直領(lǐng)域之一,通過對(duì)海量、異構(gòu)的醫(yī)學(xué)數(shù)據(jù)進(jìn)行高效管理,為以知識(shí)圖譜為基礎(chǔ)的醫(yī)學(xué)領(lǐng)域應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。目前知名的醫(yī)學(xué)知識(shí)圖譜有SNOMED-CT[8]、中醫(yī)藥知識(shí)圖譜[9]、中文醫(yī)學(xué)知識(shí)圖譜CMeKG[10]等,這些醫(yī)學(xué)知識(shí)圖譜的信息涵蓋面廣,但也存在對(duì)于某一復(fù)雜病種描述不全面的問題。
本文利用自然語言處理技術(shù),基于知識(shí)圖譜關(guān)系表達(dá)能力強(qiáng)、可以進(jìn)行知識(shí)學(xué)習(xí)等優(yōu)勢(shì),將知識(shí)圖譜技術(shù)應(yīng)用到阻生智齒領(lǐng)域中,構(gòu)建阻生智齒知識(shí)圖譜,涵蓋阻生智齒相關(guān)知識(shí)及拔除實(shí)例,幫助大眾全面了解阻生智齒。系統(tǒng)地總結(jié)各類阻生智齒病例,可提供一個(gè)阻生智齒數(shù)據(jù)庫供研究者使用。
本文采用多源語料文本信息構(gòu)建知識(shí)圖譜,采用部分標(biāo)注部分自動(dòng)提取的方式訓(xùn)練模型進(jìn)行實(shí)體抽取,為構(gòu)建阻生智齒知識(shí)圖譜做準(zhǔn)備。首先準(zhǔn)備標(biāo)注語料,內(nèi)容如圖1所示。
圖1 阻生智齒知識(shí)圖譜的結(jié)構(gòu)
1.1.1 標(biāo)注格式
本文采用BMES 的標(biāo)注方式進(jìn)行實(shí)體標(biāo)注,格式如圖2 所示,“B”為所需標(biāo)注實(shí)體的開頭,“M”為實(shí)體的中間部分,“E”表示實(shí)體的結(jié)尾,“S”表示由單獨(dú)一個(gè)字表示的實(shí)體,其余文本采用“O”來標(biāo)注。
1.1.2 文本語料
本文所用的語料取自三個(gè)部分:其一是《口腔科常見病用藥指南》[11],其針對(duì)各種口腔科常見疾病重點(diǎn)對(duì)治療用藥進(jìn)行了系統(tǒng)、詳細(xì)的闡述,其中部分章節(jié)介紹了阻生智齒手術(shù)所涉及到的藥物。我們從中提取藥物名稱、類型、成分、用途、禁忌、劑量及規(guī)格七個(gè)實(shí)體,標(biāo)注得到藥物數(shù)據(jù)集。其二是《下頜阻生智齒(第2 版)》[12],其對(duì)下頜阻生智齒拔除方法及并發(fā)癥防治進(jìn)行了總結(jié)與探討。我們從中提取阻生類型、臨床表現(xiàn)及手術(shù)方法三種實(shí)體,標(biāo)注得到阻生智齒類型數(shù)據(jù)集。其三是阻生智齒臨床語料,它是根據(jù)貴陽市口腔醫(yī)院真實(shí)的阻生智齒拔除手術(shù)病歷、患者檢查報(bào)告單及CBCT 圖像信息,整理出來的臨床病歷語料。根據(jù)臨床醫(yī)生的經(jīng)驗(yàn)與意見,提取出矢狀位阻生類型、水平位阻生類型、癥狀、年齡、既往史、檢查項(xiàng)目、治療方案、藥物、牙根形態(tài)及牙根角度十種實(shí)體,標(biāo)注得到阻生智齒臨床數(shù)據(jù)集。
知識(shí)圖譜需要大量的數(shù)據(jù)信息進(jìn)行支撐,實(shí)現(xiàn)實(shí)體的自動(dòng)抽取是本文構(gòu)建知識(shí)圖譜重要步驟之一。本文基于上述獲得的部分標(biāo)注語料,選取合適的實(shí)體抽取模型,實(shí)現(xiàn)自動(dòng)抽取。由于模型的多樣性,本文首先在語料上應(yīng)用部分經(jīng)典模型進(jìn)行實(shí)驗(yàn),選取出性能最優(yōu)的模型。
1.2.1 HMM模型[13]
隱馬爾可夫模型(HMM)是一種用于描述隨機(jī)過程統(tǒng)計(jì)特性的概率模型,包括隱狀態(tài)和顯狀態(tài),利用HMM 模型能夠從可以觀測(cè)到的顯狀態(tài)序列計(jì)算出可能性最大的隱狀態(tài)序列。
1.2.2 BERT模型[14]
BERT 模型是一個(gè)預(yù)訓(xùn)練的語言表征模型,它經(jīng)過多個(gè)Transformer 結(jié)構(gòu)的堆疊,形成了自己的核心結(jié)構(gòu),如圖3 所示。利用BERT 預(yù)訓(xùn)練模型,只需要在模型后增加一個(gè)輸出層進(jìn)行微調(diào)操作,就可以對(duì)接下游各種自然語言處理任務(wù)。
圖3 BERT核心結(jié)構(gòu)
1.2.3 BiLSTM模型[15]
LSTM(Long Short-Term Memory)是RNN 的一種改進(jìn)模型,它可以捕捉到較長(zhǎng)距離的依賴關(guān)系,記住長(zhǎng)期的信息以在NLP 任務(wù)中建模上下文信息,結(jié)構(gòu)如圖4 所示。而它存在一個(gè)缺陷,即無法編碼從后到前的信息。為了解決這一問題,我們通過將向前的LSTM 和向后的LSTM 結(jié)合成Bi-LSTM,可以更好地捕捉到雙向的語義依賴。
圖4 LSTM核心結(jié)構(gòu)
1.2.4 CRF模型[16]
條件隨機(jī)場(chǎng)(CRF)是一種序列標(biāo)注模型,它能夠充分考慮輸出標(biāo)簽之間的關(guān)系,可以有效建模最終預(yù)測(cè)標(biāo)簽之間的序列關(guān)系,讓預(yù)測(cè)結(jié)果更加準(zhǔn)確合理。
采用評(píng)測(cè)指標(biāo)F1-Score 對(duì)訓(xùn)練測(cè)試的結(jié)果進(jìn)行評(píng)價(jià),F(xiàn)1-score 是使用調(diào)和平均結(jié)合召回率和精度的指標(biāo),計(jì)算公式為:
其中,P 表示精度(Precision),描述被分為正例的樣本中實(shí)際為正例的比例;R 表示召回率(Recall),描述有多少個(gè)正例被分為正例。
將數(shù)據(jù)按照6:2:2的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,在訓(xùn)練參數(shù)一致的條件下,分別在三個(gè)標(biāo)注語料上進(jìn)行模型的訓(xùn)練與測(cè)試,結(jié)果如表1所示。
表1 模型在不同語料上的訓(xùn)練結(jié)果F1-score對(duì)比
在三個(gè)數(shù)據(jù)集上,HMM 模型的綜合F1-score 分別為0.6308、0.7085 和0.9445;BiLSTM 模型的綜合F1-score 分別為0.7800、0.7950 和0.9566,比HMM 模型分別提高了0.1492、0.0865 和0.0121;BiLSTM-CRF模型的綜合F1-score 分別為0.8036、0.7969 和0.9810,比前者分別提高了0.0236、0.0019 和0.0244;最后在此基礎(chǔ)上增加BERT預(yù)訓(xùn)練中文模型,F(xiàn)1-score又得到了進(jìn)一步提升,具體值分別為0.9164、0.9797 和0.9829,比前者提高了0.1128、0.1738 和0.0019。由此可以得出,BERT-BiLSTM-CRF 模型在三個(gè)不同的數(shù)據(jù)集上都取得了優(yōu)異的性能,可以在本次實(shí)體抽取任務(wù)中取得很好的表現(xiàn)。因此,我們選用BERT-BiLSTM-CRF模型進(jìn)行本次構(gòu)建阻生智齒知識(shí)圖譜中的實(shí)體抽取。
基于上述構(gòu)建的三個(gè)數(shù)據(jù)集,由口腔醫(yī)學(xué)領(lǐng)域有豐富經(jīng)驗(yàn)的臨床醫(yī)生進(jìn)行指導(dǎo),定義實(shí)體間的關(guān)系,最終得出圖5中所示的實(shí)體間關(guān)系。
圖5 實(shí)體間關(guān)系圖
獲得實(shí)體集合和關(guān)系集合后,進(jìn)行知識(shí)圖譜的構(gòu)建,得到阻生智齒知識(shí)圖譜的三個(gè)部分:阻生智齒類型部分,阻生智齒藥物部分,阻生智齒臨床實(shí)例部分。最后將三個(gè)部分進(jìn)行整合,形成一個(gè)完整的阻生智齒知識(shí)圖譜。
本文采用Neo4j 圖形數(shù)據(jù)庫,對(duì)知識(shí)圖譜進(jìn)行可視化展示,圖譜展示如圖6所示。
圖6 阻生智齒知識(shí)圖譜可視化展示
阻生智齒類型部分?jǐn)?shù)據(jù)基于《下頜阻生智齒(第二版)》,具有年代的局限性,對(duì)實(shí)際臨床操作應(yīng)用參考性不大,但其內(nèi)容是作者將國(guó)內(nèi)外常見分類法與實(shí)際臨床拔牙方法結(jié)合得到的,在當(dāng)時(shí)可供醫(yī)生在醫(yī)療、教學(xué)、科研工作中參考,具有權(quán)威性。本文選擇這部分文本加入知識(shí)圖譜,旨在幫助非專業(yè)醫(yī)療人員了解阻生智齒,具有一定的科普作用。在后續(xù)完善知識(shí)圖譜的工作中,可以納入更多阻生智齒領(lǐng)域的權(quán)威性書籍,提高其全面性。阻生智齒手術(shù)用藥部分基于《口腔科常見病用藥指南》,是華西口腔醫(yī)學(xué)院的醫(yī)生長(zhǎng)期的臨床經(jīng)驗(yàn)總結(jié),具有權(quán)威性和應(yīng)用性。對(duì)于不斷出現(xiàn)的新型藥物,知識(shí)圖譜也能夠及時(shí)補(bǔ)充。阻生智齒手術(shù)實(shí)例部分源于貴陽市口腔醫(yī)院采集到的真實(shí)病例語料,其中對(duì)各實(shí)體的分類定義來自臨床醫(yī)生的經(jīng)驗(yàn)總結(jié),將國(guó)際認(rèn)定的阻生智齒分類標(biāo)準(zhǔn)結(jié)合臨床手術(shù)應(yīng)用,提出新的分類標(biāo)準(zhǔn),同時(shí)結(jié)合患者的檢查報(bào)告及CBCT 圖像,致力于將阻生智齒的手術(shù)方案標(biāo)準(zhǔn)化、規(guī)范化,提高手術(shù)過程的可解釋性。此部分還未進(jìn)行臨床驗(yàn)證,處于探索階段,但對(duì)于后續(xù)阻生智齒的研究具有深遠(yuǎn)意義。
在后續(xù)工作中,我們將基于構(gòu)建的知識(shí)圖譜實(shí)現(xiàn)添加數(shù)據(jù)的功能,可以滿足全國(guó)的專業(yè)醫(yī)療人員在此平臺(tái)上增加阻生智齒手術(shù)實(shí)例,實(shí)時(shí)分享各種復(fù)雜病例,系統(tǒng)管理數(shù)據(jù),為學(xué)者研究阻生智齒提高收集數(shù)據(jù)的效率。
本文將知識(shí)圖譜相關(guān)技術(shù)應(yīng)用到口腔醫(yī)學(xué)領(lǐng)域,選擇BERT-BiLSTM-CRF模型對(duì)文本進(jìn)行實(shí)體抽取,建立阻生智齒知識(shí)圖譜,包含分類、癥狀、手術(shù)方案、用藥等阻生智齒相關(guān)知識(shí),我們首次系統(tǒng)性地整合阻生智齒領(lǐng)域的信息,希望為后續(xù)建立阻生智齒研究平臺(tái)打下基礎(chǔ)。然而,該知識(shí)圖譜的構(gòu)建還處于起步階段,存儲(chǔ)的信息還不全面,需要繼續(xù)深入研究,豐富數(shù)據(jù)信息,朝著提高阻生智齒知識(shí)圖譜權(quán)威性、系統(tǒng)性、全面性、高質(zhì)量性的方向不斷努力。