田馳遠(yuǎn) 陳德華 王 梅 樂嘉錦
(東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 201620)(chiyuantian@163.com)
?
基于依存句法分析的病理報(bào)告結(jié)構(gòu)化處理方法
田馳遠(yuǎn) 陳德華 王 梅 樂嘉錦
(東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 201620)(chiyuantian@163.com)
病理檢查報(bào)告中的文本通常為非結(jié)構(gòu)化數(shù)據(jù),不利于計(jì)算機(jī)自動(dòng)分析和處理.目前文本結(jié)構(gòu)化主要采用信息關(guān)系抽取方法,然而病理檢查報(bào)告所具有的語義特殊性,給中文信息關(guān)系抽取帶來了挑戰(zhàn).為解決上述問題,設(shè)計(jì)了一種針對病理檢查報(bào)告的結(jié)構(gòu)化方法,首先通過神經(jīng)網(wǎng)絡(luò)語言模型獲得病理報(bào)告中的同義詞表,合并一義多詞現(xiàn)象;在此基礎(chǔ)上,生成病理檢查報(bào)告文本的依存關(guān)系樹,并提出切分短句和信息標(biāo)注的剪裁策略,以簡化初始生成的依存關(guān)系樹結(jié)構(gòu),從而使語法關(guān)系更加清晰,提高結(jié)構(gòu)化結(jié)果的準(zhǔn)確度;進(jìn)而,利用依存句法分析結(jié)果從中文檢查報(bào)告中提取指標(biāo)及對應(yīng)指標(biāo)值,并自動(dòng)生成結(jié)構(gòu)化模板.實(shí)驗(yàn)采用醫(yī)生真實(shí)使用的醫(yī)療病理檢查報(bào)告進(jìn)行驗(yàn)證,其結(jié)果表明:該方法在指標(biāo)詞和對應(yīng)指標(biāo)值提取任務(wù)中的準(zhǔn)確率可以分別達(dá)到82.91%和79.11%,為相關(guān)研究打下了基礎(chǔ).
醫(yī)療數(shù)據(jù);病理報(bào)告;依存句法分析;文本結(jié)構(gòu)化處理;神經(jīng)網(wǎng)絡(luò)語言模型
隨著信息化建設(shè)的快速發(fā)展,目前我國醫(yī)療數(shù)據(jù)急速增長,積累了大量電子臨床數(shù)據(jù)資源,為醫(yī)療大數(shù)據(jù)的分析和挖掘提供了基礎(chǔ).然而當(dāng)前醫(yī)療文檔大多是以自然語言描述的非結(jié)構(gòu)化文本,由于自然語言與機(jī)器語言之間存在巨大鴻溝,導(dǎo)致用計(jì)算機(jī)直接處理和分析非結(jié)構(gòu)化文本的效率較低,也影響了分析結(jié)果的質(zhì)量.為了能有效利用現(xiàn)有技術(shù)成熟的分析工具對醫(yī)療文檔進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘,從而提高醫(yī)療數(shù)據(jù)價(jià)值,對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化就成為了該領(lǐng)域?qū)W者關(guān)注的重點(diǎn).
病理檢查報(bào)告是診斷病理學(xué)中的重要臨床文檔,醫(yī)生將活檢樣本送往病理科檢查,然后憑借自身經(jīng)驗(yàn)對檢查結(jié)果作出判斷并將影像描述、臨床診斷、診斷意見等內(nèi)容以自然語言形式記錄在報(bào)告中.這些文檔包含的信息往往是臨床醫(yī)生進(jìn)行疾病診斷的重要依據(jù),也決定了病人將要接受的治療方案.檢查報(bào)告的結(jié)構(gòu)化目標(biāo)是發(fā)現(xiàn)其中包含的關(guān)鍵指標(biāo)key,以及對應(yīng)指標(biāo)值value,最終形成key-value形式的結(jié)構(gòu)化模板.表1給出了甲狀腺超聲檢查報(bào)告中的1個(gè)實(shí)例,其結(jié)構(gòu)化結(jié)果由13個(gè)key-value形式的二元組組成,其中諸如甲狀腺大小、形態(tài)、邊界等關(guān)鍵指標(biāo)及其對應(yīng)指標(biāo)值是病理診斷的關(guān)鍵內(nèi)容.從上例可以看出,將甲狀腺超聲檢查報(bào)告中的所有描述轉(zhuǎn)化成結(jié)構(gòu)化模板,可保留報(bào)告中的核心信息,并建立簡明規(guī)整的結(jié)構(gòu),方便讀取和查詢,同時(shí)也有利于借助R軟件或SPSS(statistical product and service solutions)軟件等現(xiàn)有數(shù)據(jù)挖掘工具對結(jié)構(gòu)化指標(biāo)與診斷結(jié)果進(jìn)行關(guān)聯(lián)分析,挖掘出大量與患者密切相關(guān)的醫(yī)療知識,從而輔助醫(yī)生進(jìn)行診斷.
Table 1 Example of Structured Thyroid Ultrasound Report
目前,在非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域已存在大量的研究工作,如自動(dòng)問答系統(tǒng)[1]、關(guān)鍵詞抽取[2]和自動(dòng)摘要[3]等,而針對中文醫(yī)學(xué)自然語言處理的研究相對較少,主要研究方向集中于實(shí)體識別和信息抽取,其研究對象往往是結(jié)構(gòu)化或半結(jié)構(gòu)化文本,于是如何對文本進(jìn)行結(jié)構(gòu)化便成了關(guān)鍵步驟.目前文本結(jié)構(gòu)化技術(shù)大多采用基于規(guī)則的處理方式,但由于醫(yī)療文本中不同組織器官所具有的屬性不同,且描述不同病種所使用的指標(biāo)詞也不同,又由于基于規(guī)則結(jié)構(gòu)化方法的可擴(kuò)展性較差,所以若想制定出一種適用所有病理檢查報(bào)告的結(jié)構(gòu)化規(guī)則十分困難.除了上述基于規(guī)則結(jié)構(gòu)化方法外,還可以通過句法語義特征和詞性特征識別語義,從而進(jìn)行實(shí)體關(guān)系抽取和結(jié)構(gòu)化處理,有效減少人工閱讀工作量.Socher等人[4]提出了一種基于依存關(guān)系樹識別語義的方法,利用循環(huán)神經(jīng)網(wǎng)絡(luò)將句子成分抽象為語序和句法信息,從而得到句子的語義信息.但是病理檢查報(bào)告在語義特征上具有其特殊性,醫(yī)生通常采用名詞、形容詞或名詞性短語對指標(biāo)進(jìn)行描述,句中的謂語往往不以動(dòng)詞形式出現(xiàn).而傳統(tǒng)的依存句法分析方法以動(dòng)詞作為核心詞支配其他句子成分,可見現(xiàn)有句法分析方法對于病理檢查報(bào)告的結(jié)構(gòu)化并不適用.
針對上述問題,本文在傳統(tǒng)句法分析和信息關(guān)系抽取技術(shù)的基礎(chǔ)上,根據(jù)醫(yī)療病理檢查報(bào)告特有的語法特征,提出了一種基于依存句法分析的醫(yī)療指標(biāo)結(jié)構(gòu)化方法,從病理檢查報(bào)告中抽取某一器官組織或病癥的屬性描述,隨后生成依存關(guān)系樹并按照句子的語義特征形成key-value形式的結(jié)構(gòu)化數(shù)據(jù).實(shí)驗(yàn)表明:本文提出的結(jié)構(gòu)化方法能夠較好地針對不同組織器官的檢查報(bào)告,指標(biāo)詞及對應(yīng)指標(biāo)值提取的準(zhǔn)確率分別可達(dá)82.91%和79.11%,接近基于規(guī)則方法.
早期對于文本關(guān)鍵信息抽取的研究大多采用基于啟發(fā)式規(guī)則方法,其優(yōu)勢在于實(shí)現(xiàn)簡單且準(zhǔn)確率高,但獲取規(guī)則是一個(gè)非常復(fù)雜的過程,且完全依賴開發(fā)人員的知識和經(jīng)驗(yàn),若要提高分析結(jié)果的質(zhì)量,必須增加人工閱讀量,且其健壯性和可移植性較差,若文檔結(jié)構(gòu)不適合當(dāng)前啟發(fā)式規(guī)則,就不得不對已有規(guī)則進(jìn)行修改.在語料庫構(gòu)建技術(shù)越發(fā)成熟后,人們開始采用基于統(tǒng)計(jì)的句法分析方式,該方法采用統(tǒng)計(jì)學(xué)的處理技術(shù)從大規(guī)模語料庫中獲取語言分析所需的知識,能在減少人工規(guī)則制定的同時(shí)盡可能使語言接近真實(shí)規(guī)律[5].依存文法是由法國語言學(xué)家Tesnière[6]于1959年提出的一種信息抽取方法,通過分析詞語之間的依存關(guān)系揭示其句法結(jié)構(gòu),并主張句子中核心動(dòng)詞是支配其他詞語的中心成分,而它本身卻不受其他任何詞語的支配,所有受支配詞語都以某種依存關(guān)系從屬于支配詞.依存關(guān)系反映的是句中詞語的語義修飾關(guān)系,它可以無視句中詞的位置關(guān)系,獲取長距離搭配的信息[7].
在針對非結(jié)構(gòu)化中文自然語言的信息抽取研究中,其主要研究對象是命名實(shí)體之間的關(guān)系抽取,郭喜躍等人[8]提出了一種基于句法特征、語義特征的實(shí)體關(guān)系抽取方法,融入了依存句法關(guān)系、核心謂詞、語義角色標(biāo)注等特征,實(shí)驗(yàn)結(jié)果表明該方法的F1值與傳統(tǒng)方法相比有明顯提升;甘麗新等人[9]提出了一種基于句法語義特征的實(shí)體關(guān)系抽取方法,將2個(gè)實(shí)體各自的依存句法關(guān)系組合,獲取依存句法關(guān)系組合特征,并利用依存句法分析和詞性標(biāo)注獲取最近句法依賴動(dòng)詞特征;Li等人[10]提出了一種基于位置語義特征的實(shí)體關(guān)系抽取方法,利用位置特征的可計(jì)算性與可操作性以及語義特征的可理解性,將詞語位置信息增益與基于HowNet語義計(jì)算結(jié)果整合在一起;在醫(yī)療領(lǐng)域也存在信息關(guān)系抽取方面的相關(guān)研究,Uzuner等人[11]以句子為單位識別電子病歷實(shí)體關(guān)系,并訓(xùn)練了6個(gè)支持向量機(jī)分類器實(shí)現(xiàn)疾病、癥狀、檢查和治療之間的關(guān)系識別,其結(jié)果表明詞匯特征在關(guān)系識別中發(fā)揮了重要作用;Chen等人[12]從醫(yī)學(xué)文獻(xiàn)和電子病歷中分析疾病和藥品實(shí)體的共現(xiàn)來發(fā)現(xiàn)二者間的關(guān)聯(lián)關(guān)系,獲取疾病和藥品的潛在醫(yī)療知識.上述關(guān)系抽取的結(jié)果一般以二元組或三元組的形式出現(xiàn),這種鍵值對的表示形式與本文所要提取的指標(biāo)詞及指標(biāo)值模板相似,然而上述方法主要關(guān)注醫(yī)療領(lǐng)域特定實(shí)體如疾病、治療等之間關(guān)聯(lián)關(guān)系的知識發(fā)現(xiàn),針對適用于不同病理檢查報(bào)告的通用、自動(dòng)的結(jié)構(gòu)化方法目前研究較為少見.
文本標(biāo)注方法在圖像檢索領(lǐng)域中已得到廣泛使用,Tariq等人[16]通過抽取圖像所在網(wǎng)頁中的文本信息對圖像添加標(biāo)注,并將文本檢索與圖像檢索相結(jié)合,有效提高了圖像檢索的效率和準(zhǔn)確性.近年來,文本標(biāo)注方法也逐漸應(yīng)用于自然語言處理方面,而且對于提高計(jì)算機(jī)處理自然語言的準(zhǔn)確率起到了很大作用;Araki等人[17]提出了基于詞袋相似模型的文本標(biāo)注方法,并將其用于自動(dòng)問答系統(tǒng)中的文本檢索,對于提高文本排序準(zhǔn)確度起到關(guān)鍵作用.
本文提出了一種基于依存句法分析的病理檢查報(bào)告結(jié)構(gòu)化方法,具體流程如下:1)針對病理報(bào)告中頻繁出現(xiàn)的同一指標(biāo)多種描述情況進(jìn)行預(yù)處理,利用神經(jīng)網(wǎng)絡(luò)模型求出詞向量,在此基礎(chǔ)上計(jì)算余弦相似度找出同義詞,規(guī)范病理檢查報(bào)告的文本表述,同時(shí)切分短句并引入詞語信息標(biāo)注方法簡化句子結(jié)構(gòu),降低依存關(guān)系樹的高度,從而使語法關(guān)系更加清晰,提高結(jié)構(gòu)化結(jié)果的準(zhǔn)確度;2)利用依存句法分析得到每個(gè)短句的依存關(guān)系樹,利用所得語義特征和詞性特征提取指標(biāo)及對應(yīng)指標(biāo)值,便可將非結(jié)構(gòu)化文本轉(zhuǎn)化成key-value形式的結(jié)構(gòu)化模板;3)將標(biāo)注信息還原,同時(shí)修正噪聲數(shù)據(jù).根據(jù)實(shí)現(xiàn)功能的不同,整個(gè)結(jié)構(gòu)化過程可以劃分成圖1所示的3個(gè)模塊:預(yù)處理模塊、結(jié)構(gòu)化模塊、后處理模塊.
Fig. 1 Structured processing procedure of pathological reports.圖1 病理檢查報(bào)告結(jié)構(gòu)化處理過程
2.1 預(yù)處理模塊
Fig. 2 Comparison between two different dependency trees expressing the same meaning.圖2 語義相同表述不同的依存關(guān)系樹對比
一義多詞在自然語言文本中是普遍現(xiàn)象,且在病理檢查報(bào)告中尤為突出,所以設(shè)置預(yù)處理模塊的主要作用是消除文本中的一義多詞現(xiàn)象.舉例來說,“甲狀腺左右葉大小正?!焙汀半p側(cè)甲狀腺大小未見異常”是甲狀腺超聲檢查報(bào)告中經(jīng)常出現(xiàn)的2種描述,所要表達(dá)的含義都是該病人2側(cè)甲狀腺的大小在正常范圍內(nèi),這2種表述的句法結(jié)構(gòu)分別如圖2所示(依存關(guān)系樹的概念將在4.1節(jié)中詳細(xì)介紹),前者用形容詞“正常”作為謂語描述甲狀腺的大小而后者采用動(dòng)賓短語“未見異?!北磉_(dá)了相同的意思.另外,在這組描述中用于表示位置信息的詞也不同,前者使用了“左右葉”而后者用了“雙側(cè)”.
由此可見,中文自然語言的復(fù)雜性導(dǎo)致了句法分析難度的增加,所以,針對這種情況,本文在進(jìn)行文本結(jié)構(gòu)化處理之前設(shè)計(jì)了預(yù)處理模塊,利用Word2vec工具訓(xùn)練得到詞向量后計(jì)算其余弦相似度,合并余弦值大于某個(gè)閾值的詞向量,從而消除一義多詞現(xiàn)象,規(guī)范病理檢查報(bào)告中的文字表述,提高結(jié)構(gòu)化模塊處理的準(zhǔn)確性.
此外,在消除一義多詞后,預(yù)處理模塊還需要對病理檢查報(bào)告中的句子結(jié)構(gòu)進(jìn)行了簡化,將長句切分成若干短句,同時(shí)為了避免在切分短句的過程中丟失語義信息,在預(yù)處理模塊中將對每個(gè)短句所描述的器官或組織等關(guān)鍵信息進(jìn)行標(biāo)注,在保留原始信息描述對象的同時(shí)也起到了本文4.2節(jié)中提到的簡化依存關(guān)系樹的作用.
2.2 結(jié)構(gòu)化模塊
關(guān)鍵指標(biāo)的自動(dòng)發(fā)掘和對應(yīng)指標(biāo)值的提取是病理檢查報(bào)告結(jié)構(gòu)化的關(guān)鍵步驟,也是整個(gè)結(jié)構(gòu)化過程的核心模塊,本文借助依存句法分析方法實(shí)現(xiàn)了針對病理檢查報(bào)告的結(jié)構(gòu)化模塊.依存句法分析是通過分析詞與詞之間的依存關(guān)系來揭示其句法結(jié)構(gòu),依存句法分析的結(jié)果可用簡潔的依存關(guān)系樹結(jié)構(gòu)表示,能夠直接反映詞與詞之間的支配和依賴關(guān)系,這種支配關(guān)系有利于檢測出指標(biāo)及對應(yīng)指標(biāo)值之間的關(guān)系.
結(jié)構(gòu)化模塊的輸入是經(jīng)過預(yù)處理后的病理檢查報(bào)告文本,隨后對所輸入的短句進(jìn)行依存句法分析,可以得到詞與詞之間的依存關(guān)系樹,通過句法分析和詞性分析獲取指標(biāo)詞key及對應(yīng)指標(biāo)值value,最終將自然語言描述的病理檢查報(bào)告轉(zhuǎn)化成key-value鍵值對形式的結(jié)構(gòu)化模板.
Fig. 3 Three-tier neural network architecture of Word2vec.圖3 Word2vec 3層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
2.3 后處理模塊
為了能夠進(jìn)一步優(yōu)化結(jié)構(gòu)化結(jié)果,所以在結(jié)構(gòu)化模塊之后設(shè)計(jì)了后處理模塊.當(dāng)結(jié)構(gòu)化結(jié)果輸入該模塊后,首先將模板中含有剪裁策略標(biāo)注的特殊字符還原為對應(yīng)的漢語表述;其次,借助停用詞詞典去除結(jié)果中的停用詞,規(guī)范結(jié)構(gòu)化模板的文字表述.此外,該模塊通過人工輔助審查的方式修正結(jié)果中包含的噪聲數(shù)據(jù),進(jìn)而分析出預(yù)處理和結(jié)構(gòu)化算法中存在的不足,既優(yōu)化了結(jié)構(gòu)化結(jié)果的質(zhì)量,也起到了優(yōu)化算法的作用,使本文的結(jié)構(gòu)化算法能夠適用于更廣泛的情況,提高了算法的可擴(kuò)展性.
本文借助Word2vec中的神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練病理檢查報(bào)告中高頻詞匯的詞向量,同時(shí)通過詞向量間的余弦相似度對詞向量進(jìn)行聚類,得到文本中的同義詞集,最終利用同義詞集合并病理報(bào)告中的同義表述,消除一義多詞現(xiàn)象.
3.1 詞向量訓(xùn)練
在訓(xùn)練詞向量之前,需要對原始文本進(jìn)行分詞操作.本文借助HanLP漢語語言處理工具[18]對病理檢查報(bào)告文本進(jìn)行分詞,其分詞模塊采用Aho-Corasick自動(dòng)機(jī)[19]結(jié)合雙數(shù)組Trie樹[20]的極速多模式匹配算法,其分詞速度可達(dá)到每秒1 400萬字.接著,將分詞結(jié)果輸入Word2vec工具訓(xùn)練得到病理檢查報(bào)告中所有高頻詞的詞向量.在生成詞向量的模塊中,Word2vec 采用Distributed representation方法,該方法最早是由Collobert等人[21]提出,其基本思想是利用“輸入層-隱含層-輸出層”結(jié)構(gòu)的3層神經(jīng)網(wǎng)絡(luò)模型將詞表征為k維實(shí)數(shù)向量.在早期的詞向量研究方法中,詞向量通常以O(shè)ne-hot repres-entation形式表示,在獲取包含文檔中所有詞的詞匯表后,每個(gè)詞向量的維度與詞匯表的大小相同,向量的分量由0或1表示,若某個(gè)詞在詞匯表中的位置為k,那么該詞向量第k維為1,其他維度為0.可見One-hot representation詞向量表示方法雖然簡單,但很容易造成數(shù)據(jù)稀疏與維數(shù)災(zāi)難,可擴(kuò)展性較差,也無法有效反映詞與詞之間的語義相關(guān)性.而Distributed representation方法則是利用神經(jīng)網(wǎng)絡(luò)將這些高維詞向量轉(zhuǎn)化成低維向量.
Word2vec中的3層神經(jīng)網(wǎng)絡(luò)如圖3所示,采用了層次化Log-Bilinear語言模型中的連續(xù)詞袋模型,其基本實(shí)現(xiàn)思想是根據(jù)上下文預(yù)測周邊單詞出現(xiàn)的概率.以預(yù)測詞wt出現(xiàn)概率為例,其計(jì)算公式如下:
p(wt|context)=p(wt-n,wt-n+1,…,wt-2,wt-1),
其中,詞wt的上下文context是取wt前n個(gè)詞,以O(shè)ne-hot representation方式表示成詞向量,并組合成|V|×n的矩陣C,其中V是文本所有詞的集合,|V|是該集合的大小.
將矩陣C中的每個(gè)行向量C(wt-n),C(wt-n+1),…,C(wt-1)作為輸入層結(jié)點(diǎn),并將其首尾接拼,形成n×n維的向量記為x傳入隱含層.在隱含層以tanh作為激活函數(shù),得到1個(gè)|V|×1的向量y,y中的每個(gè)元素yi表示下一個(gè)詞wi的未歸一化概率.最后使用函數(shù)softmax對向量y進(jìn)行歸一化,最終得到向量y′,其計(jì)算公式如下:
y′=b+Wx+Utanh(d+Hx),
其中,輸入向量x為上下文語境對應(yīng)詞向量的拼接向量;矩陣W用于表示輸出層和輸入層是否存在聯(lián)系,通常為零矩陣即沒有直接聯(lián)系;矩陣U表示從隱含層到輸出層各詞的權(quán)重;H為輸入層到隱含層的權(quán)重矩陣;b為隱含層到輸出層的偏置向量;d是輸入層到隱含層的偏置向量.容易看出,本文方法通過語言模型建模,并且利用了上下文信息進(jìn)而獲得向量空間中的詞向量表示,使語義信息更加豐富.
3.2 余弦相似度
一般而言,若詞向量訓(xùn)練算法選取得當(dāng),生成的詞向量可形成1個(gè)具有語義特征的詞向量空間,每個(gè)向量是空間中的點(diǎn),2點(diǎn)之間的距離可視為詞與詞之間的語義相似性.詞向量之間的距離可以通過歐氏距離、切比雪夫距離等公式計(jì)算,也可以利用向量之間的余弦值進(jìn)行比較.本文在預(yù)處理模塊中利用詞向量訓(xùn)練工具Word2vec獲取病理檢查報(bào)告的詞向量,并采用余弦值比較詞與詞之間的語義相關(guān)性.對于2個(gè)n維向量A和B,其中A=(a1,a2,…,an),B=(b1,b2,…,bn),2個(gè)向量的余弦值為
若求得的余弦值越接近1,就表明2個(gè)向量之間的夾角越接近0,也就表明2個(gè)向量越相似.所以本文在獲取同義詞表時(shí)將余弦值大于某個(gè)閾值的詞歸為一類,并將其中出現(xiàn)次數(shù)最多的詞作為類別名稱,用于替換病理報(bào)告中的其他同義詞.
本文利用HanLP漢語語言處理工具[18]對病理檢查報(bào)告進(jìn)行依存句法分析,HanLP中的依存句法分析模塊是根據(jù)詞語本身、詞性、后綴以及2詞間的距離等信息,利用最大熵模型求出任意2個(gè)詞之間可能性最大的依存關(guān)系及其概率,并由此確定該詞在依存關(guān)系樹中的結(jié)點(diǎn)位置以及與父結(jié)點(diǎn)之間關(guān)系,最終使用最小生成樹算法得到整棵依存關(guān)系樹.
4.1 依存句法分析
以甲狀腺超聲檢查報(bào)告中的文本為例,“甲狀腺左右葉大小及形態(tài)正?!笔且痪鋵谞钕偾闆r的影像描述,其依存關(guān)系樹如圖4所示.從圖4中可以看出依存關(guān)系樹的根結(jié)點(diǎn)指向每句話的核心詞,其他各個(gè)結(jié)點(diǎn)代表句中的1個(gè)成分,且每個(gè)結(jié)點(diǎn)包含4項(xiàng)信息,分別是詞原型、詞所在句中位置、詞性以及依存關(guān)系,其中依存關(guān)系表示結(jié)點(diǎn)中的詞與其父結(jié)點(diǎn)詞之間的語法關(guān)系.病理檢查報(bào)告中通常以名詞或形容詞作為謂語,而謂語是一句話的核心成分,所以圖4中的句法分析結(jié)果顯示,形容詞“正?!弊鳛橐来骊P(guān)系樹的根結(jié)點(diǎn).根據(jù)這一特性可知,病理檢查報(bào)告中以名詞或形容詞作為核心詞時(shí),依存關(guān)系樹的根結(jié)點(diǎn)往往是指標(biāo)詞或指標(biāo)值.由于謂語通常直接由主語支配,句中“大小”一詞與根結(jié)點(diǎn)之間形成主謂關(guān)系,由此判斷核心詞“正?!泵枋龅膶ο笫恰按笮 保谑堑玫?組key-value二元組:(大小,正常).而定中關(guān)系作為修飾成分,可以和指標(biāo)詞進(jìn)行合并,最終確定這組指標(biāo)詞與指標(biāo)值為(甲狀腺左右葉大小,正常).從這個(gè)例子中可以看出利用依存關(guān)系樹提取指標(biāo)的基本思想,其具體實(shí)現(xiàn)思路將在4.3節(jié)中進(jìn)行詳述.
Fig. 4 One example of dependency tree.圖4 依存關(guān)系樹舉例
醫(yī)療病理報(bào)告中一般以單句出現(xiàn),在漢語自然語言中,單句的組成成份主要有6種:主語、謂語、賓語、定語、狀語和補(bǔ)語,其中核心詞一般是句中的謂語.圖4所示的依存關(guān)系樹將詞之間具有語法關(guān)系的結(jié)點(diǎn)用邊相連,單句中詞與詞之間最常出現(xiàn)的語法關(guān)系有5種:主謂關(guān)系、動(dòng)賓關(guān)系、定中關(guān)系、狀中關(guān)系及中補(bǔ)關(guān)系.可以清楚地看出,依存關(guān)系樹結(jié)構(gòu)不僅反映了詞之間的依賴關(guān)系,而且給出了每個(gè)詞的詞性以及不同依賴關(guān)系的類型,這為判斷詞與詞之間的語義關(guān)系提供了良好的基礎(chǔ).之后便可根據(jù)詞在句中的語法關(guān)系及其詞性,提取關(guān)鍵信息.
由于本文針對的是病理檢查報(bào)告,其中涉及許多醫(yī)學(xué)領(lǐng)域的專業(yè)術(shù)語,所以本文在執(zhí)行句法分析時(shí)增加了醫(yī)療領(lǐng)域詞庫,這是為了盡量避免在分詞、詞性標(biāo)注及句法分析中發(fā)生錯(cuò)誤,從而直接影響到指標(biāo)提取的準(zhǔn)確性.
4.2 剪裁策略
對于漢語中的長句而言,完整的依存關(guān)系樹不僅結(jié)構(gòu)復(fù)雜,算法運(yùn)行時(shí)間也十分冗長,同時(shí)對復(fù)雜的樹結(jié)構(gòu)進(jìn)行分析會(huì)引入大量噪聲,影響句法分析結(jié)果的質(zhì)量.所以本文根據(jù)病理檢查報(bào)告特征,提出了一種簡化依存關(guān)系樹結(jié)構(gòu)的方法,目的是在進(jìn)行依存句法分析之前盡可能過濾無用信息,并讓大多數(shù)有效信息更容易被機(jī)器獲取.
中文自然語言中,一句語義完整的陳述句往往以句號結(jié)尾,句中的逗號起停頓作用,以逗號分隔的短句之間往往存在著語義上的關(guān)聯(lián).但病理檢查報(bào)告的特點(diǎn)在于以逗號分隔的短句之間往往是獨(dú)立的,它們單獨(dú)成句且能夠表述完整的語義,相鄰短句之間不存在語義上的關(guān)聯(lián).另外,病理檢查報(bào)告中會(huì)重復(fù)出現(xiàn)指標(biāo)所描述的某些組織器官名稱,這些名稱的多次出現(xiàn)會(huì)使依存關(guān)系樹的結(jié)構(gòu)變得復(fù)雜,而且對于指標(biāo)詞的識別沒有輔助作用.鑒于這些特性,本文提出了一種剪裁策略,預(yù)先構(gòu)建組織器官名稱與字符標(biāo)注對照表,按照對照表中的信息將文本中的組織器官名稱替換為特殊字符標(biāo)注.
值得注意的是,切分短句雖然能夠在保留語義的情況下有效降低依存關(guān)系樹的高度,但是存在混淆原句信息的可能性.以超聲檢查報(bào)告為例,病人在1次超聲檢查中可能包含多個(gè)部位,如甲狀腺、肝臟、肺部等,而且同一次檢查的影像描述及檢查結(jié)果都會(huì)記錄在同一份病理報(bào)告中,當(dāng)切分短句后,各短句的描述對象會(huì)有一定程度的缺失,可能導(dǎo)致結(jié)構(gòu)化過程中出現(xiàn)組織器官與指標(biāo)不匹配的情況.所以在標(biāo)注特殊字符時(shí)不僅需要替換文本中的組織器官名稱,還需要對切分后的每個(gè)短句進(jìn)行標(biāo)注,以確保在以短句為單位分析語義時(shí)信息不會(huì)丟失.在漢語表述中,通常以逗號分隔的2句短語所描述的對象具有一致性,基于這樣的語義特征,本文制定了一種標(biāo)注規(guī)則:檢測當(dāng)前短句中是否存在組織器官的關(guān)鍵詞,若存在則將組織器官名稱對應(yīng)的特殊字符放在短句句首,并將相應(yīng)名稱刪除;若不存在則以與前一短句相同的特殊字符進(jìn)行標(biāo)注.
表2給出了本文的信息標(biāo)注對照表.按照表2的對應(yīng)關(guān)系以及上述的病理檢查報(bào)告特點(diǎn),可以將“雙側(cè)甲狀腺外形欠規(guī)則,包膜光整,實(shí)質(zhì)內(nèi)未見異常結(jié)節(jié)回聲,甲狀腺實(shí)質(zhì)血供稍增多”這句甲狀腺超聲檢查報(bào)告中的影像描述轉(zhuǎn)化為:“@T@LR外形欠規(guī)則,@T@LR包膜光整,@N@LR實(shí)質(zhì)內(nèi)未見異常結(jié)節(jié)回聲,@T@LR實(shí)質(zhì)血供稍增多”.可見,標(biāo)注結(jié)果與原始文本所要表達(dá)的語義相同,故這種特殊字符標(biāo)注方法具有可行性.
Table 2 Examples of Thyroid Ultrasound Report Tag Sets
4.3 指標(biāo)信息檢測
本文的目標(biāo)是通過依存句法分析和詞性特征提取病理報(bào)告中的醫(yī)療指標(biāo)信息及其對應(yīng)指標(biāo)值.根據(jù)之前對于病理檢查報(bào)告語義特征以及詞性特征的分析可知,句中各組成成分之間有明確的語義關(guān)系,通過對這些語義特征的分析可以提取出指標(biāo)詞key及對應(yīng)指標(biāo)值value,提取步驟可分為3步:
步驟1. 判斷核心詞的詞性;
步驟2. 遍歷子樹,根據(jù)核心詞詞性尋找與之相關(guān)的語義關(guān)系;
步驟3. 根據(jù)依存句法分析得到的語義特征,提取指標(biāo)詞keyi(i∈+)或指標(biāo)值value,形成二元組(keyi,value).
利用語義特征提取指標(biāo)時(shí),以下5種語義關(guān)系可以指示指標(biāo)詞key與指標(biāo)值value在句中的關(guān)系:主謂關(guān)系、動(dòng)賓關(guān)系、定中關(guān)系、動(dòng)補(bǔ)關(guān)系、并列關(guān)系.在尋找這5種語義關(guān)系時(shí)應(yīng)遵循4條規(guī)則:
規(guī)則1. 若核心詞為動(dòng)詞,當(dāng)其孩子結(jié)點(diǎn)中存在與之成主謂關(guān)系或動(dòng)賓關(guān)系的名詞結(jié)點(diǎn)時(shí),從語義角度來看主語往往是整句話描述的對象,而賓語是動(dòng)詞的直接對象,由此可以確定二者分別對應(yīng)為指標(biāo)詞key和指標(biāo)值value;
規(guī)則2. 若核心詞是名詞或形容詞,這在漢語自然語言中屬于名詞或形容詞充當(dāng)動(dòng)詞的情況,所以核心詞是整句話描述的關(guān)鍵信息,可以將其確定為指標(biāo)值value,與之成主謂關(guān)系的詞便是指標(biāo)詞key;
規(guī)則3. 由于定語起到修飾作用,所以可將形成定中關(guān)系的名詞與形容詞進(jìn)行合并,組成1個(gè)指標(biāo)詞key或指標(biāo)值value;
規(guī)則4. 由于并列關(guān)系成分在句中起到相同的作用,若判定其中一詞是指標(biāo)詞key,那么另一個(gè)也可視作指標(biāo)詞key,同理若其中一詞是指標(biāo)值value則另一個(gè)也是指標(biāo)值value.
根據(jù)上述規(guī)則,可以得到基于依存句法分析提取指標(biāo)算法,算法1和算法2的偽代碼如下:
算法1. 指標(biāo)提取主程序.
輸入:依存關(guān)系樹鄰接表;每個(gè)結(jié)點(diǎn)是1個(gè)四元組:(ID,LEMMA,POSTAG,DEPREL),其中ID表示詞在原句中的位置,LEMMA是詞本身,POSTAG表示詞性(n表示名詞,v表示動(dòng)詞,a表示形容詞),DEPREL表示結(jié)點(diǎn)與其父結(jié)點(diǎn)之間的依存關(guān)系;鄰接表表頭包含所有結(jié)點(diǎn)的ID;
輸出:二元組(keyi,value),其中keyi(i∈+)是指標(biāo)詞,value是指標(biāo)值.
① CASE WHENroot→POSTAG=‘n’
② 提取root→LEMMA為指標(biāo)詞keyi;
③ 對每個(gè)root的孩子結(jié)點(diǎn)而言
④ 將所有DEPREL=‘并列關(guān)系’結(jié)點(diǎn)提取為新指標(biāo)詞keyj(j∈+) ;
⑤ 將所有DEPREL=‘定中關(guān)系’結(jié)點(diǎn)提取為指標(biāo)值value,并調(diào)用算法2;
⑥ CASE WHENroot→POSTAG=‘v’
⑦ 對每個(gè)root的孩子結(jié)點(diǎn)而言
⑧ 將所有DEPREL=‘主謂關(guān)系’結(jié)點(diǎn)提取為指標(biāo)詞keyi;
⑨ 將所有DEPREL=‘動(dòng)賓關(guān)系’or‘補(bǔ)關(guān)系’點(diǎn)提取為指標(biāo)值value,并調(diào)用算法2;
⑩ CASE WHENroot→POSTAG=‘a(chǎn)’
算法2. 深度遍歷子樹提取算法.
輸入:依存關(guān)系樹結(jié)點(diǎn)node;
輸出:指標(biāo)詞或指標(biāo)值集合.
① 從node開始深度遍歷其子樹
② CASE WHENroot→POSTAG=‘n’
③ 將所有子樹中DEPREL=‘定中關(guān)系’的結(jié)點(diǎn)按照遍歷順序與指標(biāo)值value合并;
④ CASE WHENroot→POSTAG=‘v’
⑤ 將所有子樹中DEPREL=‘并列關(guān)系’的結(jié)點(diǎn)按照遍歷順序與指標(biāo)值value合并;
⑥ CASE WHENroot→POSTAG=‘a(chǎn)’
⑦ 將所有子樹中DEPREL=‘定中關(guān)系’的結(jié)點(diǎn)按照遍歷順序與所有指標(biāo)詞keyi合并;
⑧ 將所有子樹中DEPREL=‘并列關(guān)系’的結(jié)點(diǎn)提取為新指標(biāo)詞keyj.
結(jié)合病理檢查報(bào)告的描述特征可知,結(jié)構(gòu)化結(jié)果中指標(biāo)詞與指標(biāo)值的對應(yīng)關(guān)系可能是一對一或多對一關(guān)系,這是由于醫(yī)生常常將多個(gè)表述相同的指標(biāo)合并在一起,所以當(dāng)處理完每個(gè)依存關(guān)系樹后會(huì)生成若干指標(biāo)詞keyi和1個(gè)指標(biāo)值value,若結(jié)果中存在多個(gè)指標(biāo)詞的情況,則這些指標(biāo)詞keyi所對應(yīng)的指標(biāo)值均為value.
為了進(jìn)一步優(yōu)化依存句法分析結(jié)構(gòu)化結(jié)果,本文設(shè)計(jì)了后處理模塊,其主要功能是在規(guī)范結(jié)構(gòu)化模板中的文字表述的同時(shí),通過分析噪聲數(shù)據(jù)產(chǎn)生的原因優(yōu)化算法.其優(yōu)化算法流程如圖5所示.
Fig. 5 Procedure of post processing module.圖5 后處理模塊流程
結(jié)構(gòu)化結(jié)果優(yōu)化算法的輸入是經(jīng)過依存句法分析得到的結(jié)構(gòu)化模板,算法首先根據(jù)剪裁策略中制定的字符標(biāo)注對照表還原模板中含有的特殊字符.隨后利用停用詞詞典去除停用詞,從而規(guī)范模板中文字的表述;接著利用在預(yù)處理模塊中生成的同義詞詞典修正指標(biāo)詞和指標(biāo)值的錯(cuò)誤表述,同時(shí)配合人工校驗(yàn)方式刪除結(jié)構(gòu)化結(jié)果中的多余信息,從而去除噪聲數(shù)據(jù),提高結(jié)構(gòu)化結(jié)果的正確性;最終將后處理得到的錯(cuò)誤表述和噪聲數(shù)據(jù)作為優(yōu)化預(yù)處理和依存句法分析算法的依據(jù),由于不同病理檢查報(bào)告的文字特征存在差異,也存在某些特殊的表述方式,而這些差異往往導(dǎo)致了噪聲數(shù)據(jù)的產(chǎn)生,所以在修復(fù)噪聲數(shù)據(jù)時(shí)可以分析得到不同文檔的特點(diǎn),并將針對這些特殊表述的文本結(jié)構(gòu)化方法加入算法,從而提高結(jié)構(gòu)化的準(zhǔn)確率,增強(qiáng)依存句法分析的適用性和可擴(kuò)展性.
本文的實(shí)驗(yàn)數(shù)據(jù)來自某三甲醫(yī)院提供的真實(shí)病理檢查報(bào)告.為了使實(shí)驗(yàn)結(jié)果不失一般性,我們選擇樣本較多的甲狀腺超聲檢查和胸部CT平掃檢查數(shù)據(jù)作為本次實(shí)驗(yàn)的測試數(shù)據(jù)集,2個(gè)數(shù)據(jù)集的記錄數(shù)分別為470 193條以及405 559條.
在預(yù)處理模塊中,根據(jù)多次實(shí)驗(yàn)得出的結(jié)果,當(dāng)2個(gè)詞的余弦相似度閾值設(shè)為0.65時(shí),所得同義詞表中單詞個(gè)數(shù)較多且相似度較高,所以本文在獲取同義詞表時(shí)將余弦值大于0.65的詞歸為一類.此外,本次實(shí)驗(yàn)將詞向量的維度設(shè)置為100維,此時(shí)訓(xùn)練詞向量的時(shí)間復(fù)雜度最小,而且相對于其他維度的詞向量而言,100維的詞向量在向量差、向量連接以及向量乘等特征中同樣具有較好的分類性能表現(xiàn).類似地,在選取訓(xùn)練窗口大小時(shí),經(jīng)過多次實(shí)驗(yàn)可知,當(dāng)選取窗口大小為8時(shí)訓(xùn)練詞向量的時(shí)間復(fù)雜度較低,同時(shí)分類性能較好,故將訓(xùn)練詞向量時(shí)將上下文的選詞個(gè)數(shù)設(shè)置為8個(gè)詞.
為了能夠更好地獲取統(tǒng)計(jì)信息,我們從2個(gè)數(shù)據(jù)集中均隨機(jī)選取了4 000條記錄作為樣本進(jìn)行分析,并以手工判定的方式獲取準(zhǔn)確率P、召回率R及F1度量值,進(jìn)而得到統(tǒng)計(jì)結(jié)果.準(zhǔn)確率和召回率是廣泛應(yīng)用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的2個(gè)度量值,常用于評價(jià)結(jié)果的質(zhì)量.在本文實(shí)驗(yàn)中,準(zhǔn)確率表示在所有依存句法分析得到的結(jié)構(gòu)化結(jié)果中,表述正確的指標(biāo)詞及對應(yīng)指標(biāo)值所占的比例,其計(jì)算公式如下:
召回率表示已提取指標(biāo)詞或指標(biāo)值與原病理檢查報(bào)告中包含的所有指標(biāo)數(shù)量的比率,反映了結(jié)構(gòu)化結(jié)果是否覆蓋到病理檢查報(bào)告中包含的絕大多數(shù)指標(biāo)詞或指標(biāo)值,其計(jì)算公式可表示為
F1值是準(zhǔn)確率和召回率的調(diào)和平均值,可以綜合反映文本結(jié)構(gòu)化結(jié)果的好壞,計(jì)算公式如下:
6.1 剪裁策略效果分析
為了測試本文在預(yù)處理階段提出的依存關(guān)系樹剪裁策略的效果,本文從依存關(guān)系樹的高度、詞性類型占比以及依存關(guān)系類型占比這3個(gè)方面對甲狀腺超聲檢查報(bào)告的原始文本、切分后文本以及剪裁后的文本進(jìn)行了統(tǒng)計(jì),利用HanLP的統(tǒng)計(jì)模塊得到上述信息的統(tǒng)計(jì)結(jié)果.從表3可以看出,當(dāng)按照短句進(jìn)行依存句法分析后,依存關(guān)系樹的層數(shù)明顯下降,由3.21下降到1.13,且表5所示的依存關(guān)系分布更加集中,定中關(guān)系與主謂關(guān)系所占比例明顯上升,有利于算法提取指標(biāo)詞及其對應(yīng)指標(biāo)值在句中的位置.由本文4.2節(jié)可知,剪裁策略的主要目的是將復(fù)雜的專業(yè)術(shù)語替換為簡單的特殊符號,并不會(huì)產(chǎn)生語序或語義的變化,所以表3中剪裁后文本與切分后文本的句子數(shù)量是不變的.
Table 3 Statistics of Thyroid Ultrasound Sample Data
另外,通過統(tǒng)計(jì)可以發(fā)現(xiàn),指標(biāo)詞以及指標(biāo)值的詞性分布相對集中,其中90%以上的指標(biāo)詞是名詞詞性,而指標(biāo)值中名詞占23,其余詞性大多為形容詞和數(shù)量詞,因此詞性特征對指標(biāo)信息檢測而言十分重要.表4顯示的分別是原始文本、按短句切分后文本以及執(zhí)行剪裁策略后文本中包含詞性類型的分布.從列2和列3數(shù)據(jù)可以看出,當(dāng)執(zhí)行剪裁策略后,文本中標(biāo)注的特殊字符在依存句法分析時(shí)會(huì)被識別為標(biāo)點(diǎn),于是標(biāo)點(diǎn)符號在文中的占比大幅度提升,而名詞占比隨之下降.將專業(yè)名詞轉(zhuǎn)化為特殊符號的好處在于可以一定程度上增加詞與詞的分隔標(biāo)記,減少歧義,提升分詞的準(zhǔn)確率.表5列舉出了6種數(shù)量最多的語義關(guān)系,按出現(xiàn)次數(shù)從高到低分別是定中關(guān)系、主謂關(guān)系、核心關(guān)系、狀中結(jié)構(gòu)、并列關(guān)系和動(dòng)賓關(guān)系.另外,表5中列2和列3數(shù)值沒有發(fā)生明顯變化,可見標(biāo)注特殊字符對于語義的影響不大.
Table 4 Statistics of High-Frequency Part-of-Speech Types
Table 5 Statistics of High-Frequency Semantic Relations
為了進(jìn)一步說明剪裁策略對于依存句法分析結(jié)果的影響,本文以甲狀腺超聲檢查報(bào)告文本作為數(shù)據(jù)集,對其結(jié)構(gòu)化的準(zhǔn)確率和召回率進(jìn)行了統(tǒng)計(jì).如表6所示,在未使用剪裁策略時(shí),結(jié)構(gòu)化的準(zhǔn)確率低于55%,相比使用剪裁策略時(shí)的準(zhǔn)確率低了近15個(gè)百分點(diǎn),召回率也低了16%,可見剪裁策略的使用可以有效減少分詞和詞性判斷中出現(xiàn)的歧義情況,從而提高結(jié)構(gòu)化結(jié)果的質(zhì)量.
Table 6 Comparison of Annotated and Unannotated Text
6.2 后處理效果分析
為了提高算法的健壯性,本文針對結(jié)構(gòu)化結(jié)果提出了后處理方法,在本節(jié)中將對后處理模塊的效果進(jìn)行分析.本節(jié)將從準(zhǔn)確率、召回率和F1值這3個(gè)方面進(jìn)行分析,同時(shí),為了分析后處理方法對于算法可擴(kuò)展性的影響,故選取了甲狀腺超聲和胸部CT平掃2個(gè)檢查報(bào)告作為測試集.從表7和表8中的數(shù)據(jù)可以看出,后處理方法能夠?qū)?個(gè)數(shù)據(jù)集的結(jié)構(gòu)化結(jié)果都起到優(yōu)化作用,平均準(zhǔn)確率提高了近10個(gè)百分點(diǎn),甲狀腺超聲檢查報(bào)告的結(jié)構(gòu)化準(zhǔn)確率更是從71.06%上升至82.45%,提升了近12%.此外,后處理模塊對于結(jié)構(gòu)化方法的召回率也有一定的影響,將指標(biāo)詞和指標(biāo)值的召回率平均提升了約5%.
Table 7 Thyroid Ultrasound Report Optimization Results
Table 8 Chest CT Scan Report Optimization Results
從表7、表8中還可以看出,若對不同文本進(jìn)行后處理,這些文本結(jié)構(gòu)化的準(zhǔn)確率均提升到同一水準(zhǔn),可見不同數(shù)據(jù)集的后處理過程能夠相互影響,也可以提高其他數(shù)據(jù)集結(jié)構(gòu)化的準(zhǔn)確率.從這組實(shí)驗(yàn)中可以看出,后處理方法在提高結(jié)構(gòu)化質(zhì)量中能夠起到很大程度的作用,而且也提升了本文方法的可擴(kuò)展性.
6.3 對比實(shí)驗(yàn)及分析
本節(jié)將依存句法分析結(jié)構(gòu)化結(jié)果與基于人工制定規(guī)則結(jié)構(gòu)化結(jié)果進(jìn)行了對比,對比結(jié)果如表9和表10所示.基于人工規(guī)則的結(jié)構(gòu)化方法一般是指通過關(guān)鍵字信息定位所要結(jié)構(gòu)化的文本范圍,然后通過人工閱讀方式分析文本中的句式模式特征,并由此編寫關(guān)系抽取算法將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)[22].本節(jié)采用的基于人工規(guī)則結(jié)構(gòu)化方法是指利用現(xiàn)有醫(yī)療知識庫,從文本中定位指標(biāo)詞key可能出現(xiàn)的位置,而后通過人工發(fā)現(xiàn)文本中包含標(biāo)點(diǎn)符號、數(shù)字、特殊字符及停用詞等句式的特征,憑經(jīng)驗(yàn)歸納出指標(biāo)詞key與指標(biāo)值value在文本中的關(guān)系,從而編寫出結(jié)構(gòu)化算法.上述結(jié)構(gòu)化方法具有較高的準(zhǔn)確率和召回率,所以現(xiàn)常用于衡量其他結(jié)構(gòu)化方法.考慮到該方法需要耗費(fèi)大量人力閱讀文本,故不再用于實(shí)際生產(chǎn)之中.此外,為了驗(yàn)證本文方法在多樣化病理報(bào)告中有較強(qiáng)的適用性,本文選取甲狀腺超聲檢查報(bào)告和胸部CT平掃檢查報(bào)告2種醫(yī)療文檔作為實(shí)驗(yàn)數(shù)據(jù)集.
Table 9 Comparison Results on Thyroid Ultrasound Reports
Table 10 Comparison Results on Chest CT Scan Reports
從表9和表10中可以看出,針對本文選取的2個(gè)測試集,基于人工規(guī)則方法在提取指標(biāo)詞和指標(biāo)值的準(zhǔn)確率可以達(dá)到85%,而召回率最高可達(dá)到95%,可見通過基于人工規(guī)則方法能夠準(zhǔn)確地提取結(jié)構(gòu)化信息,而且?guī)缀跄軌蚋采w所有指標(biāo).本文提出的結(jié)構(gòu)化方法在2個(gè)數(shù)據(jù)集樣本上的指標(biāo)詞識別準(zhǔn)確率均可達(dá)到82%以上,其對應(yīng)指標(biāo)值的準(zhǔn)確率可達(dá)到79%,且召回率均可達(dá)到86%以上,可見本文方法在準(zhǔn)確率和召回率上都能接近基于人工規(guī)則方法.雖然本文方法未能在準(zhǔn)確率和召回率上超過基于人工規(guī)則方法,但是基于人工規(guī)則方法需要消耗大量的人力資源閱讀文本,而且如果不同文本之間的語言表述存在差異,那么針對不同文本需要制定不同提取規(guī)則,可見該方法的可移植性較差.相比之下,基于依存關(guān)系的結(jié)構(gòu)化方法能夠省去大量人工閱讀的工作量,接近90%的召回率表明依存句法分析能夠識別大部分指標(biāo)詞,而且能夠適用于不同檢查報(bào)告中的不同句式結(jié)構(gòu),可以在很大程度上實(shí)現(xiàn)自動(dòng)化提取的目標(biāo).此外,當(dāng)病理檢查報(bào)告中出現(xiàn)新詞時(shí),若采用基于人工規(guī)則的提取方法則無法識別這些新詞,但依存句法分析結(jié)構(gòu)化方法仍然可以通過句法特征將其識別為指標(biāo)關(guān)鍵字,最終轉(zhuǎn)化為key-value形式的結(jié)構(gòu)化數(shù)據(jù).
雖然本文提出的基于依存句法分析結(jié)構(gòu)化方法的準(zhǔn)確率還有待提高,但是目前針對醫(yī)療文本結(jié)構(gòu)化的研究較少,且本文方法能有效減少人工閱讀大量文本的工作,雖然在后處理中仍需要人工參與校驗(yàn),但這與基于人工規(guī)則進(jìn)行文本結(jié)構(gòu)化的方法相比,其工作量有了大幅降低,大大減少了人工參與的比重,且很容易擴(kuò)展到其他醫(yī)療文檔的結(jié)構(gòu)化過程中,應(yīng)用范圍更廣泛,給醫(yī)療指標(biāo)結(jié)構(gòu)化提供了新的思路.
本文針對病理檢查報(bào)告的結(jié)構(gòu)化進(jìn)行了研究:
1) 利用神經(jīng)網(wǎng)絡(luò)語言模型盡可能地消除一義多詞現(xiàn)象;
2) 為了提升依存句法分析結(jié)果的準(zhǔn)確性,提出了切分短句與標(biāo)注關(guān)鍵信息的剪裁策略;
3) 根據(jù)病理報(bào)告文本的依存關(guān)系特征,提出了一種有效的指標(biāo)提取方法.在實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性.然而,基于依存句法分析提取指標(biāo)詞及對應(yīng)指標(biāo)值的準(zhǔn)確性還有待進(jìn)一步提升.針對這個(gè)問題,未來的工作將嘗試深度學(xué)習(xí)技術(shù),自動(dòng)獲取更加準(zhǔn)確的自然語言語義特征.
[1]Zhao Shiqi, Wang Haifeng, Li Chao, et al. Automatically generating questions from queries for community-based question answering[C] //Proc of the 5th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2011: 929-937
[2]Tsolmon B, Lee K. An event extraction model based on timeline and user analysis in latent dirichlet allocation[C] //Proc of the 37th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2014: 1187-1190
[3]Wan Xiaojun, Yang Jianwu. Multi-document summarization using cluster-based link analysis[C] //Proc of the 31st Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2008: 299-306
[4]Socher R, Karpathy A, Le Q V, et al. Grounded compositional semantics for finding and describing images with sentences[C] //Transactions of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2014: 207-218
[5]Wen Xu, Zhang Yu, Liu Ting, et al. Syntactic structure parsing based Chinese question classification[J]. Journal of Chinese Information Processing, 2006, 20(2): 33-39 (in Chinese)(文勖, 張宇, 劉挺, 等. 基于句法結(jié)構(gòu)分析的中文問題分類[J]. 中文信息學(xué)報(bào), 2006, 20(2): 33-39)
[6]Tesnière L. Eléments De Syntaxe Structurale[M]. Paris: Librairie Klincksieck, 1959
[7]Hu Baoshun, Wang Daling, Yu Ge, et al. An answer extraction algorithm based on syntax structure feature parsing and classification[J]. Chinese Journal of Computers, 2008, 32(4): 662-676 (in Chinese)(胡寶順, 王大玲, 于戈, 等. 基于句法結(jié)構(gòu)特征分析及分類技術(shù)的答案提取算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2008, 32(4): 662-676)
[8]Guo Xiyue, He Tingting, Hu Xiaohua, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of Chinese Information Processing, 2014, 28(6): 183-186 (in Chinese)(郭喜躍, 何婷婷, 胡小華, 等. 基于句法語義特征的中文實(shí)體關(guān)系抽取[J]. 中文信息學(xué)報(bào), 2014, 28(6): 183-186)
[9]Gan Lixin, Wan Changxuan, Liu Dexi, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of Computer Research and Development, 2016, 53(2): 284-302 (in Chinese)(甘麗新, 萬常選, 劉德喜, 等. 基于句法語義特征的中文實(shí)體關(guān)系抽取[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 284-302)
[10]Li Haiguang, Wu Xindong, Li Zhao, et al. A relation extraction method of Chinese named entities based on location and semantic features[J]. Applied Intelligence, 2013, 38: 1-15
[11]Uzuner O, Mailoa J, Ryan R, et al. Semantic relations for problem-oriented medical records[J]. Artificial Intelligence in Medicine, 2010, 50(2): 63-73
[12]Chen E S, Hripcsak G, Xu H, et al. Automated acquisition of disease drug knowledge from biomedical and clinical documents: An initial study[J]. Journal of the American Medical Informatics Association, 2008, 15(1): 87-98
[13]Blunsom P, Hermann K M. The role of syntax in vector space models of compositional semantics[C] //Proc of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2013: 894-904
[15]Danielfrg. Word2vec[CP/OL]. San Francisco: GitHub, (2015-12-11) [2016-04-07]. https://github.com/danielfrg/word2vec
[16]Tariq A, Foroosh H. Feature-independent context estimation for automatic image annotation[C] //Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1958-1965
[17]Araki J, Callan J. An annotation similarity model in passage ranking for historical fact validation[C] //Proc of the 37th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2014: 1111-1114
[18]Hankcs. HanLP[CP/OL]. San Francisco: GitHub, (2015-07-12) [2016-10-16]. https://github.com/hankcs/HanLP/releases
[19]Aho A V, Corasick M J. Efficient string matching: An aid to bibliographic search[J]. Communications of the ACM, 1975, 18(6): 333-340
[20]Aoe J. An efficient digital search algorithm by using a double-array structure[J]. IEEE Trans on Software Engineering, 1989, 15(9): 1066-1077
[21]Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011(12): 2493-2537
[22]Buchanan B G, Shortliffe E H. Rule-based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project[M]. Boston: Addison Wesley, 1984
Tian Chiyuan, born in 1990. Master candidate. His main research interests include natural language processing and database.
Chen Dehua, born in 1976. PhD and associate professor. His main research interests include database, data warehouse, big data and deep learning.
Wang Mei, born in 1980. PhD and professor. Member of China Computer Federation. Her main research interests include database, image semantic analysis and information retrieval (wangmei@dhu.edu.cn).
Le Jiajin, born in 1951. Professor and PhD supervisor. Member of China Computer Federation. His main research interests include database and data warehouse, software engineering theory and practice (lejiajin@dhu.edu.cn).
Structured Processing for Pathological Reports Based on Dependency Parsing
Tian Chiyuan, Chen Dehua, Wang Mei, and Le Jiajin
(College of Computer Science and Technology, Donghua University, Shanghai 201620)
Most of pathological reports are unstructured texts which can not be directly analyzed by computers. The current researches on structured texts mainly focus on the information extraction. However, the syntactic features of pathological reports are particular, which makes it more difficult to extract information relations. To solve this problem, a novel method of structuralizing pathological reports based on syntactic and semantic features is proposed in this paper. First of all, we construct a synonym lexicon by using neural network language models to eliminate the phenomenon of synonymy. Then the dependency trees are generated based on the preprocessed pathological reports to extract medical examination indices. Meanwhile, we use short-sentence segmentation and annotation as optimized strategies to simplify the structure of dependency trees, which makes the grammatical relations of medical texts clearer and improves the quality of the structured results. Finally the key-value pairs of medical examination indices can be extracted from pathological reports in Chinese, and the structured texts can be generated automatically. Experimental results based on real pathological report data sets show that the performance of the proposed method on medical indices and values extraction achieves 82.91% and 79.11% of accuracy, which provides a solid foundation for related studies in the future.
medical data; pathological reports; dependency parsing; text structured processing; neural network language model
2016-08-16;
2016-10-24
上海市科技創(chuàng)新行動(dòng)計(jì)劃項(xiàng)目(15511106900);上海市科技發(fā)展基金項(xiàng)目(16JC1400802);中央高?;究蒲袠I(yè)務(wù)費(fèi)東華大學(xué)勵(lì)志計(jì)劃項(xiàng)目(B201312);上海市信息化發(fā)展專項(xiàng)資金項(xiàng)目(XX-XXFZ-01-14-6349) This work was supported by the Shanghai Innovation Action Project of Science and Technology (15511106900), the Science and Technology Development Foundation of Shanghai (16JC1400802), the DHU Distinguished Young Professor Program of Fundamental Research Funds for the Central Universities (B201312), and the Shanghai Specific Fund Project for Informatization Development (XX-XXFZ-01-14-6349).
陳德華(chendehua@dhu.edu.cn)
TP391