• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于依存句法分析的病理報(bào)告結(jié)構(gòu)化處理方法

    2016-12-22 04:20:01田馳遠(yuǎn)陳德華樂嘉錦
    計(jì)算機(jī)研究與發(fā)展 2016年12期
    關(guān)鍵詞:語義文本方法

    田馳遠(yuǎn) 陳德華 王 梅 樂嘉錦

    (東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 201620)(chiyuantian@163.com)

    ?

    基于依存句法分析的病理報(bào)告結(jié)構(gòu)化處理方法

    田馳遠(yuǎn) 陳德華 王 梅 樂嘉錦

    (東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 201620)(chiyuantian@163.com)

    病理檢查報(bào)告中的文本通常為非結(jié)構(gòu)化數(shù)據(jù),不利于計(jì)算機(jī)自動(dòng)分析和處理.目前文本結(jié)構(gòu)化主要采用信息關(guān)系抽取方法,然而病理檢查報(bào)告所具有的語義特殊性,給中文信息關(guān)系抽取帶來了挑戰(zhàn).為解決上述問題,設(shè)計(jì)了一種針對病理檢查報(bào)告的結(jié)構(gòu)化方法,首先通過神經(jīng)網(wǎng)絡(luò)語言模型獲得病理報(bào)告中的同義詞表,合并一義多詞現(xiàn)象;在此基礎(chǔ)上,生成病理檢查報(bào)告文本的依存關(guān)系樹,并提出切分短句和信息標(biāo)注的剪裁策略,以簡化初始生成的依存關(guān)系樹結(jié)構(gòu),從而使語法關(guān)系更加清晰,提高結(jié)構(gòu)化結(jié)果的準(zhǔn)確度;進(jìn)而,利用依存句法分析結(jié)果從中文檢查報(bào)告中提取指標(biāo)及對應(yīng)指標(biāo)值,并自動(dòng)生成結(jié)構(gòu)化模板.實(shí)驗(yàn)采用醫(yī)生真實(shí)使用的醫(yī)療病理檢查報(bào)告進(jìn)行驗(yàn)證,其結(jié)果表明:該方法在指標(biāo)詞和對應(yīng)指標(biāo)值提取任務(wù)中的準(zhǔn)確率可以分別達(dá)到82.91%和79.11%,為相關(guān)研究打下了基礎(chǔ).

    醫(yī)療數(shù)據(jù);病理報(bào)告;依存句法分析;文本結(jié)構(gòu)化處理;神經(jīng)網(wǎng)絡(luò)語言模型

    隨著信息化建設(shè)的快速發(fā)展,目前我國醫(yī)療數(shù)據(jù)急速增長,積累了大量電子臨床數(shù)據(jù)資源,為醫(yī)療大數(shù)據(jù)的分析和挖掘提供了基礎(chǔ).然而當(dāng)前醫(yī)療文檔大多是以自然語言描述的非結(jié)構(gòu)化文本,由于自然語言與機(jī)器語言之間存在巨大鴻溝,導(dǎo)致用計(jì)算機(jī)直接處理和分析非結(jié)構(gòu)化文本的效率較低,也影響了分析結(jié)果的質(zhì)量.為了能有效利用現(xiàn)有技術(shù)成熟的分析工具對醫(yī)療文檔進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘,從而提高醫(yī)療數(shù)據(jù)價(jià)值,對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化就成為了該領(lǐng)域?qū)W者關(guān)注的重點(diǎn).

    病理檢查報(bào)告是診斷病理學(xué)中的重要臨床文檔,醫(yī)生將活檢樣本送往病理科檢查,然后憑借自身經(jīng)驗(yàn)對檢查結(jié)果作出判斷并將影像描述、臨床診斷、診斷意見等內(nèi)容以自然語言形式記錄在報(bào)告中.這些文檔包含的信息往往是臨床醫(yī)生進(jìn)行疾病診斷的重要依據(jù),也決定了病人將要接受的治療方案.檢查報(bào)告的結(jié)構(gòu)化目標(biāo)是發(fā)現(xiàn)其中包含的關(guān)鍵指標(biāo)key,以及對應(yīng)指標(biāo)值value,最終形成key-value形式的結(jié)構(gòu)化模板.表1給出了甲狀腺超聲檢查報(bào)告中的1個(gè)實(shí)例,其結(jié)構(gòu)化結(jié)果由13個(gè)key-value形式的二元組組成,其中諸如甲狀腺大小、形態(tài)、邊界等關(guān)鍵指標(biāo)及其對應(yīng)指標(biāo)值是病理診斷的關(guān)鍵內(nèi)容.從上例可以看出,將甲狀腺超聲檢查報(bào)告中的所有描述轉(zhuǎn)化成結(jié)構(gòu)化模板,可保留報(bào)告中的核心信息,并建立簡明規(guī)整的結(jié)構(gòu),方便讀取和查詢,同時(shí)也有利于借助R軟件或SPSS(statistical product and service solutions)軟件等現(xiàn)有數(shù)據(jù)挖掘工具對結(jié)構(gòu)化指標(biāo)與診斷結(jié)果進(jìn)行關(guān)聯(lián)分析,挖掘出大量與患者密切相關(guān)的醫(yī)療知識,從而輔助醫(yī)生進(jìn)行診斷.

    Table 1 Example of Structured Thyroid Ultrasound Report

    目前,在非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域已存在大量的研究工作,如自動(dòng)問答系統(tǒng)[1]、關(guān)鍵詞抽取[2]和自動(dòng)摘要[3]等,而針對中文醫(yī)學(xué)自然語言處理的研究相對較少,主要研究方向集中于實(shí)體識別和信息抽取,其研究對象往往是結(jié)構(gòu)化或半結(jié)構(gòu)化文本,于是如何對文本進(jìn)行結(jié)構(gòu)化便成了關(guān)鍵步驟.目前文本結(jié)構(gòu)化技術(shù)大多采用基于規(guī)則的處理方式,但由于醫(yī)療文本中不同組織器官所具有的屬性不同,且描述不同病種所使用的指標(biāo)詞也不同,又由于基于規(guī)則結(jié)構(gòu)化方法的可擴(kuò)展性較差,所以若想制定出一種適用所有病理檢查報(bào)告的結(jié)構(gòu)化規(guī)則十分困難.除了上述基于規(guī)則結(jié)構(gòu)化方法外,還可以通過句法語義特征和詞性特征識別語義,從而進(jìn)行實(shí)體關(guān)系抽取和結(jié)構(gòu)化處理,有效減少人工閱讀工作量.Socher等人[4]提出了一種基于依存關(guān)系樹識別語義的方法,利用循環(huán)神經(jīng)網(wǎng)絡(luò)將句子成分抽象為語序和句法信息,從而得到句子的語義信息.但是病理檢查報(bào)告在語義特征上具有其特殊性,醫(yī)生通常采用名詞、形容詞或名詞性短語對指標(biāo)進(jìn)行描述,句中的謂語往往不以動(dòng)詞形式出現(xiàn).而傳統(tǒng)的依存句法分析方法以動(dòng)詞作為核心詞支配其他句子成分,可見現(xiàn)有句法分析方法對于病理檢查報(bào)告的結(jié)構(gòu)化并不適用.

    針對上述問題,本文在傳統(tǒng)句法分析和信息關(guān)系抽取技術(shù)的基礎(chǔ)上,根據(jù)醫(yī)療病理檢查報(bào)告特有的語法特征,提出了一種基于依存句法分析的醫(yī)療指標(biāo)結(jié)構(gòu)化方法,從病理檢查報(bào)告中抽取某一器官組織或病癥的屬性描述,隨后生成依存關(guān)系樹并按照句子的語義特征形成key-value形式的結(jié)構(gòu)化數(shù)據(jù).實(shí)驗(yàn)表明:本文提出的結(jié)構(gòu)化方法能夠較好地針對不同組織器官的檢查報(bào)告,指標(biāo)詞及對應(yīng)指標(biāo)值提取的準(zhǔn)確率分別可達(dá)82.91%和79.11%,接近基于規(guī)則方法.

    1 相關(guān)工作

    早期對于文本關(guān)鍵信息抽取的研究大多采用基于啟發(fā)式規(guī)則方法,其優(yōu)勢在于實(shí)現(xiàn)簡單且準(zhǔn)確率高,但獲取規(guī)則是一個(gè)非常復(fù)雜的過程,且完全依賴開發(fā)人員的知識和經(jīng)驗(yàn),若要提高分析結(jié)果的質(zhì)量,必須增加人工閱讀量,且其健壯性和可移植性較差,若文檔結(jié)構(gòu)不適合當(dāng)前啟發(fā)式規(guī)則,就不得不對已有規(guī)則進(jìn)行修改.在語料庫構(gòu)建技術(shù)越發(fā)成熟后,人們開始采用基于統(tǒng)計(jì)的句法分析方式,該方法采用統(tǒng)計(jì)學(xué)的處理技術(shù)從大規(guī)模語料庫中獲取語言分析所需的知識,能在減少人工規(guī)則制定的同時(shí)盡可能使語言接近真實(shí)規(guī)律[5].依存文法是由法國語言學(xué)家Tesnière[6]于1959年提出的一種信息抽取方法,通過分析詞語之間的依存關(guān)系揭示其句法結(jié)構(gòu),并主張句子中核心動(dòng)詞是支配其他詞語的中心成分,而它本身卻不受其他任何詞語的支配,所有受支配詞語都以某種依存關(guān)系從屬于支配詞.依存關(guān)系反映的是句中詞語的語義修飾關(guān)系,它可以無視句中詞的位置關(guān)系,獲取長距離搭配的信息[7].

    在針對非結(jié)構(gòu)化中文自然語言的信息抽取研究中,其主要研究對象是命名實(shí)體之間的關(guān)系抽取,郭喜躍等人[8]提出了一種基于句法特征、語義特征的實(shí)體關(guān)系抽取方法,融入了依存句法關(guān)系、核心謂詞、語義角色標(biāo)注等特征,實(shí)驗(yàn)結(jié)果表明該方法的F1值與傳統(tǒng)方法相比有明顯提升;甘麗新等人[9]提出了一種基于句法語義特征的實(shí)體關(guān)系抽取方法,將2個(gè)實(shí)體各自的依存句法關(guān)系組合,獲取依存句法關(guān)系組合特征,并利用依存句法分析和詞性標(biāo)注獲取最近句法依賴動(dòng)詞特征;Li等人[10]提出了一種基于位置語義特征的實(shí)體關(guān)系抽取方法,利用位置特征的可計(jì)算性與可操作性以及語義特征的可理解性,將詞語位置信息增益與基于HowNet語義計(jì)算結(jié)果整合在一起;在醫(yī)療領(lǐng)域也存在信息關(guān)系抽取方面的相關(guān)研究,Uzuner等人[11]以句子為單位識別電子病歷實(shí)體關(guān)系,并訓(xùn)練了6個(gè)支持向量機(jī)分類器實(shí)現(xiàn)疾病、癥狀、檢查和治療之間的關(guān)系識別,其結(jié)果表明詞匯特征在關(guān)系識別中發(fā)揮了重要作用;Chen等人[12]從醫(yī)學(xué)文獻(xiàn)和電子病歷中分析疾病和藥品實(shí)體的共現(xiàn)來發(fā)現(xiàn)二者間的關(guān)聯(lián)關(guān)系,獲取疾病和藥品的潛在醫(yī)療知識.上述關(guān)系抽取的結(jié)果一般以二元組或三元組的形式出現(xiàn),這種鍵值對的表示形式與本文所要提取的指標(biāo)詞及指標(biāo)值模板相似,然而上述方法主要關(guān)注醫(yī)療領(lǐng)域特定實(shí)體如疾病、治療等之間關(guān)聯(lián)關(guān)系的知識發(fā)現(xiàn),針對適用于不同病理檢查報(bào)告的通用、自動(dòng)的結(jié)構(gòu)化方法目前研究較為少見.

    文本標(biāo)注方法在圖像檢索領(lǐng)域中已得到廣泛使用,Tariq等人[16]通過抽取圖像所在網(wǎng)頁中的文本信息對圖像添加標(biāo)注,并將文本檢索與圖像檢索相結(jié)合,有效提高了圖像檢索的效率和準(zhǔn)確性.近年來,文本標(biāo)注方法也逐漸應(yīng)用于自然語言處理方面,而且對于提高計(jì)算機(jī)處理自然語言的準(zhǔn)確率起到了很大作用;Araki等人[17]提出了基于詞袋相似模型的文本標(biāo)注方法,并將其用于自動(dòng)問答系統(tǒng)中的文本檢索,對于提高文本排序準(zhǔn)確度起到關(guān)鍵作用.

    2 系統(tǒng)框架

    本文提出了一種基于依存句法分析的病理檢查報(bào)告結(jié)構(gòu)化方法,具體流程如下:1)針對病理報(bào)告中頻繁出現(xiàn)的同一指標(biāo)多種描述情況進(jìn)行預(yù)處理,利用神經(jīng)網(wǎng)絡(luò)模型求出詞向量,在此基礎(chǔ)上計(jì)算余弦相似度找出同義詞,規(guī)范病理檢查報(bào)告的文本表述,同時(shí)切分短句并引入詞語信息標(biāo)注方法簡化句子結(jié)構(gòu),降低依存關(guān)系樹的高度,從而使語法關(guān)系更加清晰,提高結(jié)構(gòu)化結(jié)果的準(zhǔn)確度;2)利用依存句法分析得到每個(gè)短句的依存關(guān)系樹,利用所得語義特征和詞性特征提取指標(biāo)及對應(yīng)指標(biāo)值,便可將非結(jié)構(gòu)化文本轉(zhuǎn)化成key-value形式的結(jié)構(gòu)化模板;3)將標(biāo)注信息還原,同時(shí)修正噪聲數(shù)據(jù).根據(jù)實(shí)現(xiàn)功能的不同,整個(gè)結(jié)構(gòu)化過程可以劃分成圖1所示的3個(gè)模塊:預(yù)處理模塊、結(jié)構(gòu)化模塊、后處理模塊.

    Fig. 1 Structured processing procedure of pathological reports.圖1 病理檢查報(bào)告結(jié)構(gòu)化處理過程

    2.1 預(yù)處理模塊

    Fig. 2 Comparison between two different dependency trees expressing the same meaning.圖2 語義相同表述不同的依存關(guān)系樹對比

    一義多詞在自然語言文本中是普遍現(xiàn)象,且在病理檢查報(bào)告中尤為突出,所以設(shè)置預(yù)處理模塊的主要作用是消除文本中的一義多詞現(xiàn)象.舉例來說,“甲狀腺左右葉大小正?!焙汀半p側(cè)甲狀腺大小未見異常”是甲狀腺超聲檢查報(bào)告中經(jīng)常出現(xiàn)的2種描述,所要表達(dá)的含義都是該病人2側(cè)甲狀腺的大小在正常范圍內(nèi),這2種表述的句法結(jié)構(gòu)分別如圖2所示(依存關(guān)系樹的概念將在4.1節(jié)中詳細(xì)介紹),前者用形容詞“正常”作為謂語描述甲狀腺的大小而后者采用動(dòng)賓短語“未見異?!北磉_(dá)了相同的意思.另外,在這組描述中用于表示位置信息的詞也不同,前者使用了“左右葉”而后者用了“雙側(cè)”.

    由此可見,中文自然語言的復(fù)雜性導(dǎo)致了句法分析難度的增加,所以,針對這種情況,本文在進(jìn)行文本結(jié)構(gòu)化處理之前設(shè)計(jì)了預(yù)處理模塊,利用Word2vec工具訓(xùn)練得到詞向量后計(jì)算其余弦相似度,合并余弦值大于某個(gè)閾值的詞向量,從而消除一義多詞現(xiàn)象,規(guī)范病理檢查報(bào)告中的文字表述,提高結(jié)構(gòu)化模塊處理的準(zhǔn)確性.

    此外,在消除一義多詞后,預(yù)處理模塊還需要對病理檢查報(bào)告中的句子結(jié)構(gòu)進(jìn)行了簡化,將長句切分成若干短句,同時(shí)為了避免在切分短句的過程中丟失語義信息,在預(yù)處理模塊中將對每個(gè)短句所描述的器官或組織等關(guān)鍵信息進(jìn)行標(biāo)注,在保留原始信息描述對象的同時(shí)也起到了本文4.2節(jié)中提到的簡化依存關(guān)系樹的作用.

    2.2 結(jié)構(gòu)化模塊

    關(guān)鍵指標(biāo)的自動(dòng)發(fā)掘和對應(yīng)指標(biāo)值的提取是病理檢查報(bào)告結(jié)構(gòu)化的關(guān)鍵步驟,也是整個(gè)結(jié)構(gòu)化過程的核心模塊,本文借助依存句法分析方法實(shí)現(xiàn)了針對病理檢查報(bào)告的結(jié)構(gòu)化模塊.依存句法分析是通過分析詞與詞之間的依存關(guān)系來揭示其句法結(jié)構(gòu),依存句法分析的結(jié)果可用簡潔的依存關(guān)系樹結(jié)構(gòu)表示,能夠直接反映詞與詞之間的支配和依賴關(guān)系,這種支配關(guān)系有利于檢測出指標(biāo)及對應(yīng)指標(biāo)值之間的關(guān)系.

    結(jié)構(gòu)化模塊的輸入是經(jīng)過預(yù)處理后的病理檢查報(bào)告文本,隨后對所輸入的短句進(jìn)行依存句法分析,可以得到詞與詞之間的依存關(guān)系樹,通過句法分析和詞性分析獲取指標(biāo)詞key及對應(yīng)指標(biāo)值value,最終將自然語言描述的病理檢查報(bào)告轉(zhuǎn)化成key-value鍵值對形式的結(jié)構(gòu)化模板.

    Fig. 3 Three-tier neural network architecture of Word2vec.圖3 Word2vec 3層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

    2.3 后處理模塊

    為了能夠進(jìn)一步優(yōu)化結(jié)構(gòu)化結(jié)果,所以在結(jié)構(gòu)化模塊之后設(shè)計(jì)了后處理模塊.當(dāng)結(jié)構(gòu)化結(jié)果輸入該模塊后,首先將模板中含有剪裁策略標(biāo)注的特殊字符還原為對應(yīng)的漢語表述;其次,借助停用詞詞典去除結(jié)果中的停用詞,規(guī)范結(jié)構(gòu)化模板的文字表述.此外,該模塊通過人工輔助審查的方式修正結(jié)果中包含的噪聲數(shù)據(jù),進(jìn)而分析出預(yù)處理和結(jié)構(gòu)化算法中存在的不足,既優(yōu)化了結(jié)構(gòu)化結(jié)果的質(zhì)量,也起到了優(yōu)化算法的作用,使本文的結(jié)構(gòu)化算法能夠適用于更廣泛的情況,提高了算法的可擴(kuò)展性.

    3 一義多詞消除算法

    本文借助Word2vec中的神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練病理檢查報(bào)告中高頻詞匯的詞向量,同時(shí)通過詞向量間的余弦相似度對詞向量進(jìn)行聚類,得到文本中的同義詞集,最終利用同義詞集合并病理報(bào)告中的同義表述,消除一義多詞現(xiàn)象.

    3.1 詞向量訓(xùn)練

    在訓(xùn)練詞向量之前,需要對原始文本進(jìn)行分詞操作.本文借助HanLP漢語語言處理工具[18]對病理檢查報(bào)告文本進(jìn)行分詞,其分詞模塊采用Aho-Corasick自動(dòng)機(jī)[19]結(jié)合雙數(shù)組Trie樹[20]的極速多模式匹配算法,其分詞速度可達(dá)到每秒1 400萬字.接著,將分詞結(jié)果輸入Word2vec工具訓(xùn)練得到病理檢查報(bào)告中所有高頻詞的詞向量.在生成詞向量的模塊中,Word2vec 采用Distributed representation方法,該方法最早是由Collobert等人[21]提出,其基本思想是利用“輸入層-隱含層-輸出層”結(jié)構(gòu)的3層神經(jīng)網(wǎng)絡(luò)模型將詞表征為k維實(shí)數(shù)向量.在早期的詞向量研究方法中,詞向量通常以O(shè)ne-hot repres-entation形式表示,在獲取包含文檔中所有詞的詞匯表后,每個(gè)詞向量的維度與詞匯表的大小相同,向量的分量由0或1表示,若某個(gè)詞在詞匯表中的位置為k,那么該詞向量第k維為1,其他維度為0.可見One-hot representation詞向量表示方法雖然簡單,但很容易造成數(shù)據(jù)稀疏與維數(shù)災(zāi)難,可擴(kuò)展性較差,也無法有效反映詞與詞之間的語義相關(guān)性.而Distributed representation方法則是利用神經(jīng)網(wǎng)絡(luò)將這些高維詞向量轉(zhuǎn)化成低維向量.

    Word2vec中的3層神經(jīng)網(wǎng)絡(luò)如圖3所示,采用了層次化Log-Bilinear語言模型中的連續(xù)詞袋模型,其基本實(shí)現(xiàn)思想是根據(jù)上下文預(yù)測周邊單詞出現(xiàn)的概率.以預(yù)測詞wt出現(xiàn)概率為例,其計(jì)算公式如下:

    p(wt|context)=p(wt-n,wt-n+1,…,wt-2,wt-1),

    其中,詞wt的上下文context是取wt前n個(gè)詞,以O(shè)ne-hot representation方式表示成詞向量,并組合成|V|×n的矩陣C,其中V是文本所有詞的集合,|V|是該集合的大小.

    將矩陣C中的每個(gè)行向量C(wt-n),C(wt-n+1),…,C(wt-1)作為輸入層結(jié)點(diǎn),并將其首尾接拼,形成n×n維的向量記為x傳入隱含層.在隱含層以tanh作為激活函數(shù),得到1個(gè)|V|×1的向量y,y中的每個(gè)元素yi表示下一個(gè)詞wi的未歸一化概率.最后使用函數(shù)softmax對向量y進(jìn)行歸一化,最終得到向量y′,其計(jì)算公式如下:

    y′=b+Wx+Utanh(d+Hx),

    其中,輸入向量x為上下文語境對應(yīng)詞向量的拼接向量;矩陣W用于表示輸出層和輸入層是否存在聯(lián)系,通常為零矩陣即沒有直接聯(lián)系;矩陣U表示從隱含層到輸出層各詞的權(quán)重;H為輸入層到隱含層的權(quán)重矩陣;b為隱含層到輸出層的偏置向量;d是輸入層到隱含層的偏置向量.容易看出,本文方法通過語言模型建模,并且利用了上下文信息進(jìn)而獲得向量空間中的詞向量表示,使語義信息更加豐富.

    3.2 余弦相似度

    一般而言,若詞向量訓(xùn)練算法選取得當(dāng),生成的詞向量可形成1個(gè)具有語義特征的詞向量空間,每個(gè)向量是空間中的點(diǎn),2點(diǎn)之間的距離可視為詞與詞之間的語義相似性.詞向量之間的距離可以通過歐氏距離、切比雪夫距離等公式計(jì)算,也可以利用向量之間的余弦值進(jìn)行比較.本文在預(yù)處理模塊中利用詞向量訓(xùn)練工具Word2vec獲取病理檢查報(bào)告的詞向量,并采用余弦值比較詞與詞之間的語義相關(guān)性.對于2個(gè)n維向量A和B,其中A=(a1,a2,…,an),B=(b1,b2,…,bn),2個(gè)向量的余弦值為

    若求得的余弦值越接近1,就表明2個(gè)向量之間的夾角越接近0,也就表明2個(gè)向量越相似.所以本文在獲取同義詞表時(shí)將余弦值大于某個(gè)閾值的詞歸為一類,并將其中出現(xiàn)次數(shù)最多的詞作為類別名稱,用于替換病理報(bào)告中的其他同義詞.

    4 指標(biāo)信息提取算法

    本文利用HanLP漢語語言處理工具[18]對病理檢查報(bào)告進(jìn)行依存句法分析,HanLP中的依存句法分析模塊是根據(jù)詞語本身、詞性、后綴以及2詞間的距離等信息,利用最大熵模型求出任意2個(gè)詞之間可能性最大的依存關(guān)系及其概率,并由此確定該詞在依存關(guān)系樹中的結(jié)點(diǎn)位置以及與父結(jié)點(diǎn)之間關(guān)系,最終使用最小生成樹算法得到整棵依存關(guān)系樹.

    4.1 依存句法分析

    以甲狀腺超聲檢查報(bào)告中的文本為例,“甲狀腺左右葉大小及形態(tài)正?!笔且痪鋵谞钕偾闆r的影像描述,其依存關(guān)系樹如圖4所示.從圖4中可以看出依存關(guān)系樹的根結(jié)點(diǎn)指向每句話的核心詞,其他各個(gè)結(jié)點(diǎn)代表句中的1個(gè)成分,且每個(gè)結(jié)點(diǎn)包含4項(xiàng)信息,分別是詞原型、詞所在句中位置、詞性以及依存關(guān)系,其中依存關(guān)系表示結(jié)點(diǎn)中的詞與其父結(jié)點(diǎn)詞之間的語法關(guān)系.病理檢查報(bào)告中通常以名詞或形容詞作為謂語,而謂語是一句話的核心成分,所以圖4中的句法分析結(jié)果顯示,形容詞“正?!弊鳛橐来骊P(guān)系樹的根結(jié)點(diǎn).根據(jù)這一特性可知,病理檢查報(bào)告中以名詞或形容詞作為核心詞時(shí),依存關(guān)系樹的根結(jié)點(diǎn)往往是指標(biāo)詞或指標(biāo)值.由于謂語通常直接由主語支配,句中“大小”一詞與根結(jié)點(diǎn)之間形成主謂關(guān)系,由此判斷核心詞“正?!泵枋龅膶ο笫恰按笮 保谑堑玫?組key-value二元組:(大小,正常).而定中關(guān)系作為修飾成分,可以和指標(biāo)詞進(jìn)行合并,最終確定這組指標(biāo)詞與指標(biāo)值為(甲狀腺左右葉大小,正常).從這個(gè)例子中可以看出利用依存關(guān)系樹提取指標(biāo)的基本思想,其具體實(shí)現(xiàn)思路將在4.3節(jié)中進(jìn)行詳述.

    Fig. 4 One example of dependency tree.圖4 依存關(guān)系樹舉例

    醫(yī)療病理報(bào)告中一般以單句出現(xiàn),在漢語自然語言中,單句的組成成份主要有6種:主語、謂語、賓語、定語、狀語和補(bǔ)語,其中核心詞一般是句中的謂語.圖4所示的依存關(guān)系樹將詞之間具有語法關(guān)系的結(jié)點(diǎn)用邊相連,單句中詞與詞之間最常出現(xiàn)的語法關(guān)系有5種:主謂關(guān)系、動(dòng)賓關(guān)系、定中關(guān)系、狀中關(guān)系及中補(bǔ)關(guān)系.可以清楚地看出,依存關(guān)系樹結(jié)構(gòu)不僅反映了詞之間的依賴關(guān)系,而且給出了每個(gè)詞的詞性以及不同依賴關(guān)系的類型,這為判斷詞與詞之間的語義關(guān)系提供了良好的基礎(chǔ).之后便可根據(jù)詞在句中的語法關(guān)系及其詞性,提取關(guān)鍵信息.

    由于本文針對的是病理檢查報(bào)告,其中涉及許多醫(yī)學(xué)領(lǐng)域的專業(yè)術(shù)語,所以本文在執(zhí)行句法分析時(shí)增加了醫(yī)療領(lǐng)域詞庫,這是為了盡量避免在分詞、詞性標(biāo)注及句法分析中發(fā)生錯(cuò)誤,從而直接影響到指標(biāo)提取的準(zhǔn)確性.

    4.2 剪裁策略

    對于漢語中的長句而言,完整的依存關(guān)系樹不僅結(jié)構(gòu)復(fù)雜,算法運(yùn)行時(shí)間也十分冗長,同時(shí)對復(fù)雜的樹結(jié)構(gòu)進(jìn)行分析會(huì)引入大量噪聲,影響句法分析結(jié)果的質(zhì)量.所以本文根據(jù)病理檢查報(bào)告特征,提出了一種簡化依存關(guān)系樹結(jié)構(gòu)的方法,目的是在進(jìn)行依存句法分析之前盡可能過濾無用信息,并讓大多數(shù)有效信息更容易被機(jī)器獲取.

    中文自然語言中,一句語義完整的陳述句往往以句號結(jié)尾,句中的逗號起停頓作用,以逗號分隔的短句之間往往存在著語義上的關(guān)聯(lián).但病理檢查報(bào)告的特點(diǎn)在于以逗號分隔的短句之間往往是獨(dú)立的,它們單獨(dú)成句且能夠表述完整的語義,相鄰短句之間不存在語義上的關(guān)聯(lián).另外,病理檢查報(bào)告中會(huì)重復(fù)出現(xiàn)指標(biāo)所描述的某些組織器官名稱,這些名稱的多次出現(xiàn)會(huì)使依存關(guān)系樹的結(jié)構(gòu)變得復(fù)雜,而且對于指標(biāo)詞的識別沒有輔助作用.鑒于這些特性,本文提出了一種剪裁策略,預(yù)先構(gòu)建組織器官名稱與字符標(biāo)注對照表,按照對照表中的信息將文本中的組織器官名稱替換為特殊字符標(biāo)注.

    值得注意的是,切分短句雖然能夠在保留語義的情況下有效降低依存關(guān)系樹的高度,但是存在混淆原句信息的可能性.以超聲檢查報(bào)告為例,病人在1次超聲檢查中可能包含多個(gè)部位,如甲狀腺、肝臟、肺部等,而且同一次檢查的影像描述及檢查結(jié)果都會(huì)記錄在同一份病理報(bào)告中,當(dāng)切分短句后,各短句的描述對象會(huì)有一定程度的缺失,可能導(dǎo)致結(jié)構(gòu)化過程中出現(xiàn)組織器官與指標(biāo)不匹配的情況.所以在標(biāo)注特殊字符時(shí)不僅需要替換文本中的組織器官名稱,還需要對切分后的每個(gè)短句進(jìn)行標(biāo)注,以確保在以短句為單位分析語義時(shí)信息不會(huì)丟失.在漢語表述中,通常以逗號分隔的2句短語所描述的對象具有一致性,基于這樣的語義特征,本文制定了一種標(biāo)注規(guī)則:檢測當(dāng)前短句中是否存在組織器官的關(guān)鍵詞,若存在則將組織器官名稱對應(yīng)的特殊字符放在短句句首,并將相應(yīng)名稱刪除;若不存在則以與前一短句相同的特殊字符進(jìn)行標(biāo)注.

    表2給出了本文的信息標(biāo)注對照表.按照表2的對應(yīng)關(guān)系以及上述的病理檢查報(bào)告特點(diǎn),可以將“雙側(cè)甲狀腺外形欠規(guī)則,包膜光整,實(shí)質(zhì)內(nèi)未見異常結(jié)節(jié)回聲,甲狀腺實(shí)質(zhì)血供稍增多”這句甲狀腺超聲檢查報(bào)告中的影像描述轉(zhuǎn)化為:“@T@LR外形欠規(guī)則,@T@LR包膜光整,@N@LR實(shí)質(zhì)內(nèi)未見異常結(jié)節(jié)回聲,@T@LR實(shí)質(zhì)血供稍增多”.可見,標(biāo)注結(jié)果與原始文本所要表達(dá)的語義相同,故這種特殊字符標(biāo)注方法具有可行性.

    Table 2 Examples of Thyroid Ultrasound Report Tag Sets

    4.3 指標(biāo)信息檢測

    本文的目標(biāo)是通過依存句法分析和詞性特征提取病理報(bào)告中的醫(yī)療指標(biāo)信息及其對應(yīng)指標(biāo)值.根據(jù)之前對于病理檢查報(bào)告語義特征以及詞性特征的分析可知,句中各組成成分之間有明確的語義關(guān)系,通過對這些語義特征的分析可以提取出指標(biāo)詞key及對應(yīng)指標(biāo)值value,提取步驟可分為3步:

    步驟1. 判斷核心詞的詞性;

    步驟2. 遍歷子樹,根據(jù)核心詞詞性尋找與之相關(guān)的語義關(guān)系;

    步驟3. 根據(jù)依存句法分析得到的語義特征,提取指標(biāo)詞keyi(i∈+)或指標(biāo)值value,形成二元組(keyi,value).

    利用語義特征提取指標(biāo)時(shí),以下5種語義關(guān)系可以指示指標(biāo)詞key與指標(biāo)值value在句中的關(guān)系:主謂關(guān)系、動(dòng)賓關(guān)系、定中關(guān)系、動(dòng)補(bǔ)關(guān)系、并列關(guān)系.在尋找這5種語義關(guān)系時(shí)應(yīng)遵循4條規(guī)則:

    規(guī)則1. 若核心詞為動(dòng)詞,當(dāng)其孩子結(jié)點(diǎn)中存在與之成主謂關(guān)系或動(dòng)賓關(guān)系的名詞結(jié)點(diǎn)時(shí),從語義角度來看主語往往是整句話描述的對象,而賓語是動(dòng)詞的直接對象,由此可以確定二者分別對應(yīng)為指標(biāo)詞key和指標(biāo)值value;

    規(guī)則2. 若核心詞是名詞或形容詞,這在漢語自然語言中屬于名詞或形容詞充當(dāng)動(dòng)詞的情況,所以核心詞是整句話描述的關(guān)鍵信息,可以將其確定為指標(biāo)值value,與之成主謂關(guān)系的詞便是指標(biāo)詞key;

    規(guī)則3. 由于定語起到修飾作用,所以可將形成定中關(guān)系的名詞與形容詞進(jìn)行合并,組成1個(gè)指標(biāo)詞key或指標(biāo)值value;

    規(guī)則4. 由于并列關(guān)系成分在句中起到相同的作用,若判定其中一詞是指標(biāo)詞key,那么另一個(gè)也可視作指標(biāo)詞key,同理若其中一詞是指標(biāo)值value則另一個(gè)也是指標(biāo)值value.

    根據(jù)上述規(guī)則,可以得到基于依存句法分析提取指標(biāo)算法,算法1和算法2的偽代碼如下:

    算法1. 指標(biāo)提取主程序.

    輸入:依存關(guān)系樹鄰接表;每個(gè)結(jié)點(diǎn)是1個(gè)四元組:(ID,LEMMA,POSTAG,DEPREL),其中ID表示詞在原句中的位置,LEMMA是詞本身,POSTAG表示詞性(n表示名詞,v表示動(dòng)詞,a表示形容詞),DEPREL表示結(jié)點(diǎn)與其父結(jié)點(diǎn)之間的依存關(guān)系;鄰接表表頭包含所有結(jié)點(diǎn)的ID;

    輸出:二元組(keyi,value),其中keyi(i∈+)是指標(biāo)詞,value是指標(biāo)值.

    ① CASE WHENroot→POSTAG=‘n’

    ② 提取root→LEMMA為指標(biāo)詞keyi;

    ③ 對每個(gè)root的孩子結(jié)點(diǎn)而言

    ④ 將所有DEPREL=‘并列關(guān)系’結(jié)點(diǎn)提取為新指標(biāo)詞keyj(j∈+) ;

    ⑤ 將所有DEPREL=‘定中關(guān)系’結(jié)點(diǎn)提取為指標(biāo)值value,并調(diào)用算法2;

    ⑥ CASE WHENroot→POSTAG=‘v’

    ⑦ 對每個(gè)root的孩子結(jié)點(diǎn)而言

    ⑧ 將所有DEPREL=‘主謂關(guān)系’結(jié)點(diǎn)提取為指標(biāo)詞keyi;

    ⑨ 將所有DEPREL=‘動(dòng)賓關(guān)系’or‘補(bǔ)關(guān)系’點(diǎn)提取為指標(biāo)值value,并調(diào)用算法2;

    ⑩ CASE WHENroot→POSTAG=‘a(chǎn)’

    算法2. 深度遍歷子樹提取算法.

    輸入:依存關(guān)系樹結(jié)點(diǎn)node;

    輸出:指標(biāo)詞或指標(biāo)值集合.

    ① 從node開始深度遍歷其子樹

    ② CASE WHENroot→POSTAG=‘n’

    ③ 將所有子樹中DEPREL=‘定中關(guān)系’的結(jié)點(diǎn)按照遍歷順序與指標(biāo)值value合并;

    ④ CASE WHENroot→POSTAG=‘v’

    ⑤ 將所有子樹中DEPREL=‘并列關(guān)系’的結(jié)點(diǎn)按照遍歷順序與指標(biāo)值value合并;

    ⑥ CASE WHENroot→POSTAG=‘a(chǎn)’

    ⑦ 將所有子樹中DEPREL=‘定中關(guān)系’的結(jié)點(diǎn)按照遍歷順序與所有指標(biāo)詞keyi合并;

    ⑧ 將所有子樹中DEPREL=‘并列關(guān)系’的結(jié)點(diǎn)提取為新指標(biāo)詞keyj.

    結(jié)合病理檢查報(bào)告的描述特征可知,結(jié)構(gòu)化結(jié)果中指標(biāo)詞與指標(biāo)值的對應(yīng)關(guān)系可能是一對一或多對一關(guān)系,這是由于醫(yī)生常常將多個(gè)表述相同的指標(biāo)合并在一起,所以當(dāng)處理完每個(gè)依存關(guān)系樹后會(huì)生成若干指標(biāo)詞keyi和1個(gè)指標(biāo)值value,若結(jié)果中存在多個(gè)指標(biāo)詞的情況,則這些指標(biāo)詞keyi所對應(yīng)的指標(biāo)值均為value.

    5 結(jié)構(gòu)化結(jié)果優(yōu)化算法

    為了進(jìn)一步優(yōu)化依存句法分析結(jié)構(gòu)化結(jié)果,本文設(shè)計(jì)了后處理模塊,其主要功能是在規(guī)范結(jié)構(gòu)化模板中的文字表述的同時(shí),通過分析噪聲數(shù)據(jù)產(chǎn)生的原因優(yōu)化算法.其優(yōu)化算法流程如圖5所示.

    Fig. 5 Procedure of post processing module.圖5 后處理模塊流程

    結(jié)構(gòu)化結(jié)果優(yōu)化算法的輸入是經(jīng)過依存句法分析得到的結(jié)構(gòu)化模板,算法首先根據(jù)剪裁策略中制定的字符標(biāo)注對照表還原模板中含有的特殊字符.隨后利用停用詞詞典去除停用詞,從而規(guī)范模板中文字的表述;接著利用在預(yù)處理模塊中生成的同義詞詞典修正指標(biāo)詞和指標(biāo)值的錯(cuò)誤表述,同時(shí)配合人工校驗(yàn)方式刪除結(jié)構(gòu)化結(jié)果中的多余信息,從而去除噪聲數(shù)據(jù),提高結(jié)構(gòu)化結(jié)果的正確性;最終將后處理得到的錯(cuò)誤表述和噪聲數(shù)據(jù)作為優(yōu)化預(yù)處理和依存句法分析算法的依據(jù),由于不同病理檢查報(bào)告的文字特征存在差異,也存在某些特殊的表述方式,而這些差異往往導(dǎo)致了噪聲數(shù)據(jù)的產(chǎn)生,所以在修復(fù)噪聲數(shù)據(jù)時(shí)可以分析得到不同文檔的特點(diǎn),并將針對這些特殊表述的文本結(jié)構(gòu)化方法加入算法,從而提高結(jié)構(gòu)化的準(zhǔn)確率,增強(qiáng)依存句法分析的適用性和可擴(kuò)展性.

    6 實(shí)驗(yàn)設(shè)置和結(jié)果分析

    本文的實(shí)驗(yàn)數(shù)據(jù)來自某三甲醫(yī)院提供的真實(shí)病理檢查報(bào)告.為了使實(shí)驗(yàn)結(jié)果不失一般性,我們選擇樣本較多的甲狀腺超聲檢查和胸部CT平掃檢查數(shù)據(jù)作為本次實(shí)驗(yàn)的測試數(shù)據(jù)集,2個(gè)數(shù)據(jù)集的記錄數(shù)分別為470 193條以及405 559條.

    在預(yù)處理模塊中,根據(jù)多次實(shí)驗(yàn)得出的結(jié)果,當(dāng)2個(gè)詞的余弦相似度閾值設(shè)為0.65時(shí),所得同義詞表中單詞個(gè)數(shù)較多且相似度較高,所以本文在獲取同義詞表時(shí)將余弦值大于0.65的詞歸為一類.此外,本次實(shí)驗(yàn)將詞向量的維度設(shè)置為100維,此時(shí)訓(xùn)練詞向量的時(shí)間復(fù)雜度最小,而且相對于其他維度的詞向量而言,100維的詞向量在向量差、向量連接以及向量乘等特征中同樣具有較好的分類性能表現(xiàn).類似地,在選取訓(xùn)練窗口大小時(shí),經(jīng)過多次實(shí)驗(yàn)可知,當(dāng)選取窗口大小為8時(shí)訓(xùn)練詞向量的時(shí)間復(fù)雜度較低,同時(shí)分類性能較好,故將訓(xùn)練詞向量時(shí)將上下文的選詞個(gè)數(shù)設(shè)置為8個(gè)詞.

    為了能夠更好地獲取統(tǒng)計(jì)信息,我們從2個(gè)數(shù)據(jù)集中均隨機(jī)選取了4 000條記錄作為樣本進(jìn)行分析,并以手工判定的方式獲取準(zhǔn)確率P、召回率R及F1度量值,進(jìn)而得到統(tǒng)計(jì)結(jié)果.準(zhǔn)確率和召回率是廣泛應(yīng)用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的2個(gè)度量值,常用于評價(jià)結(jié)果的質(zhì)量.在本文實(shí)驗(yàn)中,準(zhǔn)確率表示在所有依存句法分析得到的結(jié)構(gòu)化結(jié)果中,表述正確的指標(biāo)詞及對應(yīng)指標(biāo)值所占的比例,其計(jì)算公式如下:

    召回率表示已提取指標(biāo)詞或指標(biāo)值與原病理檢查報(bào)告中包含的所有指標(biāo)數(shù)量的比率,反映了結(jié)構(gòu)化結(jié)果是否覆蓋到病理檢查報(bào)告中包含的絕大多數(shù)指標(biāo)詞或指標(biāo)值,其計(jì)算公式可表示為

    F1值是準(zhǔn)確率和召回率的調(diào)和平均值,可以綜合反映文本結(jié)構(gòu)化結(jié)果的好壞,計(jì)算公式如下:

    6.1 剪裁策略效果分析

    為了測試本文在預(yù)處理階段提出的依存關(guān)系樹剪裁策略的效果,本文從依存關(guān)系樹的高度、詞性類型占比以及依存關(guān)系類型占比這3個(gè)方面對甲狀腺超聲檢查報(bào)告的原始文本、切分后文本以及剪裁后的文本進(jìn)行了統(tǒng)計(jì),利用HanLP的統(tǒng)計(jì)模塊得到上述信息的統(tǒng)計(jì)結(jié)果.從表3可以看出,當(dāng)按照短句進(jìn)行依存句法分析后,依存關(guān)系樹的層數(shù)明顯下降,由3.21下降到1.13,且表5所示的依存關(guān)系分布更加集中,定中關(guān)系與主謂關(guān)系所占比例明顯上升,有利于算法提取指標(biāo)詞及其對應(yīng)指標(biāo)值在句中的位置.由本文4.2節(jié)可知,剪裁策略的主要目的是將復(fù)雜的專業(yè)術(shù)語替換為簡單的特殊符號,并不會(huì)產(chǎn)生語序或語義的變化,所以表3中剪裁后文本與切分后文本的句子數(shù)量是不變的.

    Table 3 Statistics of Thyroid Ultrasound Sample Data

    另外,通過統(tǒng)計(jì)可以發(fā)現(xiàn),指標(biāo)詞以及指標(biāo)值的詞性分布相對集中,其中90%以上的指標(biāo)詞是名詞詞性,而指標(biāo)值中名詞占23,其余詞性大多為形容詞和數(shù)量詞,因此詞性特征對指標(biāo)信息檢測而言十分重要.表4顯示的分別是原始文本、按短句切分后文本以及執(zhí)行剪裁策略后文本中包含詞性類型的分布.從列2和列3數(shù)據(jù)可以看出,當(dāng)執(zhí)行剪裁策略后,文本中標(biāo)注的特殊字符在依存句法分析時(shí)會(huì)被識別為標(biāo)點(diǎn),于是標(biāo)點(diǎn)符號在文中的占比大幅度提升,而名詞占比隨之下降.將專業(yè)名詞轉(zhuǎn)化為特殊符號的好處在于可以一定程度上增加詞與詞的分隔標(biāo)記,減少歧義,提升分詞的準(zhǔn)確率.表5列舉出了6種數(shù)量最多的語義關(guān)系,按出現(xiàn)次數(shù)從高到低分別是定中關(guān)系、主謂關(guān)系、核心關(guān)系、狀中結(jié)構(gòu)、并列關(guān)系和動(dòng)賓關(guān)系.另外,表5中列2和列3數(shù)值沒有發(fā)生明顯變化,可見標(biāo)注特殊字符對于語義的影響不大.

    Table 4 Statistics of High-Frequency Part-of-Speech Types

    Table 5 Statistics of High-Frequency Semantic Relations

    為了進(jìn)一步說明剪裁策略對于依存句法分析結(jié)果的影響,本文以甲狀腺超聲檢查報(bào)告文本作為數(shù)據(jù)集,對其結(jié)構(gòu)化的準(zhǔn)確率和召回率進(jìn)行了統(tǒng)計(jì).如表6所示,在未使用剪裁策略時(shí),結(jié)構(gòu)化的準(zhǔn)確率低于55%,相比使用剪裁策略時(shí)的準(zhǔn)確率低了近15個(gè)百分點(diǎn),召回率也低了16%,可見剪裁策略的使用可以有效減少分詞和詞性判斷中出現(xiàn)的歧義情況,從而提高結(jié)構(gòu)化結(jié)果的質(zhì)量.

    Table 6 Comparison of Annotated and Unannotated Text

    6.2 后處理效果分析

    為了提高算法的健壯性,本文針對結(jié)構(gòu)化結(jié)果提出了后處理方法,在本節(jié)中將對后處理模塊的效果進(jìn)行分析.本節(jié)將從準(zhǔn)確率、召回率和F1值這3個(gè)方面進(jìn)行分析,同時(shí),為了分析后處理方法對于算法可擴(kuò)展性的影響,故選取了甲狀腺超聲和胸部CT平掃2個(gè)檢查報(bào)告作為測試集.從表7和表8中的數(shù)據(jù)可以看出,后處理方法能夠?qū)?個(gè)數(shù)據(jù)集的結(jié)構(gòu)化結(jié)果都起到優(yōu)化作用,平均準(zhǔn)確率提高了近10個(gè)百分點(diǎn),甲狀腺超聲檢查報(bào)告的結(jié)構(gòu)化準(zhǔn)確率更是從71.06%上升至82.45%,提升了近12%.此外,后處理模塊對于結(jié)構(gòu)化方法的召回率也有一定的影響,將指標(biāo)詞和指標(biāo)值的召回率平均提升了約5%.

    Table 7 Thyroid Ultrasound Report Optimization Results

    Table 8 Chest CT Scan Report Optimization Results

    從表7、表8中還可以看出,若對不同文本進(jìn)行后處理,這些文本結(jié)構(gòu)化的準(zhǔn)確率均提升到同一水準(zhǔn),可見不同數(shù)據(jù)集的后處理過程能夠相互影響,也可以提高其他數(shù)據(jù)集結(jié)構(gòu)化的準(zhǔn)確率.從這組實(shí)驗(yàn)中可以看出,后處理方法在提高結(jié)構(gòu)化質(zhì)量中能夠起到很大程度的作用,而且也提升了本文方法的可擴(kuò)展性.

    6.3 對比實(shí)驗(yàn)及分析

    本節(jié)將依存句法分析結(jié)構(gòu)化結(jié)果與基于人工制定規(guī)則結(jié)構(gòu)化結(jié)果進(jìn)行了對比,對比結(jié)果如表9和表10所示.基于人工規(guī)則的結(jié)構(gòu)化方法一般是指通過關(guān)鍵字信息定位所要結(jié)構(gòu)化的文本范圍,然后通過人工閱讀方式分析文本中的句式模式特征,并由此編寫關(guān)系抽取算法將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)[22].本節(jié)采用的基于人工規(guī)則結(jié)構(gòu)化方法是指利用現(xiàn)有醫(yī)療知識庫,從文本中定位指標(biāo)詞key可能出現(xiàn)的位置,而后通過人工發(fā)現(xiàn)文本中包含標(biāo)點(diǎn)符號、數(shù)字、特殊字符及停用詞等句式的特征,憑經(jīng)驗(yàn)歸納出指標(biāo)詞key與指標(biāo)值value在文本中的關(guān)系,從而編寫出結(jié)構(gòu)化算法.上述結(jié)構(gòu)化方法具有較高的準(zhǔn)確率和召回率,所以現(xiàn)常用于衡量其他結(jié)構(gòu)化方法.考慮到該方法需要耗費(fèi)大量人力閱讀文本,故不再用于實(shí)際生產(chǎn)之中.此外,為了驗(yàn)證本文方法在多樣化病理報(bào)告中有較強(qiáng)的適用性,本文選取甲狀腺超聲檢查報(bào)告和胸部CT平掃檢查報(bào)告2種醫(yī)療文檔作為實(shí)驗(yàn)數(shù)據(jù)集.

    Table 9 Comparison Results on Thyroid Ultrasound Reports

    Table 10 Comparison Results on Chest CT Scan Reports

    從表9和表10中可以看出,針對本文選取的2個(gè)測試集,基于人工規(guī)則方法在提取指標(biāo)詞和指標(biāo)值的準(zhǔn)確率可以達(dá)到85%,而召回率最高可達(dá)到95%,可見通過基于人工規(guī)則方法能夠準(zhǔn)確地提取結(jié)構(gòu)化信息,而且?guī)缀跄軌蚋采w所有指標(biāo).本文提出的結(jié)構(gòu)化方法在2個(gè)數(shù)據(jù)集樣本上的指標(biāo)詞識別準(zhǔn)確率均可達(dá)到82%以上,其對應(yīng)指標(biāo)值的準(zhǔn)確率可達(dá)到79%,且召回率均可達(dá)到86%以上,可見本文方法在準(zhǔn)確率和召回率上都能接近基于人工規(guī)則方法.雖然本文方法未能在準(zhǔn)確率和召回率上超過基于人工規(guī)則方法,但是基于人工規(guī)則方法需要消耗大量的人力資源閱讀文本,而且如果不同文本之間的語言表述存在差異,那么針對不同文本需要制定不同提取規(guī)則,可見該方法的可移植性較差.相比之下,基于依存關(guān)系的結(jié)構(gòu)化方法能夠省去大量人工閱讀的工作量,接近90%的召回率表明依存句法分析能夠識別大部分指標(biāo)詞,而且能夠適用于不同檢查報(bào)告中的不同句式結(jié)構(gòu),可以在很大程度上實(shí)現(xiàn)自動(dòng)化提取的目標(biāo).此外,當(dāng)病理檢查報(bào)告中出現(xiàn)新詞時(shí),若采用基于人工規(guī)則的提取方法則無法識別這些新詞,但依存句法分析結(jié)構(gòu)化方法仍然可以通過句法特征將其識別為指標(biāo)關(guān)鍵字,最終轉(zhuǎn)化為key-value形式的結(jié)構(gòu)化數(shù)據(jù).

    雖然本文提出的基于依存句法分析結(jié)構(gòu)化方法的準(zhǔn)確率還有待提高,但是目前針對醫(yī)療文本結(jié)構(gòu)化的研究較少,且本文方法能有效減少人工閱讀大量文本的工作,雖然在后處理中仍需要人工參與校驗(yàn),但這與基于人工規(guī)則進(jìn)行文本結(jié)構(gòu)化的方法相比,其工作量有了大幅降低,大大減少了人工參與的比重,且很容易擴(kuò)展到其他醫(yī)療文檔的結(jié)構(gòu)化過程中,應(yīng)用范圍更廣泛,給醫(yī)療指標(biāo)結(jié)構(gòu)化提供了新的思路.

    7 結(jié) 論

    本文針對病理檢查報(bào)告的結(jié)構(gòu)化進(jìn)行了研究:

    1) 利用神經(jīng)網(wǎng)絡(luò)語言模型盡可能地消除一義多詞現(xiàn)象;

    2) 為了提升依存句法分析結(jié)果的準(zhǔn)確性,提出了切分短句與標(biāo)注關(guān)鍵信息的剪裁策略;

    3) 根據(jù)病理報(bào)告文本的依存關(guān)系特征,提出了一種有效的指標(biāo)提取方法.在實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性.然而,基于依存句法分析提取指標(biāo)詞及對應(yīng)指標(biāo)值的準(zhǔn)確性還有待進(jìn)一步提升.針對這個(gè)問題,未來的工作將嘗試深度學(xué)習(xí)技術(shù),自動(dòng)獲取更加準(zhǔn)確的自然語言語義特征.

    [1]Zhao Shiqi, Wang Haifeng, Li Chao, et al. Automatically generating questions from queries for community-based question answering[C] //Proc of the 5th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2011: 929-937

    [2]Tsolmon B, Lee K. An event extraction model based on timeline and user analysis in latent dirichlet allocation[C] //Proc of the 37th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2014: 1187-1190

    [3]Wan Xiaojun, Yang Jianwu. Multi-document summarization using cluster-based link analysis[C] //Proc of the 31st Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2008: 299-306

    [4]Socher R, Karpathy A, Le Q V, et al. Grounded compositional semantics for finding and describing images with sentences[C] //Transactions of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2014: 207-218

    [5]Wen Xu, Zhang Yu, Liu Ting, et al. Syntactic structure parsing based Chinese question classification[J]. Journal of Chinese Information Processing, 2006, 20(2): 33-39 (in Chinese)(文勖, 張宇, 劉挺, 等. 基于句法結(jié)構(gòu)分析的中文問題分類[J]. 中文信息學(xué)報(bào), 2006, 20(2): 33-39)

    [6]Tesnière L. Eléments De Syntaxe Structurale[M]. Paris: Librairie Klincksieck, 1959

    [7]Hu Baoshun, Wang Daling, Yu Ge, et al. An answer extraction algorithm based on syntax structure feature parsing and classification[J]. Chinese Journal of Computers, 2008, 32(4): 662-676 (in Chinese)(胡寶順, 王大玲, 于戈, 等. 基于句法結(jié)構(gòu)特征分析及分類技術(shù)的答案提取算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2008, 32(4): 662-676)

    [8]Guo Xiyue, He Tingting, Hu Xiaohua, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of Chinese Information Processing, 2014, 28(6): 183-186 (in Chinese)(郭喜躍, 何婷婷, 胡小華, 等. 基于句法語義特征的中文實(shí)體關(guān)系抽取[J]. 中文信息學(xué)報(bào), 2014, 28(6): 183-186)

    [9]Gan Lixin, Wan Changxuan, Liu Dexi, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of Computer Research and Development, 2016, 53(2): 284-302 (in Chinese)(甘麗新, 萬常選, 劉德喜, 等. 基于句法語義特征的中文實(shí)體關(guān)系抽取[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 284-302)

    [10]Li Haiguang, Wu Xindong, Li Zhao, et al. A relation extraction method of Chinese named entities based on location and semantic features[J]. Applied Intelligence, 2013, 38: 1-15

    [11]Uzuner O, Mailoa J, Ryan R, et al. Semantic relations for problem-oriented medical records[J]. Artificial Intelligence in Medicine, 2010, 50(2): 63-73

    [12]Chen E S, Hripcsak G, Xu H, et al. Automated acquisition of disease drug knowledge from biomedical and clinical documents: An initial study[J]. Journal of the American Medical Informatics Association, 2008, 15(1): 87-98

    [13]Blunsom P, Hermann K M. The role of syntax in vector space models of compositional semantics[C] //Proc of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2013: 894-904

    [15]Danielfrg. Word2vec[CP/OL]. San Francisco: GitHub, (2015-12-11) [2016-04-07]. https://github.com/danielfrg/word2vec

    [16]Tariq A, Foroosh H. Feature-independent context estimation for automatic image annotation[C] //Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1958-1965

    [17]Araki J, Callan J. An annotation similarity model in passage ranking for historical fact validation[C] //Proc of the 37th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2014: 1111-1114

    [18]Hankcs. HanLP[CP/OL]. San Francisco: GitHub, (2015-07-12) [2016-10-16]. https://github.com/hankcs/HanLP/releases

    [19]Aho A V, Corasick M J. Efficient string matching: An aid to bibliographic search[J]. Communications of the ACM, 1975, 18(6): 333-340

    [20]Aoe J. An efficient digital search algorithm by using a double-array structure[J]. IEEE Trans on Software Engineering, 1989, 15(9): 1066-1077

    [21]Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011(12): 2493-2537

    [22]Buchanan B G, Shortliffe E H. Rule-based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project[M]. Boston: Addison Wesley, 1984

    Tian Chiyuan, born in 1990. Master candidate. His main research interests include natural language processing and database.

    Chen Dehua, born in 1976. PhD and associate professor. His main research interests include database, data warehouse, big data and deep learning.

    Wang Mei, born in 1980. PhD and professor. Member of China Computer Federation. Her main research interests include database, image semantic analysis and information retrieval (wangmei@dhu.edu.cn).

    Le Jiajin, born in 1951. Professor and PhD supervisor. Member of China Computer Federation. His main research interests include database and data warehouse, software engineering theory and practice (lejiajin@dhu.edu.cn).

    Structured Processing for Pathological Reports Based on Dependency Parsing

    Tian Chiyuan, Chen Dehua, Wang Mei, and Le Jiajin

    (College of Computer Science and Technology, Donghua University, Shanghai 201620)

    Most of pathological reports are unstructured texts which can not be directly analyzed by computers. The current researches on structured texts mainly focus on the information extraction. However, the syntactic features of pathological reports are particular, which makes it more difficult to extract information relations. To solve this problem, a novel method of structuralizing pathological reports based on syntactic and semantic features is proposed in this paper. First of all, we construct a synonym lexicon by using neural network language models to eliminate the phenomenon of synonymy. Then the dependency trees are generated based on the preprocessed pathological reports to extract medical examination indices. Meanwhile, we use short-sentence segmentation and annotation as optimized strategies to simplify the structure of dependency trees, which makes the grammatical relations of medical texts clearer and improves the quality of the structured results. Finally the key-value pairs of medical examination indices can be extracted from pathological reports in Chinese, and the structured texts can be generated automatically. Experimental results based on real pathological report data sets show that the performance of the proposed method on medical indices and values extraction achieves 82.91% and 79.11% of accuracy, which provides a solid foundation for related studies in the future.

    medical data; pathological reports; dependency parsing; text structured processing; neural network language model

    2016-08-16;

    2016-10-24

    上海市科技創(chuàng)新行動(dòng)計(jì)劃項(xiàng)目(15511106900);上海市科技發(fā)展基金項(xiàng)目(16JC1400802);中央高?;究蒲袠I(yè)務(wù)費(fèi)東華大學(xué)勵(lì)志計(jì)劃項(xiàng)目(B201312);上海市信息化發(fā)展專項(xiàng)資金項(xiàng)目(XX-XXFZ-01-14-6349) This work was supported by the Shanghai Innovation Action Project of Science and Technology (15511106900), the Science and Technology Development Foundation of Shanghai (16JC1400802), the DHU Distinguished Young Professor Program of Fundamental Research Funds for the Central Universities (B201312), and the Shanghai Specific Fund Project for Informatization Development (XX-XXFZ-01-14-6349).

    陳德華(chendehua@dhu.edu.cn)

    TP391

    猜你喜歡
    語義文本方法
    語言與語義
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    可能是方法不對
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    用對方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    捕魚
    認(rèn)知范疇模糊與語義模糊
    欧美日韩成人在线一区二区| 久久精品国产a三级三级三级| 国产精品秋霞免费鲁丝片| 天堂中文最新版在线下载| 激情视频va一区二区三区| 青春草亚洲视频在线观看| 校园人妻丝袜中文字幕| 久久精品国产综合久久久| a 毛片基地| 少妇熟女欧美另类| 啦啦啦在线免费观看视频4| 国产成人av激情在线播放| 国产免费视频播放在线视频| 在线观看美女被高潮喷水网站| 日本av手机在线免费观看| 久久97久久精品| 中文字幕av电影在线播放| 99久久综合免费| 免费在线观看视频国产中文字幕亚洲 | 国产免费福利视频在线观看| av片东京热男人的天堂| 亚洲四区av| 老熟女久久久| 波野结衣二区三区在线| 精品一区二区免费观看| 热re99久久国产66热| 飞空精品影院首页| 国产在线视频一区二区| 香蕉国产在线看| 国产人伦9x9x在线观看 | 亚洲美女黄色视频免费看| 国产亚洲最大av| 久久99一区二区三区| 久久精品国产亚洲av涩爱| 少妇人妻久久综合中文| 女性生殖器流出的白浆| 久久精品夜色国产| 亚洲美女视频黄频| 麻豆av在线久日| 亚洲第一av免费看| 免费久久久久久久精品成人欧美视频| 伦理电影大哥的女人| 国产有黄有色有爽视频| 啦啦啦在线观看免费高清www| 欧美国产精品va在线观看不卡| 天天躁夜夜躁狠狠久久av| 97在线人人人人妻| 国产精品三级大全| 亚洲欧美一区二区三区黑人 | 激情视频va一区二区三区| 人妻少妇偷人精品九色| 美女午夜性视频免费| 久久久久国产网址| 日本色播在线视频| 人人妻人人添人人爽欧美一区卜| 国产乱来视频区| 国产淫语在线视频| 美女大奶头黄色视频| 亚洲美女视频黄频| 国产男女超爽视频在线观看| 国产精品av久久久久免费| 99国产综合亚洲精品| 在线观看免费日韩欧美大片| 国产成人精品一,二区| 国产精品女同一区二区软件| 亚洲激情五月婷婷啪啪| 秋霞伦理黄片| 天堂俺去俺来也www色官网| 精品亚洲成a人片在线观看| 人人妻人人爽人人添夜夜欢视频| 91国产中文字幕| 日本猛色少妇xxxxx猛交久久| 一级毛片我不卡| 九九爱精品视频在线观看| 亚洲精品美女久久av网站| 亚洲精品久久久久久婷婷小说| 日日撸夜夜添| 在现免费观看毛片| 久久久精品免费免费高清| 黄频高清免费视频| 成年动漫av网址| 久久影院123| 美女午夜性视频免费| 这个男人来自地球电影免费观看 | tube8黄色片| 免费黄频网站在线观看国产| 国产不卡av网站在线观看| 人人妻人人爽人人添夜夜欢视频| 看十八女毛片水多多多| 亚洲国产精品一区二区三区在线| 欧美精品人与动牲交sv欧美| 在线观看免费日韩欧美大片| 国产一区二区三区av在线| 精品国产乱码久久久久久小说| 国产精品亚洲av一区麻豆 | 色婷婷av一区二区三区视频| 日韩制服骚丝袜av| 色吧在线观看| 亚洲成国产人片在线观看| 成年美女黄网站色视频大全免费| 亚洲国产看品久久| 老熟女久久久| 国产免费又黄又爽又色| 国产精品麻豆人妻色哟哟久久| 天天影视国产精品| 秋霞伦理黄片| 欧美老熟妇乱子伦牲交| 久久婷婷青草| 成年女人在线观看亚洲视频| 成年女人在线观看亚洲视频| 欧美日本中文国产一区发布| 90打野战视频偷拍视频| 日韩一本色道免费dvd| 欧美最新免费一区二区三区| 成人毛片a级毛片在线播放| 香蕉丝袜av| 中文字幕人妻丝袜一区二区 | 成年人免费黄色播放视频| 久久97久久精品| freevideosex欧美| 日韩一区二区三区影片| 日韩一区二区三区影片| 性色av一级| 美国免费a级毛片| av不卡在线播放| 人妻系列 视频| 韩国精品一区二区三区| 亚洲伊人色综图| 国产色婷婷99| 精品人妻在线不人妻| 亚洲久久久国产精品| 午夜福利,免费看| 日本-黄色视频高清免费观看| 国产一区二区激情短视频 | 日韩欧美一区视频在线观看| 1024香蕉在线观看| 国产欧美亚洲国产| 最近最新中文字幕大全免费视频 | 中文乱码字字幕精品一区二区三区| 国产精品久久久久久精品电影小说| 曰老女人黄片| 黄色视频在线播放观看不卡| 男人舔女人的私密视频| 一个人免费看片子| h视频一区二区三区| 蜜桃在线观看..| 亚洲经典国产精华液单| 久久久久久久久久久久大奶| 日韩人妻精品一区2区三区| 亚洲美女黄色视频免费看| 国产精品亚洲av一区麻豆 | 日本vs欧美在线观看视频| 日本色播在线视频| 久久免费观看电影| 欧美日韩综合久久久久久| 日本av手机在线免费观看| 有码 亚洲区| 99热网站在线观看| 国产成人精品无人区| 精品国产一区二区三区四区第35| 日本欧美视频一区| 精品视频人人做人人爽| 亚洲人成网站在线观看播放| 日韩,欧美,国产一区二区三区| 午夜福利视频在线观看免费| 999精品在线视频| 午夜福利影视在线免费观看| 在线免费观看不下载黄p国产| 国产一区有黄有色的免费视频| 满18在线观看网站| 日韩成人av中文字幕在线观看| 自线自在国产av| 肉色欧美久久久久久久蜜桃| 国产成人av激情在线播放| 国产日韩欧美亚洲二区| 纵有疾风起免费观看全集完整版| 看免费av毛片| 国产色婷婷99| 成人国产麻豆网| 国产精品久久久久成人av| 秋霞伦理黄片| 国产成人91sexporn| 在线 av 中文字幕| 深夜精品福利| 十分钟在线观看高清视频www| 亚洲欧美精品综合一区二区三区 | 亚洲美女黄色视频免费看| 丰满少妇做爰视频| 80岁老熟妇乱子伦牲交| 一区二区av电影网| 亚洲国产精品成人久久小说| 大香蕉久久网| 亚洲欧洲精品一区二区精品久久久 | 亚洲一级一片aⅴ在线观看| 亚洲一区中文字幕在线| videosex国产| 欧美精品av麻豆av| 国产欧美日韩一区二区三区在线| 高清黄色对白视频在线免费看| 成年女人在线观看亚洲视频| 欧美日本中文国产一区发布| 午夜福利网站1000一区二区三区| 婷婷色综合大香蕉| 国产高清国产精品国产三级| 精品少妇内射三级| 欧美成人精品欧美一级黄| 熟女av电影| 久久99一区二区三区| 美女国产视频在线观看| 日韩成人av中文字幕在线观看| 少妇熟女欧美另类| 久久婷婷青草| 日韩人妻精品一区2区三区| 国产人伦9x9x在线观看 | 亚洲国产精品一区二区三区在线| 欧美少妇被猛烈插入视频| av不卡在线播放| 久热这里只有精品99| 婷婷色综合大香蕉| 亚洲三区欧美一区| 熟女电影av网| 亚洲,一卡二卡三卡| 国产xxxxx性猛交| 国产 一区精品| 久久国内精品自在自线图片| 国产免费现黄频在线看| 国产精品女同一区二区软件| 成人午夜精彩视频在线观看| 99久久中文字幕三级久久日本| 青春草国产在线视频| 国产精品av久久久久免费| 久久久久久久久免费视频了| 国产日韩欧美在线精品| 久久这里只有精品19| 一边摸一边做爽爽视频免费| 亚洲精品aⅴ在线观看| 一区二区三区四区激情视频| 久久av网站| 一级毛片 在线播放| 国产日韩欧美视频二区| 国产免费福利视频在线观看| 午夜日韩欧美国产| 亚洲,欧美,日韩| 成年女人毛片免费观看观看9 | 色播在线永久视频| 亚洲在久久综合| 亚洲国产欧美在线一区| 男女午夜视频在线观看| 国产国语露脸激情在线看| 日韩 亚洲 欧美在线| 久久久国产精品麻豆| 丰满乱子伦码专区| tube8黄色片| 观看av在线不卡| 久久久久精品性色| 美女脱内裤让男人舔精品视频| 美女xxoo啪啪120秒动态图| 午夜福利视频在线观看免费| 精品一区二区免费观看| 成人二区视频| 寂寞人妻少妇视频99o| 最新中文字幕久久久久| 高清欧美精品videossex| 另类亚洲欧美激情| 久久精品国产亚洲av涩爱| 日本猛色少妇xxxxx猛交久久| 99九九在线精品视频| 国产免费又黄又爽又色| 国产成人免费观看mmmm| 免费黄色在线免费观看| 制服丝袜香蕉在线| 啦啦啦中文免费视频观看日本| 美女中出高潮动态图| 亚洲激情五月婷婷啪啪| 最近手机中文字幕大全| 考比视频在线观看| av在线观看视频网站免费| 亚洲国产欧美网| 黄片小视频在线播放| 一区二区av电影网| av不卡在线播放| 波野结衣二区三区在线| 欧美日韩视频精品一区| 中文字幕色久视频| 欧美亚洲日本最大视频资源| 亚洲欧美中文字幕日韩二区| 99热全是精品| 国产xxxxx性猛交| 久久国产精品大桥未久av| 午夜日本视频在线| 亚洲综合色网址| 午夜老司机福利剧场| 三级国产精品片| 久久狼人影院| 亚洲中文av在线| a级毛片在线看网站| 日韩中文字幕视频在线看片| www.精华液| 亚洲国产色片| 成年美女黄网站色视频大全免费| 国产视频首页在线观看| 伊人久久大香线蕉亚洲五| 午夜av观看不卡| 一区二区三区乱码不卡18| 亚洲国产看品久久| 黄片无遮挡物在线观看| 777久久人妻少妇嫩草av网站| 欧美+日韩+精品| 欧美精品一区二区大全| 啦啦啦视频在线资源免费观看| videos熟女内射| 国产男女超爽视频在线观看| 一二三四中文在线观看免费高清| 久久这里有精品视频免费| 两性夫妻黄色片| av在线播放精品| 精品一区二区三卡| 亚洲天堂av无毛| 91在线精品国自产拍蜜月| 国产又色又爽无遮挡免| 亚洲精品乱久久久久久| 侵犯人妻中文字幕一二三四区| 日本免费在线观看一区| 亚洲国产精品一区三区| 丁香六月天网| 少妇人妻久久综合中文| 婷婷色av中文字幕| 黄频高清免费视频| 亚洲综合精品二区| 高清视频免费观看一区二区| 国产精品人妻久久久影院| 亚洲精品一区蜜桃| 日本av免费视频播放| 国产免费一区二区三区四区乱码| 日韩在线高清观看一区二区三区| 2018国产大陆天天弄谢| 亚洲美女搞黄在线观看| av.在线天堂| 色播在线永久视频| 欧美黄色片欧美黄色片| 久久久久视频综合| 国产精品久久久av美女十八| 黑丝袜美女国产一区| 免费不卡的大黄色大毛片视频在线观看| 秋霞在线观看毛片| 欧美老熟妇乱子伦牲交| 一区二区三区精品91| 2018国产大陆天天弄谢| 在现免费观看毛片| 久久久久精品人妻al黑| 成人手机av| 9色porny在线观看| 国产黄色视频一区二区在线观看| 国产色婷婷99| 日本-黄色视频高清免费观看| 久久久久精品久久久久真实原创| 91在线精品国自产拍蜜月| 亚洲成人一二三区av| 精品少妇黑人巨大在线播放| 欧美bdsm另类| 精品卡一卡二卡四卡免费| 国产日韩欧美亚洲二区| 中文字幕另类日韩欧美亚洲嫩草| 亚洲一级一片aⅴ在线观看| 一本大道久久a久久精品| 午夜精品国产一区二区电影| 国产在线免费精品| 精品一区二区三区四区五区乱码 | 黑人欧美特级aaaaaa片| 久久午夜福利片| 一区二区日韩欧美中文字幕| 少妇人妻 视频| 亚洲精品日本国产第一区| 久久久久久久久久久免费av| 国产人伦9x9x在线观看 | 桃花免费在线播放| 一区二区三区激情视频| 五月伊人婷婷丁香| 亚洲精品成人av观看孕妇| 国产av码专区亚洲av| 春色校园在线视频观看| 性高湖久久久久久久久免费观看| 丰满迷人的少妇在线观看| 宅男免费午夜| 欧美国产精品一级二级三级| 99热全是精品| 欧美精品一区二区免费开放| 九色亚洲精品在线播放| 成人亚洲欧美一区二区av| 国语对白做爰xxxⅹ性视频网站| 欧美老熟妇乱子伦牲交| 色吧在线观看| 97人妻天天添夜夜摸| 1024视频免费在线观看| 亚洲综合精品二区| 国产亚洲精品第一综合不卡| 国产成人精品婷婷| av在线老鸭窝| 成年女人毛片免费观看观看9 | 新久久久久国产一级毛片| 欧美日韩成人在线一区二区| 亚洲欧美清纯卡通| 国产成人精品久久久久久| 黄色怎么调成土黄色| 日本欧美视频一区| 激情五月婷婷亚洲| 精品国产一区二区三区四区第35| 香蕉国产在线看| 亚洲精品日本国产第一区| 国产高清不卡午夜福利| 午夜91福利影院| 久久久久国产网址| 中文字幕最新亚洲高清| 成年人免费黄色播放视频| 国产精品女同一区二区软件| 国产又爽黄色视频| 国产成人精品婷婷| 午夜影院在线不卡| 菩萨蛮人人尽说江南好唐韦庄| 极品少妇高潮喷水抽搐| 精品国产乱码久久久久久小说| 久久久久网色| 日本免费在线观看一区| 亚洲国产欧美网| 免费观看av网站的网址| 啦啦啦视频在线资源免费观看| 黄色一级大片看看| 国产一区二区 视频在线| 80岁老熟妇乱子伦牲交| 久久久久人妻精品一区果冻| 国产色婷婷99| 国产一区亚洲一区在线观看| 国产免费又黄又爽又色| 99热网站在线观看| 99热全是精品| 久久精品国产自在天天线| 黄网站色视频无遮挡免费观看| 精品国产一区二区三区久久久樱花| 日本爱情动作片www.在线观看| 热99久久久久精品小说推荐| 人人澡人人妻人| 蜜桃在线观看..| 高清av免费在线| 国产精品免费视频内射| 欧美人与性动交α欧美精品济南到 | 亚洲四区av| 日本黄色日本黄色录像| 亚洲内射少妇av| 中文字幕制服av| 午夜福利在线免费观看网站| av天堂久久9| 少妇被粗大的猛进出69影院| 久久久精品国产亚洲av高清涩受| 日本欧美视频一区| 爱豆传媒免费全集在线观看| 九色亚洲精品在线播放| 69精品国产乱码久久久| 另类精品久久| 亚洲欧美成人综合另类久久久| 久久精品久久久久久久性| 人成视频在线观看免费观看| 久久精品久久久久久久性| 欧美xxⅹ黑人| 99久久精品国产国产毛片| 女人久久www免费人成看片| 我要看黄色一级片免费的| 亚洲成色77777| 人人妻人人添人人爽欧美一区卜| 成人亚洲精品一区在线观看| 搡女人真爽免费视频火全软件| 另类精品久久| 国产精品成人在线| 韩国精品一区二区三区| 日韩不卡一区二区三区视频在线| 天天影视国产精品| 国产一区二区在线观看av| 久久狼人影院| 天堂8中文在线网| 亚洲精品一二三| 日日爽夜夜爽网站| 日韩熟女老妇一区二区性免费视频| 不卡av一区二区三区| 免费观看在线日韩| 麻豆精品久久久久久蜜桃| 成人黄色视频免费在线看| 亚洲精品中文字幕在线视频| 精品久久久久久电影网| 熟妇人妻不卡中文字幕| 大码成人一级视频| 日韩电影二区| 国产av国产精品国产| av视频免费观看在线观看| 色视频在线一区二区三区| 精品视频人人做人人爽| 啦啦啦中文免费视频观看日本| 成人亚洲精品一区在线观看| 免费观看无遮挡的男女| 久久鲁丝午夜福利片| 亚洲内射少妇av| 国产xxxxx性猛交| 亚洲精品,欧美精品| 色播在线永久视频| 国产免费现黄频在线看| 91久久精品国产一区二区三区| 日韩欧美一区视频在线观看| 国产熟女午夜一区二区三区| 国产片特级美女逼逼视频| 国产免费福利视频在线观看| 欧美日韩视频高清一区二区三区二| 80岁老熟妇乱子伦牲交| 人人妻人人澡人人看| 曰老女人黄片| 岛国毛片在线播放| 午夜福利视频精品| 在线观看免费视频网站a站| 欧美日韩精品成人综合77777| 亚洲四区av| 青春草视频在线免费观看| 午夜激情久久久久久久| 国产精品国产三级国产专区5o| 国产高清不卡午夜福利| 伦理电影免费视频| 国产精品一二三区在线看| a级毛片在线看网站| a级毛片黄视频| 肉色欧美久久久久久久蜜桃| 99热全是精品| 亚洲精品日韩在线中文字幕| 欧美 日韩 精品 国产| 黄片无遮挡物在线观看| 久久久久网色| 成人手机av| 狂野欧美激情性bbbbbb| 最新中文字幕久久久久| 欧美日韩亚洲高清精品| 久久99精品国语久久久| 精品亚洲成国产av| 色吧在线观看| 亚洲精华国产精华液的使用体验| 又粗又硬又长又爽又黄的视频| 欧美av亚洲av综合av国产av | 十分钟在线观看高清视频www| 一区二区日韩欧美中文字幕| 亚洲综合色网址| 久久鲁丝午夜福利片| 国产精品嫩草影院av在线观看| 欧美亚洲 丝袜 人妻 在线| 亚洲伊人色综图| 国产精品人妻久久久影院| 亚洲在久久综合| 亚洲伊人久久精品综合| 免费少妇av软件| 哪个播放器可以免费观看大片| 超碰97精品在线观看| 青草久久国产| videossex国产| 久久久国产精品麻豆| 欧美日韩国产mv在线观看视频| 黄色配什么色好看| 国产av国产精品国产| 亚洲国产欧美网| 成年女人在线观看亚洲视频| 人人妻人人澡人人看| 精品亚洲成国产av| 国产熟女午夜一区二区三区| 新久久久久国产一级毛片| 国产精品亚洲av一区麻豆 | 午夜老司机福利剧场| 久久久国产精品麻豆| 久久久久网色| 欧美xxⅹ黑人| 久久午夜福利片| 赤兔流量卡办理| 十分钟在线观看高清视频www| 国产成人精品一,二区| 极品人妻少妇av视频| 国产亚洲精品第一综合不卡| 亚洲欧洲国产日韩| 久久精品国产a三级三级三级| 欧美日韩精品成人综合77777| 老熟女久久久| 久久精品国产自在天天线| 国产乱人偷精品视频| 亚洲美女视频黄频| 日韩视频在线欧美| 国产精品三级大全| 老汉色av国产亚洲站长工具| 日本av手机在线免费观看| 最近中文字幕2019免费版| 男女国产视频网站| 久久久久国产网址| 国产男人的电影天堂91| 欧美变态另类bdsm刘玥| 1024视频免费在线观看| 免费看av在线观看网站| 国产av精品麻豆| 丝袜脚勾引网站| 成年美女黄网站色视频大全免费| 久久久久精品性色| 欧美精品一区二区大全| 在线免费观看不下载黄p国产| 电影成人av| 国产亚洲一区二区精品| 成人手机av| 亚洲国产成人一精品久久久| 成人国产麻豆网| 国产日韩欧美在线精品| 日日撸夜夜添| 久久人人爽人人片av| 香蕉国产在线看| 少妇熟女欧美另类| 叶爱在线成人免费视频播放| 国产成人a∨麻豆精品| 欧美+日韩+精品| 有码 亚洲区|