匡浩銘,楊張琪,匡建軍,鄧 宇*,張尚華*
(1.湖南中醫(yī)藥大學(xué),湖南 長(zhǎng)沙 410208;2.湖南省中醫(yī)藥研究院,湖南 長(zhǎng)沙 410006)
骨質(zhì)疏松癥是最常見(jiàn)的全身性骨病之一,其發(fā)病特征是骨結(jié)構(gòu)惡化和骨量慢性減少[1],通常由于獨(dú)立誘發(fā)因素(包括衰老和持續(xù)鈣流失)導(dǎo)致骨質(zhì)疏松性骨折。隨著人口老齡化日益明顯以及飲酒、飲食不平衡、吸煙和一些無(wú)意識(shí)因素日益普遍,這些因素都會(huì)改變骨形成和骨吸收之間的平衡,導(dǎo)致骨質(zhì)疏松癥發(fā)病率、骨折率越來(lái)越高[2],并且骨折后有一半患者因其并發(fā)癥而導(dǎo)致不能獨(dú)立活動(dòng),嚴(yán)重降低了患者的生活質(zhì)量,不僅增加了醫(yī)療負(fù)擔(dān),死亡風(fēng)險(xiǎn)還會(huì)持續(xù)升高[3-4]。
中醫(yī)在治療骨質(zhì)疏松癥方面歷史悠久,療效確切,歷代醫(yī)者的學(xué)術(shù)思想和辨證經(jīng)驗(yàn)都蘊(yùn)含在其代表醫(yī)案中。近幾年,名老中醫(yī)經(jīng)驗(yàn)總結(jié)成為當(dāng)下研究熱點(diǎn),但每位醫(yī)者都會(huì)有自身用藥習(xí)慣和特點(diǎn),從中難以找尋中醫(yī)治療骨質(zhì)疏松癥的規(guī)律,所以運(yùn)用大數(shù)據(jù)對(duì)歷代醫(yī)家治療骨質(zhì)疏松癥的醫(yī)案文本進(jìn)行挖掘和整理治療規(guī)律是有必要的。 本課題組希望通過(guò)Python 軟件建立自動(dòng)中醫(yī)醫(yī)案文本抽取方法或模型,自動(dòng)將文本按照個(gè)案、診次進(jìn)行分割,再將“語(yǔ)料庫(kù)”與單個(gè)醫(yī)案文本進(jìn)行自動(dòng)匹配,并對(duì)這些信息進(jìn)行結(jié)構(gòu)化儲(chǔ)存管理,從中分析出中醫(yī)治療骨質(zhì)疏松癥的治療規(guī)律,擬解決中醫(yī)學(xué)領(lǐng)域語(yǔ)言文本知識(shí)自動(dòng)抽取問(wèn)題和總結(jié)中醫(yī)對(duì)骨質(zhì)疏松癥的治療規(guī)律。
依托湖南省中醫(yī)藥研究院中醫(yī)藥傳承創(chuàng)新知識(shí)共享平臺(tái)對(duì)關(guān)鍵詞“中醫(yī)治療骨質(zhì)疏松癥”“骨質(zhì)疏松”的醫(yī)案進(jìn)行檢索,通過(guò)閱讀檢索后的標(biāo)題,初步剔除非相關(guān)性的醫(yī)案,再將余下醫(yī)案進(jìn)行摘要閱讀,剔除非中醫(yī)治療、非骨質(zhì)疏松癥狀等不符合納入條件的醫(yī)案。 最終將納入的醫(yī)案進(jìn)一步全文閱讀,篩除掉不完整的醫(yī)案,把剩下醫(yī)案進(jìn)行全文下載。
語(yǔ)料庫(kù)構(gòu)建工作的核心理念是制定規(guī)范和依據(jù)規(guī)范標(biāo)注,《中醫(yī)藥學(xué)》第二版[5]的疾病名詞定義較全面規(guī)范,因此選擇其作為基礎(chǔ)語(yǔ)料庫(kù),進(jìn)行中醫(yī)臨床癥狀信息抽取實(shí)驗(yàn)[5]。 由于每種疾病的癥狀不同,且每個(gè)人的癥狀表述用語(yǔ)也有差別,在進(jìn)行具體醫(yī)案研究時(shí),還需要補(bǔ)充新的術(shù)語(yǔ)到語(yǔ)料庫(kù)中,用于構(gòu)建適用于當(dāng)前研究的信息抽取模型。 將數(shù)據(jù)自動(dòng)采集至Excel 中作為原始語(yǔ)料,用于標(biāo)注中醫(yī)醫(yī)案信息。 參照《中醫(yī)臨床基本癥狀信息分類與代碼》的信息屬性分類[6],將命名實(shí)體分為9 類,分別為中醫(yī)病名、癥狀、脈象、舌象、穴位、證型、治法、方劑、中藥。
基于Python 3.7 正則表達(dá)式函數(shù)構(gòu)建中醫(yī)藥文本知識(shí)抽取模型,從自然語(yǔ)言書(shū)寫(xiě)的中醫(yī)醫(yī)案文本中,自動(dòng)抽取所需信息。 正則表達(dá)式通常被用來(lái)檢索、識(shí)別那些符合某個(gè)模式(規(guī)則)的文本,是對(duì)字符串操作的一種邏輯公式,本課題組構(gòu)建了八大類(包括中醫(yī)病名、癥狀、證型、治法、舌苔、脈象、方劑、飲片)中醫(yī)術(shù)語(yǔ)詞典,并組成了用來(lái)識(shí)別中醫(yī)醫(yī)案術(shù)語(yǔ)信息的“規(guī)則字符串”。 該模型首先依據(jù)診次對(duì)醫(yī)案文本進(jìn)行“切割”,再通過(guò)術(shù)語(yǔ)詞典匹配、識(shí)別并抽取字符串中的術(shù)語(yǔ),依據(jù)中醫(yī)醫(yī)案語(yǔ)法規(guī)則,從不同診次的文本中識(shí)別出類似陽(yáng)性癥狀、改善癥狀、飲片加減等變化內(nèi)容,最終形成可直接分析、利用的結(jié)構(gòu)化數(shù)據(jù)。
將由Python 3.7 軟件抽取出結(jié)構(gòu)化數(shù)據(jù),批量導(dǎo)入古今醫(yī)案云平臺(tái),運(yùn)用其分析池進(jìn)行癥狀、證型、中藥的詞頻分析、復(fù)雜網(wǎng)絡(luò)圖分析和知識(shí)圖譜可視化分析。
首先運(yùn)用湖南省中醫(yī)藥研究院中醫(yī)藥傳承創(chuàng)新知識(shí)共享平臺(tái)搜索關(guān)鍵詞“骨質(zhì)疏松癥”相關(guān)醫(yī)案,得到688 篇,通過(guò)閱讀標(biāo)題初步剔除非治療骨質(zhì)疏松癥的醫(yī)案140 篇,將篩選出的醫(yī)案進(jìn)行摘要閱讀后剔除非中醫(yī)治療和重復(fù)醫(yī)案69 篇,后將納入的醫(yī)案進(jìn)行全文閱讀,剔除掉關(guān)鍵數(shù)據(jù)不完整的醫(yī)案32 篇,最后將余下447 篇醫(yī)案進(jìn)行歸檔整理。
根據(jù)語(yǔ)料庫(kù)的規(guī)范性,以《中醫(yī)藥學(xué)》第二版[5]作為基礎(chǔ)語(yǔ)料,增加研究數(shù)據(jù)后構(gòu)建中醫(yī)醫(yī)案術(shù)語(yǔ)詞庫(kù)分類及數(shù)據(jù)量統(tǒng)計(jì)共有40 959 個(gè)實(shí)體,其中癥狀8096 個(gè)、證型4570 個(gè)、治法10 866 個(gè)、穴位393 個(gè)、脈象302 個(gè)、舌象496 個(gè)、方劑14 708 個(gè)、中藥1528 個(gè)。
利用Python 3.7 軟件對(duì)醫(yī)案文本進(jìn)行反向標(biāo)識(shí),通過(guò)SPSS 22.0 軟件隨機(jī)抽取30 篇醫(yī)案后人工校對(duì)。 發(fā)現(xiàn)精確率、召回率、F1 值分別為98.48%、95.31%、95.51%,具體數(shù)值見(jiàn)表1。
表1 分類統(tǒng)計(jì)精確率、召回率、F1 值
利用Python 3.7 軟件搭建好的模型抽取447 篇醫(yī)案文本的癥狀信息。 發(fā)現(xiàn)刻下癥狀有疼痛、乏力、壓痛、頭暈、麻木、膝酸、畏寒、晨僵、背疼等179 項(xiàng);刻下脈象有脈弦、脈沉細(xì)等20 項(xiàng);刻下舌象有苔薄白、苔白等42 項(xiàng);治療穴位有三陰交、絕谷、陽(yáng)陵泉等10 項(xiàng);中醫(yī)證候有腎陽(yáng)虛證、肝腎陰虛證、血瘀氣滯證等12 項(xiàng);刻下治法有補(bǔ)腎、健脾益氣、活血化瘀等27 項(xiàng);中藥有杜仲、肉蓯蓉、菟絲子等279 項(xiàng)。
2.5.1 證候分析 在12 項(xiàng)證候當(dāng)中,肝腎陰虛證和脾腎陽(yáng)虛證最為常見(jiàn),其次是血瘀氣滯證、脾腎兩虛證、腎虛血瘀證、腎陽(yáng)虛證等,其中肝腎陰虛證和脾腎陽(yáng)虛證占到總比的39.74%。 具體證候頻數(shù)前10位分布情況見(jiàn)圖1。截取頻數(shù)前10 位數(shù)據(jù)結(jié)合對(duì)各種癥狀頻數(shù)的密切觀察,發(fā)現(xiàn)骨質(zhì)疏松癥發(fā)病主要與肝、腎、脾、氣血等息息相關(guān),其病因病機(jī)主要是腎虧、脾虛、痰瘀阻脈3 個(gè)因素[7]。
圖1 證候頻數(shù)前10 位分布情況圖
2.5.2 治法頻數(shù)分析 在12 項(xiàng)證候當(dāng)中,補(bǔ)腎治法最為常見(jiàn),其次是生精補(bǔ)腎、健脾益氣、強(qiáng)筋骨、滋陰益腎、益陰填髓等,其中補(bǔ)腎法占到總比的20.42%,具體頻數(shù)分布見(jiàn)圖2。綜合治法頻數(shù)前10 位數(shù)據(jù)可知中醫(yī)針對(duì)治療骨質(zhì)疏松癥多從補(bǔ)腎、補(bǔ)肝、健脾、補(bǔ)氣血等方面著手。
圖2 治法頻數(shù)前10 位的分布情況圖
2.5.3 中藥頻數(shù)分析 本研究共納入667 個(gè)處方,其中中藥279 種,667 個(gè)處方中杜仲、肉蓯蓉和菟絲子最為常見(jiàn),其次是黃芪、當(dāng)歸、茯苓、骨碎補(bǔ)、甘草、補(bǔ)骨脂、白術(shù)。 在處方中出現(xiàn)的頻率,杜仲為30.37%,肉蓯蓉為28.27%,菟絲子為27.75%。 截取頻數(shù)前10 位數(shù)據(jù)結(jié)合對(duì)中藥藥性分析,發(fā)現(xiàn)藥物歸腎經(jīng)最為常見(jiàn),頻率為49.24%,五味統(tǒng)計(jì)分析結(jié)果發(fā)現(xiàn)甘味、辛味、苦味等最為常見(jiàn)。 四氣分析發(fā)現(xiàn)多以溫、平為主。 具體藥物屬性分析見(jiàn)圖3。
圖3 藥物屬性頻數(shù)前10 位的分布圖注:A.處方中常出現(xiàn)的中藥;B.中藥歸經(jīng)C.中藥五味;D.中藥四氣
2.5.4 中藥對(duì)骨質(zhì)疏松癥的聚類分析 通過(guò)本研究醫(yī)案中的藥物信息聚類形成了4 個(gè)聚類,第一類主要為補(bǔ)腎強(qiáng)筋骨類藥,其代表中藥有淫羊藿、菟絲子、肉蓯蓉、骨碎補(bǔ)、補(bǔ)骨脂等;第二類主要是補(bǔ)氣活血類藥,其代表中藥有當(dāng)歸、黃芪等;第三類主要是溫通經(jīng)脈類藥物,其代表中藥有桂枝、甘草、天麻、茯苓等;第四類主要是祛風(fēng)止痛、鎮(zhèn)靜安神類藥物,其代表中藥有川芎、茯神、夜交藤、丹參等。具體聚類情況見(jiàn)圖4。
圖4 中藥對(duì)骨質(zhì)疏松癥的聚類分析圖
2.5.5 知識(shí)圖譜及復(fù)雜網(wǎng)絡(luò)分析 將病例最多的肝腎陰虛證的治法、方劑、中藥構(gòu)化數(shù)據(jù)重新導(dǎo)入軟件Python 3.7,再將中藥-中藥進(jìn)行復(fù)雜網(wǎng)絡(luò)分析,由于醫(yī)案基數(shù)較大,為提取出更具代表性的中藥關(guān)系,現(xiàn)將邊權(quán)重設(shè)置為≥60, 提取出常用的25 味核心中藥。 詳見(jiàn)圖5。
圖5 中藥復(fù)雜網(wǎng)絡(luò)圖
骨質(zhì)疏松癥作為與人口老齡化相關(guān)的世界性健康問(wèn)題,不僅嚴(yán)重降低了患者的生活質(zhì)量,而且增加了醫(yī)療負(fù)擔(dān)[8]。 由于中醫(yī)在治療骨質(zhì)疏松癥方面歷史悠久,療效確切,現(xiàn)有越來(lái)越多的人嘗試使用中醫(yī)來(lái)治療骨質(zhì)疏松癥。中醫(yī)學(xué)作為歷史悠久的學(xué)科,歷代醫(yī)者的學(xué)術(shù)思想和辨證經(jīng)驗(yàn)都蘊(yùn)含在代表醫(yī)案當(dāng)中,但由人工檢索提取醫(yī)案費(fèi)時(shí)費(fèi)事,若要基于中醫(yī)醫(yī)案數(shù)據(jù)挖掘研究,整理數(shù)據(jù)通常需要耗費(fèi)整體研究時(shí)長(zhǎng)的70%,所以20 世紀(jì)90 年代語(yǔ)言文本知識(shí)自動(dòng)抽取概念被提出,并在2010 年美國(guó)國(guó)家集成生物與臨床信息學(xué)研究中心(Informatics for Integrating Biology & the Bedside)首次發(fā)布了英文電子語(yǔ)料數(shù)據(jù)集[9-10]。從此命名實(shí)體識(shí)別技術(shù)已被廣泛應(yīng)用于各個(gè)領(lǐng)域[11]。但在中醫(yī)領(lǐng)域,專業(yè)術(shù)語(yǔ)具有其特定屬性如歧義詞、一詞多義、多詞一義等比較棘手的文法現(xiàn)象,且古今語(yǔ)法構(gòu)成靈活多變,缺乏統(tǒng)一的規(guī)范,其表達(dá)差異無(wú)法被計(jì)算機(jī)識(shí)別,所以該項(xiàng)數(shù)據(jù)難以在中醫(yī)領(lǐng)域?qū)崿F(xiàn)[12-13]。 課題組設(shè)想并不試圖全面理解整篇醫(yī)案,只需對(duì)醫(yī)案包含關(guān)鍵信息關(guān)鍵詞進(jìn)行提取和識(shí)別?,F(xiàn)已建立中醫(yī)屬性的語(yǔ)料庫(kù),算法模型技術(shù)相應(yīng)成熟,精確率、召回率、F1 值分別為96.76%、96.13%、96.44%, 可在前期保證大量中醫(yī)術(shù)語(yǔ)的受控,從而做出提取和分類。
課題組通過(guò)此項(xiàng)研究從四診角度分析,認(rèn)為骨質(zhì)疏松癥患者多為虛證,舌苔主要呈現(xiàn)薄、白的現(xiàn)象,脈象主要呈現(xiàn)為弦、沉、細(xì),根據(jù)證候數(shù)據(jù)分析發(fā)現(xiàn)骨質(zhì)疏松癥發(fā)病主要與肝、腎、脾、氣血等息息相關(guān)。 且病變的性質(zhì)主要集中在代謝性骨病變上,病變部位集中于人體中軸骨及四肢長(zhǎng)骨骨干,疼痛是其最常表現(xiàn)形式, 通過(guò)具體醫(yī)案分析發(fā)現(xiàn)腰痛、背疼、腰細(xì)酸軟、下肢痙攣等發(fā)生概率與骨密度緊密相關(guān),骨密度越低則以上癥狀發(fā)生概率就越高。 從治療經(jīng)脈閉塞不通而發(fā)病的一系列臨床癥狀出發(fā),運(yùn)用傳統(tǒng)中醫(yī)學(xué)“痛則不通”的思想理念,中醫(yī)常針對(duì)髓氣聚者之處脈穴加以針灸,如腎陰虛者取腎俞、照海、三陰交予以施針,腎虛者取中脘、氣海、命門(mén)予以施針,氣血瘀滯者取氣海、足三里、三陰交予以施針等[14-16]。 在中藥治療方面常專注“腎為先天之本”“腎生骨髓”“其充在骨”“足少陰氣絕,則骨枯……骨肉不相親,則肉軟卻”“腎精不足,髓少,則生髓乏源,無(wú)以養(yǎng)骨”等理論[17-18],配合身痛逐瘀湯、六味地黃湯、補(bǔ)腎活血湯、右歸丸、金匱腎氣丸等經(jīng)典補(bǔ)腎活血方,從而利筋骨,養(yǎng)髓補(bǔ)血改善骨密度。 中醫(yī)治法方面多從補(bǔ)腎、補(bǔ)肝、健脾、補(bǔ)氣血等方面著手[16]。
中醫(yī)藥不僅能改善患者骨骼代謝,更能預(yù)防其本身相關(guān)疾病的發(fā)展,從而整體改善身體機(jī)能。 通過(guò)我們的數(shù)據(jù)研究發(fā)現(xiàn),447 個(gè)處方中杜仲、肉蓯蓉和菟絲子最為常見(jiàn)。 在古今治療骨痹的經(jīng)典名方中代表性方劑如金剛丸、右歸丸、補(bǔ)腎活血湯方都是以這些藥為基礎(chǔ)[19]。因杜仲、肉蓯蓉和菟絲子間配伍療效甚好,乃至于被日本國(guó)寶級(jí)書(shū)籍《醫(yī)心方》所收錄[20],書(shū)上描述蓯蓉杜仲茶:肉蓯蓉5 g,杜仲3 g,菟絲子3 g,五味子3 g,續(xù)斷3 g,紅茶5 g。 用前5 味的煎煮液400 mL 泡茶,沖飲至味淡,多味藥合用,可共同補(bǔ)腎益精治病癥。 正所謂藥有個(gè)性之特長(zhǎng),方有合群之妙用,希望通過(guò)研究中醫(yī)藥配伍規(guī)律為中醫(yī)藥治療骨質(zhì)疏松癥提供一定理論基礎(chǔ)。
湖南中醫(yī)藥大學(xué)學(xué)報(bào)2022年10期