李 明, 周 強(qiáng), 楊麗娜, 祖亮華, 羅曉蘭, 朱邦賢△
(1.上海中醫(yī)藥大學(xué)科技人文研究院中醫(yī)方證信息研究中心, 上海 201203;2.上海中醫(yī)藥大學(xué)中醫(yī)藥國(guó)際標(biāo)準(zhǔn)化研究所,上海 201203;3.上海中醫(yī)藥大學(xué)圖書館,上海 201203)
中醫(yī)疾病名稱形成于中國(guó)古代,是中醫(yī)學(xué)在數(shù)千年臨床實(shí)踐中逐漸發(fā)展起來、在對(duì)疾病本質(zhì)認(rèn)知過程中凝煉而成的概念集群,它反映了中醫(yī)對(duì)某一病種的本質(zhì)及其特征的基本認(rèn)識(shí),并在發(fā)展過程中賦予了時(shí)代和社會(huì)的烙印。
中醫(yī)對(duì)疾病的命名最早可以追溯到長(zhǎng)沙馬王堆的《五十二病方》《陰陽十一脈灸經(jīng)》等中醫(yī)古籍,這些古籍被認(rèn)為是現(xiàn)知我國(guó)最古的醫(yī)學(xué)方書,成書年代約為戰(zhàn)國(guó)至秦漢之際。在這些出土的醫(yī)書中,已經(jīng)出現(xiàn)了概念化的疾病名,如“厥、癰、疽、疣、疥、庀、癃”等,并且出現(xiàn)了以身體部位為主的疾病命名方式。如《陰陽十一脈灸經(jīng)》中的“踝蹶(厥)、骨蹶(厥)、臂蹶(厥)、骭蹶(厥)、陽蹶(厥)”等,《五十二病方》中的“尻厥”等[1]?!饵S帝內(nèi)經(jīng)》同樣成書于戰(zhàn)國(guó)至秦漢之際,但應(yīng)該晚于《五十二病方》,此時(shí)期與“厥”組配的詞語明顯增多,病因病機(jī)、疾病名、經(jīng)絡(luò)、身體部位、數(shù)字等均可以與“厥”進(jìn)行組配。如“寒厥、熱厥、痿厥、痹厥、少陰厥逆、巨陽厥逆、臂厥、肝厥、四厥”等。中醫(yī)疾病的命名還有部分是通過寓意來命名,如宋·張杲《醫(yī)說·疾證》記載:“古之論疾,多取象比類,使人易曉”[2],如蛇頭疔、蟹睛、蛤蟆瘟、鷺鷥咳等以動(dòng)物的特征命名,楊梅瘡、葡萄疫、石榴疽、瓜藤纏等以植物的特征命名。
目前,中醫(yī)疾病術(shù)語的規(guī)范化、標(biāo)準(zhǔn)化研究大都只是關(guān)注疾病名稱整體上的規(guī)范化、標(biāo)準(zhǔn)化,忽略了疾病名稱中涵蓋的病因、病機(jī)、病位、癥狀等中醫(yī)基本理論詞語的語義概念,以及疾病名稱中包含的動(dòng)詞、數(shù)量詞、顏色詞、動(dòng)植物寓意詞等詞語的語義概念,中醫(yī)疾病名稱正是通過這些語義概念的相互組配才形成了如今的中醫(yī)疾病名稱。
在大數(shù)據(jù)和人工智能時(shí)代,我們更加需要含有豐富語義信息的語義詞典,并能夠讓計(jì)算機(jī)“理解”中醫(yī)疾病名稱所含有的語義,才能更加有效地開展中醫(yī)語義分析、數(shù)據(jù)推理、臨床決策輔助等人工智能的研究。因此,本研究采用本體研究方法,從中醫(yī)疾病命名規(guī)則和語義組配角度,開展中醫(yī)疾病標(biāo)準(zhǔn)的研究,探討適用于人工智能等現(xiàn)代信息技術(shù)的中醫(yī)疾病標(biāo)準(zhǔn)化研究方法。
本研究以《中醫(yī)病證分類與代碼》(GB/T 15657-2021)[3]中收錄的中醫(yī)疾病名稱為數(shù)據(jù)來源。上述標(biāo)準(zhǔn)共收錄了1369個(gè)術(shù)語,其中中醫(yī)疾病相關(guān)術(shù)語1316個(gè),中醫(yī)癥狀相關(guān)術(shù)語54個(gè)[4]。由于部分疾病名還收錄了同義詞,本研究通過人工梳理共選取了1935個(gè)中醫(yī)疾病名。
本研究利用python和jieba分詞工具,對(duì)中醫(yī)疾病名進(jìn)行中文分詞,將疾病名解析為癥狀、病因、病機(jī)、身體部位、動(dòng)詞、程度詞、性質(zhì)詞、顏色詞等不同的詞素,分析疾病術(shù)語名稱的詞素構(gòu)成,從本體和語義學(xué)角度,開展中醫(yī)疾病術(shù)語的命名規(guī)則和組合模式研究。
1.2.1 自建字典 由于jieba分詞自帶的字典有關(guān)中醫(yī)的詞匯很少,同時(shí)jieba分詞是按照名詞、動(dòng)詞、形容詞等詞性進(jìn)行詞語標(biāo)注。然而,本研究需要從中醫(yī)理論的角度對(duì)中醫(yī)疾病名進(jìn)行語義標(biāo)注,因此本研究需要?jiǎng)?chuàng)建符合中醫(yī)理論特色的自建字典,并按照中醫(yī)屬性設(shè)置語義標(biāo)注符號(hào)。本研究共收集和整理23個(gè)類別的730個(gè)字詞作為自建字典,對(duì)部分自建字典的類別及其標(biāo)注符號(hào)進(jìn)行了比較(如表1)。
1.2.2 語義解析 本研究通過python調(diào)用jieba分詞模塊對(duì)《中醫(yī)病證分類與代碼》收錄的1935個(gè)中醫(yī)疾病名進(jìn)行分詞,然后將標(biāo)注符號(hào)轉(zhuǎn)化為對(duì)應(yīng)的名稱,之后人工審核疾病名稱的組合模式(如表2)。
本研究對(duì)新版《中醫(yī)病分類與代碼》國(guó)家標(biāo)準(zhǔn)中收錄的1935個(gè)中醫(yī)疾病名進(jìn)行了字?jǐn)?shù)統(tǒng)計(jì)分析,中醫(yī)疾病名稱中2~4個(gè)字組成的疾病名占整個(gè)疾病的90.54%。同時(shí)根據(jù)對(duì)上述標(biāo)準(zhǔn)的語義解析結(jié)果,分析中醫(yī)疾病名的主要命名規(guī)則和方法有如下幾種。
本研究中單字類命名的中醫(yī)疾病名共46個(gè),約占總數(shù)的2.3%。如疣、癬、癤、疔、癰、發(fā)、疽、漏等單字使用表示疾病的名稱,以及諸如暑、溫、疫、瘴等病因概念,哮、喘、汗等癥狀概念,及眥等病位概念加“病”的組配方式命名。此類模式命名的中醫(yī)疾病如暑病、溫病、疫病、瘴病,哮病、喘病、汗病,眥病等。
表1 自建字典中醫(yī)類別及標(biāo)注符號(hào)
表2 中醫(yī)疾病名命名規(guī)則解析示例
本研究中,單純以病因要素命名的疾病名約200個(gè),約占10.3%。該命名方法的優(yōu)點(diǎn)是可以通過病名推斷疾病的主要病因,而以病因命名的疾病主要分為如下幾類。
2.2.1 單病因或多病因組合 以六淫或疫癘等外感病因或痰飲等病因間相互組配而形成的中醫(yī)疾病命名模式,如暑風(fēng)、風(fēng)溫、暑溫、疫癘、寒疫、溫疫、風(fēng)瘟、暑瘟、濕溫、濕瘟、癘風(fēng)、痰飲、痰毒等,或者在該模式下在末尾添加“病”字,如溫燥病、涼燥病、寒燥病等。
2.2.2 動(dòng)詞+病因組合 如傷風(fēng)、冒暑、傷暑、中暑、冒濕、傷濕、傷寒、中風(fēng)等。
2.2.3 病因+動(dòng)詞組合 如暑閉、濕阻、蟲螫、蛇犬傷等。
2.2.4 時(shí)間+病因組合 如春溫、暑溫、秋燥、冬溫、春瘟、冬瘟等。
2.2.5 形象寓意+病因組合 如龜背痰、鶴膝痰、蛤蟆瘟、鸕鶿瘟、鶴膝風(fēng)、驢嘴風(fēng)、葡萄疫等。
2.2.6 病因+顏色組合 如瘟黃、疫黃、火丹等。
2.2.7 寄生蟲、血吸蟲等+“病”組合 如蛔蟲病、絳蟲病、寸白蟲病、囊蟲病、鉤蟲病、蟯蟲病等。
2.2.8 動(dòng)物致傷命名 如蟲螫、松毛蟲傷、蠼螋傷、射工傷、狂犬病、猛獸傷等。
2.2.9 其他物體致傷命名 如漆毒、水毒等。
本研究數(shù)據(jù)中,單純以病機(jī)命名的疾病名并不多見,如虛勞病、虛損病、氣脫病、液脫病、血脫病、精脫病、蓄血病、血溢病、溢血病、痰飲等。
本研究中包含癥狀的疾病名約129個(gè)占總數(shù)的6.6%。在中醫(yī)疾病名稱中,單純以癥狀命名的疾病主要分為如下幾類。
2.4.1 單個(gè)或多個(gè)癥狀組合 如脫臼、哮病、喘病、水腫病、咳嗽病、腹脹病、泄瀉病、便秘病等。
2.4.2 特定時(shí)期+癥狀組合 如小兒頓嗽、五更瀉、經(jīng)間期出血、經(jīng)行吐衄、經(jīng)行發(fā)熱、妊娠眩暈、妊娠咳嗽、產(chǎn)后痙病、產(chǎn)后瘖、子滿等。
2.4.3 性質(zhì)描述+癥狀組合 如暴瀉、暴咳病、暴咳、暴喘、晚期產(chǎn)后出血、急驚風(fēng)、慢驚風(fēng)、暴聾、暴瘖、暴喑等。
2.4.4 時(shí)間+癥狀組合 如久瀉、久泄、百日咳、百晬嗽等。
2.4.5 顏色+癥狀組合 如黃腫病、黧黑斑等。
2.4.6 形象寓意+癥狀 如鷺鷥咳、楊梅疹、田螺皰、雀斑等。
本研究中,包含身體部位或形態(tài)結(jié)構(gòu)的疾病名約837個(gè)占總數(shù)的43.26%。其中,單純以部位或形態(tài)結(jié)構(gòu)與動(dòng)詞、修辭性詞語等命名的模式約161個(gè)占總數(shù)的8.32%,該命名模式主要可以分為如下幾類。
2.5.1 病位+“病”組合 如頸椎病、腰椎病、筋骨病、黑睛病、白睛病等。
2.5.2 病位+動(dòng)詞組合 如鎖子骨斷傷、骨錯(cuò)縫、腎垂、陰縮、臟躁、乳頭破碎、臍帶纏繞、胞輪振跳等。
2.5.3 動(dòng)詞+病位組合 傷筋、閃腰、縮陰、轉(zhuǎn)筋、裂肛、漏胎、滑胎、轉(zhuǎn)胞、漏睛等。
2.5.4 顏色與病位組合 如白喉、肝黃、灰指甲、胎黃、臀紅、眼丹等。
2.5.5 形象寓意與病位組合 如魚口、酒糟鼻、象皮腿、雞眼、鱔拱頭、葡萄胎、雪口、耳菌等。
如狐臭、雀目、蟹目、雞眼、蟹珠、霍亂、臭田螺、魚口、百合病、蛇丹、狐惑等。
本研究中,采用身體部位或形態(tài)結(jié)構(gòu)加疾病的命名模式約297個(gè)占總數(shù)的15.3%,是所有命名模式中最常見的一種命名模式,該命名模式主要可以分為如下幾類。
2.7.1 病位+疾病組合 如肺癆、腦癆、肝癆、腎癆、腸癆、骨癆、腕疽、足跟疽、喉痧、肩痹、項(xiàng)痹、胸痹、心痹、心厥病、心厥等。
2.7.2 動(dòng)詞+病位+疾病組合 如攪腸痧、爛喉痧、噤口痢、含腮瘡、戀眉瘡、托腮癰、鎖喉癰、附骨疽、咬骨疽、漏睛瘡、斷耳瘡、鎖肛痔等。
2.7.3 寓意+病位+疾病組合 如牛皮癬、蛇皮癬、蛀發(fā)癬、魚臍疔、龜頭癰、鵝口瘡等。
2.7.4 特定時(shí)期+病位+疾病組合:如小兒爛喉丹痧、產(chǎn)后子宮脫垂、初生兒臍瘡、小兒口瘡等。
本研究中,采用身體部位或形態(tài)結(jié)構(gòu)加疾病的命名模式約105個(gè)占總數(shù)的5.4%,如心悸、心痛、腹脹、腰痛、頭痛、肝痞、膽脹、胃痞、胃脹、脾脹、胰脹、肺咳、肺脹、面癱、面痛、乳衄、脅肋痛等。骨折和脫位類疾病的命名大多采用此類方式命名,如鎖骨骨折、缺盆骨損折、鎖子骨斷傷、井欄骨折斷、肩胛骨骨折、顳頜關(guān)節(jié)脫位等。還有一些是采用性質(zhì)+病位+癥狀命名模式,如急喉喑、慢喉喑等。另外一些采用部位、癥狀、寓意組合的命名模式,如胞腫如桃、蟹足腫、魚睛不夜等。
本研究中,采用身體部位或形態(tài)結(jié)構(gòu)加疾病的命名模式約86個(gè)占總數(shù)的4.3%,該命名模式主要可以分為如下4類。
2.9.1 病位+病因組合 如肝瘟、肝熱病、踝關(guān)節(jié)扭傷、心癉、腎風(fēng)、頭風(fēng)、喉風(fēng)、腿風(fēng)、臟毒、四彎風(fēng)、委中毒等。
2.9.2 動(dòng)詞+病位+病因組合 穿拐痰、鎖喉風(fēng)、漏肩風(fēng)、抱頭火丹、纏腰火丹、穿腮毒等。
2.9.3 性質(zhì)/程度+病位+病因組合 急性腰扭傷、慢脾風(fēng)、急喉風(fēng)、大頭瘟、大腳風(fēng)、軟腳瘟等。
2.9.4 方位、寓意、特定時(shí)期等與病位、病因組合 如偏頭風(fēng)、雷頭風(fēng)、小兒軟腳瘟等。
在人工智能時(shí)代,人們對(duì)醫(yī)學(xué)標(biāo)準(zhǔn)的要求已經(jīng)發(fā)生了改變,信息技術(shù)已經(jīng)深入到醫(yī)療的各個(gè)方面,因此編制適合現(xiàn)代信息技術(shù)利用的醫(yī)學(xué)標(biāo)準(zhǔn)便成為醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)的新趨勢(shì)。雖然,中醫(yī)疾病名稱字面上的規(guī)范化、標(biāo)準(zhǔn)化已經(jīng)可以滿足臨床診斷、衛(wèi)生統(tǒng)計(jì)、病案管理等方面的需求。但是從自然語言處理、數(shù)據(jù)挖掘等人工智能的角度而言,中醫(yī)疾病名稱粒度太粗,難以開展深層次的數(shù)據(jù)挖掘和數(shù)據(jù)分析。在大數(shù)據(jù)和人工智能時(shí)代,我們更加需要含有豐富語義信息的語義詞典,并能夠讓計(jì)算機(jī) “理解”中醫(yī)疾病名稱所含有的語義,如傷風(fēng)、風(fēng)厥、風(fēng)赤瘡痍等中醫(yī)疾病名稱中的“風(fēng)”均指病因“風(fēng)”,然而“風(fēng)輪赤豆”中的“風(fēng)”則不是指病因。
本研究采用本體的研究方法,從癥狀、病因、病機(jī)、身體部位、性質(zhì)、程度、顏色、動(dòng)物、植物等不同的維度對(duì)中醫(yī)疾病名進(jìn)行了解析,分析了中醫(yī)疾病名稱的詞素構(gòu)成,探討了中醫(yī)疾病的命名特征,從語義組配的角度開展了中醫(yī)疾病術(shù)語的命名規(guī)則和組合模式研究。
本體是一種以術(shù)語為研究基礎(chǔ)的現(xiàn)代信息學(xué)研究方法,主要研究概念與概念間的相互關(guān)系,是各學(xué)科知識(shí)工程領(lǐng)域引起廣泛關(guān)注的研究發(fā)展方向,也是國(guó)際醫(yī)學(xué)標(biāo)準(zhǔn)研究的熱點(diǎn)和發(fā)展趨勢(shì)。本體通過概念和概念間關(guān)系的確定,可以將某領(lǐng)域的知識(shí)體系用形式化語言描述出來,達(dá)到知識(shí)領(lǐng)域信息共享與重用的目的。由于基于本體的表達(dá)方式能被計(jì)算機(jī)更好地識(shí)別與利用,也就更有利于對(duì)該領(lǐng)域知識(shí)的深度挖掘和應(yīng)用。因此,開展基于本體的中醫(yī)疾病標(biāo)準(zhǔn)化研究也是中醫(yī)信息化、智能化的基礎(chǔ)研究。
在通用領(lǐng)域,wordnet、hownet等語義詞典在文本自動(dòng)處理、語義分析、數(shù)據(jù)挖掘等人工智能領(lǐng)域發(fā)揮了重要作用。在醫(yī)學(xué)領(lǐng)域,基于本體方法構(gòu)建的SNOMED CT是國(guó)際上比較成熟的醫(yī)學(xué)臨床術(shù)語本體,是一個(gè)基于語義組配的概念體系。SNOMED CT的全稱是Systematized Nomenclature of Medicine--Clinical Terms(醫(yī)學(xué)系統(tǒng)命名法——臨床術(shù)語),其在決策支持、數(shù)據(jù)挖掘、醫(yī)療研究等領(lǐng)域應(yīng)用廣泛[5]。2019年5月25日第72屆世界衛(wèi)生大會(huì)審議通過的《國(guó)際疾病分類第十一次修訂本(ICD-11)》也采用本體方法編制新版的醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn),該標(biāo)準(zhǔn)還首次納入起源于中醫(yī)藥的傳統(tǒng)醫(yī)學(xué)[6],共收錄了250個(gè)中醫(yī)疾病相關(guān)的術(shù)語及284個(gè)中醫(yī)證候相關(guān)的術(shù)語[7]。
因此,從中醫(yī)疾病名稱的命名規(guī)則和語義組配的角度,開展基于本體方法的中醫(yī)疾病標(biāo)準(zhǔn)體系建設(shè),不僅有利于準(zhǔn)確理解中醫(yī)疾病的內(nèi)涵,也是對(duì)中醫(yī)疾病名更加深入的規(guī)范化、標(biāo)準(zhǔn)化研究,對(duì)引領(lǐng)中醫(yī)疾病術(shù)語標(biāo)準(zhǔn)體系的國(guó)際標(biāo)準(zhǔn)發(fā)展態(tài)勢(shì),有效促進(jìn)和規(guī)范中醫(yī)藥國(guó)內(nèi)外交流,凸顯我國(guó)傳統(tǒng)醫(yī)學(xué)在人類衛(wèi)生與健康促進(jìn)事業(yè)上的地位與作用,都具有重大的研究意義。