歷代中國醫(yī)學(xué)家在探索瘟疫防治理論與技術(shù)的實(shí)踐中遺存了寶貴的疫病古籍, 它們是中醫(yī)古籍的重要組成部分。中醫(yī)藥全面介入新冠肺炎疫情等重大突發(fā)公共衛(wèi)生事件并發(fā)揮出傳統(tǒng)醫(yī)學(xué)的獨(dú)特優(yōu)勢, 再次表明, 中醫(yī)古籍特別是疫病古籍是新時代護(hù)佑人民健康、建設(shè)健康中國戰(zhàn)略的文化瑰寶。國務(wù)院辦公廳印發(fā)的《“十四五” 中醫(yī)藥發(fā)展規(guī)劃》提出: “實(shí)施中醫(yī)藥古籍文獻(xiàn)和特色技術(shù)傳承專項(xiàng)”, 為中醫(yī)古籍煥發(fā)新光彩提供了行動指南。以此為契機(jī), 在廣泛搜集組織整理中醫(yī)疫病古籍?dāng)?shù)字資源基礎(chǔ)上, 綜合利用知識組織、知識管理和知識挖掘等技術(shù), 發(fā)現(xiàn)疫病古籍中蘊(yùn)含的防病治病經(jīng)驗(yàn)和用藥規(guī)律, 進(jìn)而利用自然語言處理、語義網(wǎng)、信息可視化等技術(shù), 構(gòu)造文化傳承驅(qū)動下可提供疫病知識服務(wù)、技術(shù)發(fā)展驅(qū)動下可發(fā)揮疫病知識宣傳和科研需求驅(qū)動下可滿足疫病知識挖掘的智慧化中醫(yī)疫病知識服務(wù)平臺, 實(shí)現(xiàn)疫病古籍的活化再現(xiàn)與智能計算, 是促進(jìn)中醫(yī)文明創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展的重要路徑。
在推動中醫(yī)古籍傳承與保護(hù)的政策驅(qū)動下, 立足于新文科建設(shè)背景, 專題圍繞著中醫(yī)古籍中的疫病古籍整理、知識組織與智慧化建設(shè)的長期研究方向, 旨在從學(xué)科交叉視野出發(fā), 結(jié)合信息資源管理一級學(xué)科知識管理與服務(wù)專長, 為中醫(yī)疫病古籍傳承和活化提供新的工具與方法, 在深化學(xué)科交流合作的同時, 形成一套標(biāo)準(zhǔn)化、語義化、可視化的, 面向中醫(yī)疫病古籍?dāng)?shù)字資源的智慧化知識服務(wù)平臺和整體解決方案。為此, 本專題包含以下3 篇文章:
在中醫(yī)文本相關(guān)研究中, 命名實(shí)體識別(NER)作為一種重要的自然語言處理技術(shù), 能夠有效提取出文本中的藥物、疾病、癥狀等實(shí)關(guān)鍵信息, 進(jìn)而為中醫(yī)知識的整理與挖掘提供支持?!吨嗅t(yī)文本命名實(shí)體識別研究綜述》聚焦于中醫(yī)文本中命名實(shí)體識別技術(shù)的創(chuàng)新與應(yīng)用。通過系統(tǒng)性綜述中醫(yī)文本的特征與NER 挑戰(zhàn), 研究梳理了中醫(yī)文本NER 在語料構(gòu)建、技術(shù)算法及評估指標(biāo)等方面的研究現(xiàn)狀, 指出了目前存在的問題, 并提出未來的研究方向。在語料層面, 建議制定標(biāo)注規(guī)范并構(gòu)建高質(zhì)量數(shù)據(jù)集; 在算法層面, 探索針對小樣本問題的數(shù)據(jù)優(yōu)化和復(fù)雜實(shí)體的識別模型, 以提高模型的準(zhǔn)確性和解釋性。這一綜述旨在推動中醫(yī)NER 技術(shù)的發(fā)展, 為后續(xù)中醫(yī)知識抽取與知識組織研究提供參考。
先前基于知識圖譜的中醫(yī)知識演化研究忽視了疫病知識的動態(tài)發(fā)展變化規(guī)律, 降低了中醫(yī)疫病學(xué)發(fā)展過程中的知識完整性以及知識動態(tài)演變規(guī)律的系統(tǒng)研究。融合動態(tài)元素實(shí)現(xiàn)疫病知識組織基礎(chǔ)上的隱性疫病知識發(fā)現(xiàn)為中醫(yī)疫病古籍利用提供了新視角。鑒于此, 《基于動態(tài)知識圖譜的中醫(yī)疫病古籍知識演化研究》以溫病學(xué)派古籍為例, 通過構(gòu)建融合動態(tài)元素的知識元語義描述模型, 對溫病學(xué)派古籍進(jìn)行了涵蓋時間和屬性特征的全面知識組織。在構(gòu)建并可視化展示溫病學(xué)派疫病知識動態(tài)演變過程的動態(tài)知識圖譜基礎(chǔ)上, 借助知識計算方法對該學(xué)派各發(fā)展階段的知識內(nèi)容進(jìn)行了深層次的演化分析, 通過挖掘用藥偏好、方劑演變和辨證理論發(fā)展等隱性知識的動態(tài)變化規(guī)律, 一定程度上厘清了中醫(yī)疫病的知識發(fā)展脈絡(luò)、中醫(yī)知識創(chuàng)造規(guī)律, 為據(jù)此更新中醫(yī)用藥診療創(chuàng)新思路提供了支持。
中醫(yī)疫病古籍文本擁有疫病術(shù)語的專業(yè)性和古籍表達(dá)的特殊性, 導(dǎo)致通用分詞模型工具無法實(shí)現(xiàn)疫病古籍文本的精確分割, 阻礙了疫病古籍中蘊(yùn)含的用藥規(guī)律和防病治病經(jīng)驗(yàn)的挖掘利用。因此,《基于中醫(yī)疫病古籍文本自動分詞的藥物規(guī)律挖掘研究》提出了一個包含數(shù)據(jù)獲取層、序列標(biāo)注層、自動分詞層和應(yīng)用服務(wù)層的中醫(yī)疫病古籍文本自動分詞及藥物規(guī)律挖掘框架, 通過將提出的框架應(yīng)用于疫病古籍語料庫, 實(shí)驗(yàn)結(jié)果表明, 深度學(xué)習(xí)算法在中醫(yī)疫病古籍文本自動分詞任務(wù)中性能良好。分詞提供了準(zhǔn)確的數(shù)據(jù)基礎(chǔ), 而深入分析這些數(shù)據(jù)則進(jìn)一步揭示了中醫(yī)藥物使用的內(nèi)在規(guī)律和治療原則, 二者相輔相成, 共同推動著中醫(yī)學(xué)的傳承和發(fā)展。在分詞基礎(chǔ)上, 通過方劑中的各類劑型統(tǒng)計、部分常用中藥統(tǒng)計和部分常用藥對統(tǒng)計, 文章實(shí)現(xiàn)了中醫(yī)疫病領(lǐng)域古籍文本詞匯級藥物規(guī)律挖掘初步應(yīng)用, 這為日后疫情防控、診療決策輔助和人文計算工具的智慧化開發(fā)提供了參考。
李 賀吉林大學(xué)商學(xué)與管理學(xué)院教授、博士生導(dǎo)師