普布玉珍 高屹,2
1.西藏民族大學(xué)信息工程學(xué)院;2.西藏光信息處理與可視化技術(shù)重點實驗室,陜西 咸陽 712082
隨著人們進(jìn)一步開發(fā)人工智能技術(shù)。醫(yī)療領(lǐng)域機器學(xué)習(xí)技術(shù)的應(yīng)用日益受到重視。被廣泛應(yīng)用于醫(yī)療數(shù)據(jù)分析、診斷決策、疾病預(yù)測等多個領(lǐng)域。在醫(yī)療數(shù)據(jù)分析方面,機器學(xué)習(xí)技術(shù)可以從大數(shù)據(jù)中提取出有用信息,可以有效地實現(xiàn)分類、聚類、連續(xù)量推斷等功能。在診斷決策方面,機器學(xué)習(xí)技術(shù)可以支持醫(yī)療決策的客觀性和準(zhǔn)確性,有助于提高歷史診療數(shù)據(jù)的價值和從數(shù)據(jù)中獲取準(zhǔn)確有效的推斷信息。在疾病預(yù)測方面,機器學(xué)習(xí)技術(shù)也可以有效幫助實現(xiàn)精準(zhǔn)預(yù)測。機器學(xué)習(xí)技術(shù)可以自動學(xué)習(xí)輸入特征與輸出標(biāo)簽之間的復(fù)雜關(guān)系,從而有效地概述病情和發(fā)病預(yù)測。隨著信息技術(shù)的發(fā)展,人們對健康問題的愈發(fā)重視,由于近幾年人工智能的飛速發(fā)展以及精準(zhǔn)醫(yī)療、智慧醫(yī)療的提出,醫(yī)學(xué)知識圖譜應(yīng)用正受到國內(nèi)外企業(yè)、學(xué)界的廣泛關(guān)注,[1]知識圖譜在醫(yī)學(xué)領(lǐng)域中有著廣泛的應(yīng)用。
機器學(xué)習(xí)是一種通過計算機程序從數(shù)據(jù)中學(xué)習(xí),并做出預(yù)測和決策的方法。知識圖譜則是一種以圖形化的方式呈現(xiàn)出來的知識庫,可以用來表示實體、概念以及它們之間的關(guān)系。在藏醫(yī)藥領(lǐng)域中,機器學(xué)習(xí)和知識圖譜具有重要的應(yīng)用價值。通過機器學(xué)習(xí)算法對藏醫(yī)藥數(shù)據(jù)進(jìn)行挖掘和分析,我們可以發(fā)現(xiàn)隱藏在數(shù)據(jù)中的規(guī)律和趨勢,為藏醫(yī)藥學(xué)的深入研究提供有力支持。而通過構(gòu)建藏醫(yī)藥知識圖譜,可以將零散的藏醫(yī)藥知識整合成完整的知識體系,方便學(xué)者們進(jìn)行系統(tǒng)的學(xué)習(xí)和研究。
本文主要以攻破制約藏醫(yī)學(xué)發(fā)展的瓶頸,實現(xiàn)既能夠保存藏族重要的傳統(tǒng)醫(yī)藥學(xué)成果,又能夠利用新策略、新工具研究藏醫(yī)學(xué)。
在現(xiàn)有的研究中,機器學(xué)習(xí)方法在藏醫(yī)藥領(lǐng)域的應(yīng)用主要包括分類、聚類和關(guān)聯(lián)規(guī)則分析等。此外,研究人員肖宗明[2]等人采用頻次分析、關(guān)聯(lián)規(guī)則分析、聚類分析等方法來尋找藏醫(yī)藥的用藥規(guī)律。關(guān)聯(lián)規(guī)則目前常用于傳統(tǒng)醫(yī)藥領(lǐng)域,主要是從大量日復(fù)雜的傳統(tǒng)醫(yī)藥信息中發(fā)掘不同數(shù)據(jù)集之間潛在的聯(lián)系,常見于方劑配伍規(guī)律的研究。藏藥之間有著各式各樣不同的聯(lián)系,通過聚類分析,可以從不同藏藥中找出共同點。還有一些研究者王雪茜[3]利用聚類算法對藏醫(yī)藥古籍進(jìn)行整理和挖掘,以便更好地傳承和發(fā)展藏醫(yī)藥學(xué)。研究人員袁凱琦[4]等人提出醫(yī)學(xué)知識圖譜將知識圖譜與醫(yī)學(xué)知識進(jìn)行結(jié)合,并會推進(jìn)醫(yī)學(xué)數(shù)據(jù)的自動化與智能化處理,為醫(yī)療行業(yè)帶來新的發(fā)展契機。雖然目前對于醫(yī)療知識圖譜的研究工作有了很多很有意義的嘗試,但總的來說還不夠完善和深入,需要更進(jìn)一步的研究。
雖然這些研究取得了一定的成果,但仍存在一些問題和不足之處。首先,機器學(xué)習(xí)算法的應(yīng)用主要集中在某一具體領(lǐng)域,缺乏對整個藏醫(yī)藥學(xué)領(lǐng)域的全面研究。其次,現(xiàn)有的知識圖譜建設(shè)還處于起步階段,知識庫的完備性和準(zhǔn)確性有待進(jìn)一步提高。最后,機器學(xué)習(xí)與知識圖譜在藏醫(yī)藥領(lǐng)域的結(jié)合應(yīng)用尚處于探索階段,仍有很大的發(fā)展空間。
機器學(xué)習(xí)就是利用電腦算法。讓計算機從大量數(shù)據(jù)中學(xué)習(xí)規(guī)律和模式,以應(yīng)用到新的數(shù)據(jù)中,并且具有自我調(diào)節(jié)、自我學(xué)習(xí)、自我優(yōu)化的功能。可以理解為,通過計算機學(xué)習(xí)一定的模型,讓電腦自動從資料中提取特征,并且能夠快速地進(jìn)行預(yù)測和決策。
2.2.1 監(jiān)督學(xué)習(xí)是最常見的機器學(xué)習(xí)算法之一。其基本思想是讓計算機通過已知的特征值和標(biāo)簽值的數(shù)據(jù)對模型進(jìn)行訓(xùn)練,以便對未來的數(shù)據(jù)進(jìn)行預(yù)測。監(jiān)督學(xué)習(xí)包括兩種類型:分類和回歸。在分類中,目標(biāo)變量是離散的,比如判斷一張照片中的物品是貓還是狗;在回歸中,目標(biāo)變量是連續(xù)的,比如根據(jù)房屋的面積、位置等特征預(yù)測售價。
2.2.2 無監(jiān)督學(xué)習(xí)(unsupervisedlearning)與監(jiān)督學(xué)習(xí)的區(qū)別在于。無監(jiān)督學(xué)習(xí)不需要已知數(shù)據(jù)標(biāo)簽,而是通過對數(shù)據(jù)特征的提取和模型的訓(xùn)練來尋找數(shù)據(jù)中的內(nèi)在規(guī)律和結(jié)構(gòu)。無監(jiān)督學(xué)習(xí)包括聚類(clustering)和降維(dimensionality reduction)兩種類型。在聚類中,通過將數(shù)據(jù)分成不同的簇,挖掘數(shù)據(jù)內(nèi)在的結(jié)構(gòu)和規(guī)律;在降維中,通過去除數(shù)據(jù)中的噪聲和冗余信息,減少數(shù)據(jù)量和計算復(fù)雜度。
2.2.3 強化學(xué)習(xí)是一種特殊的無監(jiān)督學(xué)習(xí)方法。其目標(biāo)是讓計算機通過與環(huán)境的交互來學(xué)習(xí)并選擇最佳的行為策略,以最大化長期的獎勵[5]。強化學(xué)習(xí)包括狀態(tài)、動作、獎勵三個要素,通過這三個要素的交互來訓(xùn)練模型。應(yīng)用場景包括游戲、自動控制等。
知識圖譜(knowledgeGraph)是基于圖結(jié)構(gòu)的知識表示模型,用于實體間關(guān)系和存儲和表示。它通過將現(xiàn)實世界的知識轉(zhuǎn)化為圖中的節(jié)點和邊,以便于機器理解和推理。
知識圖譜是結(jié)構(gòu)化的語義數(shù)據(jù)庫,用來以符號方式說明在物理世界中的概念,以及彼此關(guān)聯(lián)。其基本構(gòu)成單元為“實體關(guān)系實體”三元組,內(nèi)容包括實體的關(guān)聯(lián)屬性值等,[7]將實體之間的聯(lián)系互相聯(lián)結(jié),形成網(wǎng)狀的知識結(jié)構(gòu)。
元組的基本形式主要包括:實體—關(guān)系—實體;實體—屬性—屬性值等,如圖1和圖2表示。[8]
圖1 實體關(guān)系實體舉例
圖2 實體屬性屬性值舉例
概念:
(1)實體(Entity):在知識圖譜中,實體代表人、地點、組織、事件等現(xiàn)實世界中的具體事物;(2)屬性(attribute):屬性描述的的特性和性質(zhì),例如一個人的年齡、身高、職業(yè)等;(3)關(guān)系(Relation)。關(guān)系表示實體之間的連接和相互作用,例如人與人之間的家庭關(guān)系、組織與人之間的雇傭關(guān)系等。
實體抽?。‥ntity Extraction)。在文字?jǐn)?shù)據(jù)中,確定并抽取出與實物有關(guān)的信息,比如個人姓名、地址、工作單位等。
關(guān)系抽?。≧elationExtraction)。識別和提取文本數(shù)據(jù)中實體之間的關(guān)系。例如雇傭關(guān)系、合作關(guān)系等。
屬性抽?。ˋttribute Extraction)。從文本數(shù)據(jù)中識別和提取出實體的特征和屬性,例如年齡、性別、學(xué)歷等。
本體建模(Ontology Modeling)。構(gòu)建一個本體(ontology)來定義實體的類別、屬性和關(guān)系,并進(jìn)行分類和層次化。
圖形數(shù)據(jù)庫存儲(圖形數(shù)據(jù)庫存儲)。使用圖數(shù)據(jù)庫來存儲和表示知識圖譜,以便于高效的查詢和推理。
知識推理(知識推理)。通過對知識圖譜的結(jié)構(gòu)和規(guī)則進(jìn)行推理和推斷,發(fā)現(xiàn)隱藏在知識中的模式和規(guī)律。
應(yīng)用開發(fā)(Application Development)?;谥R圖譜,開發(fā)各種應(yīng)用,如智能問答系統(tǒng)、推薦系統(tǒng)、決策支持系統(tǒng)等。
知識圖譜的技術(shù)架構(gòu),如圖3所示。
圖3 知識圖譜技術(shù)框架
知識圖譜的方法和技術(shù)可以應(yīng)用于多個領(lǐng)域,包括搜索引擎、智能助理、醫(yī)療健康、金融風(fēng)控等,提供更智能和個性化的服務(wù)。
機器學(xué)習(xí)可以通過分析大量的化學(xué)數(shù)據(jù)和生物數(shù)據(jù),輔助藥物研發(fā)過程。例如,通過機器學(xué)習(xí)算法預(yù)測潛在的靶點,加速藥物篩選和設(shè)計過程。同時,知識圖譜可以整合藏醫(yī)藥領(lǐng)域的各種知識,包括藥物的性質(zhì)、功效、毒副作用等,為藥物研發(fā)提供參考。
機器學(xué)習(xí)算法可以通過分析臨床數(shù)據(jù),識別和預(yù)測疾病。例如,利用機器學(xué)習(xí)方法分析患者的體征和病歷等數(shù)據(jù),快速準(zhǔn)確地進(jìn)行疾病診斷。同時,知識圖譜可以整合藏醫(yī)藥領(lǐng)域的臨床經(jīng)驗和專家知識,輔助醫(yī)生進(jìn)行診斷和治療決策。
機器學(xué)習(xí)可以通過分析患者的生理指標(biāo)和行為數(shù)據(jù),對患者的健康進(jìn)行監(jiān)測和管理。例如,通過機器學(xué)習(xí)算法分析患者的運動數(shù)據(jù)和飲食記錄,提供個性化的健康建議和預(yù)防措施。同時,知識圖譜可以整合患者的健康檔案和醫(yī)療信息,實現(xiàn)患者的全面管理。
機器學(xué)習(xí)和知識圖譜可以結(jié)合,根據(jù)醫(yī)生和患者的需求,推薦相關(guān)的醫(yī)學(xué)知識。例如,基于機器學(xué)習(xí)算法對醫(yī)學(xué)文獻(xiàn)進(jìn)行分析,提取出與某個疾病或藥物相關(guān)的知識,并通過知識圖譜的方式呈現(xiàn)給醫(yī)生和患者,幫助他們更好地了解和應(yīng)用相關(guān)知識。
總之,機器學(xué)習(xí)與知識圖譜在藏醫(yī)藥領(lǐng)域的應(yīng)用可以提高藥物研發(fā)效率、優(yōu)化疾病診斷與治療、改善患者健康管理,并提供個性化推薦醫(yī)療知識的服務(wù)。
知識圖譜是在“大數(shù)據(jù)”時代背景下出現(xiàn)的一項新穎的知識管理技術(shù)[8]。知識圖譜構(gòu)建的方式有很多,有基于Protege去構(gòu)建,是使用本體去一層層構(gòu)建,手動定義一層一層關(guān)系,最終的結(jié)果是RDF 或者OW文件保存。另一種方法可以使用工業(yè)界比較常用的Neo4j圖數(shù)據(jù)庫管理工具,它操作簡單,分為桌面版本和社區(qū)版本。構(gòu)建知識圖譜的步驟,如圖4所示。
圖4 構(gòu)建知識圖譜步驟
構(gòu)建藏醫(yī)藥知識圖譜步驟有以下幾方面:(1)知識抽取和整理:收集和整理藏醫(yī)藥的數(shù)據(jù)集、相關(guān)文獻(xiàn)、專家知識和醫(yī)案等信息,識別出文本中的藏醫(yī)藥相關(guān)實體,如草藥、疾病、方劑等。將抽取的實體和它們之間的關(guān)系,如使用藥物進(jìn)行治療、癥狀與病因的關(guān)系等;(2)實體關(guān)系標(biāo)注:從大量的數(shù)據(jù)集、文獻(xiàn)和專家經(jīng)驗中提取出藏醫(yī)藥知識圖譜中實體之間的關(guān)系信息。對抽取的實體和關(guān)系進(jìn)行標(biāo)注,將病名標(biāo)注為疾病類別,將草藥標(biāo)注為藥物類別,將診斷方法標(biāo)注為診斷方法類別等;(3)本體構(gòu)建:根據(jù)標(biāo)注藏醫(yī)藥的實體和關(guān)系,構(gòu)建一個本體。將藥物和草藥分為不同的類別,并定義它們的功效、用法、劑量等屬性;(4)構(gòu)建知識圖譜:將抽取和整理的藏醫(yī)藥知識按照本體的定義,構(gòu)建成實體和關(guān)系之間連接的知識圖譜;(5)知識推理和應(yīng)用:基于構(gòu)建好的知識圖譜,進(jìn)行推理和分析,發(fā)現(xiàn)隱藏在知識中的規(guī)律和模式。通過知識圖譜可以推斷出某個草藥適用于治療哪些疾病,或者診斷某種疾病時應(yīng)該使用哪些方法。
3.6.1 收集和整理藏醫(yī)藥領(lǐng)域的相關(guān)文獻(xiàn)、專家知識和醫(yī)案等信息。通過機器學(xué)習(xí)算法可以對藏醫(yī)藥文獻(xiàn)進(jìn)行分析,將文本進(jìn)行分類,識別出相關(guān)的實體。例如,通過訓(xùn)練一個文本分類模型,可以將藏醫(yī)藥文獻(xiàn)自動分類為藥物、疾病或治療方法等。同時,通過實體識別算法,可以從文本中提取出相關(guān)的草藥、方劑、癥狀等實體。
3.6.2 對抽取的實體和關(guān)系進(jìn)行標(biāo)注。機器學(xué)習(xí)方法可以通過分析藏醫(yī)藥領(lǐng)域的文本數(shù)據(jù),提取出實體之間的關(guān)系。例如,通過訓(xùn)練一個關(guān)系抽取模型,可以從藏醫(yī)藥文獻(xiàn)中抽取出草藥與疾病之間的關(guān)聯(lián)關(guān)系,或者草藥與藥理作用之間的關(guān)聯(lián)關(guān)系。這些關(guān)系的提取可以幫助了解藏醫(yī)藥中的治療機制和相互作用。
3.6.3 根據(jù)標(biāo)注的實體和關(guān)系,構(gòu)建一個本體(ontology)作為知識圖譜的基礎(chǔ),包括定義各個實體的概念、屬性和關(guān)系,并進(jìn)行分類和層次化。機器學(xué)習(xí)方法可以輔助構(gòu)建藏醫(yī)藥領(lǐng)域的知識圖譜。通過對文本數(shù)據(jù)進(jìn)行處理和分析,能夠提取實體和關(guān)系,構(gòu)建節(jié)點和邊緣的知識圖譜。例如,將藥物、疾病、癥狀等實體作為節(jié)點,將它們之間的關(guān)聯(lián)關(guān)系作為邊,構(gòu)建一個藏醫(yī)藥知識圖譜。
3.6.4 利用機器學(xué)習(xí)方法,可以對構(gòu)建好的藏醫(yī)藥知識圖譜進(jìn)行推理和問答??梢宰詣踊卮鹩脩魧Σ蒯t(yī)藥知識圖譜的問題。通過知識的學(xué)習(xí),并對知識進(jìn)行推理。可根據(jù)用戶提出的問題進(jìn)行提問,給出準(zhǔn)確的答案或建議,并能夠解釋其推理過程。通過建立模型,可以根據(jù)查詢問題,從知識圖譜中找出相關(guān)實體及其相互關(guān)聯(lián)的關(guān)系,并提供答案或相關(guān)知識。這種方式可以幫助人們更快地獲取有關(guān)藏醫(yī)藥的信息。
3.6.5 通過對藏醫(yī)藥領(lǐng)域知識圖譜的建構(gòu),可以幫助醫(yī)生和研究人員更好地理解和應(yīng)用藏醫(yī)藥知識,提供個性化的診斷和治療方案,促進(jìn)該領(lǐng)域的研究和發(fā)展。機器學(xué)習(xí)可以應(yīng)用于基于藏醫(yī)藥知識圖譜的應(yīng)用開發(fā),如藥物研究、疾病預(yù)測、治療方案推薦等。通過機器學(xué)習(xí)算法的輔助,可以挖掘出潛在的關(guān)聯(lián)關(guān)系,為藏醫(yī)藥領(lǐng)域的研究和應(yīng)用提供決策支持。
綜上所述,機器學(xué)習(xí)方法在藏醫(yī)藥知識分析和挖掘中可以應(yīng)用于文本分類和實體識別、關(guān)系抽取、知識圖譜構(gòu)建、基于知識圖譜的推理和問答以及知識圖譜應(yīng)用,為藏醫(yī)藥領(lǐng)域的研究和應(yīng)用提供支持。
藏醫(yī)學(xué)是一門古老學(xué)科,是四大傳統(tǒng)醫(yī)學(xué)體系之一,是經(jīng)過不停地實踐和鉆研,逐步形成的人體生理、病理、診斷、治療、方劑等為一體的民族醫(yī)藥學(xué)[10]。藏醫(yī)學(xué)是中國醫(yī)藥學(xué)重要組成部分[10],是人類發(fā)展史上重要的醫(yī)療寶庫,是中國醫(yī)學(xué)系統(tǒng)完整的重要醫(yī)藥系統(tǒng)。藏醫(yī)藥研究始于1992 年,藏醫(yī)藥的發(fā)展大致經(jīng)歷了兩個時期,最開始以經(jīng)典典籍的數(shù)據(jù)整理、翻譯為主,逐漸演變?yōu)槎酂狳c,多學(xué)科的綜合性研究。在二十年間,藏醫(yī)藥不僅是在基礎(chǔ)理論研究和藥物開發(fā)應(yīng)用研究上都取得了可喜的成績,但作為民族醫(yī)藥的重要一環(huán),藏醫(yī)藥的研究和開發(fā)仍存在眾多待解決的問題[11]。充分的理解藏醫(yī)學(xué)的深入研究與發(fā)展還面臨許多有待克服的困難。充分地認(rèn)識藏醫(yī)學(xué)中傳統(tǒng)學(xué)科對現(xiàn)代研究的意義,多學(xué)科協(xié)作研究優(yōu)勢得以發(fā)揮。
總之,本文初步探討了機器學(xué)習(xí)與知識圖譜在藏醫(yī)藥領(lǐng)域中的應(yīng)用,旨在為藏醫(yī)藥知識的傳承與發(fā)展提供新的思路和方法。盡管研究中存在一些不足,但我們相信隨著技術(shù)的不斷進(jìn)步和完善,這一領(lǐng)域?qū)懈訌V闊的研究前景。
未來的研究方向應(yīng)該是多方面的。首先,需要對整個藏醫(yī)藥領(lǐng)域進(jìn)行全面的機器學(xué)習(xí)研究,包括藥物研發(fā)、疾病診斷和預(yù)防等方面。其次,需要進(jìn)一步完善現(xiàn)有的藏醫(yī)藥知識圖譜,提高知識庫的完備性和準(zhǔn)確性。最后,積極探索機器學(xué)習(xí)與知識圖譜在藏醫(yī)藥領(lǐng)域的結(jié)合應(yīng)用,為藏醫(yī)藥學(xué)的發(fā)展提供更強大的技術(shù)支持。