于 彤 崔 蒙 李敬華
(中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京,100700)
中醫(yī)藥信息化建設(shè)是中醫(yī)藥知識傳承與創(chuàng)新發(fā)展的重要手段。國家對此高度重視、持續(xù)投入,建立了為數(shù)眾多、內(nèi)容豐富、規(guī)模巨大的中醫(yī)藥科學(xué)數(shù)據(jù)庫群,基本實現(xiàn)了中醫(yī)藥知識遺產(chǎn)的系統(tǒng)性保護(hù)。但這些資源也存在著獨立封閉、零散分布、異質(zhì)異構(gòu)等問題,嚴(yán)重地阻礙了知識的跨域流動和持續(xù)創(chuàng)新。其中的主要問題包括:1)缺乏適合自身特點的知識建模方法;2)數(shù)據(jù)資源存在質(zhì)量缺陷,整合程度較低;3)缺乏有效的知識共享與傳播手段,知識資源過分閑置;4)缺乏知識創(chuàng)造與發(fā)現(xiàn)的有效手段。語義Web(Semantic Web,簡稱SW)為解決這些問題提供了有效的技術(shù)手段。
語義 Web是 World Wide Web Consortium(簡稱W3C)提出并倡導(dǎo)使用的一項擴(kuò)展性技術(shù)。傳統(tǒng)Web的主要缺陷,是缺乏對結(jié)構(gòu)性數(shù)據(jù)(Structured Data)的支持。為此,Web創(chuàng)始人蒂姆·伯納斯 -李(Tim Berners-Lee,Tim BL)等人于2001年在《科學(xué)美國人》上正式提出了“Semantic Web(簡稱 SW)”的構(gòu)想[1],其核心思想是在Web上構(gòu)建一個全球性的數(shù)據(jù)網(wǎng)絡(luò),用以實現(xiàn)更為智能的 Web應(yīng)用[1-2]。近年來,SW 技術(shù)在歐、美等地取得迅速發(fā)展,得到IBM、Oracle等著名IT企業(yè)的鼎力支持,在生命科學(xué)、醫(yī)療保健和新藥研發(fā)等領(lǐng)域取得廣泛應(yīng)用[3]。受其影響,中醫(yī)團(tuán)體開展了一系列SW技術(shù)的推廣工作,初步證實了在中醫(yī)藥領(lǐng)域中使用SW技術(shù)的必要性和可行性[4-6]。本文將介紹語義Web的基本概念,闡述語義Web在中醫(yī)藥領(lǐng)域的應(yīng)用現(xiàn)狀和發(fā)展前景,為該技術(shù)在中醫(yī)藥領(lǐng)域的推廣工作提供參考。
SW被視為“機器可以理解的Web”。它是對Web架構(gòu)的系統(tǒng)性擴(kuò)展,使Web支持結(jié)構(gòu)性數(shù)據(jù)的發(fā)表、共享和關(guān)聯(lián),提高Web的有序性,支持智能代理的實現(xiàn)。作為SW的基石,領(lǐng)域本體(Domain Ontology)是針對某個領(lǐng)域的概念體系的精確規(guī)范,用以明確概念的定義以及概念之間的語義關(guān)系[2,7]。Web本體是通過Web在領(lǐng)域團(tuán)體中共享的本體,為SW提供了標(biāo)準(zhǔn)術(shù)語,使得SW上的數(shù)據(jù)具有規(guī)范的表達(dá)方式,便于數(shù)據(jù)資源的互聯(lián)、共享與重用。
SW的核心工作是整合各類數(shù)據(jù)資源,構(gòu)建全球數(shù)據(jù)網(wǎng)絡(luò)。2006年,Tim BL等人發(fā)起了“開放關(guān)聯(lián)數(shù)據(jù)(Linked Open Data,LOD)”這一大型國際合作項目,號召各界團(tuán)體、個人廣泛參與,通過在線協(xié)作的方式,將各種公開數(shù)據(jù)(它們在數(shù)據(jù)格式、編碼方式和訪問方法等方面存在異構(gòu)性)統(tǒng)一轉(zhuǎn)為SW格式并重新發(fā)表[8]。正如關(guān)系型數(shù)據(jù)庫支持SQL查詢,LOD支持SPARQL查詢[8]。SPARQL可被視為概念層次上的查詢,結(jié)構(gòu)簡單、易于理解,能有效的屏蔽不同數(shù)據(jù)模式之間的結(jié)構(gòu)差異,同時又富含語義,能清楚表達(dá)用戶的查詢意圖,提供了強大的LOD數(shù)據(jù)訪問能力。當(dāng)前,LOD在生命科學(xué)、醫(yī)療保健、新藥研發(fā)等領(lǐng)域取得成功的應(yīng)用[9],成為SW領(lǐng)域最具影響力的工程,為實現(xiàn)SW的構(gòu)想邁出了堅實的第一步。
SW技術(shù)在中醫(yī)藥領(lǐng)域具有廣闊的應(yīng)用前景[4-5]。下面從3個方面討論SW技術(shù)在中醫(yī)藥信息化建設(shè)中發(fā)揮的作用。
2.1 中醫(yī)藥知識建模 中醫(yī)藥行業(yè)尚缺乏被廣泛接受的標(biāo)準(zhǔn)化知識表示模型,這嚴(yán)重地阻礙了知識的交換、共享與傳播。中醫(yī)專家正在使用領(lǐng)域本體作為中醫(yī)藥知識建模的有效手段。例如,尹愛寧等開發(fā)了《中醫(yī)藥一體化語言系統(tǒng)》這樣一個面向中醫(yī)藥領(lǐng)域的大型領(lǐng)域本體[10-11],證明了本體工程方法在中醫(yī)藥領(lǐng)域的可行性。
在中醫(yī)藥本體工程實踐中,我們發(fā)現(xiàn)中醫(yī)藥領(lǐng)域具有復(fù)雜性、模糊性和整體性等特點,需要研發(fā)與之相適應(yīng)的特定方法。為此,毛氏、宓氏、于氏等從中醫(yī)藥領(lǐng)域需求出發(fā),對國際最新的OWL表達(dá)框架做出了一系列的改進(jìn)和擴(kuò)展,將SW技術(shù)成功引入中醫(yī)藥本體工程中。例如,毛氏提出了子本體模型,設(shè)計了基于子本體的緩存、演化和推理方法,較好地解決了中醫(yī)藥本體管理與重用問題[12]。宓氏等基于這些方法構(gòu)建了中醫(yī)藥本體共建系統(tǒng)DartOnto,支持Web本體的協(xié)作式在線加工[13]。于氏等使用DartOnto系統(tǒng),構(gòu)建示范性本體,對中醫(yī)藥理論知識進(jìn)行辨認(rèn)、梳理、澄清和永久保真處理[5]。本體建模的對象包括陰陽、五行、臟腑、證候、草藥、方劑等基本概念,以及五行學(xué)說、藏象學(xué)說、辯證論治和方劑配伍等理論學(xué)說。
于氏、宓氏等提出基于SW的中醫(yī)藥術(shù)語融合方案,開發(fā)并部署了中醫(yī)藥多術(shù)語融合系統(tǒng),將《中醫(yī)臨床術(shù)語集》《中醫(yī)藥學(xué)主題詞表》和《中醫(yī)藥學(xué)名詞》等多項術(shù)語系統(tǒng)統(tǒng)一轉(zhuǎn)換為SKOS格式,實現(xiàn)中醫(yī)藥領(lǐng)域主要術(shù)語系統(tǒng)的融合,面向中醫(yī)團(tuán)體提供統(tǒng)一的術(shù)語服務(wù)[5,13]。
上述實踐表明,SW技術(shù)能夠提供友好、高效的開發(fā)工具,輔助領(lǐng)域?qū)<覅f(xié)同工作,保證大型本體開發(fā)的質(zhì)量。
2.2 中醫(yī)藥知識服務(wù) 中醫(yī)藥知識主要存儲于關(guān)系型數(shù)據(jù)庫,它們往往服務(wù)于特定的醫(yī)療和研究機構(gòu),無法被其他機構(gòu)訪問,形成“數(shù)據(jù)孤島”現(xiàn)象[14]。
Cheung K.等提出使用SW作為中醫(yī)藥數(shù)據(jù)表示標(biāo)準(zhǔn),在LOD的基礎(chǔ)上實現(xiàn)中西醫(yī)領(lǐng)域的數(shù)據(jù)互聯(lián),解決“數(shù)據(jù)孤島”的問題[6]。為實施這一策略,Chen H.等研制了DartGrid工具集,并使用DartGrid工具構(gòu)建了大型數(shù)據(jù)庫集成系統(tǒng),該系統(tǒng)整合70多個數(shù)據(jù)庫,內(nèi)容覆蓋中醫(yī)學(xué)、中藥學(xué)、針灸學(xué)等幾乎所有中醫(yī)藥門類,成為全球知名的中醫(yī)藥知識融合與共享平臺,面向中醫(yī)團(tuán)體提供復(fù)雜、跨域、普適的知識服務(wù)[15-17]。
付氏等開發(fā)了語義搜索引擎DartSearch,該系統(tǒng)提供豐富的內(nèi)容和強大的搜索功能,有效滿足Web用戶的知識檢索需求[18]。盛氏等開發(fā)了語義查詢系統(tǒng)DartQuery,向Web用戶提供簡易、友好的查詢構(gòu)造界面,引導(dǎo)用戶以交互的方式構(gòu)造SPARQL查詢[19]。宓氏等使用語義維基技術(shù)開發(fā)了中醫(yī)藥百科系統(tǒng),支持知識資源的有序組織、有效管理和協(xié)作式加工[13]。
2.3 中醫(yī)藥知識發(fā)現(xiàn) 通過知識發(fā)現(xiàn)方法,能從海量中醫(yī)藥數(shù)據(jù)中發(fā)現(xiàn)新穎知識(模式與規(guī)則等),以輔助新藥研發(fā)和臨床決策等活動[20]。SW能更好地解決中醫(yī)藥領(lǐng)域的數(shù)據(jù)集成問題,為中醫(yī)藥知識發(fā)現(xiàn)提供了豐富的數(shù)據(jù)資源[21]。吳氏等基于語義網(wǎng)格技術(shù)框架,研制了中醫(yī)藥知識發(fā)現(xiàn)平臺,支持面向海量數(shù)據(jù)的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[14]。該系統(tǒng)在利用分子生物學(xué)研究中醫(yī)藥物成份和功能方面取得了具有啟發(fā)性的結(jié)果。
中醫(yī)藥領(lǐng)域涉及大量實體之間的復(fù)雜關(guān)系,如證候和基因之間的對應(yīng)關(guān)系、方劑與中藥之間的組成關(guān)系,中藥之間的相互作用關(guān)系等。這些關(guān)系適合被表示為具有復(fù)雜拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)[22]。陳氏、于氏等提出了語義圖挖掘方法論,該方法論使用本體和語義圖作為領(lǐng)域知識表示的主要手段,結(jié)合圖挖掘和機器推理等方法來分析復(fù)雜網(wǎng)絡(luò),并挖掘有意義的模式和規(guī)則[23-24]。于氏等在面向LOD的分布式計算環(huán)境中實現(xiàn)了這一方法論,用于分析中藥相互作用網(wǎng)絡(luò)、證候-基因網(wǎng)絡(luò)等中醫(yī)藥復(fù)雜網(wǎng)絡(luò)[21],初步驗證了在中醫(yī)藥知識發(fā)現(xiàn)領(lǐng)域使用SW技術(shù)的可行性。
3.1 中醫(yī)藥語義電子科學(xué)環(huán)境(TCM Semantic e-Science Environment,TCM-SESE)TCM-SESE是一個大型的電子科學(xué)平臺,該系統(tǒng)實現(xiàn)了中醫(yī)藥知識資源的有效集成和綜合管理,面向全國40多家機構(gòu)提供中醫(yī)藥知識服務(wù)[17]。該工程首次將SW技術(shù)系統(tǒng)引入中醫(yī)藥領(lǐng)域,具體工作包括:1)采用Web本體技術(shù),構(gòu)建中醫(yī)藥領(lǐng)域本體,解決中醫(yī)藥知識建模問題;2)采用語義映射和查詢重寫等技術(shù),實現(xiàn)大量中醫(yī)藥數(shù)據(jù)庫的有效整合,解決中醫(yī)藥“數(shù)據(jù)孤島”問題;3)采用語義查詢、語義搜索、語義維基等技術(shù),面向臨床決策、新藥研發(fā)和電子教學(xué)提供知識服務(wù),解決中醫(yī)藥知識傳播問題。TCM-SESE現(xiàn)已投入使用并穩(wěn)定運行,實現(xiàn)中醫(yī)藥知識資源的深度整合和充分共享,促進(jìn)中西醫(yī)領(lǐng)域?qū)<抑g的交流與合作,在臨床決策、新藥研發(fā)和電子教學(xué)等案例中發(fā)揮了重要作用。
3.2 Linking Open Drug Data(LODD)[24]LODD 是一個大型國際合作項目,旨在利用LOD的技術(shù)框架,整合醫(yī)藥學(xué)數(shù)據(jù)資源,加速新藥研發(fā)的進(jìn)程。針對傳統(tǒng)中草藥的研究,可能對現(xiàn)代新藥研發(fā)提供重要線索,但這些寶貴研究結(jié)果往往缺乏整合和應(yīng)用[25]。為此,LODD的一項重要任務(wù)是將中醫(yī)藥知識發(fā)布在LOD上,并建立中西醫(yī)之間的知識關(guān)聯(lián),支持中藥新藥研發(fā)等應(yīng)用[26-27]。LODD中記錄了草藥的知識(如化學(xué)成分、療效等),以及疾病、基因、草藥之間的關(guān)聯(lián)關(guān)系,能輔助研究人員找出能夠治療某種疾病的草藥,理解草藥的性質(zhì)和療效,支持中藥新藥研發(fā)等應(yīng)用。LODD被成功用于“研究具有抗抑郁功效的中草藥”這一實際案例:通過SPARQL查詢從LOD中查找出可能治療抑郁的中草藥,檢索它們的活性成分,作為新藥研發(fā)過程的先導(dǎo)化合物[28]。
這兩個項目在海量中醫(yī)藥數(shù)據(jù)處理方面積累了豐富的經(jīng)驗,在中西醫(yī)之間建立了一道交流的橋梁,驗證了LOD技術(shù)方案的可行性以及SPARQL查詢語言和協(xié)議的靈活性,為后續(xù)工作起到了良好的示范作用。
SW正在成為一項主流技術(shù),獲得廣泛的認(rèn)可和采用。中醫(yī)團(tuán)體已開展了SW的推廣工作,如中醫(yī)藥語義電子科學(xué)環(huán)境、LODD等,為保護(hù)中醫(yī)藥文化遺產(chǎn),促進(jìn)中西醫(yī)結(jié)合,推動中醫(yī)藥現(xiàn)代化做出重要貢獻(xiàn),展示了SW在跨組織、跨領(lǐng)域、跨文化應(yīng)用中的技術(shù)優(yōu)勢。展望未來,我們相信SW技術(shù)將在跨文化、多學(xué)科交叉的研究中發(fā)揮更為重要的作用。
[1]BERNERS -LEE T,HENDLER J,LASSILA O.The Semantic Web[J].Scientific American,2001,May.
[2]ALLEMANG D,HENDLER J.Semantic Web for the Working Ontologist[M].Elsvier,2011.
[3]DOMINGUE J,F(xiàn)ENSEL D,HENDLER J.Handbook of Semantic Web Technologies[M].Springer,2011.
[4]吳朝暉.語義Web與中醫(yī)藥[N].計算機世界,2007-11-26.
[5]于彤.知識服務(wù):語義Web在中醫(yī)藥領(lǐng)域的應(yīng)用研究[D].浙江大學(xué),2012.
[6]CHEUNG K,CHEN H.Semantic Web for data harmonization in Chinese medicine[J].Chinese Medicine 2010,12(5):2.
[7]HORROCKS I.Ontologies and the semantic web[J].Commun.ACM,2008,51(12):58-67.
[8]HEATH T,BIZER C.Linked Data:Evolving the Web into a Global Data Space[M].Morgan& Claypool,2011.
[9]BIZER C.HEATH T.BERNERS-LEE T.Linked data - the story so far[J].Int.J.Semantic Web Inf.Syst.,2009,5(3):1 – 22.
[10]尹愛寧,張汝恩.建立<中醫(yī)藥一體化語言系統(tǒng)>[J].中國中醫(yī)藥信息雜志,2003,10(3):90 -91.
[11]ZHOU X,WU Z,YIN A,WU L,F(xiàn)AN W,ZHANG R:Ontology development for unified traditional Chinese medical language system[J].Artif Intell Med,2004,32(1):15-27.
[12]MAO Y,WU Z,TIAN W,et al.Dynamic sub-ontology evolution for traditional Chinese medicine web ontology[J].Journal of Biomedical Informatics,2008,41(5):790 -805.
[13]宓金華.中醫(yī)藥知識工程應(yīng)用[D].浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院,2010.
[14]吳朝暉,陳華鈞.語義網(wǎng)格:模型、方法與應(yīng)用[M].杭州:浙江大學(xué)出版社,2008.
[15]CHEN H,WANG Y,WANG H,et al.From Legacy Relational Databases to the Semantic Web:an In-Use Application for Traditional Chinese Medicine[C]//International Semantic Web Conference,2006.
[16]CHEN H,WU Z,MAO Y,ZHENG G.DartGrid:a semantic infrastructure for building database Grid applications[J].Concurrency and Computation Practice and Experience,2006,18(14):1811-1828.
[17]CHEN H,MAO Y,ZHEN X,et al.Towards semantic e-science for traditional chinese medicine.BMC Bioinformatics,2007,8(Suppl 3):56.
[18]FU Z,CHEN H,YU T.Intelligent search on integrated knowledge base of traditional Chinese medicine.Journal of Southeast University(English Edition)[J].2009,25(4):460-463.
[19]盛浩.基于超鏈數(shù)據(jù)的中醫(yī)藥語義查詢系統(tǒng)[D].浙江大學(xué),2011.
[20]FENG Y,WU Z,ZHOU X,ZHOU Z,F(xiàn)AN W.Knowledge discovery in traditional Chinese medicine:State of the art and perspectives.Artificial Intelligence in Medicine,2006,38(3):219-236.
[21]WU Z,YU T,CHEN H,et al.Semantic Web Development for Traditional Chinese Medicine[C]//AAAI-08/IAAI-08,2008,1757 -1762.
[22]ZHOU X,LIU B,WU Z,F(xiàn)ENG Y.Integrative mining of traditional Chinese medicine literature and MEDLINE for functional gene networks[J].Artificial Intelligence in Medicine,2007,41,87 -104.
[23]CHEN H,DING L,WU Z,TONG Y,et al.Semantic web for integrated network analysis in biomedicine[J].Briefings in Bioinformatics,2009,10(2):177 -192.
[24]YU T,JIANG X,F(xiàn)ENG Y.Semantic Graph Mining for e-Science[C]//AAAI workshop on Semantic e-Science,2007,77 -80.
[25]FANG Y,HUANG H,CHEN H,JUAN H.TCMGeneDIT:a database for associated traditional Chinese medicine,gene and disease information using text mining[J].BMC Complement Altern Med,2008,8:58.
[26]ZHAO J,JENTZSCH A,SAMWALD M,CHEUNG K.Linked data for connecting traditional Chinese medicine and Western medicine[C].The Sixth International Workshop of Data Integration in the Life Sciences(Poster&Demo).Manchester,UK 2009,13.
[27]ZHAO J.Publishing Chinese medicine knowledge as Linked Data on the Web[J].Chinese Medicine 2010,5(1):27.
[28]SAMWALD M,DUMONTIER M,ZHAO J,et al.Integrating findings of traditional medicine with modern pharmaceutical research:the potential role of linked open data[J].Chinese Medicine,2010,Dec17(5):43.