張柯欣 石巖 楊宇峰
摘 要:本文介紹了糖尿病中醫(yī)病證大數(shù)據(jù)平臺(tái)的建設(shè)內(nèi)容,探討了專病大數(shù)據(jù)應(yīng)用的關(guān)鍵技術(shù),提出了基于深度學(xué)習(xí)的本體關(guān)聯(lián)醫(yī)學(xué)文獻(xiàn)分析理論。介紹了古代文獻(xiàn)自動(dòng)分析系統(tǒng)、現(xiàn)代文獻(xiàn)自動(dòng)分析系統(tǒng)、臨床病例采集及分析系統(tǒng)、中醫(yī)藥數(shù)據(jù)自動(dòng)關(guān)聯(lián)分析等系統(tǒng)的設(shè)計(jì),總結(jié)了糖尿病中醫(yī)病證大數(shù)據(jù)平臺(tái)的設(shè)計(jì)思路。
關(guān)鍵詞:糖尿??;中醫(yī)病證;大數(shù)據(jù)平臺(tái)
中圖分類號(hào):TP311.13;TP39 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1006-1959.2018.13.008
文章編號(hào):1006-1959(2018)13-0029-03
Abstract:This paper introduces the construction of big data platform of TCM disease syndrome of diabetes mellitus,discusses the key technology of the application of special disease big data,and puts forward the theory of ontology-related medical literature analysis based on in-depth learning.This paper introduces the design of the ancient document automatic analysis system,the modern document automatic analysis system,the clinical case collection and analysis system,the Chinese medicine data automatic association analysis and so on,and summarizes the design idea of the big data platform of diabetes mellitus TCM disease syndrome.
Key words:Diabetes;TCM disease syndrome;Big data platform
我國(guó)糖尿病的患病率正呈快速上升的趨勢(shì),成為繼心腦血管疾病、腫瘤之后另一個(gè)嚴(yán)重危害人民健康的重要慢性非傳染性疾病[1]。糖尿病是一種由多源性病因引起的疾病,受遺傳因素、社會(huì)因素、生活方式及環(huán)境因素等相互作用的影響[2]。國(guó)際糖尿病聯(lián)盟(IDF)數(shù)據(jù)顯示,2014年全世界有3.87億糖尿病患者。預(yù)計(jì)到2035年,糖尿病患病人數(shù)將增長(zhǎng)55%,達(dá)到6億。因糖尿病死亡人數(shù)和醫(yī)療費(fèi)用支出日益增加,糖尿病疾病負(fù)擔(dān)日趨嚴(yán)重[3]。
基于大數(shù)據(jù)的研究方法建立基于生活方式干預(yù),降糖、降壓、調(diào)脂等治療的中西醫(yī)結(jié)合全程干預(yù)糖尿病病證結(jié)合臨床治療方案,可以期望改善患者生存狀態(tài),提高生存質(zhì)量,安全性好而經(jīng)濟(jì),具有廣闊的推廣空間。臨床專病的防治研究一般從醫(yī)學(xué)文獻(xiàn)的檢索開始,研究者通過閱讀國(guó)內(nèi)外的相關(guān)醫(yī)學(xué)文獻(xiàn)了解相關(guān)領(lǐng)域的最新發(fā)展,指導(dǎo)自己開展臨床科研和醫(yī)療活動(dòng)。但是在信息急速增長(zhǎng)的今天,醫(yī)學(xué)文獻(xiàn)的數(shù)量極為驚人。僅以糖尿病為例,在中國(guó)知網(wǎng)平臺(tái)上就能查詢到幾十萬(wàn)篇相關(guān)醫(yī)學(xué)文獻(xiàn)。不言而喻,這樣數(shù)量級(jí)的文獻(xiàn)已經(jīng)遠(yuǎn)遠(yuǎn)超過人類閱讀學(xué)習(xí)的極限,從而導(dǎo)致研究者已經(jīng)無(wú)法獲取全部相關(guān)醫(yī)學(xué)文獻(xiàn),而只能篩選一些感興趣的文章下載閱讀。盡管現(xiàn)在發(fā)展出了很多的搜索技巧和技術(shù),但仍然無(wú)法避免一些有意義的論文被遺漏,從而造成知識(shí)過多而無(wú)法獲取和理解的問題。建立專病大數(shù)據(jù)的根本目的其實(shí)是利用現(xiàn)代信息技術(shù)幫助人類研究者從海量數(shù)據(jù)中獲取其真正需要的信息,從而增益其知識(shí)體系并對(duì)臨床醫(yī)療帶來幫助。
目前的專病數(shù)據(jù)庫(kù)一般在臨床是指帶有HIS接口的電子病歷,在學(xué)校或者研究機(jī)構(gòu)是指專病學(xué)科文獻(xiàn)庫(kù),在中醫(yī)院?;蛘邫C(jī)構(gòu)中還往往建設(shè)有中醫(yī)古代文獻(xiàn)庫(kù)。以上這些庫(kù)都存儲(chǔ)著有用的信息,但是對(duì)普通研究者而言存在難以獲取和利用的問題。國(guó)內(nèi)外對(duì)于醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)大部分是采用人工標(biāo)注的方法進(jìn)行分析,有研究?jī)r(jià)值,但是人工操作效率較低而且難以評(píng)價(jià)效果,對(duì)多種融合數(shù)據(jù)也比較難處理。本文認(rèn)為解決這一問題需要開發(fā)中文文本自動(dòng)分析標(biāo)注技術(shù)、醫(yī)學(xué)文獻(xiàn)語(yǔ)義分析技術(shù)、中醫(yī)醫(yī)理分析技術(shù)、異構(gòu)數(shù)據(jù)融合分析技術(shù),并在這些技術(shù)的基礎(chǔ)上對(duì)大數(shù)據(jù)平臺(tái)的文獻(xiàn)及病例數(shù)據(jù)進(jìn)行融合分析。具體來說需要提出新的醫(yī)學(xué)文獻(xiàn)分析理論,形成新的中醫(yī)病證大數(shù)據(jù)平臺(tái),開發(fā)新的數(shù)據(jù)融合算法。
1基于深度學(xué)習(xí)的本體關(guān)聯(lián)醫(yī)學(xué)文獻(xiàn)分析理論
1.1新理論的目標(biāo) 本文認(rèn)為傳統(tǒng)的醫(yī)學(xué)文獻(xiàn)分析依賴于專家或經(jīng)典著作的知識(shí)體系構(gòu)建,建立知識(shí)本體后進(jìn)行人工標(biāo)注和統(tǒng)計(jì)分析,雖然有很好的研究?jī)r(jià)值,但是當(dāng)前在研究進(jìn)度和準(zhǔn)確性上都不能很令人滿意。當(dāng)前待分析的古代中醫(yī)文獻(xiàn)以百萬(wàn)字?jǐn)?shù)起算,現(xiàn)代專病文獻(xiàn)動(dòng)輒幾十萬(wàn)篇,這樣的數(shù)據(jù)量已經(jīng)遠(yuǎn)遠(yuǎn)超過人工能處理的范疇,因此我們認(rèn)為要在建立中醫(yī)和現(xiàn)代醫(yī)藥知識(shí)本體庫(kù)的基礎(chǔ)上,建立一種自適應(yīng)的醫(yī)學(xué)本體關(guān)聯(lián)的數(shù)學(xué)模型,基于深度學(xué)習(xí)的思想設(shè)計(jì)標(biāo)注和分析的算法,根據(jù)研究需要自動(dòng)給出醫(yī)學(xué)文獻(xiàn)分析數(shù)據(jù)和可視化分析結(jié)果。
1.2新理論的建立 知識(shí)本體的建立可以依據(jù)現(xiàn)有本體建構(gòu)的方法進(jìn)行設(shè)計(jì),其核心問題是本體基礎(chǔ)信息的來源和自適應(yīng)產(chǎn)生新本體的規(guī)則產(chǎn)生過程的設(shè)計(jì)。我們處理的對(duì)象是文本形式的醫(yī)學(xué)文獻(xiàn),新理論認(rèn)為系統(tǒng)中的一篇文獻(xiàn)可以通過觀察者與具有一定知識(shí)結(jié)構(gòu)的本體系統(tǒng)的互動(dòng)而產(chǎn)生有意義的結(jié)果并推送給觀察者。這種互動(dòng)是本體系統(tǒng)自適應(yīng)算法基于深度學(xué)習(xí)的方法不斷提高效率和準(zhǔn)確度的,最終達(dá)到代替人類觀察者快速?gòu)暮A繑?shù)據(jù)中獲取信息的目的。這一理論引入異構(gòu)知識(shí)的關(guān)聯(lián)耦合權(quán)重因子的概念和建立數(shù)值變化模型,指導(dǎo)大數(shù)據(jù)研究的融合方法研究。因?yàn)楸M管各知識(shí)本體有很大的差異,但是臨床各種本體概念仍有很大的關(guān)聯(lián)性,研究中將海量的數(shù)據(jù)根據(jù)前期研究的關(guān)聯(lián)模型自動(dòng)建立關(guān)聯(lián)線索和關(guān)聯(lián)框架。
2糖尿病中醫(yī)病證大數(shù)據(jù)平臺(tái)的建設(shè)實(shí)踐
筆者團(tuán)隊(duì)按照前面提出的基于深度學(xué)習(xí)的本體關(guān)聯(lián)醫(yī)學(xué)文獻(xiàn)分析理論建立了糖尿病中醫(yī)病證大數(shù)據(jù)平臺(tái)。首先依據(jù)《中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)·中醫(yī)臨床診療》、《中醫(yī)大辭典》、《中醫(yī)辭?!贰ⅰ吨嗅t(yī)癥狀鑒別診斷學(xué)》、全國(guó)高等中醫(yī)藥院校規(guī)劃教材《中藥學(xué)》、《中醫(yī)診斷學(xué)》、《中藥大辭典》及《中華人民共和國(guó)藥典》等238個(gè)公開標(biāo)準(zhǔn)或出版物建立基本本體知識(shí)庫(kù)。其次對(duì)幾百本古代中醫(yī)文獻(xiàn)進(jìn)行了校對(duì)并建立了古代文獻(xiàn)文本庫(kù)。又對(duì)糖尿病相關(guān)的幾十萬(wàn)篇現(xiàn)代文獻(xiàn)建立了題錄庫(kù)及部分全文庫(kù)。還收錄了臨床團(tuán)隊(duì)多年的糖尿病病例數(shù)據(jù)。以上海量數(shù)據(jù)共同納入團(tuán)隊(duì)開發(fā)的支持異構(gòu)的糖尿病及代謝綜合征中醫(yī)病證大數(shù)據(jù)平臺(tái),作為下一步研究的前期數(shù)據(jù)基礎(chǔ)。平臺(tái)數(shù)據(jù)嚴(yán)格遵循真實(shí)和準(zhǔn)確的原則,所有入平臺(tái)出版數(shù)據(jù)反復(fù)核對(duì),臨床數(shù)據(jù)保證真實(shí)可靠,為數(shù)據(jù)分析奠定基礎(chǔ)。在此基礎(chǔ)上開發(fā)了古代文獻(xiàn)自動(dòng)分析、現(xiàn)代文獻(xiàn)自動(dòng)分析、臨床病例采集及分析、中醫(yī)藥數(shù)據(jù)自動(dòng)關(guān)聯(lián)分析等系統(tǒng),為糖尿病研究人員提供了極好的研究平臺(tái)。
2.1古代文獻(xiàn)自動(dòng)分析 中醫(yī)藥古代文獻(xiàn)蘊(yùn)含著豐富的中醫(yī)醫(yī)理思想和診療經(jīng)驗(yàn),是中醫(yī)病證大數(shù)據(jù)平臺(tái)非常有價(jià)值的數(shù)據(jù)來源。傳統(tǒng)的標(biāo)引分析主要基于人工標(biāo)注,不能適應(yīng)大數(shù)據(jù)平臺(tái)的海量文獻(xiàn)自動(dòng)處理要求。筆者開發(fā)了一個(gè)輔助研究平臺(tái),在建立基本知識(shí)元庫(kù)的基礎(chǔ)上,對(duì)古代文獻(xiàn)進(jìn)行文字分析,并實(shí)現(xiàn)了自動(dòng)處理功能[4]。將輔助平臺(tái)功能集成到大數(shù)據(jù)平臺(tái),就可以對(duì)不斷獲得的中醫(yī)古代文獻(xiàn)文本進(jìn)行分析,獲取其文獻(xiàn)全文的概念的注釋,而且對(duì)概念的分類、時(shí)代有全面直觀的了解。此系統(tǒng)計(jì)算功能比較強(qiáng),一般的文獻(xiàn)數(shù)據(jù)量都在幾十萬(wàn)條到幾百萬(wàn)條,分析后研究者可以清晰的了解文獻(xiàn)的全貌,也可以針對(duì)其研究專題獲取詳細(xì)的信息。
2.2現(xiàn)代文獻(xiàn)自動(dòng)分析 現(xiàn)代文獻(xiàn)的數(shù)量級(jí)遠(yuǎn)遠(yuǎn)大于古代文獻(xiàn),針對(duì)某個(gè)專病其文獻(xiàn)量就可以輕易達(dá)到幾十萬(wàn)篇的數(shù)量級(jí),題錄分析已經(jīng)很難,全文分析更是困難重重。筆者設(shè)計(jì)了現(xiàn)代文獻(xiàn)分析系統(tǒng),從題錄入手,數(shù)據(jù)來源基于各大文獻(xiàn)數(shù)據(jù)庫(kù)的自動(dòng)導(dǎo)出題錄,通過數(shù)據(jù)處理,自動(dòng)導(dǎo)入到系統(tǒng)數(shù)據(jù)庫(kù)中,再以人性化的設(shè)計(jì)展現(xiàn)在研究者面前。其設(shè)計(jì)重點(diǎn)在于讓研究者快速?gòu)暮A课墨I(xiàn)中搜索到自己研究的關(guān)鍵文獻(xiàn),因此主要關(guān)鍵詞和文摘的搜索與排序都很重要。除此之外,系統(tǒng)設(shè)計(jì)了研究統(tǒng)計(jì)的新知識(shí)元和原文查看功能,幫助研究者深入研究論文的學(xué)術(shù)內(nèi)容。目前此系統(tǒng)是半自動(dòng)處理,能夠幫助研究者從幾十萬(wàn)篇文獻(xiàn)中快速鎖定關(guān)注論文,后續(xù)計(jì)劃加入文本自動(dòng)分析算法,幫助研究者自動(dòng)給出論文的學(xué)術(shù)分析內(nèi)容,使研究的效率大大提高,真正使醫(yī)學(xué)文獻(xiàn)研究進(jìn)入“多多益善”的境界。
2.3臨床病例采集及分析 醫(yī)學(xué)大數(shù)據(jù)平臺(tái)必須與醫(yī)學(xué)臨床數(shù)據(jù)緊密關(guān)聯(lián),使古代文獻(xiàn)、現(xiàn)代文獻(xiàn)和當(dāng)前臨床數(shù)據(jù)產(chǎn)生良性互動(dòng),因此臨床病例系統(tǒng)的設(shè)計(jì)十分重要。當(dāng)前針對(duì)中醫(yī)和西醫(yī)醫(yī)院都有電子病歷的標(biāo)準(zhǔn),也有HIS系統(tǒng)的設(shè)計(jì)規(guī)范,但是在臨床應(yīng)用中都存在標(biāo)準(zhǔn)比較寬泛而不能準(zhǔn)確概括具體專病診療的問題。目前能實(shí)際能起到臨床應(yīng)用效果的基本都是各科室醫(yī)生自主增添修改的自定義模塊,但是在分析這部分空白點(diǎn)很多。筆者針對(duì)臨床病例采集設(shè)計(jì)了相應(yīng)的病歷系統(tǒng),針對(duì)專病比較人性化的解決了病歷錄入的問題,不過局限性也很明顯,就是隨著醫(yī)生或者科室的不同,必須進(jìn)行大量的修改。筆者當(dāng)前依托大數(shù)據(jù)平臺(tái)開始設(shè)計(jì)二代的病歷系統(tǒng),可以依靠平臺(tái)極為豐富的知識(shí)元系統(tǒng),自動(dòng)分析醫(yī)生和患者的日常病歷數(shù)據(jù)并加以合理推算,自適應(yīng)的給出醫(yī)生知識(shí)模塊調(diào)整方案建議。這樣能較好的解決臨床數(shù)據(jù)與文獻(xiàn)知識(shí)脫節(jié)以及病歷模塊修改耗費(fèi)人工過多而效率過低的問題,真正使醫(yī)生的臨床數(shù)據(jù)與最新醫(yī)學(xué)進(jìn)展同步互動(dòng)。
2.4中醫(yī)藥數(shù)據(jù)自動(dòng)關(guān)聯(lián)分析 醫(yī)學(xué)數(shù)據(jù)的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘一般是通過購(gòu)買和使用商業(yè)軟件來完成的,SAS、SPSS和MATLAB等商業(yè)軟件數(shù)據(jù)分析功能強(qiáng)大,是研究者的好幫手。但是這些商業(yè)軟件也存在價(jià)格昂貴、學(xué)習(xí)困難、使用繁瑣、自主性差等問題,抬高了醫(yī)學(xué)數(shù)據(jù)分析的門檻,導(dǎo)致一些研究者望而生畏。筆者針對(duì)醫(yī)學(xué)數(shù)據(jù)挖掘的主要內(nèi)容關(guān)聯(lián)規(guī)則分析和聚類分析設(shè)計(jì)了自己的算法和軟件,應(yīng)用在大數(shù)據(jù)平臺(tái)的中藥分析中。這些軟件可以很好的給出中醫(yī)治療專病的藥物分析,分析層次與參數(shù)同于或優(yōu)于一般商業(yè)軟件,而且與研究數(shù)據(jù)的集成度較高,使用起來比較簡(jiǎn)捷。目前已經(jīng)將關(guān)聯(lián)規(guī)則分析算法處理集成到大數(shù)據(jù)平臺(tái)中,可以方便的給出專病藥方的分析結(jié)果,對(duì)中醫(yī)文獻(xiàn)中專病的治療方法給出準(zhǔn)確的中藥方分析。后期可以對(duì)文獻(xiàn)中中醫(yī)西醫(yī)各種治療方法給出關(guān)聯(lián)性分析的結(jié)果。
3結(jié)論
以上內(nèi)容是筆者在設(shè)計(jì)糖尿病中醫(yī)病證大數(shù)據(jù)平臺(tái)中的一些探索和實(shí)踐內(nèi)容。結(jié)合古代中醫(yī)文獻(xiàn)分析中醫(yī)醫(yī)理,結(jié)合現(xiàn)代醫(yī)學(xué)文獻(xiàn)分析診療技術(shù),結(jié)合臨床病例分析臨床路徑,再將以上內(nèi)容通過統(tǒng)一的知識(shí)庫(kù)進(jìn)行關(guān)聯(lián)數(shù)據(jù)分析是目前的整體思路。在此過程中將研究一系列的理論、方法和算法,并開發(fā)出相應(yīng)的自動(dòng)分析技術(shù)和軟件。由于此領(lǐng)域的研究剛剛開展,理論和方法還十分不完善,因此難免走一些彎路,在此也希望醫(yī)學(xué)同道給予批評(píng)指正,并能共同推進(jìn)這一領(lǐng)域的研究。
參考文獻(xiàn):
[1]中華醫(yī)學(xué)會(huì)糖尿病學(xué)分會(huì).中國(guó)2型糖尿病防治指南(2013年版)[J].中國(guó)糖尿病雜志,2014,22(08):2-42.
[2]Pasala SK,Rao AA,Sridhar GR.Built environment and diabetes[J].International Journal of Diabetes in Developing Countries,2010,30(2):63-68.
[3]汪會(huì)琴,胡如英,武海濱,等.2型糖尿病報(bào)告發(fā)病率研究進(jìn)展[J].預(yù)防醫(yī)學(xué),2016,28(1):37-39.
[4]張柯欣,石巖,楊宇峰.中醫(yī)文獻(xiàn)知識(shí)智能解析及教學(xué)平臺(tái)的研究[J].科技展望,2017(19):180-182.
收稿日期:2018-6-7;修回日期:2018-6-15
編輯/楊倩