劉禎
摘 要:中醫(yī)藥學已經(jīng)有三千多年的歷史了,在當代科技突飛猛進的過程中,中醫(yī)藥又煥發(fā)出了新的生機,在科研投入與成果、臨床研究與效益、國內(nèi)人才培養(yǎng)與國際化等方面都取得了不菲的成績。而機器學習作為21世紀的新興科技,在數(shù)據(jù)挖掘、大量數(shù)據(jù)處理等方向具有得天獨厚的優(yōu)越性。本文將機器學習與現(xiàn)代中醫(yī)藥理論結(jié)合,從中醫(yī)文化精髓進行分析,介紹了中藥指紋圖譜數(shù)據(jù)處理技術(shù),結(jié)合機器學習與神經(jīng)網(wǎng)絡,設計了一種利用機器學習進行中醫(yī)藥成分分析的方法,最后,對于人工智能與中醫(yī)藥的結(jié)合進行了總結(jié)與展望。
關(guān)鍵詞:中醫(yī)藥;機器學習;人工神經(jīng)網(wǎng)絡;數(shù)據(jù)挖掘
中圖分類號:TP301 文獻標識碼:A 文章編號:1671-2064(2018)01-0196-02
1 引言
中醫(yī)藥是一門發(fā)源于中國黃河流域的經(jīng)驗學科,很早之前就形成了一門具有特色的學術(shù)體系。而在當時的條件下,還沒有進行農(nóng)業(yè)生產(chǎn),當時的主要情況就是“饑則求食,飽既棄余”,人們在采摘不同的食物時候,會發(fā)現(xiàn)有些食物好吃,有些不好吃,有些甚至有毒,有些卻可以解毒。例如,吃了大量的大黃,會引起腹瀉;吃了瓜蒂,可導致嘔吐;而吃了,或者涂抹了薄荷,卻可以去除蚊蟲之患。這樣,人們就漸漸懂得了應該吃什么樣的東西,什么樣的東西卻不能碰,甚至,可以有意識地尋找某些能治病的植物。這樣,經(jīng)過一個人的長時間的實踐,甚至經(jīng)過一個部落長時間的總結(jié),藥物也就漸漸被發(fā)現(xiàn)了。這樣看來,藥知識的累積就是一個十分長久,長達幾千年,并且自主應用“機器學習”的方法的過程。在漫長的歷史過程中,人們對藥物的應用越來越成熟,逐漸出現(xiàn)了許多中醫(yī)藥領域的名醫(yī),并且出現(xiàn)了不同的學派,各個朝代和中醫(yī)從業(yè)者編著了大量相關(guān)的名著,并流傳下了不斷被后人研究的基礎中醫(yī)配方。中國歷史上有人人皆知的“神農(nóng)嘗百草”的傳說,這反映了歷史中各個時期的人民群眾在與病痛、與大自然的不斷反抗過程中發(fā)現(xiàn)中醫(yī)藥物、累積經(jīng)驗的漫長歷程,也真實描寫了中醫(yī)藥的起源。由此可看出,中醫(yī)藥是幾千年中國勞動人民的智慧結(jié)晶。大量的經(jīng)典書籍、歷代積累的方劑及現(xiàn)代人們在實踐中產(chǎn)生的中醫(yī)藥數(shù)據(jù)很難依靠人工處理的方法進行中醫(yī)藥理論基礎的研究。中醫(yī)藥的積累是我們?nèi)祟愡M行機器學習的過程,當機器出現(xiàn)之后,我們讓機器人完成這個過程,進行機器學習,大大縮短了這個學習過程。
認識中藥及方劑的藥效物質(zhì)及其作用機制在20年前是一件很難實現(xiàn)的事情,但是隨著HPLC、質(zhì)譜、光譜、核磁等先進儀器和分析技術(shù)不斷進步,給中藥化學成分的認識、藥效/毒性物質(zhì)的分析、作用機制的探究、體內(nèi)過程的解讀、質(zhì)量標準的建立等提供了技術(shù)保障,今天的科學家已經(jīng)可以在較短的時間內(nèi)基本解析復方的藥效物質(zhì)及作用機制,許多研究成果轉(zhuǎn)化為藥典標準和行業(yè)標準?,F(xiàn)在,我們就可以利用機器學習,來進行更細致的成分藥理的分析,甚至逆向推斷病癥所需要的藥方。
2 中藥指紋圖譜數(shù)據(jù)處理技術(shù)簡介
在進行中藥的分析過程中,我們一般采用模式識別的方法,因為中藥的指紋圖譜數(shù)據(jù)是非常復雜的。利用指紋圖譜技術(shù),我們可以獲得一味中藥其中所含的復雜化學成分的情況,而根據(jù)相關(guān)的文獻來看,在相似度的評價過程中,有很多種數(shù)學算法可以利用,例如峰重疊率法也叫,Nei系數(shù)法;共有峰強度結(jié)合法,也名改進的Nei系數(shù)法;相關(guān)系數(shù)法也是一種比較常用的計算方法,其通過圖譜間的相似性評價相似度;另外還可以使用差異評價的距離系數(shù)法和向量夾角余弦法等方法。根據(jù)文獻報道,相似度的評價主要這些方法都有各自的特點和應用范圍。
各種的計算方法都有其優(yōu)缺點,在實際的計算中,最重要的任務是如何在不同的情況下使用不同的相似度評價方法。由于在在中藥品種的使用過程中,很多都是非線性相關(guān)的,并且很多和藥物的量關(guān)系不大,這時候在鑒定中常用的方法有Nei系數(shù)、夾角余弦與相關(guān)系數(shù)法,但是如果碰到藥物的量與質(zhì)量會對結(jié)果產(chǎn)生較大影響的時候,使用改進的Nei系數(shù)法和距離系數(shù)法可以解決這樣的問題。
另外,很多方式還可以對于其中的指紋圖譜還可以進行相似度的評價改進,例如Nei系數(shù)法、距離系數(shù)法、相關(guān)系數(shù)法,在這幾種方法中,容易探測出大峰的差別的為相關(guān)系數(shù)和夾角余弦法,而小峰探測Nei系數(shù)有很大的優(yōu)勢。距離系數(shù)一直對于各種峰都能達到波動的探測。除此之外,在進行這些圖譜分析與相關(guān)性分析時候,也要進行數(shù)據(jù)的標準化處理。
3 機器學習與神經(jīng)網(wǎng)絡
機器學習,也叫machine learning,是伴隨著計算機的出現(xiàn)而出現(xiàn)的人工智能化的新概念,機器學習有很多的定義,我們選取其中的一種:“機器學習是用已有的數(shù)據(jù)或以往的對應關(guān)系,以此自動改進計算機程序的性能標準。”機器學習已經(jīng)有了十分廣泛的應用,例如:安防,醫(yī)療健康,教育,電商零售,金融,智能汽車,機器人等領域。
機器學習有很多種分類方法,我們在這里進行了基于學習策略的分類,也就是通過學習過程中的推理策略的不同來進行的分類。不同的學習策略有不同的難易程度,我們主要分為以下幾個基本類型,其難易程度是遞增的。首先是機械學習,然后是示教學習進而是演繹學習,難度更高的是類比學習緊跟其后為基于解釋的學習,最后,難度最大的機器學習方式為歸納學習。
另外,在機器學習的領域,經(jīng)常會用到人工神經(jīng)網(wǎng)絡這個工具。人工神經(jīng)網(wǎng)絡,英文名為Artificial Neural Network,簡寫為ANN,是在現(xiàn)代神經(jīng)學研究的成果的基礎上發(fā)展起來的可以完成學習、記憶、識別和推理等功能,來模仿人腦進行信息處理的網(wǎng)絡系統(tǒng)。目前,神經(jīng)網(wǎng)絡的理論研究已經(jīng)非常深入了,但是還是有很大的發(fā)展空間,向量機等新的概念也不斷出現(xiàn),我們在進行神經(jīng)網(wǎng)絡的訓練后,可以得到輸入與輸出之間中間層的權(quán)重矩陣,從而進行很多非線性對應關(guān)系的分析計算。
4 利用機器學習進行中醫(yī)藥成分分析的設計
在中醫(yī)藥數(shù)據(jù)挖掘的研究上,可以建立BP神經(jīng)網(wǎng)絡來反應各個藥物之間以及藥物和病癥之間的關(guān)系。BP神經(jīng)網(wǎng)絡是采用誤差反向傳播算法進行誤差校正的多層前饋網(wǎng)絡。這種神經(jīng)網(wǎng)絡所采用的誤差反向傳播算法(Error Back Propagation Training),也叫做BP算法,它的優(yōu)點在于可以系統(tǒng)解決多層神經(jīng)網(wǎng)絡隱含層鏈接權(quán)學習問題,并給出完整的數(shù)學推導。用這種算法校正的神經(jīng)網(wǎng)絡,可以解決簡單感知器所不能解決的異或(Exclusive OR,XOR)和一些其他問題。endprint
BP算法的計算方式是以網(wǎng)絡誤差平方為目標函數(shù)、采用梯度下降法來計算目標函數(shù)的最小值。應用到中醫(yī)數(shù)據(jù)挖掘的研究中時,先通過現(xiàn)代化學手段建立藥品成分指紋庫,再通過臨床建立癥狀解決庫,然后與中藥藥品庫相聯(lián)系,通過BP神經(jīng)網(wǎng)絡,使用模糊算法可以得到藥方與中間層,也就是反應方劑的矢量關(guān)系,另外也可以通過中間層與癥狀庫之間的矢量矩陣得到反應方劑與病癥的關(guān)系,從而可以得到藥物中哪些成分可以解決哪些病癥,從而實現(xiàn)中藥的“化學化”,另外,我們還可以對已有的矢量進行逆推,從而得到藥劑的配置和獲得新的可能的藥方。但因為新藥方是通過模糊算法得到的理論上成立的藥方,并不能代表此藥方在實際情況下適用,因此要經(jīng)過多次試驗以后,才能投入臨床治療,如圖1。
5 結(jié)語和展望
我們在進行現(xiàn)代中醫(yī)藥成分分析時,需要進行大量的計算來完成分析,這些中醫(yī)藥數(shù)據(jù)在計算時,需要處理模糊、不完整及非線性特征,而數(shù)據(jù)挖掘技術(shù)在這方面有著巨大的優(yōu)勢,可以準確,完善,且快捷的處理這些數(shù)據(jù)。因此,數(shù)據(jù)挖掘與人工神經(jīng)網(wǎng)絡在現(xiàn)代中醫(yī)藥成分的分析過程中起著積極有效的作用,我們就是前文中提出的模型期望獲得中醫(yī)藥成分的藥理結(jié)果和可能藥方的調(diào)配。但是,此項技術(shù)目前仍處于初步發(fā)展的階段,并不完善,不能適用于大部分領域,我們?nèi)孕枰M一步的探索,去投入更多此領域的研究。
參考文獻
[1]李紅.基于機器學習的中醫(yī)藥配方評估研究[D].南京大學,2016.
[2]岳振宇.基于機器學習的天然產(chǎn)物抗腫瘤和免疫調(diào)節(jié)活性研究[D].安徽大學,2016.
[3]秦延斌.基于中醫(yī)核心思維的機器學習醫(yī)用診療系統(tǒng)設計[J].中華中醫(yī)藥學刊,2015,(09):2188-2191.
[4]張伯禮,張俊華.中醫(yī)藥現(xiàn)代化研究20年回顧與展望[J].中國中藥雜志,2015,(17):3331-3334.
[5]鄧宏勇,許吉,張洋,袁敏,施毅.中醫(yī)藥數(shù)據(jù)挖掘研究現(xiàn)狀分析[J].中國中醫(yī)藥信息雜志,2012,(10):21-23.
[6]任廷革,劉曉峰,張帆,孫燕,湯爾群.計算技術(shù)對中醫(yī)方劑知識的挖掘[J].科技導報,2010,(15):31-35.
[7]馬麗偉.關(guān)聯(lián)規(guī)則算法研究及其在中醫(yī)藥數(shù)據(jù)挖掘中的應用[D].南京理工大學,2009.
[8]麥喬智.數(shù)據(jù)挖掘模型的創(chuàng)建及其在中醫(yī)藥文獻中的應用研究[D].南京中醫(yī)藥大學,2009.
[9]劉建平,張柯欣,楊鈞.數(shù)據(jù)挖掘技術(shù)及其在中醫(yī)藥領域中的應用[J].遼寧中醫(yī)藥大學學報,2007,(06):203-204.
[10]孫燕.基于機器學習技術(shù)的《傷寒論》方證分析方法研究[D].北京中醫(yī)藥大學,2007.
[11]尹耀慧,金益強,易振佳.人工神經(jīng)網(wǎng)絡在中醫(yī)藥現(xiàn)代化研究中的應用[J].中醫(yī)藥導報,2006,(09):83-85.
[12]李運賢,杜瑞卿.生物信息學中機器學習方法對中醫(yī)藥復雜系統(tǒng)的研究[J].中醫(yī)藥學刊,2006,(07):1296-1297.
[13]蔡越君.數(shù)據(jù)挖掘技術(shù)及其在中藥配伍系統(tǒng)中的應用研究[D].浙江大學,2003.endprint