文/甘櫪元 郭超峰
數(shù)據(jù)挖掘歸屬于計算機科學的范疇,是數(shù)據(jù)庫知識發(fā)現(xiàn)中不可或缺的重要步驟之一,具體而言,數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中,依托相關(guān)的算法,對隱藏在這些數(shù)據(jù)中的信息進行搜索的過程。數(shù)據(jù)挖掘技術(shù)的提出有其必然性,在進行數(shù)據(jù)挖掘的過程中,對諸多先進的思想進行了借鑒和利用,如統(tǒng)計學的抽樣與假設(shè)、AI中的搜索算法及學習理論等等,由此使數(shù)據(jù)挖掘日漸成熟和完善,應(yīng)用領(lǐng)域也隨之拓寬。
對于數(shù)據(jù)挖掘而言,由于需要從海量的數(shù)據(jù)中找出有利用價值的信息,從而使得整個挖掘過程相對比較復雜。常規(guī)的數(shù)據(jù)挖掘步驟如下:
Step1:問題分析。這是數(shù)據(jù)挖掘的開始,具體是指對數(shù)據(jù)及相關(guān)的業(yè)務(wù)問題進行理解,在此基礎(chǔ)上提出問題,并對目標進行定義;
Step2:準備數(shù)據(jù)。這是數(shù)據(jù)挖掘中較為重要的步驟之一,包括對數(shù)據(jù)的提取及校驗。需要先獲得原始數(shù)據(jù),從中抽取子集,并將這些數(shù)據(jù)子集放在數(shù)據(jù)模型兼容的數(shù)據(jù)庫當中,再以清洗的方法,將不兼容的數(shù)據(jù)剔除掉,利用剩余的數(shù)據(jù)創(chuàng)建挖掘庫;
Step3:建立模型。將相關(guān)的算法在模型上進行應(yīng)用后,能夠得到一個與實際問題相關(guān)聯(lián)的結(jié)構(gòu),通過對該結(jié)構(gòu)中的數(shù)據(jù)進行瀏覽,對源數(shù)據(jù)進行確認,據(jù)此生成模型,該模型中包含一些重要的特征;
Step4:編寫查詢程序。當數(shù)據(jù)模型建好之后,可使用相應(yīng)的編程語言和工具,如VB等,對前端查詢程序進行編寫;
Step5:模型維護。因數(shù)據(jù)模型中初始數(shù)據(jù)的一些特征可能在使用的過程中發(fā)生改變,所以需要對模型進行定期維護,以此來確保數(shù)據(jù)挖掘精度。
數(shù)據(jù)挖掘方法的種類較多,比較常見的有以下幾種:統(tǒng)計、機器學習、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫等等。
1.2.1 統(tǒng)計
這是數(shù)據(jù)挖掘中較為經(jīng)典的一種方法,包括抽樣技術(shù)、多元化統(tǒng)計分析以及預(yù)測等。
1.2.2 機器學習
這種數(shù)據(jù)挖掘方法中,較具代表性的有歸納學習,如決策樹;范例學習;遺傳算法以及粗糙集等等。其中遺傳算法能夠獲取全局最優(yōu)解,而粗糙集可以有效處理完整程度低以及不確定的問題。
1.2.3 神經(jīng)網(wǎng)絡(luò)
這是一種通過模擬人的神經(jīng)元,按照人腦的思維方式解決相關(guān)問題的方法,最終獲得的結(jié)果可用于分類與回歸。神經(jīng)網(wǎng)絡(luò)突出的特點在于能夠?qū)性肼暤臄?shù)據(jù)進行處理,并且還可以對一些非線性數(shù)據(jù)進行處理。
1.2.4 數(shù)據(jù)庫
這里的數(shù)據(jù)庫是一種分析方法,可對多維數(shù)據(jù)進行分析,其存儲結(jié)構(gòu)的主要作用是對數(shù)據(jù)進行高效檢索,適用于聚合數(shù)據(jù)。
中醫(yī)藥是涵蓋內(nèi)容極為豐富的醫(yī)藥學體系,其除了具有悠久的歷史之外,還有著獨特的理論與技法,是我國醫(yī)藥衛(wèi)生事業(yè)的重要組成部分之一,與現(xiàn)代西方國家的醫(yī)學體系并立。中醫(yī)藥信息的特點體現(xiàn)在如下幾個方面:信息既多且雜,并且形式多種多樣;專業(yè)數(shù)據(jù)不規(guī)范,信息較為模糊;中醫(yī)藥的方法論具有傳承性。為促進我國中醫(yī)藥事業(yè)的穩(wěn)定、持續(xù)發(fā)展,可在中醫(yī)藥研究領(lǐng)域中,對數(shù)據(jù)挖掘技術(shù)進行合理運用,以此來實現(xiàn)中醫(yī)藥特色研究不斷突破的目標。下面對數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的具體應(yīng)用進行分析。
中藥方劑即治病的藥方,是中醫(yī)藥研究的重點領(lǐng)域之一,較具代表性的藥方有《神農(nóng)本草經(jīng)》、《金匱要略》、《千金要方》等等。方劑是中醫(yī)治法實現(xiàn)的前提和基礎(chǔ),不同的方劑在治療各種疾病中所能起到的作用均不相同。大部分的方劑是由四個部分組成:君藥、臣藥、佐藥和使藥,通過對中藥的選擇及配伍,能夠配制出各種藥物,從而滿足治病救人的需要。在中藥方劑研究中,對數(shù)據(jù)挖掘技術(shù)的合理運用,能夠找到方劑中各類中藥的配伍規(guī)律,進而發(fā)現(xiàn)方劑與病癥之間的內(nèi)在聯(lián)系,揭示方劑的功效,為臨床醫(yī)師開具處方及合理用藥提供指導。
如,可運用數(shù)據(jù)挖掘中的頻繁項集與關(guān)聯(lián)規(guī)則,對治療呼吸疾病的中醫(yī)方劑中的中藥成分及規(guī)律進行研究分析,由此可得出如下結(jié)論:在選取的500個方劑中,甘草的使用頻率最高,置信度達到52.5%,苦杏仁、五味子、麻黃及人參這四味中藥次之;在500個方劑中,苦杏仁與麻黃同時出現(xiàn)的比例為92.5%,說明二者適宜配對使用。在治療呼吸困難的方劑中,甘草和麻黃配對使用的較多,而在清熱化痰的方劑中,配對使用的中藥有甘草與半夏、苦杏仁與半夏。又如,可以利用雙向關(guān)聯(lián)規(guī)則挖掘算法,將支持度小且對方劑意義不大的藥對排除掉,再通過聚類分析法,對挖掘出來的藥對進行功效總結(jié),進而得出治療脾胃類方劑中,藥對的配伍規(guī)律,其中使用頻率較高的藥對為白術(shù)與茯苓、陳皮與茯苓、白術(shù)與人參,配以甘淡、苦溫等方面的中藥,可以起到化濕、健脾、理氣的功效。在中醫(yī)方劑的研究中,數(shù)據(jù)挖掘最終獲得的結(jié)果,與藥物的配伍規(guī)律相符,可為醫(yī)師開具處方提供指導。
2.2.1 四診客觀化
中醫(yī)診斷是中醫(yī)藥研究的重點領(lǐng)域,具體是指在中醫(yī)基礎(chǔ)理論的指導下,對診察病情、辨別病癥的方法和技能進行研究。中醫(yī)診斷是基礎(chǔ)理論與臨床的橋梁,其重要性不言而喻。中醫(yī)四診包括望、聞、問、切四種診斷方法,四診客觀化是實現(xiàn)中醫(yī)診斷客觀化的前提和基礎(chǔ),而數(shù)據(jù)挖掘技術(shù)則是四診客觀化對相關(guān)文獻處理的有效途徑之一。例如,可將中醫(yī)的病案與脈診和舌診理論進行有機結(jié)合,據(jù)此構(gòu)建OLAP系統(tǒng),即中醫(yī)病案聯(lián)機分析處理系統(tǒng),依托該系統(tǒng)對實際案例進行研究,從而了解當代名醫(yī)對脈診和舌診的認識,掌握脈象、舌象與患者病癥之間的相關(guān)性。
2.2.2 臨床診斷
對于中醫(yī)臨床而言,診斷的主要作用是對治療方案進行確定,對方劑的使用進行指導,從而達到調(diào)理康復的目標。因此,中醫(yī)診斷的正確性尤為重要。由于中醫(yī)臨床的部分疾病具有錯綜復雜的特點,為此,可在中醫(yī)臨床診斷中,對數(shù)據(jù)挖掘技術(shù)進行合理運用,借助分析分類的方法進行疾病診斷。例如,可以利用數(shù)據(jù)挖掘中的貝葉斯學習分類法,對男女患者的CT圖像進行自動診斷;借助機器學習的方法,對重癥患者的呼吸壓力進行分析。在中醫(yī)藥研究中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用越來越廣泛,由此使得中醫(yī)藥海量數(shù)據(jù)信息的處理成為可能,對于促進中醫(yī)診斷學研究水平的提升具有重要的現(xiàn)實意義。
在中醫(yī)學中,證候是一個專業(yè)術(shù)語,是具有關(guān)聯(lián)性的癥狀總稱,即通過四診獲得的疾病在機體上的反應(yīng)狀態(tài)及變化情況。對中醫(yī)證候進行研究的過程中,需要使用方法學,而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),為證候研究水平的提升提供了技術(shù)支撐。目前,基于數(shù)據(jù)挖掘的中醫(yī)證候研究呈現(xiàn)出逐步增多的態(tài)勢,并且其中部分研究取得了突破性進展,通過各種數(shù)據(jù)方法的聯(lián)合運用,能夠?qū)χ嗅t(yī)證候的特點進行區(qū)分與歸納,從而為辯證治療提供支持。例如,可以采用樣本聚類分析的方法,找出胃脘痛的證候特點,再通過回歸分析的OR值,可對胃脘痛證候的量化診斷進行深入探討,從而為臨床辯證治療提供依據(jù)。又如,可利用決策樹C4.5算法,構(gòu)建中醫(yī)辯證模型,對慢性胃炎的中醫(yī)證候進行鑒別診斷。
針灸是一種治療疾病的方法,分為針法和灸法。目前,針灸已經(jīng)被正式列入國家級非物質(zhì)文化遺產(chǎn)名錄當中。針灸是一種內(nèi)病外治的傳統(tǒng)醫(yī)術(shù),是中國醫(yī)學遺產(chǎn)的一部分,通過針灸能夠疏通經(jīng)絡(luò)、調(diào)和陰陽,很多疑難雜癥都可以采用針灸進行治療,并且療效顯著。盡管現(xiàn)代醫(yī)學快速發(fā)展,但中醫(yī)針灸卻仍然在醫(yī)學界中占據(jù)一席之地,這種治療方法的傳承與發(fā)展有其重要性和必要性。利用數(shù)據(jù)挖掘技術(shù),對針灸治療各種疾病時的用穴特點進行研究分析,能夠幫助醫(yī)師更快地掌握針灸的方法,對于促進該醫(yī)療手段的發(fā)展具有重要作用。例如,借助數(shù)據(jù)挖掘技術(shù)中的多層關(guān)聯(lián)規(guī)則,可對針灸治療心絞痛的用穴特點及規(guī)律進行分析,從而得出中醫(yī)針灸在治療心絞痛方面使用頻率較高的經(jīng)絡(luò)和穴位為心包經(jīng)、膀胱經(jīng)以及任脈。內(nèi)關(guān)則是使用頻率最高的腧穴,膻中穴和心俞次之。從中發(fā)現(xiàn),在針灸治療心絞痛時,有8個特定的穴位,配伍則是以這些穴位為主。該研究結(jié)果對于促進針灸療法的改進和發(fā)展意義重大。
綜上所述,中醫(yī)藥研究是一項非常重要的工作,尤其是在醫(yī)療技術(shù)快速發(fā)展的今天,中醫(yī)藥仍然占據(jù)一席之地。由于中醫(yī)藥有著悠久的歷史傳承,在這一過程中形成大量的數(shù)據(jù)信息,為從這些數(shù)據(jù)中發(fā)現(xiàn)更多有價值的信息,可對數(shù)據(jù)挖掘技術(shù)進行合理運用,由此能夠推動我國中醫(yī)藥事業(yè)的持續(xù)發(fā)展。