兩種關聯(lián)規(guī)則算法在中醫(yī)藥治療方面的應用及比較
王倩,金衛(wèi),生慧*
(山東中醫(yī)藥大學,濟南 250355)
摘要:關聯(lián)規(guī)則數(shù)據(jù)挖掘方法作為數(shù)據(jù)挖掘領域最活躍的研究方法之一,已廣泛應用于中醫(yī)藥領域的各個方面,使得中醫(yī)藥龐大的信息數(shù)據(jù)庫得以有效的利用,推動了中醫(yī)藥信息化的發(fā)展。關聯(lián)規(guī)則算法中的Apriori算法和FP-growth算法在中醫(yī)藥治療方面一直備受關注,兩種算法在不同的中醫(yī)、疾病、方劑、治法等方面所挖掘出的不同關聯(lián)規(guī)則揭示了中醫(yī)藥治療的潛在規(guī)律,為傳承和發(fā)展中醫(yī)中藥知識奠定了理論基礎。對兩種算法在算法本身和算法應用方面進行簡單比較,為進一步探索關聯(lián)規(guī)則在中醫(yī)藥治療方面的應用提供了參考。
關鍵詞:關聯(lián)規(guī)則;中醫(yī)藥;Apriori算法;FP-growth算法
DOI:10.13463/j.cnki.jlzyy.2015.01.003
中圖分類號:R2-03文獻標志碼: A
文章編號:1003-5699(2015)01-0009-04
基金項目:山東省高等學校科技計劃項目(J11LF10)。
作者簡介:王倩(1990-),女,大學本科,主要從事生物醫(yī)學信息處理研究。
收稿日期:(責任編輯:張曄2014-09-24)
*通信作者:生慧,電話-18560011658,電子信箱-shenghui2217@163.com
Application and comparison of two kinds of association rules in traditional
Chinese medicine treatment
WANG Qian,JIN Wei,SHENG Hui*
(Shandong University of Traditional Chinese Medicine,Jinan 250355,China)
Abstract:As one of the most active research methods in the field of data mining,the data mining method of association rule has been widely used in various aspects in the field of traditional Chinese medicine,which makes the large database of traditional Chinese medicine information can be utilized effectively,and promotes the development of traditional Chinese medicine modernization.Apriori algorithm and FP-growth algorithm of the association rules have attracted much attention in traditional Chinese medicine treatment.The different association rules mined by the two algorithms in aspects of Chinese medicine,diseases,drugs,treatment etc.reveal the potential rules of TCM treatment and establish the theoretical foundation for the inheritance and development of traditional Chinese medicine knowledge.A simple comparison between the two kinds of algorithm in the algorithm itself and the use of the algorithm was made to provide reference for further exploring in the application of association rules in traditional Chinese medicine.
Keywords:association rules;Traditional Chinese Medicine;Apriori algorithm;FP-growth algorithm
關聯(lián)規(guī)則反映一個事物與其他事物之間的相互依存性和關聯(lián)性。而關聯(lián)規(guī)則挖掘則是數(shù)據(jù)挖掘中最活躍的研究方法之一,其本質是要找出隱藏在數(shù)據(jù)間的相互關系。關聯(lián)規(guī)則數(shù)據(jù)挖掘的步驟主要有兩步:找出所有支持度大于或等于規(guī)定最小支持度的頻繁項集,再由頻繁項集產生所期望的關聯(lián)規(guī)則[1]。其關聯(lián)規(guī)則的產生由支持度和置信度決定。在中醫(yī)藥領域,數(shù)據(jù)挖掘技術可用于證候診斷、方劑配伍、文獻研究、臨床病歷等方面,以輔助傳承中醫(yī)文化,指導現(xiàn)代中醫(yī)的發(fā)展。在目前針對中醫(yī)藥領域的數(shù)據(jù)挖掘中,關聯(lián)規(guī)則Apriori算法和FP-growth算法倍受研究人員的青睞。
1概念
Apriori算法為布爾關聯(lián)規(guī)則挖掘頻繁項集的原創(chuàng)性算法。該算法屬于寬度優(yōu)先算法[2],使用逐層搜索的迭代方法,其中k項集用于探索(k+1)項集。首先,掃描整個數(shù)據(jù)庫,累計每個項的計數(shù),找出滿足最小支持度的項,得到頻繁1項集的集合L1。接下來循環(huán)進行以下兩步:連接步,產生候選項集Ck;剪枝步,根據(jù)先驗性質“頻繁項集的所有非空子集也一定是頻繁的”[3],剪除(k-1)項子集不在Lk-1中的候選k項集,當Lk為空時終止循環(huán)[4]。
FP-growth算法則是一種不產生候選項目集而采用模式增長的方式挖掘頻繁模式的算法。通過兩個步驟來完成:構造頻繁模式樹FP-tree和調用FP-growth算法進行頻繁項集挖掘。其原理是通過把每個事物映射到FP樹中的一條路徑將數(shù)據(jù)庫壓縮到一顆頻繁模式樹,但仍保留項目集關聯(lián)信息,然后將這種壓縮后的數(shù)據(jù)庫分成一組條件數(shù)據(jù)庫,每個關聯(lián)一個頻繁項,并分別挖掘每個數(shù)據(jù)庫[5]。對于每個模式片段,只需要考察與它相關聯(lián)數(shù)據(jù)集。因此,隨著被考察的模式的增長,這種方法可以顯著壓縮被搜索的數(shù)據(jù)集的大小。
2在中醫(yī)藥領域的應用
2.1方劑配伍規(guī)律的研究方劑配伍規(guī)律能闡明方劑與病證之間治法的關系,揭示構成方劑的諸要素與功效之間的關系。關聯(lián)規(guī)則數(shù)據(jù)挖掘可以輔助認識方劑的效用和方內各藥物之間的配伍關系,揭示方劑效用的物質基礎和作用機制,進而發(fā)現(xiàn)方劑的潛在功效和新用途,以便改進傳統(tǒng)劑型,研發(fā)復方新藥[6-7]。
采用Apriori算法對《中醫(yī)方劑大辭典》中治療不同疾病的方劑進行挖掘分析,得到針對不同疾病的相應組方規(guī)律、核心藥物、高頻藥對及藥物功效配伍規(guī)律等。例如對其中587首腫瘤方進行挖掘。結果表明,腫瘤方中理氣和活血藥物使用頻率最高,支持度高的藥對多為活血藥與行氣藥配伍,支持度前20的藥組都含有活血化瘀藥,且大多為活血化瘀藥與理氣藥配伍應用。最終發(fā)現(xiàn)《中醫(yī)方劑大詞典》所收錄的腫瘤方常選用的藥物多具有行氣止痛、活血化瘀、補氣健脾的功效[8]。對治療肺痿疾病的方劑進行組方規(guī)律分析,揭示了肺痿組方中藥物關聯(lián)規(guī)則,并根據(jù)關聯(lián)結果進行新方分析,得到9個核心組合和9個候選新方,為臨床治療肺痿提供了核心組合及候選方劑[9]。應用單味藥—藥對—藥組的數(shù)據(jù)挖掘思路,從簡單到復雜,對四物湯中4味藥物的配伍關系進行挖掘,發(fā)現(xiàn)四物湯中當歸是聯(lián)系其他藥物的中心環(huán)節(jié),而當歸—地黃為方中的核心藥對,同時為方劑配伍規(guī)律的研究提供了新的思路和方法[10]。對治療痛經的217首方劑進行藥對應用規(guī)律挖掘,得到當歸—川芎等高頻藥對,而它們也是治療針對寒凝血瘀和氣滯血瘀型痛經的少腹逐瘀湯、溫經湯兩方的主要組成藥物,從而發(fā)現(xiàn)臨床上痛經發(fā)病多為這兩種辨證分型,為臨床痛經的辨證施藥提供參考[11]。在Apriori算法支持度、置信度的基礎上再引入興趣度概念,用以修剪無趣的規(guī)則,挖掘出更有意義的關聯(lián)規(guī)則,并以脾胃類方劑庫中的1 060首方劑為例使用Apriori算法進行試驗,通過設置興趣度值排除無意義的藥對人參—甘草,得到固定藥對白術—茯苓和尚未作為藥對使用但具有客觀關聯(lián)性的茯苓—木香藥物組合,提出如何利用這些相互關聯(lián)的藥物,是數(shù)據(jù)挖掘重點探討的對象[12]。
采用FP-growth算法對《方劑》教材中的方劑進行挖掘來探討中藥復方配伍的規(guī)則。以治風劑中的疏散外風劑為例得到方劑的配方規(guī)則,得到防風—細辛、甘草—細辛、川芎—細辛等藥物組合,為疏散外風劑組方提供了參考[13]。以解表劑為例得到關系密切的中藥組合,麻黃—甘草、甘草—芍藥、桂枝—芍藥等,為解表藥組方提供了參考[14]。采用該算法的改進算法FP-growth*算法,在存在共享前綴的條件下,遍歷結點的第一個子女結點就發(fā)現(xiàn)共享前綴,減少搜索共享前綴的時間,從而減少生成FP-Tree的時間,以提高挖掘效率。并對取自華佗中醫(yī)院的臨床方劑和上海市中醫(yī)中藥數(shù)據(jù)中心《中醫(yī)方劑數(shù)據(jù)庫》的脾胃方劑進行挖掘,得到脾胃方劑的主藥甘草、陳皮、白術、人參等,補氣健脾方劑是最基本的用方,顯示出脾胃方劑遣方組藥的一些規(guī)律[15]。
2.2中藥藥性藥效的研究中藥藥性理論是中藥基本理論的重要組成部分,也是指導臨床使用中藥和闡釋中藥作用機制的重要依據(jù)。關聯(lián)規(guī)則數(shù)據(jù)挖掘可以探討中藥藥性四氣五味與具體功效之間的關聯(lián)關系,揭示四氣五味的藥性規(guī)律,為開發(fā)中藥新資源及指導臨床用藥提供理論線索。
采用Apriori算法對選自《中華本草》中8 980味中藥的四氣數(shù)據(jù)及關聯(lián)的藥物功能進行關聯(lián)規(guī)則挖掘,得到涉及溫、平、寒三性的分類關聯(lián)規(guī)則11條,揭示了中藥溫平寒藥性規(guī)律[16]。挖掘選取《神農本草經》中的365味中藥,在建立氣—味—效三維立方體的基礎上,尋找氣—味—效之間的關聯(lián)規(guī)則并進行初步分析,得到四氣、五味及四氣合五味與功效的關聯(lián)規(guī)則,為中藥藥性四氣五味理論研究提供新思路和新方法[17]。采用改進的Apriori算法,對取自《中國藥典》《中藥學》教材等書籍的中藥藥性及其他屬性的相關數(shù)據(jù)進行挖掘,將數(shù)據(jù)庫劃分成n部分,針對每個部分單獨產生一組頻繁項集,然后將這些項集并為一個總體的候選頻繁項目集,再對其執(zhí)行連接及剪枝等循環(huán)處理,直至產生強關聯(lián)規(guī)則。挖掘結果顯示,藥性與藥味、歸經、化學成分、功能、藥理作用關系最密切的依次為溫—辛、平—肝、溫—揮發(fā)油、寒—清熱、溫—抗炎。通過中藥藥性與其他屬性間的關聯(lián)進行初步探索,所得結果與中藥藥性傳統(tǒng)認識相符,對中藥的藥性分析具有指導意義[18]。
采用FP-growth算法對含有596味藥、177個不同功效的數(shù)據(jù)進行“效—效”關系挖掘。得到的結果表明,F(xiàn)P-growth算法挖掘中藥“效—效”關系正確率較高,60.30%基本符合中醫(yī)知識和中醫(yī)專家的經驗[19];發(fā)現(xiàn)感冒藥材間關聯(lián)規(guī)則知識,得到3味藥材組合的配伍規(guī)律,體現(xiàn)了感冒藥材之間存在客觀的藥性相互作用,并據(jù)此編排設計了新的中藥斗譜,提供了探索中藥斗譜內外布局編排設計的新思路[20]。
2.3中醫(yī)治法用藥規(guī)律中醫(yī)強調辨證論治,即根據(jù)證的不同采取不同的治法及方藥,并通過古代及當代名醫(yī)的積累總結產生了許多針對特定病證或證候的治法。關聯(lián)規(guī)則數(shù)據(jù)挖掘可以探索某一特定中醫(yī)治法潛在的用藥規(guī)律,通過其內在的藥物聯(lián)系更深入地剖析中醫(yī)治法的根本,為中醫(yī)治法在臨床應用和改進上提供有力的理論依據(jù)。
采用Apriori算法,對檢索醫(yī)學數(shù)據(jù)庫中以滋陰補腎法治療腦卒中恢復期的臨床研究報道得到的16首方劑,分析方劑中藥對的應用規(guī)律,得到使用頻率較高的藥對牛膝—桑寄生,牛膝—地龍等,與中醫(yī)經典記載及臨床應用相吻合[21]。對檢索中國知網、中國生物醫(yī)學文獻數(shù)據(jù)庫中有關運用清熱、活血方為主的熏洗法治療痔病術后恢復期的臨床研究報道得到的87首方劑,得到應用頻率較高的藥對苦參—黃柏,苦參—當歸等,并發(fā)現(xiàn)清熱藥和活血化瘀藥物的使用頻次、藥對配伍最多,對痔病術后預防和緩解并發(fā)癥療效確切,治愈率高,可以有效指導臨床實踐[22]。對檢索醫(yī)學數(shù)據(jù)庫中以補腎益氣活血化瘀法治療腦卒中恢復期的臨床研究報道得到的18首方劑,得到支持度較高的藥對黃芪—川芎,黃芪—水蛭等,發(fā)現(xiàn)補腎益氣活血化瘀法治療腦卒中恢復期的用藥規(guī)律,為臨床提供有效的理論指導[23]。
2.4名老中醫(yī)醫(yī)案挖掘名老中醫(yī)醫(yī)案是將中醫(yī)理論與臨床實踐相結合并不斷創(chuàng)新的結果,包含了中醫(yī)的基本原則和名老中醫(yī)的獨特見解,為中醫(yī)的傳承提供了寶貴資源。關聯(lián)規(guī)則數(shù)據(jù)挖掘可以分析記錄這些名老中醫(yī)臨床診療經驗的醫(yī)案,發(fā)現(xiàn)他們診療方式及辨證用藥的獨特性,為更好地指導臨床工作奠定了理論基礎。
采用Apriori算法對收集自中醫(yī)腎病專家聶莉芳治療CRF(慢性腎功能衰竭)患者的門診及病房病案,對癥狀、中藥、方劑及其相互關聯(lián)進行分析挖掘。結果說明,慢性腎衰病機氣陰兩虛證最為多見,并得到治療CRF常用中藥、常用藥對藥組和常用方劑等,體現(xiàn)了抓主癥選方、隨癥加減的用藥規(guī)律,為CRF在中醫(yī)臨床的診療提供了可靠的依據(jù)[24]。以顏正華教授治療胃脘痛的臨床處方為研究數(shù)據(jù),采用Apriori算法提取關聯(lián)規(guī)則,得到藥物的核心組合和新處方,為傳承和深入挖掘名老中醫(yī)的治療方法提供了參考[25]。以中醫(yī)院中名老中醫(yī)關于典型的Ⅱ型糖尿病醫(yī)案為研究對象,構建了基于Apriori算法的數(shù)據(jù)挖掘平臺,挖掘名老中醫(yī)關于Ⅱ型糖尿病的醫(yī)案中藥物之間的相互關聯(lián),得出治療Ⅱ型糖尿病最常用的中藥和藥對,為Ⅱ型糖尿病在中醫(yī)臨床診療提供了寶貴經驗[26]。
3結語
在現(xiàn)有中醫(yī)藥領域的關聯(lián)規(guī)則數(shù)據(jù)挖掘中,就算法本身來說,有實驗證明在支持度較小的情況下,F(xiàn)P-growth算法較Apriori算法有著明顯的優(yōu)勢[27]。Apriori算法易于實現(xiàn),但在實際應用中存在一些難以克服的缺陷,頻繁掃描數(shù)據(jù)庫、產生大量候選項集等;FP-Growth算法可以實現(xiàn)對無向項集圖的實時構造,無需頻繁掃描數(shù)據(jù)庫,算法性能顯著提高[28]。就算法應用來說,Apriori算法多于FP-growth算法。作為原始經典算法之一的Apriori算法已廣泛應用于中醫(yī)藥方劑配伍、藥性藥效、中醫(yī)治法、中醫(yī)醫(yī)案等多方面的挖掘當中,挖掘結果也基本與中醫(yī)經典記載和臨床經驗相吻合[29];而FP-growth算法明顯在應用上不及Apriori算法,應用范圍相對較局限。
總體來說,兩種算法的運用大部分還停留在小范圍數(shù)據(jù)的理論階段,尚未有大范圍數(shù)據(jù)的關聯(lián)規(guī)則挖掘,其結論的應用也相對局限,能為相應領域提供一定理論指導,但尚未真正應用到臨床實踐中。隨著中醫(yī)藥數(shù)據(jù)庫的逐步建立和完善,關聯(lián)規(guī)則Apriori算法和FP-growth算法挖掘將有更加全面的數(shù)據(jù)支持,探索結果也將會更加準確實用,指導性和實踐性提高,必定會對數(shù)據(jù)挖掘在中醫(yī)藥領域的發(fā)展有極大的推動作用。
參考文獻:
[1]馬麗偉.關聯(lián)規(guī)則算法研究及其在中醫(yī)藥數(shù)據(jù)挖掘中的應用[D].南京:南京理工大學,2009.
[2]張成叔.數(shù)據(jù)挖掘中關聯(lián)規(guī)則挖掘方法的研究及應用[J].軟件,2013,34(9):138-140.
[3]韓家煒,Micheline Kamber,裴健.數(shù)據(jù)挖掘概念與技術[M].北京:機械工業(yè)出版社,2012.
[4]劉閩碧.基于粗糙集和Apriori算法的中醫(yī)病證關聯(lián)研究[J].福建電腦,2012(10):105-107.
[5]韋玉科,汪仁煌,李江平,等.一種新的關聯(lián)規(guī)則挖掘算法研究[J].計算機應用研究,2008,25(10):2962-2964.
[6]王春山.數(shù)據(jù)挖掘技術在方劑配伍領域的應用研究[D].杭州:浙江大學,2006.
[7]王喜軍,張寧,常存庫,等.方劑配伍規(guī)律的研究現(xiàn)狀和未來發(fā)展[J].世界科學技術,2006,8(4):13-16.
[8]尹剛,唐德才,趙凡,等.中醫(yī)腫瘤方配伍規(guī)律初探[J].南京中醫(yī)藥大學學報,2013,29(2):111-113.
[9]李健,張瑞賢,唐仕歡,等.《中醫(yī)方劑大辭典》中治療肺痿方劑的用藥規(guī)律分析[J].中國實驗方劑學雜志,2012,18(10):1-5.
[10]陳芳,朱敏,尚爾鑫,等.基于Apriori算法的四物湯類方組方特點分析[J].中華中醫(yī)藥雜志,2011,26(2):246-252.
[11]宿樹蘭,尚爾鑫,葉亮,等.治療痛經方藥的關聯(lián)規(guī)則分析[J].南京中醫(yī)藥大學學報,2008,24(6):383-385.
[12]李湘君.改進的Apriori算法在中藥復方數(shù)據(jù)挖掘中的應用[J].中華醫(yī)學雜志,2013,19(8):621-628.
[13]劉閩碧.基于FP-Growth算法的中藥配方數(shù)據(jù)挖掘[J].醫(yī)學信息,2009,22(12):2629-2631.
[14]王瑞祥,崔利銳,白玲玲,等.基于FP-Growth算法的中藥關聯(lián)程度分析[J].遼寧中醫(yī)藥大學學報,2007,9(4):7-8.
[15]董輝.基于改進FP-Growth算法的中藥方劑配伍規(guī)律挖掘研究[J].中國衛(wèi)生統(tǒng)計,2007,24(6):656-658.
[16]楊雪梅,林端宜,賴新梅,等.挖掘中藥功能組合判定四氣藥性的規(guī)律[J].中國中藥雜志,2013,38(10):1624-1626.
[17]金銳,張冰,劉欣.基于Apriori算法的中藥氣-味-效三維數(shù)據(jù)關聯(lián)規(guī)則挖掘研究[J].中西醫(yī)結合學報,2011,9(7):794-802.
[18]于紅艷,許成剛.關聯(lián)挖掘技術在中藥藥性及其他屬性間關系的應用研究[J].中國實驗方劑學雜志,2013,19(14):343-346.
[19]蔡爭真,田玲.基于FP-growth方法的中藥“效—效”關系挖掘[J].成都信息工程學院學報,2007,22(6):677-681.
[20]桑秀麗,肖漢杰,高松.感冒藥材關聯(lián)規(guī)則知識發(fā)現(xiàn)下的配伍規(guī)律與斗譜編排研究[J].昆明理工大學學報,2013,38(1):54-58.
[21]趙耀武,張斌,張文亮,等.滋陰補腎法治療中風恢復期的用藥規(guī)律研究[J].時珍國醫(yī)國藥,2010,21(3):677-679.
[22]趙洪波,吳曉晶,楊云.清熱活血法在痔病術后的用藥規(guī)律[J].世界華人消化雜志,2014,22(1):153-158.
[23]張斌,張文亮,趙耀武,等.補腎益氣活血化瘀法治療中風恢復期的用藥規(guī)律及研究[J].中國中藥雜志,2010,35(8):1082-1085.
[24]李賽,聶莉芳,孫紅穎.聶莉芳治療慢性腎功能衰竭經驗的關聯(lián)規(guī)則分析[J].中華中醫(yī)藥雜志,2011,26(7):1602-1606.
[25]吳嘉瑞,張冰,楊冰.基于關聯(lián)規(guī)則和復雜系統(tǒng)熵聚類的顏正華教授治療胃脘痛用藥規(guī)律研究[J].中國實驗方劑學雜志,2012,18(20):1-5.
[26]蔡莉.基于名老中醫(yī)Ⅱ型糖尿病醫(yī)案的數(shù)據(jù)挖掘研究[J].佳木斯教育學院學報,2013(11):447-448.
[27]晏杰,亓文娟.基于Apriori & FP-growth算法的研究[J].計算機系統(tǒng)應用,2013,22(5):122-125.
[28]張博.FP-Growth算法在中藥數(shù)據(jù)挖掘中的應用[J].湖南工程學院學報,2011,21(3):28-30.
[29]王樹鵬,劉書宇.數(shù)據(jù)挖掘技術在中醫(yī)藥領域中的應用研究[J].中華中醫(yī)藥學刊,2011,29(1):36-38.