吳惠敏,葉少珍,2
(1.福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建福州 350116;2.福建省醫(yī)療器械與醫(yī)藥技術(shù)重點(diǎn)實(shí)驗(yàn)室,福建福州 350002)
中藥是中華民族對(duì)天然藥物以及某些人工替代品的獨(dú)特使用形式,是一個(gè)復(fù)雜的物質(zhì)體系.由于其所含多樣的化學(xué)成分以及成分之間復(fù)雜的相互關(guān)系,使得中藥整體表現(xiàn)出多途徑,多靶點(diǎn),整合調(diào)節(jié)機(jī)制發(fā)揮藥效作用以及系統(tǒng)性的特點(diǎn)[1].在中醫(yī)理論指導(dǎo)下,中藥的應(yīng)用已從單味演變到復(fù)方.中醫(yī)理論認(rèn)為,中藥是依靠其所含的有效成分即活性分子在人體內(nèi)通過(guò)與相關(guān)靶點(diǎn)結(jié)合而發(fā)揮藥效作用.由于復(fù)方中含有多味藥物,每一味藥所含的化學(xué)物質(zhì)數(shù)量多且復(fù)雜,若要對(duì)其進(jìn)行人工分析,工作量巨大、效率低.本研究提出利用模式識(shí)別技術(shù)建立合適的數(shù)學(xué)模型,結(jié)合計(jì)算機(jī)的高效運(yùn)算能力,對(duì)中藥的有效成分進(jìn)行分子水平上的辨識(shí)[2].
骨性關(guān)節(jié)炎是一種主要發(fā)病在中老年人群的慢性關(guān)節(jié)病,因其病因與作用機(jī)制的復(fù)雜性使得目前針對(duì)該疾病的治療進(jìn)展仍未有較大突破.由于西醫(yī)治療采取的方案副作用大,價(jià)格昂貴,且治標(biāo)不治本.相對(duì)而言,中醫(yī)療法有著整體局部并治,標(biāo)本兼顧的優(yōu)勢(shì),成為醫(yī)學(xué)界研究的熱點(diǎn)[3].因此,如何利用近年來(lái)興起的計(jì)算機(jī)化學(xué)和系統(tǒng)生物學(xué)等交叉學(xué)科,科學(xué)地分析傳統(tǒng)中醫(yī)驗(yàn)方中具有藥物活性的分子,是從中藥復(fù)方中尋找治療骨性關(guān)節(jié)炎新藥需要解決的關(guān)鍵問(wèn)題.
SVM算法基于嚴(yán)格的數(shù)學(xué)理論,在小樣本應(yīng)用中,能有效地處理非線性分類并避免過(guò)擬合現(xiàn)象,已在藥物設(shè)計(jì)與分析中廣泛應(yīng)用.本研究利用SVM技術(shù)對(duì)骨性關(guān)節(jié)炎藥物分子做活性分析,為得到性能更為優(yōu)良的SVM分類模型,提出對(duì)多個(gè)核函數(shù)組合構(gòu)建混合核函數(shù),并將其應(yīng)用到SVM識(shí)別模型中,對(duì)精制透骨消痛顆粒復(fù)方中的分子進(jìn)行活性分類,得到具有藥物活性的分子,同時(shí)結(jié)合相關(guān)文獻(xiàn)驗(yàn)證分析識(shí)別結(jié)果.所提識(shí)別方法可為藥物分子提供活性初篩選,為中藥復(fù)方中有效成分的識(shí)別提供科學(xué)數(shù)據(jù),并從分子水平闡明中藥作用機(jī)理.
圖1 藥物分子活性的識(shí)別模型Fig.1 Activity recognition model of drug molecules
中藥宏觀上所表現(xiàn)出來(lái)的性質(zhì),歸根結(jié)底是其所含的相關(guān)藥物活性的小分子能夠作用于體內(nèi)相應(yīng)靶點(diǎn).目前對(duì)藥物分子的活性識(shí)別主要有兩種,一是利用分子對(duì)接法,研究分子與受體的結(jié)合作用,由于需要一定的對(duì)接時(shí)間,在對(duì)大量藥物分子進(jìn)行活性篩選時(shí)效率極低.另一種是QSAR法,其目的是從已知活性的化合物中找出其分子結(jié)構(gòu)與生物活性之間的定量構(gòu)效關(guān)系,以此分析未知生物活性的分子.該方法綜合利用統(tǒng)計(jì)學(xué)、人工智能等技術(shù)[4]建立模型進(jìn)行機(jī)器自動(dòng)識(shí)別,時(shí)間效率高,成為研究與揭示化合物活性與其分子結(jié)構(gòu)或物理化學(xué)特征之定量變化規(guī)律的強(qiáng)有力工具.因此本研究采取QSAR法結(jié)合模式識(shí)別技術(shù)中的SVM分類算法分析骨性關(guān)節(jié)炎藥物分子的生物活性.由于化合物的結(jié)構(gòu)以圖表示,是非數(shù)學(xué)量,因此需將其量化成計(jì)算機(jī)可識(shí)別的數(shù)據(jù),得到相關(guān)的分子描述符,作為識(shí)別模型的輸入變量.具體的識(shí)別模型如圖1所示.
SVM是建立在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則基礎(chǔ)上的機(jī)器學(xué)習(xí)分類法,基本原理是通過(guò)核函數(shù)實(shí)現(xiàn)非線性變換,使得在低維空間線性不可分的輸入變量映射到高維空間實(shí)現(xiàn)線性可分,并得到具有極小VC維數(shù)的分類模型[5].SVM分類模型的目標(biāo)是在新的特征空間中構(gòu)造最優(yōu)線性分類面,得到樣本分類的決策函數(shù),通過(guò)分析待分類樣本的決策值得到其歸屬類別,決策函數(shù)形式為:
目前常用的核函數(shù)主要有四種:
式中:d、γ、v為核參數(shù),是實(shí)常數(shù),需要根據(jù)具體的問(wèn)題進(jìn)行設(shè)定.
使用核函數(shù)實(shí)現(xiàn)非線性分類,可避免高維空間中向量之間大量的內(nèi)積運(yùn)算,解決維數(shù)災(zāi)難問(wèn)題.在SVM中,所選的核函數(shù)都是滿足Mercer條件的,歸類起來(lái)有兩大類:局部核函數(shù)和全局核函數(shù).全局核函數(shù)泛化性能強(qiáng),但是學(xué)習(xí)能力較弱;而局部核函數(shù)學(xué)習(xí)能力強(qiáng),泛化性能較弱.常用的幾種核函數(shù)中,多項(xiàng)式核函數(shù)和Sigmoid核函數(shù)為全局核函數(shù),RBF核函數(shù)為局部核函數(shù).
圖6統(tǒng)計(jì)了貝塞爾高斯渦旋光束的光束抖動(dòng)在不同各向異性的湍流大氣中隨傳輸距離的變化情況,其中各向異性參數(shù)設(shè)置分別為ξx=1,5,10和20.從圖6中可以發(fā)現(xiàn)隨著湍流各向異性參數(shù)的增大,貝塞爾高斯渦旋光束的抖動(dòng)效應(yīng)逐漸減弱,在遠(yuǎn)距離傳輸時(shí),該現(xiàn)象更加明顯.隨著湍流各向異性參數(shù)的減小,貝塞爾高斯渦旋光束的抖動(dòng)效應(yīng)增強(qiáng),當(dāng)各向異性參數(shù)都為1時(shí)抖動(dòng)效應(yīng)最強(qiáng),此時(shí)大氣湍流譜退化為各向同性湍流譜.這是因?yàn)楦飨蛲源髿饽M的是近地大氣湍流,各向異性大氣模擬的是高空大氣湍流,其高空大氣湍流對(duì)渦旋光束相位強(qiáng)度的擾動(dòng)要弱于近地大氣湍流的擾動(dòng),因此導(dǎo)致了抖動(dòng)效應(yīng)隨各向異性參數(shù)的增大而減弱.
SVM建模中,選擇一種核函數(shù)后等于確定一種學(xué)習(xí)模型,評(píng)價(jià)學(xué)習(xí)模型的性能是根據(jù)學(xué)習(xí)能力與泛化性能的,然而基于全局核或局部核的單核SVM因其核特點(diǎn)無(wú)法同時(shí)滿足良好的學(xué)習(xí)性能與泛化性能.近幾年提出了混合核函數(shù)方法[6],即將局部核函數(shù)與全局核函數(shù)進(jìn)行組合,構(gòu)造混合核函數(shù),使其既克服兩個(gè)單核的缺點(diǎn)又兼具兩者的優(yōu)勢(shì),展現(xiàn)出更好的學(xué)習(xí)能力與泛化能力.
根據(jù)Mercer定理,兩個(gè)核函數(shù)之和仍然是核函數(shù),本研究將局部核函數(shù)和全局核函數(shù)進(jìn)行線性組合,構(gòu)造的混合核函數(shù)表達(dá)式為:
其中:參數(shù)t(0≤t≤1)為單核函數(shù)在新的函數(shù)式中的權(quán)重值.
復(fù)方精制消痛顆粒由4味藥物:巴戟天、杭白芍、腫節(jié)風(fēng)、川芎組成,從相關(guān)文獻(xiàn)收集到藥物中514個(gè)分子[7].根據(jù)骨性關(guān)節(jié)炎疾病的有關(guān)靶點(diǎn):ADMTS、Thrombin、FactorⅦa、TNF-α,從Drugbank、Puhem-有機(jī)小分子生物活性數(shù)據(jù)庫(kù)、ChEBI數(shù)據(jù)庫(kù)等權(quán)威的分子數(shù)據(jù)庫(kù)以及植物活性成分辭典中收集到313個(gè)相關(guān)抑制劑,基于抑制劑與靶酶的關(guān)系將313個(gè)抑制劑分為4個(gè)數(shù)據(jù)集,某些化合物因多靶點(diǎn)性質(zhì)會(huì)同時(shí)出現(xiàn)在不同的數(shù)據(jù)集中.根據(jù)數(shù)據(jù)庫(kù)PubChem、ChEBI中對(duì)分子的活性描述,將每一種抑制劑數(shù)據(jù)集劃為活性數(shù)據(jù)類與非活性數(shù)據(jù)類,作為分類中的正樣本與負(fù)樣本集合,其中聚蛋白多糖酶抑制劑有85個(gè),分為55個(gè)活性類與30個(gè)非活性類;Thrombin抑制劑有61個(gè),為38個(gè)活性類與23個(gè)無(wú)活性類;FactorⅦa抑制劑有76個(gè),為32個(gè)活性類與44個(gè)無(wú)活性類;TNF-α抑制劑91個(gè),為58個(gè)活性類與33個(gè)無(wú)活性類.基于4類數(shù)據(jù)集構(gòu)建相應(yīng)靶點(diǎn)的SVM活性分類器,并以此對(duì)514個(gè)復(fù)方分子進(jìn)行相應(yīng)的活性分析.
分子描述符是化合物的結(jié)構(gòu)和物理化學(xué)性質(zhì)的量化值,是建立統(tǒng)計(jì)分析模型的數(shù)據(jù)基礎(chǔ).利用Cerius2的QSAR模塊以及DRAGON軟件得到藥物分子的結(jié)構(gòu)描述符、拓?fù)涿枋龇?,選擇其中的27個(gè)描述符作為分子樣本的特征值:分子量、C原子數(shù)、O原子數(shù)、N原子數(shù)、環(huán)數(shù)目、可旋轉(zhuǎn)鍵數(shù)目、氫鍵受體數(shù)目、氫鍵給體數(shù)目、分子的超離域性、拓?fù)潆娦詤?shù)、原子極化度總和、分子接觸體積、分子表面面積、Hosoya指標(biāo)、總極性表面面積、總疏水表面面積、脂水分配系數(shù)等,以27個(gè)描述符作為每個(gè)分子樣本的屬性值.
針對(duì)4個(gè)靶點(diǎn)活性構(gòu)建相應(yīng)的二分類器,利用4個(gè)分類器對(duì)關(guān)節(jié)炎復(fù)方中的藥物分子做相應(yīng)的藥物活性識(shí)別,并將得到的分類結(jié)果與文獻(xiàn)[7-8]對(duì)比驗(yàn)證.以下介紹具體構(gòu)建步驟.
4.3.1 數(shù)據(jù)預(yù)處理
為消除核函數(shù)計(jì)算中數(shù)值級(jí)別大的屬性值對(duì)級(jí)別小的屬性值的控制,采用最?。畲笠?guī)范化公式對(duì)實(shí)驗(yàn)樣本數(shù)據(jù)的27個(gè)屬性進(jìn)行規(guī)范化,將其歸一到[0,-1]范圍,以改善算法的精度和計(jì)算的穩(wěn)定性.規(guī)范化具體式子為:
式中:xij為第i個(gè)樣本的第j個(gè)屬性的值;minj是第j個(gè)屬性的最小值;maxj為第j個(gè)屬性的最大值.
4.3.2 模型的搭建
有監(jiān)督的機(jī)器分類法需要將數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集,用于模型的構(gòu)建與推廣性能的測(cè)試.本研究以2∶1的比例分別將4類數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集與驗(yàn)證集.在構(gòu)建混合核函數(shù)時(shí),需要選擇兩個(gè)合適的單核函數(shù),由于對(duì)何種樣本采用何種核函數(shù),目前沒(méi)有絕對(duì)的理論標(biāo)準(zhǔn).為消除經(jīng)驗(yàn)選擇帶來(lái)的誤差,采用逐一測(cè)試法選取適合具體應(yīng)用的單核函數(shù)進(jìn)行混合構(gòu)造,即先根據(jù)每個(gè)不同的核函數(shù)構(gòu)建相應(yīng)的支持向量機(jī)分類器,然后根據(jù)分類精度值選取兩個(gè)性能好的核函數(shù)進(jìn)行組合.基于四類靶點(diǎn)活性數(shù)據(jù)集中的訓(xùn)練樣本分別建立相應(yīng)的單核分類器,為使對(duì)比結(jié)果更精確,該步驟中核參數(shù)均采用默認(rèn)值,接著對(duì)四類驗(yàn)證樣本進(jìn)行分類,得到結(jié)果如表1所示.
表1 單核SVM的分類結(jié)果Tab.1 The classification results of single-core SVM (%)
表1以驗(yàn)證樣本的分類精度(單位%)為分類結(jié)果,并以此衡量分類器的預(yù)測(cè)性能.從表1中可看出:不同單核函數(shù)在不同數(shù)據(jù)集所發(fā)揮的性能各有差異,綜合考慮基于RBF的支持向量機(jī)和基于多項(xiàng)式核函數(shù)的支持向量的平均性能明顯比其他兩種好,選該二者構(gòu)建混合函數(shù),得到新核函數(shù)式子如下:
根據(jù)所得到的混合核函數(shù)在4個(gè)訓(xùn)練集上構(gòu)建相應(yīng)的SVM分類器,對(duì)4個(gè)驗(yàn)證樣本集進(jìn)行驗(yàn)證,為與之前的單核比較,4個(gè)模型中的參數(shù)仍采用默認(rèn)值,模型的驗(yàn)證結(jié)果如表2所示.
表2 混合核SVM分類器的分類結(jié)果Tab.2 The classification results of mixed kernel SVM (%)
表2的結(jié)果表明采用混合核函數(shù)方法建立的SVM分類器的分類準(zhǔn)確率要比單核SVM的高,說(shuō)明利用混合核構(gòu)建SVM模型的合理性.
由于模型中參數(shù)的設(shè)定會(huì)影響到其泛化能力與擬合精度[9],在確定了具體的混合核構(gòu)建SVM建模分類器后,需要考慮懲罰因子C,權(quán)重值t以及核函數(shù)中參數(shù)的值.傳統(tǒng)做法是根據(jù)經(jīng)驗(yàn)值進(jìn)行人工拼湊確定參數(shù),效率低且依賴測(cè)試者的主觀經(jīng)驗(yàn).本研究將十折交叉驗(yàn)證法和網(wǎng)格搜索算法[10]結(jié)合起來(lái),同時(shí)搜索參數(shù)C、t與混合核中的γ,d,相比于人為設(shè)定,縮短了搜索時(shí)間,并得到了經(jīng)過(guò)十折交叉驗(yàn)證后預(yù)測(cè)正確率達(dá)到最優(yōu)的參數(shù)組合.經(jīng)過(guò)搜索后得到四個(gè)活性識(shí)別模型中(C,t,γ,d)相應(yīng)的最優(yōu)參數(shù)組合:(213,0.5,0.014,2)、(159,0.45,0.019,3)、(232,0.61,0.08,2)、(271,0.57,0.011,2).基于最優(yōu)參數(shù)組合下,混合核SVM模型對(duì)四類驗(yàn)證集的活性識(shí)別率分別為89.2、90.0、92.0、90.0.從結(jié)果可看出經(jīng)過(guò)參數(shù)尋優(yōu)后,模型的識(shí)別率均有所提高,模型具有良好的推廣性能,說(shuō)明了利用SVM分類法建立靶點(diǎn)活性識(shí)別模型是可行的.
4.3.3 對(duì)精制透骨消痛顆粒中的514個(gè)藥物分子進(jìn)行活性識(shí)別
以514個(gè)藥物分子分別作為4類活性分類模型的輸入變量,得到具有相關(guān)靶點(diǎn)活性的藥物分子,結(jié)果如表3所示.
表3 514個(gè)分子的活性識(shí)別結(jié)果Tab.3 The activity recognition results of 514 molecules (%)
4.3.4 結(jié)果分析
在基于4個(gè)靶點(diǎn)活性識(shí)別模型對(duì)514個(gè)分子分類得到的4個(gè)輸出文件中,若藥物分子的類別標(biāo)識(shí)為1,則認(rèn)為該分子具有相應(yīng)靶點(diǎn)活性.由于有些藥物分子能夠同時(shí)作用于多種蛋白酶,所以其在多個(gè)輸出文件中的類別值同時(shí)為1.例如,川芎中Folic acid在ADMTS、THF-a相應(yīng)的輸出文件中值為1,說(shuō)明其可能同時(shí)具有相關(guān)藥物活性;腫節(jié)風(fēng)中的rosmarinic acid在Thrombin、TNF-a、FactorⅦa在相應(yīng)的輸出文件中值為1,說(shuō)明其可能同時(shí)與Thrombin、TNF-a、FactorⅦa發(fā)生作用.與文獻(xiàn)[7-8]中有關(guān)結(jié)論對(duì)比,本研究的結(jié)果符合.該結(jié)果宏觀上表現(xiàn)為同一種藥物同時(shí)對(duì)多個(gè)靶點(diǎn)起作用,不同種藥物對(duì)同一靶點(diǎn)起作用,闡明了精制透骨消痛顆粒中藥配伍的增效作用,以及其藥物通過(guò)不同途徑的靶點(diǎn)作用于機(jī)體.
表3的結(jié)果為可能具有治療骨性關(guān)節(jié)活性的化合物,為該復(fù)方的有效成分的識(shí)別提供了數(shù)據(jù)依據(jù).經(jīng)與文獻(xiàn)[7-8]對(duì)比,本研究的分類結(jié)果跟其大致符合,說(shuō)明所提出的方法在對(duì)骨性關(guān)節(jié)炎復(fù)方的藥物進(jìn)行活性初篩選具有合理性與可行性.
利用支持向量機(jī)分類算法搭建藥物活性分類器,對(duì)精制透骨消痛顆粒中的分子進(jìn)行藥物活性識(shí)別.與傳統(tǒng)單核支持向量機(jī)不同的是,本研究將全局核函數(shù)和局部核函數(shù)組合成新的組合核函數(shù),利用該核函數(shù)搭建SVM分類器來(lái)識(shí)別活性藥物分子.通過(guò)實(shí)驗(yàn)證明,相比于單核函數(shù)的SVM分類器,該混合函數(shù)對(duì)分類器的泛化能力和擬合精度都有所改進(jìn),最后利用該分類器對(duì)精制透骨消痛顆粒復(fù)方中的藥物分子進(jìn)行相關(guān)的藥物活性識(shí)別,結(jié)合相關(guān)文獻(xiàn)分析得出本文所得的結(jié)果對(duì)闡述該復(fù)方的作用機(jī)制具有一定的意義,也為后期的骨性關(guān)節(jié)炎的中藥分子對(duì)接實(shí)驗(yàn)的數(shù)據(jù)集進(jìn)行了初篩選,為實(shí)驗(yàn)提供活性較優(yōu)的待選分子,后期實(shí)驗(yàn)中可基于該初選結(jié)果進(jìn)行進(jìn)一步的對(duì)接驗(yàn)證.本研究也證實(shí)利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)從分子水平上闡述中藥作用機(jī)理的靶點(diǎn)識(shí)別研究的可行性,促進(jìn)中藥信息化的發(fā)展.
[1]徐筱杰.中藥復(fù)方的計(jì)算機(jī)模擬研究[J].化學(xué)進(jìn)展,1999,19(2):1-3.
[2]廖彬,葉少珍,鄭春松.基于MLP和SVM技術(shù)的骨性關(guān)節(jié)炎中藥復(fù)方辨證分類研究[J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2010,38(2):213-218.
[3]李廣德.膝關(guān)節(jié)骨性關(guān)節(jié)炎中醫(yī)治療述評(píng)[J].中醫(yī)雜志,2000,41(2):116-117.
[4]黃欽,莊艷,喬學(xué)斌,等.用支持向量機(jī)建立中藥有效成分聚集體的預(yù)測(cè)模型[J].物理化學(xué)學(xué)報(bào),2007,23(8):1 141-1 144.
[5]陳俊麗,焦李成.支撐矢量機(jī)的分類機(jī)理研究[J].西安電子科技大學(xué)學(xué)報(bào),2000,27(S):106-110.
[6]任彧梅,盛鑫.基于混合核函數(shù)支持向量機(jī)和遺傳算法的人臉識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(4):260-262.
[7]鄭春松,徐筱杰,劉獻(xiàn)祥,等.精制透骨消痛顆粒防治骨性關(guān)節(jié)炎的計(jì)算機(jī)藥理學(xué)[J].物理化學(xué)學(xué)報(bào),2010,26(3):775-783.
[8]鄭春松,葉蕻芝,李旭東,等.透骨消痛顆粒防治骨性關(guān)節(jié)炎的計(jì)算藥效學(xué)研究[J].中藥藥理與臨床,2009,25(2):98-101.
[9]Steinwart I.On the optimal parameter choice for support vector machines[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(10):1 274-1 284.
[10]李斌.基于模式識(shí)別技術(shù)的眼科疾病輔助診斷系統(tǒng)的研究[D].長(zhǎng)春:吉林大學(xué),2011.