堵錫華,宋 明,李 靖,吳 瓊,陳 艷,石春玲
(徐州工程學(xué)院 化學(xué)化工學(xué)院, 江蘇 徐州 221018)
喹諾酮類衍生物屬于人工合成抗菌藥物,其中一部分甚至具有一定的抗腫瘤活性,能直接有效作用于細(xì)菌拓?fù)洚悩?gòu)酶,對(duì)DNA旋轉(zhuǎn)酶起到抑制阻礙作用,從而導(dǎo)致細(xì)菌DNA不可逆的破壞,迅速達(dá)到抗菌殺菌、抗腫瘤的作用[1],正是由于喹諾酮具有廣譜抗菌、抗菌力強(qiáng)、療效顯著等優(yōu)勢(shì),目前被廣泛應(yīng)用于人類和動(dòng)物多種感染性疾病的治療,但該類藥物對(duì)人的中樞神經(jīng)系統(tǒng)、消化系統(tǒng)、肌肉或骨骼等有一定毒性,對(duì)食用者健康會(huì)造成一定的危害[2],故為了提高該藥物的使用效率,避免濫用誤用,目前對(duì)該類藥物的合成、分析檢測(cè)、藥理和臨床合理應(yīng)用等研究越來越受到研究工作者的重視。高留州等人[3]用芳腙類作為環(huán)丙沙星C-7哌嗪基的等排體,設(shè)計(jì)合成了15個(gè)喹諾酮羧酸類化合物,并對(duì)其抗菌抗腫瘤活性進(jìn)行了分析研究,取得了令人滿意的結(jié)果;楊家強(qiáng)等人[4]通過喹諾酮化合物與α-羥基膦酸酯拼合,設(shè)計(jì)合成了8個(gè)喹諾酮羧酸酯衍生物,通過測(cè)試表明,該類衍生物對(duì)腫瘤細(xì)胞有一定抑制作用;李鳳麗[5]針對(duì)采用喹諾酮類抗菌藥物與用其他藥物進(jìn)行治療同樣病癥的患者進(jìn)行了分析和對(duì)比,并對(duì)喹諾酮類抗菌藥物具有的藥理作用進(jìn)行了評(píng)價(jià),研究了在臨床上的合理應(yīng)用及其安全性。此外測(cè)定環(huán)境中殘留此類藥物的研究成果也較多[6-8]。但是,所有這些研究方法均需通過大量的實(shí)驗(yàn),不但費(fèi)時(shí)耗力,而且研究過程較長。為此,近年來利用計(jì)算機(jī)輔助藥物設(shè)計(jì)的定量構(gòu)效關(guān)系(QSAR)方法[9]對(duì)喹諾酮類衍生物進(jìn)行研究逐漸受到重視,并有少量的相關(guān)研究成果[10-11],而利用神經(jīng)網(wǎng)絡(luò)法對(duì)喹諾酮類衍生物研究卻較少。
神經(jīng)網(wǎng)絡(luò)是一個(gè)集計(jì)算機(jī)科學(xué)、化學(xué)、環(huán)境科學(xué)、建筑學(xué)、農(nóng)學(xué)、食品科學(xué)等眾多學(xué)科的一種前沿方法,具有交叉性,該方法在諸多領(lǐng)域已有廣泛應(yīng)用[12-14]。根據(jù)以前工作[15-17]基礎(chǔ),對(duì)48個(gè)喹諾酮羧酸衍生物的活性pIC50[11],按照文獻(xiàn)方法[18-19]自編計(jì)算程序,計(jì)算了電性拓?fù)錉顟B(tài)指數(shù)和電性距離矢量?jī)深惙肿咏Y(jié)構(gòu)參數(shù),用最佳變量子集回歸法篩選了電性拓?fù)錉顟B(tài)指數(shù)的E1和E8,電性距離矢量的M26,M32,M36和M81,共6種結(jié)構(gòu)參數(shù)作為神經(jīng)網(wǎng)絡(luò)輸入層神經(jīng)元,將衍生物的活性作為輸出層神經(jīng)元,得到預(yù)測(cè)喹諾酮羧酸衍生物活性的神經(jīng)網(wǎng)絡(luò)QSAR模型,其總相關(guān)系數(shù)R=0.992 5,計(jì)算得到的活性預(yù)測(cè)值與文獻(xiàn)實(shí)驗(yàn)值高度吻合,相對(duì)平均誤差僅為0.87%。本研究解決了對(duì)新型藥物需要進(jìn)行大量實(shí)驗(yàn)費(fèi)時(shí)耗資耗力、并需漫長等待的缺陷,具有預(yù)測(cè)精度高、快速簡(jiǎn)便的優(yōu)點(diǎn),而且利用模型可以設(shè)計(jì)活性高、毒性低的新型抗菌抗腫瘤藥物分子,故在藥物分子設(shè)計(jì)方面具有重要的現(xiàn)實(shí)意義。
喹諾酮羧酸衍生物母環(huán)結(jié)構(gòu)見圖1,48種喹諾酮羧酸衍生物分子相應(yīng)基團(tuán)見表1,活性數(shù)據(jù)pIC50(IC50的負(fù)對(duì)數(shù))來源于前期研究[11]。
這48種喹諾酮羧酸衍生物分子的活性數(shù)據(jù)采用數(shù)據(jù)庫文獻(xiàn)中的相關(guān)數(shù)據(jù),以pIC50作為分子的活性標(biāo)度(IC50為達(dá)到50%抑制效果時(shí)抑制劑的濃度),使用Topomer CoMFA技術(shù),對(duì)系列喹諾酮羧酸類衍生物進(jìn)行三維構(gòu)效關(guān)系的計(jì)算理論研究,建立了預(yù)測(cè)模型并進(jìn)行了分子設(shè)計(jì),取得了較好的結(jié)果。
圖1 喹諾酮羧酸衍生物的母體結(jié)構(gòu)Fig.1 The matrix structure of quinolone carboxylic acid derivatives
化合物編號(hào)R1R2R3R4/R6化合物編號(hào)R1R2R5 R7 R8/R9 A1----D27ClClH F H B2HHHH28ClClF H H 3HClHH29ClClH H F 4ClHHH30ClClOMe H H 5FHHH31ClClCl H H 6MeHHH32ClClMe H H 7OMeHHH33ClClCF3 H H 8CF3HHH34ClCl CN HH 9ClHHCl35FCl OMe HH 10HClHClE36-- H -(S)-Me 11ClClHH37-- H -(R)-Me C12HH-Me38-- H -(S)-Et 13ClCl-Me39--H -(S)-Pr 14ClCl-Et40-- H -(S)-iPr 15ClCl-Pr41--H -(S)-tBu 16ClCl-iPr42-- H -(S)-Cyclohexyl 17ClCl-Bu43--H -(S)-ph 18ClCl-CH2CO2H44-- OMe -(S)-Pr 19ClCl-CH2CH2CO2H45-- OMe -(S)-iPr 20ClCl-CH2CONH246--OMe -(R)-iPr 21ClCl-CH2CH2CONH247--OMe -(S)-tBu 22ClCl-CH2CH2NH248--OMe -(S)-Cyclohexyl 23ClCl-CH2CH2OH24ClCl-CH2CH2CH2OH25ClF-CH2CH2OH26FCl-CH2CH2OH
采用Chemoffice Chem3D畫圖軟件,繪制前期研究[11]中所列48種喹諾酮羧酸衍生物的分子結(jié)構(gòu),根據(jù)Hall和Kier[20-21]提出的電性拓?fù)錉顟B(tài)指數(shù),劉樹深等人[22]提出的電性距離矢量的定義方法,在Matlab中調(diào)用畫好的結(jié)構(gòu),計(jì)算得到電性拓?fù)錉顟B(tài)指數(shù)的46個(gè)、電性距離矢量的91個(gè),兩類結(jié)構(gòu)參數(shù)共137個(gè),去除兩類137個(gè)參數(shù)中全部為0的數(shù)組,剩余的數(shù)組用最佳變量子集回歸方法優(yōu)化篩選,所得結(jié)果見表2。
表2 pIC50與參數(shù)的最佳變量子集回歸結(jié)果Tab.2 The results of parameters and pIC50 of quinolone carboxylic acid derivatives with best subsets regression
表中R,Radj2,R2,S,F(xiàn),F(xiàn)IT分別為相關(guān)系數(shù)、調(diào)整的判定系數(shù)、決定系數(shù)、Fischer檢驗(yàn)值、標(biāo)準(zhǔn)誤差、Kubinyi函數(shù)
表2中FIT的計(jì)算方程式[23]為
(1)
式(1)中n為喹諾酮羧酸衍生物分子的個(gè)數(shù),b為建立模型使用的變量數(shù),R2為建立模型的決定系數(shù)。
當(dāng)選擇兩類結(jié)構(gòu)參數(shù)中的E1,E8,M26,M32,M36,M81共6個(gè)參數(shù)時(shí),活性pIC50與結(jié)構(gòu)參數(shù)之間的相關(guān)性最好、標(biāo)準(zhǔn)誤差也最小,這48種喹諾酮羧酸衍生物的結(jié)構(gòu)參數(shù)如表3。
表3 喹諾酮羧酸衍生物的6種結(jié)構(gòu)參數(shù)Tab.3 Six structural parameters of quinolone carboxylic acid derivatives
續(xù)表3
No.E1 E8 M26M32M36M81pIC50 Exp.Pre.Err.15 2.000-1.2185.7205.6476.8580.7857.267.330.91 16 3.879-1.2274.9754.7066.7670.7847.597.48-1.41 17 2.065-1.2135.8565.9376.8880.7907.197.210.29 18 0-2.5604.310-7.2976.5401.1597.507.500.02 19 0-2.3794.861-5.8286.6321.1037.427.420.02 20 0-2.0194.453-2.1546.5711.0417.467.42-0.60 21 0-1.8484.964-0.9026.6581.0036.946.950.21 22 0-1.2585.6195.4516.8330.7846.676.771.45 23 0-1.2995.5286.1126.8110.9217.687.47-2.72 24 0-1.2755.7176.2666.8500.9047.117.201.20 25 0-1.3313.9475.5895.2931.3337.367.390.37 26 0-1.3383.4855.4346.0811.4597.627.690.87 27 0-1.4625.9526.31412.0214.5877.087.090.19 28 0-1.3915.5775.96010.1342.8777.607.610.11 290-1.4195.7066.02310.3983.6337.477.45-0.31 301.504-1.3257.4967.1547.0750.9347.927.89-0.37 310-1.3317.6327.22610.5581.8547.377.36-0.16 321.909-1.2987.3647.0727.0710.9307.397.400.20 330-1.5206.3316.02114.4575.5566.176.15-0.25 340-1.3593.4773.8105.9770.8997.307.330.42 351.444-1.3645.2406.4526.5021.4848.057.99-0.78 361.713-1.3413.1014.3596.0191.4737.837.68-1.94 371.713-1.3413.1014.3596.0191.4737.427.683.48 381.863-1.3343.4895.3816.1031.4888.058.03-0.31 391.961-1.3293.6445.7746.1501.4998.098.090.06 403.809-1.3363.5284.8036.0531.4988.097.99-1.29 415.776-1.3403.3875.1936.0681.5068.228.321.16 420-1.3084.2447.3836.3551.5368.258.260.12 430-1.3602.2504.5535.9681.5078.017.95-0.76 443.409-1.3555.4296.7936.5761.5258.248.300.71 455.233-1.3625.2565.7956.4741.5248.147.93-2.54 465.233-1.3625.2565.7956.4741.5247.847.931.19 477.184-1.3665.1116.2026.4901.5328.248.250.09 481.484-1.3346.1508.4336.7911.5628.178.200.36
將48種喹諾酮羧酸衍生物的抑制活性pIC50,與優(yōu)化篩選得到的6種結(jié)構(gòu)參數(shù)E1,E8,M26,M32,M36和M81進(jìn)行線性回歸分析,得到方程為
pIC50=0.141E1-4.832E8-0.487M26+0.482M32+0.361M36-0.890M81-0.582
(2)
利用式(2)對(duì)喹諾酮羧酸衍生物的活性值進(jìn)行預(yù)測(cè),所得預(yù)測(cè)值與實(shí)驗(yàn)值之間的相對(duì)平均誤差為2.69%,可以看出,多元回歸模型的預(yù)測(cè)誤差稍大。
為檢驗(yàn)是否存在“離域”的異常數(shù)據(jù),可使用形象直觀的雷達(dá)圖定性評(píng)價(jià),對(duì)以上建立的預(yù)測(cè)喹諾酮羧酸衍生物活性的48個(gè)模型Jackknifed相關(guān)系數(shù)R作雷達(dá)圖(見圖2),以檢驗(yàn)的R值0.925作為圓心,相隔0.005為間距,48個(gè)模型的Jackknifed相關(guān)系數(shù)R值全部落在0.925~0.960之間,波動(dòng)性很小,只有剔除33號(hào)分子所得模型的相關(guān)系數(shù)為0.959稍大外,其他模型的R值基本在0.944左右,說明這里所建構(gòu)的模型不存在“異常離域數(shù)據(jù)”。
圖2 Jackknifed相關(guān)系數(shù)R的雷達(dá)圖Fig.2 Radar map of Jackknifed correlation coefficent R
用膨脹系數(shù)(VIF)來檢驗(yàn)?zāi)P椭懈髯兞康南嚓P(guān)程度,VIF定義為:VIF=1/(1-R2),這里的R為方程中某一個(gè)自變量與其他變量之間的相關(guān)系數(shù),當(dāng)VIF>10,則表示方程不穩(wěn)定,這里計(jì)算得到的VIF 值分別為1,10,5,10,9,5,基本滿足要求。
表4 Jackknifed R的檢驗(yàn)Tab.4 Inspection of jackknifed R
為提高預(yù)測(cè)喹諾酮羧酸類衍生物活性的預(yù)測(cè)精度,結(jié)合BP神經(jīng)網(wǎng)絡(luò)法更深入研究。將多元回歸建模分析中篩選的E1,E8,M26,M32,M36和M81共6個(gè)參數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入層神經(jīng)元,將48種喹諾酮羧酸衍生物活性作為輸出層節(jié)點(diǎn),綜合Andrea[25]及許祿等[26]學(xué)者對(duì)隱含層節(jié)點(diǎn)取值的建議規(guī)則可得
2.2>n/M≥1.4
(3)
式中:n為樣本的分子個(gè)數(shù),M為神經(jīng)網(wǎng)絡(luò)的總權(quán)重,M的取值為
M=(L+1)×Y+(Y+1)C
(4)
式(4)中,L,Y,C分別為神經(jīng)網(wǎng)絡(luò)中輸入層節(jié)點(diǎn)、隱含層節(jié)點(diǎn)及輸出層節(jié)點(diǎn)。這里6個(gè)結(jié)構(gòu)參數(shù)作為輸入層節(jié)點(diǎn)L=6; 喹諾酮羧酸衍生物活性作為輸出層神經(jīng)元C=1; 根據(jù)式(3)和式(4)計(jì)算得到隱含層節(jié)點(diǎn)Y可取3或4,經(jīng)測(cè)試,當(dāng)Y取4時(shí),所得結(jié)果更優(yōu),因此網(wǎng)絡(luò)結(jié)構(gòu)采用6-4-1方式。將樣本分為三個(gè)組別:第一組為訓(xùn)練集,選擇每5個(gè)數(shù)據(jù)中的第1,3,5個(gè)數(shù)據(jù);第二組為測(cè)試集,選擇每5個(gè)數(shù)據(jù)中的第2個(gè);第三組為驗(yàn)證集,選擇每5個(gè)數(shù)據(jù)中的第4個(gè)。在Matlab環(huán)境運(yùn)行中計(jì)算得到預(yù)測(cè)喹諾酮羧酸衍生物活性的神經(jīng)網(wǎng)絡(luò)模型的總相關(guān)系數(shù)為0.992 5,訓(xùn)練集、測(cè)試集和驗(yàn)證集的相關(guān)系數(shù)分別為R1=0.990 0,R2=0.995 8,R3=0.997 9,利用該模型預(yù)測(cè)的喹諾酮羧酸衍生物活性值與實(shí)驗(yàn)值較為吻合,平均相對(duì)誤差只有0.87%,該誤差比使用多元回歸法模型的平均相對(duì)誤差2.69%明顯要小,將兩種方法所得預(yù)測(cè)值與實(shí)驗(yàn)值作關(guān)系圖(見圖3和圖4),可以看出,神經(jīng)網(wǎng)絡(luò)法的預(yù)測(cè)精度明顯優(yōu)于多元回歸法。神經(jīng)網(wǎng)絡(luò)模型的權(quán)重和偏置見表5。
表5 神經(jīng)網(wǎng)絡(luò)模型的權(quán)重和偏置Tab.5 Weights and bias of neural network model
圖3 神經(jīng)網(wǎng)絡(luò)法預(yù)測(cè)值和實(shí)驗(yàn)值關(guān)系圖Fig.3 Relationship between prediction value and experimental value by neural network method
圖4 多元回歸法預(yù)測(cè)值和實(shí)驗(yàn)值關(guān)系圖Fig.4 Relationship between prediction value and experimental value by multivariate regressive method