崔 雪,賈青竹,李 磊,王 強(qiáng)
(1. 天津科技大學(xué)海洋與環(huán)境學(xué)院,天津 300457;2. 天津科技大學(xué)化工與材料學(xué)院,天津 300457)
有機(jī)物在水中溶解度范數(shù)指數(shù)法定量構(gòu)效關(guān)系
崔 雪1,賈青竹1,李 磊2,王 強(qiáng)2
(1. 天津科技大學(xué)海洋與環(huán)境學(xué)院,天津 300457;2. 天津科技大學(xué)化工與材料學(xué)院,天津 300457)
有機(jī)物溶解度參數(shù)在化學(xué)品開發(fā)、藥物設(shè)計(jì)和環(huán)境生態(tài)保護(hù)評(píng)價(jià)等領(lǐng)域發(fā)揮重要作用.本文依據(jù)本課題組提出的范數(shù)指數(shù)描述符,建立了一個(gè)預(yù)測(cè)有機(jī)物溶解度的定量構(gòu)效關(guān)系模型,并對(duì)320個(gè)包括有機(jī)氯化物、烷基類、芳香族等有機(jī)物的水溶解度進(jìn)行了計(jì)算.留一交叉驗(yàn)證和 Y隨機(jī)化測(cè)試表明這個(gè)新計(jì)算模型預(yù)測(cè)結(jié)果精確、可靠和穩(wěn)定(R2為0.910,7,Q2為0.888,4);同時(shí),該模型的應(yīng)用域驗(yàn)證結(jié)果表明此模型有可能在大范圍上推廣運(yùn)用.模型統(tǒng)計(jì)結(jié)果和相關(guān)驗(yàn)證結(jié)果都表明基于范數(shù)指數(shù)建立的定量構(gòu)效關(guān)系模型可以成功應(yīng)用于預(yù)測(cè)有機(jī)物溶解度.
有機(jī)物溶解度;范數(shù)指數(shù);定量構(gòu)效關(guān)系;留一交叉驗(yàn)證;應(yīng)用域
有機(jī)物在水中的溶解度(mol/L,通常表示為對(duì)數(shù)形式即 log,S)屬于基礎(chǔ)理化性質(zhì),該參數(shù)在化學(xué)品開發(fā)、藥物設(shè)計(jì)和環(huán)境生態(tài)保護(hù)評(píng)價(jià)等領(lǐng)域發(fā)揮重要作用[1].其中,在藥物設(shè)計(jì)領(lǐng)域,溶解度參數(shù)與吸收、分布、新陳代謝、代謝和毒性有關(guān)[2];比如有機(jī)物的超低溶解度有可能帶來(lái)藥物吸收問(wèn)題[3],盡管提高攝入藥劑量能達(dá)到預(yù)期治療效果,但由此可導(dǎo)致更嚴(yán)重的藥物中毒問(wèn)題.隨著高通量篩選技術(shù)和結(jié)構(gòu)化學(xué)的發(fā)展,大量候選藥物分子被設(shè)計(jì)成大分子質(zhì)量、低溶解度和高脂溶性[4].據(jù)統(tǒng)計(jì),每年新開發(fā)上市的化學(xué)品達(dá)2,000種以上;同時(shí),為了實(shí)現(xiàn)對(duì)化學(xué)品在生產(chǎn)、流通、使用及最終處置歸宿過(guò)程中的規(guī)范管理,歐盟要求所有化學(xué)品在正式市場(chǎng)化生產(chǎn)之前,就應(yīng)該提供包括辛醇水分配系數(shù)、水溶解度及吸收、分布、新陳代謝、代謝和毒性等相關(guān)參數(shù)[5].因此,在有機(jī)物溶解度實(shí)驗(yàn)測(cè)量耗時(shí)費(fèi)力情況下,要快速排除超低溶解度的候選藥物分子,提高藥物開發(fā)效率,有效解決途徑就是建立穩(wěn)定準(zhǔn)確的有機(jī)物溶解度預(yù)測(cè)模型.
定量構(gòu)效關(guān)系是一個(gè)基于大量描述符將化合物結(jié)構(gòu)與其物性參數(shù)(溶解度)定量聯(lián)系起來(lái)的方法[6-13].例如,Hansen等[10]利用9個(gè)2D描述符建立了一個(gè)人工神經(jīng)網(wǎng)絡(luò)模型,對(duì)4,548個(gè)類藥物分子的溶解度參數(shù)進(jìn)行了估算,盡管計(jì)算結(jié)果精度較高,但是該人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)屬于暗箱模型,不能進(jìn)一步推廣應(yīng)用.根據(jù) 9個(gè)潛在描述符(包括擴(kuò)展的連接性指紋分?jǐn)?shù)),Zhou等[11]建立了偏最小二乘法的模型,并對(duì) 1,302個(gè)有機(jī)物進(jìn)行了預(yù)測(cè),結(jié)果表明其測(cè)試集(1,000個(gè)有機(jī)物)計(jì)算相關(guān)系數(shù)(R2)為 0.85,均方根誤差為0.71.有研究者[12]基于3D描述符分別采用反向傳播神經(jīng)網(wǎng)絡(luò)和多元線性回歸兩種擬合過(guò)程建立了有機(jī)物溶解度預(yù)測(cè)模型,研究表明前者方法能給出較好計(jì)算精度.
本課題組提出系列范數(shù)指數(shù)描述符,基于該描述符建立的模型成功地預(yù)測(cè)了有機(jī)物多種物化性質(zhì),包括離子液體的分解溫度、麻醉性污染物的水生毒性、雜環(huán)化合物的藥理學(xué)和毒理學(xué)活性和多種類表面活性劑的臨界膠束濃度[14-17].先前研究工作表明該系列范數(shù)描述符可能是分子結(jié)構(gòu)的一種根本表述,有可能在多個(gè)物性參數(shù)中均有體現(xiàn).
本工作基于有機(jī)物分子圖論進(jìn)一步將歐式空間距離矩陣引入到范數(shù)模式中,并據(jù)此建立有機(jī)物的溶解度預(yù)測(cè)模型,對(duì) 320個(gè)有機(jī)物包括有機(jī)鹵化物(Cl和 Br)、烷烴類、烯烴類、炔烴類、醇類、芳香族等極性和非極性有機(jī)物的水溶解度進(jìn)行了計(jì)算,采用留一交叉驗(yàn)證法和 Y隨機(jī)化驗(yàn)證手段對(duì)模型進(jìn)行了驗(yàn)證,并利用杠桿技術(shù)對(duì)模型的應(yīng)用域進(jìn)行了評(píng)價(jià).
1.1樣本集
在此工作中,包含溶解度數(shù)據(jù)有機(jī)物分子從文獻(xiàn)[13]中獲得,其溶解度實(shí)驗(yàn)值(log,S)及分子結(jié)構(gòu)列在附表 1(可聯(lián)系通信作者索?。?對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了可靠性評(píng)價(jià),對(duì)明顯異常數(shù)據(jù)進(jìn)行剔除,對(duì)同一個(gè)有機(jī)物的多個(gè)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了再次核實(shí),篩選確定了 320個(gè)有機(jī)物.為了構(gòu)建穩(wěn)定準(zhǔn)確的計(jì)算模型,將樣本集分為訓(xùn)練集(260個(gè)有機(jī)物)和測(cè)試集(60個(gè)有機(jī)物).
1.2分子結(jié)構(gòu)優(yōu)化
利用軟件 HyperChem 7.0對(duì)有機(jī)物分子結(jié)構(gòu)進(jìn)行優(yōu)化,具體采用從頭算法ab initio在ST0-3G中進(jìn)行能量最低優(yōu)化.
1.3范數(shù)指數(shù)描述符和模型
在分子結(jié)構(gòu)優(yōu)化基礎(chǔ)上,利用化學(xué)圖構(gòu)建有機(jī)物的距離矩陣和歐式空間距離矩陣.其中,距離矩陣包括了步長(zhǎng)矩陣、相鄰矩陣、相間矩陣和相跳矩陣.為了對(duì)分子中的不同原子進(jìn)行量化描述,本工作提出了增廣矩陣,涉及參數(shù)包括范德華半徑、原子質(zhì)量、電負(fù)性和電荷.
下面列出上述具體矩陣.
歐式空間距離矩陣:
bij是原子i和j的歐氏空間距離步長(zhǎng)矩陣:
相鄰矩陣:
相間矩陣:
相跳矩陣:
增廣矩陣:
將以上矩陣進(jìn)行組合,形成新矩陣,命名為增廣距離矩陣.
表1 溶解度預(yù)測(cè)模型系數(shù)Tab.1 Parameters of this model for solubility prediction
1.4模型評(píng)價(jià)
預(yù)測(cè)模型質(zhì)量高低通過(guò)回歸統(tǒng)計(jì)數(shù)值、留一交叉驗(yàn)證法和 Y隨機(jī)化進(jìn)行驗(yàn)證.回歸統(tǒng)計(jì)數(shù)據(jù)包含訓(xùn)練集和測(cè)試集相關(guān)系數(shù)的平方值,留一交叉驗(yàn)證法的統(tǒng)計(jì)數(shù)據(jù)是Q2.
式中:Yobs(train)為訓(xùn)練集實(shí)驗(yàn)值;Ypre(train)為訓(xùn)練集預(yù)測(cè)值;train為訓(xùn)練集實(shí)驗(yàn)值的平均值;Yobs(test)為測(cè)試集實(shí)驗(yàn)值;Ypre(test)為測(cè)試集預(yù)測(cè)值;test為測(cè)試集實(shí)驗(yàn)值的平均值;Yobs為樣本集實(shí)驗(yàn)值;Ypre為樣本集預(yù)測(cè)值;n為樣本集數(shù)量;k為變量數(shù)量;為樣本集實(shí)驗(yàn)值的平均值;YLOO-pre為樣本集留一交叉驗(yàn)證的預(yù)測(cè)值.
1.5應(yīng)用域驗(yàn)證
為了遵守歐盟 OECD原則,定量構(gòu)效關(guān)系模型的應(yīng)用域應(yīng)該給出明確定義.本工作以分子結(jié)構(gòu)的帽子矩陣為基礎(chǔ),通過(guò)杠桿方法來(lái)確定計(jì)算模型的應(yīng)用域.比如由于某有機(jī)物的杠桿值比較高該有機(jī)物的預(yù)測(cè)值就可能被認(rèn)為是不可靠的.其中h*的定義為
式中:p'是自變量數(shù)量加1;n是訓(xùn)練集數(shù)量.
為了方便可視化本模型的應(yīng)用域,使用了Williams圖(標(biāo)準(zhǔn)交叉驗(yàn)證殘差為縱坐標(biāo),有機(jī)物的杠桿值為橫坐標(biāo)).有機(jī)物的標(biāo)準(zhǔn)交叉驗(yàn)證殘差處于三個(gè)標(biāo)準(zhǔn)殘差單位內(nèi)(<3σ)且h<h*,則認(rèn)定為該有機(jī)物的預(yù)測(cè)結(jié)果是可靠的;否則,該有機(jī)物的預(yù)測(cè)值被認(rèn)定為是異常值[18-19].
2.1溶解度的定量構(gòu)效關(guān)系模型
利用新建模型(式(8))對(duì)320個(gè)有機(jī)物的溶解度進(jìn)行了預(yù)測(cè),具體預(yù)測(cè)數(shù)值見附表 1,圖 1是有機(jī)物溶解度實(shí)驗(yàn)值與預(yù)測(cè)值對(duì)比散點(diǎn)圖.由圖1可知:所有有機(jī)物溶解度預(yù)測(cè)點(diǎn)和實(shí)驗(yàn)點(diǎn)均位于對(duì)角線上及附近,表明本模型計(jì)算結(jié)果與實(shí)驗(yàn)值有很好的一致性.本預(yù)測(cè)模型相關(guān)統(tǒng)計(jì)數(shù)據(jù)和F值分別為 0.910,7、0.890,1和 327.14,說(shuō)明本模型計(jì)算結(jié)果的精確性較好.同時(shí),圖 2表明幾乎所有有機(jī)物的溶解度預(yù)測(cè)殘差都分布在-2到+2之間,殘差隨機(jī)分布沒有明顯趨勢(shì).
圖1 溶解度預(yù)測(cè)值和實(shí)驗(yàn)值相關(guān)性Fig.1 Correlation between model predicted and experimental data
圖2 殘差與實(shí)驗(yàn)值對(duì)比圖Fig.2 Model predicted residual vs.experimental data
2.2留一交叉驗(yàn)證
本文利用留一交叉驗(yàn)證法驗(yàn)證本計(jì)算模型的預(yù)測(cè)能力.留一交叉驗(yàn)證法所建立模型的預(yù)測(cè)值和實(shí)驗(yàn)值之間關(guān)系對(duì)比圖如圖3所示.圖3表明:留一交叉驗(yàn)證法的溶解度預(yù)測(cè)值與實(shí)驗(yàn)值有較好吻合度.為了進(jìn)一步分析本工作模型(式(8))和留一交叉驗(yàn)證生成模型的溶解度預(yù)測(cè)效果,對(duì)比了兩種模型預(yù)測(cè)結(jié)果樣本的相對(duì)誤差分布情況,結(jié)果如圖4所示.
圖3 留一交叉驗(yàn)證預(yù)測(cè)值和實(shí)驗(yàn)值相關(guān)性Fig.3 Correlation between leave-one-out cross-validation predicted and experimental data
圖4 本模型和留一交叉驗(yàn)證模型溶解度預(yù)測(cè)相對(duì)偏差分布Fig.4 Relative deviation distribution of the solubility predicted by this model and the leave-one-out cross-validation model
由圖4可知,二者預(yù)測(cè)結(jié)果的相對(duì)誤差數(shù)量分布相似.同時(shí),留一交叉驗(yàn)證結(jié)果具有較高Q2值(0.888,4),以上表征結(jié)果均可以驗(yàn)證本工作基于范數(shù)描述符建立的溶解度預(yù)測(cè)模型具有較好的穩(wěn)定性和可靠性.
2.3Y隨機(jī)化測(cè)試
為了避免模型建立的偶然性,需要對(duì)模型進(jìn)行Y隨機(jī)化測(cè)試.將原始實(shí)驗(yàn)值Y隨機(jī)打亂順序幾次,同時(shí)運(yùn)用相同的變量再建立一個(gè)新的定量構(gòu)效關(guān)系模型;如果新模型預(yù)測(cè)結(jié)果R2和Q2都很低,則可以證明原始模型不是偶然建立的,同時(shí)具有較強(qiáng)穩(wěn)定性.
在本工作中,實(shí)驗(yàn)值被隨機(jī)打亂了 5次順序,其隨機(jī)打亂生成新模型預(yù)測(cè)結(jié)果的R2和Q2列在表2.由表2可知:5次 Y隨機(jī)化測(cè)試中新模型的預(yù)測(cè)效果都很差,R2和Q2都很低甚至為 0;由此推斷,本工作原始模型(式(8))是穩(wěn)固的,并非偶然建立.
表2 Y隨機(jī)化測(cè)試結(jié)果Tab.2 Results of the randomization test of the model
2.4應(yīng)用域驗(yàn)證
好的計(jì)算模型不僅要有較高的精確度和穩(wěn)定性,同時(shí)要具備較廣的應(yīng)用域.本工作利用杠桿方法檢測(cè)計(jì)算模型的應(yīng)用域,并由 Williams圖(見圖 5)展示,其中圖 5橫縱坐標(biāo)是帽子矩陣對(duì)角線的數(shù)值分布,縱坐標(biāo)是預(yù)測(cè)結(jié)果標(biāo)準(zhǔn)殘差分布.從圖 5可以看出,對(duì)于320個(gè)有機(jī)物,只有7個(gè)有機(jī)物的預(yù)測(cè)結(jié)果屬于異常值,其中 98%, 的樣本有機(jī)物預(yù)測(cè)結(jié)果都穩(wěn)定可靠.由此推斷本計(jì)算模型(式(8))具有較廣應(yīng)用域,可以推廣應(yīng)用于其他有機(jī)物溶解度的預(yù)測(cè).
圖5 訓(xùn)練集和測(cè)試集Williams圖Fig.5 Williams plot for the training set and the test set
本文基于有機(jī)物化學(xué)圖論,構(gòu)造了有機(jī)物分子的歐式空間距離矩陣、步長(zhǎng)矩陣和原子屬性矩陣,在此基礎(chǔ)上提出了系列組合矩陣的范數(shù)指數(shù),構(gòu)建了有機(jī)物溶解度預(yù)測(cè)定量構(gòu)效關(guān)系模型,并對(duì)320個(gè)包括有機(jī)氯化物、烷基類、芳香族等有機(jī)物的水溶解度進(jìn)行了計(jì)算.結(jié)果表明:本模型溶解度預(yù)測(cè)值與實(shí)驗(yàn)值有很好的一致性,F(xiàn)值為 327.14,留一交叉驗(yàn)證測(cè)試(Q2為 0.888,4)、Y隨機(jī)化測(cè)試和應(yīng)用域驗(yàn)證均表明本模型計(jì)算結(jié)果準(zhǔn)確穩(wěn)定可靠,有可能進(jìn)一步推廣應(yīng)用.
[1] Mitchell B E,Jurs P C. Prediction of aqueous solubility of organic compounds from molecular structure[J]. Journal of Chemical Information and Computer Sciences,1998,38(3):489-496.
[2] Tetko I V,Bruneau P,Mewes H W,et al. Can we estimate the accuracy of ADME-Tox predictions?[J]. Drug Discovery Today,2006,11(15):700-707.
[3] Lipinski C A,Lombardo F,Dominy B W,et al. Experimental and computational approaches to estimate solubility and permeability in drug discovery and development settings[J]. Advanced Drug Delivery Reviews,2012,64:4-17.
[4] Votano J R,Parham M,Hall L H,et al. New predictors for several ADME/Tox properties:Aqueous solubility,human oral absorption,and Ames genotoxicity using topological descriptors[J]. Molecular diversity,2004,8(4):379-391.
[5] Wang J,Hou T. Recent advances on aqueous solubility prediction[J]. Combinatorial Chemistry & High Throughput Screening,2011,14(5):328-338.
[6] Delaney J S. Predicting aqueous solubility from structure[J]. Drug Discovery Today,2005,10(4):289-295.
[7] Jain N,Yalkowsky S H. Estimation of the aqueous solubility I:Application to organic nonelectrolytes[J]. Journal of Pharmaceutical Sciences,2001,90(2):234-252.
[8] Hou T J,Xia K,Zhang W,et al. ADME evaluation in drug discovery. 4. Prediction of aqueous solubility based on atom contribution approach[J]. Journal of Chemical Information and Computer Sciences,2004,44(1):266-275.
[9] Tetko I V,Tanchuk V Y,Kasheva T N,et al. Estimation of aqueous solubility of chemical compounds using E-state indices[J]. Journal of Chemical Information and Computer Sciences,2001,41(6):1488-1493.
[10] Hansen N T,Kouskoumvekaki I,J?rgensen F S,et al. Prediction of pH-dependent aqueous solubility of druglike molecules[J]. Journal of Chemical Information and Modeling,2006,46(6):2601-2609.
[11] Zhou D,Alelyunas Y,Liu R. Scores of extended connectivity fingerprint as descriptors in QSPR study of melting point and aqueous solubility[J]. Journal of Chemical Information and Modeling,2008,48(5):981-987.
[12] Yan A,Gasteiger J. Prediction of aqueous solubility of organic compounds based on a 3D structure representation[J]. Journal of Chemical Information and Computer Sciences,2003,43(2):429-434.
[13] Wang J,Krudy G,Hou T,et al. Development of reliable aqueous solubility models and their application in druglike analysis[J]. Journal of Chemical Information and Modeling,2007,47(4):1395-1404.
[14] Zhu Z C,Wang Q,Jia Q Z,et al. Quantitative structureproperty relationship of the critical micelle concentration of different classes of surfactants[J]. Acta Physico-Chimica Sinica,2013,29(1):30-34.
[15] Zhu Z C,Wang Q,Jia Q Z,et al. Structure-property relationship for the pharmacological and toxicological activity of heterocyclic compounds[J]. Acta Physico-Chimica Sinica,2014,30(6):1086-1090.
[16] Yan F Y,Xia S Q,Wang Q,et al. Predicting the decomposition temperature of ionic liquids by the quantitative structure-property relationship method using a new topological index[J]. Journal of Chemical & Engineering Data,2012,57(3):805-810.
[17] Wang Q,Jia Q Z,Yan L H,et al. Quantitative structuretoxicity relationship of the aquatic toxicity for various narcotic pollutants using the norm indexes[J]. Chemosphere,2014,108:383-387.
[18] Gramatica P. Principles of QSAR models validation:Internal and external[J]. QSAR and Combinatorial Science,2007,26(5):694-701.
[19] Gramatica P,Giani E,Papa E. Statistical external validation and consensus modeling:A QSPR case study for Kocprediction[J]. Journal of Molecular Graphics and Modelling,2007,25(6):755-766.
責(zé)任編輯:周建軍
A Quantitative Structure-property Relationship Model for Aqueous Solubility of Organic Compounds Based on Norm Indexes
CUI Xue1,JIA Qingzhu1,LI Lei2,WANG Qiang2
(1.College of Marine and Environmental Sciences,Tianjin University of Science & Technology,Tianjin 300457,China;2.College of Chemical Engineering and Materials Science,Tianjin University of Science & Technology,Tianjin 300457,China)
The aqueous solubility of organic compounds plays a significant role in chemical development,drug design and environmental protection evaluation.In this research,norm index descriptors were obtained and then utilized to develop a model for predicting the aqueous solubility of 320 organic compounds including organic chloride,alkyl and aromatic,etc.The model was validated by leave-one-out validation and Y-randomization test with satisfactory results(R2of 0.910,7,Q2of 0.888,4),which further demonstrated that this model was accurate,reliable and stable.Besides,the applicability domain of the model was validated by using the leverage approach and the results suggested a potential for a large scale utilization of this model.Statistical values and validation tests demonstrate that our norm indexes-based model can successfully predict the aqueous solubility of organic compounds.
aqueous solubility of organic compounds;norm indexes;quantitative structure-property relationship;leaveone-out cross-validation;applicability domain
O621.1
A
1672-6510(2016)04-0035-05
10.13364/j.issn.1672-6510.20150184
2015-10-28;
2015-12-16
國(guó)家自然科學(xué)基金資助項(xiàng)目(21306137)
崔 雪(1990-),女,天津人,碩士研究生;通信作者:賈青竹,教授,jiaqingzhu88@126.com.
數(shù)字出版日期:2016-05-19;數(shù)字出版網(wǎng)址:http://www.cnki.net/kcms/detail/12.1355.N.20160519.1023.002.html.