徐靜安 賀少鵬 商照聰
多年來(lái)參與一些項(xiàng)目的評(píng)審,研究生論文的答辯,相關(guān)專(zhuān)業(yè)文獻(xiàn)的查閱等,筆者感受到隨著計(jì)算機(jī)軟硬件技術(shù)的發(fā)展,20世紀(jì)80年代以來(lái),化合物的定量結(jié)構(gòu)-活性/性質(zhì)相關(guān)性(簡(jiǎn)稱(chēng)構(gòu)效關(guān)系,英文縮寫(xiě)QSAR/QSPR)逐漸成為研究的熱點(diǎn)。2018年2月7日上午,筆者應(yīng)邀參加在華誼集團(tuán)大廈舉辦的煤基多聯(lián)產(chǎn)工程中心和計(jì)算化學(xué)化工工程中心技術(shù)委員會(huì)的年度會(huì)議,會(huì)上,計(jì)算化學(xué)也受到了工程界的重視。
上?;ぱ芯吭嚎蒲泄ぷ饕策M(jìn)行了相應(yīng)的安排、探索。2006級(jí)碩士研究生賀少鵬,其學(xué)位論文“有機(jī)污染物的正辛醇/水分配系數(shù)預(yù)測(cè)及QSPR研究”,導(dǎo)師是徐大剛、劉剛二位教授級(jí)高工。筆者作為研究生辦公室顧問(wèn)一直跟蹤項(xiàng)目和參與討論。2009年3月筆者還從賀少鵬處借閱《化學(xué)計(jì)量學(xué)方法》,閱讀后2011年網(wǎng)購(gòu)了幾本贈(zèng)與有關(guān)專(zhuān)業(yè)人員學(xué)習(xí)、應(yīng)用。2012年又閱讀了商照聰、賀少鵬的論文“有機(jī)污染物分配系數(shù)(正辛醇/水)預(yù)測(cè)軟件比較研究”。
2013年院部采購(gòu)了IBM高性能小型機(jī);2014年,購(gòu)置了DPS軟件,還和上海應(yīng)用技術(shù)大學(xué)共建共享配置了VASP軟件;2015年院部購(gòu)置了Gaussian軟件。此外,研究院還在2013年和2014年針對(duì)性地招聘了量子化學(xué)軟件應(yīng)用的專(zhuān)業(yè)人員。
在材料、生物、環(huán)境等科學(xué)領(lǐng)域,構(gòu)效關(guān)系研究在宏觀、介觀及微觀層面展開(kāi),本文討論的是分子尺度的化合物構(gòu)效關(guān)系。
根據(jù)《有機(jī)污染化學(xué)》(王連生編著),建立QSPR/QSAR模型的主要步驟見(jiàn)圖1。具體如下:
圖1 建立QSAR/QSPR模型的主要步驟
根據(jù)一定的統(tǒng)計(jì)標(biāo)準(zhǔn)和結(jié)構(gòu)標(biāo)準(zhǔn)選擇類(lèi)系化合物,作為建模的訓(xùn)練集。化合物選擇的條件為:統(tǒng)計(jì)上的隨機(jī)性、結(jié)構(gòu)上的代表性和全面性,以及性質(zhì)/活性數(shù)據(jù)的可獲得性。
數(shù)據(jù)收集的方法主要有3種:科學(xué)文獻(xiàn)的查閱、收集;性質(zhì)/活性數(shù)據(jù)庫(kù)中獲??;實(shí)驗(yàn)室中測(cè)試。一般來(lái)說(shuō),性質(zhì)/活性數(shù)據(jù)有兩種:連續(xù)響應(yīng)數(shù)據(jù)(例如水溶解度等)和非連續(xù)分類(lèi)、分級(jí)響應(yīng)數(shù)據(jù)(例如致癌性的陽(yáng)性/陰性、毒性等級(jí)等)。
首先應(yīng)用分子模擬方法,構(gòu)建正確的二維或三維分子結(jié)構(gòu),采用構(gòu)象分析、分子力學(xué)等方法獲得最優(yōu)化的構(gòu)象;采用拓?fù)鋵W(xué)方法、量子力學(xué)方法等計(jì)算化合物的分子結(jié)構(gòu)特征參數(shù),獲取分子的結(jié)構(gòu)信息,進(jìn)行分子結(jié)構(gòu)描述。
應(yīng)用特征變量篩選方法篩選描述符,應(yīng)用統(tǒng)計(jì)方法或其他建模方法將訓(xùn)練集有機(jī)化合物的性質(zhì)/活性數(shù)據(jù)與分子結(jié)構(gòu)參數(shù)數(shù)據(jù)建立QSAR模型。常用的統(tǒng)計(jì)分析方法有回歸分析、偏最小二乘分析、因子分析、主成分分析、聚類(lèi)分析等,其中多元逐步回歸分析是應(yīng)用最多的方法。近年來(lái),人工神經(jīng)網(wǎng)絡(luò)和遺傳算法等高級(jí)建模方法也得到了關(guān)注和應(yīng)用。
模型的評(píng)價(jià)主要針對(duì):模型的擬合優(yōu)度、穩(wěn)健性和預(yù)測(cè)能力。在回歸分析中,模型的擬合優(yōu)度采用回歸系數(shù)的平方(R2)或自由度校正的R2(R2edj)、顯著性水平、檢驗(yàn)值F、標(biāo)準(zhǔn)偏差s等參數(shù)來(lái)評(píng)判。模型的穩(wěn)健性一般采用交叉驗(yàn)證方法來(lái)進(jìn)行檢驗(yàn),通常有兩種方式:逐一剔除法(即留一法)和分組剔除法(即留多法)。得到的交叉驗(yàn)證的R2(q2)和標(biāo)準(zhǔn)預(yù)測(cè)誤差(SEP)用來(lái)評(píng)價(jià)模型的穩(wěn)健性。模型預(yù)測(cè)的驗(yàn)證是構(gòu)建一個(gè)測(cè)試集,用訓(xùn)練集建立的擬合模型來(lái)預(yù)測(cè)測(cè)試集化合物的性質(zhì)。只有具有統(tǒng)計(jì)上的顯著性、穩(wěn)健以及具有高度預(yù)測(cè)能力的模型才能夠進(jìn)行應(yīng)用。
應(yīng)用有三個(gè)方面:一利用模型對(duì)其他未知化合物的相關(guān)性質(zhì)/活性進(jìn)行預(yù)測(cè),在效應(yīng)評(píng)價(jià)和暴露評(píng)價(jià)等方面可彌補(bǔ)缺失的數(shù)據(jù),對(duì)有機(jī)化合物進(jìn)行篩選和評(píng)價(jià);二根據(jù)模型的組成與形式,結(jié)合已有的化學(xué)、生物學(xué)知識(shí),探求有機(jī)化合物的毒理性質(zhì)、環(huán)境過(guò)程和生態(tài)效應(yīng)等機(jī)理分析;三根據(jù)所闡明的結(jié)構(gòu)-性質(zhì)關(guān)系結(jié)果,為設(shè)計(jì)目標(biāo)化合物指明方向。
選取自《化學(xué)計(jì)量學(xué)方法》?;衔锏慕Y(jié)構(gòu)是個(gè)三維圖像,對(duì)于化合物分子尺度構(gòu)效關(guān)系的研究,就是將結(jié)構(gòu)圖特征參數(shù)與其性質(zhì)/活性去構(gòu)造相關(guān)的數(shù)學(xué)模型。主要參數(shù)類(lèi)型有(1)拓?fù)漕?lèi)參數(shù);(2)幾何類(lèi)參數(shù);(3)電子類(lèi)參數(shù);(4)理化性質(zhì)類(lèi)參數(shù);(5)綜合類(lèi)參數(shù);等。構(gòu)效關(guān)系模型建立的目的是對(duì)新的未知樣本進(jìn)行預(yù)測(cè)。
案例為50個(gè)酚類(lèi)化合物麻醉毒性的QSAR研究,樣本量N=50,提取可能影響麻醉毒性的結(jié)構(gòu)特征參數(shù)有M=135個(gè)變量,經(jīng)過(guò)變量篩選獲得構(gòu)效關(guān)系的統(tǒng)計(jì)模型、多元線(xiàn)性回歸方程:
式中:SHDWi——分子投影面積;
按全回歸分析方法,自變量M=135,樣本量N=50,此回歸模型無(wú)法求解。由于有的自變量——結(jié)構(gòu)特征參數(shù)對(duì)其響應(yīng)參數(shù)不顯著,特別是分子描述符參數(shù)之間普遍存在共線(xiàn)性關(guān)系,所以結(jié)構(gòu)特征參數(shù)的提取、篩選是構(gòu)效關(guān)系研究的關(guān)鍵。應(yīng)用數(shù)據(jù)處理方法,本例經(jīng)篩選進(jìn)入模型的自變量m=9,大大簡(jiǎn)化了模型。本例M=135,選用最簡(jiǎn)單的多元線(xiàn)性回歸,可能構(gòu)成的模型有2M-1=2135-1;如果選用二次多項(xiàng)式回歸,僅考慮一次項(xiàng)和二次項(xiàng),可能構(gòu)成模型有(22M-1)個(gè)。采用窮舉法時(shí)計(jì)算工作難以操作,由此研究產(chǎn)生若干變量篩選算法。
傳統(tǒng)的變量篩選方法有前進(jìn)法、后退法、逐步回歸法、最佳子集法;常用的逐步回歸法已可有效篩選變量。在多元回歸分析中,亦有使用主成分分析法、正交變換法篩選變量。如果多元線(xiàn)性回歸建模效果不好,研究對(duì)象較為復(fù)雜,基于MIV的人工神經(jīng)網(wǎng)絡(luò)法、自變量降維的遺傳算法,以及針對(duì)小樣本的支持向量回歸法(SVR)等值得關(guān)注。
作為應(yīng)用案例,本案例模型尚應(yīng)進(jìn)一步進(jìn)行預(yù)報(bào)測(cè)試的評(píng)估與驗(yàn)證檢驗(yàn)。
選取自“有機(jī)污染物的正辛醇/水分配系數(shù)預(yù)測(cè)及QSPR研究”。將美國(guó)國(guó)家環(huán)境保護(hù)局推薦的105種優(yōu)先毒性污染物作為考察對(duì)象,即樣本量N=105。按化學(xué)結(jié)構(gòu)可分為鹵代(烷、烯)烴類(lèi),苯系物,酚類(lèi),多環(huán)芳烴類(lèi),亞硝胺類(lèi)等10個(gè)類(lèi)系化合物。響應(yīng)分配系數(shù)實(shí)驗(yàn)值選自SRC公司的PHYSPROP數(shù)據(jù)庫(kù)。
資料表明,對(duì)于分子描述符現(xiàn)已開(kāi)發(fā)出上百種拓?fù)渲笖?shù),原文列舉常用的拓?fù)渲笖?shù)38種,幾何結(jié)構(gòu)性質(zhì)描述符24種,量子化學(xué)描述符35種,溶劑化描述符13種及理化性質(zhì)10余種等等。原文用現(xiàn)有的采用不同特征參數(shù)的10種估算分配系數(shù)的軟件(ALOGPs,AC logP,AB/LogP,COSMOFrag,miLogP,ALOGP,MLOGP,KOWWIN,XLOGP 2,XLOGP 3) 對(duì)105 種污染物進(jìn)行了計(jì)算分析。其中ALOGPs采用拓?fù)渲笖?shù)等描述符、KOWWIN采用碎片常數(shù)法進(jìn)行預(yù)測(cè)估算,預(yù)測(cè)效果相對(duì)較好,其他軟件對(duì)此分配系數(shù)的性能預(yù)測(cè)偏差較大。為進(jìn)一步改進(jìn)提高有機(jī)污染物正辛醇/水分配系數(shù)logP的預(yù)測(cè)性能,原文探索篩選新的特征參數(shù)構(gòu)建QSPR新的模型。
分子描述符的計(jì)算提取。先使用ChemBio3D Ultra11.0軟件將105種有機(jī)物的二維分子結(jié)構(gòu)轉(zhuǎn)化為三維結(jié)構(gòu)式,并使用內(nèi)置的MM2分子優(yōu)化軟件計(jì)算出能量最低的狀態(tài),進(jìn)行能量?jī)?yōu)化,使用MOPAC軟件進(jìn)行幾何構(gòu)型優(yōu)化。再使用Chem3D軟件計(jì)算29種分子結(jié)構(gòu)描述符,其中有:分子面積、橢圓度等7種結(jié)構(gòu)性質(zhì)描述符;總能量、生成熱等8種量子化學(xué)描述符;分子拓?fù)渲笖?shù)、分子半徑等14種拓?fù)涿枋龇4送?,根?jù)研究文獻(xiàn)表明有機(jī)物的分配系數(shù)與其水溶解度logSw和相對(duì)分子質(zhì)量Mw有很大關(guān)系,相對(duì)分子質(zhì)量根據(jù)結(jié)構(gòu)式計(jì)算可得,水溶解度數(shù)據(jù)取自SRC公司的PHYSPROP數(shù)據(jù)庫(kù)。共提取特征參數(shù)M=31個(gè)。
對(duì)特征參數(shù)進(jìn)行初篩選一般采用變量零值檢測(cè)、偏差測(cè)試、相關(guān)性測(cè)試、共線(xiàn)性測(cè)試。由于多元線(xiàn)性逐步回歸同時(shí)完成變量剔除和模型建立,本例采用此主體技術(shù)。
log Pow的QSPR模型:
(1)對(duì)7種結(jié)構(gòu)性質(zhì)描述符建模;
(2)對(duì)8種量子化學(xué)描述符建模;
(3)對(duì)14種拓?fù)涿枋龇#?/p>
(4)對(duì)水溶解度、相對(duì)分子質(zhì)量建模;
(5)對(duì)31個(gè)描述符綜合建模。
經(jīng)多元線(xiàn)性逐步回歸,模型統(tǒng)計(jì)量匯總見(jiàn)表1。
表1 模型統(tǒng)計(jì)量匯總
由表1可見(jiàn),綜合參數(shù)模型擬合性能最優(yōu):
模型中:Ovality——分子橢圓度,
PM-Y——慣性主矩的y分量,
Bindx——Balaban指數(shù),
PSA——分子極化表面面積,
logSw——水溶解度對(duì)數(shù)值,
Mw——相對(duì)分子質(zhì)量。
從數(shù)理統(tǒng)計(jì)角度,此構(gòu)效關(guān)系模型擬合性能具有顯著的統(tǒng)計(jì)意義,尚應(yīng)對(duì)模型預(yù)報(bào)性能進(jìn)行評(píng)估驗(yàn)證。
內(nèi)部驗(yàn)證。采用留一法預(yù)測(cè)標(biāo)準(zhǔn)偏差。
預(yù)測(cè)相關(guān)系數(shù)平方:
預(yù)測(cè)和擬合相關(guān)系數(shù)及標(biāo)準(zhǔn)偏差變化不顯著,模型具有穩(wěn)定性。
外部驗(yàn)證。對(duì)新考察的①萘、②苯甲酸甲酯、③苯甲酸乙酯、④苯乙酮、⑤二苯醚、⑥肉桂醇、⑦溴苯、⑧苯甲酸芐酯8種有機(jī)物,使用高效液相色譜實(shí)驗(yàn)測(cè)定正辛醇/水分配系數(shù),使用上述軟件計(jì)算6項(xiàng)參數(shù)。參數(shù)計(jì)算值、響應(yīng)預(yù)測(cè)值、實(shí)驗(yàn)值見(jiàn)表2。
外部驗(yàn)證的標(biāo)準(zhǔn)偏差
驗(yàn)證標(biāo)準(zhǔn)偏差相對(duì)穩(wěn)定,具有統(tǒng)計(jì)意義。2004年QSAR國(guó)際會(huì)議正式形成經(jīng)濟(jì)合作與發(fā)展組織(英文簡(jiǎn)稱(chēng)OECD)規(guī)則,明確必須使用外部驗(yàn)證集(即測(cè)試集)來(lái)評(píng)價(jià)模型的預(yù)測(cè)能力。如果樣本量足夠大,也可以從105個(gè)樣本中隨機(jī)取8個(gè)樣本作為測(cè)試集,97個(gè)樣本作為訓(xùn)練集。本案例執(zhí)行該規(guī)范。
選自上海交通大學(xué)環(huán)境科學(xué)與工程學(xué)院的“Fenton法降解有機(jī)物的熱力學(xué)及構(gòu)效關(guān)系研究”一文。2017年11月29日筆者在院內(nèi)彭東輝教授級(jí)高工實(shí)驗(yàn)室討論高濃度有機(jī)廢水處理項(xiàng)目時(shí)閱讀到此文,值得推薦。
表2 外部驗(yàn)證數(shù)據(jù)匯總
案例針對(duì)有機(jī)廢水中的①3,4-二氯苯胺、②對(duì)氨基苯磺酸、③ 2,4-二硝基苯肼、④ 雙酚A、⑤ 酸性橙、⑥間甲酚紫6種有機(jī)污染物,實(shí)驗(yàn)探究了不同溫度下Fenton氧化降解有機(jī)物的去除率及反應(yīng)動(dòng)力學(xué);在Fenton試劑過(guò)量、假定反應(yīng)初期為一級(jí)反應(yīng)動(dòng)力學(xué)速率常數(shù)的基礎(chǔ)上,通過(guò)Arrhenius方程計(jì)算獲得6種有機(jī)物的Fenton反應(yīng)活化能Ea。
本文側(cè)重討論了結(jié)構(gòu)參數(shù)與活化能之間的構(gòu)效關(guān)系。根據(jù)現(xiàn)有資料,案例利用Hyperchem8.0軟件初步優(yōu)化6個(gè)有機(jī)物的結(jié)構(gòu),再用Gaussian09軟件進(jìn)行深度優(yōu)化,利用Materials Studio軟件進(jìn)行參數(shù)計(jì)算。選取了19個(gè)量子化學(xué)結(jié)構(gòu)參數(shù),其中16個(gè)由軟件計(jì)算獲得,3 個(gè)為組合參數(shù)(EGAP,E2GAP,EHOMO+ELOMO),各參數(shù)的物理意義見(jiàn)表3,各參數(shù)值及與Ea的相關(guān)性見(jiàn)表4。
由于論文報(bào)道的僅僅是研究工作的階段內(nèi)容,樣本量為N=6,結(jié)構(gòu)特征參數(shù)M=19,還無(wú)法構(gòu)建構(gòu)效關(guān)系模型,但可以進(jìn)行初步分析:
(1)先計(jì)算單一特征參數(shù)和活化能的相關(guān)關(guān)系,見(jiàn)表4。
表3 量子化學(xué)結(jié)構(gòu)參數(shù)
表4參數(shù)與Ea間相關(guān)系數(shù)大于0.5的項(xiàng)數(shù)11/19=58%,而且大于0.7的項(xiàng)數(shù)有2項(xiàng),粗略判斷初選的結(jié)構(gòu)參數(shù)是有效的。如果相關(guān)性普遍較低,就應(yīng)考慮調(diào)整、擴(kuò)充特征參數(shù)的選擇范圍。
(2)從案例一、二及相關(guān)資料分析可知,在構(gòu)效關(guān)系研究中,由于化合物分子特征參數(shù)對(duì)化合物性能響應(yīng)不同,很多參數(shù)對(duì)某一響應(yīng)是不顯著的;更為普遍的現(xiàn)象是顯著項(xiàng)特征參數(shù)間還存在共線(xiàn)性現(xiàn)象,所以M項(xiàng)特征參數(shù)經(jīng)篩選僅有限的m項(xiàng)進(jìn)入構(gòu)效關(guān)系模型。
(3)所謂共線(xiàn)性是指成對(duì)自變量(特征參數(shù))之間的相關(guān)性。當(dāng)相關(guān)性較高時(shí),表示一個(gè)變量的信息含有對(duì)應(yīng)變量的信息,可以剔除一個(gè)變量。如同時(shí)引入統(tǒng)計(jì)模型,除了增加計(jì)算工作量外,還會(huì)使模型計(jì)算性能變差。
表4 各參數(shù)值及與Ea的相關(guān)性
本講義第四講回歸分析中的變量篩選技術(shù)及統(tǒng)計(jì)檢驗(yàn)(《上?;ぁ?、2016年第8期)已做詳細(xì)討論?,F(xiàn)再簡(jiǎn)單引用,原案例是4個(gè)變量的多元線(xiàn)性回歸,計(jì)算機(jī)在逐步回歸建模時(shí),自動(dòng)計(jì)算輸出變量間的相關(guān)性,如表5所示。
x1與 x3相關(guān)系數(shù) R=-0.824,P=0.001<0.05;x2與x4的 R=-0.973,P=0.000??梢?jiàn):x1與 x3,x2與 x4均為顯著相關(guān),建模時(shí)將作剔除處理。
(4)由于構(gòu)效關(guān)系研究中樣本選擇是隨機(jī)的,多維空間結(jié)構(gòu)參數(shù)的數(shù)值分布也是隨機(jī)的,構(gòu)建構(gòu)效關(guān)系模型一般要求N/m≥5,一定的樣本量保證模型的穩(wěn)定性,所以完成本案例構(gòu)效關(guān)系研究尚需一定的實(shí)驗(yàn)工作量。
表5 四個(gè)變量間的相關(guān)性
后記:在本講義編寫(xiě)中,賀少鵬提交了第一節(jié)的文稿并提供同濟(jì)大學(xué)的“QSAR模型內(nèi)部和外部驗(yàn)證方法綜述”等3篇資料。筆者2017年已欣然為賀少鵬寫(xiě)推薦信,現(xiàn)其正在此領(lǐng)域選題攻讀在職博士。