王柔荑,王中鈺,于洋,林軍,傅志強(qiáng),*,李雪花,陳景文
1. 工業(yè)生態(tài)與環(huán)境工程教育部重點(diǎn)實(shí)驗(yàn)室,大連市化學(xué)品風(fēng)險(xiǎn)防控及污染防治技術(shù)重點(diǎn)實(shí)驗(yàn)室,大連理工大學(xué)環(huán)境學(xué)院,大連 116024 2. 生態(tài)環(huán)境部固體廢物與化學(xué)品管理技術(shù)中心,北京 100029
化學(xué)品對經(jīng)濟(jì)發(fā)展和人類生活質(zhì)量改善至關(guān)重要。近年來,我國化學(xué)品市場需求不斷增長,化學(xué)品銷售額預(yù)計(jì)將于2030年占全球近一半[1]。然而,化學(xué)品的潛在危害性會(huì)對生態(tài)和人體健康構(gòu)成嚴(yán)重威脅[1-3]。有必要對化學(xué)品進(jìn)行合理管控,以保障公眾健康和環(huán)境安全,實(shí)現(xiàn)社會(huì)可持續(xù)發(fā)展。
風(fēng)險(xiǎn)評價(jià)是對化學(xué)品進(jìn)行健全管理和污染防治的前提,其關(guān)鍵在于化學(xué)品的暴露和危害性評價(jià)?;瘜W(xué)品暴露是導(dǎo)致風(fēng)險(xiǎn)的前提,可分為外暴露和內(nèi)暴露。外暴露一般指環(huán)境暴露,由化學(xué)品的源釋放及其環(huán)境遷移分配、降解轉(zhuǎn)化行為所決定;內(nèi)暴露即化學(xué)品在生物體內(nèi)或者特定靶點(diǎn)的暴露,與危害性直接關(guān)聯(lián);危害性指化學(xué)品在特定暴露條件下對生物體或生態(tài)系統(tǒng)產(chǎn)生有害效應(yīng)的能力[4]。傳統(tǒng)的化學(xué)品風(fēng)險(xiǎn)評價(jià)方法依賴于實(shí)驗(yàn)測試。然而,由于目前全球市場中注冊的化學(xué)品及其混合物已超過35萬種[5],且化學(xué)品的環(huán)境行為與毒性效應(yīng)機(jī)制高度復(fù)雜,實(shí)驗(yàn)測試方法在高效、低成本地獲取化學(xué)品暴露和危害性參數(shù)方面存在局限,難以滿足化學(xué)品風(fēng)險(xiǎn)評價(jià)的需求[6-8]。
計(jì)算毒理學(xué)技術(shù)被視為應(yīng)對上述挑戰(zhàn)的重要工具[9-10]。計(jì)算毒理學(xué)基于計(jì)算化學(xué)、系統(tǒng)生物學(xué)等原理構(gòu)建數(shù)學(xué)或計(jì)算機(jī)模型,可銜接化學(xué)品的源釋放量、環(huán)境介質(zhì)濃度、靶點(diǎn)暴露劑量、毒性效應(yīng)閾值等關(guān)鍵數(shù)據(jù),實(shí)現(xiàn)不同種類化學(xué)品從暴露到導(dǎo)致危害效應(yīng)連續(xù)過程的高通量準(zhǔn)確預(yù)測。其中,定量構(gòu)效關(guān)系(QSAR)模型可為化學(xué)品暴露和效應(yīng)模擬提供關(guān)鍵參數(shù)、填補(bǔ)相關(guān)數(shù)據(jù)空白,是計(jì)算毒理學(xué)的核心工具[4]。
歐美國家較早認(rèn)識到計(jì)算毒理學(xué)方法的應(yīng)用潛力,積極開展相關(guān)研究推動(dòng)其發(fā)展和應(yīng)用,形成了一系列面向化學(xué)品風(fēng)險(xiǎn)預(yù)測的計(jì)算毒理學(xué)軟件[11-13]。一些可預(yù)測化學(xué)品暴露或/和危害性參數(shù)的軟件已在化學(xué)品信息申報(bào)、優(yōu)先測試化學(xué)品篩選和綠色化學(xué)品研發(fā)等活動(dòng)中得到了廣泛應(yīng)用。本研究選取目前已發(fā)展的、可預(yù)測化學(xué)品環(huán)境暴露/危害性質(zhì)參數(shù)的計(jì)算毒理學(xué)軟件作為研究對象,從多個(gè)維度對它們進(jìn)行比較,討論其開發(fā)條件、應(yīng)用現(xiàn)狀和未來的進(jìn)步空間,以期為我國在化學(xué)品管理中發(fā)展和應(yīng)用此類軟件或平臺(tái)提供參考。
本研究系統(tǒng)地搜集并選取國內(nèi)外25款可預(yù)測化學(xué)品暴露/危害性的計(jì)算毒理學(xué)軟件進(jìn)行比較研究。通過瀏覽軟件網(wǎng)頁介紹和閱讀用戶指導(dǎo)手冊,統(tǒng)計(jì)軟件的所屬國別、授權(quán)方式(免費(fèi)/商用)、發(fā)行方式(單機(jī)/網(wǎng)絡(luò))、發(fā)行時(shí)間和主要開發(fā)者等基本信息。
“終點(diǎn)(endpoint)”指在特定實(shí)驗(yàn)條件下被測量和建模的物理化學(xué)、環(huán)境或生物效應(yīng)指標(biāo)[14]。本文考察了不同軟件對理化性質(zhì)、環(huán)境行為、生態(tài)毒性、人體健康毒性和毒代動(dòng)力學(xué)性質(zhì)參數(shù)等5類終點(diǎn)的覆蓋情況,并利用Python軟件(版本3.9)將結(jié)果以熱圖形式呈現(xiàn)。
以軟件名稱為關(guān)鍵詞,在Web of Science檢索預(yù)測方法相關(guān)文獻(xiàn),并利用軟件自帶的模型介紹和歐盟委員會(huì)聯(lián)合研究中心(JRC)的QSAR模型數(shù)據(jù)庫[15],對軟件的預(yù)測手段、模型建模方法、分子描述符及應(yīng)用域表征方法進(jìn)行統(tǒng)計(jì)。
實(shí)際操作和試用了12款可免費(fèi)獲取的軟件,分別是EPI Suite (版本4.1.1)、OECD QSAR Toolbox (版本4.2.2)、T.E.S.T. (版本4.2.1)、Toxtree (版本3.1.0)、Lazar (版本1.4.2)、OncoLogic (版本8.0)、VEGA (版本1.1.5)、OPERA (版本2.6)、Danish QSAR Database/Models、ProTox Ⅱ、AdmetSAR 2和CPTP。統(tǒng)計(jì)了軟件具有的功能,并從模型和預(yù)測不確定性等方面考察軟件的信息完整度。
此外,為了分析上述軟件的預(yù)測準(zhǔn)確度,對軟件中提供的模型預(yù)測性能信息進(jìn)行了統(tǒng)計(jì),共統(tǒng)計(jì)了正辛醇/水分配系數(shù)、魚類急性毒性、生物富集因子、生物降解性和致突變性模型的內(nèi)外部驗(yàn)證準(zhǔn)確性指標(biāo)。進(jìn)一步選擇常用的廣譜殺菌劑“百菌清”作為預(yù)測對象(CAS: 1897-45-6),選擇正辛醇/水分配系數(shù)(octanol-water partition coefficient,Kow)、黑頭軟口鰷96 h半數(shù)致死濃度(lethal concentration 50%, LC50)(mg·L-1)和魚類生物富集因子(bioconcentration factor, BCF)(L·kg-1)作為預(yù)測終點(diǎn),比較各軟件的預(yù)測準(zhǔn)確度。
統(tǒng)計(jì)的25款軟件中,20款由歐洲和美國開發(fā),2款由中國開發(fā),日本、加拿大、經(jīng)濟(jì)合作與發(fā)展組織(OECD)開發(fā)的軟件各有1款(表1)。這些軟件的開發(fā)應(yīng)用與其服務(wù)的國家或地區(qū)的化學(xué)品管理制度密切相關(guān)。EPI Suite、ECOSAR (已被整合于EPI Suite中)和Oncologic等由美國環(huán)境保護(hù)局(US EPA)開發(fā),輔助其在《有毒物質(zhì)控制法》(TSCA)下開展化學(xué)品風(fēng)險(xiǎn)評價(jià)工作。Toxtree、OECD QSAR Toolbox和VEGA等主要服務(wù)歐盟的《化學(xué)品注冊、評估、許可和限制》(REACH)法規(guī),鼓勵(lì)企業(yè)利用計(jì)算工具對產(chǎn)品進(jìn)行風(fēng)險(xiǎn)篩查,或幫助企業(yè)填補(bǔ)化學(xué)品申報(bào)所需信息。Leadscope、CaseUltra、ToxGPS和Derek Nexus等面向美國食品和藥物管理局(US FDA),提供滿足《人用藥品注冊技術(shù)要求國際協(xié)調(diào)會(huì)(ICH)三方協(xié)調(diào)導(dǎo)則》要求的預(yù)測模型。另外,REACH法規(guī)和TSCA對化學(xué)品風(fēng)險(xiǎn)評價(jià)成本的內(nèi)部化,催生了面向綠色化工設(shè)計(jì)的商用軟件,如ACD/Percepta、ADMET Predictor和ChemTunes/ToxGPS等。
歐美國家的軟件開發(fā)參與者跨越了政、商、研各界。首先,歐美國家的政府較早組建了多學(xué)科背景的研究團(tuán)隊(duì),并由政府機(jī)構(gòu)如US EPA、JRC等組織收集建模關(guān)鍵數(shù)據(jù)與模型資源,為監(jiān)管機(jī)構(gòu)主導(dǎo)開發(fā)預(yù)測軟件提供了充分的條件。發(fā)達(dá)國家嚴(yán)格的管理法規(guī)還催生了一批提供化學(xué)品風(fēng)險(xiǎn)評價(jià)服務(wù)的商業(yè)公司,可獨(dú)立開發(fā)預(yù)測軟件。此外,非盈利性的獨(dú)立研究團(tuán)隊(duì)開發(fā)了部分免費(fèi)軟件,如ProTox Ⅱ、AdmetSAR 2等,作為QSAR模型的共享平臺(tái)。大部分預(yù)測軟件的開發(fā)涉及了政、商、研三方或兩兩合作,還有在大型國際合作項(xiàng)目下開發(fā)的軟件如VEGA和OECD QSAR Toolbox,體現(xiàn)了社會(huì)各界良好的合作模式以及數(shù)據(jù)共享機(jī)制對計(jì)算毒理學(xué)軟件開發(fā)的重要性。統(tǒng)計(jì)表明,2款由我國研發(fā)的軟件:CPTP和AdmetSAR 2,均由高校研究團(tuán)隊(duì)獨(dú)立開發(fā)。鑒于計(jì)算毒理學(xué)軟件在化學(xué)品風(fēng)險(xiǎn)評價(jià)和管理中的先進(jìn)性和實(shí)用性,未來需要彌補(bǔ)我國政府和商業(yè)界在此類工具開發(fā)中的缺位。
軟件的預(yù)測終點(diǎn)覆蓋度體現(xiàn)了其應(yīng)用范圍(圖1)。統(tǒng)計(jì)結(jié)果表明,上述25款計(jì)算毒理學(xué)軟件的預(yù)測終點(diǎn)涵蓋了理化性質(zhì)、環(huán)境行為、生態(tài)毒性、人體健康毒性和毒代動(dòng)力學(xué)參數(shù)等5類。其中,理化性質(zhì)類參數(shù)表征化學(xué)品的基本性質(zhì),一方面可評估化學(xué)品的物理危害,為其儲(chǔ)存、運(yùn)輸和使用方式提供參考;另一方面可作為預(yù)測化學(xué)品環(huán)境行為及毒性的重要輸入?yún)?shù);環(huán)境行為類參數(shù)描述化學(xué)品的遷移、轉(zhuǎn)化和歸趨,評估化學(xué)品的環(huán)境持久性或從環(huán)境轉(zhuǎn)移到生物體中的潛力;生態(tài)毒性終點(diǎn)考察化學(xué)品對非人類物種產(chǎn)生危害的能力,評估化學(xué)品對生態(tài)系統(tǒng)結(jié)構(gòu)和功能造成的影響;人體健康毒性終點(diǎn)包含了化學(xué)品對人體不同尺度層級(個(gè)體、器官、細(xì)胞和生物大分子)的有害效應(yīng),評估化學(xué)品的人類健康風(fēng)險(xiǎn);毒代動(dòng)力學(xué)參數(shù)包括與毒物在生物體吸收、分布、代謝及排泄過程相關(guān)的參數(shù),可預(yù)測化學(xué)品的生物有效濃度和作用于特定靶點(diǎn)的濃度,輔助體外(invitro)-體內(nèi)(invivo)毒性效應(yīng)閾值的外推[16]。
統(tǒng)計(jì)表明,水溶解度、正辛醇/水分配系數(shù)、生物降解性、水生生物積累性、淡水水生生物毒性、體外致突變性和致癌性等是軟件中常見的預(yù)測終點(diǎn)。相比之下,軟件對環(huán)境光化學(xué)降解性,陸生生物的生物積累性和急性毒性,免疫、神經(jīng)、生殖毒性,以及大部分毒代動(dòng)力學(xué)參數(shù)覆蓋較少。不同終點(diǎn)被覆蓋次數(shù)的差異,可能與法規(guī)對該終點(diǎn)的重視程度,對應(yīng)實(shí)驗(yàn)數(shù)據(jù)的數(shù)量和質(zhì)量,以及對終點(diǎn)相關(guān)機(jī)理的理解程度有關(guān)[13]。
表1 面向化學(xué)品風(fēng)險(xiǎn)預(yù)測的計(jì)算毒理學(xué)軟件Table 1 Computational toxicology software for chemical risk prediction
此外,EPI Suite、PBT Profiler中包含了Ⅲ級多介質(zhì)環(huán)境逸度模型,可結(jié)合環(huán)境參數(shù)、分配參數(shù)和降解參數(shù),預(yù)測物質(zhì)在環(huán)境各相中的半衰期,有助于評價(jià)物質(zhì)的總體環(huán)境持久性[17]。部分軟件的人體健康毒性相關(guān)終點(diǎn)中涵蓋了分子層級的毒性信號通路,如物質(zhì)與核受體(雌激素、雄激素和甲狀腺激素等)的結(jié)合能力(Danish QSAR Models, AdmetSAR2, ProTox Ⅱ等)、hERG通道抑制作用(ACD/Percepta, AdmetSAR2, CASE Ultra)等。這些終點(diǎn)對應(yīng)頂層毒性的分子起始事件(MIEs),可與有害結(jié)局路徑(AOP)框架結(jié)合,從毒性作用機(jī)理出發(fā)預(yù)測化學(xué)品潛在疾病風(fēng)險(xiǎn)[18]。
圖1 軟件涵蓋的預(yù)測終點(diǎn)注:A1-水溶解度;A2-正辛醇/水分配系數(shù)(Kow);A3-沸點(diǎn);A4-蒸汽壓;A5-熔點(diǎn);A6-正辛醇/空氣分配系數(shù)(Koa);A7-解離常數(shù);A8-亨利定律常數(shù);A9-有機(jī)碳吸附系數(shù)(Koc);A10-密度;A11-表面張力;A12-顆粒物/空氣分配系數(shù)(Kp);A13-黏度;A14-閃點(diǎn);A15-空氣/水分配系數(shù)(Kaw);A16-自燃點(diǎn);A17-極化度;A18-熱導(dǎo)率;A19-爆炸性;A20-氧化性;A21-可燃性;A22-脂溶性;B1-生物降解性;B2-生物富集因子(BCF);B3-水解性;B4-大氣氧化性;B5-生物轉(zhuǎn)化速率(魚);B6-環(huán)境相間分配;B7-生物積累因子(BAF);B8-各介質(zhì)內(nèi)半衰期;B9-光降解性;B10-生物放大因子(BMF);C1-水生生物物毒性;C2-陸生生物毒性;C3-微生物抑制作用;C4-沉積物生物毒性;D1-致突變性;D2-致癌性;D3-致敏性;D4-急性毒性;D5-皮膚刺激性/腐蝕性;D6-基因毒性;D7-眼損傷/刺激性;D8-發(fā)育毒性;D9-毒性信號通路;D10-肝毒性;D11-生殖毒性;D12-心臟毒性;D13-重復(fù)劑量毒性;D14-神經(jīng)毒性;D15-免疫毒性;D16-光致毒性;E1-代謝;E2-DNA/蛋白質(zhì)結(jié)合能力;E3-血腦屏障穿透性;E4-皮膚滲透性;E5-胃腸道吸收;E6-排泄。Fig.1 Prediction endpoints covered by the softwareNote: A1-Water solubility; A2-Octanol-water partition coefficient (Kow); A3-Boiling point; A4-Vapor pressure; A5-Melting point; A6-Octanol-air partition coefficient (Koa); A7-Dissociation constant; A8-Henry’s Law constant; A9-Organic carbon-sorption partition coefficient (Koc); A10-Density; A11-Surface tension; A12-Particle-gas partition (Kp); A13-Viscosity; A14-Flashpoint; A15-Air-water partition coefficient (Kaw); A16-Self-ignition point; A17-Polarizability; A18-Thermal conductivity; A19-Explosive properties; A20-Oxidizing properties; A21-Flammability; A22-Fat solubility; B1-Biodegradation; B2-Bioconcentration factor (BCF); B3-Hydrolysis; B4-Atmospheric oxidation; B5-Biotransformation; B6-Distribution between environmental compartments; B7-Bioaccumulation factor (BAF); B8-Half life in each medium; B9-Photodegradation; B10-Biomagnification factor (BMF); C1-Aquatic toxicity; C2-Terrestrial toxicity; C3-Microbial inhibition; C4-Sediment toxicity; D1-Mutagenicity; D2-Carcinogenicity; D3-Skin/respiratory sensitization; D4-Acute toxicity; D5-Skin irritation/corrosion; D6-Genotoxicity; D7-Eye damage/irritation; D8-Developmental toxicity; D9-Toxicological signal pathways; D10-Hepatotoxicity; D11-Reproductive toxicity; D12-Cardiotoxicity; D13-Repeated dose toxicity; D14-Neurotoxicity; D15-Immunotoxicity; D16-Photoinduced toxicity; E1-Metabolism; E2-DNA/protein binding; E3-Blood-brain barrier penetration; E4-Skin penetration; E5-Gastrointestinal absorption; E6-Excretion.
化學(xué)品的部分參數(shù)值如Kow和大氣氧化性等,與溫度、pH值等環(huán)境條件相關(guān)。多數(shù)軟件僅能預(yù)測單一環(huán)境條件下的參數(shù)值。在統(tǒng)計(jì)的軟件中,ACD/Percepta考慮了pH值對可解離化學(xué)品Kow值的影響,可預(yù)測化學(xué)品在pH從1到9時(shí)的Kow值。CPTP軟件可在用戶設(shè)定的環(huán)境溫度下,預(yù)測化學(xué)品與羥基自由基或臭氧的反應(yīng)速率常數(shù)。
軟件使用的預(yù)測方法、分子描述符和模型的應(yīng)用域表征方法共同構(gòu)成軟件的方法體系,是影響其預(yù)測機(jī)理透明度和結(jié)果可靠性的重要因素。
2.3.1 預(yù)測方法
統(tǒng)計(jì)的計(jì)算毒理學(xué)軟件中用到的預(yù)測手段可分為交叉參照(read-across, RA)、QSAR和專家系統(tǒng)3種(表2)。它們均基于“結(jié)構(gòu)相似的化合物往往具有相似活性”的相似性原理,但應(yīng)用于化學(xué)品管理時(shí)存在不同的優(yōu)勢和局限。
RA將化學(xué)品按相似性分組,再利用相似化合物的已知實(shí)驗(yàn)數(shù)據(jù)推測目標(biāo)物對應(yīng)的數(shù)據(jù)空缺,結(jié)果可靠性很大程度上取決于分組步驟的相似性判斷依據(jù)[19]。統(tǒng)計(jì)中以RA方法為主的軟件Toxmatch和OECD QSAR Toolbox都包含多種相似性度量方法。Toxmatch中包含了基于描述符的相似度指標(biāo),如Euclidean距離指數(shù)、Tanimoto和Hodgkin-Richards系數(shù),同時(shí)包含了基于結(jié)構(gòu)的相似度指標(biāo),如Tanimoto指數(shù)、Hellinger距離指數(shù)和最大公共子結(jié)構(gòu)(maximum common substructure, MCS),以及多個(gè)針對毒性預(yù)測的預(yù)定義分類方案。OECD QSAR Toolbox軟件支持用戶根據(jù)預(yù)測終點(diǎn)選用不同特征定義相似物質(zhì)并分組,包括了物質(zhì)結(jié)構(gòu)(特定結(jié)構(gòu)碎片、活性基團(tuán)、有機(jī)官能團(tuán)或化學(xué)元素)、理化性質(zhì)(性質(zhì)參數(shù)如logKow、分子量的數(shù)值范圍)、作用機(jī)制(警示結(jié)構(gòu))或毒理學(xué)效應(yīng)(與生物大分子相互作用的大小)等[20-21]。RA軟件不需要預(yù)先構(gòu)建模型,但要求用戶對與終點(diǎn)相關(guān)的機(jī)理有一定的認(rèn)識,更適合具有專業(yè)背景的人使用。
QSAR模型基于特定的原始數(shù)據(jù)集(訓(xùn)練集),建立物質(zhì)微觀結(jié)構(gòu)與其理化性質(zhì)/環(huán)境行為/毒理效應(yīng)參數(shù)的統(tǒng)計(jì)學(xué)關(guān)系,在化學(xué)品性質(zhì)預(yù)測中得到了廣泛的應(yīng)用[22]。在統(tǒng)計(jì)的軟件中,QSAR模型用到了多元線性回歸、偏最小二乘回歸、隨機(jī)森林、邏輯回歸、k近鄰學(xué)習(xí)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等統(tǒng)計(jì)學(xué)方法和機(jī)器學(xué)習(xí)算法構(gòu)建模型(表3)。訓(xùn)練集物質(zhì)在結(jié)構(gòu)或作用機(jī)制上的差異可能影響QSAR模型的預(yù)測性能。為了應(yīng)對這一問題,Lazar軟件將k近鄰學(xué)習(xí)與支持向量機(jī)結(jié)合,在預(yù)測時(shí)自動(dòng)篩選相似化合物作為訓(xùn)練集生成局部模型[23]。T.E.S.T.軟件中也包含一種類似的局部多元線性回歸模型[24]。UL’s Cheminformatics Tool Kit軟件使用的RASAR模型,利用相似度作為特征向量構(gòu)建隨機(jī)森林模型,也增加了個(gè)體預(yù)測結(jié)果的置信度[25]。
專家系統(tǒng)是使用規(guī)則預(yù)測物質(zhì)活性的方法,一般用到了“警示結(jié)構(gòu)(structure alerts, SAs)”的概念。SAs指與物質(zhì)毒性相關(guān)的化學(xué)結(jié)構(gòu)[26]。統(tǒng)計(jì)的專家系統(tǒng)軟件利用從文獻(xiàn)中獲取的專家知識(OncoLogic, Hazard Expert, Derek Nexus, Toxtree, Leadscope)或?qū)υ紨?shù)據(jù)集的統(tǒng)計(jì)分析(Case Ultra),構(gòu)建闡明SAs與毒性關(guān)系的規(guī)則模型。基于引發(fā)活性的SAs建模,導(dǎo)致大部分專家系統(tǒng)難以識別非活性化合物,容易給出假陽性預(yù)測,因此在化學(xué)品風(fēng)險(xiǎn)評價(jià)中不能用于給出結(jié)論性的毒性預(yù)測,但可在化學(xué)品風(fēng)險(xiǎn)的分層評價(jià)策略中用于篩查毒性潛力,確定需優(yōu)先進(jìn)行invitro測試的化合物[27]。除此之外,專家系統(tǒng)還可應(yīng)用于RA,基于毒性作用機(jī)制進(jìn)行物質(zhì)分組;可與QSAR模型結(jié)合使用,進(jìn)行模型的機(jī)理域表征,但這一功能在統(tǒng)計(jì)的軟件中沒有得到應(yīng)用。
表2 軟件的預(yù)測手段Table 2 Prediction approaches of software
2.3.2 分子描述符類型
分子描述符是關(guān)聯(lián)分子結(jié)構(gòu)與活性的重要媒介,是QSAR建模的核心。統(tǒng)計(jì)的軟件普遍使用易于獲取和計(jì)算的分子性質(zhì)、組成、拓?fù)涿枋龇蚍肿又讣y表征分子特征(表4)。其中,分子性質(zhì)為分子的理化參數(shù),如正辛醇/水分配系數(shù)、水溶解度、分子量等,可通過實(shí)驗(yàn)或計(jì)算方式獲取;組成描述符反映分子的化學(xué)成分,包括原子、鍵、環(huán)或結(jié)構(gòu)片段的數(shù)量等;拓?fù)涿枋龇诒碚鞣肿訄D的矩陣計(jì)算獲得,編碼關(guān)于原子排列和連通性的信息[28-29];分子指紋是通過構(gòu)造布爾或整型向量,描述子結(jié)構(gòu)或碎片模式存在與否的分子結(jié)構(gòu)表征方式,常用于化合物相似性搜索、聚類和分類[30]。相比之下,基于分子立體結(jié)構(gòu)計(jì)算的描述符,如幾何描述符、量化描述符,由于涉及復(fù)雜的構(gòu)象優(yōu)化過程,在軟件中應(yīng)用較少。其中,幾何描述符可表征分子三維構(gòu)象信息,能更深層次地闡釋分子結(jié)構(gòu)特征[28];量化描述符呈現(xiàn)分子的電子結(jié)構(gòu)與能量信息,物理意義明確,可解釋性強(qiáng),適用于光解、大氣降解、氧化還原等化學(xué)反應(yīng)性主導(dǎo)的終點(diǎn)的預(yù)測[31],在未來有較大的應(yīng)用潛力。
2.3.3 應(yīng)用域表征方法
QSAR和專家系統(tǒng)模型都僅在一定的化學(xué)空間內(nèi)適用,該空間被稱為應(yīng)用域[22]。部分軟件能給出預(yù)測是否在應(yīng)用域內(nèi)的提示,以幫助用戶評估預(yù)測結(jié)果的可靠性。
統(tǒng)計(jì)中的部分軟件采用基于描述符空間范圍(描述符域)或/和目標(biāo)物與訓(xùn)練集化合物的結(jié)構(gòu)相似性(結(jié)構(gòu)域)的方法表征模型應(yīng)用域[32]。其中,軟件采用的描述符域表征方法普遍為考察描述符取值范圍,OPERA和CPTP軟件采用了基于杠桿值計(jì)算目標(biāo)物與訓(xùn)練集在描述符空間中的距離的方法[33-34]。軟件的結(jié)構(gòu)域表征方法主要為計(jì)算結(jié)構(gòu)相似性指數(shù),如Tanimoto系數(shù)。EPI Suite、BIOVIA和VEGA采用了篩查比對訓(xùn)練集與目標(biāo)物結(jié)構(gòu)特征的方法,當(dāng)目標(biāo)物中出現(xiàn)訓(xùn)練集未包括的子結(jié)構(gòu)時(shí),判斷為在模型結(jié)構(gòu)域外(表5)。對于宏觀毒性效應(yīng),分子結(jié)構(gòu)細(xì)微的變化也可能引起活性的突變[28],致使前2種應(yīng)用域表征方法無法保證預(yù)測的可靠性。ACD/Percepta、T.E.S.T.和VEGA可通過考察模型對相似物的預(yù)測性能識別這種情況,隱含了對模型機(jī)理域的考慮[35]。
表3 軟件中QSAR模型使用的建模方法Table 3 Modeling techniques used by QSAR models in software
早期的專家系統(tǒng)軟件大多以引發(fā)SAs作為預(yù)測在應(yīng)用域內(nèi)的判斷依據(jù)。但警示結(jié)構(gòu)也只有在特定的化學(xué)結(jié)構(gòu)空間內(nèi)才有效,導(dǎo)致模型常給出假陽性的預(yù)測。Derek、OECD QSAR Toolbox和Case Ultra軟件中通過加入判斷警示結(jié)構(gòu)應(yīng)用域的方法,增強(qiáng)了模型的預(yù)測性能[36-38]。
2.4.1 軟件功能
統(tǒng)計(jì)的軟件都支持多種輸入形式,具有將CAS號或分子平面圖轉(zhuǎn)換為簡化分子線性輸入規(guī)范(simplified molecular input line entry system, SMILES)的功能。部分軟件允許以不同形式的文件下載預(yù)測結(jié)果。其中,OECD QSAR Toolbox能生成符合歐洲化學(xué)品管理局(ECHA)官方要求的結(jié)論報(bào)告,直接用于物質(zhì)申報(bào)。部分軟件能實(shí)現(xiàn)化合物的批量處理和多終點(diǎn)預(yù)測,提高了軟件使用效率(表6)。
除了基本的預(yù)測功能外,部分軟件還包含了特殊功能,進(jìn)一步提升軟件結(jié)果科學(xué)性、用戶友好度、或滿足用戶多方面的需求。Danish QSAR Database/Models和AdmetSAR 2提供了數(shù)據(jù)庫查詢功能,AdmetSAR 2還能輔助用戶進(jìn)行分子優(yōu)化,拓展了其在化學(xué)品研發(fā)中的應(yīng)用。基于警示結(jié)構(gòu)的專家系統(tǒng)軟件Toxtree支持用戶對軟件中的決策樹進(jìn)行查詢和修改,并擁有自定義決策樹的功能。利用RA進(jìn)行預(yù)測的OECD QSAR Toolbox軟件,由物質(zhì)識別、物質(zhì)分析、物質(zhì)分類、數(shù)據(jù)收集、預(yù)測和報(bào)告六大模塊構(gòu)成了一套可供用戶自主操作的工作流程,允許用戶自選數(shù)據(jù)庫、相似性判斷依據(jù)和數(shù)據(jù)填充方法,還支持人為替換趨勢分析公式中的自變量,為具有專業(yè)背景的用戶提供更好的服務(wù)。
表4 軟件使用的分子描述符Table 4 Molecular descriptors used in the software
表5 應(yīng)用域表征方法Table 5 Methods used to characterize the applicability domain
表6 軟件功能比較Table 6 Comparison of software functions
2.4.2 軟件的信息完整度
面向化學(xué)品風(fēng)險(xiǎn)評價(jià)的計(jì)算毒理學(xué)軟件作為管理中的決策支持工具,有必要對使用的模型和預(yù)測結(jié)果不確定性提供詳細(xì)的信息,以幫助用戶對模型有效性和預(yù)測結(jié)果可靠性進(jìn)行評估。12款可免費(fèi)獲取的軟件提供信息的情況如表7所示。
研究以O(shè)ECD的QSAR驗(yàn)證導(dǎo)則為依據(jù),考察各軟件的模型信息完整度。根據(jù)導(dǎo)則對用于管理活動(dòng)的QSAR模型的要求,軟件應(yīng)對其使用的QSAR模型同時(shí)提供明確定義的預(yù)測終點(diǎn)、明確的算法、模型應(yīng)用域、模型性能的度量以及盡可能提供模型的機(jī)理解釋[14]。另外,考慮到建模數(shù)據(jù)質(zhì)量和數(shù)量對模型性能的影響[39],是否提供建模原始數(shù)據(jù)也被納入考察范圍。統(tǒng)計(jì)中,EPI Suite、VEGA、OECD QSAR Toolbox包含模型信息較為完整,但部分軟件存在信息的缺失,可能限制其在管理中的實(shí)際應(yīng)用。軟件可通過給出應(yīng)用域評估、目標(biāo)物實(shí)驗(yàn)值及類似物數(shù)據(jù),幫助用戶評估預(yù)測結(jié)果的不確定性。統(tǒng)計(jì)中,OECD QSAR Toolbox、T.E.S.T.、Lazar、VEGA和OPERA同時(shí)給出了這3種信息,EPI Suite、Toxtree、OncoLogic、AdmetSAR 2和CPTP軟件給出相關(guān)信息較少。此外,部分軟件通過提供開發(fā)背景信息發(fā)揮軟件的科普功能,通過提供用戶手冊或界面操作提示等方式掃除用戶的使用障礙,增強(qiáng)了軟件對非專業(yè)用戶的友好度。
2.4.3 QSAR軟件預(yù)測準(zhǔn)確度比較
表8統(tǒng)計(jì)了7款軟件中具有代表性的QSAR模型的預(yù)測性能指標(biāo)。在回歸模型中,各軟件的正辛醇/水分配系數(shù)和生物富集因子模型對驗(yàn)證集和測試集的R2均在0.8左右,具有較好的預(yù)測能力,然而魚類急性毒性模型的R2均在0.7以下,預(yù)測性能相對較低。各軟件中生物降解性和致突變性2種分類模型的準(zhǔn)確度均在0.8左右,具有較好的分類效果。
將軟件對“百菌清”3個(gè)終點(diǎn)(endpoint)的預(yù)測結(jié)果與實(shí)驗(yàn)值比較(表9),各軟件對LC50的預(yù)測結(jié)果差異大且均與文獻(xiàn)值有較大差距,表明上述軟件對水生生物毒性的預(yù)測性能有待提高。正辛醇水分配系數(shù)(logKow)和生物富集因子(logBCF)的預(yù)測值與實(shí)驗(yàn)值接近,其中CPTP對logKow的預(yù)測值和EPI Suite、VEGA對logBCF的預(yù)測與實(shí)驗(yàn)值最接近。
綜合用戶友好度、終點(diǎn)覆蓋數(shù)量、信息全面度和軟件功能對實(shí)際操作的12款軟件進(jìn)行評價(jià),推薦目前在化學(xué)品管理中可使用EPI Suite、VEGA和OECD QSAR Toolbox軟件。這3款軟件都具有操作簡單、界面友好、覆蓋終點(diǎn)數(shù)量較多、模型信息全面的特點(diǎn)。其中EPI Suite和VEGA軟件可實(shí)現(xiàn)批量預(yù)測和多終點(diǎn)同時(shí)預(yù)測,適合輔助監(jiān)管機(jī)構(gòu)開展大量化學(xué)品的風(fēng)險(xiǎn)評價(jià);OECD QSAR Toolbox具有極高操作自由度,可提供詳細(xì)的預(yù)測報(bào)告,適合輔助企業(yè)的化學(xué)品注冊登記時(shí)所需的信息申報(bào)。
根據(jù)統(tǒng)計(jì)分析,所搜集的軟件在預(yù)測終點(diǎn)覆蓋度、預(yù)測結(jié)果可靠性、應(yīng)用方法先進(jìn)性和實(shí)用性等方面仍存在局限。軟件對部分值得關(guān)注的終點(diǎn),如環(huán)境光化學(xué)降解性、陸生生物積累性的覆蓋較少,對不同終點(diǎn)的預(yù)測性能存在差異,且大多未能考慮環(huán)境條件對性質(zhì)參數(shù)的影響。統(tǒng)計(jì)軟件中對三維分子描述符及復(fù)雜模型算法,如深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用較少,未能發(fā)揮新興建模技術(shù)在大數(shù)據(jù)分析和預(yù)測性能提升方面的應(yīng)用潛力[40-41]。未來應(yīng)逐漸擴(kuò)充軟件的預(yù)測終點(diǎn),積累高質(zhì)量的數(shù)據(jù)資源作為建模原始數(shù)據(jù),擴(kuò)增軟件對三維描述符的運(yùn)算和存儲(chǔ)功能,并將深度神經(jīng)網(wǎng)絡(luò)等先進(jìn)方法應(yīng)用于軟件模型的構(gòu)建,以提升軟件的預(yù)測性能,并擴(kuò)大其應(yīng)用范圍。此外,還應(yīng)保證軟件的用戶友好度和信息完整度,以引導(dǎo)公眾探索興趣,增強(qiáng)專業(yè)用戶使用信心,以及支持化學(xué)品管理決策。
在功能方面,軟件可支持用戶發(fā)展自定義的預(yù)測模型,還可提供數(shù)據(jù)查詢等拓展功能,以滿足用戶多方面的需求。可將多介質(zhì)環(huán)境模型、毒代動(dòng)力學(xué)模型和系統(tǒng)生物學(xué)模型等納入軟件的模型體系,結(jié)合軟件的參數(shù)預(yù)測功能,實(shí)現(xiàn)對化學(xué)品從暴露到導(dǎo)致危害效應(yīng)連續(xù)過程的模擬預(yù)測。另外,除了作為性質(zhì)預(yù)測工具,計(jì)算毒理學(xué)軟件還可納入集成評估框架和決策分析工具,形成集預(yù)測、評估和決策分析于一體的智能決策支持系統(tǒng),在未來的化學(xué)品管理活動(dòng)中發(fā)揮更大的作用。
表7 軟件信息完整度比較Table 7 Comparison of software information comprehensiveness
表8 軟件中代表性QSAR模型的預(yù)測性能Table 8 Predictive performance of representative QSAR models in the software
表9 百菌清代表性終點(diǎn)的實(shí)驗(yàn)值和預(yù)測值比較Table 9 Comparison of experimental and predicted values of the representative endpoints of chlorothalonil
歐美國家較早開始重視計(jì)算毒理學(xué)工具在化學(xué)品風(fēng)險(xiǎn)管理中的應(yīng)用,在法規(guī)層面上將其納入化學(xué)品風(fēng)險(xiǎn)評價(jià)的方法體系,并通過社會(huì)各界合作交流促進(jìn)了信息共享和多學(xué)科的融合,為計(jì)算毒理學(xué)軟件的開發(fā)創(chuàng)造了良好的條件。這些軟件又為歐美國家的化學(xué)品管理提供了信息化技術(shù)支持。與國外相比,我國的計(jì)算毒理學(xué)研究還處于起步階段,相關(guān)技術(shù)的應(yīng)用潛力未能得到充分發(fā)揮。近年來,我國的化學(xué)品生產(chǎn)規(guī)模不斷擴(kuò)大,化學(xué)品管理任務(wù)日益艱巨,因此急需借鑒美國和歐盟的成功經(jīng)驗(yàn),推進(jìn)計(jì)算毒理學(xué)研究和預(yù)測工具的開發(fā)和應(yīng)用,以輔助化學(xué)品風(fēng)險(xiǎn)評價(jià)和管理工作的開展。結(jié)合我國的實(shí)際情況,提出以下幾點(diǎn)建議。
(1)健全我國化學(xué)品管理法規(guī),形成對新化學(xué)物質(zhì)和市場現(xiàn)有化學(xué)品的全面風(fēng)險(xiǎn)管理,增加化學(xué)品管理中應(yīng)用計(jì)算毒理學(xué)技術(shù)的需求。
(2)制定化學(xué)品風(fēng)險(xiǎn)預(yù)測技術(shù)方法規(guī)范和導(dǎo)則,指導(dǎo)實(shí)用性預(yù)測工具的開發(fā)與應(yīng)用。
(3)加強(qiáng)交叉學(xué)科人才培養(yǎng)及多學(xué)科合作交流平臺(tái)的搭建,推動(dòng)計(jì)算毒理學(xué)研究團(tuán)隊(duì)的組建與發(fā)展。
(4)加強(qiáng)學(xué)術(shù)界與政府、企業(yè)的合作。政府通過政策和資金方面的支持,鼓勵(lì)高校及科研機(jī)構(gòu)面向國家化學(xué)品管理與相關(guān)企業(yè)進(jìn)行化學(xué)品注冊登記、綠色設(shè)計(jì)等需求,有針對性、系統(tǒng)性地進(jìn)行計(jì)算毒理學(xué)研究及相關(guān)實(shí)用工具的研發(fā)。
(5)加強(qiáng)社會(huì)各界及化學(xué)品管理機(jī)構(gòu)之間的信息共享,探索數(shù)據(jù)持有者與模型開發(fā)者的數(shù)據(jù)共享的機(jī)制,鼓勵(lì)研究機(jī)構(gòu)搭建大型的模型庫或模型網(wǎng)絡(luò)共享平臺(tái),為軟件開發(fā)積累數(shù)據(jù)和模型資源。
通訊作者簡介:傅志強(qiáng)(1989—),男,博士,主要研究方向?yàn)榄h(huán)境新污染物的代謝轉(zhuǎn)化行為及毒理效應(yīng)的模擬預(yù)測。