滕躍發(fā),王曉晴,李斐,吳惠豐,吉成龍,于進(jìn)福
1. 中國(guó)科學(xué)院海岸帶環(huán)境過程與生態(tài)修復(fù)重點(diǎn)實(shí)驗(yàn)室(煙臺(tái)海岸帶研究所),山東省海岸帶環(huán)境過程重點(diǎn)實(shí)驗(yàn)室,中國(guó)科學(xué)院煙臺(tái)海岸帶研究所,煙臺(tái) 264003 2. 煙臺(tái)職業(yè)學(xué)院網(wǎng)絡(luò)中心,煙臺(tái) 264670 3. 中國(guó)科學(xué)院大學(xué),北京 100049 4. 中國(guó)科學(xué)院海洋大科學(xué)研究中心,青島 266071
截至2020年12月21日,美國(guó)化學(xué)文摘社(www.cas.org)已經(jīng)登記了1.55億余種化合物,包括合金、配位化合物、礦物質(zhì)、混合物、聚合物和鹽等,并且還以每天1.5萬余種的速度增加[1]。目前,以動(dòng)物實(shí)驗(yàn)為主的化學(xué)品環(huán)境風(fēng)險(xiǎn)評(píng)估效率,還遠(yuǎn)不能滿足大量進(jìn)入市場(chǎng)的新化學(xué)品環(huán)境風(fēng)險(xiǎn)測(cè)評(píng)的需求。據(jù)統(tǒng)計(jì),全世界平均每年動(dòng)物實(shí)驗(yàn)花費(fèi)近140億美元,其中30億用于毒理學(xué)實(shí)驗(yàn)[2]。而且,進(jìn)入環(huán)境的日常使用化學(xué)品數(shù)目已經(jīng)超過10萬種,測(cè)試一個(gè)化合物毒性的平均周期為3.5年[2],如果逐一檢測(cè)這些化學(xué)品的毒性,需要消耗大量的時(shí)間和金錢。定量結(jié)構(gòu)-活性關(guān)系(quantitative structure-activity relationship, QSAR)模型可為化學(xué)品的暴露和效應(yīng)模擬提供大量的基礎(chǔ)參數(shù)[3]。目前,基于QSAR模型開發(fā)了許多毒性預(yù)測(cè)軟件,例如EPI suite[4]、QSAR Toolbox[5]和ECOSAR[6]等,并且隨著數(shù)據(jù)集的不斷擴(kuò)大,預(yù)測(cè)精度和應(yīng)用域也在不斷提升。
2008年,美國(guó)國(guó)家環(huán)境衛(wèi)生科學(xué)研究所(NIEHS)、美國(guó)國(guó)家衛(wèi)生院(NIH)和美國(guó)環(huán)境保護(hù)局(US EPA)簽訂了《高通量篩選、毒性途徑分析和生物學(xué)解釋》[7],正式開展Tox21計(jì)劃。Tox21計(jì)劃的毒性測(cè)試策略,由傳統(tǒng)的以整體動(dòng)物(invivo)為基礎(chǔ)的毒性測(cè)試體系轉(zhuǎn)向基于人源細(xì)胞系或細(xì)胞組分的體外測(cè)試體系(invitro),通過分析化合物暴露后細(xì)胞或細(xì)胞組分的變化,探究化合物對(duì)生物學(xué)基本過程的影響,大大提高了毒性測(cè)試的速度[8]。目前,Tox21已經(jīng)完成了第二階段工作,完成了1萬多種化學(xué)品的篩選,并在PubChem等公共平臺(tái)上實(shí)現(xiàn)了數(shù)據(jù)共享[2]。
Tox21計(jì)劃的順利實(shí)施使得毒性數(shù)據(jù)迅速增長(zhǎng),數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的快速發(fā)展為計(jì)算毒理學(xué)提供了機(jī)遇和挑戰(zhàn)。計(jì)算毒理學(xué)通過運(yùn)用計(jì)算化學(xué)、生物信息學(xué)和系統(tǒng)生物學(xué)的跨學(xué)科知識(shí),構(gòu)建insilico模型,以實(shí)現(xiàn)化學(xué)品環(huán)境暴露、危害與風(fēng)險(xiǎn)的高效模擬,從而確定化學(xué)物質(zhì)的潛在危害,減輕高通量化合物評(píng)估的壓力[9]。計(jì)算毒理學(xué)在通量、成本和對(duì)化合物的可擴(kuò)展性方面具有無可比擬的優(yōu)勢(shì)。目前的研究主要包含3個(gè)方面[10]:(1) 通過對(duì)高通量體外測(cè)試體系的數(shù)據(jù)挖掘,構(gòu)建污染物影響復(fù)雜生命體和環(huán)境的相關(guān)知識(shí)庫(kù);(2) 通過蛋白質(zhì)組學(xué)、轉(zhuǎn)錄組學(xué)、基因組學(xué)和代謝組學(xué)等相互作用網(wǎng)絡(luò)的構(gòu)建,結(jié)合計(jì)算機(jī)模擬等手段闡明污染物的致毒機(jī)制;(3) 建立具有預(yù)測(cè)功能的綜合毒理學(xué)模型,以定量和全面地評(píng)估化合物的安全性。
2010年,Ankley等[11]提出了有害結(jié)局路徑(adverse outcome pathway, AOP)框架,進(jìn)一步闡述了毒性作用機(jī)制、毒性通路和生物學(xué)網(wǎng)絡(luò)的含義。它假設(shè)外源物質(zhì)與生物系統(tǒng)的初始相互作用作為分子起始事件(molecular initiating event, MIE),通過細(xì)胞信號(hào)傳導(dǎo)等一系列關(guān)鍵事件(key events, KE),導(dǎo)致最終的有害結(jié)局(adverse outcome, AO)。AOP開發(fā)的模型涵蓋了一系列毒性終點(diǎn)和化學(xué)品,包括納米顆粒[12]和微塑料[13]等新型污染物。此外,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展為AOP框架提供了新的思路[14]。在大數(shù)據(jù)的時(shí)代背景下,AOP可以幫助識(shí)別風(fēng)險(xiǎn)評(píng)估中的關(guān)鍵信息,從而確定監(jiān)管關(guān)注的重點(diǎn),提高決策的效率(圖1)。
確定MIE對(duì)發(fā)展AOP框架尤為重要。分子模擬能夠從機(jī)理上解釋實(shí)驗(yàn)現(xiàn)象,輔助化學(xué)品的風(fēng)險(xiǎn)評(píng)價(jià)工作,建立insilico預(yù)篩的優(yōu)先化學(xué)品清單,有潛力闡明關(guān)鍵的MIE?;瘜W(xué)品在觸發(fā)MIE之后,會(huì)進(jìn)一步激活細(xì)胞信號(hào)傳導(dǎo)等一系列關(guān)鍵事件。隨著高通量測(cè)序技術(shù)和多組學(xué)技術(shù)(基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)等)的不斷進(jìn)步,海量數(shù)據(jù)應(yīng)運(yùn)而生。面向多維度、多粒度和海量龐雜的各種組學(xué)數(shù)據(jù),生物信息學(xué)作為一種分析和研究的手段發(fā)揮了不可替代的作用。生物信息學(xué)可通過網(wǎng)絡(luò)模型來映射細(xì)胞生化組分的關(guān)系,例如DNA序列與轉(zhuǎn)錄獲得的RNA或翻譯得到的蛋白質(zhì)之間的關(guān)系。由此產(chǎn)生的相互作用網(wǎng)絡(luò),在下游相關(guān)KE和AO的確定中發(fā)揮了重要作用。
圖1 毒理學(xué)評(píng)估的整體框架Fig. 1 The overview of comprehensive toxicological assessment
目前,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)在毒理學(xué)中的研究日益增多,AOP也迅速發(fā)展。在Web of Science數(shù)據(jù)庫(kù)中輸入關(guān)鍵詞“machine learning toxicology or data mining toxicology”獲取近10年來數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)在毒理學(xué)領(lǐng)域的文章發(fā)表數(shù)量;輸入關(guān)鍵詞“adverse outcome pathway”獲取AOP文章的發(fā)表數(shù)量(圖2)。因此本文在闡明數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的基礎(chǔ)上,結(jié)合AOP框架對(duì)計(jì)算毒理學(xué)發(fā)展現(xiàn)狀進(jìn)行了進(jìn)一步總結(jié)。第1節(jié)對(duì)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘進(jìn)行了簡(jiǎn)要的概述;第2~4節(jié)分別介紹了QSAR模型、分子模擬和組學(xué)在毒理學(xué)中的應(yīng)用;最后針對(duì)當(dāng)前研究的不足提出了幾條針對(duì)性建議,以更好地適應(yīng)當(dāng)前大數(shù)據(jù)時(shí)代的研究背景。
圖2 近10年毒理學(xué)領(lǐng)域有害結(jié)局路徑(AOP)與數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的文獻(xiàn)發(fā)表情況Fig. 2 Publication of data mining, machine learning and adverse outcome pathway (AOP) in the field of toxicology in the past ten years
機(jī)器學(xué)習(xí)能從大數(shù)據(jù)集中提取復(fù)雜的模式和關(guān)系,以預(yù)測(cè)數(shù)據(jù)的特定屬性[15]。經(jīng)典統(tǒng)計(jì)建模方法一直是生物數(shù)據(jù)分析及其解釋的標(biāo)準(zhǔn)選擇。近年來,隨著人工智能技術(shù)的日益普及和高通量數(shù)據(jù)的不斷生成,機(jī)器學(xué)習(xí)在毒理學(xué)和健康風(fēng)險(xiǎn)領(lǐng)域也逐漸得到廣泛關(guān)注[16]。傳統(tǒng)模型通常是基于統(tǒng)計(jì)假設(shè)開發(fā),相比之下機(jī)器學(xué)習(xí)可以挖掘隱藏在實(shí)驗(yàn)數(shù)據(jù)中的信息[17]。機(jī)器學(xué)習(xí)主要分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)[18]和強(qiáng)化學(xué)習(xí)[19]。監(jiān)督學(xué)習(xí)通過學(xué)習(xí)已有自變量和因變量的對(duì)應(yīng)關(guān)系,推斷出其他數(shù)據(jù)的功能,常用的算法包括支持向量機(jī)、決策樹和線性回歸等;無監(jiān)督學(xué)習(xí)僅獲取數(shù)據(jù)中的一組輸入,并在數(shù)據(jù)中尋找共性,例如數(shù)據(jù)的聚類,常用的算法有K-means和DBSCAN;強(qiáng)化學(xué)習(xí)主要用于描述和解決智能體在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問題。在毒理學(xué)領(lǐng)域,研究人員使用各種計(jì)算方法開發(fā)了許多毒性預(yù)測(cè)模型(如支持向量機(jī)[20]、隨機(jī)森林[21]、貝葉斯網(wǎng)絡(luò)[22]和神經(jīng)網(wǎng)絡(luò)[23]等),在致癌性、致突變性和肝毒性等毒性終點(diǎn)方面也取得了重大進(jìn)展。
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)相輔相成,是從大型數(shù)據(jù)庫(kù)中提取有價(jià)值信息并且發(fā)現(xiàn)新科學(xué)規(guī)律的過程[24]。數(shù)據(jù)挖掘任務(wù)要求研究人員對(duì)數(shù)據(jù)足夠熟悉,以更好地對(duì)數(shù)據(jù)進(jìn)行處理,達(dá)成應(yīng)有的效果。毒性預(yù)測(cè)的準(zhǔn)確性與數(shù)據(jù)質(zhì)量和數(shù)量息息相關(guān)。在過去的幾年中,廣泛的數(shù)據(jù)收集已經(jīng)建立了一些常用的毒性數(shù)據(jù)庫(kù)。表1提供了常用數(shù)據(jù)源及其描述。
QSAR主要包含分類模型和回歸模型。分類模型根據(jù)正負(fù)類毒性的信息空間,構(gòu)建數(shù)學(xué)模型對(duì)未知化合物進(jìn)行毒性分類;回歸模型可以預(yù)測(cè)單一的毒性值[33]。傳統(tǒng)QSAR模型往往針對(duì)單一毒性終點(diǎn)進(jìn)行構(gòu)建,難以解決復(fù)雜的毒性機(jī)制。AOP的提出把污染物毒性按照機(jī)制進(jìn)行描述和分類,克服了傳統(tǒng)QSAR的關(guān)鍵難題,整合了孤立的單一毒性終點(diǎn)。在分子層面,可選擇不同受體的結(jié)合活性開發(fā)QSAR模型,例如過氧化物酶體增殖物激活受體γ(PPARγ)、雌激素受體(ER)和雄激素受體(AR)等;在細(xì)胞層面,可針對(duì)細(xì)胞活性和細(xì)胞增殖等毒性終點(diǎn)構(gòu)建相應(yīng)的QSAR模型;在個(gè)體層面,可針對(duì)發(fā)育毒性、致死濃度等毒性終點(diǎn)開發(fā)相應(yīng)的QSAR模型。
自Tox21計(jì)劃實(shí)施以來,高通量數(shù)據(jù)集已成為數(shù)據(jù)挖掘任務(wù)的主要來源,它提高了模型的應(yīng)用范圍,有利于更大范圍的化學(xué)品評(píng)估工作。例如,Tang等[34]利用Tox21高通量數(shù)據(jù)集和5種機(jī)器學(xué)習(xí)算法構(gòu)建了QSAR分類模型。在進(jìn)行數(shù)據(jù)預(yù)處理之后,作者篩選了4 811個(gè)數(shù)據(jù)點(diǎn)進(jìn)行建模,將可預(yù)測(cè)化學(xué)品的領(lǐng)域擴(kuò)展到殺蟲劑、市售藥品和商業(yè)化合物等,獲得的最佳模型在十倍交叉驗(yàn)證和外部驗(yàn)證中的正確分類率達(dá)到了81.8%和88.3%,充分展現(xiàn)出模型的預(yù)測(cè)性能,提高了模型的應(yīng)用域。此外,Capuzzi等[35]使用隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)和各種描述符建立了高通量篩選的12種核受體信號(hào)通路的QSAR模型。結(jié)果表明,在平衡數(shù)據(jù)集后,模型平衡準(zhǔn)確度在58%和82%之間??傊S著對(duì)高通量數(shù)據(jù)集研究的深入,未來毒性預(yù)測(cè)的質(zhì)量也將不斷提高。
盡管高通量篩選技術(shù)極大地提高了毒性數(shù)據(jù)質(zhì)量和效率,但目前的Tox21檢測(cè)獲得的數(shù)據(jù)仍然有限。為完善AOP的構(gòu)建,前人針對(duì)其他數(shù)據(jù)庫(kù)展開了深入的挖掘。ECOTOX數(shù)據(jù)庫(kù)提供了有關(guān)化學(xué)品對(duì)水生和陸生物種的毒性信息,合計(jì)超過400多萬條測(cè)試記錄。Cao等[36]基于ECOTOX數(shù)據(jù)庫(kù)選取了824種化合物,結(jié)合6種機(jī)器學(xué)習(xí)方法與7種類型的分子指紋,開發(fā)了一系列QSAR模型。最佳模型外部驗(yàn)證集精度達(dá)到了0.87。Vegosen和Martin等[37]從新西蘭環(huán)境保護(hù)機(jī)構(gòu)、ACTOR數(shù)據(jù)庫(kù)、ECHA數(shù)據(jù)庫(kù)和TEST數(shù)據(jù)庫(kù)中獲取了85 000種化學(xué)品的信息,涉及急性口服毒性、急性吸入毒性和發(fā)育毒性等毒性終點(diǎn),通過QSAR模型將所得化學(xué)品分為5級(jí),完善了在個(gè)體層面的毒性風(fēng)險(xiǎn)評(píng)估。
表1 常用的毒性數(shù)據(jù)庫(kù)及其描述Table 1 Toxicity database and its description
此外,在增強(qiáng)模型的可解釋性上,前人亦做了深入探索。在大多數(shù)機(jī)器學(xué)習(xí)研究中,對(duì)可解釋性的探索通常停留在揭示特征的重要性上,而忽略了多個(gè)特征聯(lián)合作用下的關(guān)系。并且傳統(tǒng)基于決策樹的特征重要性評(píng)估往往取決于單一指標(biāo),所獲得的結(jié)果可能與經(jīng)驗(yàn)值大相徑庭。為了解決此問題,Yu等[38]提出了一種隨機(jī)森林特征重要性和特征交互網(wǎng)絡(luò)分析框架,該框架通過多因素分析克服了小數(shù)據(jù)集引發(fā)的特征重要性偏差,并根據(jù)新的特征重要性排名建立了特征交互網(wǎng)絡(luò),提高了模型的可解釋性,揭示了隱藏的交互因素對(duì)納米材料毒性的影響。
發(fā)掘污染物與生物分子間的相互作用的關(guān)系網(wǎng)絡(luò),探索分子作用的靶點(diǎn)和解析關(guān)鍵毒性通路,有助于評(píng)估污染物的生態(tài)風(fēng)險(xiǎn)性。錨定毒性作用的MIE是鏈接污染物AOP的關(guān)鍵環(huán)節(jié),是協(xié)助構(gòu)建AOP和完善毒性風(fēng)險(xiǎn)評(píng)估的基礎(chǔ)。目前的實(shí)驗(yàn)儀器不完全具備觀測(cè)微觀分子原子運(yùn)動(dòng)過程的時(shí)空分辨率,而這些過程卻蘊(yùn)含了關(guān)鍵的機(jī)理。分子模擬作為計(jì)算毒理學(xué)中的一項(xiàng)新興技術(shù),可在分子尺度上構(gòu)建化合物-生物大分子靶標(biāo)的分子模擬模型,有助于探索分子水平的微觀機(jī)理[39]。分子模擬的計(jì)算方法主要包括分子對(duì)接[40]和分子動(dòng)力學(xué)[41]等。分子對(duì)接通過靶標(biāo)和化學(xué)品之間能量匹配和空間匹配等實(shí)現(xiàn)相互識(shí)別,有利于分子間相互作用的快速評(píng)價(jià);分子動(dòng)力學(xué)是在牛頓力學(xué)的基礎(chǔ)上描述分子運(yùn)動(dòng)時(shí)間演化的方法,屬于經(jīng)典力學(xué)的范疇,主要應(yīng)用于蛋白質(zhì)變換、通路機(jī)制分析以及小分子識(shí)別。
核受體是需要與配體結(jié)合后激活的一類轉(zhuǎn)錄因子,可調(diào)節(jié)與生物體發(fā)育和代謝控制相關(guān)的基因表達(dá),經(jīng)常作為AOP中的MIE,因此探究核受體的分子機(jī)制尤其關(guān)鍵。Li等[42]利用分子對(duì)接研究了不同條件下全氟烷基物質(zhì)(PFASs)與雌激素受體(ER)蛋白的結(jié)合方式。結(jié)果表明,所有測(cè)試的PFASs均能結(jié)合在ER的表面域中,影響了ER與其他活化因子的結(jié)合。Xue等[43]通過數(shù)據(jù)挖掘與分子動(dòng)力學(xué)相結(jié)合的方法,將ER與60個(gè)警示結(jié)構(gòu)進(jìn)行了模擬。結(jié)果顯示,大部分警示結(jié)構(gòu)都通過氫鍵或范德華力結(jié)合在ER的口袋兩端并與氨基酸相互作用影響其表面構(gòu)象,從而影響其活性。Cao等[44]利用分子對(duì)接和分子動(dòng)力學(xué)模擬闡述全氟辛酸(PFOA)和全氟辛烷磺?;衔?PFOS)與ER結(jié)合特性,結(jié)果表明,PFOA和PFOS受到關(guān)鍵殘基His524的質(zhì)子化狀態(tài)的調(diào)節(jié)。在亞酸性條件下,PFOA和PFOS更喜歡與質(zhì)子化的His524形成氫鍵相互作用,從而導(dǎo)致共激活因子募集和轉(zhuǎn)錄激活。de Araujo等[45]將高親和力配體與甲狀腺激素受體(TR)的配體結(jié)合域?qū)?,隨后進(jìn)行分子動(dòng)力學(xué)模擬,獲得了幾種配體-復(fù)合物的結(jié)構(gòu)模型。結(jié)果表明,配體極性頭部的化學(xué)性質(zhì)極大影響了受體-配體的親和力,從而影響其結(jié)合效率。
雖然高通量篩選的快速發(fā)展使得化學(xué)品的篩選速度和體量得到了巨大提升,但仍舊存在許多問題[46],一是標(biāo)準(zhǔn)化學(xué)品的來源稀缺;二是高通量篩選的方法不夠完善,檢測(cè)的指標(biāo)不足;三是高通量篩選的試劑和儀器都非常昂貴,許多實(shí)驗(yàn)室無法配備。因此在生物測(cè)試之前,可以采用虛擬篩選的方法確定優(yōu)先級(jí)較高的化學(xué)品和靶點(diǎn)。虛擬篩選方法包含2類:一是基于化學(xué)品相似性,二是基于靶標(biāo)結(jié)構(gòu)。前者需要搭建一個(gè)藥效團(tuán)結(jié)構(gòu),從待篩化學(xué)品中選擇出特定毒性的化學(xué)品清單;后者需要搭建一個(gè)靶蛋白模型,從待篩生物靶點(diǎn)中選擇出體內(nèi)作用靶點(diǎn)與代謝通路的清單。構(gòu)建高通量虛擬篩選模型有利于MIE的確定。例如,Troger等[47]通過誘導(dǎo)契合對(duì)接的方法,找出了2種基于結(jié)構(gòu)的藥效團(tuán)模型,并在DrugBank和Chemspace數(shù)據(jù)庫(kù)中進(jìn)行了虛擬篩選。篩選完成后,作者利用3種不同的機(jī)器學(xué)習(xí)模型進(jìn)一步細(xì)化了命中列表,并選擇了排名最靠前的化合物進(jìn)行實(shí)驗(yàn)測(cè)試;通過層疊式方法,化合物在3種體外實(shí)驗(yàn)中得到了測(cè)試,最終成功識(shí)別出特殊的線粒體呼吸復(fù)合體抑制物。作者強(qiáng)調(diào)了虛擬篩選和機(jī)器學(xué)習(xí)在化學(xué)品篩選中的潛力,為基于結(jié)構(gòu)的復(fù)雜毒理學(xué)終點(diǎn)預(yù)測(cè)提供依據(jù)。
高通量組學(xué)技術(shù)結(jié)合生物信息學(xué)分析為進(jìn)一步研究關(guān)鍵靶點(diǎn)和毒性通路提供了新的思路,有望加速AOP的發(fā)展和應(yīng)用。生物信息學(xué)在整合基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)的毒理學(xué)研究中發(fā)揮了重要作用,從序列比對(duì)到基因發(fā)現(xiàn)與功能研究,從基因表達(dá)到蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè),乃至于更為復(fù)雜的調(diào)控網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)及蛋白質(zhì)相互作用網(wǎng)絡(luò)等[48]。生物信息學(xué)作為以數(shù)據(jù)為驅(qū)動(dòng)的組學(xué)研究領(lǐng)域常用技術(shù),可以將化學(xué)品與其引發(fā)的DNA、RNA和蛋白質(zhì)網(wǎng)絡(luò)變化關(guān)聯(lián)到一起,并進(jìn)一步鏈接至invitro或invivo毒性終點(diǎn),有利于進(jìn)一步闡述KE和AO。利用生物信息學(xué)構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的計(jì)算毒理學(xué)模型有利于綜合評(píng)估污染物引起的毒理效應(yīng)。
多組學(xué)數(shù)據(jù)的整合為AOP網(wǎng)絡(luò)的構(gòu)建提供了扎實(shí)的數(shù)據(jù)基礎(chǔ)。例如,Wang等[49]利用基于生物信息學(xué)數(shù)據(jù)挖掘的多組學(xué)技術(shù)揭示了磷酸三苯酯毒性機(jī)制,發(fā)現(xiàn)磷酸三苯酯可以激活癌基因,損傷DNA,導(dǎo)致氧化還原失衡和影響代謝水平,從而誘導(dǎo)肝毒性。Kang等[50]通過對(duì)代謝組學(xué)和轉(zhuǎn)錄組學(xué)進(jìn)行差異表達(dá)分析和富集分析闡明了小球藻應(yīng)對(duì)氧化石墨烯的應(yīng)激和恢復(fù)模式,發(fā)現(xiàn)氧化石墨烯通過減少小球藻氮元素的水平影響其三羧酸循環(huán),從而進(jìn)一步影響脂肪酸和氨基酸代謝等。Xia等[51]利用濃度依賴型簡(jiǎn)化轉(zhuǎn)錄組學(xué)揭示了短鏈氯化石蠟跨物種機(jī)制差異,發(fā)現(xiàn)短鏈氯化石蠟可能介導(dǎo)與神經(jīng)毒性相關(guān)的KE。Song等[52]通過差異表達(dá)分析和富集分析方法研究轉(zhuǎn)錄組學(xué)數(shù)據(jù)發(fā)現(xiàn),內(nèi)分泌干擾物質(zhì)(EDCs)可以通過影響ER活性而影響上皮基因的表達(dá),導(dǎo)致上皮細(xì)胞的擴(kuò)增,且減少了細(xì)胞凋亡的誘發(fā),最終導(dǎo)致癌癥的發(fā)生。
數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)在預(yù)測(cè)化學(xué)品毒性方面的關(guān)鍵作用已得到充分證明。毒理學(xué)數(shù)據(jù)的增長(zhǎng)、計(jì)算能力的提高和計(jì)算方法的優(yōu)化加速了計(jì)算毒理學(xué)在毒性預(yù)測(cè)和風(fēng)險(xiǎn)評(píng)估中的應(yīng)用。但目前仍然存在一些挑戰(zhàn),例如:(1) 高度異構(gòu)的數(shù)據(jù)源。不同數(shù)據(jù)庫(kù)所記錄的數(shù)據(jù)不一,需要開發(fā)能夠整合多種數(shù)據(jù)庫(kù)的工具。Neves等[57]已經(jīng)利用KNIME平臺(tái)開發(fā)了PubChem和CHEMBL數(shù)據(jù)處理的工作流,可為今后數(shù)據(jù)的整合提供借鑒。(2) 在許多已報(bào)道的研究工作中,在生成特征之前,清洗和標(biāo)準(zhǔn)化化合物的過程仍不清楚且無法重現(xiàn)。因此,設(shè)計(jì)更加透明、自動(dòng)化的數(shù)據(jù)清洗流程以滿足整合不同數(shù)據(jù)庫(kù)數(shù)據(jù)的預(yù)處理顯得十分必要。(3) 大多數(shù)機(jī)器學(xué)習(xí)模型通常被稱為“黑箱模型”,難以對(duì)污染物的毒性機(jī)制進(jìn)行合理解釋。即使是高精確度的模型也不能輕易揭示這種預(yù)測(cè)背后的生物學(xué)機(jī)制[58]。因此開發(fā)具有透明機(jī)制和明確科學(xué)原理的“白箱”模型十分關(guān)鍵。(4) 分子描述符在建立QSAR模型中起著不可或缺的作用,有必要發(fā)展更多包含分子信息和可解釋性的描述符。例如Seal等[59]提出可用細(xì)胞形態(tài)特征作為QSAR建模中新的描述符。新描述符可從不同角度對(duì)模型進(jìn)行機(jī)理解釋,從而提高模型的說服力和機(jī)理可解釋性。(5) Tox21項(xiàng)目只專注于生物學(xué)的幾個(gè)特定通路,目前的Tox21檢測(cè)還遠(yuǎn)遠(yuǎn)不全面。同時(shí)在進(jìn)行毒性評(píng)估的過程中,許多工作僅僅關(guān)注于毒性評(píng)估的某個(gè)方面,缺少對(duì)污染物的綜合評(píng)估。(6) 生態(tài)風(fēng)險(xiǎn)評(píng)估的問題形成階段是確定AOP的關(guān)鍵。試圖闡明所有機(jī)制而不關(guān)心它們與特定結(jié)果的相關(guān)性將導(dǎo)致資源使用效率低下。因此可以從監(jiān)管關(guān)注的重點(diǎn)出發(fā),確定哪些毒性機(jī)制最有可能導(dǎo)致這些結(jié)果??傮w而言,隨著高通量篩選獲得數(shù)據(jù)的不斷累積以及計(jì)算機(jī)技術(shù)的不斷更新,機(jī)器學(xué)習(xí)將在理解化學(xué)品毒性機(jī)制和風(fēng)險(xiǎn)防控領(lǐng)域起到關(guān)鍵作用。
通訊作者簡(jiǎn)介:李斐(1982—),女,博士,副研究員,主要研究方向?yàn)樯鷳B(tài)毒理學(xué)和計(jì)算毒理學(xué)。
共同通訊作者簡(jiǎn)介:于進(jìn)福(1980—),男,高級(jí)工程師,主要研究方向?yàn)榇髷?shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。