由 蕾, 孫國(guó)皓, 于 迪, 劉心昱*, 許國(guó)旺
(1. 中國(guó)科學(xué)院大連化學(xué)物理研究所, 中國(guó)科學(xué)院分離分析化學(xué)重點(diǎn)實(shí)驗(yàn)室, 遼寧省代謝組學(xué)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116023; 2. 中國(guó)科學(xué)院大學(xué), 北京 100049)
人類的健康或疾病狀態(tài)受環(huán)境因素和遺傳因素的共同影響。全基因組關(guān)聯(lián)研究(genome wide association study, GWAS)表明,僅有10%~20%的疾病能夠由基因變異來解釋[1,2]。瑞典家庭癌癥數(shù)據(jù)庫數(shù)據(jù)顯示,在15種常見的癌癥中,僅有約10%的致癌風(fēng)險(xiǎn)來自遺傳因素,而更多的風(fēng)險(xiǎn)來自于環(huán)境暴露以及遺傳與環(huán)境暴露間的相互作用[1,3,4]。為了能夠更加深入地研究環(huán)境暴露與人類健康或疾病狀態(tài)之間的關(guān)系,研究者們提出了暴露組的概念。
暴露組是指一個(gè)人從出生至生命結(jié)束全過程中各種暴露的總和,其能從真正意義上探討污染暴露與人體健康和疾病之間的關(guān)系,并揭示這種關(guān)聯(lián)背后的內(nèi)在本質(zhì)。暴露組學(xué)關(guān)注個(gè)體一生中所有暴露因素的測(cè)量,以及這些暴露因素與疾病建立聯(lián)系的機(jī)制[5]。暴露組概念的提出促進(jìn)了以組學(xué)為手段的暴露與疾病研究的發(fā)展,這類研究采用高通量的組學(xué)技術(shù)來分析血液和尿液等生物基質(zhì)中內(nèi)、外源性有害物質(zhì)的含量差異及變化趨勢(shì),從而揭示這些物質(zhì)與疾病發(fā)生、發(fā)展之間的關(guān)系。
暴露組關(guān)聯(lián)研究(exposome wide association study, EWAS)是探究環(huán)境暴露與疾病發(fā)生、發(fā)展關(guān)系過程中所采用的一種重要的研究范式,其能夠?qū)ξ粗獥l件下的暴露情況進(jìn)行評(píng)估。在進(jìn)行EWAS時(shí),需要確定暴露變量和結(jié)局,再根據(jù)多種暴露變量與疾病的相關(guān)性篩選出重要的暴露變量,從而實(shí)現(xiàn)關(guān)鍵暴露因子的識(shí)別[6]。在EWAS方法的基礎(chǔ)上,Rappaport等[7]利用兩階段方法來研究疾病相關(guān)的重要暴露因素:第一階段,比較疾病組與對(duì)照組血液/尿液中暴露組的差異,發(fā)現(xiàn)并鑒定特征性的化學(xué)物質(zhì),確定其與疾病的關(guān)聯(lián);第二階段,在大規(guī)模血液/尿液樣本中驗(yàn)證這些化學(xué)物質(zhì)用作暴露標(biāo)志物或疾病惡化標(biāo)志物的可靠性。該方法能夠從眾多的內(nèi)、外源性物質(zhì)中發(fā)現(xiàn)重要的分析對(duì)象,有利于鎖定真正的風(fēng)險(xiǎn)因子和有應(yīng)用前景的預(yù)警標(biāo)志物。
本文對(duì)基于色譜-質(zhì)譜聯(lián)用技術(shù)的暴露組學(xué)分析方法及研究范式的進(jìn)展進(jìn)行了介紹。首先綜述了基于色譜-質(zhì)譜的暴露組學(xué)分析方法進(jìn)展,隨后圍繞環(huán)境因素導(dǎo)致的不良健康效應(yīng)問題,概括了以暴露組為核心的暴露組關(guān)聯(lián)研究、混合暴露研究及暴露組學(xué)與多組學(xué)(基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué))關(guān)聯(lián)研究等研究范式,最后對(duì)暴露組學(xué)分析方法及研究范式的未來發(fā)展進(jìn)行了展望。
暴露物是指?jìng)€(gè)體在其生命過程中所接觸到的各種物質(zhì),這些物質(zhì)可能來自于環(huán)境、食品、空氣、水等。暴露物的數(shù)量眾多,含量和理化性質(zhì)差異顯著,據(jù)估計(jì),人體暴露在超過40萬種的化學(xué)物質(zhì)中,其中約有5 000種外源性化學(xué)物質(zhì)在體內(nèi)分散和積累[8,9],且它們?cè)隗w內(nèi)的含量差異很大(含量差異可達(dá)5~6個(gè)數(shù)量級(jí))。一般而言,環(huán)境污染物的含量為10-15~10-6mol/L,而內(nèi)源性代謝物的含量為10-9~10-3mol/L[10],不同物質(zhì)的巨大含量差異對(duì)分析儀器的靈敏度和動(dòng)態(tài)范圍提出了巨大挑戰(zhàn)。
色譜-質(zhì)譜聯(lián)用技術(shù)兼具色譜的高效分離能力和質(zhì)譜的高分辨、高靈敏度特性,已廣泛用于暴露組學(xué)研究。暴露組學(xué)研究方法主要包括靶向定量分析、可疑物篩查和非靶向篩查,圖1顯示了這3種方法對(duì)外源性化學(xué)物質(zhì)的研究層次。靶向定量分析的研究對(duì)象被稱為“完全已知物”,即化學(xué)名稱和結(jié)構(gòu)是已知的且在樣本中存在的外源性化學(xué)物質(zhì);可疑物篩查的研究對(duì)象被稱為“已知的未知物”,即化學(xué)名稱和結(jié)構(gòu)已知、但不確定樣本中是否存在的外源性化學(xué)物質(zhì);非靶向篩查的研究對(duì)象被稱為“未知的未知物”,該方法用于發(fā)現(xiàn)新的外源性化學(xué)物質(zhì)[11]。靶向定量分析通常可以采用三重四極桿質(zhì)譜實(shí)現(xiàn),可疑物篩查和非靶向篩查則主要采用高分辨質(zhì)譜實(shí)現(xiàn)[11]。
圖 1 暴露組學(xué)分析方法組成Fig. 1 Composition of exposomics-analysis methods
在人體內(nèi)暴露研究中,各種環(huán)境污染物在人體中的殘留情況是人們首要關(guān)注的?;谌厮臉O桿質(zhì)譜和多反應(yīng)監(jiān)測(cè)(MRM)模式的靶向定量分析是測(cè)量?jī)?nèi)暴露最常用的方法。靶向定量分析需要先確定目標(biāo)分析物,再使用高選擇性的樣品制備方法以最大限度地去除基質(zhì)干擾[12],之后利用高特異性和高靈敏度的三重四極桿質(zhì)譜在MRM模式下對(duì)樣品中的目標(biāo)物進(jìn)行準(zhǔn)確定量及風(fēng)險(xiǎn)評(píng)估。靶向定量分析具有靈敏度高、準(zhǔn)確度高、通量高的優(yōu)點(diǎn),主要體現(xiàn)在以下幾個(gè)方面:(1)基于三重四極桿質(zhì)譜結(jié)合MRM的靶向分析方法可以在最佳質(zhì)譜條件下對(duì)每一個(gè)目標(biāo)物進(jìn)行分析,從而顯著提高檢測(cè)靈敏度;(2)該方法通過母離子和子離子的兩級(jí)離子選擇,排除了大量干擾離子,使質(zhì)譜的化學(xué)背景降低,能夠顯著提高目標(biāo)檢測(cè)物的信噪比,從而提高檢測(cè)的靈敏度;(3)該方法基于標(biāo)準(zhǔn)品建立,實(shí)際樣本的保留時(shí)間、母離子、子離子等多個(gè)分析特征已與標(biāo)準(zhǔn)品進(jìn)行了匹配,檢測(cè)結(jié)果具有高準(zhǔn)確度;(4)隨著質(zhì)譜掃描速度的不斷加快和動(dòng)態(tài)MRM技術(shù)的使用,靶向定量分析技術(shù)的通量也在不斷提高。
基于氣相色譜-串聯(lián)質(zhì)譜(GC-MS/MS)和液相色譜-串聯(lián)質(zhì)譜(LC-MS/MS)的暴露組學(xué)分析方法常被用于監(jiān)測(cè)人體血液(全血、血清或血漿)和尿液樣本中的有機(jī)污染物。GC-MS/MS方法可用于檢測(cè)多環(huán)芳烴、多氯聯(lián)苯、多溴聯(lián)苯醚、多溴聯(lián)苯、二惡英、多氯二苯并呋喃和一些農(nóng)藥(有機(jī)氯農(nóng)藥、有機(jī)磷農(nóng)藥、氨基甲酸酯農(nóng)藥和擬除蟲菊酯農(nóng)藥)[13-15];其中農(nóng)藥和多環(huán)芳烴在血液和尿液中均有檢出,但因其蓄積性較弱優(yōu)先選擇尿液作為生物樣本;而其他類別的污染物因蓄積性更強(qiáng)優(yōu)先選擇血液作為生物樣本。LC-MS/MS方法可用于檢測(cè)殺菌劑、煙草暴露標(biāo)志物、鄰苯二甲酸酯(PAEs)、環(huán)境酚、全氟化合物(PFASs)、有機(jī)磷酸酯(OPEs)、紫外線吸收劑、對(duì)羥基苯甲酸酯以及揮發(fā)性有機(jī)污染物(VOCs)和它們的代謝物等[16-18];其中,PAEs、環(huán)境酚、對(duì)羥基苯甲酸酯和VOCs在體內(nèi)代謝較快,通常以代謝物的形式在尿液中被檢出。PFASs作為近年來受到廣泛關(guān)注的持久性有機(jī)污染物,其在人體內(nèi)的蓄積性強(qiáng),半衰期可達(dá)數(shù)十年之久[19],因此常采用血液樣本中的PFASs含量來表征人體對(duì)這類化合物的暴露情況。
目前,生物監(jiān)測(cè)方法集中于測(cè)量單一類別的外源性化學(xué)物質(zhì),例如鄰苯二甲酸酯代謝產(chǎn)物[20]、環(huán)境酚類化合物[21]、PFASs[17]以及有機(jī)磷酸酯[16]等。同一類別的外源性化學(xué)物質(zhì)具有相似的物理化學(xué)性質(zhì),與多類別外源性化學(xué)物質(zhì)同時(shí)檢測(cè)的方法相比,同類別外源性化學(xué)物質(zhì)的檢測(cè)方法更容易確定最佳提取和定量條件。然而,人類每時(shí)每刻都暴露在成千上萬種化學(xué)物質(zhì)之中,如果對(duì)這些化學(xué)物質(zhì)按照類別進(jìn)行逐一分析,將會(huì)花費(fèi)大量的時(shí)間和金錢,并且還可能會(huì)受限于樣本量而無法對(duì)人體暴露進(jìn)行全面監(jiān)測(cè),這一缺陷在基于大規(guī)模流行病學(xué)的EWAS研究中尤為明顯。為了解決這一問題,You等[22]和Wang等[23]將知識(shí)導(dǎo)向和基于實(shí)際樣品的可疑物篩查技術(shù)相結(jié)合,鎖定了與人體暴露相關(guān)的外源性化學(xué)物質(zhì),并建立了包含多類別化學(xué)殘留物的暴露組學(xué)精準(zhǔn)定量方法;該方法采用基于96孔除磷脂板的前處理技術(shù),在去除基質(zhì)效應(yīng)的同時(shí)提高了分析通量。另外,有研究[24]更加追求方法覆蓋度,在一個(gè)靶向方法中同時(shí)監(jiān)測(cè)1 000種以上的外源性化學(xué)殘留物,其主要關(guān)注的外源性化學(xué)物質(zhì)類別是生物毒素、殺蟲劑和獸藥等。上述方法均為研究暴露與疾病之間的關(guān)聯(lián)提供了有力支持。
圖 2 基于高分辨質(zhì)譜的可疑物篩查及非靶向篩查方法的工作流程[26]Fig. 2 Workflow of suspect and non-target screening approaches based on high resolution mass spectrometry[26]
基于色譜-高分辨質(zhì)譜的暴露物篩查方法主要包括可疑物篩查和非靶向篩查??梢晌锖Y查是一種對(duì)可能存在的已知化合物進(jìn)行篩查的方法,該方法的目的是大規(guī)??焖勹b定復(fù)雜混合物中的化合物成分,為進(jìn)一步的靶向定量分析提供優(yōu)先監(jiān)測(cè)的化學(xué)物質(zhì)目錄[25]??梢晌锖Y查方法需要依賴參考數(shù)據(jù)庫進(jìn)行定性分析,從而實(shí)現(xiàn)對(duì)可疑物的篩查[11]。以真菌毒素母體及其修飾產(chǎn)物的篩查為例,可疑物篩查方法的主要工作流程如圖2所示[26]。該方法主要通過比較樣品與標(biāo)準(zhǔn)品參考數(shù)據(jù)庫中已知真菌毒素母體及其修飾產(chǎn)物的前體離子質(zhì)量、保留時(shí)間、同位素分布和碎裂方式,從包含眾多特征的高分辨質(zhì)譜數(shù)據(jù)中篩選出可疑信號(hào)[26]。Wang等[27]通過自建數(shù)據(jù)庫中的母離子、二級(jí)特征碎片離子和保留時(shí)間信息,實(shí)現(xiàn)了對(duì)血清中1 210種農(nóng)、獸藥(包括部分人畜共用藥物)以及其他化學(xué)污染物和代謝物的高覆蓋篩查,所建立的方法穩(wěn)定、可靠,適用于大規(guī)模血液樣本的暴露組篩查,能夠在24個(gè)混合血清樣本的示例研究中篩查出58種外源性殘留物。相比于其他非靶向篩查方法,可疑物篩查被認(rèn)為是多類組分分析方法的延伸,其在分析過程中可以準(zhǔn)確地鑒定出部分代謝物,并根據(jù)靶向方法進(jìn)行定量分析。
在沒有明確研究對(duì)象的情況下,基于高分辨質(zhì)譜的非靶向篩查是人體內(nèi)暴露篩查和測(cè)量的重要手段。非靶向篩查是對(duì)未知化合物進(jìn)行篩查的方法,其目的是發(fā)現(xiàn)完全未知的化合物,以進(jìn)一步了解人類所暴露的化學(xué)物質(zhì)?;谏V-高分辨質(zhì)譜的暴露物注釋結(jié)果可以分為5個(gè)等級(jí)[28],置信水平從高到低依次為(1)Level 1(確切的結(jié)構(gòu)):將實(shí)驗(yàn)數(shù)據(jù)與化合物標(biāo)準(zhǔn)品的保留時(shí)間、一級(jí)與二級(jí)譜圖進(jìn)行匹配,最終得到確切的結(jié)構(gòu);(2)Level 2(可能的結(jié)構(gòu)):包括Level 2a和Level 2b兩類,前者利用實(shí)驗(yàn)所得譜圖與文獻(xiàn)或數(shù)據(jù)庫中的譜圖進(jìn)行比較,從而得到可能的結(jié)構(gòu),而后者則通過將實(shí)驗(yàn)數(shù)據(jù)與二級(jí)譜圖中的診斷離子、電離規(guī)律、前體化合物信息相結(jié)合,得到?jīng)]有標(biāo)準(zhǔn)品或文獻(xiàn)信息的可能的結(jié)構(gòu);(3)Level 3(初步候選物質(zhì)):利用實(shí)驗(yàn)所得到的一級(jí)與二級(jí)譜圖,推斷出化合物可能存在的結(jié)構(gòu);(4)Level 4(確切的分子式):將化合物精確質(zhì)量與同位素及離子加合規(guī)律相結(jié)合,確定化合物的分子式;(5)Level 5(精確質(zhì)量):利用高分辨質(zhì)譜所得到的質(zhì)荷比數(shù)據(jù),直接獲得目標(biāo)化合物的精確質(zhì)量。如圖2所示,與可疑物篩查方法相似,非靶向篩查同樣采用了簡(jiǎn)單的樣本預(yù)處理步驟,并利用高分辨質(zhì)譜全掃描模式來獲得包含成千上萬個(gè)特征離子的高分辨質(zhì)譜數(shù)據(jù);但二者在數(shù)據(jù)挖掘和分析方面有很大不同,非靶向篩查沒有預(yù)先設(shè)定的化合物標(biāo)準(zhǔn)品和列表,而是通過研究現(xiàn)有譜圖總結(jié)出化合物的碎裂特征,并根據(jù)碎裂特征、元素組成以及同位素分布模式對(duì)去除背景的樣品信號(hào)進(jìn)行篩查,之后再通過數(shù)據(jù)庫及文獻(xiàn)檢索的方式進(jìn)行組分鑒定,從而篩查出未知化合物。我們課題組[26,29-32]針對(duì)食品基質(zhì)中未知或不可預(yù)知的風(fēng)險(xiǎn)物質(zhì),建立了一系列非靶向篩查技術(shù);其中,針對(duì)有空白對(duì)照的樣品,Fu等[29]建立了基于自建數(shù)據(jù)庫的非靶向篩查方法,同時(shí)結(jié)合特定物質(zhì)的特征結(jié)構(gòu)碎片,詳細(xì)解析了二級(jí)質(zhì)譜特征,實(shí)現(xiàn)了對(duì)自建數(shù)據(jù)庫中沒有覆蓋到的風(fēng)險(xiǎn)物質(zhì)的識(shí)別;而針對(duì)無空白對(duì)照的樣品,Fu等[30]又提出了一種基于平均值偏差倍率計(jì)算及特征片段結(jié)構(gòu)檢索的潛在風(fēng)險(xiǎn)物質(zhì)快速鎖定方法,并通過自編程序?qū)崿F(xiàn)了自動(dòng)化的數(shù)據(jù)檢索和風(fēng)險(xiǎn)化合物鎖定,該方法無需分組,可快速篩查、準(zhǔn)確測(cè)定食品中的潛在風(fēng)險(xiǎn)物質(zhì)??紤]到風(fēng)險(xiǎn)物質(zhì)在體內(nèi)的代謝過程,Liang等[31]開發(fā)了一種針對(duì)復(fù)雜食品基質(zhì)中已知和未知獸藥及其代謝物的非靶向篩查方法,構(gòu)建了包含3 710種獸藥及其相應(yīng)代謝物的質(zhì)譜數(shù)據(jù)庫,歸納了共有或獨(dú)有的質(zhì)譜碎裂特征,并基于質(zhì)譜碎裂特征及所開發(fā)的智能檢索程序,將其示范性地應(yīng)用在蛋類樣本的風(fēng)險(xiǎn)物質(zhì)篩查中。南京大學(xué)韋斯團(tuán)隊(duì)[33-35]提出了新污染物的非靶向智能分析新方法,構(gòu)建了基于多模態(tài)分子關(guān)系網(wǎng)絡(luò)的污染物篩查及基于深度學(xué)習(xí)的譜圖-分子結(jié)構(gòu)生成等新污染物分析技術(shù),實(shí)現(xiàn)了真實(shí)環(huán)境中新污染物的高通量精準(zhǔn)識(shí)別。
綜上所述,靶向定量分析、可疑物篩查和非靶向篩查是暴露組學(xué)分析中最主要的方法。靶向定量分析采用基于三重四極桿質(zhì)譜的MRM數(shù)據(jù)采集模式,可疑物篩查和非靶向篩查采用基于高分辨質(zhì)譜的數(shù)據(jù)依賴采集模式,且靶向定量分析在檢測(cè)靈敏度及定量準(zhǔn)確度方面優(yōu)于另外兩種方法;靶向定量分析可實(shí)現(xiàn)目標(biāo)化合物的精準(zhǔn)定量,且其數(shù)據(jù)處理過程更加簡(jiǎn)單,而可疑物篩查與非靶向篩查均是基于高分辨質(zhì)譜的半定量數(shù)據(jù)。然而,相比于可疑物篩查和非靶向篩查方法,靶向定量分析的化學(xué)物質(zhì)覆蓋度有限,而基于高分辨質(zhì)譜及數(shù)據(jù)依賴采集模式獲得的數(shù)據(jù)可包含成千上萬個(gè)化學(xué)物質(zhì)特征。在定性分析方面,靶向定量分析依賴于標(biāo)準(zhǔn)品,只能針對(duì)已知目標(biāo)化合物進(jìn)行分析,進(jìn)一步限制了檢測(cè)覆蓋度;可疑物篩查依托于標(biāo)準(zhǔn)品數(shù)據(jù)庫,在保證定性準(zhǔn)確度的同時(shí),進(jìn)一步擴(kuò)大了檢測(cè)覆蓋度;非靶向篩查則不依賴于標(biāo)準(zhǔn)品,它的數(shù)據(jù)處理方式相對(duì)復(fù)雜,不同篩查規(guī)則對(duì)定性結(jié)果的準(zhǔn)確度影響很大,但非靶向篩查能夠發(fā)現(xiàn)新的化合物,并提供更全面的化學(xué)暴露知識(shí)。總之,上述3種方法各有優(yōu)缺點(diǎn),實(shí)際應(yīng)用中應(yīng)根據(jù)不同需求選擇合適的方法。
除了對(duì)個(gè)體所暴露的外源性化學(xué)物質(zhì)進(jìn)行全面檢測(cè)外,對(duì)這些化學(xué)物質(zhì)與疾病風(fēng)險(xiǎn)的關(guān)系進(jìn)行評(píng)估是暴露組學(xué)研究的另一重要方向。因此,本文綜述了目前暴露組學(xué)的研究范式,包括暴露組關(guān)聯(lián)研究、混合暴露研究、暴露組學(xué)與多組學(xué)關(guān)聯(lián)研究。
EWAS是參照GWAS所提出的,是一種數(shù)據(jù)驅(qū)動(dòng)的探索性研究范式,可用于發(fā)現(xiàn)與復(fù)雜疾病相關(guān)聯(lián)的環(huán)境因素。目前,暴露組關(guān)聯(lián)研究已成為環(huán)境與健康科學(xué)領(lǐng)域的重要研究方向[36]。通常將暴露組關(guān)聯(lián)研究與流行病學(xué)方法相結(jié)合,以人群隊(duì)列為基礎(chǔ),先根據(jù)已有研究確定暴露變量和疾病結(jié)局,再利用統(tǒng)計(jì)方法篩選出與疾病有顯著關(guān)系的暴露變量,從而在暴露變量中識(shí)別出重要的暴露因子。
目前暴露組關(guān)聯(lián)研究所涉及的大型隊(duì)列主要有美國(guó)營(yíng)養(yǎng)與健康調(diào)查(NHANES)、加拿大健康測(cè)量調(diào)查(CHMS)、歐洲人類早期暴露計(jì)劃(HELIX)、韓國(guó)國(guó)民健康與營(yíng)養(yǎng)調(diào)查(KoNEHS)隊(duì)列等[37]。研究過程中涉及的內(nèi)部暴露變量包括微量營(yíng)養(yǎng)素(如維生素)、代謝物和蛋白質(zhì)(如脂肪酸和C-反應(yīng)蛋白等)、污染物(如重金屬、酚類化合物、持久性有機(jī)污染物、氟化物、有機(jī)磷農(nóng)藥和內(nèi)分泌干擾物(EDCs)等),這些暴露變量都是通過血液和尿液中的生物標(biāo)志物來測(cè)定的。暴露組關(guān)聯(lián)研究在關(guān)注上述內(nèi)部暴露變量對(duì)健康影響的同時(shí),還揭示了生活方式、大氣環(huán)境、社會(huì)因素等外暴露因素與疾病存在的密切關(guān)系。研究過程中涉及的疾病,包括哮喘[38]、癌癥[39]、不良妊娠[40]和發(fā)育異常[41]等,都被證明與特定環(huán)境暴露密切相關(guān)。除此之外,一些慢性疾病也在暴露組學(xué)關(guān)聯(lián)研究中被關(guān)注,例如糖尿病、高血壓、高尿酸、高血脂、肥胖等[22]。在對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時(shí),常采用廣義線性回歸模型,并根據(jù)結(jié)果變量進(jìn)行回歸方法的選擇。當(dāng)結(jié)果變量為二分類變量時(shí),采用邏輯回歸;當(dāng)結(jié)果變量為連續(xù)變量時(shí),則采用線性回歸或加權(quán)線性回歸。此外,在統(tǒng)計(jì)分析過程中,常將協(xié)變量納入模型以對(duì)模型進(jìn)行調(diào)整,同時(shí)為了控制結(jié)果的假陽性率,一般采用多重檢驗(yàn)進(jìn)行模型校正。
暴露組關(guān)聯(lián)研究可以評(píng)估多種環(huán)境因素與疾病之間的關(guān)系,為揭示環(huán)境因素對(duì)健康的影響提供了重要的科學(xué)依據(jù)。然而,該方法仍存在一些局限,其僅能表征暴露因素與不良結(jié)局之間的相關(guān)關(guān)系,而非因果關(guān)系,需要結(jié)合前瞻性隊(duì)列、毒理實(shí)驗(yàn)以及基因組學(xué)、分子生物學(xué)等聯(lián)合分析來對(duì)因果關(guān)系進(jìn)行進(jìn)一步確認(rèn)。
暴露組關(guān)聯(lián)研究側(cè)重單一化學(xué)物質(zhì)或一組結(jié)構(gòu)類似化學(xué)物質(zhì)的健康影響分析,而很少關(guān)注化學(xué)混合物的“雞尾酒效應(yīng)(cocktail effects)”。但實(shí)際上,人體處于多種污染物的聯(lián)合暴露之中,為了解決這一難題,近年來已經(jīng)出現(xiàn)一些混合暴露研究模型,用于評(píng)估多個(gè)環(huán)境因素對(duì)健康的共同影響,并篩選出對(duì)健康結(jié)局具有顯著影響的因素;其中最具代表性的模型是有加權(quán)分位數(shù)和回歸模型(weighted quantile sum, WQS)[42]、分位數(shù)-G-計(jì)算模型(quantile g-computation, Q-gcomp)[43]、貝葉斯核機(jī)器回歸模型(Bayesian kernel machine regression, BKMR)[44,45]、最小絕對(duì)收縮和選擇模型(least absolute shrinkage and selection operator, LASSO)[46]以及刪除/替換/添加模型(deletion/substitution/addition, DSA)[47]。
WQS模型于2015年由Carrico等[42]開發(fā),該模型的基本原理是構(gòu)建一個(gè)加權(quán)指數(shù),用以估計(jì)所有預(yù)測(cè)變量對(duì)健康結(jié)果的混合效應(yīng),同時(shí)通過在回歸模型中構(gòu)建相關(guān)協(xié)變量來檢驗(yàn)該指數(shù)與因變量或結(jié)果的關(guān)聯(lián)。相比于暴露組關(guān)聯(lián)研究,WQS模型不僅可以評(píng)估暴露混合物對(duì)健康的影響程度,還能在高度相關(guān)的外源性化學(xué)物質(zhì)中識(shí)別出對(duì)健康影響更大的變量[42]。Caporale等[48]利用WQS模型建立了混合暴露與兒童語言延遲之間的關(guān)聯(lián),選出了與健康具有顯著關(guān)聯(lián)的內(nèi)分泌干擾物,并對(duì)兒童性別、母親吸煙狀況、胎次、魚類消耗、母親受教育程度和肌酐濃度等潛在混雜因子進(jìn)行了調(diào)控。
Q-gcomp模型是一種用于估計(jì)混合物聯(lián)合效應(yīng)的新方法,于2020年由Keil等[43]在WQS模型的基礎(chǔ)上開發(fā)。該模型結(jié)合了g計(jì)算(一種因果效應(yīng)估計(jì)方法),能夠進(jìn)一步提高模型性能。Q-gcomp模型的基本原理是評(píng)估當(dāng)所有暴露變量的含量同時(shí)增加一個(gè)分位數(shù)時(shí)疾病風(fēng)險(xiǎn)增加的比例。與WQS模型相比,Q-gcomp的計(jì)算速度更快,無需像WQS模型一樣對(duì)于正相關(guān)和負(fù)相關(guān)效應(yīng)進(jìn)行分別計(jì)算,而且可以在一個(gè)模型中同時(shí)評(píng)估所有混合物的效應(yīng)。此外,對(duì)于小樣本數(shù)據(jù),Q-gcomp模型能夠展現(xiàn)出更強(qiáng)的魯棒性[43]。
BKMR模型于2015年由Bobb等[44]開發(fā),可用于估計(jì)混合物的健康效應(yīng),為了使該方法易于使用,該研究團(tuán)隊(duì)又在2018年開發(fā)了基于R編程語言的開源軟件包[45]。BKMR模型將暴露變量作為自變量、健康結(jié)局作為因變量,通過建立平滑函數(shù)h來評(píng)估暴露因素對(duì)健康的影響,同時(shí)BKMR模型還支持混淆因素的調(diào)整。BKMR模型支持變量選擇功能,能夠確定組分對(duì)混合物健康效應(yīng)的貢獻(xiàn)大小;同時(shí),該模型還支持層次變量選擇功能,即結(jié)合先驗(yàn)知識(shí)對(duì)混合物進(jìn)行分組,解決了混合物組分的共線性問題。因此,利用該模型,能夠獲得混合物的總體效應(yīng)、每個(gè)污染物的單獨(dú)效應(yīng)、每個(gè)或每組污染物的重要程度(PIPs)、每個(gè)污染物和健康結(jié)局的劑量-反應(yīng)曲線以及污染物之間的交互作用。
LASSO模型是一種用于篩選變量和降低模型復(fù)雜度的方法,該模型可用于確定對(duì)健康結(jié)局影響較大的一系列化學(xué)物質(zhì)。LASSO模型本質(zhì)上是一種廣義線性回歸模型,它的基本原理是在傳統(tǒng)線性回歸模型的損失函數(shù)中引入懲罰項(xiàng)(L1正則項(xiàng)),通過壓縮回歸模型中的變量系數(shù)來進(jìn)行變量選擇。相比于將所有變量都納入模型的回歸分析,LASSO模型可以有選擇性地去除對(duì)結(jié)局影響較小的變量,從而降低模型的復(fù)雜程度,避免模型的過擬合現(xiàn)象。LASSO模型在暴露組學(xué)研究中已有應(yīng)用,Soomro等[49]在一項(xiàng)探究外源性化學(xué)物質(zhì)暴露與妊娠高血壓關(guān)系的前瞻性隊(duì)列中,利用LASSO回歸模型進(jìn)行關(guān)鍵暴露變量的篩選,發(fā)現(xiàn)鄰苯二甲酸單乙基酯和全氟壬酸是與妊娠高血壓現(xiàn)象最相關(guān)的化學(xué)物質(zhì)。
DSA模型也是一種變量選擇模型,它通過迭代的方式來實(shí)現(xiàn)多種暴露變量的篩選,主要包括以下3個(gè)步驟[50]: (1)構(gòu)建模型空間,即在給定條件下,構(gòu)建由基礎(chǔ)模型線性組合而成的整個(gè)模型空間,利用最高階相互作用以及最大“冪和”來確定候選預(yù)測(cè)變量的基礎(chǔ)模型,同時(shí)指定出模型尺寸的最大值;(2)搜索模型空間,即從截距模型開始迭代搜索模型空間,并在每一輪迭代過程中進(jìn)行預(yù)測(cè)變量的刪除、替換以及添加操作,直至模型尺寸超過設(shè)定的最大值;(3)基于交叉驗(yàn)證選擇模型,即通過交叉驗(yàn)證篩選出預(yù)測(cè)方程均方根誤差最小的模型及其所包含的預(yù)測(cè)變量,從而實(shí)現(xiàn)暴露變量的篩選。DSA方法于2004年由Sinisi和van der Laan提出,最初被應(yīng)用于基因組學(xué)研究中轉(zhuǎn)錄因子結(jié)合位點(diǎn)的尋找[51],之后也被用于涉及多種外源性化學(xué)物質(zhì)的環(huán)境研究中[50]。例如,Nieuwenhuijsen等[52]利用DSA模型在60個(gè)環(huán)境暴露因素中發(fā)現(xiàn)了公交路線、景觀多樣性和交通密度與嬰兒出生體重之間有顯著關(guān)聯(lián)。
上述混合暴露模型中,WQS、Q-gcomp、BKMR主要用于評(píng)估混合物對(duì)健康結(jié)局的綜合影響,LASSO和DSA模型側(cè)重尋找多個(gè)環(huán)境因素中對(duì)健康結(jié)局影響更大的環(huán)境因素。目前已有將多種模型結(jié)合用于聯(lián)合分析的案例,未來這些模型的不斷發(fā)展和改進(jìn)將有利于更好地理解復(fù)雜環(huán)境混合物對(duì)健康的影響,并獲得更準(zhǔn)確和全面的科學(xué)依據(jù)。
目前,研究者們已經(jīng)開發(fā)出了將暴露組學(xué)研究與基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等組學(xué)手段相結(jié)合的全新研究范式,其中基因組與暴露組的結(jié)合有助于揭示暴露因素對(duì)疾病風(fēng)險(xiǎn)的因果關(guān)系。實(shí)現(xiàn)這種因果推斷的一個(gè)重要方法是孟德爾隨機(jī)化(Mendelian Randomization, MR),該方法將與暴露因素具有強(qiáng)相關(guān)的遺傳變異作為工具變量,以評(píng)估暴露因素與結(jié)局之間的因果關(guān)系[53]。應(yīng)用MR方法必須滿足以下三大假設(shè)[54]: (1)基因組變量的單核苷酸多態(tài)性(SNP)與所研究的暴露因素之間具有強(qiáng)相關(guān)性;(2)SNP與混雜因素?zé)o關(guān);(3)SNP只能通過暴露因素對(duì)結(jié)局產(chǎn)生作用。由于基因組與健康結(jié)局有明確的因果關(guān)系,因而在暴露組關(guān)聯(lián)研究中引入基因組可以有效地解決反向因果問題。MR方法已在近期研究中得到應(yīng)用,如Choi等[55]利用MR方法評(píng)估了106個(gè)環(huán)境因素與抑郁癥之間的潛在因果關(guān)系,結(jié)果發(fā)現(xiàn),社交、睡眠、媒體、飲食和運(yùn)動(dòng)相關(guān)領(lǐng)域的多種暴露因素與抑郁癥存在前瞻性關(guān)聯(lián)。Huang等[56]利用MR方法評(píng)估了砷暴露與慢性瘙癢癥之間的因果關(guān)系。
轉(zhuǎn)錄組與暴露組的結(jié)合有助于揭示環(huán)境因素對(duì)基因表達(dá)水平的影響,從而更好地理解暴露對(duì)特定基因表達(dá)影響的機(jī)制。隨著RNA測(cè)序技術(shù)的發(fā)展,通過一次測(cè)序得到千萬條以上序列的高通量分析已被實(shí)現(xiàn),根據(jù)定量基因表達(dá)數(shù)據(jù)又可以進(jìn)一步實(shí)現(xiàn)差異表達(dá)基因的發(fā)現(xiàn)、富集分析和功能預(yù)測(cè)。轉(zhuǎn)錄組與暴露組的結(jié)合在探究環(huán)境暴露效應(yīng)方面已有應(yīng)用案例,Li等[57]以人類胚胎干細(xì)胞誘導(dǎo)分化的視網(wǎng)膜類器官為模型,利用暴露組和轉(zhuǎn)錄組技術(shù)揭示了低劑量多溴二苯醚暴露對(duì)人類早期視網(wǎng)膜發(fā)育的影響,其中通過轉(zhuǎn)錄組分析發(fā)現(xiàn)了類器官在經(jīng)過多溴二苯醚暴露后產(chǎn)生的一系列差異表達(dá)基因,從而確定蛋白質(zhì)消化吸收和細(xì)胞外基質(zhì)受體相互作用是受暴露因素影響的重要途徑。
蛋白質(zhì)組與暴露組的結(jié)合有助于明確與暴露因素相關(guān)的蛋白質(zhì)分子特征,從而揭示它們之間的潛在相互作用。蛋白質(zhì)組學(xué)研究包括蛋白質(zhì)表達(dá)水平、翻譯后修飾、蛋白質(zhì)結(jié)構(gòu)與功能、蛋白質(zhì)之間的相互作用等。質(zhì)譜技術(shù)是目前蛋白質(zhì)組學(xué)分析最常用的技術(shù),其可以高通量地定量蛋白質(zhì)組。Luminex技術(shù)是基于高通量微孔板的多重檢測(cè)抗體芯片技術(shù),也被用于蛋白質(zhì)的分析。Gao等[58]基于一個(gè)縱向人群隊(duì)列,利用液相色譜-高分辨質(zhì)譜聯(lián)用技術(shù)和Luminex技術(shù)分別開展了非靶向蛋白質(zhì)組學(xué)分析,同時(shí)利用液相色譜-串聯(lián)質(zhì)譜技術(shù)開展了暴露組學(xué)分析。隨后,研究人員通過關(guān)聯(lián)研究發(fā)現(xiàn)了與外源性化學(xué)殘留物顯著相關(guān)的蛋白質(zhì)和相關(guān)信號(hào)通路;其中免疫相關(guān)途徑是與暴露組最高度相關(guān)的信號(hào)通路之一,說明免疫系統(tǒng)在對(duì)外來化學(xué)物質(zhì)的應(yīng)答和調(diào)節(jié)中起到了重要作用。Maitre等[59]基于人類早期生命暴露組項(xiàng)目中由1 301對(duì)母子組成的多中心隊(duì)列展開多組學(xué)特征研究,并利用Luminex技術(shù)測(cè)定了血漿中36種細(xì)胞因子、載脂蛋白和脂肪因子,并通過探究這些蛋白質(zhì)與外源性化學(xué)殘留物之間的關(guān)聯(lián),發(fā)現(xiàn)了肥胖兒童血液中親脂性持久有機(jī)污染物與由脂肪組織產(chǎn)生的蛋白質(zhì)密切相關(guān)。
代謝組與暴露組的結(jié)合有助于揭示由環(huán)境因素引起的體內(nèi)代謝擾動(dòng)機(jī)制。借助于質(zhì)譜技術(shù)的進(jìn)步,代謝組學(xué)分析的通量不斷提高,在環(huán)境暴露與不良健康效應(yīng)關(guān)系研究中的應(yīng)用潛力也迅速增加[60]。將代謝組學(xué)方法應(yīng)用于暴露風(fēng)險(xiǎn)分析,可以揭示生物體在受到環(huán)境因素影響后,其體內(nèi)代謝產(chǎn)物的組成、含量以及所處代謝通路的變化等信息。近年來,代謝組學(xué)方法已在基于人群隊(duì)列的污染物健康效應(yīng)研究中得到了廣泛應(yīng)用。Liang等[61]為了評(píng)估交通相關(guān)空氣污染暴露對(duì)人體分子通路造成的不良影響,對(duì)45名正常通勤者和患有哮喘通勤者的血液樣本進(jìn)行了高分辨代謝組學(xué)分析,測(cè)定了27種空氣污染物的含量,并對(duì)這些污染物相關(guān)的代謝物進(jìn)行了代謝通路分析;結(jié)果發(fā)現(xiàn),在患有哮喘的通勤者體內(nèi),幾種炎癥相關(guān)的代謝通路和氧化應(yīng)激相關(guān)的代謝通路均發(fā)生了改變,其中精氨酸、組氨酸和甲硫氨酸是與空氣污染相關(guān)的關(guān)鍵代謝物,這一發(fā)現(xiàn)更好地揭示了交通相關(guān)空氣污染物對(duì)哮喘病人的潛在不良影響。Alderete等[62]結(jié)合代謝組學(xué)方法和通路富集分析,揭示了與血漿中PFASs濃度相關(guān)的代謝紊亂;結(jié)果發(fā)現(xiàn),較高水平的PFASs暴露與幾種脂質(zhì)和氨基酸通路的代謝紊亂以及西班牙裔青少年血糖穩(wěn)態(tài)的長(zhǎng)期變化之間存在緊密關(guān)系。在一個(gè)母嬰隊(duì)列中,Wu等[63]利用代謝組學(xué)分析結(jié)合中間相遇方法,發(fā)現(xiàn)了多種代謝物可以作為金屬或類金屬元素與妊娠糖尿病之間關(guān)聯(lián)的標(biāo)志物,這些代謝標(biāo)志物主要涉及脂質(zhì)代謝和腺苷酸/精氨酸/一氧化氮代謝途徑。You等[22]利用代謝組學(xué)和中間相遇方法分析了PFASs暴露與高尿酸血癥風(fēng)險(xiǎn)正相關(guān)關(guān)系背后的代謝擾動(dòng),發(fā)現(xiàn)脂質(zhì)代謝物是介導(dǎo)該過程的重要代謝物。此外,Wang等[23]通過分析電子垃圾拆解地區(qū)及臨近非暴露地區(qū)的孕婦胎盤組織發(fā)現(xiàn),處于電子垃圾拆解地區(qū)的孕婦暴露了大量的多溴聯(lián)苯醚,而這些多溴聯(lián)苯醚與新生兒頭圍和1 min內(nèi)膚色、心率、對(duì)刺激的反應(yīng)、肌張力和呼吸綜合評(píng)分(appearance, pulse, grimace, activity, respiration score at 1 min, Apgar1)值的降低顯著相關(guān);其中參與該過程的代謝途徑有磷酸戊糖途徑、抗壞血酸代謝途徑、蘇氨酸代謝途徑、丁酸代謝途徑、脂質(zhì)代謝途徑和精氨酸生物合成等??傊?將代謝組與暴露組相結(jié)合,能夠系統(tǒng)性地揭示環(huán)境暴露后的機(jī)體代謝紊亂現(xiàn)象,為研究環(huán)境暴露引起的疾病機(jī)制提供額外的見解。
將暴露組學(xué)與基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等組學(xué)分析方法相結(jié)合,有助于在多個(gè)生物學(xué)層面揭示環(huán)境因素對(duì)生物體的影響機(jī)制。多組學(xué)整合分析能夠綜合利用高維分子測(cè)量與計(jì)算技術(shù),闡明生物體內(nèi)的復(fù)雜相互作用,幫助揭示環(huán)境因素引起的生物學(xué)變化,并進(jìn)一步評(píng)估環(huán)境因素對(duì)健康的影響[64]。目前,已有不少研究利用多組學(xué)整合策略來研究環(huán)境因素對(duì)健康的影響。Chao等[65]通過測(cè)量胎盤組織中多種內(nèi)、外源性化學(xué)物質(zhì),結(jié)合表觀基因組和轉(zhuǎn)錄組,發(fā)現(xiàn)一些外源性化學(xué)物質(zhì)與子癇前期相關(guān)的分子特征有很強(qiáng)的相關(guān)性,這一結(jié)果表明外源性化學(xué)物質(zhì)可能影響表觀基因和轉(zhuǎn)錄過程,揭示了子癇前期的潛在發(fā)病機(jī)制。另一項(xiàng)研究[66]基于HELIX隊(duì)列探究了早期生活中的環(huán)境暴露對(duì)生命周期健康影響的分子表型;在研究過程中,研究人員將在妊娠期和兒童期暴露組學(xué)研究中發(fā)現(xiàn)的一百多種暴露因素(化學(xué)物質(zhì)、戶外、社會(huì)和生活方式)與兒童期的多組學(xué)特征(甲基化組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組)相關(guān)聯(lián),發(fā)現(xiàn)了多種暴露因素和分子特征之間存在顯著關(guān)聯(lián),揭示了早期生活環(huán)境暴露中潛在的生物反應(yīng)和暴露源??傊?通過整合分析多個(gè)不同層次的生物學(xué)信息,有助于深入了解不同分子層面的環(huán)境暴露與健康之間的關(guān)聯(lián),并為健康風(fēng)險(xiǎn)評(píng)估提供更準(zhǔn)確和更全面的科學(xué)依據(jù)。
上述方法各有優(yōu)缺點(diǎn),暴露組關(guān)聯(lián)研究的優(yōu)點(diǎn)是模型簡(jiǎn)單,容易確定外源性化學(xué)物質(zhì)和結(jié)局的關(guān)系,是目前最常用的暴露組學(xué)研究方法,但目前相關(guān)研究大多是基于橫斷面人群隊(duì)列開展的,無法獲得暴露因素和結(jié)局之間的因果關(guān)系。此外,暴露組關(guān)聯(lián)研究不考慮化合物之間的相互作用,容易導(dǎo)致虛假關(guān)聯(lián)的產(chǎn)生?;旌媳┞堆芯康膬?yōu)點(diǎn)是可獲得多種外源性化學(xué)物質(zhì)的聯(lián)合暴露效果,相比于單變量暴露研究,混合暴露研究更加接近真實(shí)世界的暴露場(chǎng)景。然而,目前的混合暴露模型有限,在納入變量較多的情況下很容易造成模型過擬合。暴露組與多組學(xué)關(guān)聯(lián)研究的優(yōu)點(diǎn)是可以發(fā)現(xiàn)外源性化學(xué)物質(zhì)與多種生物分子特征之間的關(guān)系,能夠更加深入地探究暴露因素對(duì)生物體的作用機(jī)制,但其技術(shù)門檻和實(shí)驗(yàn)成本較高,開展難度大。目前混合暴露研究和暴露組與多組學(xué)關(guān)聯(lián)研究仍未得到廣泛應(yīng)用,但可以預(yù)見的是,隨著數(shù)據(jù)技術(shù)和分析方法的不斷進(jìn)步,未來這些研究范式將在環(huán)境健康研究中發(fā)揮越來越重要的作用。
近年來,組學(xué)技術(shù)的進(jìn)步為暴露組研究帶來了空前的發(fā)展,暴露組的內(nèi)涵和外延也得到了完善和更新。然而,在現(xiàn)有條件下仍然無法準(zhǔn)確定量一個(gè)人的暴露組,因此暴露組研究所采用的分析技術(shù)和方法仍需進(jìn)一步完善。結(jié)合實(shí)驗(yàn)室近期工作,對(duì)暴露組學(xué)的未來做出如下展望:(1)在方法學(xué)層面,暴露組學(xué)關(guān)注的是所有環(huán)境因素的總和,然而現(xiàn)有的研究著重于人體內(nèi)暴露,難以對(duì)暴露組進(jìn)行全面表征。因而未來需要更高覆蓋度的方法來全面監(jiān)測(cè)人體內(nèi)、外暴露,并將二者結(jié)合用以全面闡明環(huán)境因素對(duì)人類健康的影響。(2)在暴露因素與不良健康效應(yīng)的關(guān)聯(lián)研究中,盡管利用大規(guī)模人群數(shù)據(jù)獲得了較穩(wěn)健的關(guān)聯(lián)結(jié)果,但仍然可能存在一些未被測(cè)量的混雜因素,導(dǎo)致關(guān)聯(lián)結(jié)果的準(zhǔn)確度受到影響。所以未來研究中應(yīng)考慮更多的混雜因素,在更大規(guī)模的人群研究中控制混雜因素,進(jìn)一步提高關(guān)聯(lián)結(jié)果的穩(wěn)健性。(3)目前,橫斷面研究方法在暴露組學(xué)研究中被廣泛使用,然而這一方法不能提供暴露因素與不良健康效應(yīng)間的因果關(guān)系。因此,未來應(yīng)該開展大規(guī)模的前瞻性隊(duì)列研究,對(duì)已發(fā)現(xiàn)的暴露疾病風(fēng)險(xiǎn)關(guān)聯(lián)結(jié)果進(jìn)行因果關(guān)系驗(yàn)證。(4)關(guān)于暴露因素對(duì)慢性疾病風(fēng)險(xiǎn)的作用機(jī)制,需在基因組、蛋白質(zhì)組和代謝組等多層面上進(jìn)行探究,才能窺見環(huán)境暴露對(duì)慢性疾病影響過程的全貌。結(jié)合系統(tǒng)生物學(xué)和環(huán)境毒理學(xué)等多學(xué)科,共同深入闡明暴露因素對(duì)慢性疾病發(fā)展風(fēng)險(xiǎn)影響的具體作用機(jī)制是未來的發(fā)展趨勢(shì)。