王敏,黃寅,張偉,張尊建*,許風國**
(1. 中國藥科大學藥物質量與安全預警教育部重點實驗室,江蘇 南京 210009;2. 中國藥科大學天然藥物活性組分與藥效國家重點實驗室,江蘇 南京 210009;3. 澳門科技大學中藥質量研究國家重點實驗室,澳門 519020)
·前沿與進展· ADVANCES IN PHARMACEUTICAL SCIENCES
代謝組學信息獲取與數據預處理瓶頸問題探討
王敏1,2,黃寅1,2,張偉3,張尊建1,2*,許風國1,2**
(1. 中國藥科大學藥物質量與安全預警教育部重點實驗室,江蘇 南京 210009;2. 中國藥科大學天然藥物活性組分與藥效國家重點實驗室,江蘇 南京 210009;3. 澳門科技大學中藥質量研究國家重點實驗室,澳門 519020)
專題:組學與網絡藥理學
編者按:近年來,隨著醫(yī)藥生命科學的不斷深入,人們逐漸意識到一些問題:例如,對于腫瘤、心血管疾病、糖尿病及神經性疾病等復雜疾病,僅使用針對單一分子靶點的高特異性化合物難以獲得很好的療效,基于“一個基因,一種藥物,一種疾病”的傳統(tǒng)藥物研發(fā)模式已顯示出其發(fā)展的局限性;又如,中藥化學成分的復雜性,導致很多關鍵性科學問題(中藥藥效物質基礎、作用機制、配伍規(guī)律和毒性機制等)不能得到有效解決,使得中藥現代化的進程變得尤為艱難。而組學(Omics)和生物信息學(Bioinformatics)等新興學科的誕生和飛速發(fā)展,為上述難題的攻克提供了可能。2013年10月,由中國科協(xié)主辦、中國藥學會和《中國天然藥物》編委會承辦的中國科協(xié)第86期“新觀點新學說”學術沙龍在南京召開,多位專家學者就“網絡藥理學,中藥現代化的新思路新方法”這一主題展開了交流,為與會代表奉獻了一場思想的盛宴。本刊編輯部特邀出席此次會議的四位專家——中國藥科大學許風國教授、中國科學院上海藥物研究所周虎研究員、解放軍后勤工程學院趙靜教授和重慶大學呂海濤研究員作客本期“前沿與進展”欄目,與讀者分享他們在組學技術與生物信息學技術研究中的成果和思路,為網絡藥理學及中藥現代化研究的進一步發(fā)展提供寶貴的參考。
經過近15年的快速發(fā)展,代謝組學已逐步成熟并滲透到生命科學和醫(yī)學研究領域的各個層面。隨著認識的不斷深入,各種影響代謝組學研究的細節(jié)因素和技術瓶頸逐步被揭示。從生物樣品采集與制備、原始數據采集、數據預處理和方法學驗證等方面系統(tǒng)探討了影響代謝組學研究的主要瓶頸問題,以期推動代謝組學研究的精細化和規(guī)范化發(fā)展。
代謝組學;數據采集;數據預處理;方法學驗證
隨著人類科學研究思維從“點”到“面”再到“系統(tǒng)”的不斷“相位轉移”,催生了基因組學、轉錄組學、蛋白質組學和代謝組學等各種組學技術。其中代謝組學主要研究生物體系在內、外因素(如遺傳變異、疾病侵襲、藥物干預、環(huán)境變化等)作用下,所含內源性小分子代謝物(一般指相對分子質量低于1 000的代謝物)種類、數量變化的動態(tài)規(guī)律及與生理、病理變化的關聯(lián)。代謝組學以生物體內參與物質傳遞、能量代謝和信息傳導等代謝調控的全體小分子物質即代謝組(metabolome)為研究對象,這些內源性小分子代謝物處于生物信息流的末端,它們的整體輪廓包含著基因組(genome)、轉錄組(transcriptome)、蛋白質組(proteome)變化及相互間協(xié)調作用的終極信息,能直接反映生物體的表型(phenotype)特征。
代謝組學從1999年Nicholson提出概念,經歷了近15年的快速發(fā)展,目前已逐步成熟并已滲透到生命科學和醫(yī)學領域的各個層面,尤其在藥物研發(fā)[1]、疾病診斷[2-4]、藥物毒性和機制研究[5]、植物代謝物研究[6-8]等諸多方面展現出良好的潛能。據統(tǒng)計,全球每年發(fā)表的代謝組學相關SCI論文超過3 000篇。中國學者對代謝組學研究也表現出越來越大的熱情,2013年國家自然科學基金資助代謝組學相關研究課題180項,基金資助的總量超過1億元(見圖1)。
圖1 2003—2013年間國家自然科學基金資助的代謝組學相關科研項目數的逐年統(tǒng)計結果(數據統(tǒng)計截至2013年12月31日)Figure 1 Number of metabolomics-related research projects supported by the National Natural Science Foundation of China between 2003—2013
然而,隨著代謝組學研究從粗放向精細的轉變,各種影響代謝組學研究的細節(jié)因素和技術瓶頸也逐步被揭示。本文結合筆者所在課題組在該領域多年的研究成果,從生物樣品采集與制備、原始數據采集、數據預處理和方法學驗證等4個方面系統(tǒng)探討了影響代謝組學研究的主要瓶頸問題,以期推動代謝組學研究的精細化和規(guī)范化發(fā)展。
生物樣品的采集和前處理是代謝組學研究的初始步驟,生物樣本自身的質量往往決定了代謝組學研究結果的可靠性和價值。影響生物樣本質量的主要因素包括樣本種類、采集時間、采集部位、樣本數、前處理方式等。尿樣、血清、血漿、組織、細胞等是代謝組學研究常用生物樣本,在選取何種生物樣本時,既需充分考慮實驗的目的、分析方法的特點,同時要兼顧實驗動物和人體試驗倫理學。實驗設計中需要采集足夠數量的代表性樣本,減少生物樣品個體差異對分析結果的影響,應充分考慮實驗對象的飲食習慣、性別、年齡、晝夜節(jié)律。此外,生物樣本前處理方式選擇要綜合考慮簡便性、重現性、代謝物覆蓋廣等因素。
1.1 血樣
作為臨床實驗和病理學研究最常采用的一種生物樣品,血樣具有易于采集且蘊含代表生物體整體特征的代謝物信息的特點。但是,血樣采集部位、是否加抗凝劑、抗凝劑種類、抗凝劑濃度、放置時間等因素都會影響血樣的質量,如在實驗設計和操作中對這些因素不加嚴格控制,必將影響代謝組學研究結果的可靠性。
血樣采集過程中是否使用抗凝劑是一個需要慎重考慮的問題,抗凝劑對血樣所含代謝物的種類、數量甚至濃度水平都有較大影響。已有研究揭示,血漿所含代謝物數量顯著少于血清。在濃度水平方面,小分子多肽、次黃嘌呤、黃嘌呤在血清中含量顯著高于血漿,而溶血磷脂酰肌醇在血清中含量卻顯著低于血漿[9]。Barri等[10]采用UPLCESI-QTOF/MS系統(tǒng)比較血清和分別采用檸檬酸、EDTA和肝素作為抗凝劑得到的血漿樣本間的差異。結果表明,血清與采用不同抗凝劑制備的血漿樣本在PCA得分圖上存在明顯分界線,且不同抗凝劑所得血漿樣本亦存在一定差異。不同抗凝劑所得血漿樣本不但整體代謝輪廓不同,而且特定代謝物如尿酸、酪氨酸、蛋氨酸、尿苷、腺嘌呤、焦谷氨酸等的濃度水平也彼此間差異顯著。研究還發(fā)現采用檸檬酸和EDTA為抗凝劑時,抗凝劑自身會對共流出物產生離子信號的抑制或增強,影響結果的重現性,并建議選擇不加抗凝劑的血清樣本或者用肝素血漿樣本進行LCESI/MS代謝組學研究。但肝素血漿并不適于GC-MS代謝組學分析,Bando等[11]研究表明,當采用肝素抗凝制備血漿時,肝素衍生化產物的峰會掩蓋內源性代謝物。綜合現階段的研究,血清樣本似乎是LC/MS和GC/MS代謝組學研究的首選。
對于血樣采集,采血部位、放置時間、麻醉劑等因素也是需要考慮和考察的影響因素[9,11]。已有研究證明靜脈穿刺和毛細血管采血、腹主動脈和頸靜脈等不同取血方式所得血樣代謝輪廓圖有所差別。血樣放置時間包括3個方面:一是從全血采集到離心分取血清或血漿之間的放置時間;二是從分取血清或血漿到凍存的時間;三是從血樣凍存到代謝組學分析間的時間。血樣放置時間的長短以及可能產生的影響需要認真考察和嚴格控制。Yin等[12]研究發(fā)現,全血室溫放置制備血漿代謝物信號強度減弱,其中64個代謝物發(fā)生顯著性變化,而全血冰浴放置制備血漿4 h內穩(wěn)定。血漿樣品凍融4次,代謝輪廓圖僅有很小的變化,表現在個別代謝物上,如左旋肉堿。出于人道主義以及動物倫理學的要求,在進行實驗動物取血時往往會先麻醉,因此麻醉劑種類和濃度也是代謝組學研究需要考量的因素,Bando等[11]考察了麻醉劑對血漿樣本GC-MS代謝輪廓的影響,發(fā)現麻醉劑的使用僅會減少動物的不適反應,不會減低個體差異,乳酸含量在應激的狀態(tài)(腹主動脈取血、非麻醉狀態(tài))下會顯著增大。對于血樣,溶血是常見現象,溶血程度將嚴重影響生物標記物篩選結果的可靠性。研究發(fā)現,與輕度溶血血漿相比,中度和重度溶血的樣本中69個代謝物發(fā)生顯著性變化,且代謝輪廓圖個體差異大[12]。
1.2 尿樣
尿液是代謝組學研究中另一個常用的生物樣本,具有非破壞性、可重復多次采樣以及含有豐富代謝物信息、樣品前處理簡單等特點。在收集尿液時應注意控制個體狀態(tài)(如飲食等)、收集的步驟(包括時間、體積和溫度)、防腐劑(如疊氮化鈉、甲醛等)等因素對實驗的干擾。Bando等[11]比較了不同采集時間段和采樣條件對尿液內源性物質的影響,結果表明不同采樣間隔(4和24 h)所得尿樣代謝輪廓譜和個體間離散程度有較大區(qū)別,這綜合了晝夜節(jié)律、樣本放置等因素的影響。此外,Bando等還發(fā)現,與常溫相比,在冰上收集尿液,個體差異小,更有利于代謝組學分析。在尿液的收集和保存過程中,為抑制細菌的生長和微生物降解作用,Want等[13]建議在冰上收集24 h的大鼠尿液,同時在收集容器中加入抑菌劑疊氮化鈉。
在代謝組學研究中,分析方法是連接原始生物樣本和生物標記物以及相關代謝通路的橋梁,因此代謝組學研究中采集信息的分析方法應能夠全面、無偏向性地反映生物樣本的代謝輪廓。一個理想的代謝組學分析方法或分析策略應具備以下幾點:1)無偏向性:涵蓋各種代謝物類型,可測濃度范圍廣泛;2)高通量:樣本處理簡單或者不需要樣品前處理;3)穩(wěn)定性和重現性好;4)可同時定性定量測定代謝物。GC/MS、LC/MS和NMR是目前代謝組學研究中信息獲取的3種主要分析方法和手段,它們各有優(yōu)缺點,在實際應用中,為實現代謝物的更廣覆蓋,這3種方法一般多組合使用。
2.1 基于GC/MS的代謝組學信息獲取
GC/MS的主要優(yōu)點是靈敏度高,色譜分離重現性和質譜檢測重現性高,當采用電子轟擊源(EI)時有標準質譜圖庫輔助代謝物鑒定,GC/MS成為代謝組學研究支柱分析平臺之一[14-16]。然而,GC/MS分析對象僅限于揮發(fā)性好和熱穩(wěn)定性高的代謝物,由于大多數內源性代謝物如氨基酸、脂肪酸、胺類、糖類、甾體等是非揮發(fā)性的極性化合物,不能直接進樣分析,需要對樣品進行化學衍生化,轉化成相應的揮發(fā)性衍生物以滿足GC/MS檢測。硅烷化、?;屯榛?種常用的衍生化方式,其中硅烷化適用于所有含活性氫的化學官能團(如―COOH、―OH、―NH―和―NH2)且相對操作簡易,GC/MS代謝組學常采用雙(三甲基硅烷基)三氟乙酰胺(BSTFA)和N-甲基-N-(三甲基硅烷基)三氟乙酰胺(MSTFA)試劑進行硅烷化[4,17]。由于羰基和BSTFA或MSTFA硅烷化試劑反應緩慢且易發(fā)生異構化,因此在樣品進行硅烷衍生化之前常常先進行甲氧胺肟化反應。
樣品前處理步驟越多,引入誤差的概率就越大。肟化及硅烷衍生化反應過程所涉及的各個因素(如反應時間、溫度、衍生化試劑類型等)都會影響GC/MS信息獲取的質量,其最為嚴重的后果就是導致“多峰多來源”的現象。所謂“多峰”是指一個化合物在GC/MS色譜圖上表現為多個色譜峰,而“多來源”是指一個色譜峰來源于幾個不同的化合物。造成GC/MS“多峰多來源”的原因涉及樣品制備和分析整個過程,包括衍生化過程中所產生的副產物,不完全衍生化,溶液中或衍生化過程中化合物構型轉變,提取、衍生化和氣化室中樣品的降解等[18-19]。“多峰多來源”問題已成為GC/MS代謝組學研究中的一大技術瓶頸,它既影響后續(xù)數據處理,曲解生物標記物和代謝通路,又影響代謝組學結果生物意義的闡釋。
2.2 基于LC/MS的代謝組學信息獲取
與GC/MS相比,LC/MS具有分離效能高、分析速度快、檢測靈敏度高的特點,同時不受樣品揮發(fā)性和熱穩(wěn)定性的限制,無需衍生化即可分析體液中的極性化合物,應用范圍廣。相對于常規(guī)樣品分析,代謝組學的研究對象是更為復雜的生物樣品基質,如血漿、尿樣、組織等,并且樣品數量巨大,這就要求液相色譜具有更加高效、快速、靈敏的性能。為滿足上述要求,研究者們常采用小顆粒填料(通常小于2 μm)的超高效液相色譜(UPLC)進行生物樣品分析。UPLC與MS聯(lián)用為代謝組學提供更加高效靈敏的分析平臺。
在目前基于LC-MS的代謝組學信息獲取中主要技術挑戰(zhàn)包括兩個方面。1)代謝物的鑒別:不同于GC/MS分析具有標準譜圖庫用于代謝物結構鑒定,LC/MS分析中代謝物的鑒別主要以待測物質的準確質荷比為基礎,在網絡數據庫[如HMDB(Human Metabolome Database,網址:http://www.hmdb.ca/)等]中進行匹配分析,來確定代謝物結構,但這種方式極易造成假陽性結果。LC/MS分析中保留時間和碎片質譜圖在不同儀器系統(tǒng)間是不可重現的,這主要是由于液相色譜柱本身的化學性質及儀器廠家的設計不同導致。因此,在沒有可供定性鑒別的標準譜庫的情況下,代謝物結構解析存在較大的難度。為合理準確地確證代謝物,首先應判斷代謝物的離子類型,再結合準確質荷比在數據庫中進行匹配,分析代謝物的二級或多級裂解規(guī)律,初步確證代謝物,最后和標準品或類標準品(即與代謝物具有同一裂解途徑、同一中性丟失或相同離子碎片的物質)進行核對。2)分析方法上對化合物的偏向性:弱極性的化合物,如磷脂、非極性氨基酸,在反相色譜柱(RPLC)保留行為良好,而極性化合物會在死時間出峰,不能很好地分離和檢測。Spagou等[20]比較了25個代謝物在RPLC和親水作用色譜柱(HILIC)上的保留行為,發(fā)現HILIC可以提供在RPLC上保留差的極性化合物的信息,作者認為結合分析RPLC和HILIC的數據信息可以更為全面地研究代謝組,但這無疑會成倍地增加代謝組學研究工作的量和難度。
2.3 基于NMR的代謝組學信息獲取
作為一種結構分析的有力工具,NMR主要優(yōu)勢在于能夠對樣品實現無創(chuàng)性、無偏向性的檢測,樣品不需要繁瑣處理,單位樣品檢測成本低,重現性良好[21]。對于NMR的代謝組學信息獲取,目前存在的主要問題是由于分段切割積分造成的變量與代謝產物不對應性。NMR圖譜分析與信息提取技術主要采用分段積分(Binning)的方法。在對NMR獲得的數據進行分析時,首先要根據檢測樣本的NMR譜圖生成m行(每行代表1個樣本)n列(每列對應樣本的1個變量)的原始數據矩陣,由于每個樣本數據量非常大,為了便于分析,通常需要先將譜圖數據分段積分,降低矩陣的維數。分段積分就是把NMR圖譜按一定的步長(如0.04 ppm)切割成數百個小單元,并對每個單元進行積分,每個單元對應1個變量,以此構建數據矩陣。這種方法存在的最大問題是,它完全由軟件自動完成,可能會把1個完整的信號峰割裂成幾段或者把不同峰的部分積分到一起,得到的變量可能與代謝物沒有直接關聯(lián)。此外,由于化學位移易受酸堿度的影響,不同樣本間酸堿度的差異導致了相同信號化學位移的不同,這就使得NMR數據更加敏感復雜,并最終影響生物標記物篩選和生物學意義的闡釋[22]。
采用儀器分析得到的原始圖譜并不能直接用于化學計量學分析,還需要對數據預處理。將原始圖譜轉變?yōu)閿祿仃?,充分抽提所獲數據中的潛在信息,消除或減小實驗和分析過程中帶來的誤差是代謝組學數據預處理的主要目的。代謝組學數據預處理主要包括以下幾個方面:峰識別、提取、排列、對齊、合并、共有峰篩選等;缺失值的填補;歸一化(normalization);標尺化(scaling)等步驟。
隨著代謝組學的迅猛發(fā)展,用于數據前處理的商品化軟件也應運而生,由于NMR、GC/MS和LC/MS圖譜中信息表現形式不同,每種軟件的適用對象也不同,例如XCMS、MZmine、Metalign、Metaboanalysist等可處理GC/ MS和LC/MS數據,MestreNova、Xwin NMR、MestReC、AMIX等可處理NMR數據。雖然軟件可輔助進行數據預處理,提高效率,但所得結果的可靠性值得探究。Koh等[23]利用GC/MS分別對混合標準品和實際生物樣本(膀胱癌和健康受試者的尿液)采集數據,采用Calibration feature、Statistical Compare、MetAlign、 MZmine這幾種軟件對數據進行預處理,比較不同軟件的峰對齊準確性,發(fā)現不同的軟件對混合標準品和實際生物樣品圖譜峰對齊的準確度都不能達到100%,且存在差異,對實際生物樣本數據處理后所構建的OPLS-DA模型的預測能力也存在差異。這一研究結果提示商品化軟件的峰對齊算法不同且存在不足,需進一步改進,實際工作中需慎重選擇合適的軟件處理圖譜,或者可采用多種軟件進行交互驗證。此外,在軟件自動處理數據的基礎上,手動去核對信息,以確保數據預處理的準確度也是必不可少的環(huán)節(jié)。
3.1 歸一化
生物樣本中代謝產物種類繁多,且濃度差異很大(達幾個數量級),從生物學角度分析,濃度高的代謝物不一定比濃度低的代謝物具有更重要的生理作用;相反,某些低濃度的物質可能在指示藥物作用或疾病過程中起著不容忽視的作用。因此,為了保證檢測到的所有代謝物能被公平地分析,需要對數據進行歸一化。
在尿樣的分析中,相同采集間隔,受飲水量及其他生理因素影響,尿液的體積存在較大的差異,其所含代謝物濃度也會存在較大的差異。因此,需要對數據進行歸一化處理以消除尿液體積造成的變異。目前尿樣代謝組學研究主要有4種歸一化方法:體積法、肌苷法、滲透濃度法、總面積法。Warrack等[24]采用高低劑量給藥建立大鼠磷脂質病模型(雌雄各半),對收集的尿液進行LC-MS分析,比較了不歸一化和分別采用4種歸一化方法構建PCA模型的聚類情況,滲透濃度法、總面積法能夠將4組樣品分開,其他3種方法則不能有效區(qū)別4組樣品。
若代謝組學研究對象是細胞,那么歸一化以減少細胞數目差異所造成的變異也是必要的,Silva等[25]比較了細胞提取物代謝組學研究中3種歸一化方法:細胞計數法、蛋白含量法及DNA法,DNA法歸一化由于不需要單獨的平行樣品,且在不同細胞系和時間序列分析的準確性、重現性都較好,作者推薦使用DNA法對細胞代謝組學數據進行歸一化處理,但如果實驗中使用了破壞細胞生長周期的DNA破壞劑,此時筆者更推薦使用細胞計數法進行校正。
3.2 標尺化
與歸一化是針對同一樣本不同變量的預處理方式不同,標尺化是針對不同樣本同一變量的處理。生物體在內、外因素(如遺傳變異、疾病侵襲、藥物干預、環(huán)境變化)作用下,代謝物濃度會發(fā)生倍數級變化,在統(tǒng)計分析前需將所有變量的響應強度大小統(tǒng)一在同一個標尺上,避免變量自身響應強度差異對模型的影響,這個過程即是數據標尺化的過程。常用的標尺化方法有:均值中心法(meancentering)、自標尺化(autoscaling)、Pareto scaling、邏輯轉換法(log transformation)、Power transformation等[26]。均值中心法是將每個變量減去該變量的平均值,對變量的大小沒做任何變化,即數值大的變量仍然占有較大的權重;自標尺化以標準差為標尺化因子,自標尺化后每個變量的標準差為1,具有相同權重,但是這個方法會放大由于儀器或者其他因素導致的系統(tǒng)偏差;Pareto scaling和自標尺化很相似,以標準差的平方根為標尺化因子,在一定程度上消除了變量響應的影響又不至于放大系統(tǒng)偏差,但是這種方法對變化大的變量很敏感;邏輯轉換法不同于上述方法,是對變量的一種非線性轉化,可以減少變量的方差差異性,但是無法處理0值變量。對于同一組數據,Masson等[27]采用均值中心法和Pareto scaling處理后,高豐度變量變異較大,PCA的分類情況過度取決于高豐度的變量,而忽視低豐度變量的分類作用,采用邏輯轉換法進行標尺化之后,數據的變異呈均勻分布,高低豐度變量對模型分類貢獻在同一標尺上。每一種標尺化方法都有其優(yōu)缺點,對于一組數據,選用合適的標尺化方式能在一定程度上確保數據分析結果的合理性。
方法學驗證是整個實驗數據可靠的基本保證,是基于無歧視分析的非目標性代謝組學和基于目標代謝物定量的目標性代謝組學研究的基礎。
目標性代謝組學研究是針對某類生物標志物或者某條完整的代謝通路進行精細化、定量化的研究。這類代謝組學研究大多參考FDA生物樣品分析的方法學驗證指導原則[2,28],一般從特異性、標準曲線和定量范圍、定量下限、精密度和準確度、穩(wěn)定性等幾方面考察,這部分方法學驗證的方法和評價標準都比較成熟明確。
非目標性代謝組學旨在無歧視分析所有內源性代謝物,目前主要有GC-MS、LC-MS、NMR這3種分析平臺。NMR是相對穩(wěn)定和可重現的分析方法[22],對于基于LC-MS和GC-MS代謝組學方法學驗證,眾多研究者都進行了積極的探索,目前主要采用基于質控(quality control,QC)樣品的方法學驗證[20,29-33]。目前主要有3種類型的QC樣品:樣品中各類成分代表性物質的混合標準品QC樣品,等量待分析樣品均勻混合的pooled QC樣品及商品化替代QC樣品[4,17]。對于混合標準品QC樣品,一方面由于非目標代謝組學所研究的樣品成分往往是未知的,要獲得各類成分標準品在實際工作中比較困難,另一方面同一類成分選取一兩個成分標準品,并不具有完整的代表性,所以筆者不推薦采用混合標準品QC樣品進行方法學驗證。基于pooled QC樣品的代謝組學方法學驗證在目前代謝組學研究中應用最為廣泛。Pooled QC樣品通過取相同量的待分析樣品(如血漿、尿液等)均勻混合得到,被認為可以反映在分析檢測過程中可能遇到的所有成分,代表待分析樣品的平均情況。但是對于大規(guī)模代謝組學研究,如HUSERMET project,經年累月,為確保樣品穩(wěn)定,部分樣品分析和數據獲取是在完成所有樣品采集之前進行的,pooled QC樣品是無法制備獲取的,此時就采用商品化替代QC樣品。商品化替代QC樣品并不是實際分析樣品,常常會損失一些代謝物信息。
儀器從開機到平衡穩(wěn)定需要一段時間,Spagou等[20]通過PCA模型中的第一主成分時間序列相關性圖譜(time series dependency of the first component)說明前幾針樣品的保留時間和質譜響應變異較大,所以一般會在正式開始實驗前進5~10針的調節(jié)QC(conditioning QC)樣品使儀器狀態(tài)達到穩(wěn)定,以消除保留時間和質譜響應變異。
在大批量未知樣品分析時,QC樣品被均勻地插入樣品分析過程中,以驗證進樣期間分析系統(tǒng)的穩(wěn)定性。常用非監(jiān)督的主成分分析(PCA)的得分圖(score plot)和第一主成分時間序列相關性圖譜展示分析方法的穩(wěn)定性[20,33]。一個穩(wěn)定的分析方法,QC樣品在PCA得分圖上聚集度較好,然而QC樣品在PCA得分圖上聚集并不一定能說明分析方法穩(wěn)定。因為PCA模型包含未知樣品和QC樣品,若待分析樣品的差異性很大,儀器系統(tǒng)不穩(wěn)定、色譜柱老化等原因造成的微小變異性會被待分析物巨大的差異掩蓋,在PCA得分圖上并不會展現出來。PCA模型中的第一主成分時間序列相關性圖譜從另一個角度說明分析過程中分析方法的變異,進一步確認方法的穩(wěn)定性。方法穩(wěn)定可靠的前提下對樣品分析,可以反映遺傳變異、疾病侵襲、藥物干預、環(huán)境變化等因素所導致的代謝差異,從而找出相應的生物標記物和代謝通路。
此外,代謝組學研究中,特別是大規(guī)模大批量代謝組學研究,例如流行病研究,生物樣品采集后常常不能實時分析,樣品需要先保存起來。另外由于偶發(fā)性的儀器故障等原因,樣品可能需要再次分析。樣品分批后放入進樣器中按進樣序列分析需等待一段時間。實際工作中應根據具體情況,驗證保存和分析過程中樣品的穩(wěn)定性,選擇性地對生物樣品在進樣器、冰凍、凍融條件下以及不同存放時間進行穩(wěn)定性考察,以確定樣品的存放條件和時間。
目前,代謝組學研究已逐步成熟,并逐漸實現了從粗放型向精細化的轉變。關注和研究生物樣品采集與制備、數據采集、數據預處理與統(tǒng)計分析以及方法學驗證每個操作步驟中所包含的“瓶頸問題”,建立通用、可靠、嚴謹的研究規(guī)范,保證代謝組學研究結果的可靠性和可重現性是當前的首要任務。
此外,代謝組學作為系統(tǒng)生物學的重要組成部分,其未來主要發(fā)展的趨勢還包括:從非目標性代謝組學到目標代謝組學,從宏觀到微觀研究;將細胞、動物研究所獲得研究結論有效可靠地轉化到人體樣本研究;發(fā)展更為廣譜的、原位、即時、通用的檢測方法,同時完成高豐度代謝物和低豐度代謝物的檢測;代謝組學數據與其他組學(如基因組學、轉錄組學、蛋白質組學等)多組學數據的融合、關聯(lián)分析等。
[1]Zhou W J, Song J Z, Fu W W, et al. Chemical comparison of two dosage forms of Hemp Seed Pills by UHPLC-QTOF-MS/MS and multivariate statistical techniques [J]. J Pharm Biomed Anal, 2013, 84: 59-68.
[2]Struck W, Siluk D, Yumba-Mpanga A, et al. Liquid chromatography tandem mass spectrometry study of urinary nucleosides as potential cancer markers [J]. J Chromatogr A, 2013, 1283: 122-131.
[3]Loftus N J, Lai L, Wilkinson R W, et al. Global metabolite profiling of human colorectal cancer xenografts in mice using HPLC-MS/MS [J]. J Proteome Res, 2013, 12 (6): 2980-2986.
[4]Jiang M, Chen T, Feng H, et al. Serum metabolic signatures of four types of human arthritis [J]. J Proteome Res, 2013, 12 (8): 3769-3779.
[5]Geng L L, Ma C, Zhang L, et al. Metabonomic study of Genkwa Flosinduced hepatotoxicity and effect of herb-processing procedure on toxicity [J]. Phytother Res, 2013, 27(4): 521-529.
[6]Zhu H B, Wang C Y, Qi Y, et al. Fingerprint analysis of Radix Aconiti using ultra-performance liquid chromatography-electrospray ionization/tandem mass spectrometry (UPLC-ESI/MSn) combined with stoichiometry [J]. Talant, 2013, 103: 56-65.
[7]Wolfender J L, Rudaz S, Choi Y H, et al. Plant metabolomics: from holistic data to relevant biomarkers [J]. Curr Med Chem, 2013, 20 (8): 1056-1090.
[8]Sun H, Wang M, Zhang A H, et al. UPLC-Q-TOF-HDMS analysis of constituents in the root of two kinds of Aconitum using a metabolomics approach [J]. Phytochem Anal, 2013, 24 (3): 263-276.
[9]Denery J R, Nunes A A, Dickerson T J. Characterization of differences between blood sample matrices in untargeted metabolomics [J]. Anal Chem, 2010, 83 (3): 1040-1047.
[10]Barri T, Dragsted L O. UPLC-ESI-QTOF/MS and multivariate data analysis for blood plasma and serum metabolomics: effect of experimental artefacts and anticoagulant [J]. Anal Chim Acta, 2013,768: 118-128.
[11]Bando K, Kawahara R, Kunimatsu T, et al. Influences of biofluid sample collection and handling procedures on GC-MS based metabolomic studies [J]. J Biosci Bioeng, 2010, 110 (4): 491-499.
[12]Yin P Y, Peter A, Franken H, et al. Preanalytical aspects and sample quality assessment in metabolomics studies of human blood [J]. Clin Chem, 2013, 59 (5): 833-845.
[13]Want E J, Wilson I D, Gika H, et al. Global metabolic profiling procedures for urine using UPLC–MS [J]. Nat Protoc, 2010, 5 (6): 1005-1018.
[14]Phua L C, Koh P K, Cheah P Y, et al. Global gas chromatography/ time-of-flight mass spectrometry (GC/TOFMS)-based metabonomic profiling of lyophilized human feces [J]. J Chromatogr B, 2013, 937: 103-113.
[15]Liu Y M, Cheng Y, Chen T L, et al. GC/TOFMS analysis of endogenous metabolites in mouse fibroblast cells and its application in TiO2nanoparticle-induced cytotoxicity study [J]. Chromatographia, 2012, 75 (21/22): 1301-1310.
[16]Wei C M, Li Y, Yao H, et al. A metabonomics study of epilepsy in patients using gas chromatography coupled with mass spectrometry [J]. Mol Biosyst, 2012, 8 (8): 2197-2204.
[17]Dunn W B, Broadhurst D, Begley P, et al. Procedures for large-scale metabolic profiling of serum and plasma using gas chromatography and liquid chromatography coupled to mass spectrometry [J]. Nat Protoc, 2011, 6 (7): 1060-1083.
[18]Xu F G, Zou L, Ong C N. Experiment-originated variations, and multi-peak and multi-origination phenomena in derivatization-based GC-MS metabolomics [J]. Trends Analyt Chem, 2010, 29 (3): 269-280.
[19]Xu F G, Zou L, Ong C N. Multiorigination of chromatographic peaks in derivatized GC/MS metabolomics: a confounder that influences metabolic pathway interpretation [J]. J Proteome Res, 2009, 8 (12): 5657-5665.
[20]Spagou K, Wilson I D, Masson P, et al. HILIC-UPLC-MS for exploratory urinary metabolic profiling in toxicological studies [J]. Anal Chem, 2010, 83 (1): 382-390.
[21]Lindon J C, Keun H C, Ebbels T M, et al. The consortium for metabonomic toxicology (COMET): aims, activities and achievements [J]. Pharmacogenomics, 2005, 6 (7): 691-699.
[22]Emwas A H M, Salek R M, Griffin J L, et al. NMR-based metabolomics in human disease diagnosis: applications, limitations, and recommendations [J]. Metabolomics, 2013, 9 (5): 1048-1072.
[23]Koh Y, Pasikanti K K, Yap C W, et al. Comparative evaluation of software for retention time alignment of gas chromatography/time-offlight mass spectrometry-based metabonomic data [J]. J Chromatogr A, 2010, 1217 (52): 8308-8316.
[24]Warrack B M, Hnatyshyn S, Ott K H, et al. Normalization strategies for metabonomic analysis of urine samples [J]. J Chromatogr B, 2009, 877 (5/6): 547-552.
[25]Silva L P, Lorenzi P L, Purwaha P, et al. Measurement of DNA concentration as a normalization strategy for metabolomic data from adherent cell lines [J]. Anal Chem, 2013, 85 (20): 9536-9542.
[26]van den Berg R A, Hoefsloot H C, Westerhuis J A, et al. Centering, scaling, and transformations: improving the biological information content of metabolomics data [J]. BMC genomics, 2006, 7: 142.
[27]Masson P, Spagou K, Nicholson J K, et al. Technical and biological variation in UPLC-MS-based untargeted metabolic profiling of liver extracts: application in an experimental toxicity study on galactosamine [J]. Anal Chem, 2011, 83 (3): 1116-1123.
[28]Huang Y, Tian Y, Li G, et al. Discovery of safety biomarkers for realgar in rat urine using UFLC-IT-TOF/MS and1H NMR based metabolomics [J]. Anal Bioanal Chem, 2013, 405 (14): 4811-4822.
[29]Gika H G, Macpherson E, Theodoridis G A, et al. Evaluation of theflight mass spectrometry [J]. J Pharm Biomed Anal, 2010, 52 (1): 129-135.
[32]Tan Y X, Yin P Y, Tang L, et al. Metabolomics study of stepwise hepatocarcinogenesis from the model rats to patients: potential biomarkers effective for small hepatocellular carcinoma diagnosis [J]. Mol Cell Proteomics, 2012, 11 (2): 1070-1083.
[33]Zelena E, Dunn W B, Broadhurst D, et al. Development of a robust and repeatable UPLC-MS method for the long-term metabolomic study of human serum [J]. Anal Chem, 2009, 81 (4): 1357-1364. repeatability of ultra-performance liquid chromatography–TOF-MS for global metabolic profiling of human urine samples [J]. J Chromatogr B, 2008, 871 (2): 299-305.
[30]Chen Y H, Xu J, Zhang R P, et al. Assessment of data pre-processing methods for LC-MS/MS-based metabolomics of uterine cervix cancer [J]. Analyst, 2013, 138 (9): 2669-2677.
[31]Lv Y H, Liu X R, Yan S K, et al. Metabolomic study of myocardial ischemia and intervention effects of compound Danshen Tablets in rats using ultra-performance liquid chromatography/quadrupole time-of-
[專家介紹] 許風國:1980年1月生,博士,教授,江蘇特聘教授,博士生導師。分別于2002年、2005年和2008年獲得中國藥科大學藥物分析學專業(yè)學士、碩士和博士學位;2008年8月—2012年3月先后在新加坡國立大學醫(yī)學院和公共衛(wèi)生學院從事博士后研究工作;2012年3月全職回國,現任中國藥科大學藥學院教授、藥物質量與安全預警教育部重點實驗室“藥物代謝組學”研究方向學術帶頭人。
許風國教授現已入選江蘇特聘教授計劃和教育部新世紀優(yōu)秀人才支持計劃;為江蘇省“創(chuàng)新團隊計劃”領軍人才。主持國家自然科學基金項目(No.81302733)、教育部科學技術研究(科學技術類)項目(No.113036A)等國家及省部級科研項目4項;擔任Bioanalysis雜志(SCI影響因子3.223),Chinese Medical Journal(SCI影響因子0.864),Asian Journal of Chemistry(SCI影響因子0.266)等多家SCI收錄學術期刊的編委。已發(fā)表相關學術論文50余篇,其中SCI收錄論文39篇,累計影響因子>100。
許風國教授課題組從事藥物代謝組學與分析毒理學方面的研究,近年來依托色譜、光譜及其聯(lián)用技術,圍繞代謝性疾病、藥源性疾病,積極開展創(chuàng)新性藥物分析技術方法與生物學、醫(yī)學、化學、藥理毒理學的交叉研究,逐步形成穩(wěn)定的“藥物代謝組學”研究方向,主要研究領域包括:1)疾病及藥物干預的網絡靶標發(fā)現與驗證;2)藥源性疾病發(fā)生機制與預測;3)中西藥聯(lián)用減毒增效的作用機制。
Discussion on Bottleneck Problems in Data Acquisition and Pre-Processing of Metabolomics
WANG Min1,2, HUANG Yin1,2, ZHANG Wei3, ZHANG Zunjian1,2, XU Fengguo1,2
(1. Key Laboratory of Drug Quality Control and Pharmacovigilance Affiliated to Ministry of Education, China Pharmaceutical University, Nanjing 210009, China; 2. State Key Laboratory of Natural Medicines, China Pharmaceutical University, Nanjing 210009, China; 3. State Key Laboratory for Quality Research in Traditional Chinese Medicines, Macau University of Science and Technology, Macau 519020, China)
Metabolomics has been matured and penetrated into all aspects of life sciences and medical research after 15 years’ development. With the deepening of understanding, factors influencing metabolomics research were also gradually revealed. In this paper, the main technical bottleneck problems of metabolomics in sample collection & preparation, data acquisition, data pre-processing and method validation have been systematically summarized and discussed, aiming to promote the refinement and standardization development of metabolomics study.
metabolomics;data acquisition; data pretreatment; method validation
Q591
A
1001-5094(2014)02-0081-08
*接受日期:2013-12-07
項目資助:國家自然科學基金項目(No.81274108, No.81302733); 教育部科學技術研究項目(No.113036A);教育部新世紀優(yōu)秀人才支持計劃(No. NCET-13-1036);江蘇省創(chuàng)新團隊計劃
*通訊作者:張尊建,教授; 研究方向:藥物現代儀器分析; Tel:025-83271454; E-mail:zzj@cpu.edu.cn
**通訊作者:許風國,教授,江蘇特聘教授;研究方向:藥物代謝組學與分析毒理學;Tel:025-83271021; E-mail:fengguoxu@gmail.com