馬 琳, 孫東曉, 鎮(zhèn)華君, 修光利
(1. 華東理工大學(xué)國家環(huán)境保護化工過程環(huán)境風(fēng)險評價與控制重點實驗室, 上海 200237;2. 賓夕法尼亞州立大學(xué)醫(yī)學(xué)院質(zhì)譜中心, 美國 PA 17033)
呼出氣冷凝液(Exhaled Breath Condensate,EBC)是一種來自于下呼吸道的襯液,常被用作肺部疾病研究的載體,尤其是EBC 的蛋白組學(xué)更是國內(nèi)外研究熱點[1]。EBC 的收集過程簡便、無創(chuàng),攜帶著大量的生理信息,理想情況下可以通過研究EBC 的蛋白組成來探究肺癌等相關(guān)肺部疾病的內(nèi)在生物學(xué)特征,有利于提高對疾病的認知,并助益于疾病的診察[2-3]。
隨著質(zhì)譜儀器的更新發(fā)展,蛋白組學(xué)技術(shù)也相應(yīng)得到提高,進一步促進了蛋白質(zhì)組在生物標志物方面的應(yīng)用。以往研究中對EBC 蛋白組學(xué)的探索雖然從未間斷,成果卻十分有限,這主要是因為EBC 中極其微量的蛋白濃度無法使用一般的質(zhì)譜方法進行解析,尤其是對于大量低豐度蛋白,往往會因高豐度蛋白的掩蓋而被忽略,這嚴重限制了EBC 蛋白組學(xué)的發(fā)展[4]。絕大多數(shù)研究都是用液相色譜-串聯(lián)質(zhì)譜聯(lián)用儀(LC-MS/MS)來進行EBC 蛋白組學(xué)研究,在LC-MS/MS 分析中,數(shù)據(jù)采集策略會對鑒定結(jié)果造成顯著的影響[3]。數(shù)據(jù)相關(guān)采集(Data-Dependent Acquisition,DDA)是常用的采集策略之一,但DDA的采集策略是有偏倚的,對前體信號強的碎片進行選擇性捕獲,對于信號較弱的離子捕獲性不強[4]。數(shù)據(jù)獨立采集(Data-Independent Acquisition,DIA)是一種最新發(fā)展的數(shù)據(jù)采集技術(shù),不同于DDA 的信號捕集策略,DIA 會對所有的離子信號進行捕獲,在二級質(zhì)譜(MS2)掃描階段進行全窗口的掃描,對信號強度沒有依賴,這樣得到的信息避免了選擇性缺失,并高度可重復(fù)[5]。將DIA 方法運用到EBC 蛋白組學(xué)研究中,可以大大提高蛋白質(zhì)的鑒定水平,是研究EBC 蛋白組學(xué)的理想工具。
加權(quán)基因共表達網(wǎng)絡(luò)分析(Weighted Gene Coexpression Network Analysis,WGCNA),是在傳統(tǒng)生物信息學(xué)分析上衍生出的多維分析[6]。WGCNA 是一種全新的算法,其邏輯在于蛋白質(zhì)是無尺度分布的,不是單獨的個體,而是以組群的方式存在,根據(jù)不同的表達模式,劃分為不同的模塊(module)。在生物學(xué)分析的過程中,以模塊為單位進行聚類分析,將不同模塊之間的關(guān)系、不同性狀之間的關(guān)系連結(jié)起來,來篩選重要模塊蛋白,這些模塊蛋白往往具有最顯著的生物功能,在疾病研究中用來篩選生物標記物和治療靶點[7]。
目前,國內(nèi)外鮮見使用DIA 方法進行EBC 蛋白組學(xué)分析,并使用WGCNA 算法分析其生物功能的研究。本文使用DIA 分析EBC 蛋白組成分,在此基礎(chǔ) 上 結(jié) 合WGCNA 和Gene Ontology(GO)分 析、Kyoto Encyclopedia of Genes and Genomes(KEGG)分析、Protein-Protein Interactions(PPIs),探討了WGCNA結(jié)合蛋白組學(xué)在實際應(yīng)用中的價值。
胰蛋白酶(Trypsin)、二硫蘇糖醇(dithiothreitol,DTT)、碘乙酰胺(iodoacetamide ,IAA)、尿素(Urea ,UA)、三羥甲基氨基甲烷鹽酸鹽(Tris-HCl)購自西格瑪奧德里奇(上海)貿(mào)易有限公司;iRT 標準肽段購自瑞士Biognosys 公司;甲酸購自阿拉丁試劑(上海)有限公司;10 kDa 超濾膜購自默克密理博實驗室設(shè)備(上海)有限公司;RTube 購自美國Respiratory Research Inc 公司。
本研究共納入30 名受試者,包括10 名肺癌患者(Lung Cancer,LC)、10 名 良 性 肺 部 疾 病 患 者(Pulmonary Nodules,PN)和10 名健康對照(Healthy Controls,H)。樣本于2018 年4 月至2018 年7 月在上海胸科醫(yī)院采集,所有EBC 樣本在上午8 點至9 點采集完畢,并立即存儲于超低溫冰箱,以備后用。呼出氣采集裝置為RTube,全程佩戴鼻夾。
使用胰蛋白酶進行蛋白酶解,結(jié)合超濾輔助的樣品制備方法(FASP)進行EBC 樣本的過濾和濃縮。每個樣品用10 kDa 濾膜濃縮,與100 μL UA 緩沖液(8 mol/L 尿素,150 mmol/L Tris-HCl,pH 8.0)和DTT混合至10 mmol/L 的最終濃度,然后與100 μL IAA(50 mmol/L IAA in UA)、100 μL NH4HCO3緩沖液(50 mmol/L)和40 μL NH4HCO3緩沖液(0.5 μg 胞內(nèi)蛋白酶Lys-C)混合。然后,向樣品中添加0.5 μg 胰蛋白酶進行過夜酶解,并與40 μL NH4HCO3緩沖液(50 mmol/L)混合。然后將樣品以14 000 倍重力加速度離心濃縮30 min,收集濾液并冷凍干燥。每個樣品用12 μL、φ=0.1% 甲酸(FA)復(fù)溶,280 nm 波長處吸收波段(OD280)用于測量肽濃度。然后,從每個樣品中提取5 μL 肽段(約0.5 μg),并混合2 μL iRT 標準肽段用于質(zhì)譜分析。
質(zhì)譜分析分為兩個步驟,DDA 分析和DIA 分析。DDA 分析中,使用EASY nLC 1200 系統(tǒng)(Thermo Fisher Scientific,CA)和C18 柱(75 μm×300 mm,3 μm)進行色譜分離。緩沖液A 為φ=0.1%甲酸水溶液,緩沖液B 為φ=0.1% 甲酸乙腈水溶液(乙腈體積分數(shù)為 84%)。使用2 h 線性梯度,流速為250 nL/min,以φ=95%緩沖液A 平衡:梯度8%~30% 持續(xù)97 min,30%~100%持續(xù)13 min,并保持10 min。分離后,通過Q-Extractive HF 質(zhì) 譜 儀(Thermo Fisher Scientific,CA)進 行DDA 分 析。掃 描 范 圍(m/z):300~1 800;質(zhì) 譜 分 辨 率:60 000;AGC (Automatic gain control):3×106;Maximum IT:50 ms。MS 掃 描 后 繼 續(xù) 進行20 個MS2 掃描,Isolation window:1.6 Th;質(zhì)譜分辨率:30 000;AGC :3×106; Maximum IT: 120 ms;MS2 Activation Type:HCD;標準化碰撞能量:27。
DIA 分析與DDA 分析使用的系統(tǒng)相同。梯度分離條件為:梯度10%~30%持續(xù)97 min,30%~100%持續(xù)13 min,并保持在100% 直到120 min。DIA 掃描范圍(m/z):350~1 650,分辨率:120 000,AGC:3×106,Maximum IT:50 ms。設(shè)置30 個DIA 窗口進行MS2 掃描。對于MS2 掃描,分辨率:30 000,AGC:3×106,Maximum IT “自動”,碰撞能量:25,光譜數(shù)據(jù)類型:“profile”。
使用Spectronaut pulsar X 軟件進行蛋白質(zhì)鑒定。WGCNA 分析使用R 軟件(Version 6.4)數(shù)據(jù)包完成。GO 分析使用Blast2GO 完成,KEGG 分析通過KAAS(KEGG Automatic Annotation Server)完成。
所有酶解樣本的樣品經(jīng)DDA 和DIA 質(zhì)譜數(shù)據(jù)采集后,使用Spectronaut pulsar X 軟件構(gòu)建蛋白庫。蛋白庫由兩部分組成,一部分為DDA 定量數(shù)據(jù),另一部分為DIA 數(shù)據(jù)在pulsar 中直接檢索后構(gòu)建的Library。共鑒定到蛋白質(zhì)2 052 個,其中肺癌組866 個,肺結(jié)節(jié)組1 129 個,健康對照組1 089 個。大部分蛋白質(zhì)沒有在此前的研究中報道過,是目前為止最全面的EBC 蛋白譜[8]。研究表明,基于DIA 的組學(xué)方法可以有效開發(fā)EBC 蛋白成分,提高了EBC蛋白質(zhì)組學(xué)的敏感性和特異性。
利用DIA 技術(shù)建立了EBC 的蛋白組學(xué)方法,克服了EBC 樣本蛋白濃度過低、常規(guī)方法無法完成蛋白組學(xué)研究的困難?;贒IA 的蛋白質(zhì)組方法,對EBC 中低豐度蛋白有很好的鑒定能力。使用超濾管酶解FASP 的樣本制備方法,不僅可以將樣本過濾濃縮,還可以去除高分子聚合物的影響,這些聚合物來自于EBC 收集管,不可避免地干擾到蛋白質(zhì)的鑒定。在以往的研究中,對EBC 的處理往往是簡單的冷凍濃縮,并沒有考慮到樣本污染問題,因此往往不能取得令人滿意的蛋白鑒定結(jié)果[9]。
此前,已有研究人員使用LC-MS/MS 方法對EBC 的蛋白組學(xué)進行探索,然而由于技術(shù)的限制,這些研究并沒有很好地挖掘出EBC 的蛋白成分,也不能進行更深入的生物信息學(xué)分析[10]。Muccilli 等[3]對9 例EBC 樣本進行分析,共鑒定167 個蛋白;Sun等[11]用TMTs (Tandem Mass Tags)方法對38例EBC 樣本進行了蛋白組學(xué)分析,鑒定到257 個蛋白,之后對兩組蛋白進行差異蛋白分析,共發(fā)現(xiàn)24 個顯著差異表達的蛋白,生物信息學(xué)分析結(jié)果表明,這些蛋白在COPD 疾病進展中起著至關(guān)重要的作用,表明EBC的蛋白質(zhì)組學(xué)分析可用于相關(guān)疾病生物標志物的鑒定。國內(nèi)外對EBC 蛋白組學(xué)的研究一直在持續(xù)探索,然而結(jié)果卻并不令人滿意,方法的靈敏度是限制EBC 蛋白組學(xué)研究的主要原因之一。DIA 方法對低濃度的樣本展現(xiàn)出了極高的靈敏度,已有研究[12]表明30 min 的DIA 分析相當(dāng)于120 min 的DDA 分析,能夠鑒定兩倍以上的肽段,蛋白質(zhì)鑒定也相對提高25%。
WGCNA 是無尺度分布的拓撲網(wǎng)絡(luò)分析,這對研究蛋白質(zhì)的互作關(guān)系十分有利,據(jù)此可以構(gòu)建大型的蛋白網(wǎng)絡(luò),以此來觀察蛋白質(zhì)之間的關(guān)系,并篩選出表達模式相近的模塊蛋白[13]。WGCNA 在蛋白質(zhì)組中的分析步驟主要為蛋白表達、網(wǎng)絡(luò)構(gòu)建、模塊分析和模塊-性狀分析和關(guān)鍵蛋白分析。網(wǎng)絡(luò)構(gòu)建的節(jié)點是蛋白表達,蛋白質(zhì)之間的相關(guān)性是模塊分析的依據(jù)。在進行WGCNA 分析時,需要選擇軟閾值,以此來確定網(wǎng)絡(luò)是否符合無尺度分布。軟閾值的選擇通常為相關(guān)系數(shù)R2>0.8,并保證一定的連續(xù)性[14]。本文使用Pick Soft Threshold 函數(shù)自動篩選軟閾值,如圖1 所示。
圖1 最佳軟閾值篩選:(a)基于R2=0.9 無尺度網(wǎng)絡(luò)的軟閾值篩選;(b)軟閾值為5 時網(wǎng)絡(luò)的連通性Fig.1 Screening of the best soft threshold: (a) Soft threshold of scale-free network based on R2=0.9; (b) Connectivity when the soft threshold was 5
以5 為軟閾值構(gòu)建蛋白模塊的聚類樹圖,如圖2所示。圖中每個顏色代表一個蛋白模塊,灰色代表無法被分類的蛋白,分枝的遠近代表蛋白的相似程度。通過蛋白聚類樹可以看出,本研究的蛋白有很強的模塊性。
圖2 EBC 蛋白共表達模塊劃分Fig.2 Cluster dendrogram and module overview for EBC proteome
利用Topological Overlap Matrix(TOM)對所有蛋白進行聚類熱圖分析,如圖3 所示。圖中表達模式相近的蛋白被分類到同一個分支中,熱圖顏色越深,代表蛋白之間的重疊程度越高,蛋白質(zhì)之間的功能越密切。
圖3 基于TOM 的拓撲網(wǎng)絡(luò)熱圖Fig.3 Heatmap of the topological network based on TOM
模塊與性狀之間通過相關(guān)系數(shù)表現(xiàn)其關(guān)聯(lián),通過計算相關(guān)系數(shù)和p值,可以篩選出與表型性狀顯著關(guān)聯(lián)的共表達模塊。圖4 是模塊與表型性狀相關(guān)性熱圖,左側(cè)縱坐標代表不同的模塊類型,中間色塊代表蛋白模塊,根據(jù)色塊上的相關(guān)系數(shù)和括號中的p值可以篩選出最顯著的蛋白模塊,圖例代表相關(guān)系數(shù)R2的大小范圍為-1.0~1.0,其中紅色代表正相關(guān),藍色代表負相關(guān)。
根據(jù)上述結(jié)果,將共表達模塊中的蛋白在所有樣本中的表達進行聚類熱圖分析,可以看出每個模塊在樣本中的特征值分布,如圖5 所示。圖的上半部分為蛋白在各個樣本中的表達模式熱圖,紅色代表上調(diào)表達,綠色代表下調(diào)表達。下半部分藍色模塊為特征值的分布,絕對值越大代表樣本整體表達變化量越大。
圖5 蛋白表達熱圖(a)及藍色模塊特征值分布圖(b)Fig.5 Heatmap of the eigenproteins expression (a) and module eigenvalue
通過觀察模塊特征值的聚類樹圖和聚類熱圖,可以篩選出與表達模式最相似的模塊。由圖4 可知,藍色模塊的相關(guān)性系數(shù)為 0.420,p值為 0.02,是4 個模塊中表達最為顯著的蛋白模塊,這表明該模塊中的蛋白可能共同參與了某些生物過程,協(xié)同發(fā)揮重要的生物功能,有挖掘生物標志物的潛力。以此分析蛋白重要性與模塊關(guān)系的關(guān)系,探究蛋白與模塊的相關(guān)性和蛋白與性狀的相關(guān)性是否有良好的一致性,篩選可能承擔(dān)最多生物功能的關(guān)鍵蛋白(Hub Protein),如圖6 所示。
圖4 模塊與表型性狀相關(guān)性熱圖Fig.4 Heatmap of the module-trait correlations
圖6 蛋白重要性與模塊關(guān)系的散點分布圖Fig.6 Scatter plot of protein significance and module membership
經(jīng)過上述分析,共有61 個蛋白被篩選為關(guān)鍵蛋白。對關(guān)鍵蛋白進行GO 和KEGG 分析,結(jié)果分別如圖7 和圖8 所示。GO 分析結(jié)果表明,EBC 關(guān)鍵模塊蛋白的生物過程主要集中在磷代謝相關(guān)過程和細胞活動;KEGG 分析結(jié)果表明,這些關(guān)鍵模塊的蛋白較多參與了人類疾病分類的代謝活動,在人體免疫活動和信號傳導(dǎo)過程中也十分活躍。
圖7 關(guān)鍵模塊蛋白的GO 分析: (a) GO term 分類;(b) GO 富集分析Fig.7 GO analysis of proteins extracted from the core module: (a) GO terms classification; (b) Enriched GO terms
圖8 關(guān)鍵模塊蛋白的KEGG 分析: (a) KEGG term 分類;(b) KEGG 富集分析Fig.8 KEGG analysis of proteins extracted from the core module: (a) KEGG terms classification; (b) Enriched KEGG terms
對一些關(guān)鍵蛋白的互作關(guān)系進行分析和可視化,結(jié)果如圖9 所示。在String 中導(dǎo)入61 個關(guān)鍵蛋白,將結(jié)果展示設(shè)置為最高置信度(0.900),隱藏不產(chǎn)生連結(jié)關(guān)系的蛋白。圖9 中的每一個節(jié)點都代表一個蛋白,蛋白與蛋白之間的連結(jié)線越多,說明蛋白之間的互作關(guān)系越大。結(jié)果表明,PPIs(Protein-Protein Interactions)網(wǎng)絡(luò)共52 個節(jié)點和43 條連結(jié)線,平均節(jié)點為0.453,p<0.001。其中ACTB,HSPA8,TUBA4A,MDH2,HSP90AA1 等處于互作網(wǎng)絡(luò)的核心區(qū)域,有可能是承擔(dān)最多生物學(xué)功能的蛋白。
圖9 蛋白互作網(wǎng)絡(luò)分析Fig.9 Protein-protein interactions analysis
本文在EBC 蛋白組學(xué)方法建立的基礎(chǔ)上,對鑒定到的蛋白進行了多維的生物信息學(xué)分析,對肺癌、肺結(jié)節(jié)和健康人群的蛋白組的組成和生物學(xué)功能有了初步的了解。WGCNA 網(wǎng)絡(luò)對于處理無尺度分布的蛋白質(zhì)組數(shù)據(jù)有天然的優(yōu)勢,本文依據(jù)蛋白間相互作用關(guān)系來挖掘蛋白內(nèi)在關(guān)系,進一步篩選具有相似生物學(xué)功能的關(guān)鍵模塊和關(guān)鍵蛋白。傳統(tǒng)的生物信息學(xué)分析雖然對高表達的蛋白和基因有很強的分析能力,但對于低表達的蛋白功能挖掘能力較弱。WGCNA 分析可以把表達模式相似的蛋白歸于同一個網(wǎng)絡(luò),將復(fù)雜的蛋白組學(xué)數(shù)據(jù)轉(zhuǎn)化為不同網(wǎng)絡(luò)和功能模塊,再進一步分析每一個模塊的功能,對處理大批量的蛋白組學(xué)數(shù)據(jù)有很大的優(yōu)勢[15]。
本文利用DIA 技術(shù)建立了基于EBC 的蛋白質(zhì)組學(xué)分析方法。對30 例EBC 樣本的分析共鑒定出蛋白質(zhì) 2 052 個,其中肺癌組 866 個,肺結(jié)節(jié)組 1 129個,健康對照組1 089 個,表明基于DIA 的蛋白組學(xué)方法對低蛋白濃度的生物樣本有很強的分析能力。使用WGCNA 算法,對EBC 樣本的蛋白質(zhì)組進行了分析,篩選出EBC 中發(fā)揮重要生物功能的核心蛋白。通過GO 分析發(fā)現(xiàn)這些關(guān)鍵蛋白在細胞核和細胞質(zhì)中廣泛存在,在分子功能方面,大部分互作蛋白發(fā)揮了結(jié)合功能,包括蛋白質(zhì)結(jié)合、激酶結(jié)合和雜環(huán)化合物結(jié)合等。此外,這些蛋白質(zhì)在細胞過程調(diào)節(jié)、磷化合物代謝、細胞含氮化合物代謝和有絲分裂周期等生物活動中十分活躍。KEGG 分析則提示關(guān)鍵蛋白參與了與免疫相關(guān)的系統(tǒng)性疾病、病毒致癌、細胞凋亡、Rap1 信號通路等代謝活動,這表明關(guān)鍵蛋白不僅活躍參與了與人體疾病相關(guān)的代謝活動,還參與了細胞的生理過程和信號傳導(dǎo),廣泛涉及系統(tǒng)性疾病、腫瘤、感染類疾病等通路。
以上研究表明,WGCNA 所篩選出的模塊蛋白具有生物學(xué)意義,能夠反映EBC 蛋白組的生物功能,結(jié)合DIA 蛋白組學(xué)方法,可以開展更大規(guī)模的研究,在未來對肺癌等肺部疾病的研究和探索有很強的實際應(yīng)用價值,可以助益生物標志物的探索和疾病診療。