王猛 李曉琴 高斌
(北京工業(yè)大學環(huán)境與生命學部,北京 100124)
肝細胞癌(hepatocellular carcinoma,HCC)是最常見的原發(fā)性肝臟惡性腫瘤,其占比約90%。根據最新全球癌癥數據統(tǒng)計,HCC已成為全球第六大最常診斷的癌癥和第三大癌癥死亡原因,其發(fā)病率在全球范圍內呈上升趨勢[1-2]。在中國,HCC是中國第四大常見癌癥和第二大癌癥相關死亡原因[3],嚴重威脅中國人民的生命和健康。流行病學調查顯示,慢性肝炎和肝硬化是全球范圍內誘發(fā)HCC的主要風險因素[4]。除此之外,由代謝綜合征、肥胖、2型糖尿病和非酒精性脂肪肝等風險因素誘發(fā)的HCC患病率正逐年增加,并在未來可能成為全球HCC發(fā)生的主要原因[5]。從分子角度,HCC是由多種基因組和表觀基因組改變的累積引起。其中常見的包括TERT啟動子、AXIN1、TP53和CTNNB1的致癌突變,染色體1q、8q的擴增,8p、22p的丟失等[6]。這些發(fā)生遺傳改變的基因往往與Wnt-β-catenin、細胞周期控制、AKT-mTOR、MAPK等通路有關[7]。突變特征分析也表明,一些誘發(fā)DNA突變的風險因素如飲酒、吸煙以及黃曲霉毒素B1暴露等,也與已知基因的致癌突變相關[8]。這似乎也表明,肝臟雖然可以在體內起到解毒作用,但這些有毒代謝物也可以誘導相關基因的驅動突變進而損害肝細胞基因組,從而導致癌變。
目前用于HCC分型的系統(tǒng)主要基于腫瘤負荷,在臨床上,巴塞羅那臨床肝癌分期系統(tǒng)是迄今為止預測HCC預后和指導選擇治療干預措施最常用的模型[9]。而中國則根據本國國情及實踐積累,依據患者體力活動狀態(tài)、肝腫瘤及肝功能情況,提出了中國肝癌分期系統(tǒng),共分為四期[10]。但值得注意的是,這些分期系統(tǒng)雖然對治療方案的選擇和預后評估至關重要,但它們不足以描述影響預后和治療反應的生物學和分子特征[11]。因此十分必要開發(fā)一個HCC精確的分子分類系統(tǒng)。
隨著高通量技術的不斷發(fā)展和其成本的下降,癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)、國際癌癥基因組聯盟(International Cancer Genome Consortium,ICGC)和腫瘤細胞系的百科全書(Cancer Cell Line Encyclopedia,CCLE)等國際合作項目已收集了同一癌癥患者隊列不同層次的組學數據。這為癌癥分子分型提供重要依據,并能夠很好地反映不同亞型下癌癥生物學背景的差異,對癌癥的治療有著重要影響。單一組學的研究雖然可以單向揭示腫瘤大量信息(如轉錄組數據可以描述癌癥之間基因表達差異),但癌癥與宿主之間相互作用、癌癥內部分子之間相互作用以及不同組學之間關聯需要多維方法來描繪。因此,多組學整合研究(即整合兩個或多個組學數據,進行數據分析、可視化和解釋)被認為是深入了解癌癥病發(fā)機制和癌癥異質性最有前景的工具[12-13]。本文總結了當前HCC多組學分層策略和相關研究進展。
HCC是一種在病理和分子水平上高度異質性的疾病,這種異質性可能源于不同的風險因素、遺傳事件、基因表達模式、激活的通路、免疫浸潤程度或腫瘤間質變化,其大致可分為瘤內異質性和瘤間異質性[14]。多種組學測序和單細胞測序技術的發(fā)展能更加深入了解HCC腫瘤的異質性[15]。Losic等[16]采集了來自14名HCC患者的71個區(qū)域樣本,對其進行了DNA測序、RNA-seq和TCR-seq來研究HCC瘤內異質性。他們發(fā)現,在同一腫瘤內部的抗原表達,免疫浸潤水平均有顯著差異,其中區(qū)域性克隆免疫反應對HCC瘤內異質性的形成起著重要作用。為了以更高的分辨率了解這些數據,該團隊對2名HCC患者中不同區(qū)域內的腫瘤進行單細胞測序,其結果進一步表明了即使在同一結節(jié)內距離較遠的兩個腫瘤組織,其激活的轉錄途徑也存在著顯著差異。
實際上,腫瘤異質性被認為是多種藥物在癌癥臨床試驗中失敗以及對現有藥物出現耐藥性的主要原因。Gao等[17]對10名接受根治性切除術的HCC患者的55個區(qū)域進行采樣和低傳代培養(yǎng),并對其進行DNA測序、拷貝數分析和高通量藥物篩選。發(fā)現其中只有4個樣本的亞區(qū)檢測到FGF19、DDR2、PDGFRA和TOP1等基因改變并對相應的靶向治療藥物敏感。而索拉非尼作為目前全球針對晚期HCC的一線治療藥物[18],盡管它可以略微延長晚期HCC患者生存率,但由于不同患者的腫瘤之間相關藥物轉運蛋白的表達、細胞內藥物代謝、信號通路的激活或失活、細胞內和細胞間特性等具有一定差異,使其在大量的患者中觀察到其藥效性受到了不同程度的影響[19]。因此,如何利用關鍵特征將不同的HCC患者分為相對同質的亞型,具有重要臨床意義。下一節(jié)將具體描述結合多種組學數據對HCC分層的策略及方法。
精準腫瘤學的主要目的之一便是識別癌癥分子亞型,即將具有共同生物學特征或臨床表型(如生存時間和藥物敏感性)的患者群體進行分類,使不同患者可以根據其所屬亞型不同選擇更加適合其自身的治療方案。聚類是多年來相關研究人員在癌癥分層中的常用算法。至今已開發(fā)出了許多聚類方法,如層次聚類、一致性聚類、基于密度、分布或質心的方法、半監(jiān)督或監(jiān)督的方法等[20]。本文根據輸入聚類算法組學數量,將當前多組學HCC分層策略分為從單組學出發(fā)(from single-to-multi,S To M)和從多組學出發(fā)(from multi-to-multi,M To M)兩大策略。
S To M策略即利用單組學數據的不同特征對HCC進行分層后,結合多種組學數據尋找不同HCC亞型之間的差異分子,并驗證其差異的真實性和腫瘤生物學現象的關聯(如腫瘤的發(fā)生、轉移、預后、免疫、代謝、信號通路等)(圖1)。特征選擇是S To M策略的核心,多年來針對分層特征的選擇可大致分為基于數據分布的方法、基于生物特征的方法和基于多組學的方法3種。表1總結了近年來S To M策略下HCC分層研究的方法和結果。
Table 1 The summary of methods and results for stratification of hepatocellular carcinoma by using the S To M strategy表1 S To M策略肝細胞癌分層方法與結果小結
Fig. 1 Hepatocellular carcinoma stratification using S To M strategy圖1 從單一組學出發(fā)的肝細胞癌分層策略
2.1.1 基于數據分布的方法
基于數據分布的方法主要是根據數據分布特點或其在不同臨床屬性間的差異對特征進行篩選,其常見方法有方差篩選、變異系數篩選、中位偏差篩選、Cox模[21]等。Ao等[22]通過單因素Cox回歸模型鑒定出192組HCC預后相關基因對后,選擇了其中C指數最高的20組基因對,并根據其對患者的風險評分將患者分為高低風險組。綜合多組學研究發(fā)現,兩個亞型在基因突變和拷貝數變異上具有顯著差異。其中,高風險組轉錄特征主要為細胞增殖和腫瘤微環(huán)境等相關途徑的激活,而低風險患者的轉錄特征在于各種代謝途徑的激活,并且兩個亞型之間的轉錄差異與其DNA甲基化差異顯著相關。Jiang等[23]則選取變異系數前25%的蛋白質組學數據進行非負矩陣分解(nonnegative matrix factorization,NMF)和一致性聚類將110名早期HCC患者分為3個子類(SI、SII和SIII)。通過多種組學(蛋白質組、轉錄組和突變譜)分析發(fā)現,SI和SII具強增殖特征,并且CTNNB1的突變頻率和WNT通路的激活程度要高于SIII,相比之下SIII則具有強侵襲性,其富集了很多腫瘤促進通路,并且存在抑制性免疫亞群。
2.1.2 基于生物特征的方法
隨著對癌癥研究的不斷深入,人們發(fā)現癌細胞可以激活不同的免疫檢查點通路,以達到抑制機體免疫,促進其生長發(fā)展的目的。針對PD-1/PD-L1、CTLA-4等免疫檢查點的抑制劑可以重新激活抗癌免疫反應,并在某些癌癥的臨床治療上展現出良好的治療效果[24]。有研究表明,在慢性肝炎的環(huán)境下,調節(jié)性T細胞、髓源性抑制細胞的募集以及免疫檢查點CTLA-4和PD-1的上調,通常會促進HCC生長與發(fā)展[25]。因此,免疫檢查點抑制劑似乎是有希望的HCC治療策略。此外,肝臟作為重要代謝器官,其可以通過不同代謝物的生理調節(jié)來控制全身能量代謝,其代謝異常也往往會引起如非酒精性脂肪肝和2型糖尿病等疾病[26]。實際上,一些代謝物的指標如葡萄糖和醋酸鹽利用率、血清中乳酸含量已被認為是HCC有效的分層或預后指標[27]。因此,目前在HCC分層策略中,針對生物學特征的提取主要為免疫特征和代謝特征。Zhang等[28]對HCC免疫細胞質譜流式數據進行層次聚類,將HCC分為3個亞型。其中亞型1為免疫活性亞型,具有相對正常的T細胞浸潤水平,但B細胞浸潤水平較低。亞型2為免疫缺陷亞型,其特征在于淋巴細胞的浸潤減少、樹突狀細胞和自然殺傷細胞的增加、單核細胞IL-1β過表達。亞型3為免疫抑制亞型,其Treg細胞、Breg細胞和M2極化巨噬細胞等免疫抑制細胞的浸潤水平要明顯高于其他兩個亞型,并且一些免疫抑制分子如PD-1、PD-L1、Tim-3和CTLA-4在該亞型中過表達。Bidkhori等[29]使用轉錄組數據構建了一個由1 972個代謝基因組成的HCC特異性代謝網絡。之后,作者使用一種網絡平滑的算法(network-based stratification,NBS)來傳播每個基因的表達對其在網絡相鄰基因的影響[30],并將HCC分為3個子類。多種組學整合分析發(fā)現3種不同亞型的代謝和信號通路在基因組、轉錄組和蛋白質組水平上均具有顯著差異,并且3種亞型傾向依賴不同的同工酶來催化同一生化反應。
2.1.3 基于多組學的方法
除了上述方法之外,還有一些分層特征本身是由多種組學確定的也被列入S To M策略中。例如Yang等[31]對849名肝癌患者使用DriverNet算法[32](一種基于突變譜和轉錄譜的驅動基因發(fā)現算法),鑒定出34個HCC驅動基因。在后續(xù)的分析中作者將這34個驅動基因的突變譜輸入NBS算法中[30],將HCC分為3個具有顯著生存差異的子類(NBS1、NBS2和NBS3)。其中NBS1和NBS2富集了如TP53、AXIN1、RB1等抑癌基因,NBS3則具高CTNNB1突變頻率和低抑癌基因突變頻率,并且該分類模型與先前報道的基于轉錄組的分類模型顯著相關。
M To M策略則希望通過對多種組學數據(如基因組、轉錄組、表觀基因組與腫瘤生物學的關聯)進行多層面的綜合分析(即從系統(tǒng)生物學的概念出發(fā))全景式地展示不同亞型內各組學之間的差異與聯系。數據降維是M To M策略的核心步驟,即將多種組學數據集中放入一個低維的堆疊矩陣中,然后再對該數據矩陣實施聚類算法以獲得具有多種組學特征的分層結果(圖2)。根據使用的算法不同,常見的M To M策略分層算法可以分為3類,基于相似性的方法、基于集成的方法和深度學習。表2總結了近年來M To M策略下HCC分層研究的方法和結果。
Table 2 The summary of methods and results for stratification of hepatocellular carcinoma by using M To M strategy表2 M To M策略肝細胞癌分層方法與結果小結
Fig. 2 Hepatocellular carcinoma stratification using M To M strategy圖2 從多組學出發(fā)的肝細胞癌分策略
2.2.1 基于相似性的方法
基于相似性的方法主要思想是將不同的組學特征轉化為患者之間的相似程度,并輸出一個綜合的“患者-患者相似矩陣”,最終根據該矩陣得到患者分層結果。相似網絡融合(similarity network fusion,SNF)是這一類方法的代表性算法[47],該算法首先將每個輸入的組學數據轉化為“患者-患者相似網絡”。在此網絡中節(jié)點表示每個患者,連接邊上的權值則表示患者之間相似度的大小,之后通過融合迭代公式將多個相似網絡逐漸融合。當達到公式收斂條件時得到最終的“融合相似網絡”,并在此基礎上完成患者分層工作。經過多年發(fā)展,SNF算法及其改進算法常常被用于HCC多組學分層研究中。Ruan等[48]提出了一種加強信號注釋的相似網絡融合(association-signal-annotation boosted SNF,ab-SNF)模型,與原始SNF算法相比,ab-SNF將不同組學數據特征和感興趣結果之間的關聯信號注釋作為權值,加入到構建患者之間相似網絡中,以減少噪聲的影響并提高聚類性能。在大型患者隊列中,部分患者某項組學數據的丟失是一個常見的問題。為解決這一問題,Xu等[49]提出了多重相似網絡嵌入(multiple similarity network embedding,MSNE)模型,MSNE算法的原理是在構建完單個患者相似網絡后,采用隨機游走的方式從多個網絡中獲得一個綜合相似網絡,使一些組學數據丟失的樣本,也可以被投影到低維的相似網絡中。并且相對于原始SNF算法,MSNE算法得到的結果具有更豐富的臨床參數和更顯著的生存差異。
除了SNF算法外,其他基于相似性的方法也用于HCC分層研究中。例如Ramazzotti等[50]開發(fā)了一種多核學習亞型識別算法(multikernel learning,CIMLR),該算法可以根據每種組學在不同癌癥中的重要程度為其分配權重,并且利用每個組學的多個高斯核構建“患者-患者相似矩陣”。在實際應用中,CIMLR將來自TCGA的359例HCC樣本分為了8個亞型,其結果具有顯著的疾病特異性和生存差異。基于鄰域的多組學亞型識別算法(neighborhood based multi-omics clustering,NEMO)[51]模型認為每個樣本的局部鄰域特征,可以更好地捕捉患者在每個組學中的相似模式,其大致可分為3個步驟:a. 為每個組學構建患者間相似矩陣;b. 將來自不同組學的相似矩陣整合到一個矩陣中;c. 對該矩陣進行聚類分析。NEMO在應用中不需要迭代優(yōu)化,具有比SNF類算法更快的執(zhí)行速度,且無需對丟失數據的樣本進行插補或刪除。
2.2.2 基于集成的方法
基于貝葉斯框架、主成分分析[52]、矩陣分解[53]等對數據或模型集成的方法也常被用于癌癥亞型識別研究當中。例如基于聯合潛變量模型的iCluster,該模型假設腫瘤亞型為未觀察到的潛在變量,并且該變量會形成一組低維的空間坐標,可以捕捉不同組學之間的相關性并用于腫瘤樣本的聚類中[54]。值得一提的是,最初的iCluster僅能輸入連續(xù)變量(如表達數據、DNA甲基化數據),經過不斷的改進其最新版本iClusterBayes采用全貝葉斯?jié)撟兞磕P停坏试S輸入二值變量(如突變數據)、分類變量(如基因拷貝數狀態(tài))和連續(xù)變量,還極大地減少了算法運行時間[55]。在實際應用中,一些研究表明iCluster算法可以將HCC分為穩(wěn)定且具有顯著臨床差異的3個亞型[56-57]。
除了輸入特定的組學數據以外,聚類分配(cluster-of-cluster-assignments,COCA)算法可以允許輸入單組學聚類結果,并從中分配得出二級聚類結果[58]。Yang等[59]探索了來自不同組學的HCC驅動因素,并使用COCA算法對其進行綜合聚類,得到了4個穩(wěn)定的HCC亞型(C1、C2、C3和C4)。其中C1腫瘤主要富集了DNA修復和病毒致癌通路的異常,C2腫瘤的特征主要在于NF-κB通路和NBEA的突變,C3和C4腫瘤中特異性表達的基因則主要與免疫應答和T細胞調節(jié)相關。
2.2.3 深度學習
最近,隨著人工智能領域的不斷發(fā)展,深度學習作為這一領域的熱點,在醫(yī)學影像、信號及組學數據的處理中得到了廣泛應用[60]。自動編碼器作為常見的人工神經網絡框架,常被用于對一組數據的特征學習和降維工作中。并且在醫(yī)學組學數據中,該算法被證明可以有效提取與臨床和分子有關的特征[61]。Chaudhary等[62]對來自TCGA的360例HCC樣本的RNA-seq、miRNA-Seq和DNA甲基化數據應用自動編碼器降維后,使用單因素Cox模型提取了37個與生存顯著相關的臨床特征,并對這些特征使用K-means聚類得到了兩個具有顯著生存差異的亞型。其中侵襲性亞型S1的差異基因主要集中在癌癥相關通路、Wnt信號通路、PI3K-Akt信號通路等,而中度侵襲性亞型S2則主要為代謝相關通路的激活,如藥物代謝、氨基酸和脂肪酸代謝等。Wang等[63]則將自動編碼器與SNF算法相結合,同樣地得到了兩個具有顯著生存差異的HCC亞類。
值得注意的是,一些HCC亞型在很多獨立的亞型分類研究中反復出現,這暗示著來源于不同方法的HCC亞型可能具有共同的特征。本小節(jié)綜合了Hoshida等[71]、Ally等[56]、Yang等[42]、Benfeitas等[37]、Bidkhori等[29]以及兩篇相關綜述[7,9],將HCC大致分成兩類:ClustA和ClustB(圖3)。其中ClustA更具侵襲性,在臨床上組織分化程度低、血管浸潤率和患者血清中甲胎蛋白(AFP)水平偏高。在基因組特征上ClustA表現出了更加頻繁的TP53突變,染色體高度不穩(wěn)定性以及一些常見的致癌通路如PI3K-AKT-mTOR、RASMAPK、WNT等的高度激活。此外,部分ClustA樣本具有免疫耗竭特征,具體以TGF-β、PD-L1、CTLA-4等驅動的T細胞耗竭狀態(tài)為主[42]。
Fig. 3 Multi-omics characteristics of HCC subtypes圖3 HCC亞型的多組學特點
相反,ClustB具有相對ClustA而言較好的組織分化能力、較低的AFP水平、較好的預后,并且該亞類多與過度肥胖和過度酗酒有關。因此,可以發(fā)現有關酒精、脂質等代謝通路在ClustB中高度激活。Wnt-β-catenin信號的持續(xù)激活在HCC中是一個頻繁發(fā)生的驅動事件[72]。值得一提的是,兩種亞型似乎會以不同的方式激活Wnt通路。其中ClustB主要以CTNNB1的突變激活Wnt通路,這種類型的樣本在一些研究中也被證明與更好的預后相關[73]。相反,在侵襲性表型ClustA中則發(fā)現了TGF-β的過度表達,其主要通過調節(jié)胞內游離的β-catenin來增強Wnt通路[71]。此外,目前普遍認為癌癥細胞在高速代謝生長的同時,會促進大量NADPH的生物合成以抵抗活性氧(ROS)對其自身的傷害[74]。然而有趣的是,這兩種HCC表型被發(fā)現會以不同的方式清除胞內ROS。其中,弱侵襲性ClustB主要顯示由過氧化氫酶介導的ROS清除,另一種亞型則主要以谷胱甘肽過氧化物酶依賴的方式清除ROS[37]。這似乎也表明了在針對HCC的抗氧化劑治療中,需要根據不同的亞型選擇不同的藥物。
HCC在分子和病理上的高度異質性極大地阻礙了其臨床治療效果。因此,將HCC患者分為相對同質的亞型,對其臨床治療效果和個性化治療有著重要意義。隨著高通量技術的不斷發(fā)展,多種組學數據綜合分析可以幫助研究人員更好地了解HCC發(fā)展背后的生物學機制,也為HCC分層研究打開了新的思路。
根據分層算法輸入組學的數量,本文將目前HCC多組學分層方法分為S To M和M To M兩大策略。其中S To M策略是利用單組學數據的不同特征對HCC進行分層后,結合多種組學數據尋找不同HCC亞型之間的差異分子,并驗證其差異的真實性與腫瘤生物學現象的關聯。特征選擇是S To M策略的核心,其中,基于生物學特征的方法,主要聚焦在將不同的疾病表型與特定基因型的關聯,有助于其后續(xù)的轉化研究,是目前S To M分層策略的主要手段(例如,在表1的19項研究中有9項研究選擇HCC的生物學特征對其進行分層)。免疫特征和代謝特征是目前HCC分層研究中常用的生物學特征。然而,隨著人們對癌癥的認識不斷更新,一些新的癌癥標志(如細胞衰老、非突變表觀遺傳、多態(tài)微生物組等)也被認為對形成惡性腫瘤起到至關重要的作用[75]。我們認為這些標志同樣具有良好的分層潛力,可以用于HCC亞型分類研究中,以求通過不同的角度全面了解HCC異質性及其分子特點。此外,從近幾年相關研究來看,連續(xù)型分層特征(如轉錄組、蛋白質組)在其中占據了絕大多數,而離散特征(如體細胞突變)則很少作為HCC的分層特征。這很大程度是因為無法通過離散特征計算出患者之間的歐幾里得距離,因此不能滿足當前分層算法(如層次聚類、K-means、一致性聚類等)的輸入要求。然而Yang等[31]和Xu等[44]的研究讓我們看到了通過對離散特征進行適當的去稀疏化處理后,其具有不亞于連續(xù)特征的分層能力??紤]到癌癥組學的離散特征在其發(fā)展中的有著重要意義,并且在臨床上其操作相對簡單,在以后的研究中可以考慮在分層特征中加入患者的組學的離散特征,以獲得更具全面分層結果。
M To M策略則是從系統(tǒng)生物學的概念出發(fā),全景式地展示不同亞型內各組學之間的差異與聯系。然而,與S to M相比,M To M需要用戶掌握多種編程語言(表2)以及更強大的計算性能。并且,不同組學數據處理方法的成熟度參差不齊,也是當前多組學集成結果轉化為臨床解釋的主要障礙[76]。因此,加強樣本處理和相關分析方法的標準化流程以及開發(fā)穩(wěn)定健壯的多組學集成工具,對促進相關理論的發(fā)現和結果的可翻譯性至關重要。此外,需要注意的是,一般認為合并更多的組學數據往往會得到更好的分層結果。而Duan等[77]的研究駁斥了這個觀點,他們的研究發(fā)現,在某些情況下集成更多的組學內容反而會對結果造成負面影響。因此,使用哪幾種組學數據的組合可以有效地完成HCC分層任務,是以后使用M To M策略下相關算法前需要考慮的。其次,在大型患者隊列中,數據丟失是十分常見的現象,單純對丟失數據的樣本進行刪除可能會對其結果的統(tǒng)計學指標造成影響。因此,如何對丟失數據做出適當的處理也在對HCC多組學分層前需要考慮的。組學分析需要的數據量大,往往需要有多個中心的合作。整合來自多個中心或研究的數據集可以獲得更可靠的結果和潛在的新發(fā)現[78]。但在整合研究時,也需要注意由實驗室、操作人員、操作平臺等其他非生物因素的差異引起的批次效應可能會掩蓋或降低未發(fā)現差異信號的強度[79]。
最后,如Ally等[56]、Hoshida等[71]HCC亞型在很多相關的亞型研究中反復出現,這表明了使用不同方法得到的HCC亞型可能具有共同特征。然而,針對當前HCC獨立亞型之間相似性的研究仍十分淺薄[9]。因此,未來仍需進行更多的研究,以在其中總結出更具有代表性的亞類。