王奇峰,徐清華,陳金影,錢琛暉,劉曉健,杜 祥
1.復(fù)旦大學(xué)附屬腫瘤醫(yī)院病理科,復(fù)旦大學(xué)上海醫(yī)學(xué)院腫瘤學(xué)系,上海 200032;
2.杭州可幫基因科技有限公司,浙江 杭州 311188;
3.復(fù)旦大學(xué)附屬腫瘤醫(yī)院化療科,復(fù)旦大學(xué)上海醫(yī)學(xué)院腫瘤學(xué)系,上海 200032
一種新型腫瘤組織起源分子標(biāo)志物的建立與評(píng)價(jià)
王奇峰1,徐清華2,陳金影2,錢琛暉2,劉曉健3,杜 祥1
1.復(fù)旦大學(xué)附屬腫瘤醫(yī)院病理科,復(fù)旦大學(xué)上海醫(yī)學(xué)院腫瘤學(xué)系,上海 200032;
2.杭州可幫基因科技有限公司,浙江 杭州 311188;
3.復(fù)旦大學(xué)附屬腫瘤醫(yī)院化療科,復(fù)旦大學(xué)上海醫(yī)學(xué)院腫瘤學(xué)系,上海 200032
杜 祥,復(fù)旦大學(xué)附屬腫瘤醫(yī)院主任醫(yī)師、教授、博士生導(dǎo)師?,F(xiàn)任中國(guó)抗癌協(xié)會(huì)腫瘤病理專業(yè)委員會(huì)候任主委、中國(guó)研究型醫(yī)院學(xué)會(huì)病理學(xué)專業(yè)委員會(huì)主任委員、中國(guó)醫(yī)師協(xié)會(huì)病理科醫(yī)師分會(huì)副會(huì)長(zhǎng)、中華醫(yī)學(xué)會(huì)病理分會(huì)常委;中國(guó)醫(yī)學(xué)裝備協(xié)會(huì)病理裝備技術(shù)專業(yè)委員會(huì)副主任委員、國(guó)家標(biāo)準(zhǔn)委全國(guó)生物樣本技術(shù)委員會(huì)副主任委員、中國(guó)醫(yī)藥生物技術(shù)協(xié)會(huì)組織樣本庫(kù)分會(huì)副主任委員。從事腫瘤的病理診斷工作26年,圍繞惡性腫瘤發(fā)生機(jī)制、分子分型及診斷預(yù)后標(biāo)志物等方面開展研究。2007年至今在國(guó)內(nèi)外醫(yī)學(xué)專業(yè)期刊上以通信作者發(fā)表論文48篇;多次獲得中國(guó)抗癌協(xié)會(huì)科技獎(jiǎng)、教育部科技進(jìn)步獎(jiǎng)和上海市科技進(jìn)步獎(jiǎng);承擔(dān)國(guó)家自然科學(xué)基金、上海市基礎(chǔ)研究重大項(xiàng)目和重點(diǎn)項(xiàng)目及其他各類科研項(xiàng)目10余項(xiàng),目前作為課題第一負(fù)責(zé)人承擔(dān)國(guó)家自然科學(xué)基金、上海市基礎(chǔ)研究重點(diǎn)項(xiàng)目、衛(wèi)生部臨床重點(diǎn)??祈?xiàng)目等在研課題7項(xiàng)。
背景與目的:原發(fā)灶不明惡性腫瘤是一類轉(zhuǎn)移性腫瘤的統(tǒng)稱,在診斷時(shí)無(wú)法找到原發(fā)位點(diǎn),約占所有惡性腫瘤的5%~10%。明確腫瘤的組織起源對(duì)于患者的診斷和治療具有重要意義。方法:整合ArrayExpress和Gene Expression Omnibus數(shù)據(jù)庫(kù)中腫瘤類型明確的樣本數(shù)據(jù),構(gòu)建涵蓋22種常見腫瘤類型、5 800例樣本的基因表達(dá)譜數(shù)據(jù)庫(kù);通過支持向量機(jī)遞歸特征消除算法篩選組織特異性基因,建立腫瘤分類模型;采用實(shí)時(shí)定量聚合酶鏈反應(yīng)(real-time quantitative polymerase chain reaction,RTQ-PCR)檢測(cè)石蠟包埋腫瘤組織中基因的表達(dá)水平,并將基因分型結(jié)果與病理診斷結(jié)果進(jìn)行比較。結(jié)果:基于腫瘤基因表達(dá)譜大數(shù)據(jù),篩選出96個(gè)組織特異性基因,其中包含常見的腫瘤相關(guān)基因,如鈣黏蛋白1(cadherin 1,CDH1)、激肽釋放酶相關(guān)酶3(kallikreinrelated peptidase 3,KLK3)和表皮生長(zhǎng)因子受體(epidermal growth factor receptor,EGFR)等。在206例石蠟包埋組織樣本中,182例的基因分型結(jié)果與病理診斷結(jié)果一致,準(zhǔn)確率達(dá)到88.4%(95%CI:83.2%~92.4%)。結(jié)論:96基因RTQ-PCR檢測(cè)對(duì)22種常見腫瘤類型具有較好的分類性能,可作為臨床和病理診斷的輔助工具。
原發(fā)灶不明惡性腫瘤;腫瘤組織起源;基因表達(dá)譜;實(shí)時(shí)定量聚合酶鏈反應(yīng);免疫組化
原發(fā)灶不明惡性腫瘤(cancer of unknown primary,CUP)是一類經(jīng)病理學(xué)診斷確診為轉(zhuǎn)移性惡性,但是通過詳細(xì)評(píng)估未能明確原發(fā)位點(diǎn)的異質(zhì)性腫瘤[1]。據(jù)統(tǒng)計(jì),CUP約占全部腫瘤病例的5%~10%[2],居常見惡性腫瘤的第8位[3],死亡率則高居第4位[4]。一項(xiàng)薈萃研究顯示,原發(fā)灶不明惡性腫瘤患者接受化療后中位生存時(shí)間為4.5個(gè)月,1年生存率為20%,5年生存率為4.7%[5],CUP患者的預(yù)后很大程度上取決于原發(fā)腫瘤的生物學(xué)特性,因此找出腫瘤的組織起源,采取有針對(duì)性的治療,對(duì)于改善患者預(yù)后具有重要意義。
CUP的臨床評(píng)估包括病史詢問、體格檢查、實(shí)驗(yàn)室檢查、內(nèi)鏡及影像學(xué)檢查等。PET/ CT是目前最有效的影像學(xué)識(shí)別CUP原發(fā)位點(diǎn)的工具,診斷率為24%~53%[6]。病理檢查對(duì)尋找原發(fā)灶具有重要的價(jià)值。對(duì)于少數(shù)具有原發(fā)腫瘤典型結(jié)構(gòu)的轉(zhuǎn)移性腫瘤如腎透明細(xì)胞癌、甲狀腺濾泡狀腺癌等,病理醫(yī)師通過形態(tài)學(xué)觀察后容易判斷出原發(fā)灶;對(duì)大多數(shù)不具備典型結(jié)構(gòu)的轉(zhuǎn)移性腫瘤,也可采用免疫組織化學(xué)標(biāo)志物推測(cè)腫瘤細(xì)胞類型和組織來源。然而即使通過詳盡的臨床、影像和病理檢查,仍有20%~50%的患者無(wú)法找出原發(fā)灶[7]。
近年來,隨著生物技術(shù)的飛速發(fā)展,研究人員可同時(shí)檢測(cè)腫瘤組織中成千上萬(wàn)個(gè)基因的表達(dá)水平,從中發(fā)現(xiàn)與腫瘤組織起源相關(guān)的基因及特定的表達(dá)模式。轉(zhuǎn)移灶腫瘤的基因表達(dá)譜與轉(zhuǎn)移部位組織的基因表達(dá)譜存在差異,而與其原發(fā)部位組織的基因表達(dá)譜更相似,提示腫瘤在其發(fā)生、發(fā)展和轉(zhuǎn)移的過程中,始終保留其組織起源的基因表達(dá)特征。根據(jù)這一原理,Xu等[8]通過基因表達(dá)譜分析,構(gòu)建了1項(xiàng)包含154個(gè)組織特異性基因的分子標(biāo)志物,可用于判定22種常見腫瘤類型和組織起源。在此基礎(chǔ)之上,本研究進(jìn)一步將組織特異基因的數(shù)目由154個(gè)減少到96個(gè),采用實(shí)時(shí)定量聚合酶鏈反應(yīng)(real-time quantitative polymerase chain reaction,RTQ-PCR)檢測(cè)96基因在4%甲醛溶液固定石蠟包埋(formalin-fixed paraffinembedded,F(xiàn)FPE)樣本中的特異性表達(dá),并根據(jù)RTQ-PCR技術(shù)特點(diǎn)對(duì)96基因分子標(biāo)志物進(jìn)行優(yōu)化,以利于實(shí)現(xiàn)該成果向臨床應(yīng)用的轉(zhuǎn)化。
1.1 腫瘤基因表達(dá)譜數(shù)據(jù)庫(kù)
從歐洲生物信息學(xué)研究所的ArrayExpress數(shù)據(jù)庫(kù)和美國(guó)生物技術(shù)信息中心的Gene ExpressionOmnibus數(shù)據(jù)庫(kù)中選取腫瘤類型明確的樣本,共計(jì)5 800例。對(duì)樣本的臨床信息進(jìn)行標(biāo)準(zhǔn)化和規(guī)范化處理后構(gòu)建包含22種腫瘤類型、涵蓋95%以上實(shí)體腫瘤的腫瘤基因表達(dá)譜數(shù)據(jù)庫(kù)。基因表達(dá)譜分析采用美國(guó)Affymetrix公司生產(chǎn)的、多種規(guī)格的人類全基因組芯片,包括GeneChip? Human Genome U133A、U133A 2.0和U133 plus 2.0芯片。首先,采用Single Channel Array Normalization算法對(duì)基因芯片的原始數(shù)據(jù)進(jìn)行預(yù)處理。Single Channel Array Normalization算法能夠?qū)崿F(xiàn)對(duì)單個(gè)樣本的數(shù)據(jù)結(jié)構(gòu)解析,去除由引物、探針引起的背景噪聲對(duì)生物學(xué)信號(hào)的干擾,因此相比于其他需多個(gè)樣本數(shù)據(jù)同時(shí)解析的均一化算法,更加適用于個(gè)體化分子診斷的工作流程[9]。其后,采用BrainArray Resource提供的基因組信息注釋不同型號(hào)芯片的探針,并將其統(tǒng)一映射到Entrez Gene ID[10]。
1.2 臨床樣本
標(biāo)本源自復(fù)旦大學(xué)附屬腫瘤醫(yī)院和江蘇省常州市第一人民醫(yī)院在2012—2016年收治的患者。其中,男性100例(48.5%),女性106例(51.5%);年齡范圍為6~82歲,平均年齡54歲。所有樣本經(jīng)病理診斷明確原發(fā)位點(diǎn),分屬22種常見腫瘤類型。其中,腎上腺腫瘤8例,腦腫瘤12例,乳腺癌9例,宮頸癌8例,結(jié)直腸癌10例,子宮內(nèi)膜癌10例,胃及食管癌17例,生殖細(xì)胞腫瘤9例,頭頸部腫瘤9例,腎癌8例,肝膽腫瘤8例,肺癌9例,淋巴瘤9例,黑素瘤9例,間皮瘤9例,神經(jīng)內(nèi)分泌腫瘤10例,卵巢癌9例,胰腺癌8例,前列腺癌8例,肉瘤11例,甲狀腺癌8例,尿路上皮癌8例。
1.3 儀器與試劑
RecoverAll? Total Nucleic Acid Isolation Kit for FFPE抽提試劑盒購(gòu)自美國(guó)Ambion公司;High-Capacity cDNA Reverse Transcription Kit反轉(zhuǎn)錄試劑盒和Master Mix試劑購(gòu)自美國(guó)Applied Biosystems公司。Taqman? MGB探針和引物由美國(guó)Invitrogen公司設(shè)計(jì)合成。采用Applied Biosystems?7500熒光定量PCR系統(tǒng)進(jìn)行檢測(cè)。
1.4 實(shí)驗(yàn)方法
每例標(biāo)本的組織蠟塊連續(xù)切6張10 μm厚的切片。按RNA抽提試劑盒所述方法提取樣本總RNA,收集總RNA提取液40 μL。用微量紫外可見光分光光度計(jì)測(cè)定濃度和純度。將總RNA反轉(zhuǎn)錄成cDNA,反轉(zhuǎn)錄完成后,-20 ℃保存?zhèn)溆谩?/p>
在已加入引物探針預(yù)混液4.0 μL的96孔板上對(duì)反轉(zhuǎn)錄后的cDNA進(jìn)行擴(kuò)增,PCR反應(yīng)體系20.0 μL:Master Mix 10.0 μL,cDNA模板+H20 6.0 μL。將96孔板置于ABI7500熒光定量PCR儀。反應(yīng)條件:95 ℃預(yù)變性10 min;95 ℃變性15 s,60 ℃退火延伸1 min,40個(gè)循環(huán)。信號(hào)采集設(shè)在延伸步驟。
1.5 數(shù)據(jù)分析
數(shù)據(jù)的讀取、存儲(chǔ)、分析和處理主要采用R統(tǒng)計(jì)語(yǔ)言和Bioconductor項(xiàng)目開發(fā)的程序包[11-13]。采用支持向量機(jī)遞歸特征消除算法(support vector machine-recursive feature elimination,SVM-RFE)進(jìn)行特征選擇和分類建模[14]。針對(duì)多類別分類問題,采用“一對(duì)一”的分析策略,即在每?jī)深愔g訓(xùn)練1個(gè)SVM分類器。因此針對(duì)22種腫瘤類型的分類問題,訓(xùn)練階段共構(gòu)造231個(gè)兩類分類器,每個(gè)分類器是取任意2個(gè)類別的數(shù)據(jù)進(jìn)行訓(xùn)練。對(duì)于第i類和第j類之間的訓(xùn)練,需要解決下面的兩類分類問題:
測(cè)試階段確定樣本屬于哪一類,選擇最常用的“最大投票法”,即每個(gè)兩類分類器都對(duì)樣本的類別進(jìn)行判斷,采用投票機(jī)制為其相應(yīng)的類別投上一票,最后得票最多的類即是該未知樣本的所屬類。對(duì)待測(cè)樣本x進(jìn)行分類時(shí),判斷符號(hào)函數(shù):
若x屬于第i類,則第i類的票數(shù)加1,反之第j類加1。待測(cè)樣本x屬于最后票數(shù)最多的那一類。為更好地展示待測(cè)樣本與所有22種腫瘤類型的接近程度,我們進(jìn)一步采用sigmoid-fitting方法[15-16],計(jì)算待測(cè)樣本屬于各種腫瘤類型的概率,并將其命名為相似度分?jǐn)?shù)。
待測(cè)樣本與每種腫瘤類型的相似度分?jǐn)?shù)在0(低概率)到100(高概率)之間變化。22種腫瘤類型的相似度分?jǐn)?shù)之和為100。根據(jù)相似度最高原則判定該樣本最可能的腫瘤類型。96基因RTQPCR檢測(cè)及數(shù)據(jù)分析過程見圖1。
圖 1 96基因RTQ-PCR檢測(cè)及數(shù)據(jù)分析過程Fig. 1 96-gene RTQ-PCR assay testing workflow
1.6 分類模型性能評(píng)估
將9 6基因分型結(jié)果與病理診斷結(jié)果進(jìn)行比對(duì)。以病理診斷為金標(biāo)準(zhǔn),根據(jù)表1計(jì)算靈敏度、特異度、診斷符合率及9 5%C I[17]。
表 1 靈敏度、特異度和診斷符合率計(jì)算Tab. 1 Sensitivity, specificity and accuracy
2.1 腫瘤基因表達(dá)譜數(shù)據(jù)庫(kù)的構(gòu)建
構(gòu)建腫瘤基因表達(dá)譜數(shù)據(jù)庫(kù)時(shí)優(yōu)先考慮3個(gè)方面特性:① 應(yīng)涵蓋盡可能多的腫瘤類型;② 對(duì)于具有明顯異質(zhì)性的腫瘤類型,應(yīng)包含盡可能多的組織亞型;③ 納入轉(zhuǎn)移性腫瘤和分化差的樣本,從而盡可能真實(shí)地評(píng)估分子標(biāo)志物識(shí)別CUP樣本組織起源的性能。基于上述3點(diǎn),我們從ArrayExpress和Gene Expression Omnibus數(shù)據(jù)庫(kù)中收集了囊括22種腫瘤類型、5 800例腫瘤樣本的基因表達(dá)譜數(shù)據(jù)。22種腫瘤類型包括腎上腺腫瘤、腦腫瘤、乳腺癌、宮頸癌、結(jié)直腸癌、子宮內(nèi)膜癌、胃及食管癌、生殖細(xì)胞腫瘤、頭頸部腫瘤、腎癌、肝膽腫瘤、肺癌、淋巴瘤、黑素瘤、間皮瘤、神經(jīng)內(nèi)分泌腫瘤、卵巢癌、胰腺癌、前列腺癌、肉瘤、甲狀腺癌和尿路上皮癌等。每種腫瘤的樣本量從55例到542例不等(表2)。所有的5 800例樣本數(shù)據(jù)都作為訓(xùn)練集,用于后續(xù)組織特異基因的篩選及分類模型的建立。
2.2 基因篩選與功能注釋
以前期篩選的154個(gè)基因[8]為基礎(chǔ),我們進(jìn)一步運(yùn)用SVM-RFE算法,針對(duì)每一種腫瘤類型:① 評(píng)估每個(gè)基因?qū)^(qū)分該腫瘤類型的貢獻(xiàn)值;② 選取對(duì)該腫瘤類型貢獻(xiàn)最大的13個(gè)基因作為特異表達(dá)基因;③ 對(duì)22種腫瘤類型重復(fù)上述步驟。除去22組基因之間存在的交叉重疊,最終篩選得到96個(gè)組織特異基因(表3)。值得注意的是,96個(gè)基因中包含一些文獻(xiàn)中已報(bào)道的常見腫瘤相關(guān)基因,例如激肽釋放酶相關(guān)酶3(kallikrein-related peptidase 3,KLK3)所編碼的前列腺特異抗原,是診斷和監(jiān)測(cè)前列腺癌最重要的腫瘤標(biāo)志物;另外,表皮生長(zhǎng)因子受體(epidermal growth factor receptor,EGFR)基因在腦腫瘤、結(jié)直腸癌、肺癌、食管癌、宮頸癌和肉瘤等多種腫瘤中特異表達(dá)[18-23];鈣黏蛋白1(cadherin 1,CDH1)和血管內(nèi)皮生長(zhǎng)因子A(vascular endothelial growth factor A,VEGFA)則是結(jié)直腸癌、胃癌和肝癌重要的分子標(biāo)志物[24-26]。采用GeneCodis Bioinformatics Tool對(duì)96個(gè)基因進(jìn)行Kyoto Encyclopedia of Genes and Genomes(KEGG)通路富集分析,進(jìn)而揭示特征基因所反映的生物學(xué)意義。特征基因在細(xì)胞因子-受體相互作用、蛋白質(zhì)消化和吸收及PPAR信號(hào)通路等生物學(xué)通路中顯著富集(表4)。2.3 96基因模型的性能驗(yàn)證
表 2 樣本臨床信息Tab. 2 Summary of sample information
表 3 96基因列表Tab. 3 List of selected 96 genes
續(xù)表3
續(xù)表3
表 4 96基因KEGG通路富集分析Tab. 4 The top KEGG pathways enriched in the 96-gene list
首先,在訓(xùn)練集中評(píng)估96基因分類模型判別各類腫瘤的準(zhǔn)確率。采用“留一法交叉驗(yàn)證法”,即在數(shù)據(jù)集中每次僅保留一例樣本作為測(cè)試樣本,其余樣本均用作訓(xùn)練樣本,重復(fù)該過程,直到所有的樣本均被用作測(cè)試樣本為止。96基因模型的整體準(zhǔn)確率為95.3%(95%CI:94.4%~95.5%)。訓(xùn)練集的驗(yàn)證結(jié)果提示,96基因模型對(duì)于各類腫瘤具有較好的區(qū)分能力,但由于存在數(shù)據(jù)過度擬合的風(fēng)險(xiǎn),因此,需要將96基因模型進(jìn)一步應(yīng)用于臨床樣本進(jìn)行測(cè)試。
通過RTQ-PCR檢測(cè)FFPE樣本中96個(gè)腫瘤組織特異性基因的表達(dá)模式,并由SVM分類模型判定樣本的腫瘤類型。在206例FFPE樣本中,182例樣本的基因檢測(cè)分析結(jié)果與組織病理診斷結(jié)果一致,因此診斷符合率為88.4%(95%CI: 83.2%~92.4%)。96基因模型對(duì)于22種腫瘤的分析結(jié)果見表5,其中腎上腺腫瘤、腦腫瘤、乳腺癌、結(jié)直腸癌、腎癌、肝膽腫瘤、淋巴瘤、卵巢癌、前列腺癌和甲狀腺癌的靈敏度達(dá)100%;頭頸部腫瘤、間皮瘤、胰腺癌、神經(jīng)內(nèi)分泌腫瘤、尿路上皮癌、腎上腺腫瘤、肺癌、腎癌、淋巴瘤、惡性黑素瘤和甲狀腺癌的特異度達(dá)100%。
表 5 96基因標(biāo)志物性能驗(yàn)證Tab. 5 Performance characteristics of the 96-gene expression signature(%)
根據(jù)Chen等[27]公布的2015年統(tǒng)計(jì)數(shù)據(jù),在我國(guó)最常見十大腫瘤中,96基因模型的診斷符合率為93.3%(95%CI:85.4%~97.2%)。在男性最常見十大腫瘤中,準(zhǔn)確率為95.5%(95%CI:88.2%~98.6%);在女性最常見十大腫瘤中,準(zhǔn)確率為93.2%(95%CI: 85.2%~97.2%,表6、7、8)。
表 6 96基因標(biāo)志物在最常見十大腫瘤中的性能Tab. 6 Performance characteristics of the 96-gene expression signature in 10 most frequent cancers(%)
表 7 96基因標(biāo)志物在男性最常見十大腫瘤中的性能Tab. 7 Performance characteristics of the 96-gene expression signature in 10 most common cancers in males(%)
表 8 96基因標(biāo)志物在女性最常見十大腫瘤中的性能Tab. 8 Performance characteristics of the 96-gene expression signature in 10 most common cancers in females(%)
近年來,飛速發(fā)展的基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等組學(xué)技術(shù)產(chǎn)生了海量的研究數(shù)據(jù)。生物醫(yī)學(xué)大數(shù)據(jù)與生物信息學(xué)的有機(jī)結(jié)合對(duì)從分子水平闡明腫瘤本質(zhì)及準(zhǔn)確劃分腫瘤類型起到重要的輔助作用。國(guó)內(nèi)外多項(xiàng)研究證實(shí),分子標(biāo)志物可用于識(shí)別腫瘤組織起源。Talantov等[28]通過RTQ-PCR測(cè)定10個(gè)基因的表達(dá)水平,判別原發(fā)位點(diǎn)是否來源于肺、乳腺、結(jié)腸、卵巢、胰腺和前列腺。在260個(gè)已知原發(fā)位點(diǎn)的轉(zhuǎn)移性腫瘤樣本中準(zhǔn)確率為78%。Ma等[29]采用RTQ-PCR檢測(cè)92個(gè)基因的表達(dá)水平,可識(shí)別32種腫瘤的原發(fā)部位,該方法準(zhǔn)確率為87%。Rosenfeld等[30]則通過檢測(cè)48個(gè)microRNAs的表達(dá)水平,識(shí)別22種腫瘤的組織起源,準(zhǔn)確率為89%。Park等[31]采用10個(gè)免疫組織化學(xué)標(biāo)志物組合鑒別轉(zhuǎn)移性腫瘤的原發(fā)位點(diǎn),準(zhǔn)確率為75%,提示分子標(biāo)志物較免疫組織化學(xué)標(biāo)志物具有更高的準(zhǔn)確率。相比于影像學(xué)和組織病理診斷方法,分子標(biāo)志物檢測(cè)具有靈敏度和特異度高、結(jié)果判讀客觀等優(yōu)勢(shì),在歐美一些發(fā)達(dá)國(guó)家已作為輔助手段應(yīng)用于CUP原發(fā)位點(diǎn)的診斷[32-33]。
本研究整合ArrayExpress和Gene Expression Omnibus數(shù)據(jù)庫(kù)中腫瘤類型明確的生物芯片數(shù)據(jù),構(gòu)建涵蓋22大類腫瘤、5 800例樣本的基因表達(dá)譜數(shù)據(jù)庫(kù);從中篩選出96個(gè)組織特異性基因,建立腫瘤分類模型;并通過優(yōu)化RNA提取方法及PCR探針引物設(shè)計(jì),實(shí)現(xiàn)在FFPE樣本中定量檢測(cè)上述基因的表達(dá)水平。在206例FFPE樣本中,182例的基因分型結(jié)果與病理診斷結(jié)果一致,分類準(zhǔn)確率達(dá)88.4%。這一分類性能與基于生物芯片研究的結(jié)果具有較好的一致性[8],因此驗(yàn)證了多基因分子標(biāo)志物從生物芯片平臺(tái)轉(zhuǎn)化到RTQ-PCR平臺(tái)的可行性。在我國(guó)男性和女性最常見十大腫瘤中,96基因模型的分類準(zhǔn)確率分別達(dá)到95.5%和93.2%,提示該檢測(cè)在國(guó)內(nèi)具有較好的應(yīng)用前景。
然而,本研究仍存在一定的局限性。96基因模型對(duì)于部分腫瘤類型的靈敏度較低,如頭頸部腫瘤為44.4%、宮頸癌為62.5%。這可能是由于特定腫瘤類型自身存在較大的異質(zhì)性,如頭頸部腫瘤;也可能由于部分腫瘤如宮頸癌與起源于子宮內(nèi)膜的癌具有相同的胚胎起源,因此呈現(xiàn)出相似的組織形態(tài)和基因表型。上述腫瘤類型較低的準(zhǔn)確率在其他研究中也有報(bào)道[34]。盡管在本研究中包含了相當(dāng)比例的分化不良腫瘤樣本(77.5%),但其主要來源于腫瘤原發(fā)灶,后續(xù)研究應(yīng)納入更多轉(zhuǎn)移性腫瘤樣本進(jìn)行驗(yàn)證。
綜上所述,本研究在前期工作的基礎(chǔ)上,實(shí)現(xiàn)了腫瘤組織起源分子標(biāo)志物從生物芯片到RTQ-PCR技術(shù)平臺(tái)的轉(zhuǎn)化,因此更有利于該項(xiàng)成果的臨床應(yīng)用。本研究顯示,96基因RTQPCR檢測(cè)對(duì)于不同腫瘤的FFPE樣本具有較好的判別能力,展現(xiàn)出其在CUP患者臨床診斷中的潛在價(jià)值。后續(xù)工作需進(jìn)一步結(jié)合臨床實(shí)踐,通過前瞻性研究設(shè)計(jì),比較基因檢測(cè)指導(dǎo)下的治療與經(jīng)驗(yàn)性治療的療效,進(jìn)而評(píng)估基因檢測(cè)對(duì)于CUP患者治療和預(yù)后的意義。
[1] STELLA G M, SENETTA R, CASSENTI A, et al. Cancers of unknown primary origin: current perspectives and future therapeutic strategies[J]. J Transl Med, 2012, 10: 12.
[2] 張延齡. 原發(fā)灶不明的腫瘤患者的處理(文獻(xiàn)綜述)[J].國(guó)外醫(yī)學(xué)外科學(xué)分冊(cè), 2002, 29(5): 282-285.
[3] PAVLIDIS N, FIZAZI K. Cancer of unknown primary (CUP)[J]. Crit Rev Oncol Hematol, 2005, 54(3): 243-250.
[4] KAMPOSIORAS K, PENTHEROUDAKIS G, PAVLIDIS N. Exploring the biology of cancer of unknown primary: breakthroughs and drawbacks[J]. Eur J Clin Invest, 2013,43(5): 491-500.
[5] RICHARDSON A, WAGLAND R, FOSTER R, et al. Uncertainty and anxiety in the cancer of unknown primary patient journey: a multiperspective qualitative study[J]. BMJ Support Palliat Care, 2015, 5(4): 366-372.
[6] RESKE S N, KOTZERKE J. FDG-PET for clinical use. Results of the 3rd German Interdisciplinary Consensus Conference, “Onko-PET Ⅲ”, 21 July and 19 September 2000[J]. Eur J Nucl Med, 2001, 28(11): 1707-1723.
[7] 潘宏銘, 鄭 宇. 原發(fā)灶不明轉(zhuǎn)移癌的診斷與治療進(jìn)展[C]/中國(guó)腫瘤內(nèi)科進(jìn)展 中國(guó)腫瘤醫(yī)師教育. 2014.
[8] XU Q, CHEN J, NI S, et al. Pan-cancer transcriptome analysis reveals a gene expression signature for the identification of tumor tissue origin[J]. Mod Pathol, 2016, 29(6): 546-556.
[9] PICCOLO S R, SUN Y, CAMPBELL J D, et al. A singlesample microarray normalization method to facilitate personalized-medicine workflows[J]. Genomics, 2012,100(6): 337-344.
[10] DAI M, WANG P, BOYD A D, et al. Evolving gene/transcript definitions significantly alter the interpretation of GeneChip data[J]. Nucleic Acids Res, 2005, 33(20): e175.
[11] IHAKA R, GENTLEMAN R. R: a language for data analysis and graphics[J]. J Comput Graph Stat, 1996, 5(3): 299-314.
[12] REIMERS M, CAREY V J. Bioconductor: an open source framework for bioinformatics and computational biology[J]. Methods Enzymol, 2006, 411(411): 119-134.
[13] CHANG C, LIN C. LIBSVM: A library for support vector machines[J]. ACM Trans Intell Syst Technol, 2011, 2(3): 389-396.
[14] GUYON I, WESTON J, BARNHILL S, et al. Gene selection for cancer classification using support vector machines[J]. Mach Learn, 2001, 46(1-3): 389-422.
[15] WU T, LIN C, WENG R C. Probability estimates for multiclass classification by pairwise coupling[J]. J Mach Learn Res, 2004, 5(4): 975-1005.
[16] PLATT J C. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods[J]. Advances in Large Margin Classifiers, 2000, 10: 61-74.
[17] 李 康. 《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》[M]. 北京: 人民衛(wèi)生出版社,2013: 216-218.
[18] DEVARAKONDA S, MORGENSZTERN D, GOVINDAN R. Genomic alterations in lung adenocarcinoma[J]. Lancet Oncol, 2015, 16(7): e342-e351.
[19] FURNARI F B, CLOUGHESY T F, CAVENEE W K, et al. Heterogeneity of epidermal growth factor receptor signalling networks in glioblastoma[J]. Nat Rev Cancer, 2015, 15(5): 302-310.
[20] GIAMPIERI R, APRILE G, DEL P M, et al. Beyond RAS: the role of epidermal growth factor receptor (EGFR) and its network in the prediction of clinical outcome during anti-EGFR treatment in colorectal cancer patients[J]. Curr Drug Targets, 2014, 15(13): 1225-1230.
[21] LI J C, ZHAO Y H, WANG X Y, et al. Clinical significance of the expression of EGFR signaling pathway-related proteins in esophageal squamous cell carcinoma[J]. Tumour Biol,2014, 35(1): 651-657.
[22] LI Q, TANG Y, CHENG X, et al. EGFR protein expression and gene amplification in squamous intraepithelial lesions and squamous cell carcinomas of the cervix[J]. Int J Clin Exp Pathol, 2014, 7(2): 733-741.
[23] TENG H W, WANG H W, CHEN W M, et al. Prevalence and prognostic influence of genomic changes of EGFR pathway markers in synovial sarcoma[J]. J Surg Oncol, 2011,103(8): 773-781.
[24] JING H, DAI F, ZHAO C, et al. Association of genetic variants in and promoter hypermethylation of CDH1 with gastric cancer: a meta-analysis[J]. Medicine (Baltimore), 2014,93(19): e107.
[25] LI Y X, LU Y, LI C Y, et al. Role of CDH1 promoter methylation in colorectal carcinogenesis: a meta-analysis[J]. DNA Cell Biol, 2014, 33(7): 455-462.
[26] LIU F, LI H, CHANG H, et al. Identification of hepatocellular carcinoma-associated hub genes and pathways by integrated microarray analysis[J]. Tumori, 2015, 101(2): 206-214.
[27] CHEN W, ZHENG R, BAADE P D, et al. Cancer statistics in China, 2015[J]. CA Cancer J Clin, 2016, 66(2): 115-132.
[28] TALANTOV D, BADEN J, JATKOE T, et al. A quantitative reverse transcriptase-polymerase chain reaction assay to identify metastatic carcinoma tissue of origin[J]. J Mol Diagn, 2006, 8(3): 320-329.
[29] MA X J, PATEL R, WANG X, et al. Molecular classification of human cancers using a 92-gene real-time quantitative polymerase chain reaction assay[J]. Arch Pathol Lab Med,2006, 130(4): 465-473.
[30] ROSENFELD N, AHARONOV R, MEIRI E, et al. MicroRNAs accurately identify cancer tissue origin[J]. Nat Biotechnol,2008, 26(4): 462-469.
[31] PARK S Y, KIM B H, KIM J H, et al. Panels of immunohistochemical markers help determine primary sites of metastatic adenocarcinoma[J]. Arch Pathol Lab Med, 2007,131(10): 1561-1567.
[32] WEISS L M, CHU P, SCHROEDER B E, et al. Blinded comparator study of immunohistochemical analysis versus a 92-gene cancer classifier in the diagnosis of the primary site in metastatic tumors[J]. J Mol Diagn, 2013, 15(2): 263-269.
[33] PILLAI R, DEETER R, RIGL C T, et al. Validation and reproducibility of a microarray-based gene expression test for tumor identification in formalin-fixed, paraffin-embedded specimens[J]. J Mol Diagn, 2011, 13(1): 48-56.
[34] ERLANDER M G, MA X J, KESTY N C, et al. Performance and clinical evaluation of the 92-gene real-time PCR assay for tumor classification[J]. J Mol Diagn, 2011, 13(5): 493-503.
Identification and validation of a novel gene expression signature for diagnosing tumor tissue origin
WANG Qifeng1, XU Qinghua2, CHEN Jinying2, QIAN Chenhui2, LIU Xiaojian3, DU Xiang1
(1.Department of Pathology, Fudan University Shanghai Cancer Center, Department of Oncology, Shanghai Medical College, Fudan University, Shanghai 200032, China; 2.Canhelp Genomics Co., Ltd, Hangzhou 311188,Zhejiang Province, China; 3.Department of Chemotherapy, Fudan University Shanghai Cancer Center,Department of Oncology, Shanghai Medical College, Fudan University, Shanghai 200032, China)
Correspondence to: DU Xiang E-mail: dx2008cn@163.com
Background and purpose: Cancer of unknown primary (CUP) represents approximately 5%~10% of malignant neoplasms. For CUP patients, identification of tumor origin allows for more specific therapeutic regimens and improves outcomes. Methods: By retrieving the gene expression data from ArrayExpress and Gene Expression Omnibus data repositories, we established a comprehensive gene expression database of 5 800 tumor samples encompassing 22 main tumor types. The support vector machine-recursive feature elimination algorithm was used for feature selection and classification modelling. We further optimized the RNA isolation and real-time quantitative polymerase chain reaction (RTQ-PCR) methods for candidate gene expression profiling and applied the RTQ-PCR assays to a set of formalin-fixed, paraffin-embedded tumor samples. Results: Based on the pan-cancer transcriptome database, we identified a list of 96-tumor specific genes, including common tumor markers, such as cadherin 1 (CDH1), kallikrein-related peptidase 3 (KLK3), and epidermal growth factor receptor (EGFR). Furthermore, we successfully translated the microarray-based gene expression signature to the RTQ-PCR assays, which allowed an overall success rate of 88.4%(95%CI: 83.2%-92.4%) in classifying 22 different tumor types of 206 formalin-fixed, paraffin-embedded samples. Conclusion: The 96-gene RTQ-PCR assay represents a useful tool for accurately identifying tumor origins. The assay uses RTQ-PCR and routine formalin-fixed, paraffin-embedded samples, making it suitable for rapid clinical adoption.
Cancer of unknown primary; Tumor tissue origin; Gene expression profiling; Real-time quantitative polymerase chain reaction; Immunohistochemistry
10.19401/j.cnki.1007-3639.2016.10.001
R730.21
A
1007-3639(2016)10-0801-12
杜 祥 E-mail: dx2008cn@163.com
(2016-07-29
2016-09-08)