溫凌杜, 王子弘, 張國明, 賴茜, 楊宏宇
1.廣州醫(yī)科大學(xué)研究生院,廣東 廣州(510000); 2.深圳市寶安中醫(yī)院(集團(tuán))口腔科,廣東 深圳(518000);3.深圳市寶安婦幼保健院口腔科,廣東 深圳(518000); 4.北京大學(xué)深圳醫(yī)院口腔科,廣東 深圳(518000)
口腔鱗狀細(xì)胞癌(oral squamous cell carcinoma,OSCC)為頭頸部最常見的腫瘤之一,具有較強(qiáng)的侵襲性,??蓪?dǎo)致局部浸潤以及頸部早期淋巴結(jié)轉(zhuǎn)移的發(fā)生[1?2]。鑒于OSCC 獨(dú)特的解剖位置以及分子發(fā)病機(jī)制的多樣性,目前臨床對(duì)于OSCC 的治療通常由外科、腫瘤內(nèi)科或放療科等組成的多學(xué)科團(tuán)隊(duì)來實(shí)施個(gè)性化的綜合治療方案,盡管在包括放化療、靶向或手術(shù)治療等方式中取得了較大的進(jìn)展,但OSCC 的發(fā)病率和死亡率在過去十年并沒有得到顯著改善,患者的總體5 年生存率依然較低[3],因此在OSCC 早期診斷或篩查方面需要新的腫瘤標(biāo)志物。主成分分析(principal component analysis,PCA)為一種廣泛用于醫(yī)學(xué)領(lǐng)域識(shí)別模式的多元統(tǒng)計(jì)方法,可對(duì)影響特定現(xiàn)象的因素進(jìn)行分類,或通過切割方差較小的主成分(principal component,PC)以降低維數(shù),從而篩選出可用于開發(fā)新模型的PC,而PC 的權(quán)重則可用于計(jì)算每個(gè)因素在數(shù)據(jù)中的貢獻(xiàn)[4?5]。本研究擬通過TCGA 數(shù)據(jù)庫篩選出OSCC 患者的差異表達(dá)基因(differentially expressed genes,DEGs)數(shù)據(jù),并應(yīng)用PCA 法來確定可用于OSCC 診斷的主要因素并以此構(gòu)建診斷模型,以期為OSCC 的早期基因診斷以及PCA 模型在臨床診斷中的應(yīng)用提供理論依據(jù)。
從TCGA 數(shù)據(jù)庫中,選擇HTSeq?FPKM 工作流程,并以“other and unspecified parts of tongue、other and unspecified parts of mouth、floor of mouth、gum、lip、palate、base of tongue、other and ill?defined sites in lip、oral cavity and pharynx”為檢索條件,獲取截止于2021 年6 月2 日數(shù)據(jù)庫中OSCC 樣本與正常對(duì)照樣本的RNA?seq 表達(dá)數(shù)據(jù)。通過Ensembl 數(shù)據(jù)庫提供的“Homo_sapiens.GRCh38.104.chr.gtf.gz”文件行基因名稱注釋。
應(yīng)用limma R 軟件包對(duì)RNA?seq 表達(dá)數(shù)據(jù)行歸一化處理,并以錯(cuò)誤發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)<0.001 和|log2FC|>4 為具有統(tǒng)計(jì)學(xué)意義的閾值,行差異基因表達(dá)分析篩選出DEGs,結(jié)果通過ggplot2 R 軟件包繪制火山圖可視化。
應(yīng)用基因本體論(gene ontology,GO)和京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)數(shù)據(jù)庫,通過clusterProfiler、org.Hs.eg.db、enrichplot 和ggplot2 R 軟件包,取P.ad?just<0.05 和Q<0.05 為篩選條件對(duì)DEGs 行富集分析,以發(fā)現(xiàn)DEGs 的主要生物學(xué)特征并繪制氣泡圖將結(jié)果可視化。
將DEGs 擬作為診斷OSCC 的腫瘤標(biāo)志物,隨機(jī)選取RNA?seq 中DEGs 表達(dá)數(shù)據(jù)的70%作為訓(xùn)練集和30%作為測試集。訓(xùn)練集數(shù)據(jù)通過prcomp R函數(shù)行PCA 分析,明確PC 的特征向量和權(quán)重信息并構(gòu)建OSCC 的診斷模型,其中PC 權(quán)重碎石圖由ggplot2 R 軟件包繪制。最后通過pROC R 軟件包分別繪制訓(xùn)練集、測試集PCA 模型的受試者工作特征(receiver operating characteristic,ROC)曲線并計(jì)算曲線下面積(area under curve,AUC),其中AUC 在0.5~0.7 時(shí)為低準(zhǔn)確性,AUC 在0.7~0.9 時(shí)為較高準(zhǔn)確性,AUC 在0.9 以上時(shí)為高準(zhǔn)確性[6],以評(píng)估PCA 模型對(duì)OSCC 的診斷優(yōu)勢(shì)。
從TCGA 數(shù)據(jù)庫中共獲取OSCC 樣本RNA?seq表達(dá)數(shù)據(jù)330 例,正常對(duì)照RNA?seq 表達(dá)數(shù)據(jù)32例。對(duì)表達(dá)文件的原始微陣列數(shù)據(jù)進(jìn)行處理和差異表達(dá)分析后,基于FDR<0.001 和|log2FC|>4 的截止標(biāo)準(zhǔn)總共篩選出組蛋白1(histatin 1,HTN1)、富含脯氨酸27(proline rich 27,PRR27)、組蛋白3(histatin 3,HTN3)、包含A 族成員2 的BPI 折疊(BPI fold containing family A member 2,BPIFA2)、胱抑素D(cystatin D,CST5)和富含脯氨酸的蛋白質(zhì)HaeIII 亞家族2(proline rich protein Hae Ⅲsubfami?ly 2,PRH2)等159 個(gè)下調(diào)DEGs 和MAGE 家族成員A10(MAGE family member A10,MAGEA10)、溴域睪丸相關(guān)(bromodomain testis associated,BRDT)、G2/M 期特異性E3 泛素蛋白連接酶(G2/M?phase specific E3 ubiquitin protein ligase,G2E3)、亞精胺/精胺N1?乙酰轉(zhuǎn)移酶像1(spermidine/spermine N1?acetyl transferase like 1,SATL1)、脂肪酰基輔酶A 還原酶2 假基因1(fatty acyl?CoA reductase 2 pseudo?gene 1,F(xiàn)AR2P1)和鈣結(jié)合蛋白1(calbindin 1,CALB1)等248 個(gè)上調(diào)DEGs,數(shù)據(jù)結(jié)果由火山圖行可視化處理(圖1)。
Figure 1 Volcano map of DEGs distribution in OSCC圖1 OSCC 中DEGs 分布的火山圖
GO 注釋(圖2)顯示HTN1、PRR27、HTN3、BPI?FA2、CST5 和PRH2 等407 個(gè)DEGs 主要富集的細(xì)胞成分(cellular component,CC)為中間纖維、黑素體膜、幾丁質(zhì)酶體和色素顆粒膜,以及色素和唾液相關(guān)的生物過程(biological process,BP),如發(fā)育性色素沉著、黑色素生物合成、黑色素代謝和唾液分泌。KEGG 通路富集分析(圖3)顯示DEGs 主要參與唾液分泌、酪氨酸代謝、淀粉和蔗糖代謝通路。結(jié)果均P.adjust<0.05 和Q<0.05。
Figure 2 GO enrichment analysis of DEGs圖2 DEGs 的GO 富集分析
Figure 3 KEGG pathway enrichment anal?ysis of DEGs圖3 DEGs 的KEGG 通路富集分析
將DEGs 擬作為診斷OSCC 的腫瘤標(biāo)志物,對(duì)訓(xùn)練集行PCA 分析。由PC 所占權(quán)重可見(表1、圖4),PC1、PC2、PC3 方差的貢獻(xiàn)率分別為0.873、0.100、0.023,三者累計(jì)方差的貢獻(xiàn)率為0.996,而隨著PC 的增多其累計(jì)方差的貢獻(xiàn)率改變較小,故研究選取主成分前三,即PC1、PC2 和PC3 用于構(gòu)建OSCC 的診斷模型。
Figure 4 Gravel graph of principal component weight圖4 主成分權(quán)重碎石圖
表1 主成分權(quán)重信息前五位Table 1 Weight information about the top five principal components
進(jìn)一步結(jié)合PC1、PC2 和PC3 的特征向量(表2),構(gòu)建以頜下腺雄激素調(diào)節(jié)蛋白3B(submaxil?lary gland androgen regulated protein 3B,SMR3B)、PRR27、HTN3、抗凝素(statherin,STATH)、CST5、BPIFA2、PRH2、角蛋白35(keratin 35,KRT35)、HTN1 和淀粉酶α1B(amylase alpha 1B,AMY1B)表達(dá)水平為基礎(chǔ)的OSCC 診斷模型,模型方程如下。
表2 PC1、PC2 和PC3 的特征向量Table 2 Feature vectors of PC1,PC2 and PC3
PC1=SMR3B×(?0.333)+PRR27×(?0.315)+HTN3×(?0.335)+STATH×(?0.338)+CST5×(?0.336)+BPIFA2×(?0.333)+PRH2×(?0.335)+KRT35×(?0.025)+HTN1×(?0.337)+AMY1B×(?0.337)
PC2=SMR3B×(?0.073)+PRR27×(?0.018)+HTN3×0.031+STATH×0.011+CST5×0.028+BPIFA2×0.031+PRH2×0.029+KRT35×(?0.995)+HTN1×0.023+AMY1B×0.010
PC3=SMR3B×(0.317)+PRR27×0.749+HTN3×(?0.286)+STATH×0.053+CST5×(?0.203)+BPIFA2×(?0.308)+PRH2×(?0.258)+KRT35×(?0.070)+HTN1×(?0.162)+AMY1B×0.145
PC綜合得分=(PC1×0.873+PC2×0.100+PC3×0.023)/0.996
訓(xùn)練集ROC 曲線(圖5a)顯示PCA 模型的AUC值最高(0.852),并且在測試集ROC 曲線(圖5b)中仍可看到該模型的AUC 值(0.844)較其他基因高,表明該模型在OSCC 的診斷中具有優(yōu)勢(shì)。
Figure 5 Training set and test set ROC curves圖5 訓(xùn)練集、測試集ROC 曲線
OSCC 是最常見的口腔癌類型,具有較高的發(fā)病率和惡性程度,可發(fā)生在口腔的任何部位,臨床以舌前三分之二、上下牙齦以及頰部黏膜較為多見[7]。癌癥的篩查或早期診斷被認(rèn)為是改善預(yù)后和提高患者生存率的關(guān)鍵因素[8],口腔獨(dú)特的解剖位置使臨床醫(yī)師可通過直接目視或觸診等常規(guī)檢查來評(píng)估病變以便對(duì)可疑組織進(jìn)行活檢,但作為目前臨床常規(guī)診斷方法,其對(duì)OSCC 檢測的有效性仍存在爭議。研究表明,基于該常規(guī)診斷方法仍有大多數(shù)OSCC 病例在早期階段未被發(fā)現(xiàn),而該病高死亡率的主要原因是超過50%的OSCC 患者首次就診即被診斷為晚期[9]。在臨床工作中也發(fā)現(xiàn),有些患者無法完全張口進(jìn)行檢查,而且OSCC 和幾種類型口腔潛在惡性疾病具有相似表現(xiàn),OSCC 的診斷在很大程度上依賴于可以識(shí)別早期腫瘤變化的臨床專業(yè)知識(shí),但即便是高年資專業(yè)醫(yī)師也難以完全準(zhǔn)確區(qū)分口腔潛在惡性疾病和OSCC[10]。因此,需要提高OSCC 的早期確診率以改善患者的治療效果和預(yù)后。
以往研究發(fā)現(xiàn)脫落細(xì)胞DNA 計(jì)數(shù)、刷拭活檢、微核分析等技術(shù)可用于OSCC 早期的診斷,但均存在一定的局限性[11]。腫瘤標(biāo)志物可用作健康個(gè)體和口腔癌臨床或組織學(xué)陰性患者的篩查工具[12],并且越來越多的研究表明OSCC 涉及多個(gè)致癌基因和抑癌基因。活化的蛋白激酶C1 受體(receptor for activated C kinase 1,RACK1)通過NF?κB 通路增加M2/M1 巨噬細(xì)胞比率從而促進(jìn)OSCC 進(jìn)展[13],KN 基序和錨蛋白重復(fù)結(jié)構(gòu)域1(KN motif and an?kyrin repeat domains 1,Kank1)的異常表達(dá)調(diào)節(jié)Yes相關(guān)轉(zhuǎn)錄調(diào)節(jié)蛋白1(Yes1 associated transcriptional regulator,YAP)以促進(jìn)OSCC 中的細(xì)胞凋亡并抑制增殖[14],MiR?92a 通過靶向叉頭框蛋白P1(forkhead box P1,F(xiàn)OXP1)表達(dá)來調(diào)控OSCC 細(xì)胞的生長[15],這些基因的發(fā)現(xiàn)有助于更好地了解OSCC 在分子水平的發(fā)病機(jī)制,也為挖掘可用于早期診斷或篩查OSCC 的腫瘤標(biāo)志物提供了基礎(chǔ)。轉(zhuǎn)錄組測序(RNA sequencing,RNA?Seq)技術(shù)的出現(xiàn)使研究者可以獲取OSCC 患者的基因表達(dá)數(shù)據(jù),而當(dāng)數(shù)據(jù)集包含大量變量時(shí),PCA 作為探索性數(shù)據(jù)分析的工具,通常用于在構(gòu)建預(yù)測模型之前進(jìn)行的變量降維,通過數(shù)據(jù)協(xié)方差矩陣的特征值分解或數(shù)據(jù)矩陣的奇異值分解來執(zhí)行,可將大量預(yù)測的變量減少到幾個(gè)PC,特別是在嘈雜或具有強(qiáng)相關(guān)變量的數(shù)據(jù)集中[16]。PC 則是解釋數(shù)據(jù)方差原始變量的線性組合,線性組合中每個(gè)變量對(duì)應(yīng)的系數(shù)表示該變量在分量中的相對(duì)權(quán)重,系數(shù)的絕對(duì)值越大,對(duì)應(yīng)的變量在計(jì)算分量中越重要[17]。Kang 等[18]研究發(fā)現(xiàn)PCA 法可通過對(duì)三維計(jì)算機(jī)斷層掃描圖像上的大量解剖標(biāo)志變量分析中識(shí)別出最具特征的變量,從而可用于確定哪些解剖結(jié)構(gòu)可最能表征患者的主要變異。秦明麗等[19]基于對(duì)132 例卵巢癌患者和211 例卵巢良性腫瘤患者的血清癌胚抗原(carcinoembryonic antigen,CEA)、糖類抗原125(carbohydrate antigen 125,CA125)、糖類抗原153(carbohydrate antigen 153,CA153)等8 項(xiàng)腫瘤標(biāo)志物建立的PCA?多層感知器(multi perceptronlayer,MPL)?人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)模型研究發(fā)現(xiàn),該模型可有效提升卵巢癌的診斷效能,可為卵巢癌的智能化輔助診斷提供參考。
本研究前期通過TCGA 數(shù)據(jù)庫篩選出OSCC與正常對(duì)照樣本之間的DEGs,擬將其作為OSCC的腫瘤標(biāo)志物以明確是否可用于其診斷。但即便研究中將DEGs 的篩選條件調(diào)整為FDR<0.001和| log2FC |>4,仍有159 個(gè)下調(diào)DEGs 和248 個(gè)上調(diào)DEGs,共407 個(gè)DEGs 被篩選出來。由于這些DEGs 中包含數(shù)據(jù)較大,難以確定哪些基因可作為最能體現(xiàn)診斷OSCC 的因素,故應(yīng)用PCA 法對(duì)數(shù)據(jù)進(jìn)行降維處理。發(fā)現(xiàn)PC1、PC2 和PC3 方差的貢獻(xiàn)率分別為0.873、0.100、0.023,三者累計(jì)方差的貢獻(xiàn)率為0.996。而自PC3 后,即便隨著PC 的增加,累計(jì)方差的貢獻(xiàn)率值較前三者疊加已變化不大,表明通過PCA 法處理后,PC1、PC2、PC3 即可代表原DEGs 的數(shù)據(jù)特征,從而可用于OSCC 的診斷。研究進(jìn)一步通過PC1、PC2、PC3 累計(jì)方差的貢獻(xiàn)率和特征向量構(gòu)建以SMR3B、PRR27、HTN3、STATH、CST5、BPIFA2、PRH2、KRT35、HTN1 和AMY1B 表達(dá)水平為基礎(chǔ)的OSCC PCA 診斷模型。在訓(xùn)練集和測試集的ROC 曲線中可以發(fā)現(xiàn),該模型的AUC值分別為0.852、0.844,較模型內(nèi)其他基因相比表現(xiàn)出明顯的診斷優(yōu)勢(shì),并且具有良好的穩(wěn)定性。盡管該模型在OSCC 診斷方面顯示出其優(yōu)越性,但對(duì)于癌前病變或癌前狀態(tài)尚未進(jìn)行具體分析鑒別,且本研究僅基于TCGA數(shù)據(jù)庫在生物信息學(xué)層面進(jìn)行,而要應(yīng)用到中國人群OSCC 診斷之前,建議結(jié)合國內(nèi)患者人群的數(shù)據(jù)信息進(jìn)行驗(yàn)證。
綜上所述,本研究基于PCA 法和DEGs 構(gòu)建的以SMR3B、PRR27、HTN3、STATH、CST5、BPIFA2、PRH2、KRT35、HTN1 和AMY1B 表達(dá)水平為基礎(chǔ)的模型對(duì)OSCC 具有較高診斷優(yōu)勢(shì),可為OSCC 的早期基因診斷以及PCA 模型在臨床診斷中的應(yīng)用提供理論依據(jù)。
【Author contributions】Wen LD, Wang ZH processed the research,analyzed the data, and wrote the article. Zhang GM, Lai Q assisted the data analysis. Yang HY revised the article and designed the study. All authors read and approved the final manuscript as submitted.