楊 光, 郝逸凡
(沈陽師范大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院, 沈陽 110034)
前列腺癌是發(fā)生在男性前列腺組織中的惡性腫瘤,是前列腺腺泡細(xì)胞異常無序生長的結(jié)果。前列腺癌發(fā)病率的高低與地理和種族的差異性有關(guān)。在歐美一些發(fā)達(dá)國家和地區(qū),它是男性最常見的惡性腫瘤,死亡率排在各種癌癥的第二位;在亞洲,雖然發(fā)病率低于其他西方國家,但是近幾年也呈迅速上升趨勢。臨床上前期主要采用雄激素剝奪療法(ADT)治療前列腺癌,然而幾乎所有患者最終都會發(fā)展為致命性的去勢抵抗型前列腺癌(CRPC)。雖然FDA(美國食品藥品管理局)批準(zhǔn)的第二代抗雄激素藥物如Enzalutamide(恩雜魯胺)和Abiraterone(阿比特龍)等對緩解疾病進(jìn)展具有一定的功效,但患者很快就會出現(xiàn)臨床耐藥。因此,臨床上迫切需要治療前列腺癌的特效藥。
鑒于國內(nèi)現(xiàn)有的醫(yī)療水平,針對前列腺癌僅能通過常規(guī)手術(shù)治療、內(nèi)分泌及化學(xué)藥物療法來提高患者的生活質(zhì)量,但提高患者的生存期依舊是一個難題。目前,分子靶向治療已成為腫瘤治療的研究熱點,為前列腺癌的治療也提供了新的思路和方向。利用基因表達(dá)譜等組學(xué)技術(shù)發(fā)現(xiàn)抗前列腺癌的藥物靶標(biāo)可作為一個重要手段。但新藥開發(fā)是一個耗時費力的高風(fēng)險過程,充分發(fā)掘已有藥物的新用途,對藥物進(jìn)行重定位,備受生物醫(yī)藥產(chǎn)業(yè)和學(xué)者們的青睞[13]。
藥物重定位又稱老藥新用,指對曾經(jīng)用于臨床的藥物新適應(yīng)癥的發(fā)現(xiàn)、確認(rèn)和應(yīng)用。包括對處于臨床研究階段或已批準(zhǔn)上市的藥物進(jìn)行重定位、重定用途、重評價和重新定位治療方向等[4]。推動一個新藥物上市通常需要13—15年,其成本平均需要20~30億美元,且處于上升趨勢。 如果對已有藥物進(jìn)行研究,一旦它們擁有不同的醫(yī)療用途,這將是一個巨大的未開發(fā)資源。“藥物重定位”可以跳過臨床Ⅰ期,相比于新藥物大大地縮減研究成本和投入時間。到目前為止,從已知的藥物中發(fā)現(xiàn)新的適應(yīng)癥,成功重定位的藥物已經(jīng)有100多種。如何從已知藥物中發(fā)現(xiàn)對于前列腺癌有治療效果的藥物是本文探討的問題。
互信息(mutual information)是信息論里一種有用的信息度量,它可以看成是一個隨機變量中包含的關(guān)于另一個隨機變量的信息量,或者說是一個隨機變量由于已知另一個隨機變量而減少的不肯定性[5]。因為基因與基因間具有關(guān)聯(lián)性。采取基于互信息算法的特征基因提取方法可以保留這種關(guān)聯(lián)性。如果互信息值比較大,說明這兩個基因之間的關(guān)聯(lián)性比較大,即在生物學(xué)上的聯(lián)系比較緊密。如果互信息值比較小,說明這兩個基因之間的關(guān)聯(lián)性比較小,即在生物學(xué)上的聯(lián)系不緊密。如何用互信息算法提取出前列腺癌的特征表達(dá)基因是本文探討的問題。
cmap[6]是利用小分子藥物、基因表達(dá)與疾病相互關(guān)聯(lián)的生物應(yīng)用數(shù)據(jù)庫。通過基因表達(dá)譜建立基因、疾病和藥物三者的關(guān)聯(lián)性,并快速利用基因表達(dá)譜的數(shù)據(jù)比對出與疾病高關(guān)聯(lián)性的藥物。近年來的研究趨勢表明:將cmap基因表達(dá)譜數(shù)據(jù)庫應(yīng)用于疾病治療與藥物開發(fā)領(lǐng)域,可提供越來越精確的方向。在藥物開發(fā)方面,利用基因表達(dá)譜的數(shù)據(jù)在cmap數(shù)據(jù)庫中快速比對出與疾病高關(guān)聯(lián)性的藥物。目前已經(jīng)有學(xué)者成功的利用cmap驗證了抗?jié)兯幙梢杂糜谥委煼伟?抗癲癇藥物可以用來治療炎癥性腸道疾病,抗哮喘藥物可以用來預(yù)防白內(nèi)障等。如何將這種方法應(yīng)用在抗前列腺癌藥物的領(lǐng)域里是本文研究的問題。
本文首先從TCGA數(shù)據(jù)庫中獲取前列腺癌與癌旁的基因表達(dá)數(shù)據(jù),利用R軟件將數(shù)據(jù)進(jìn)行預(yù)處理;然后利用互信息算法將與前列腺腫瘤密切相關(guān)的特征基因篩選出來;最后通過cmap數(shù)據(jù)庫分析,檢索出具有與腫瘤基因相反的基因標(biāo)簽的藥物。Thioridazine(硫利達(dá)嗪)作為一種用于治療急性精神分裂癥,躁狂癥以及抑郁癥的藥物,經(jīng)分析比對得到的負(fù)相關(guān)分值最高,表明對于前列腺癌可能具有較好的治療效果。trichostatin A、LY-294002、Sirolimus(西羅莫司)等化合物也具有較高的負(fù)相關(guān)分值,表明極可能對前列腺癌有治療效果。
TCGA是美國國家癌癥研究所(National Cancer Institute)和美國人類基因組研究所(National Human Genome Research Institute)共同監(jiān)督的一個項目,旨在應(yīng)用高通量的基因組分析技術(shù),幫助人們對癌癥有個更好的認(rèn)知,從而提高對于癌癥的預(yù)防、診斷和治療能力。作為目前最大的癌癥基因信息數(shù)據(jù)庫,TCGA數(shù)據(jù)庫主要收錄各種人類癌癥(包括亞型在內(nèi)的腫瘤)的臨床數(shù)據(jù)、基因組變異和mRNA表達(dá)等數(shù)據(jù),是癌癥研究者十分重要的數(shù)據(jù)來源。本文的前列腺基因表達(dá)數(shù)據(jù)來自TCGA數(shù)據(jù)庫,共獲得前列腺癌與癌旁的基因表達(dá)數(shù)據(jù),包括488個患病樣本和12個健康樣本,共60 482條基因(https:∥cancergenome.nih.gov/)。
對于復(fù)雜的基因關(guān)系,熵和互信息的方法能有效抓住基因與基因之間的關(guān)聯(lián)性,提取出復(fù)雜疾病的致病基因[7]。熵是對不確定性的度量,在信息論中,熵是用來衡量一個隨機變量出現(xiàn)的期望值。設(shè)基因變量X=[x1,x2,…,xn]是一個基因表達(dá)模式[8],基因變量X的熵表示該模式所包含的信息量公式為
互信息是信息論中的一種有用的信息度量,可以看成是一個隨機變量中包含的關(guān)于另一個隨機變量的信息量。對于2個隨機變量X和Y,其互信息公式為
傳統(tǒng)的特征基因提取方法通常只注重單個基因的表達(dá),而忽略了基因之間的關(guān)聯(lián)性。針對這種情況,可以采取基于互信息算法的特征基因提取,如果互信息值比較大,說明這2個基因之間的關(guān)聯(lián)性比較大,即在生物學(xué)上的聯(lián)系比較緊密。計算出每條基因的信息熵,信息熵越大,證明該條基因在樣本中擁有較大的信息量,對樣本的影響也就越大。所以基于信息熵的角度,將每條基因的信息熵降序排列,取前5 000個基因,計算其在患病樣本和健康樣本中的互信息值,得到2個互信息矩陣矩陣,即Ic和In。
在健康樣本中和其他基因關(guān)聯(lián)較小即互信息值較小,在患病樣本中該基因又與其他基因具有較大的關(guān)聯(lián)性即互信息值較大的基因為從失聯(lián)到關(guān)聯(lián)狀態(tài)下的基因,可認(rèn)為此類基因為特征基因。提取特征基因的關(guān)鍵在于找出合適的閾值Tc和Tn,使得特征基因數(shù)目不會過多,也不會太少。經(jīng)過計算從失聯(lián)到關(guān)聯(lián)狀態(tài)的特征基因的理想閾值為Tc=0.66和Tn=0.62,從而得到實對稱矩陣,對其按行求和并將和值降序排列,和值越大證明該基因在樣本中與越多的基因相關(guān)聯(lián),和值為0則代表該基因并不與其他基因有關(guān)聯(lián)[9]。根據(jù)上述步驟獲得從失聯(lián)到關(guān)聯(lián)狀態(tài)下的特征基因656條。
Connectivity map是一個基因表達(dá)譜數(shù)據(jù)庫,它利用小分子藥物、基因表現(xiàn)與疾病相互關(guān)聯(lián)的生物應(yīng)用數(shù)據(jù)庫。以基因表達(dá)譜為所建立之基因、疾病與藥物的關(guān)聯(lián)性,可以快速利用基因表達(dá)譜的數(shù)據(jù)比對出與疾病高關(guān)聯(lián)性的藥物。近年來的研究趨勢也顯示出利用cmap基因表達(dá)譜數(shù)據(jù)庫應(yīng)用在疾病治療與藥物開發(fā)的領(lǐng)域上,可提供越來越精確的方向。目前cmap第2版已經(jīng)發(fā)展成收錄了1 309種藥物表達(dá)譜的成熟體系,理論上講,與疾病和藥物相關(guān)的任何基因表達(dá)數(shù)據(jù)都可以在cmap數(shù)據(jù)庫中進(jìn)行高效率地查詢比對,從數(shù)據(jù)庫揭示藥物、基因和疾病三者之間潛在的聯(lián)系[10]。
通過R軟件將篩選出的特征基因分為294個上調(diào)基因和362個下調(diào)基因。將上調(diào)基因和下調(diào)基因作為檢索標(biāo)簽,存為.grp文件,檢索cmap數(shù)據(jù)庫[11]。將前列腺癌基因表達(dá)標(biāo)簽與藥物處理基因標(biāo)簽進(jìn)行統(tǒng)計比較[12]。依據(jù)表達(dá)譜的相似性給每個前列腺癌-藥物配對計算一個分值,如果分值為負(fù)數(shù),則表明這種藥物與癌癥基因有相反的基因標(biāo)簽,即可能對前列腺癌具有較好的治療效果[13-14]。所以在檢索的過程中,刪除試驗次數(shù)較少的藥物(n<4),關(guān)注藥物得分Mean分值為負(fù)值的藥物[15]。
表1 connectivity map數(shù)據(jù)庫篩選出的候選抗前列腺癌藥物
注: Mean表示藥物檢索得分值,n為藥物在cmap數(shù)據(jù)庫中重復(fù)試驗的次數(shù),enrichment為前列腺癌癥基因標(biāo)簽與藥物基因標(biāo)簽相似的聚合度。
Cmap的分析結(jié)構(gòu)如表1,可以看出負(fù)相關(guān)分值最高的是Thioridazine(硫利達(dá)嗪),分值為-0.703,它是一種用于治療急性精神分裂癥、躁狂癥以及抑郁癥的藥物,表明對于前列腺癌可能具有較好的治療效果;從表中還可以看出排在后面的是atin A(一種抗腫瘤抑制劑)、LY-294002(第一個人工合成的蛋白激酶抑制劑)、Sirolimus(一種免疫抑制劑)、Tanespimycin(一種抗腫瘤藥物)、Monorden(一種抗生素)。而表中最后一個Estradiol(雌二醇)是經(jīng)皮膚吸收的雌激素治療劑,目前已經(jīng)被用來治療晚期前列腺癌。排在它上面的藥物最后的藥物檢索分值的負(fù)相關(guān)性均高于它,所以這幾種藥物很可能與治療前列腺癌有關(guān)。
本文通過互信息算法提取前列腺癌中的特征基因,利用cmap數(shù)據(jù)庫將基因與藥物進(jìn)行比對打分,最后得到與治療前列腺癌有關(guān)的藥物硫利達(dá)嗪、Tanespimycin等。數(shù)據(jù)分析結(jié)果還需要臨床試驗的進(jìn)一步驗證,希望有條件的實驗室能完成這一工作?;诨バ畔⑺惴ㄌ崛√卣骰驗樗幬镏囟ㄎ惶峁┝诵碌耐緩?推動生物醫(yī)藥產(chǎn)業(yè)的發(fā)展。
沈陽師范大學(xué)學(xué)報(自然科學(xué)版)2019年1期