楊合龍 祝 磊 韓 斌 厲力華* 鄭智國(guó) 孟旭莉(杭州電子科技大學(xué)生命信息與儀器工程學(xué)院,杭州 3008)
2(浙江省腫瘤研究所,杭州 310022)
隨著高通量蛋白質(zhì)組學(xué)的發(fā)展,基于蛋白質(zhì)組學(xué)的質(zhì)譜技術(shù)可以使癌癥在發(fā)生的早期階段被發(fā)現(xiàn)和及時(shí)治療,從而大大提高了癌癥患者的治愈率[1]。研究表明,在眾多蛋白質(zhì)中,只有少數(shù)與某種特定疾病有關(guān),這些少數(shù)特定的蛋白質(zhì)被稱為生物標(biāo)志物(biomarker)[2]。近年來(lái),研究者利用各種方法來(lái)尋找這些生物標(biāo)志物[3]。表面增強(qiáng)激光解析電離飛行時(shí)間質(zhì)譜(surface enhanced laser desorption/ ionization time-of-flight mass spectrometry,SELDI-TOF MS)技術(shù)是目前最為可行的蛋白組學(xué)技術(shù)之一。一份SELDI-TOF 樣本數(shù)據(jù)的特征維數(shù)可達(dá)上萬(wàn)維,而樣本數(shù)量一般僅為幾十到上百例,這從模式識(shí)別的角度被稱為“維數(shù)災(zāi)難”[4]。因此,如何有效地降低特征維數(shù),去除不相關(guān)的蛋白質(zhì)位點(diǎn),進(jìn)而篩選出生物標(biāo)識(shí)物,是蛋白質(zhì)組學(xué)的一個(gè)熱點(diǎn)問題[5]。
聚類分析是一種通過計(jì)算數(shù)據(jù)之間的相似性來(lái)將數(shù)據(jù)分類的技術(shù),已經(jīng)在基因微陣列數(shù)據(jù)分析中得到了成功應(yīng)用,對(duì)于降低特征維數(shù)和去除特征間相關(guān)性效果顯著。Hancer 等利用K-means 聚類算法對(duì)原始的基因微陣列數(shù)據(jù)集進(jìn)行聚類,然后計(jì)算每一個(gè)類中的平均強(qiáng)度作為“原型基因”參加最后的樣本分類過程,但不是所有的“原型基因”都與樣本分類相關(guān),因此必然會(huì)引入冗余從而影響分類結(jié)果[6]。Wang 等利用分級(jí)聚類算法進(jìn)行聚類,數(shù)據(jù)形成一個(gè)樹枝狀圖,通過在不同強(qiáng)度下剪切樹枝狀圖,將數(shù)據(jù)分成不同的類,在每一個(gè)類中選出一個(gè)最有代表性的數(shù)據(jù),但是算法的復(fù)雜性較高,運(yùn)算強(qiáng)度較大[7]。對(duì)于蛋白質(zhì)質(zhì)譜數(shù)據(jù),Yang 等設(shè)計(jì)一個(gè)迭代算法,通過30 次的迭代來(lái)克服K-means 聚類算法的隨機(jī)性和不穩(wěn)定性[8],之后再利用遺傳算法(GA)[9]來(lái)提取生物標(biāo)志物,迭代算法的計(jì)算強(qiáng)度較大,雖然已進(jìn)行了迭代,但算法中仍存在不穩(wěn)定因素。
為得到較好的分類結(jié)果,避免算法的隨機(jī)性和不穩(wěn)定性,本研究提出一種基于近鄰傳播聚類分析的特征選擇方法。首先,通過t-test 對(duì)數(shù)據(jù)進(jìn)行初篩;然后,運(yùn)用近鄰傳播聚類分析和零空間LDA(null space linear discriminant analysis)[10],對(duì)數(shù)據(jù)進(jìn)行降維,同時(shí)降低特征間的相關(guān)性;最后,利用
SVM-RFE(support vector machine recursive feature elimination)進(jìn)行特征選擇,挑出最具有判別意義的蛋白質(zhì)位點(diǎn)。在卵巢癌公共數(shù)據(jù)集OC-WCX2a、OC-WCX2b 和浙江省腫瘤醫(yī)院乳腺癌臨床數(shù)據(jù)集BC-WCX2a 上的實(shí)驗(yàn)結(jié)果表明,該方法不但能降低數(shù)據(jù)維數(shù),獲得較高的分類率,而且還確定了具有判別意義的蛋白位點(diǎn),有助于指導(dǎo)后續(xù)的蛋白生化鑒定,為癌癥發(fā)病機(jī)制的研究提供了參考。
1.1.1 近鄰傳播聚類分析
在數(shù)據(jù)挖掘和數(shù)據(jù)分析中,聚類分析已經(jīng)得到了廣泛的應(yīng)用。對(duì)于基于蛋白質(zhì)組學(xué)的質(zhì)譜數(shù)據(jù),其數(shù)據(jù)量是巨大的,應(yīng)用聚類分析主要在于去除多余的冗余,以達(dá)到減少數(shù)據(jù)的目的。通過對(duì)質(zhì)譜數(shù)據(jù)進(jìn)行聚類,得到特定數(shù)目的類,類內(nèi)數(shù)據(jù)相似度最強(qiáng),類間數(shù)據(jù)相似度最弱,每一個(gè)類中選擇特定的“代表”來(lái)代替整個(gè)類。應(yīng)當(dāng)看出,通過聚類分析并不是武斷地刪除數(shù)據(jù),而是通過分析數(shù)據(jù)之間的特性,從中選出特定“代表”來(lái)代替部分?jǐn)?shù)據(jù),從而達(dá)到減少數(shù)據(jù)的目的。
近鄰傳播聚類分析 (affinity propagation clustering,AP)是一種基于近鄰信息傳播的聚類算法[11],目的是尋找最優(yōu)的類代表集合,使所有樣本達(dá)到最近的類代表的相似度之和最大,其主要特點(diǎn)是適合處理大規(guī)模數(shù)據(jù)。與K-means 聚類算法相比,AP 算法本身克服了隨機(jī)性,因此較為穩(wěn)定。
AP 算法將所有數(shù)據(jù)點(diǎn)都看作是潛在的類代表點(diǎn),首先建立相似矩陣s,此相似矩陣s(i,k)= -xi-xk2 表示任意兩個(gè)數(shù)據(jù)點(diǎn)xi和xk之間的負(fù)歐幾里得距離。在聚類之前,初始假定所有的樣本被選為類代表的可能性相同,即設(shè)定所有的s(k,k)為相同的值p。p 值為偏向參數(shù),表示數(shù)據(jù)點(diǎn)選擇自己作為聚類中心的意愿,其值越大,聚類結(jié)果的類數(shù)目越多,每個(gè)類中所含的成員數(shù)目就越少。
該聚類過程是對(duì)數(shù)據(jù)點(diǎn)不斷提取信息同時(shí)又不斷進(jìn)行處理,在聚類過程中引入兩個(gè)參數(shù):可信度[responsibility,記作r(i,k)]和可用度[availability,記作a(i,k)]。聚類的核心步驟就是這兩個(gè)參數(shù)交替更新的過程。參數(shù)可用度(availability)初始化為0,即a(i,k)= 0。
a(i,k)表示數(shù)據(jù)點(diǎn)i 被選為成為數(shù)據(jù)點(diǎn)k 的類中心的積累過程,有
式中,r(i,k)表示數(shù)據(jù)點(diǎn)k 被選為數(shù)據(jù)點(diǎn)i 的類中心的積累過程,有
對(duì)于任何點(diǎn)來(lái)說(shuō),要確定其聚類中心,可信度(responsibility)和可用度(availability)都是必須考慮的。對(duì)于數(shù)據(jù)點(diǎn)i,使得式(3)最大的數(shù)據(jù)點(diǎn)k 可以作為數(shù)據(jù)點(diǎn)i 的類中心點(diǎn),有
1.1.2 零空間LDA 算法
對(duì)于聚類之后的SELDI 數(shù)據(jù),特征維數(shù)仍遠(yuǎn)大于樣本個(gè)數(shù)。若直接使用經(jīng)典 LDA (linear discriminant analysis)算法,將會(huì)導(dǎo)致類內(nèi)散布矩陣SW奇異。類內(nèi)散布矩陣SW、類間散布矩陣SB和總體散布矩陣ST以及最優(yōu)投影方向Wopt可計(jì)算如下:
零空間LDA 首先去除ST的零空間,這樣既去除了SB和SW交叉的零空間部分,又保留了判別信息,之后在SW的零空間上找到使SB最大的方向(即為最佳的投影方向)的Wopt。
1.1.3 支持向量機(jī)遞歸特征去除算法
經(jīng)過AP 聚類算法和零空間LDA 算法處理之后,SELDI 數(shù)據(jù)特征之間的相關(guān)性已大大減少,然后利用支持向量機(jī)遞歸特征去除算法(support vector machine recursive feature elimination,SVM-RFE)進(jìn)行特征選擇,找出最具有判別意義的特征。
SVM 首先通過非線性變換,將輸入空間變換到一個(gè)高維特征空間,然后再在這個(gè)新空間中求取最優(yōu)線性分類面,其最優(yōu)分類面可以最大化分類間隔(Margin)M = 2/‖w‖,等價(jià)于使‖w‖2最小。SVM-RFE 方法在進(jìn)行特征選擇時(shí),首先訓(xùn)練SVM分類器,然后按標(biāo)準(zhǔn)計(jì)算其特征的排列,再移去排列最后的特征。不斷循環(huán),直到標(biāo)準(zhǔn)沒有明顯減小或者已經(jīng)得到需要的特征數(shù)為止[12]。
SVM-RFE 特征選擇算法過程如下:在每一次循環(huán)中,具有最小排列系數(shù)的特征將被移除,然后SVM 對(duì)余下的特征重新訓(xùn)練,以獲取新的排序系數(shù)。SVM-RFE 方法通過迭代執(zhí)行這一過程,最后得到一個(gè)特征排序表。利用該排序列表,定義若干個(gè)嵌套的特征子集來(lái)訓(xùn)練SVM,并以SVM 的預(yù)測(cè)正確率來(lái)評(píng)估這些子集的優(yōu)劣,從而獲得最優(yōu)的特征子集。需要注意的是,排在前面的那些特征,單個(gè)并不一定能使SVM 分類器獲得最好的分類性能,而是多個(gè)特征組合在一起,才能使分類器獲得最優(yōu)的分類性能。因此,SVM-RFE 算法能選擇出互補(bǔ)的特征組合。
1.1.4 皮爾遜相關(guān)系數(shù)
利用皮爾遜相關(guān)系數(shù),對(duì)所選特征之間的相關(guān)系數(shù)進(jìn)行計(jì)算。計(jì)算篩選出的特征之間的平均相關(guān)系數(shù)為
式中,t 為所選出的特征數(shù),r(j,k)為一對(duì)特征(第j個(gè)特征和第k 個(gè)特征)的皮爾遜相關(guān)系數(shù)。
r(j,k)可由下式計(jì)算得到,即
為了驗(yàn)證所提方法的有效性,分別在3 個(gè)臨床蛋白質(zhì)譜數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
1.2.1 卵巢癌公共數(shù)據(jù)集 OC-WCX2a 和 OCWCX2b
數(shù)據(jù)由美國(guó)食品和藥物管理局(FDA)及國(guó)家腫瘤研究所(NCI)提供。采用WCX2 蛋白芯片陣列和SELDI-TOF 技術(shù),對(duì)人體血清樣本進(jìn)行分析。數(shù)據(jù)集包含兩類蛋白表達(dá)信息:癌癥患者(cancer)和正常對(duì)照組(control)。其中:OC-WCX2a,Cancer 100 例,Control 100 例;OC-WCX2b,Cancer 162 例,Control 91 例。每個(gè)質(zhì)譜樣本包含15 154 維質(zhì)核比值(m/z)/強(qiáng)度值(Intensity)特征。上述兩個(gè)數(shù)據(jù)集可以在http://home.ccr.cancer.gov/下載,并且包含有數(shù)據(jù)集的詳細(xì)介紹。
1.2.2 乳腺癌臨床數(shù)據(jù)集BC-WCX2a
該數(shù)據(jù)由浙江省腫瘤醫(yī)院提供,共包含126 例血清蛋白質(zhì)質(zhì)譜樣本,其中Cancer 87 例,Control 39例,每例樣本約為65 536維蛋白特征[13]。
雖然蛋白質(zhì)組學(xué)質(zhì)譜技術(shù)產(chǎn)生的數(shù)據(jù)包含大量的潛在信息,但由于樣本采集和質(zhì)譜儀的性能,使數(shù)據(jù)中含有大量噪聲,對(duì)蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)分析提出挑戰(zhàn),因此在質(zhì)譜數(shù)據(jù)分析之前需要采用數(shù)據(jù)預(yù)處理步驟。
步驟1:重采樣。由醫(yī)學(xué)知識(shí)得知,蛋白質(zhì)特征表述區(qū)間一般為1 500 ~10 000 Da,且質(zhì)譜儀的優(yōu)化區(qū)間段也是1 500 ~10 000 Da,因此選擇此區(qū)間范圍內(nèi)的數(shù)據(jù)進(jìn)行均勻重采樣,采樣后得到10 000個(gè)特征點(diǎn)。
步驟2:基線去除?;€通常位于低質(zhì)荷比區(qū)域,由樣本或矩陣分子中的污染引起,可以看作是顯著峰與噪聲間的邊界[14]。由于譜的偏移程度不同,通常將每個(gè)譜的基線調(diào)整到水平線上。
步驟3:譜峰矯正。在不同的實(shí)驗(yàn)中,由于受到實(shí)驗(yàn)設(shè)備和人為因素的干擾,可能導(dǎo)致m/z 值出現(xiàn)偏差,因此對(duì)于不同批次下采集的質(zhì)譜數(shù)據(jù)需要進(jìn)行校準(zhǔn)。
步驟4:歸一化。使不同的質(zhì)譜可以在同一個(gè)范圍內(nèi)進(jìn)行分析,按下式歸一化,有
針對(duì)不同的數(shù)據(jù)集,采用不同的預(yù)處理步驟。公共數(shù)據(jù)集OC-WCX2a 和OC-WCX2b 已經(jīng)過重采樣、去基線、譜峰矯正等預(yù)處理,只需再進(jìn)行歸一化處理。乳腺癌臨床數(shù)據(jù)集BC-WCX2a 經(jīng)過重采樣、去 除 基 線,在 4 091.1(m/z)、5 908.0(m/z)、6 634.0(m/z)等3 個(gè)基準(zhǔn)點(diǎn)進(jìn)行校準(zhǔn),最后進(jìn)行歸一化。
具體實(shí)驗(yàn)流程如圖1 所示。原始SELDI 蛋白質(zhì)譜數(shù)據(jù)經(jīng)過預(yù)處理后,按照十折交叉驗(yàn)證策略,隨機(jī)分為訓(xùn)練集和測(cè)試集;實(shí)驗(yàn)共運(yùn)行20 次,包括6個(gè)步驟。
圖1 基于近鄰傳播聚類算法的實(shí)驗(yàn)流程Fig.1 Flow chart of the experimentation based AP clustering
步驟1:利用t-test 對(duì)原始質(zhì)譜數(shù)據(jù)進(jìn)行初步篩選。為減小后續(xù)計(jì)算的復(fù)雜度,尋找潛在的生物標(biāo)志物,計(jì)算每個(gè)特征的t 值并進(jìn)行排序,篩選出排名靠前的2 000個(gè)特征。
步驟2:使用十折交叉驗(yàn)證策略,將經(jīng)過初步篩選的數(shù)據(jù)分成訓(xùn)練集(train set)和測(cè)試集(test set)。
步驟3:對(duì)訓(xùn)練集數(shù)據(jù),按照本文1.1.1 節(jié)所述AP 聚類算法對(duì)特征進(jìn)行聚類。實(shí)驗(yàn)發(fā)現(xiàn),對(duì)于OCWCX2a 數(shù)據(jù)集,當(dāng)偏向參數(shù)p(preference)等于-3時(shí),分類率等實(shí)驗(yàn)結(jié)果參數(shù)最優(yōu);對(duì)于OC-WCX2b數(shù)據(jù)集,偏向參數(shù)p = -30時(shí)實(shí)驗(yàn)結(jié)果最優(yōu);而對(duì)于BC-WCX2a 數(shù)據(jù)集,偏向參數(shù)p 取相似矩陣s 的中位值時(shí),實(shí)驗(yàn)結(jié)果最優(yōu)。
步驟4:由于每一類中包含很多相似性較大的特征,具有較強(qiáng)的相關(guān)性,所以運(yùn)用零空間LDA 算法去除每一個(gè)類中一半的冗余特征,保留具有代表性的另一半特征。
步驟5:基于嵌入法的SVM-RFE 特征選擇算法,通過選擇有用的特征并且去除無(wú)用的特征,進(jìn)一步使特征之間的關(guān)聯(lián)性和冗余度最小化。
圖2 3 個(gè)數(shù)據(jù)集在4 個(gè)分類器中得到的結(jié)果。(a)OCWCX2a 在SVM 得到的結(jié)果;(b)OCWCX2b 在SVM得到的結(jié)果;(c)OCWCX2b 在KNN 得到的結(jié)果;(d)BCWCX2a 在J4.8 得到的結(jié)果Fig.2 The result from three dataset in four classifiers. (a)The result of OCWCX2a in SVM;(b)The result of OCWCX2b in SVM;(c)The result of OCWCX2b in KNN;(d)The result of BCWCX2a in J4.8
步驟6:將挑選出的特征放入到4 個(gè)分類器進(jìn)行驗(yàn)證,得到分類結(jié)果。
OC-WCX2a 數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果顯示,在SVM 分類器中,SVM-RFE 算法達(dá)到較好的分類效果(84.48% ~95.75 %)。在加入AP 聚類算法去相關(guān)之后,AP +SVM-RFE 算法在各特征數(shù)下的分類率都有所提高(84.70 % ~96.43 %)。因此,AP + SVM-RFE無(wú)論是在分類率、敏感性、特異性都得到了提升,最高分別達(dá)到了96.43 %、97.00 %、95.85 %。
OC-WCX2b 數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果顯示,在SVM 分類器中對(duì)比SVM-RFE 和AP +SVM-RFE 算法性能,隨著特征數(shù)的增加,后者的分類率和特異性均有較大的提升,分別達(dá)到了98.99 %和97.19 %,但敏感性無(wú)較大的區(qū)別,均為100 %。在KNN 分類器中,AP + SVM-RFE 算法性能優(yōu)勢(shì)明顯,在各特征數(shù)下,分類率、敏感性、特異性均高于SVM-RFE 算法,分別達(dá)到了99.66 %、100 %、99.08 %。雖然兩圖結(jié)果有差異,原因是使用了不同的分類器所造成的,但是結(jié)果顯示,即使分類器不同,AP + SVM-RFE 算法性能均要高于SVM-RFE 算法性能。
BC-WCX2a 數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果顯示,在J4.8 分類器中隨著特征數(shù)增加,雖然AP + SVM-RFE 在特異性方面不如SVM-RFE 算法,且分類率和敏感性有所下降,但也分別達(dá)到90.88 %和96.17 %。原因可能是由于BC-WCX2a 數(shù)據(jù)由浙江省腫瘤醫(yī)院的質(zhì)譜儀產(chǎn)生,獲得時(shí)極容易被外界以及實(shí)驗(yàn)儀器所污染,雖然經(jīng)過數(shù)據(jù)預(yù)處理,但是與公共數(shù)據(jù)相比,含有更多的噪聲和影響因素,因而在特異性方面與公共數(shù)據(jù)相比不理想。
利用皮爾遜相關(guān)系數(shù),對(duì)所選特征之間的相關(guān)系數(shù)進(jìn)行計(jì)算,并比較AP + SVM-RFE 和SVM-RFE對(duì)于減少特征相關(guān)性的優(yōu)劣性。
表1 為特征之間的平均相關(guān)系數(shù),特征間平均相關(guān)系數(shù)越小,代表特征間的相關(guān)性越小,反之越大。
表1 顯示,隨著特征數(shù)的增加(從5 增至40),特征之間的相關(guān)系數(shù)也隨之增加;但AP +SVM-RFE與SVM-RFE 相比,由于平均相關(guān)系數(shù)更小,因此AP+SVM-RFE 算法對(duì)于減少特征相關(guān)性更為有效。對(duì)比平均相關(guān)系數(shù)和分類率結(jié)果可以發(fā)現(xiàn),平均相關(guān)系數(shù)與分類率之間存在關(guān)聯(lián)性,AP + SVM-RFE得到的平均相關(guān)系數(shù)更低,因此篩選出的低相關(guān)性特征得到的分類率更高。分析原因,是因?yàn)锳P +SVM-RFE 在提取特征時(shí)考慮了整個(gè)質(zhì)譜,并不像SVM-RFE 僅僅局限于幾個(gè)譜峰,因此經(jīng)過AP +SVM-RFE 處理得到的特征包含了更多有用信息,因而分類率也會(huì)更高。
表1 3 個(gè)數(shù)據(jù)集中特征間的平均皮爾遜相關(guān)系數(shù)Tab.1 Average Pearson correlation coefficient between features in three datasets
經(jīng)過實(shí)驗(yàn),AP +SVM-RFE 算法不僅從3 個(gè)數(shù)據(jù)集中得到分類率等結(jié)果,而且提取出特征作為生物標(biāo)志物(biomarker,單位為Da),表2 為2 個(gè)數(shù)據(jù)集中提取出的10 個(gè)生物標(biāo)識(shí)物。對(duì)于公共數(shù)據(jù)OCWCX2a 和OC-WCX2b,其中某些蛋白質(zhì)特征位點(diǎn)已經(jīng)發(fā)現(xiàn),并用星號(hào)標(biāo)記,其余為新發(fā)現(xiàn)的蛋白質(zhì)特征位點(diǎn)。
表2 算法在3 個(gè)數(shù)據(jù)集中提取的10 個(gè)特征蛋白位點(diǎn)Tab.2 10 differential m/z biomarkers for 3 datasets
由于基于蛋白質(zhì)組學(xué)的質(zhì)譜技術(shù)快速發(fā)展,使之成為癌癥輔助診斷的有力工具。前人都提出了算法,且這些算法都取得了一定的實(shí)驗(yàn)效果,但是大部分關(guān)注的重點(diǎn)為算法對(duì)病例數(shù)據(jù)的分類效果,并沒有篩選出與疾病相關(guān)的蛋白質(zhì)位點(diǎn)。
本研究提出的算法不僅得到了分類效果,而且篩選出與疾病可能相關(guān)的蛋白質(zhì)位點(diǎn),對(duì)臨床診斷具有一定的指導(dǎo)意義。分析SELDI-TOF 質(zhì)譜數(shù)據(jù)的方法有很多,聚類分析是其中較為有效的一種方法。對(duì)于高通量SELDI-TOF 質(zhì)譜數(shù)據(jù)以及基因微陣列數(shù)據(jù),聚類分析算法在處理高通量數(shù)據(jù)方面已取得一定的進(jìn)展。雖然有些聚類分析算法存在一些缺陷,但是在降低特征維數(shù)和去除特征間相關(guān)性方面,聚類分析不僅運(yùn)算復(fù)雜性較低,而且取得了較好效果。
在實(shí)際臨床診斷中,醫(yī)學(xué)上通常更關(guān)注敏感性。由于將癌癥患者誤診斷為正常,會(huì)使病人喪失最佳治療時(shí)期甚至導(dǎo)致死亡,而將正常人診斷為癌癥患者可以在醫(yī)學(xué)上進(jìn)行進(jìn)一步診斷,因此醫(yī)學(xué)診斷更多強(qiáng)調(diào)敏感性。
此外,在醫(yī)學(xué)診斷中關(guān)注的不僅僅是分類率、敏感性和特異性等值,最主要的是在高分類率條件下挑選出具有高判別效果的蛋白質(zhì)位點(diǎn)。通過研究不同類型癌癥所對(duì)應(yīng)的蛋白質(zhì)位點(diǎn),即可對(duì)該類型癌癥進(jìn)行早期診斷,因此這些蛋白質(zhì)位點(diǎn)對(duì)于醫(yī)生診斷早期癌癥患者具有一定的輔助作用。但是,由于現(xiàn)階段基于蛋白質(zhì)組學(xué)的質(zhì)譜數(shù)據(jù)研究對(duì)于數(shù)據(jù)預(yù)處理參數(shù)的設(shè)定不盡相同,在臨床中易受到外界條件的干擾,進(jìn)而會(huì)影響到實(shí)驗(yàn)結(jié)果,所以單純依靠質(zhì)譜數(shù)據(jù)對(duì)于臨床診斷并不完全可靠,提供的信息對(duì)于醫(yī)學(xué)診斷來(lái)說(shuō)也僅是參考,如果要完全判斷患者情況還需要其他的手段,比如利用核磁共振成像(MRI)來(lái)診斷早期癌癥。雖然現(xiàn)階段基于蛋白質(zhì)組學(xué)的質(zhì)譜技術(shù)對(duì)于早期臨床診斷癌癥有一定困難,但隨著研究的深入,以及近年來(lái)該領(lǐng)域取得的長(zhǎng)足進(jìn)步,相信在不遠(yuǎn)的將來(lái)基于蛋白質(zhì)組學(xué)的質(zhì)譜技術(shù)必定會(huì)成為癌癥輔助診斷的強(qiáng)有力助手。
本研究提出了一種針對(duì)SELDI-TOF 蛋白質(zhì)質(zhì)譜數(shù)據(jù)的特征選擇算法。該算法以最終獲得病例數(shù)據(jù)的分類效果和降低特征之間的相關(guān)性為目的,提取了3 個(gè)數(shù)據(jù)集的生物標(biāo)志物。采用基于近鄰傳播聚類分析的蛋白質(zhì)質(zhì)譜數(shù)據(jù)特征選擇算法,不但有效地降低了特征間的相關(guān)性,而且保留了最具有判別意義的特征。在公共卵巢癌數(shù)據(jù)集OC-WCX2a、OC-WCX2b 和浙江省腫瘤醫(yī)院乳腺癌數(shù)據(jù)BCWCX2a 上的實(shí)驗(yàn)結(jié)果表明,該算法能夠獲得較高的分類率,并且發(fā)現(xiàn)新的蛋白質(zhì)特征位點(diǎn),這對(duì)臨床的癌癥診斷和發(fā)病機(jī)制的研究具有一定的意義。值得一提的是,本研究對(duì)蛋白質(zhì)特征位點(diǎn)的選擇僅僅依靠了信息學(xué)手段,至于挑選出的生物標(biāo)志物在臨床上是否有效,還有待于在臨床上的檢驗(yàn)。
[1] Jemal A,Sieg el R,Ward E,et al. Cancer statistics[J]. A Cancer Journal of Clinicians,2011,(61):212 -236.
[2] Bruce A,Julian L,Martin R,et al. Molecular biology of the cell,fourth edition[M]. New York:Garland Science,2004.
[3] Shin H,Sheu B,Joseph M,et al. Guilt-by-association feature selection:identifying biomakers from proteomic profiles [J].Biomed Inform,2008,41:124 -136.
[4] Somorjai RL,Dolenko B,Baumgartner R. Class prediction and discovery using gene microarray and proteomics mass spectroscopy data: curses, caveats, cautions [ J ].Bioinformatics,2003,19(12):1484 -1491.
[5] Thomas A,Tourassi GD,Elmaghraby AS,et al. Data mining in proteomic mass spectrometry[J]. Clinical Proteomics,2006,2(1):13 -21.
[6] Hanczar B,Courtine M,Benis A,et al. Improving classification of microarray data using prototype-based feature selection[J].SIGKDD Exploration,2003,5:23 -30.
[7] Wang Yuhang,F(xiàn)illia Makedon,James Ford,et al. HykGene:a hybrid approach for selecting marker genes for phenotype classification using microarray gene expression data [J].Bioinformatics,2005,21(8):1530 -1537.
[8] Yang Pengyi,Zhang Zili,Zhou Bingbing,et al. A clustering based hybrid system for biomaker selection and sample classification of mass spectrometry data[J]. Neurocomputing,2010,73(13 -16):2317 -2331.
[9] Yang Pengyi,Zhang Zili. A clustering based hybrid system for mass spectrometry data analysis[J]. Pattern Recognition in Bioinformatics,Lecture Notes in Bioinformatics,2008,5265:98 -109.
[10] Huang Rui,Liu Qingshan,Lu Hanqing,et al. Solving the small sample size problem of LDA [J]. Pattern Recognition,2002,3:29 -32.
[11] Dueck D,F(xiàn)rey BJ. Clustering by passing messages between data points[J]. Science,2007,315(5814):972 -976.
[12] 李偉紅,龔衛(wèi)國(guó),陳偉民,等. 基于SVMRFE 的人臉特征選擇方法[J]. 光電工程,2006,33(5):113 -117.
[13] 王堯佳,祝磊,韓斌. 基于遞歸零空間線性判別分析算法的蛋白質(zhì)質(zhì)譜數(shù)據(jù)特征選擇[J]. 航天醫(yī)學(xué)與醫(yī)學(xué)工程,2010,23(5):324 -328.
[14] 孟輝,洪文學(xué). 蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)預(yù)處理技術(shù)綜述[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2009,28(3):469 -475.