陳小梅
(福建農(nóng)林大學(xué),福建 福州 350002)
腫瘤微陣列數(shù)據(jù)的小波模極大值特征提取
陳小梅
(福建農(nóng)林大學(xué),福建 福州 350002)
本文提出針對腫瘤微陣列數(shù)據(jù)的小波模極大值特征提取方法。首先求兩類數(shù)據(jù)的Bhattacharyya距離分布,初步提取特征基因;接著進(jìn)行小波分解,在頻域上用小波分解高頻系數(shù)檢測基因突變點,低頻系數(shù)逼近表征原始信號特征;然后通過理論分析和構(gòu)建SVM分類器,經(jīng)過多次實驗選取小波基和尺度,提取特征基因。將該算法應(yīng)用于數(shù)據(jù)集(1999年Golub所用ALL和AML),從中提取了5個基因,分類測試準(zhǔn)確率可達(dá)94.12%??梢娫撍惴ň哂休^高的可行性與有效性,能為腫瘤間差異基因研究提供一定參考。
微陣列數(shù)據(jù);小波模極大值;SVM
基因芯片進(jìn)行癌癥診斷極大地提高了數(shù)據(jù)獲取效率,但基因芯片數(shù)據(jù)存在高維數(shù)、高噪聲、高通量等特點,如何從基因芯片的海量數(shù)據(jù)中提取有用的生物學(xué)信息,是癌癥基因檢測的關(guān)鍵。
基因表達(dá)水平信號變化極不規(guī)則,但其奇異點和不規(guī)則的突變部分經(jīng)常攜帶比較關(guān)鍵的信息[1]。小波分析理論可以用于基因芯片數(shù)據(jù)的處理,小波分解后的系數(shù)能表征基因表達(dá)相關(guān)信息[2,3]。文獻(xiàn)[4]和[5]分別采用小波分解的低頻系數(shù)和高頻系數(shù)作為特征進(jìn)行分類,分類效果均可以達(dá)到93%左右,低頻系數(shù)特征提取結(jié)果總體上好于高頻,但沒有闡述提取多少個基因,提取的基因是什么,且分類準(zhǔn)確率還有待提高。本文提出一種基于小波模極大值的特征提取算法,可以從經(jīng)典數(shù)據(jù)集中提取5個特征基因,分類測試準(zhǔn)確率達(dá)到94.12%。
小波變換理論最早是20世紀(jì)80年代初法國地球物理學(xué)家Morlet在分析地球物理信號時,提出來的一種數(shù)學(xué)工具。它是為克服傅里葉分析時域不能局部化,難以檢測信號發(fā)生突變時間(或位置)的不足而提出的一種信號分析手段。一般情況下,在低頻部分(平穩(wěn)部分)具有較低的時間分辨率和較高的頻率分辨率,而在高頻部分(細(xì)節(jié)部分)較高的時間分辨率和較低的頻率分辨率,可見小波分析理論適合于探測正常信號中出現(xiàn)的反常現(xiàn)象。而腫瘤微陣列數(shù)據(jù)突變基因的檢測正屬于這種從正常信號中探測異?,F(xiàn)象的問題。
小波變換模極值點突變點檢測原理:模極大值突變點檢測是在不同尺度上先對信號進(jìn)行光滑,再由光滑后信號的一階和二階導(dǎo)數(shù)檢測信號的突變點。
腫瘤基因微陣列數(shù)據(jù)一個顯著的特點是樣本少,維數(shù)高,基因集只有一小部分基因與腫瘤分型有關(guān),可以首先對基因集進(jìn)行初步的篩選。信噪比是由Golub提出的評價基因?qū)δ[瘤分型影響大小的經(jīng)典準(zhǔn)則[6]。但這種準(zhǔn)則存在有一定的缺陷,比如當(dāng)兩種類型腫瘤的分布均值相同時,其信噪比d=0,但可能兩者的分布波動區(qū)別較大,此時的基因可能會被剔除,進(jìn)而影響差異基因的提取。Bhattacharyya距離既體現(xiàn)了基因在兩個類別中均值的差異對樣本分類的貢獻(xiàn),又體現(xiàn)了方差的不同對不同分類的影響[7]。所以本文采用基因的Bhattacharyya距離來評價基因中蘊(yùn)含的分類信息,對基因集進(jìn)行初步提取。
針對一包括兩類腫瘤的微陣列數(shù)據(jù)矩陣,利用高頻分量中的局部極大值點來初步確定基因可能突變位置,然后綜合考慮訓(xùn)練樣本的可能突變位置,確定這兩類腫瘤基因的可能突變點。最后根據(jù)突變點位置,提取突變點位置的低頻信息作為特征,構(gòu)建SVM分類器分類測試,具體算法如下:
(1)先根據(jù)Bhattacharyya距離及其分布,提取兩類間距離較大的基因,對訓(xùn)練數(shù)據(jù)進(jìn)行初步降維。Bhattacharyya距離公式為
其中B為兩腫瘤基因之間的Bhattacharyya距離,μ1和μ2分別為兩類腫瘤某基因表達(dá)水平的均值,σ1和σ2分別為兩類腫瘤某基因表達(dá)水平的標(biāo)準(zhǔn)差。
(2)分別對訓(xùn)練子集的所有樣本的基因表達(dá)信號進(jìn)行小波變換處理。
(3)對小波變換處理得到的高頻成分利用小波模極大值原理進(jìn)行突變點位置檢測,并將每個樣本的局部模極大值點令為1,否則為0。
(4)分別統(tǒng)計兩類腫瘤訓(xùn)練集中每個基因可能是突變點出現(xiàn)的次數(shù),求出每個基因可能為突變點的概率。
(5)設(shè)定閾值TH,分別將兩類腫瘤中概率大于閾值TH的基因提取出來作為候選特征基因。
(6)取兩類腫瘤所選基因突變點的并集,并選取所選突變點位置對應(yīng)的基因的小波分解的低頻部分作為特征。
(7)利用訓(xùn)練集中提取的特征構(gòu)建SVM分類器,利用測試集測試分類器性能。
其流程圖如下:
圖1 小波變換模極大值特征提取流程圖
為驗證本文設(shè)計方法的有效性,文章選用一個含有7129個基因的常用數(shù)據(jù)集(Golub et al,1999年),該數(shù)據(jù)集包含38個訓(xùn)練樣本(27個ALL、11個AML)和34個測試樣本(20個ALL、14個AML)。對原始數(shù)據(jù)進(jìn)行缺失值處理、對數(shù)處理后,得到一個7129×72的矩陣,作為待處理數(shù)據(jù)。
3.1 Bhattacharyya距離初步過濾基因
文章首先求出利用Bhattacharyya距離公式,求出AML和ALL各基因之間的Bhattacharyya距離,構(gòu)建直方圖(如下圖2),選取閾值為0.2,從7129個基因中選取了757個候選特征基因。
圖2 Bhattacharyya距離初步過濾基因直方圖
3.2 小波基函數(shù)及尺度選取
本文利用小波變換檢測基因表達(dá)信號的奇異性,主要是為了確定信號的奇異點位置,應(yīng)選擇合適的小波函數(shù)和尺度大小。如果選擇的尺度太小,則時間域所選擇的時間間隔較小,受噪聲的干擾較大;如果尺度太大,則信號突變點鄰域的小波變換的模極大值的幅度衰減較快,這使信號的突變點不明顯[8]。由于低層小波分解間斷的時間間隔較短,包含了頻率較高的成分,所以高頻系數(shù)有較大的幅值。所以文章選擇1~5層對不同的小波基進(jìn)行分解分析。
小波基的選擇非常重要,利用不同的小波基函數(shù)對信號進(jìn)行分解,可以突出不同的信號特征。小波基的正則性主要影響小波系數(shù)重構(gòu)的穩(wěn)定性,通常要求小波基函數(shù)具有一定的正則性(光滑性)。樣條小波和Daubechies小波都具有較好的正則性。其中樣條小波是一種非緊致正交的對稱小波,且具有線性相位的特性,但由于非緊致小波會形成無窮長濾波器,如果進(jìn)行截斷,就會產(chǎn)生一定的截斷誤差。而Daubechies小波是緊致正交基,具有很好的正則性,有利于信號的分解與重構(gòu)。
腫瘤微陣列數(shù)據(jù)特征提取問題是奇異點檢測問題。在分析奇異信號時,一般選取消失矩較高階數(shù)的小波基,讓信號中平滑部分的高頻系數(shù)趨于0,從而保留高頻中的突變部分[9]。小波基的消失矩與Lipschitz指數(shù)密切相關(guān),但突變信號的Lipschitz指數(shù)一般在0-1之間,因此所選擇的小波基的消失矩也不能太高。所以本文選擇Daubechies構(gòu)造的具有很好緊致性的小波基db1,db2,db3比較說明。
3.3 實驗結(jié)果
經(jīng)過實驗,選擇小波基函數(shù)為'db3',分解層數(shù)為4,進(jìn)而利用提取的特征基因子集,構(gòu)建線性SVM分類器并進(jìn)行測試,得到如下表不同閾值TH下的測試結(jié)果。
表1 不同TH閾值的測試結(jié)果
可見,隨著閾值TH的變化,雖然提取的基因數(shù)發(fā)生了相應(yīng)的變化,但是測試的準(zhǔn)確率比較文檔,都達(dá)到了94%以上。當(dāng)選擇閾值為1時,該方法所提取的基因只有5個,在GEO中的登錄號分別為KIAA0101 gene、UBL1 Ubiquitinlike protein、RanBP2(Ran-binding protein 2)、Cadherin-15、Phosphatidylinositol-glycan-class C(PIG-C),這時測試的準(zhǔn)確率達(dá)到94.12%。
本文針對常用數(shù)據(jù)集所提取的基因沒有出現(xiàn)在文獻(xiàn)[6]所提取的50個基因中,但該文獻(xiàn)在對34個測試樣本進(jìn)行獨立測試時,其準(zhǔn)確率只達(dá)到了85.29%(29/34),可見該文獻(xiàn)所提取的基因并沒有完整的分類信息。文獻(xiàn)[10]采用浮動順序搜索算法搜索特征空間生成候選特征子集,最后選擇了5個特征基因構(gòu)建SVM進(jìn)行分類,結(jié)果也很好,準(zhǔn)確率達(dá)到了100%,但在該文章中采用的是留一法進(jìn)行測試,其分類器所具有的泛化能力可能比較不具有說服力。而本文所提取的5個基因,在針對34個測試樣本進(jìn)行測試時,準(zhǔn)確率達(dá)94.12%,因為可能存在一些比較特別的樣本??梢娀谛〔O大值特征提取方法具有很好的可行性和有效性,能將其應(yīng)用于其他腫瘤分類數(shù)據(jù)中,研究腫瘤基因間的差異基因。
[1]張引紅,吳勝舉.鼾音信號奇異點檢測的小波變換分析方法[J].計算機(jī)工程與應(yīng)用,2008,44(005):232-234.
[2]Liu Y.Feature extraction for DNA microarray data in Proc[C].20thIEEE International Symposium on computer-Based Medical Systems,2007:371-376.
[3]葛哲學(xué),陳仲生.Matlab時頻分析技術(shù)及其應(yīng)用[M].北京:人民郵電出版社,2006.
[4]劉玉杰,劉毅慧.基于小波低頻系數(shù)基因芯片數(shù)據(jù)的特征提取[J].生物信息學(xué),2011,09(3):255-258.
[5]劉玉杰,劉毅慧.基于小波高頻系數(shù)基因芯片數(shù)據(jù)的特征提取[J].生物信息學(xué),2011,09(4):339-343.
[6]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring [J].Science,1999,286(5439):531-537.
[7]李澤,包雷.基于基因表達(dá)譜的腫瘤分型和特征基因選取[J].生物物理學(xué)報,2002,18(4):413-417.
[8]Li S,Liao C,Kwok J T.Wavelet-based feature extraction for microarray data classification[A].IEEE,2006:5028-5033.
[9]魏寶琴,李白萍.最優(yōu)小波基的選取原則[J].甘肅科技,2007,23 (010):42-43.
[10]李穎新,劉全金,阮曉鋼.急性白血病的基因表達(dá)譜分析與亞型分類特征的鑒別[J].中國生物醫(yī)學(xué)工程學(xué)報,2005,24(02):240-244.
Feature Extraction Base on Wavelet Modulus Maxima for Microarray Data
Chen Xiaomei
(FujianAgriculture and Forestry University,Fuzhou 350002,Fujian)
A new method of microarray data to extract features based on wavelet modulus maxima is proposed in this paper. First of all,the Bhattacharyya distance distributions of two classes are derived,preliminarily extracting feature genes.Then wavelet decomposition is adopted to detect the gene mutation of high frequency coefficient,and to approximate the original signal characterization based on low frequency.Finally the features are extracted by theoretical analysis and SVM classification,which selects the wavelet basis and scale based on multiple experiments.The proposed method is applied on the data set(1999 Golub used in ALL and AML).Five feature genes are extracted,whose classification test accuracy rate can reach 94.12%.It can be seen that the algorithm has high feasibility and effectiveness,and can provide some reference for the study of the differentially expressed genes between tumors.
Microarray data;wavelet modulus maxima;SVM
TP391.4
A
1008-6609(2016)05-0046-03
陳小梅,女,福建漳州人,碩士,助理實驗師,研究方向:模式識別、圖像處理。