劉永超 王衛(wèi)兵 徐倩 郭艷宏 吳超
摘 要:卵巢癌是我國女性發(fā)病率較高的癌癥之一,并且有逐年增加的趨勢?;蛐酒粡V泛用于癌癥早期檢測,癌癥的早發(fā)現(xiàn)可以確保生存率增加超過97%。本文針對基因芯片的質譜數(shù)據(jù),提出了一種基于主成分分析(PCA)和支持向量機(SVM)的卵巢癌預測方法。重點進行了模型設計和仿真對比實驗。實驗結果表明:本文方法在預測精度上達到了89.1%,而只消耗4.791s的CPU時間,是一個較好的平衡點。
關鍵詞:
主成分分析;支持向量機;卵巢癌預測;基因芯片
DOI:10.15938/j.jhust.2021.03.014
中圖分類號: TP391.4
文獻標志碼: A
文章編號: 1007-2683(2021)03-0099-04
A Cancer Prediction Method Based on Principal Component Analysis
and Support Vector Machine
LIU Yong-chao1,2 , WANG Wei-bing1, XU Qian3, GUO Yan-hong2, WU Chao2
(1.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China;
2.The Second Affiliated Hospital of Qiqihar Medical University,Qiqihar 161000,China:
3.Distribution and Operation Inspection Room of Harbin Branch of Heilongjiang Power Supply Company,Harbin 150001, China)
Abstract:Ovarian cancer is one of the most common cancers contracted by women in China, and it has a tendency to increase year by year. The gene chip is widely applied to the early detection of cancer, which ensures an increase in survival rate over 97%. In this paper, by virtue of a mass spectrometry data of gene chip, an ovarian cancer prediction method based on principal component analysis (PCA) and support vector machine (SVM) is proposed. The model is designed and the simulation comparison experiments are carried out, which are at the core of the research. The experimental results verify that the proposed method has presented the superior performance with prediction accuracy of 89.1%and CPU time of 4.791s.
Keywords:principal component analysis; support vector machine; ovarian cancer prediction; gene chip
0 引 言
癌癥是人類生命和健康的主要威脅之一,是世界上最致命的疾病[1]。在我國,癌癥患者逐年增加。在ACS的《2018年全球癌癥統(tǒng)計數(shù)據(jù)》報告中指出:癌癥發(fā)病率和死亡率我國均居全球第一!2018年在全球新增癌癥患者1810萬人,我國占21%;全球死于癌癥的人數(shù)是960萬人,我國占23.9%。卵巢癌是我國女性發(fā)病率較高的癌癥之一,并且有逐年增加的趨勢,雖然可以通過降低風險因素來預防,但仍高發(fā)。癌癥的診斷是一項極其艱巨而復雜的任務,但早期發(fā)現(xiàn)癌癥可以確保生存率增加超過97%[2]??梢姡殉舶┰缙诎l(fā)現(xiàn)對我國女性健康尤為重要。
基因芯片是利用核酸互補雜交原理按二維結構將大量探針分子固定于支持物上,與標記的樣品分子進行雜交反應,通過對雜交信號的監(jiān)測分析獲取樣品分子的數(shù)量和序列信息[3]。目前,廣泛應用基因芯片檢測各種癌癥,但其產(chǎn)生的微陣列數(shù)據(jù)具有:樣本小、數(shù)據(jù)量大、維度高等特點,很容易導致預測癌癥存在與否的分類失敗。所以,在預測前必須對數(shù)據(jù)進行特征提取,這是提高分類質量和降低分類算法的計算復雜性的重要步驟。
目前有很多機器學習的方法用于各種癌癥分類。文[4]采用一個無監(jiān)督的基因過濾算法以降低用于分型計算的數(shù)據(jù)噪聲,首先提出了一個概率模型對樣本中的分類結構進行建模,然后基于聚類的結果采用相對熵的方法獲得對分類貢獻大的基因作為特征基因,最后根據(jù)選出的特征基因做聚類來進行癌癥分類。文[5]提出了一項關于前列腺癌疾病的調查研究,并使用神經(jīng)模糊分類系統(tǒng)進行模式識別,以便盡早進行治療計劃。文[6]通過基于內(nèi)核的學習和特征選擇提出了完整的癌癥診斷過程。使用SVM-RFE用于預過濾基因。文[7]提出了對數(shù)回歸的方法來預測和分類癌癥。文[8]提出了使用貝葉斯網(wǎng)絡方法來預測和分類癌癥。文[9]首先使用基因的分類信息指數(shù)來選取分類特征基因,去除無關基因進行數(shù)據(jù)的預處理,然后用支持向量機來進行癌癥的分類預測。文[10]提出了一種基于SVM模型診斷卵巢癌,使用模糊粗糙集理論進行特征選擇,使用SVM來處理復雜真實的數(shù)據(jù),進行快速學習,此方法具有良好的分類性能。本文提出一種基于PCA和SVM的卵巢癌預測方法,使用PCA進行卵巢癌微陣列數(shù)據(jù)樣本的特征提取,使用適合小樣本分類的SVM作為區(qū)分卵巢癌患者和非卵巢癌患者的分類器。
1 預測模型
假設總共有n個卵巢癌患者的微陣列數(shù)據(jù)記錄,每個記錄包含p個特征屬性。根據(jù)每個患者的特征數(shù)據(jù),通過分類實現(xiàn)預測患者是病態(tài)還是正常。本文提出的方法如圖1所示,其中,PCA可以在保證一定的信息利用率的基礎上提取簡化特征屬性的維數(shù);SVM用于分類及預測。對卵巢癌患者的微陣列數(shù)據(jù)而言,一個數(shù)據(jù)包含上萬個或幾萬個特征屬性,可見使用PCA對這樣的數(shù)據(jù)進行降維處理是有必要的。從模型的數(shù)據(jù)流上說,PCA輸出的數(shù)據(jù)作為SVM的輸入數(shù)據(jù),看似串行,實這則并行。對單個數(shù)據(jù)而言,PCA和SVM的工作是串行級的;對整體數(shù)據(jù)而言,PCA和SVM的工作是同步的,并行級的,SVM處理上一個數(shù)據(jù)的同時PCA可以降維下一個數(shù)據(jù),這樣可以提高模型的預測效率。
1.1 數(shù)據(jù)預處理
首先,處理缺失值和屬性的冗余值。歷史數(shù)據(jù)可能存在一些遺漏或冗余的屬性值,這可能會影響分類的準確性和計算速度。
其次,數(shù)據(jù)標準化,消除其尺寸差異的影響。根據(jù)原始樣本中存在n個具有p個屬性的數(shù)據(jù),構造n×p的變量矩陣,每個列在矩陣中標準化,獲得歸一化值zij,其計算方法為
zij=xij-jsj (i=1,2,…,n j=1,2,…,p)(1)
j=∑ni=1xijn (i=1,2,…,n j=1,2,…,p)(2)
sj=∑ni=1(xij-j)2n-1 (i=1,2,…,n j=1,2,…,p)(3)
1.2 主成分分析
屬性中的太多變量將增加大量的計算負載。PCA可以刪除相關變量,并創(chuàng)建一些彼此無關的新變量。更重要的是,原始信息能最大限度地被這些新變量保留。PCA的實現(xiàn)過程描述如下:
計算標準化變量矩陣Z的協(xié)方差矩陣C,即
C=ZZTn-1(4)
計算協(xié)方差矩陣C的特征方程|C-λIp|=0,得到特征值λj和相應的特征向量αj,其中j=1,2,…,p。
根據(jù)式(5)確定主成分k的數(shù)值,確保信息利用率高于95%。
∑kj=1λj∑nj=1λj≥95%(5)
特征值按從大到小排列,取前k個最大特征值對應的特征向量,得到一個k行p列的特征向量矩陣V。
根據(jù)式(6)計算得到n行k列的矩陣X,這個矩陣X就是降維后的變量矩陣,包含k個主要成分的數(shù)據(jù)。
X=(VZT)T=ZVT(6)
1.3 支持向量機
SVM是一種判別分類器,由分類超平面所定義。也就是說,使用標記的訓練樣本訓練模型,然后通過輸出最佳超平面來實現(xiàn)測試樣本分類。SVM描述如下:
卵巢癌預測問題為非線性問題,所以SVM的目標函數(shù)f(x)表示為
f(x)=wT·φ(x)+b(7)
其中:x為輸入;w為權向量;b為偏置向量。把輸入數(shù)據(jù)映射到高維數(shù)據(jù)空間。
利用極大化間隔的求解思想,最終得到分類決策函數(shù)為
f(x)=∑ni=1αiyiK(xi,x)+b(8)
其中:K(xi,x)為核函數(shù),表示映射到的高維特征空間的兩個點的內(nèi)積<φ(xi)·φ(x)>。這里選擇學習能力強且誤差小的Gauss徑向基(RBF)核函數(shù)為
K(xi,x)=exp(-‖xi-x‖22σ2)(9)
其中,σ為核函數(shù)系數(shù),具有高的靈活性。
2 仿真實驗與分析
2.1 數(shù)據(jù)集
本文所有仿真實驗使用同一個數(shù)據(jù)集,是來自于AICR的卵巢癌微陣列質譜數(shù)據(jù)集,樣本共有253個,包括卵巢癌患者陽性(病態(tài))和陰性(健康),且每個樣本的屬性有15000之多。在這253個卵巢癌數(shù)據(jù)樣本中隨機選其中的170個為訓練集,剩余的83個為測試集,卵巢癌微陣列質譜數(shù)據(jù)如表1所示。
2.2 仿真實驗設計
設計3個仿真實驗來證明本文提出的基于PCA和SVM的癌癥預測方法的有效性,即主成分k值確定、預測精度和算法效率。
仿真實驗中的計算使用安裝了Libsvm-3.21工具包的MATLAB R2010b軟件完成。模型中的SVM參數(shù)隨機選擇,要求C∈[0,100]、σ∈[0.1,10],用MATLAB仿真的時候用經(jīng)驗值或試湊法調節(jié)。
仿真實驗都是在實驗室的PC機上完成。PC機的OS為Win7 Sp1,硬件運行環(huán)境為:處理器(CPU):Intel(R) Core(TM) i3-3110 CPU @ 2.4GHz,物理四核;內(nèi)存(RAM):8.00GB;磁盤驅動器:ATA WDC WD5000LPVX-0;顯示適配器:NVIDIA GeForce GT 635M。
2.3 結果與分析
原始數(shù)據(jù)集總共有15000個屬性。通過本文1.2節(jié)計算協(xié)方差矩陣特征方程的特征值和特征向量的方法進行了主成分分析,經(jīng)過分析,數(shù)據(jù)的特征值大大減少,290個屬性可以保證100%的信息利用率(通過計算貢獻率可以近似獲得)。在這個實驗中,我們相信95%的信息利用率可以確保結果的正確性,即最少由98個數(shù)據(jù)屬性表示。然后,根據(jù)式(5)計算主成分k值。信息利用率選擇如圖2所示。 在圖2中,屬性個數(shù)被表示為橫軸,屬性個數(shù)對應的信息利用率被表示為縱軸。
在數(shù)據(jù)集上,應用所提出的方法進行預測實驗,并與數(shù)據(jù)集上的KNN和ESOM等典型分類方法在預測精度上進行了比較,如圖3所示??梢钥闯?,預測精度上最高是本文所提出的方法,預測精度為89.1%,高于KNN的71.7%和ESOM的62.5%。
通過消耗的CPU時間來比較本文方法、KNN和ESOM的效率,CPU時間對比如圖4所示。由于本文中使用的數(shù)據(jù)集擁有大量的屬性值,因此需要花費很長時間來訓練和預測分類結果。在這3種方法中,KNN是最耗時的,所需的CPU時間高達1225.433s。由于本文方法和ESOM都對數(shù)據(jù)集進行了降維處理,所以消耗的CPU時間較少。本文方法應用了主成分分析,效率得到了極大的提高,只消耗4.791s的CPU時間。
3 結 論
根據(jù)微陣列質譜數(shù)據(jù)的特點,本文提出一種基于主成分分析(PCA)和支持向量機(SVM)的卵巢
癌預測方法。使用PCA在預測前對數(shù)據(jù)進行特征提取,來提高分類質量和降低分類算法的計算復雜性。使用SVM作為區(qū)分卵巢癌陽性和陰性的分類器,其更適合小樣本分類。仿真實驗結果表明:本文方法在預測精度上達到了89.1%,而只消耗4.791s的CPU時間,是一個較好的平衡點,但仍需要在其他卵巢癌數(shù)據(jù)集上進行驗證。同時,本文方法也可以應用在其他高維數(shù)據(jù)分類的領域。
參 考 文 獻:
[1] SIEGEL R L, MILLER K D,F(xiàn)EDEWA S A, et al. Colorectal Cancer Statistics, 2017.[J]. CA: A Cancer Journal for Clinicians, 2017, 67(3):177.
[2] MILLER K D, SIEGEL R L, LIN C C, et al.Cancer Treatment and Survivorship Statistics, 2016[J]. CA: A Cancer Journal for Clinicians, 2016, 66(4):271.
[3] 沈銳, 謝楊, 李磊, 等. 基因芯片技術在于癌癥診斷研究發(fā)展[J]. 世界最新醫(yī)學信息文摘, 2017,17(33):124.
SHEN Rui, XIE Yang, LI Lei, et al.Gene Chip Technology Lies in the Development of Cancer Diagnosis Research[J]. World Latest Medicine Information, 2017,17(33):124.
[4] 李澤, 包雷, 黃英武, 等. 基于基因表達譜的腫瘤分型和特征基因選取[J]. 生物物理學報, 2002, 33(4): 413.
LI Ze, BAO Lei, HUANG Yingwu, et al. Cancer Subtype Discovery and Informative Gene Identification with Gene Expression Profiles[J]. Acta Biophysica Sinica, 2002, 33(4): 413.
[5] SUBRATA Kar, MAJUMDER D. Dutta. An Investigative Study on Early Diagnosis of Prostate Cancer Using Neuro-fuzzy Classification Systemfor Pattern Recognition[J]. International Journal of Fuzzy Systems, 2016,19(2): 1.
[6] MEDJAHED, SEYYID Ahmed. Kernel-based Learning and Featureselection Analysis for Cancer Diagnosis[J]. Applied Soft Computing , 2017,51: 39.
[7] ZHOU X B, LIU K Y, WONG S T C. Cancer Classification and Prediction Using Logistic Regression with Bayesian Gene Selection[J]. Journal of Biomedical Informatics, 2004,37: 249.
[8] HELMAN P, VEROFF R, ATLAS S R, et al. A Bayesian Network Classification Methodology for Gene Expression Data [J]. J. Comput. Biol., 2004, 11: 581.
[9] 李穎新, 阮曉鋼. 基于基因表達譜的腫瘤亞型識別與分類特征基因選取研究[J]. 電子學報, 2005, 33(4): 651.
LI Yingxin, RUAN Xiaogang. Cancer Subtype Identification and Feature Gene Selection with Gene Expression Profiles[J]. Acta Electronica Sinica, 2005, 33(4): 651.
[10]BADRIA, F A. A Framework for Ovarian Cancer Diagnosis Basedon Amino Acids Using Fuzzy-rough Sets with SVM[J]. International Con-ference on Advanced Machine Learning Technologies and Applications, 2014.
(編輯:王 萍)