摘 要:乳腺癌是女性發(fā)病率較高的惡性腫瘤之一,20世紀(jì)以來(lái)乳腺癌的發(fā)病率在世界各地均有上升的趨勢(shì),但其病因目前尚未完全明確,所以對(duì)乳腺細(xì)胞的檢測(cè)顯得尤為重要。本文通過(guò)偏最小二乘回歸的方法,利用SIMCA-P 13.0軟件對(duì)乳腺細(xì)胞進(jìn)行建模和預(yù)測(cè),能夠較好的驗(yàn)證一個(gè)乳腺細(xì)胞是否有癌變的情況。
關(guān)鍵詞:偏最小二乘法;多元分析;乳腺癌;預(yù)測(cè)
DOI:10.16640/j.cnki.37-1222/t.2016.17.260
1 引言
乳腺癌是發(fā)生在乳腺腺上皮組織的惡性腫瘤,女性乳腺是由皮膚、纖維組織、乳腺腺體和脂肪組成的乳腺并不是維持人體生命活動(dòng)的重要器官,原位乳腺癌并不致命;但由于乳腺癌細(xì)胞喪失了正常細(xì)胞的特性,細(xì)胞之間連接松散,容易脫落。早期乳腺癌往往不具備典型的癥狀和體征,不易引起重視,常通過(guò)體檢或乳腺癌篩查發(fā)現(xiàn)。80%的乳腺癌患者以乳腺腫塊首診?;颊叱o(wú)意中發(fā)現(xiàn)乳腺腫塊,多為單發(fā),質(zhì)硬,邊緣不規(guī)則,表面欠光滑。大多數(shù)乳腺癌為無(wú)痛性腫塊,僅少數(shù)伴有不同程度的隱痛或刺痛[1]。因此對(duì)于乳腺細(xì)胞的檢查是發(fā)現(xiàn)乳腺癌細(xì)胞存在以及預(yù)防乳腺癌細(xì)胞擴(kuò)散的一種重要手段。本文選取了良性與惡性乳腺細(xì)胞的測(cè)量值,利用偏最小二乘法對(duì)一半的數(shù)據(jù)進(jìn)行建模,對(duì)另一半的數(shù)據(jù)進(jìn)行預(yù)測(cè)檢驗(yàn),并選擇了一個(gè)合適的閾值來(lái)判斷其結(jié)果為良性或是惡性細(xì)胞。
2 偏最小二乘回歸
偏最小二乘回歸算法。偏最小二乘回歸偏最小二乘回歸(Partial Least-Squares Regression,PLS回歸)是一種先進(jìn)的多元分析方法[2],其計(jì)算步驟如下:
(1)對(duì)自變量和因變量進(jìn)行標(biāo)準(zhǔn)化處理:
(2)提取主成分,逐步回歸。記是的第一個(gè)成分,,是的第一個(gè)軸,它是一個(gè)單位向量。記是的第一個(gè)成分,,是的第一個(gè)軸,它是一個(gè)單位向量。要使得 與的相關(guān)程度到最大,則根據(jù)主成分分析,應(yīng)有:,。另一方面,由于回歸建模的需求,又要求對(duì)有最大的解釋能力,根據(jù)典型相關(guān)分析,即要求和的協(xié)方差達(dá)到最大值,從而轉(zhuǎn)為求解下列優(yōu)化問(wèn)題,即:
由文獻(xiàn)[2],即求矩陣的最大特征值所對(duì)應(yīng)的特征向量,然后求成分和殘差矩陣:,。其中,
。同理可求矩陣的最大特征值所對(duì)應(yīng)的特征向量,如此計(jì)算下去,如果X的秩是A,則最終得到:。
3 實(shí)驗(yàn)驗(yàn)證
3.1 數(shù)據(jù)集介紹
本次實(shí)驗(yàn)的數(shù)據(jù)集來(lái)自Wisconsin Diagnostic Breast Cancer (WDBC) [4]。該數(shù)據(jù)有569例細(xì)胞活檢案例,每個(gè)案例有32個(gè)屬性,其中包含有病人的編號(hào)和癌癥診斷結(jié)果,其他30個(gè)屬性是真實(shí)測(cè)量值。在癌癥診斷屬性中,“B”代表良性,“M”代表惡性,其他的30個(gè)屬性是由細(xì)胞核的10個(gè)特征的均值、標(biāo)準(zhǔn)差、最大值構(gòu)成。
3.2 數(shù)據(jù)處理
本次實(shí)驗(yàn)將良性規(guī)定為值0,將惡性規(guī)定為值1作為因變量,十個(gè)特征屬性作為自變量,選擇一半的數(shù)據(jù)(284個(gè)樣本)作為模型的建立,剩余一半(285個(gè)樣本)用來(lái)驗(yàn)證,并且對(duì)數(shù)據(jù)分為兩組,良性組和惡性組,將處理好的數(shù)據(jù)導(dǎo)入到SIMCA-P 13中,設(shè)置好后,點(diǎn)擊完成。
對(duì)數(shù)據(jù)進(jìn)行主成分分析,得到三個(gè)主成分。R2X代表的是從X變量中提取的主成分對(duì)X的累計(jì)解釋能力,R2Y代表的是從Y變量中提取的主成分對(duì)Y的累計(jì)解釋能力,Q2代表交叉有效性。我們以這3個(gè)主成分,繪制它的橢圓圖,可以看出所建模型使良性組和惡性組有較好的區(qū)分。另外樣本中有許多異常點(diǎn),我們需要將它們?nèi)コ俅芜M(jìn)行模型的擬合。經(jīng)過(guò)多次異常點(diǎn)去除后,得到的點(diǎn)均在橢圓中。此時(shí),R2X=0.744,R2Y=0.757,Q2=0.75。得到標(biāo)準(zhǔn)化的回歸方程為:
在VIP圖中可以看出細(xì)胞凹點(diǎn)、周長(zhǎng)、半徑、面積和凹度對(duì)解釋是否癌變有著重要的作用。在數(shù)據(jù)處理完成后則可查看預(yù)測(cè)結(jié)果。在這里我們以0.5為閾值,若預(yù)測(cè)值大于0.5,則為惡性細(xì)胞,若預(yù)測(cè)值小于0.5,則為良性細(xì)胞。從而計(jì)算出在357個(gè)良性細(xì)胞中,預(yù)測(cè)出有339個(gè)良性;在212個(gè)惡性細(xì)胞中,預(yù)測(cè)出194個(gè)惡性細(xì)胞,則預(yù)測(cè)的正確率達(dá)到93.67%,能夠較好的預(yù)測(cè)出細(xì)胞是否癌變。
4 結(jié)果分析
本文利用偏最小二乘法,對(duì)多變量的乳腺細(xì)胞進(jìn)行了回歸建模,較好的預(yù)測(cè)出了細(xì)胞是否癌變。從實(shí)驗(yàn)數(shù)據(jù)中可以看出,細(xì)胞的半徑、質(zhì)地、凹點(diǎn)以及周長(zhǎng)和面積等與細(xì)胞是否癌變呈正相關(guān),而分形維數(shù)呈負(fù)相關(guān);有數(shù)可看出,凹點(diǎn)、周長(zhǎng)、半徑、面積和凹度對(duì)預(yù)測(cè)值的貢獻(xiàn)度最大,而細(xì)胞的對(duì)稱性、光滑度和分形維數(shù)對(duì)預(yù)測(cè)值的貢獻(xiàn)度相對(duì)較小,我們?cè)谶M(jìn)行回歸變量的選擇時(shí),有時(shí)可以舍棄貢獻(xiàn)度較小的自變量。但有關(guān)指標(biāo)分析的結(jié)論基本還是定性的,只能說(shuō)這些自變量的作用更大一些,并且VIP方法還有一些局限性,當(dāng)自變量的貢獻(xiàn)度非常大時(shí),不能說(shuō)這幾個(gè)自變量就是最好的變量選擇,有時(shí)還要考慮變量之間的相關(guān)性來(lái)取舍[5]。在閾值的選擇中,我們選擇了一個(gè)較為中間的值,說(shuō)服力不算太強(qiáng),需要再進(jìn)行多次的實(shí)驗(yàn)和擬
(下轉(zhuǎn)第281頁(yè))(上接第297頁(yè))
合進(jìn)行改進(jìn)。
參考文獻(xiàn):
[1]互動(dòng)百科.乳腺癌. http://www.baike.com/wiki/乳腺癌. [EB/OL].2016,05(28).
[2]王惠文,吳載斌,孟潔.偏最小二乘回歸的線性與非線性方法[M].北京:國(guó)防工業(yè)出版社,2006.
[3]薛艷.偏最小二乘法在顧客滿意度評(píng)價(jià)中的運(yùn)用.合作經(jīng)濟(jì)與科技[J].2006(07):28-29.
[4]http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic).
[5]周強(qiáng),歐陽(yáng)一鳴,胡學(xué)鋼,王浩.數(shù)據(jù)挖掘中應(yīng)用偏最小二乘法發(fā)現(xiàn)異常值[J].微電子學(xué)與計(jì)算,2005,22(01):25-27.
作者簡(jiǎn)介:朱雨晨(1994-),女,湖北十堰人,本科。