【摘要】本文建立了一個影響肝癌手術治療效果因素的多元線性擬合。通過分析問題和給定數(shù)據(jù),建立多元方差分析模型,通過多重比較可肝癌手術后影響最小因素及組合。通過主成成分分析法,確定對肝癌手術后效果影響較大的幾個因素,進而將次要的因素忽略,將主要因素作為控制變量進行多元線性擬合得出影響手術治療的因素。
【關鍵詞】主成分分析;多元線性擬合;灰色系統(tǒng)理論
【中圖分類號】R-0【文獻標識碼】B【文章編號】1671-8801(2014)06-0373-02
一、問題重述
肝癌是我國第二常見的癌癥,很多人在發(fā)現(xiàn)肝癌時就已經(jīng)是肝癌中晚期了,而肝癌手術治療是中晚期肝癌的首選療法。通過研究食道靜脈曲張、門脈癌栓、HbsAg、Anti-HCV、腫瘤部位、腫瘤大小、腫瘤生長方式、腫瘤包膜、腫瘤旁的微小子灶、術后腹水這10個不同指標對預后影響,建立數(shù)學模型,對手術的治療效果進行預測,為病人是否選擇手術治療提供建議。
二、問題分析
由于附表中的各種因素對手術影響錯綜復雜,其中一些數(shù)據(jù)對手術后的影響較大(主成成分),而另外一些因素則對手術后的影響很小,可以忽略不計。根據(jù)以上情況,首先,通過主成成分分析(利用matlab實現(xiàn)),確定主要影響因素,忽略次要影響因素。再把主要因素作為為控制變量進行多元線性擬合得出影響手術治療的因素。
三、模型假設
1.假設題目所給的數(shù)據(jù)真實可靠;
2.假設除給的因素,其他因素不影響肝癌手術后的效果;
四、定義與符號說明
X1表示食道靜脈曲張 X2表示門脈癌栓X3表示HbsAg
X4表示Anti-HCV X5表示腫瘤部位X6表示腫瘤大小
X7表示腫瘤生長方式 X8 表示腫瘤包膜X10表示術后腹水
Y 表示預后影響βj表示第j個回歸系數(shù)
X9表示腫瘤旁的微小子灶R表示樣本相關矩陣
五、模型的建立與求解
5.1多元二項式回歸:
回歸分析就是對擬合問題作的統(tǒng)計分析。具體地說,回歸分析在一組數(shù)據(jù)的基礎上研究這樣幾個問題:
(i)建立因變量y與自變量x , x , , xm 1 2 L 之間的回歸模型(經(jīng)驗公式);
(ii)對回歸模型的可信度進行檢驗;
(iii)判斷每個自變量x (i 1,2, ,m) i = L 對y 的影響是否顯著;
(iv)診斷回歸模型是否適合這組數(shù)據(jù);
(v)利用回歸模型對y 進行預報或控制;
對于本題,先求出回歸系數(shù):
回歸系數(shù)
1.33774409545976
0.519216227120093
-0.636921146907101
0.159834807557701
-0.192287891475150
0.0661717181401592
-0.242891604143757
0.0802594281279456
-0.573859889082849
-0.519709193870719
-0.110257562995131
剩余標準差:0.4577
X1X2X3X4X5X6X7X8X9X10檢驗實際結果
0.50.5-1-10.50.5-10.500.50.800671
0.51110.50.510110.345040
10-11-0.50.75-10011.09911
00-1-111-11010.42911
0.30.5110.50.2511100.101650
0.511-10.50.510.5001.01751
0.30.51-10.50.2510110.949831
01-1110.75-10.500.5-0.18960
0.50.51-10.50.5-1110.50.31370
00-110.51-10.5000.408630
11-1-10.50.751110.50.034970
0.311-110.25-1000.50.957331
00-110.5110.5010.458890
00.5-1-11111100.138290
10.5110.50.7510.510.50.575461
0.50-110.50.5-1111-0.127220
0.50.5-1-10.50.5-1100.50.513740
0.31-11-0.50.2510000.490921
01-110.5110000.219510
00110.51-10.500.50.673171
回歸分析圖表:
多元線性回歸:
回歸系數(shù)估計值置信空間
0.4990-2.194454635871643.19251213493415
0.2172-0.1684573354494010.602929605855606
-0.4156-0.9796945147875560.148531319474548
0.2627-0.3574624813902460.882936513264774
-0.3138-0.9313128735238850.303650201760710
0.2736-0.6014635535320231.14858174518167
-0.0902-0.4046698124271610.224296998478952
0.2596-0.4731234345667730.992280750932272
0.3474-0.1388972462466060.833618810618295
-0.5498-1.345478176126840.245809008470288
R2=0.6191F=1.4628p=0.2959s2 =0.2095
可以看出結果不是太好:p=0.2959>0.05,即回歸模型不成立。R2=0.6161較小, 的置信區(qū)間包含了零點
5.2 主成分分析:主成分分析法也稱主分量分析,旨在利用降為維的思想,把多指標轉化為少數(shù)幾個綜合指標。
原理及公式推導可參考[1],[3],利用Matlab數(shù)學軟件進行多因素方差分析,得到
解:樣本均值向量為:
樣本協(xié)方差矩陣為:
由于S中主對角線元素差異較大,因此我們樣本相關矩陣R出發(fā)進行主成分分析。樣本相關矩陣R為:
R的特征值及貢獻率見下表:
貢獻率
0.08940.24470.2447
0.1760.18880.4335
0.41390.16330.5968
0.44690.11910.7159
0.69780.10190.8178
1.01890.06970.8875
1.19080.04460.9321
1.63330.04140.9735
1.88740.01760.9911
2.44560.00891
六、模型的檢驗
同時分析了多個控制變量的交互作用、以及其他隨機因素作用對觀察變量的分析產(chǎn)生顯著影響。方法利用得當,得到的結果符合實際,實用性強。多元線性擬合的擬合度達到了很高的水平,將對手術產(chǎn)生影響的主要因素值待入所建模型,得到的結果和實際接果相符,且吻合度較高。
七、模型評價與推廣
在吸取模型一經(jīng)驗的基礎上,首先找到影響較大的因素,排除影響較小的因素,再進行分析,得到了一個較為合理的解決模型。 模型二,可實際應用于醫(yī)院診斷病人是否適用于手術治療肝癌。
參考文獻:
[1] 百度文庫主成分分析及matlab應用;
[2]陳杰,matlab寶典,第三版;電子工業(yè)出版社,2008年出版;
[3]作者李冰,常用數(shù)學建模32種方法多元回歸,機械工程工業(yè)出版社;
[4] 陳冬彥,數(shù)學建模,北京:科學出版社,2007年出版;
[5]張誠堅等,計算方法,北京:高等教育出版社;海德堡:施普林格出版社,1998.8(2010重印)。