• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      提高回歸模型擬合優(yōu)度的策略(Ⅰ)
      ——啞變量變換與其他變量變換

      2019-03-29 03:03:16胡良平
      四川精神衛(wèi)生 2019年1期
      關(guān)鍵詞:因變量頻數(shù)名義

      胡良平

      (1.軍事醫(yī)學(xué)科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029

      1 變量變換的必要性及變換方法

      1.1 多值名義變量的變量變換

      1.1.1 選擇合適變量變換方法的必要性

      在進(jìn)行回歸分析時(shí),若自變量中有“多值名義變量”(如職業(yè)、血型、儀器品牌等),其具體的“表現(xiàn)或水平”不能用“文字”或“字母”表示,也不能簡(jiǎn)單地賦值“1、2、3……”前者無法參與統(tǒng)計(jì)計(jì)算,而后者將會(huì)導(dǎo)致計(jì)算結(jié)果錯(cuò)誤。那么,究竟應(yīng)該對(duì)“多值名義變量”進(jìn)行什么樣的變量變換呢?本文將介紹常規(guī)做法,即進(jìn)行“啞變量變換”。

      在回歸分析中應(yīng)如何處置“多值有序變量”?在統(tǒng)計(jì)學(xué)上,人們認(rèn)為:直接采用多值有序變量各水平的數(shù)值為其取值,例如:假定x代表“腫瘤分級(jí)”,依據(jù)臨床專業(yè)知識(shí),已知它可以分為五級(jí),于是,認(rèn)為 x的取值就是“1、2、3、4、5”。依據(jù)基本常識(shí)可知,這樣的做法是不妥的。因?yàn)楫?dāng)腫瘤處于不同等級(jí),其對(duì)結(jié)果的影響可能不是“線性關(guān)系”,很可能是較復(fù)雜的“非線性關(guān)系”。因此,應(yīng)將“多值有序自變量”視為“多值名義自變量”,采用合適的變量變換方法。

      1.1.2 對(duì)多值名義變量進(jìn)行“啞變量變換”

      所謂啞變量變換,就是將一個(gè)具有k個(gè)水平的多值名義變量轉(zhuǎn)換成(k-1)個(gè)新變量,每個(gè)新變量都是一個(gè)“二值變量(即僅有兩個(gè)不同取值的變量)”。這些新變量像“啞巴”一樣,其中的每一個(gè)都攜帶著原變量的一部分信息,在計(jì)算中發(fā)揮一定的作用,但又不能完全取代原變量,故它們都被形象地稱為“啞變量”。

      實(shí)施啞變量變換的方法是:選擇一個(gè)頻率高的水平作為“基準(zhǔn)水平”,其他水平都與該基準(zhǔn)水平作比較而產(chǎn)生一個(gè)“比較變量”(即啞變量)。例如:在ABO血型系統(tǒng)中,假定在樣本資料中屬于O型血的人數(shù)最多,就可以以“O型血的人”為“基準(zhǔn)水平”,其他三種血型的人相對(duì)于O型血的人分別產(chǎn)生一個(gè)“啞變量”。簡(jiǎn)化形式呈現(xiàn)如下:

      個(gè)體編號(hào)血型XA|OXB|OXAB|O1A1002B0103AB0014O000

      在上面的簡(jiǎn)化形式中,“XA|O、XB|O、XAB|O”這三個(gè)變量都是與“血型”這個(gè)4值名義變量對(duì)應(yīng)的“啞變量”,它們分別代表“是否為A型血”“是否為B型血”和“是否為AB型血”。

      1.1.3 對(duì)多值名義變量進(jìn)行“其他變量變換”

      在進(jìn)行回歸分析中,上面的“啞變量變換”已經(jīng)成為統(tǒng)計(jì)學(xué)界處置“多值名義自變量”的“金標(biāo)準(zhǔn)”。是否還有更合理的“變量變換”方法可以取代“啞變量變換”呢?此問題將在本期“科研方法專題”的另三篇文章中深入討論。

      1.2 定量變量的變量變換

      1.2.1 選擇合適變量變換方法的必要性

      通常情況下,人們?cè)谶M(jìn)行回歸分析時(shí),對(duì)于定量的自變量和/或因變量不作任何變換。然而,由基本常識(shí)可知,前述做法是不切實(shí)際的,通常情況下,效果是不夠好的。因?yàn)樽兞恐g的關(guān)系往往是錯(cuò)綜復(fù)雜的,它們之間永遠(yuǎn)以“一次方”形式存在聯(lián)系的可能性是非常罕見的。因變量Y可能與某個(gè)自變量之間是拋物線關(guān)系、指數(shù)曲線關(guān)系或?qū)?shù)曲線關(guān)系;因變量Y本身可能偏離正態(tài)分布很遠(yuǎn),而很多統(tǒng)計(jì)模型要求因變量必須服從正態(tài)分布。因此,需要對(duì)定量因變量作合適的變量變換,以使其符合特定統(tǒng)計(jì)模型的基本要求;需要對(duì)某些定量自變量作合適的變量變換,以更真實(shí)地呈現(xiàn)其與定量因變量之間的變化趨勢(shì)。

      1.2.2 對(duì)定量自變量進(jìn)行兩方面的變量變換

      第一方面的變量變換就是對(duì)某定量自變量作了某種變量變換后,丟棄原先的那個(gè)自變量,而僅采用變換后的變量。例如:建模時(shí),只用“l(fā)og(x1)”,而丟棄“x1”。第二方面的變量變換就是不僅用變換后的變量,還保留未變換的原變量。這樣做的結(jié)果會(huì)使自變量的數(shù)目大大增加,常稱為產(chǎn)生“派生變量”。例如:假定有10個(gè)定量變量,可以給它們都取對(duì)數(shù)變換,就會(huì)增加10個(gè)新變量;也可以對(duì)10個(gè)變量進(jìn)行平方變換或平方根變換;還可以基于10個(gè)定量變量產(chǎn)生交叉乘積項(xiàng)等。

      1.2.3 對(duì)定量因變量進(jìn)行變量變換

      在通常情況下,人們進(jìn)行的是“一元多重回歸分析”,因此,若對(duì)定量因變量進(jìn)行變量變換,在回歸建模時(shí),只使用變換后的因變量,而不會(huì)同時(shí)使用原先的“因變量”與變換后的因變量(因?yàn)檫@樣做已經(jīng)把“一元”問題轉(zhuǎn)變成“二元”問題了)。

      何時(shí)需要對(duì)定量因變量進(jìn)行變換呢?通常在以下兩種情況之一:其一,已知因變量與自變量之間呈某種函數(shù)關(guān)系,就選擇相應(yīng)的變量變換方法。例如:當(dāng)因變量與自變量之間呈“指數(shù)函數(shù)”變化關(guān)系時(shí),就可以對(duì)因變量取對(duì)數(shù)變換;其二,當(dāng)定量因變量(嚴(yán)格地說,應(yīng)該是模型的誤差項(xiàng))偏離正態(tài)分布很遠(yuǎn)時(shí),需要選擇一種合適的變量變換方法,目的是使變換后的因變量服從模型所要求的某種概率分布,如正態(tài)分布、指數(shù)分布或威布爾分布等。

      2 實(shí)際問題與數(shù)據(jù)結(jié)構(gòu)

      2.1 實(shí)際問題

      研究者關(guān)心的定量結(jié)果變量為“氧化氮釋放量(nox)”,該定量指標(biāo)的數(shù)值測(cè)自單缸發(fā)動(dòng)機(jī)。已知影響因素有:燃油種類(fuel)、壓縮比(cpratio)和等值比(eqratio)。其中,燃油種類(fuel)是多值名義變量,而氧化氮釋放量(nox)、壓縮比(cpratio)和等值比(eqratio)都是計(jì)量變量。該資料來自SAS軟件中的“幫助”數(shù)據(jù)庫(kù),數(shù)據(jù)集名為:sashelp.gas。

      試以“氧化氮釋放量(nox)”為因變量,以“燃油種類(fuel)、壓縮比(cpratio)和等值比(eqratio)”為自變量,創(chuàng)建一元多重回歸模型。

      【說明】該實(shí)際問題和對(duì)應(yīng)的數(shù)據(jù)來源于“SAS/STAT的TRANSREG過程中的樣例及SASHELP數(shù)據(jù)庫(kù),其數(shù)據(jù)集名為sashelp.gas”[1]。

      2.2 數(shù)據(jù)結(jié)構(gòu)

      利用以下SAS程序可以顯示該例的數(shù)據(jù)結(jié)構(gòu):

      proc print data=sashelp.gas;

      run;

      【燃油資料的數(shù)據(jù)結(jié)構(gòu)】

      ObsFuelCpRatioEqRatioNOx1Ethanol120.9073.7412Ethanol120.7612.2953Ethanol121.1081.4984Ethanol121.0162.8815Ethanol121.1890.760

      以上顯示出數(shù)據(jù)集的前5個(gè)觀測(cè),全部資料共171個(gè)觀測(cè)。其中,在結(jié)果變量nox上有兩個(gè)缺失值。

      利用如下SAS程序可以顯示三個(gè)自變量(一個(gè)為多值名義自變量、一個(gè)為多值有序自變量、一個(gè)為定量自變量)及定量結(jié)果變量(nox)的頻數(shù)分布情況:

      proc freq data=sashelp.gas;

      tables fuel eqratio cpratio nox;

      run;

      【燃油種類的頻數(shù)分布】

      Fuel頻數(shù)百分比累積頻數(shù)累積百分比82rongas95.2695.2694%Eth2514.623419.88Ethanol9052.6312472.51Gasohol137.6013780.12Indolene2212.8715992.98Methanol127.02171100.00

      以上結(jié)果表明:共有6種燃油,其中,頻數(shù)最多的是“Ethanol”,涉及此種燃油的觀測(cè)共有90個(gè)。

      【壓縮比的頻數(shù)分布】

      Compression RatioCpRatio頻數(shù)百分比累積頻數(shù)累積百分比7.59354.399354.399179.9411064.33122414.0413478.36152011.7015490.0618179.94171100.00

      以上結(jié)果表明:壓縮比只有5種,屬于“多值有序”變量(注意:以下簡(jiǎn)稱為“定量變量”)。其中,頻數(shù)最多的是“7.5”,涉及此種壓縮比的觀測(cè)共有93個(gè)。

      等值比(eqratio)與氧化氮釋放量(nox)的取值都很多,其頻數(shù)分布表此處從略;但利用下面的SAS程序可以顯示這兩個(gè)變量的頻數(shù)分布直方圖,同時(shí),還可以對(duì)它們進(jìn)行正態(tài)性檢驗(yàn):

      proc univariate data=sashelp.gas normal;

      var eqratio nox;

      histogram eqratio nox/normal;

      run;

      【等值比的正態(tài)性檢驗(yàn)結(jié)果】

      正態(tài)性檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量PShapiro-WilkW0.969774PrD0.0941Cramer-von MisesW-Sq0.196943Pr>W-Sq0.0058Anderson-DarlingA-Sq1.289752Pr>A-Sq<0.0050

      以上結(jié)果表明:等值比不服從正態(tài)分布。

      等值比的頻數(shù)分布直方圖見圖1。由圖1可知,等值比呈“負(fù)偏態(tài)分布”

      【氧化氮釋放量的正態(tài)性檢驗(yàn)結(jié)果】

      正態(tài)性檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量PShapiro-WilkW0.945485PrD<0.0100Cramer-von MisesW-Sq0.336953Pr>W-Sq<0.0050Anderson-DarlingA-Sq2.431071Pr>A-Sq<0.0050

      以上結(jié)果表明:氧化氮釋放量不服從正態(tài)分布。

      氧化氮釋放量的頻數(shù)分布直方圖見圖2。由圖2可知:氧化氮釋放量呈“正偏態(tài)分布”。

      圖1 等值比的頻數(shù)分布直方圖 圖2 氧化氮釋放量的頻數(shù)分布直方圖

      3 變量變換,為回歸建模做準(zhǔn)備工作

      3.1 對(duì)“燃油種類(fuel)”這個(gè)6值名義自變量進(jìn)行啞變量變換[2]

      選擇出現(xiàn)頻數(shù)最多的水平“Ethanol”為“基準(zhǔn)”,產(chǎn)生5個(gè)啞變量:g1到g5。實(shí)現(xiàn)此任務(wù)的SAS程序如下:

      data a1;

      set sashelp.gas;

      g1=0;g2=0;g3=0;g4=0;g5=0;

      if fuel=' 82rongas' then g1=1;

      else if fuel=' 94%Eth' then g2=1;

      else if fuel=' Gasohol' then g3=1;

      else if fuel=' Indolene' then g4=1;

      else if fuel=' Methanol' then g5=1;

      run;

      g1到g5分別代表:“是否為82rongas燃油”“是否為94%Eth燃油”“是否為Gasohol燃油”“是否為Indolene燃油”和“是否為Methanol燃油”。

      3.2 產(chǎn)生派生變量[3]

      在數(shù)據(jù)集a1基礎(chǔ)上增加由定量自變量派生出來的13個(gè)新變量,產(chǎn)生數(shù)據(jù)集a2。SAS程序如下:

      data a2;

      set a1;

      x1=eqratio**2;x2=eqratio*cpratio;

      x3=cpratio**2;x4=x1*eqratio;

      x5=x3*cpratio;x6=x1*cpratio;

      x7=x3*eqratio;x8=sqrt(eqratio);

      x9=sqrt(cpratio);x10=log(eqratio);

      x11=log(cpratio);x12=exp(eqratio);

      x13=exp(cpratio);

      run;

      【說明】cpratio和eqratio是資料中兩個(gè)原始的定量自變量;x1、x4、x8、x10、x12分別是“eqratio”的平方變換、立方變換、平方根變換、自然對(duì)數(shù)變換和指數(shù)變換的結(jié)果;x3、x5、x9、x11、x13分別是“cpratio”的平方變換、立方變換、平方根變換、自然對(duì)數(shù)變換和指數(shù)變換的結(jié)果;x2是“eqratio”與“cpratio”的交叉乘積項(xiàng);x6是“eqratio”的平方項(xiàng)與“cpratio”的交叉乘積項(xiàng);而x7是“cpratio”的平方項(xiàng)與“eqratio”的交叉乘積項(xiàng)。

      3.3 對(duì)定量因變量進(jìn)行5種變量變換

      在數(shù)據(jù)集a2基礎(chǔ)上同時(shí)增加定量因變量的對(duì)數(shù)變換y1、平方根變換y2、指數(shù)變換y3、倒數(shù)變換y4和Logistic變換y5,產(chǎn)生數(shù)據(jù)集a3。SAS程序如下:

      data a3;

      set a2;

      y1=log(nox);y2=sqrt(nox);y3=exp(nox);

      y4=1/nox;y5=exp(nox)/(1+exp(nox));

      run;

      4 以“啞變量變換”為基礎(chǔ)的回歸建模

      4.1 回歸建模策略概述

      對(duì)一個(gè)“多值名義自變量”采取“啞變量變換”,以其為基礎(chǔ),再分別選取定量因變量(nox)的6種不同“表現(xiàn)”為每次建模的“因變量”,并對(duì)定量自變量在“不做變量變換”和“引入13個(gè)派生變量”且分別在回歸模型中假定“包含截距項(xiàng)”與“不含截距項(xiàng)”的條件下,采取“前進(jìn)法”“后退法”和“逐步法”篩選自變量。

      4.2 定量因變量(nox)的6種不同“表現(xiàn)”

      定量因變量(nox)的6種不同“表現(xiàn)”分別是:①定量因變量(nox),即對(duì)“定量因變量(nox)”不做變量變換;②定量因變量[y1=log(nox)],即對(duì)“定量因變量(nox)”做自然對(duì)數(shù)變換;③定量因變量[y2=SQRT(nox)],即對(duì)“定量因變量(nox)”做平方根變換;④定量因變量[y3=exp(nox)],即對(duì)“定量因變量(nox)”做指數(shù)變換;⑤定量因變量(y4=1/nox),即對(duì)“定量因變量(nox)”做倒數(shù)變換;⑥定量因變量{y5=exp(nox)/[1+exp(nox)]},即對(duì)“定量因變量(nox)”做Logistic變換。

      4.3 在定量因變量(nox)每種“表現(xiàn)”下找出4個(gè)“最優(yōu)回歸模型”

      在定量因變量(nox)每種“表現(xiàn)”且分別在定量自變量“不做變換”與“引入派生變量”的條件下,再在回歸模型中假定“包含截距項(xiàng)”與“不含截距項(xiàng)”時(shí),分別采取“前進(jìn)法”“后退法”和“逐步法”篩選自變量。這實(shí)際上就有“2×2×3=12”個(gè)回歸模型,它們分屬于4種情形:①“定量自變量不做變換”且假定“包含截距項(xiàng)”;②“定量自變量不做變換”且假定“不含截距項(xiàng)”;③“定量自變量做變換”且假定“包含截距項(xiàng)”;④“定量自變量做變換”且假定“不含截距項(xiàng)”。每種情形都涉及3種篩選自變量的方法,最多有3種不同的回歸模型,從中選取一個(gè)擬合最好的回歸模型。

      所以,在每種特定的因變量條件下,就對(duì)應(yīng)著4個(gè)“最優(yōu)回歸模型”;故在因變量的6種條件下,一共有24個(gè)“最優(yōu)回歸模型”。見表1。

      表1 反映24個(gè)多重回歸模型擬合優(yōu)度的計(jì)算結(jié)果

      續(xù)表1:

      第5組模型:對(duì)定量因變量做倒數(shù)變換170.0891 0.0781 0.37187 2.5112 2 有180.58300.5780 0.37923 2.2523 2 無190.8285 0.8199 0.0726513.5416 8 有200.9243 0.9185 0.0732018.7606 12 無第6組模型:對(duì)定量因變量做Logistic變換210.0856 0.0746 0.01436 7.06592 2 有220.9545 0.9525 0.03543 7.00000 7 無230.9539 0.9504 0.0007715.4067 12 有240.9991 0.9990 0.0007616.1852 16 無

      注:第1組模型對(duì)應(yīng)的因變量為“氧化氮釋放量(nox)”;第2組模型對(duì)應(yīng)的因變量為“氧化氮釋放量的自然對(duì)數(shù)變換結(jié)果(y1)”;第3組模型對(duì)應(yīng)的因變量為“氧化氮釋放量的平方根變換結(jié)果(y2)”;第4組模型對(duì)應(yīng)的因變量為“氧化氮釋放量的指數(shù)變換結(jié)果(y3)”;第5組模型對(duì)應(yīng)的因變量為“氧化氮釋放量的倒數(shù)變換結(jié)果(y4)”;第6組模型對(duì)應(yīng)的因變量為“氧化氮釋放量的Logistic變換結(jié)果(y5)”

      5 擬合優(yōu)度評(píng)價(jià)標(biāo)準(zhǔn)與評(píng)價(jià)結(jié)果

      5.1 回歸模型擬合優(yōu)度高低的評(píng)價(jià)標(biāo)準(zhǔn)

      一般來說,當(dāng)模型中包含的自變量數(shù)目相等且都包含截距項(xiàng)或都不含截距項(xiàng)時(shí),R2值越大越好;此時(shí),Cp值越接近自變量個(gè)數(shù)越好;當(dāng)保留在模型中的自變量個(gè)數(shù)相差較多時(shí),在前述判斷方法基礎(chǔ)上,再加上“均方誤差”(越小越好)和“調(diào)整R2”(越大越好),則更好。

      5.2 基于“啞變量變換與其他變量變換”回歸建模效果的評(píng)價(jià)

      5.2.1 第1組模型的擬合效果評(píng)價(jià)

      第1組模型對(duì)應(yīng)的因變量為“氧化氮釋放量”,模型1與模型2都是基于“5個(gè)啞變量加上2個(gè)定量自變量”進(jìn)行變量篩選,其區(qū)別在于模型1假定包含截距項(xiàng),而模型2假定不含截距項(xiàng);模型3與模型4都是基于“5個(gè)啞變量加上2個(gè)定量自變量及其13個(gè)派生變量”進(jìn)行變量篩選,其區(qū)別在于模型3假定包含截距項(xiàng),而模型4假定不含截距項(xiàng)。由表1中前4行結(jié)果可知:模型2優(yōu)于模型1、模型4優(yōu)于模型3,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型4優(yōu)于模型2,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

      5.2.2 第2組模型的擬合效果評(píng)價(jià)

      第2組模型對(duì)應(yīng)的因變量為“氧化氮釋放量的自然對(duì)數(shù)變換結(jié)果(y1)”,模型5與模型6都是基于“5個(gè)啞變量加上2個(gè)定量自變量”進(jìn)行變量篩選,其區(qū)別在于模型5假定包含截距項(xiàng),而模型6假定不包含截距項(xiàng);模型7與模型8都是基于“5個(gè)啞變量加上2個(gè)定量自變量及其13個(gè)派生變量”進(jìn)行變量篩選,其區(qū)別在于模型7假定包含截距項(xiàng),而模型8假定不包含截距項(xiàng)。由表1中第5~8行結(jié)果可知:模型6優(yōu)于模型5、模型8優(yōu)于模型7,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型8優(yōu)于模型6,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

      5.2.3 第3組模型的擬合效果評(píng)價(jià)

      第3組模型對(duì)應(yīng)的因變量為“氧化氮釋放量的平方根變換結(jié)果(y2)”,模型9與模型10都是基于“5個(gè)啞變量加上2個(gè)定量自變量”進(jìn)行變量篩選,其區(qū)別在于模型9假定包含截距項(xiàng),而模型10假定不包含截距項(xiàng);模型11與模型12都是基于“5個(gè)啞變量加上2個(gè)定量自變量及其13個(gè)派生變量”進(jìn)行變量篩選,其區(qū)別在于模型11假定包含截距項(xiàng),而模型12假定不包含截距項(xiàng)。由表1中第9~12行結(jié)果可知:模型10優(yōu)于模型9、模型12優(yōu)于模型11,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型12優(yōu)于模型10,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

      5.2.4 第4組模型的擬合效果評(píng)價(jià)

      第4組模型對(duì)應(yīng)的因變量為“氧化氮釋放量的指數(shù)變換結(jié)果(y3)”,模型13與模型14都是基于“5個(gè)啞變量加上2個(gè)定量自變量”進(jìn)行變量篩選,其區(qū)別在于模型13假定包含截距項(xiàng),而模型14假定不包含截距項(xiàng);模型15與模型16都是基于“5個(gè)啞變量加上2個(gè)定量自變量及其13個(gè)派生變量”進(jìn)行變量篩選,其區(qū)別在于模型15假定包含截距項(xiàng),而模型16假定不包含截距項(xiàng)。由表1中第13~16行結(jié)果可知:模型14優(yōu)于模型13、模型16優(yōu)于模型15,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型16優(yōu)于模型14,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

      5.2.5 第5組模型的擬合效果評(píng)價(jià)

      第5組模型對(duì)應(yīng)的因變量為“氧化氮釋放量的倒數(shù)變換結(jié)果(y4)”,模型17與模型18都是僅基于“3個(gè)定量自變量”進(jìn)行變量篩選,其區(qū)別在于模型17假定包含截距項(xiàng),而模型18假定不包含截距項(xiàng);模型19與模型20都是基于“3個(gè)定量自變量及其18個(gè)派生變量”進(jìn)行變量篩選,其區(qū)別在于模型19假定包含截距項(xiàng),而模型20假定不包含截距項(xiàng)。由表1中第17~20行結(jié)果可知:模型18優(yōu)于模型17、模型20優(yōu)于模型19,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型20優(yōu)于模型18,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

      5.2.6 第6組模型的擬合效果評(píng)價(jià)

      第6組模型對(duì)應(yīng)的因變量為“氧化氮釋放量的Logistic變換結(jié)果(y5)”,模型21與模型22都是僅基于3個(gè)定量自變量進(jìn)行變量篩選,其區(qū)別在于模型21假定包含截距項(xiàng),而模型22假定不包含截距項(xiàng);模型23與模型24都是基于3個(gè)定量自變量及其18個(gè)派生變量進(jìn)行變量篩選,其區(qū)別在于模型23假定包含截距項(xiàng),而模型24假定不包含截距項(xiàng)。由表1中第21~24行結(jié)果可知:模型22優(yōu)于模型21、模型24優(yōu)于模型23,即在相同情況下,假定不含截距項(xiàng)的擬合結(jié)果優(yōu)于假定包含截距項(xiàng)的擬合結(jié)果;進(jìn)一步比較可知:模型24優(yōu)于模型22,即引入派生變量的擬合結(jié)果優(yōu)于不引入派生變量的擬合結(jié)果。

      5.2.7各組模型中最優(yōu)模型擬合優(yōu)度總評(píng)價(jià)

      從以上的“評(píng)價(jià)結(jié)果”可知:模型4、模型8、模型12、模型16、模型20和模型24分別是從6組模型中挑選出來的“最優(yōu)模型”,現(xiàn)將它們從表1中摘錄出來,以便直觀比較和判斷。見表2。

      表2 各組挑選出來的6個(gè)“最優(yōu)”多重回歸模型擬合優(yōu)度的計(jì)算結(jié)果

      由表2可知:模型24是6個(gè)“最優(yōu)”模型中“最佳”的。該模型的因變量為“氧化氮釋放量(nox)的Logistic變換結(jié)果(y5)”,從全部(5+2+13=20個(gè))自變量中篩選出了16個(gè)具有統(tǒng)計(jì)學(xué)意義的自變量,模型中不含截距項(xiàng)。具體計(jì)算結(jié)果如下:

      方差分析源自由度平方和均方FPr > F模型16126.039047.8774410431.6<0.0001誤差1530.115540.00075515未校正合計(jì)169126.15458

      變量參數(shù)估計(jì)值標(biāo)準(zhǔn)誤差I(lǐng)I 型 SSFPr > Fg10.053670.009990.0217928.86<0.0001g30.060210.008660.0365048.33<0.0001g40.059570.007130.0527569.85<0.0001EqRatio2915.10929665.612980.0144819.18<0.0001CpRatio-932.92081221.155370.0134417.79<0.0001x1-591.67642128.766190.0159421.11<0.0001x2-0.096580.043720.003694.880.0287x329.765427.057010.0134317.79<0.0001x493.2702919.619880.0170722.60<0.0001x5-0.558000.132320.0134317.78<0.0001x60.072000.019400.0104013.770.0003x7-0.002270.001120.003074.070.0454x8-5597.266531310.349450.0137818.25<0.0001x93191.32640756.404990.0134417.80<0.0001x10785.94985188.216330.0131717.44<0.0001x136.991368E-71.657578E-70.0134317.79<0.0001

      輸出以上結(jié)果的“SAS過程步程序”如下:

      /*模型24:R2=0.9991,調(diào)整R2=0.9990,MSE=0.00075515,Cp=16.1852,niv=16,無截距項(xiàng)*/

      proc reg data=a3;

      model y5=g1-g5 eqratio cpratio x1-x13/noint

      selection=backward sls=0.05 r;

      /*模型24*/

      run;

      應(yīng)注意:全部啞變量共有5個(gè)(它們之間不是互相對(duì)立的),采用篩選自變量的方法,保留下來其中的3個(gè)。嚴(yán)格地說,由一個(gè)多值名義自變量產(chǎn)生的全部啞變量應(yīng)當(dāng)同時(shí)被保留在回歸模型中或同時(shí)被排除出回歸模型,但這兩種結(jié)局都存在局限性;而將有關(guān)聯(lián)性的5個(gè)啞變量視為“獨(dú)立”的,根據(jù)假設(shè)檢驗(yàn)結(jié)果保留其中的3個(gè),這個(gè)結(jié)果也存在弊端。如何更妥善地處置“多值名義自變量”,將在本期科研方法專題后續(xù)文章中繼續(xù)討論。

      猜你喜歡
      因變量頻數(shù)名義
      調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
      逆行,以生命的名義
      適應(yīng)性回歸分析(Ⅳ)
      ——與非適應(yīng)性回歸分析的比較
      以二胎的名義,享受生活
      好日子(2018年9期)2018-10-12 09:57:18
      偏最小二乘回歸方法
      中考頻數(shù)分布直方圖題型展示
      學(xué)習(xí)制作頻數(shù)分布直方圖三部曲
      頻數(shù)和頻率
      以創(chuàng)新的名義宣誓發(fā)展
      盜汗病治療藥物性味歸經(jīng)頻數(shù)分析
      寻甸| 商城县| 伊吾县| 聊城市| 黎平县| 武隆县| 会宁县| 松原市| 五大连池市| 枝江市| 建水县| 湾仔区| 沿河| 宽甸| 昭苏县| 西乌| 泾阳县| 仁布县| 宝鸡市| 定日县| 香格里拉县| 德令哈市| 浪卡子县| 海盐县| 盖州市| 甘孜| 马鞍山市| 万全县| 息烽县| 雅江县| 江安县| 南漳县| 肥乡县| 玛沁县| 东平县| 久治县| 正镶白旗| 徐州市| 冀州市| 菏泽市| 横山县|