徐靜安 彭東輝
技術(shù)講壇
第六講均勻設(shè)計(jì)應(yīng)用案例解讀
徐靜安彭東輝
案例取自《正交與試驗(yàn)設(shè)計(jì)》2001版。在專業(yè)知識(shí)指導(dǎo)下,選定考察的變量因子及其范圍,那么如何合理選擇均勻設(shè)計(jì)表?如何安排變量水平?如何正確控制、記錄實(shí)驗(yàn)條件?......如何進(jìn)行中心化變換回歸建模?如何追加、拓展實(shí)驗(yàn)?
自2013年以來(lái),筆者有幸對(duì)吳向陽(yáng)、彭東輝兩位教授帶教的在讀研究生的研究課題以及該專業(yè)組從事的超導(dǎo)基帶表面電化學(xué)精飾研究、甲醇汽油防腐蝕研究有過(guò)長(zhǎng)期的接觸,幾乎每周都有討論、溝通。彭東輝教授及其專業(yè)組成員積極學(xué)習(xí)、應(yīng)用均勻設(shè)計(jì)等數(shù)理統(tǒng)計(jì)知識(shí)及數(shù)據(jù)處理技術(shù),在研發(fā)工作中已經(jīng)取得了初步成績(jī),涉及該案例的若干知識(shí)點(diǎn),也得到了有效的應(yīng)用。為此,我們合作進(jìn)行本案例的解讀。
案例:在某化工的合成工藝中,為了提高產(chǎn)量,試驗(yàn)者選了3個(gè)因素:原料配比(x1),某有機(jī)物的吡啶量(x2)和反應(yīng)時(shí)間(x3),每個(gè)因素均選取了7個(gè)水平:
原料配比(%):1.0,1.4,1.8,2.2,2.6,3.0,3.4
吡啶量(mL):10,13,16,19,23,,25,28
反應(yīng)時(shí)間(h):0.5,I.0,1.5,2.0,2.5,3.0,3.5
選用均勻設(shè)計(jì)U7(73)見(jiàn)表1,實(shí)驗(yàn)結(jié)果見(jiàn)表2。
表1 U7(73)
在作回歸建模時(shí),將自變量中心化。
表2 化工試驗(yàn)方案和相應(yīng)收率
考慮二次模型
運(yùn)用篩選變量的回歸技術(shù),得
統(tǒng)計(jì)模型的方差分析見(jiàn)表3。
y的極大值不難求得,當(dāng)x1=3.4,x3=3.5時(shí),y=91. 87%達(dá)到極大值。在x1=3.4,x2=19,x3=3.5追加了3次試驗(yàn),相應(yīng)的收率分別為91.05%,92.11%,91.53%,其均值91.56%與預(yù)報(bào)值相距很近,因此模型比較符合實(shí)際情形。
變量水平值應(yīng)該按單調(diào)增或單調(diào)減排列。該案例水平值采用單調(diào)增排列,如原料配比%,水平值1.0,1.4,1.8,......3.4。不能隨意地1.0,1.8,1.4,...... 3.4,把1.8作為2水平放在1水平1.0和3水平1.4之間。這樣安排將增加均勻設(shè)計(jì)表的不均勻性D值,影響模型的穩(wěn)定性。
變量水平間可以采用等步長(zhǎng),也可以采用不等步長(zhǎng)。在專業(yè)知識(shí)及探索試驗(yàn)指導(dǎo)下,變化劇烈的區(qū)域步長(zhǎng)小,平穩(wěn)區(qū)域步長(zhǎng)大,對(duì)建模更有利。
表3 化工試驗(yàn)的方差分析表(SAS輸出)
均勻設(shè)計(jì)變量的每個(gè)水平只做一次實(shí)驗(yàn),所以具體實(shí)驗(yàn)時(shí)要如實(shí)記錄實(shí)驗(yàn)時(shí)的水平值。如表2第3號(hào)實(shí)驗(yàn)x3設(shè)計(jì)反應(yīng)時(shí)間為3.0 h,由于種種原因它只要在前后步長(zhǎng)的1/2范圍內(nèi)波動(dòng),就如實(shí)記錄。即實(shí)際操作是3.1 h,記錄并用于統(tǒng)計(jì)建模,反而能減少誤差。這對(duì)反應(yīng)溫度、壓力、微量滴加等難以控制的場(chǎng)合很有實(shí)際應(yīng)用意義。
由于該案例應(yīng)用在20世紀(jì)90年代,均勻設(shè)計(jì)法還處于不斷完善階段。按現(xiàn)在的觀點(diǎn),盡量選用帶*號(hào)的均勻設(shè)計(jì)表。見(jiàn)表4~7。
表4 U7(74)
表5 U7(74)的使用表
因素?cái)?shù)列號(hào)D 2 1 3 0 . 2 3 9 8 3 1 2 3 0 . 3 7 2 1 4 1 2 3 4 0 . 4 7 6 0
每張均勻設(shè)計(jì)表都配有相應(yīng)的使用表。從表4的U7(74)安排考察3個(gè)因素。不均勻性D=0.372 1;表6的(74)考察3個(gè)因素。不均勻性D=0.213 2。我們應(yīng)選用帶*號(hào)、且D≤0.3的均勻設(shè)計(jì)表。
表6?。?4)
表6?。?4)
1 2 3 4 1 1 3 5 7 2 2 6 2 6 3 3 1 7 5 4 4 4 4 4 5 5 7 1 3 6 6 2 6 2 7 7 5 3 1
表7 (74)的使用表
表7?。?4)的使用表
因素?cái)?shù)列號(hào)D 2 1 3 0 . 1 5 8 2 3 1 2 3 0 . 2 1 3 2
在試驗(yàn)設(shè)計(jì)時(shí),需考察的變量因子相對(duì)剛性,而水平數(shù)通過(guò)改變間隔步長(zhǎng)則相對(duì)彈性。由于受變量范圍及儀表控制精度限制,各變量水平數(shù)不同的混合均勻設(shè)計(jì),另行討論。
本文案例是變量等水平的案例。因?yàn)榫鶆蛟O(shè)計(jì)的變量水平數(shù)決定了實(shí)驗(yàn)次數(shù),針對(duì)案例考察了3個(gè)變量可供選擇的均勻設(shè)計(jì)方案,有(64)表、(74)表以及(85)表等,表8~9為(85)及其使用表。
筆者推廣應(yīng)用的體會(huì):
(1)如果新的研究領(lǐng)域、新的實(shí)驗(yàn)平臺(tái)、選試驗(yàn)次數(shù)大一些的均勻表,不致于某一次實(shí)驗(yàn)誤差,對(duì)統(tǒng)計(jì)建模影響的太大;
(2)做過(guò)單因素考察的探索實(shí)驗(yàn),可選用小一些的均勻表;
(3)本文案例考察變量數(shù)m=3,用二次多項(xiàng)式擬合建模:
表8?。?5)
表8 (85)
1 2 3 4 5 1 1 2 4 7 8 2 2 4 8 5 7 3 3 6 3 3 6 4 4 8 7 1 5 5 5 1 2 8 4 6 6 3 6 6 3 7 7 5 1 4 2 8 8 7 5 2 1
表9?。?5)的使用表
表9?。?5)的使用表
因素?cái)?shù)列號(hào)D 2 1 3 0 . 1 4 4 5 3 1 3 4 0 . 2 0 0 0 4 1 2 3 5 0 . 2 7 0 9
回歸方程可能形成9項(xiàng)變量,一般估計(jì)通過(guò)逐步回歸有1/3~1/2顯著變量項(xiàng)進(jìn)入模型,即模型顯著變量項(xiàng)可能占有自由度的3~5。大家知道,F(xiàn)檢驗(yàn)誤差自由度為1是不敏感的,希望誤差自由度≥2~3。這樣就要求選用的均勻設(shè)計(jì)表有5~8個(gè)自由度。而均勻設(shè)計(jì)表的自由度是f=實(shí)驗(yàn)次數(shù)N-1。所以要選用實(shí)驗(yàn)次數(shù)大一些的均勻表。綜上分析,從應(yīng)用角度建議選擇均勻表實(shí)驗(yàn)次數(shù)N=2~2.5m。
由于化工實(shí)驗(yàn)可能存在時(shí)間周期長(zhǎng),隨著時(shí)間延續(xù),環(huán)境溫度、濕度升高或降低;高壓氣體鋼瓶使用中氣體含H2O量增加;實(shí)驗(yàn)原料輕度氧化;配制溶液少量沉淀;陳化時(shí)間拉長(zhǎng);菌種有可能退化......。
均勻設(shè)計(jì)表中往往有第一列變量因子水平排列和序號(hào)是一致的,有的表還有最后一列的排列是完全相反的。如本文案例表2,按試驗(yàn)的自然序號(hào)進(jìn)行實(shí)驗(yàn),自然序號(hào)與x1水平序號(hào)相同,上述討論的“隨著時(shí)間延續(xù),環(huán)境溫度、濕度升高或降低;高壓氣體鋼瓶使用中氣體含H2O量增加;實(shí)驗(yàn)原料輕度氧化;配制溶液少量沉淀;陳化時(shí)間拉長(zhǎng);菌種有可能退化......”都會(huì)混雜到x1變量因子中去,因此使分析失真。
表10 (94)
表10 (94)
1 2 3 4 1 1 3 7 9 2 2 6 4 8 3 3 9 1 7 4 4 2 8 6 5 5 5 5 5 6 6 8 2 4 7 7 1 9 3 8 8 4 6 2 9 9 7 3 1
表11 (94)的使用表
表11 (94)的使用表
因素?cái)?shù)列號(hào)D 2 1 3 0 . 1 5 8 2 3 1 2 3 0 . 2 1 3 2
本案例表2以第4號(hào)實(shí)驗(yàn)收率y=81.95%為最高。由于均勻設(shè)計(jì)在研究考察的多維空間范圍內(nèi),代表性地均勻布點(diǎn),一般會(huì)出現(xiàn)接近研究期望的“好點(diǎn)”。再通過(guò)回歸分析處理數(shù)據(jù),尋求優(yōu)化點(diǎn)。如果沒(méi)有出現(xiàn)接近研究期望的“好點(diǎn)”,就要從專業(yè)上重新審查所選變量因子及其范圍的合理性。
均勻設(shè)計(jì)的數(shù)據(jù)處理需要采用回歸分析?;貧w分析時(shí),為什么常常采用二次多項(xiàng)式擬合?如何采用逐步回歸篩選變量?如何評(píng)價(jià)回歸模型統(tǒng)計(jì)上的顯著性?由于篇幅關(guān)系,在此不再展開(kāi),請(qǐng)閱讀本刊2016年第5期刊登的第一講——統(tǒng)計(jì)模型的假定和變量水平的設(shè)定;2016年第8期刊登的第四講——回歸分析中的變量篩選技術(shù)及統(tǒng)計(jì)檢驗(yàn)。
在二次多項(xiàng)式擬合時(shí),一些著作均提出要對(duì)自變量進(jìn)行中心化處理,但在同一本著作的其他案例中沒(méi)有進(jìn)行中心化處理,亦取得較好的統(tǒng)計(jì)建模效果。筆者從應(yīng)用角度理解,在自變量數(shù)據(jù)中心化處理后有利于提高矩陣運(yùn)算的計(jì)算精度,有利于提高統(tǒng)計(jì)模型的預(yù)報(bào)穩(wěn)定性。針對(duì)本文案例,李志剛碩士研究生用DPS軟件進(jìn)行自變量非中心化、中心化處理的對(duì)照計(jì)算分析。
(1)非中心化計(jì)算
計(jì)算用數(shù)據(jù),見(jiàn)表2。
結(jié)果見(jiàn)表12。
表12 非中心化計(jì)算結(jié)果
(2)中心化計(jì)算
計(jì)算用數(shù)據(jù),見(jiàn)表13。
結(jié)果見(jiàn)表14。
上述非中心化,中心化計(jì)算結(jié)果表明,均通過(guò)回歸分析各項(xiàng)統(tǒng)計(jì)檢驗(yàn),具有顯著性意義。也就是說(shuō),對(duì)同一批研究數(shù)據(jù),自變量的非中心化、中心化處理回歸模型的擬合效果都不錯(cuò),甚至非中心化的某些統(tǒng)計(jì)指標(biāo)稍好些。上述中心化變換案例用SAS軟件計(jì)算,本文用DPS軟件計(jì)算,結(jié)果完全一致。
表13 中心化計(jì)算用數(shù)據(jù)
非中心化計(jì)算和中心化計(jì)算的最大差異,一是統(tǒng)計(jì)模型的構(gòu)成,非中心化計(jì)算進(jìn)入模型的交互作用項(xiàng)為x1x2;中心化進(jìn)入模型的交互作用項(xiàng)為x1x3。二是由此引起的最高指標(biāo)時(shí)各個(gè)因素組合及y有明顯不同,非中心化計(jì)算預(yù)報(bào)優(yōu)化值y=86.57%,而中心化計(jì)算預(yù)報(bào)優(yōu)化值y=91.95%。也就是兩種計(jì)算擬合效果均有統(tǒng)計(jì)上顯著意義的基礎(chǔ)上,非中心化計(jì)算可能丟失預(yù)報(bào)更優(yōu)的優(yōu)化點(diǎn)信息,值得引起重視。
從回歸分析計(jì)算角度,及本案例中心化計(jì)算優(yōu)化點(diǎn)預(yù)報(bào)被驗(yàn)證實(shí)驗(yàn)驗(yàn)證說(shuō)明,二次多項(xiàng)式回歸的自變量中心化變換是科學(xué)、合理的。
回歸模型的殘差分析現(xiàn)在受到了重視,限于本文篇幅,可查閱相關(guān)著作,如《六西格碼管理統(tǒng)計(jì)指南——MINITAB使用指導(dǎo)》。
原文案例采用自變量中心化變換進(jìn)行二次多項(xiàng)式統(tǒng)計(jì)建模,模型中沒(méi)有出現(xiàn)x2,即統(tǒng)計(jì)檢驗(yàn)不顯著。從專業(yè)角度,吡啶是許多有機(jī)物的優(yōu)良溶劑,并能溶解許多無(wú)機(jī)鹽類,是一些有機(jī)反應(yīng)的常用溶劑。但其蒸汽與空氣混合物的爆炸極限為1.8%~12.4%(體積)。x2統(tǒng)計(jì)檢驗(yàn)不顯著,沒(méi)有進(jìn)入y=F(x)的統(tǒng)計(jì)模型,并非y和x2無(wú)關(guān),而是表示x2在實(shí)驗(yàn)范圍內(nèi)10~28mL內(nèi),對(duì)收率y的影響不顯著,在實(shí)驗(yàn)范圍內(nèi)可隨機(jī)取值。
對(duì)于工程型研究,對(duì)選定的“好點(diǎn)”或推薦的優(yōu)化點(diǎn),進(jìn)行驗(yàn)證實(shí)驗(yàn)這是很重要的研究環(huán)節(jié)。原文案例自變量中心化變換統(tǒng)計(jì)建模后,推薦預(yù)報(bào)的優(yōu)化工藝組合,經(jīng)過(guò)三次重復(fù)驗(yàn)證實(shí)驗(yàn),平均值為91.56%。驗(yàn)證試驗(yàn)三次比較規(guī)范。
原文案例認(rèn)為:“其均值91.56%與預(yù)報(bào)值相距很近,故模型比較符合實(shí)際情形”。那么預(yù)報(bào)值和驗(yàn)證值二者“相距很近”如何判斷呢?
按數(shù)理統(tǒng)計(jì)要求,驗(yàn)證值在預(yù)報(bào)值±2.5S范圍內(nèi),屬于“相距很近”,正常。也有文章報(bào)道,按不同專業(yè)的要求,驗(yàn)證值和預(yù)報(bào)值相對(duì)偏差控制在約5%。
現(xiàn)在問(wèn)題又轉(zhuǎn)化到如果驗(yàn)證實(shí)驗(yàn)和預(yù)報(bào)值“相距甚遠(yuǎn)”,不符合“相距很近”又怎么辦呢?重新安排實(shí)驗(yàn),廢掉已做的實(shí)驗(yàn),工作量不小??紤]其他模型又缺乏“好點(diǎn)”方向。
相關(guān)資料未作展開(kāi)討論。按筆者推廣應(yīng)用中實(shí)踐體會(huì),模型具有學(xué)習(xí)、修正的潛力。具體操作方法是把驗(yàn)證實(shí)驗(yàn)作為NO.8組實(shí)驗(yàn)和案例(74)7組數(shù)據(jù)一起,進(jìn)行回歸建模,產(chǎn)生新的優(yōu)化預(yù)報(bào)值,再進(jìn)行驗(yàn)證。序貫進(jìn)行,修正2~3次就能得到期望的結(jié)果,如果仍然“相距甚遠(yuǎn)”,則需要從專業(yè)上,實(shí)驗(yàn)平臺(tái)、實(shí)驗(yàn)設(shè)計(jì)及數(shù)據(jù)處理上重新審查研究工作。
由于計(jì)算機(jī)和數(shù)據(jù)處理軟件的普及,對(duì)于預(yù)報(bào)值和驗(yàn)證值“相距很近”,驗(yàn)證通過(guò)的案例,筆者建議把驗(yàn)證實(shí)驗(yàn)作為NO.8組實(shí)驗(yàn),對(duì)原統(tǒng)計(jì)模型作進(jìn)一步完善。DPS軟件計(jì)算用數(shù)據(jù)見(jiàn)表15,結(jié)果見(jiàn)表16。
表15 DPS軟件計(jì)算用數(shù)據(jù)
表16 DPS軟件計(jì)算結(jié)果
計(jì)算結(jié)果表明,統(tǒng)計(jì)模型得到了完善,預(yù)報(bào)指標(biāo)穩(wěn)定。
在一輪試驗(yàn)設(shè)計(jì)和數(shù)據(jù)處理后,有多種情況需要追加試驗(yàn)。本文僅結(jié)合案例解讀進(jìn)行追加實(shí)驗(yàn)的方案。
原文案例通過(guò)對(duì)統(tǒng)計(jì)建模判斷x1、x3優(yōu)化點(diǎn)已在實(shí)驗(yàn)范圍界面,需界面拓展,追加實(shí)驗(yàn),探索更優(yōu)空間。其實(shí)對(duì)多因素統(tǒng)計(jì)模型預(yù)報(bào)最高指標(biāo)時(shí),已給出實(shí)驗(yàn)范圍界面值,由此可作判斷。
原文案例對(duì)x1、x3界面拓展,追加試驗(yàn),建議選用U4(42)均勻表。一則在均勻設(shè)計(jì)不能推薦此類小表,不均勻性D值較大。最主要的問(wèn)題是追加實(shí)驗(yàn)的數(shù)據(jù)不能和原設(shè)計(jì)U7(73)的數(shù)據(jù)一起統(tǒng)計(jì)建模,數(shù)據(jù)利用率不高。
筆者建議在原設(shè)計(jì)的基礎(chǔ)上,引入序貫設(shè)計(jì)概念進(jìn)行界面拓展,追加實(shí)驗(yàn)。結(jié)合本案例,設(shè)計(jì)操作如表17所示。即把x1、x3界面拓展的水平值填入原設(shè)計(jì)表NO.4、NO.7的空白處,仍保持試驗(yàn)設(shè)計(jì)的均勻性。作為追加的實(shí)驗(yàn)條件,所得結(jié)果為NO.8、NO. 9,可以和原U7(73)數(shù)據(jù)一起統(tǒng)計(jì)建模。
表17 設(shè)計(jì)操作數(shù)據(jù)
推廣應(yīng)用的實(shí)踐證明,此拓展方法盡管專著中沒(méi)有展開(kāi)討論,但實(shí)際應(yīng)用效率很高,效果很好。