徐靜安
技術(shù)講壇
第二講試驗(yàn)研究中的優(yōu)選法簡介和討論
徐靜安
優(yōu)選法涵蓋領(lǐng)域廣泛,包括優(yōu)化試驗(yàn)、優(yōu)化計(jì)算、優(yōu)化設(shè)計(jì)、優(yōu)化控制等,本文側(cè)重優(yōu)化試驗(yàn)討論。將試驗(yàn)研究對(duì)象看作一個(gè)總體,根據(jù)已有條件和需求,可以進(jìn)行機(jī)理性、經(jīng)驗(yàn)性、統(tǒng)計(jì)性研究。本文著重于統(tǒng)計(jì)性實(shí)驗(yàn)研究。直白地表述:在研究對(duì)象的總體范圍內(nèi),選擇少量有代表性的實(shí)驗(yàn)點(diǎn)樣本,對(duì)總體的響應(yīng)最優(yōu)值(較優(yōu)值)及其規(guī)律統(tǒng)計(jì)模型作出有效的推斷預(yù)報(bào)。如何選擇實(shí)驗(yàn)樣本點(diǎn)構(gòu)成實(shí)驗(yàn)方案,就是優(yōu)化試驗(yàn)方法的內(nèi)容。
優(yōu)化試驗(yàn)方法一般分為兩大類:間接分析法和直接分析法。間接分析法就是預(yù)先設(shè)計(jì)實(shí)驗(yàn)方案,進(jìn)行多個(gè)樣本點(diǎn)實(shí)驗(yàn),用回歸分析等數(shù)據(jù)處理方法,構(gòu)造一類函數(shù)來逼近這些實(shí)驗(yàn)值,再用優(yōu)化方法計(jì)算函數(shù)極值,進(jìn)行統(tǒng)計(jì)分析并通過實(shí)驗(yàn)進(jìn)行驗(yàn)證。直接優(yōu)化法是在初始實(shí)驗(yàn)基礎(chǔ)上按一定模式(規(guī)則),根據(jù)前面實(shí)驗(yàn)點(diǎn)的結(jié)果,比較分析推算優(yōu)化方向和下一個(gè)實(shí)驗(yàn)點(diǎn),而不求出具體的統(tǒng)計(jì)模型。該方法是逐步逼近最優(yōu)點(diǎn)的方法,又稱“循序試驗(yàn)法”、“序貫試驗(yàn)法”,在最優(yōu)化理論中頗受重視,可處理沒有數(shù)值解析的表達(dá)式,也可以求復(fù)雜函數(shù)的最優(yōu)解。
一般來說,實(shí)驗(yàn)室小試、模式由于實(shí)驗(yàn)條件處于專業(yè)可控范圍內(nèi),考察的變量因素范圍可適當(dāng)寬泛,所以都采用間接分析法。而對(duì)于中試、示范裝置、工程化裝置,一則研究對(duì)象復(fù)雜,二則為避免惡劣工藝條件組合產(chǎn)生安全技術(shù)風(fēng)險(xiǎn),可從可用的初始條件起步,按一定模式進(jìn)行小步長序貫尋優(yōu)試驗(yàn)。
(中點(diǎn))平分法適用于單調(diào)函數(shù)。美國Kiefer于1953年提出的黃金分割法(0.618法)及分?jǐn)?shù)法僅適用于單峰函數(shù)。分?jǐn)?shù)法利用菲波那契數(shù)列,類同于0.618法進(jìn)行操作。該類方法后一個(gè)實(shí)驗(yàn)點(diǎn)的安排需依賴前面實(shí)驗(yàn)結(jié)果的對(duì)比,然后順序進(jìn)行。
在實(shí)際實(shí)驗(yàn)研究時(shí),要求對(duì)研究對(duì)象的內(nèi)在規(guī)律——函數(shù)特性作出先驗(yàn)判斷。所以在難以判斷對(duì)象特性時(shí),大都在實(shí)驗(yàn)范圍內(nèi)按等步長安排實(shí)驗(yàn)點(diǎn)。
需要強(qiáng)調(diào)的是,利用單因素試驗(yàn)考察的實(shí)驗(yàn)點(diǎn)(或稱水平數(shù))L≥5時(shí),用二次多項(xiàng)式、三次多項(xiàng)式進(jìn)行擬合,可得近似最優(yōu)點(diǎn)。
在生物學(xué)試驗(yàn)中,涉及到環(huán)境條件(光照、溫度、水分、通風(fēng)、營養(yǎng)等)中難以嚴(yán)格控制的非變量因素,如田間試驗(yàn)土壤基礎(chǔ)肥力的差異等。為了降低試驗(yàn)誤差,與一般的理化實(shí)驗(yàn)不同,在隨機(jī)、重復(fù)的基礎(chǔ)上增加“局部控制”的“區(qū)組”,使考察處理的外部環(huán)境更為接近。按這樣的概念構(gòu)成的試驗(yàn)方案中行數(shù)、列數(shù)二者相等,該正方形試驗(yàn)方案又用拉丁字母表示,故稱為拉丁方設(shè)計(jì),具體應(yīng)用時(shí)可查拉丁方設(shè)計(jì)表。表1所示為考察三個(gè)變量因素A、B、C的3×3拉丁方的具體方案。任意兩個(gè)因素的不同水平各搭配一次,比較均衡。
表1 3×3拉丁方設(shè)計(jì)方案
實(shí)驗(yàn)樣本量是行或列水平數(shù)的平方,即N=L2,所以拉丁方設(shè)計(jì)考察的變量及其水平數(shù)不能太多;拉丁方設(shè)計(jì)采用方差分析處理數(shù)據(jù),樣本量也不能太少,否則會(huì)因誤差自由度過小而影響實(shí)驗(yàn)結(jié)果檢驗(yàn)的靈敏度。
拉丁方區(qū)組因素的試驗(yàn)設(shè)計(jì)是最古老的試驗(yàn)設(shè)計(jì)方法,由英國人Fisher R A于20世紀(jì)30年代提出,是由理論研究驅(qū)動(dòng)的技術(shù)創(chuàng)新。拉丁方設(shè)計(jì)廣泛應(yīng)用于農(nóng)業(yè)田間試驗(yàn),并由此開創(chuàng)了試驗(yàn)設(shè)計(jì)這一新的領(lǐng)域,具有里程碑式的意義。
實(shí)際研究對(duì)象影響目標(biāo)響應(yīng)值大都是多個(gè)變量因素。在試驗(yàn)方法中,多因素問題帶來的復(fù)雜性是變量因素間的交互作用和多維空間函數(shù)的多峰性。降維法是將多維問題進(jìn)行簡化的方法,其中坐標(biāo)(因素)輪換法是應(yīng)用較廣泛的方法。對(duì)其他變量先賦值,降維至一維,進(jìn)行單因素考察,找到好點(diǎn),“從好點(diǎn)出發(fā)”依次輪換坐標(biāo)進(jìn)行單因素考察。
圖1為研究對(duì)象的等高線圖,考察因素A、B各包括6個(gè)水平,這在系統(tǒng)研究前是未知的。進(jìn)行降維單因素考察時(shí),假定先賦值A(chǔ)3,對(duì)B進(jìn)行考察,A3B4為好點(diǎn);固定B4輪換考察A,結(jié)果A3B4仍為好點(diǎn),則得出Y=7,完成一輪降維法單因素考察。
圖1 高等線圖
若考察變量數(shù)為M,其水平數(shù)為L,則全面組合試驗(yàn)次數(shù)N=LM,降維法考察一輪實(shí)驗(yàn)點(diǎn)的次數(shù)N'=M*L。但是,供選擇的降維方案有n=L(M-1)種,不同方案得到的結(jié)果是不同的。
該方法簡單明了,符合一般的思維習(xí)慣,每個(gè)因素對(duì)目標(biāo)響應(yīng)值Y的影響均具有可解釋性,因此應(yīng)用廣泛。但是對(duì)于多維復(fù)雜問題,利用一輪降維單因素考察法盡管也可得到“好點(diǎn)”,卻無法考察變量因素間的交互作用,易落入局部優(yōu)化的陷阱。圖1直觀地顯示了方法的局限性,如果隨機(jī)地采用一輪降維單因素考察結(jié)果來描述研究對(duì)象是存在技術(shù)風(fēng)險(xiǎn)的。顯然,不同的降維方案(即對(duì)A不同的賦值)會(huì)產(chǎn)生不同的結(jié)果。目前該方法大都用于研發(fā)工作前期的探索試驗(yàn),為主體優(yōu)化試驗(yàn)作技術(shù)準(zhǔn)備。
模式法就是按照規(guī)定的一些模式進(jìn)行實(shí)驗(yàn),比對(duì)計(jì)算后尋得優(yōu)化方向,探索前進(jìn)。在諸多模式法中,正規(guī)單純形模式法較有代表性。
單純形概念由美國數(shù)學(xué)家丹齊克G B于1947年提出,單純形優(yōu)化法由Spendly于1962年提出。單純形是指多維空間的一種凸圖形,在幾何構(gòu)圖時(shí)所需頂點(diǎn)數(shù)最少。二維正規(guī)單純形為正三角形,三維的為正四面體,即其頂點(diǎn)數(shù)是圖形的維數(shù)加1。高維的圖形無法幾何描述,而在笛卡爾直角坐標(biāo)系中頂點(diǎn)坐標(biāo)可用代數(shù)方法表述。
圖2為正規(guī)單純形模式方法圖解。選定步長a,以正三角形的三角頂點(diǎn)P0,P1,P2為起始實(shí)驗(yàn)點(diǎn),比較結(jié)果表明P0為最差點(diǎn)。按“差點(diǎn)的對(duì)稱點(diǎn)為好點(diǎn)的方向”的原則,求得P3點(diǎn),構(gòu)成P1,P2,P3組成的新單純形,以此類推,序貫進(jìn)行,直到找到滿意的結(jié)果。
圖2 正規(guī)單純形模式法
該方法概念清晰,在多維空間坐標(biāo)中頂點(diǎn)的坐標(biāo)值可通過計(jì)算公式獲得。適合大規(guī)模生產(chǎn)裝置的工藝優(yōu)化,從現(xiàn)有工藝條件P0出發(fā),控制步長a不致于引起工藝條件的過大波動(dòng),逐步尋優(yōu)。模式法中還包括直角單純形法、矩形調(diào)優(yōu)法及步長加速法等。
1978~1979年,筆者在化工部蘭州化工機(jī)械研究院工作期間,參與廣州氮肥廠重油氣化攻關(guān)工作時(shí),與上?;ぱ芯吭旱耐屎献?,在氣化爐的工藝調(diào)優(yōu)中曾學(xué)習(xí)、探索過該方法。由于現(xiàn)場(chǎng)控制儀表的精度不夠,導(dǎo)致P點(diǎn)值的波動(dòng)過大而影響判斷結(jié)果。
對(duì)于多峰函數(shù),該方法仍有可能落入局部優(yōu)化的陷阱。
根據(jù)優(yōu)選概率,對(duì)多因素考察范圍隨機(jī)選點(diǎn),形成樣本量為N的實(shí)驗(yàn)方案,對(duì)N個(gè)實(shí)驗(yàn)結(jié)果直接對(duì)比,達(dá)到優(yōu)選的目的。
圖3為兩個(gè)變量因素的隨機(jī)點(diǎn)方案。對(duì)變量考察范圍,按實(shí)驗(yàn)可能的控制精度,等步長地劃分網(wǎng)格,再用隨機(jī)數(shù)形成實(shí)驗(yàn)方案。根據(jù)期望獲得的“好點(diǎn)”概率,可以計(jì)算出需要的實(shí)驗(yàn)點(diǎn)樣本量N。
圖3 統(tǒng)計(jì)實(shí)驗(yàn)法方案
該方法對(duì)目標(biāo)函數(shù)沒有過多要求,可以是單峰,也可以是多峰,在多因素時(shí)具有相對(duì)優(yōu)勢(shì)。隨機(jī)試驗(yàn)法在文獻(xiàn)中被稱為蒙特卡洛法,于20世紀(jì)40年代由烏拉姆與馮·諾依曼提出,可將復(fù)雜對(duì)象的分析問題轉(zhuǎn)化為統(tǒng)計(jì)模擬問題。
由于試驗(yàn)設(shè)計(jì)的發(fā)展,用數(shù)論方法找到的偽隨機(jī)數(shù)比蒙特卡洛法中的隨機(jī)數(shù)更均勻,所以不作進(jìn)一步介紹。但在多因素隨機(jī)法中,隨機(jī)調(diào)優(yōu)法可用于目標(biāo)函數(shù)復(fù)雜、變量因素不限的優(yōu)化問題,且因素越多該方法越有優(yōu)勢(shì),應(yīng)予以關(guān)注。
隨機(jī)數(shù)的產(chǎn)生可借助MATLAB軟件中的Rand函數(shù)。在實(shí)驗(yàn)研究統(tǒng)計(jì)模型預(yù)報(bào)功能時(shí),可調(diào)用Rand函數(shù)在考察范圍內(nèi)產(chǎn)生隨機(jī)化的驗(yàn)證點(diǎn)集。
在試驗(yàn)設(shè)計(jì)方法中,除了廣義的“序貫試驗(yàn)法”外,另辟專門的序貫設(shè)計(jì)法。此法的特點(diǎn)是在研究決策問題(統(tǒng)計(jì)推斷或選擇)時(shí),不預(yù)先固定實(shí)驗(yàn)樣本量,而是逐次取樣安排實(shí)驗(yàn),直到樣本提供足夠的信息,能正確作出決策為止。也就是說實(shí)驗(yàn)方案的樣本量是隨機(jī)的,逐點(diǎn)利用前次獲得的信息決定下次的實(shí)驗(yàn),樣本是一個(gè)一個(gè)逐次得到的序貫樣本。
1947年,Wald A的奠基性著作《Sequetial analysis》出版以來,序貫分析研究廣泛,被認(rèn)為是對(duì)統(tǒng)計(jì)學(xué)發(fā)展史的重大貢獻(xiàn)。
序貫法有兩個(gè)要素:停止法則與判別法則。停止法則告訴我們?cè)趯?duì)總體進(jìn)行逐次抽樣實(shí)驗(yàn)過程中何時(shí)停止;判別法則根據(jù)停止時(shí)得到的序貫樣本實(shí)驗(yàn)數(shù)據(jù),對(duì)總體作出推斷或選擇(接受或拒絕一個(gè)假設(shè)、估計(jì)參數(shù)等)。
早在1943~1945年,Wald A在序貫分析中提出序貫概率比檢驗(yàn)SPRT,為適應(yīng)美國二次大戰(zhàn)中軍火生產(chǎn)的質(zhì)量控制,對(duì)經(jīng)典檢驗(yàn)進(jìn)行了重大改進(jìn)。經(jīng)典檢驗(yàn)是:某統(tǒng)計(jì)量>臨界值,拒絕假設(shè);某統(tǒng)計(jì)量<臨界值,接受假設(shè)。改進(jìn)的基本思想是當(dāng)統(tǒng)計(jì)量不太大也不太小時(shí),不急于下結(jié)論,而再抽樣實(shí)驗(yàn)一次,采用序貫樣本的方法,直到統(tǒng)計(jì)量足以下結(jié)論為止。推而廣之,當(dāng)同時(shí)檢驗(yàn)幾個(gè)統(tǒng)計(jì)量,部分統(tǒng)計(jì)量不大不小而不能全部通過時(shí),亦可采用該方法。計(jì)算結(jié)果證明,在相同的犯錯(cuò)誤概率α下,相對(duì)于固定樣本量方案,SPRT所需平均序貫樣本量最小,即效率較高。
對(duì)實(shí)驗(yàn)研究可能的競(jìng)爭(zhēng)性模型(理論模型、經(jīng)驗(yàn)?zāi)P汀⒔y(tǒng)計(jì)模型)進(jìn)行篩選,是我們感興趣的問題。序貫設(shè)計(jì)過程為:(1)根據(jù)模型待定參數(shù)先在考察范圍內(nèi)隨機(jī)進(jìn)行相應(yīng)實(shí)驗(yàn)點(diǎn)(待定參數(shù)個(gè)數(shù)+1)的初始預(yù)實(shí)驗(yàn),求得模型初始參數(shù);(2)用最優(yōu)化方法求判別式Δmax時(shí)的下一個(gè)實(shí)驗(yàn)點(diǎn);(3)實(shí)驗(yàn)并得到響應(yīng)值Y進(jìn)行判別,依此進(jìn)行序貫分析直到滿足預(yù)定的精度。
筆者認(rèn)為可對(duì)序貫設(shè)計(jì)法的選優(yōu)思路作進(jìn)一步引申和改進(jìn),將初始預(yù)實(shí)驗(yàn)的隨機(jī)點(diǎn)集改為更有效率的較小樣本量的均勻設(shè)計(jì)(創(chuàng)立序貫法時(shí)尚無均勻設(shè)計(jì)),求得模型參數(shù)及相應(yīng)統(tǒng)計(jì)量;由于樣本量較小及實(shí)驗(yàn)誤差等的影響,模型預(yù)報(bào)精度及統(tǒng)計(jì)量不能滿足時(shí),引入SPRT概念,再行抽樣進(jìn)行下一個(gè)實(shí)驗(yàn)(對(duì)模型進(jìn)行學(xué)習(xí)、修整),直到滿足預(yù)定的精度,作相應(yīng)的統(tǒng)計(jì)推斷并進(jìn)行驗(yàn)證。探索驅(qū)動(dòng)了新方法的萌芽。從理論上分析,先驗(yàn)地安排固定的較大樣本量時(shí)存在實(shí)驗(yàn)點(diǎn)富余的可能性。把均勻設(shè)計(jì)和序貫分析相耦合的設(shè)計(jì)方法效率更高,姑且稱之為序貫均勻設(shè)計(jì)方法,筆者和同仁已在多個(gè)項(xiàng)目中成功應(yīng)用。
二次大戰(zhàn)后,拉丁方設(shè)計(jì)基本技術(shù)引入日本,以田口玄一教授為首的研究人員于1949年起開發(fā)了各種正交試驗(yàn)設(shè)計(jì),1957年進(jìn)一步開發(fā)了信噪比S/N設(shè)計(jì)和三次設(shè)計(jì)等,這些設(shè)計(jì)方法成為質(zhì)量管理的重要工具,是當(dāng)年日本“質(zhì)量立國”戰(zhàn)略的技術(shù)基礎(chǔ),也是試驗(yàn)設(shè)計(jì)領(lǐng)域發(fā)展的第二座里程碑。正交實(shí)驗(yàn)設(shè)計(jì)是由市場(chǎng)驅(qū)動(dòng)的創(chuàng)新。
正交試驗(yàn)設(shè)計(jì)是利用數(shù)理統(tǒng)計(jì)學(xué)觀點(diǎn),應(yīng)用正交性原理,在研究考察范圍內(nèi)選擇一定樣本量的具有代表性的實(shí)驗(yàn)點(diǎn),構(gòu)成正交表的一種設(shè)計(jì)方法。
圖4為M=3,三個(gè)因素A,B,C的水平L=3的正交試驗(yàn)實(shí)驗(yàn)點(diǎn)分布。全面組合實(shí)驗(yàn)次數(shù)N=LM=27,正交試驗(yàn)次數(shù)N=L2=9,均為具有代表性的實(shí)驗(yàn)點(diǎn)。選用L9(34)正交表(見表2)。在考察范圍內(nèi)實(shí)驗(yàn)點(diǎn)布點(diǎn)均勻能獲得更多信息,每兩個(gè)因素之間是L2的全面組合試驗(yàn)。
圖4 正交試驗(yàn)試驗(yàn)點(diǎn)分布
表2 L9(34)表的具體方案
正交試驗(yàn)設(shè)計(jì)具有“均衡分散、整齊可比”的特點(diǎn),可以得到優(yōu)化的ABC組合條件。表格化的設(shè)計(jì)方案、程序化的方差分析、直觀化的結(jié)果顯示,受到不同專業(yè)研究人員的歡迎。
表2是L9(34)表的具體方案,A,B,C分別安排在1,2,3列。每張正交表都有相對(duì)應(yīng)的兩列間交互作用表,供使用時(shí)進(jìn)一步的表頭設(shè)計(jì)。L9(34)表為考察4個(gè)變量因素、3水平的試驗(yàn)設(shè)計(jì)表,使用該表時(shí)存在交互作用和主效應(yīng)間的混雜現(xiàn)象。
從表3可見,L9(34)表安排2個(gè)因素,交互作用不混雜,但此時(shí)A,B是全組合試驗(yàn),沒有正交試驗(yàn)的特色;安排3個(gè)因素可節(jié)省實(shí)驗(yàn)工作量,但交互作用對(duì)主效應(yīng)A,B,C部分混雜;安排4個(gè)因素可大大節(jié)省實(shí)驗(yàn)量,但交互作用全面混雜。概括地說,如有先驗(yàn)的經(jīng)驗(yàn)判斷或者抓主要矛盾(即僅求取較優(yōu)工藝條件),則那些交互作用可以忽略。正交試驗(yàn)設(shè)計(jì)正是忽略了交互作用的考察,才“節(jié)省”了實(shí)驗(yàn)次數(shù),這是正交設(shè)計(jì)的不足。
表3 L9(34)表安排不同因素?cái)?shù)的具體方案
此外,正交設(shè)計(jì)樣本量N=L2甚至更大,對(duì)于變量考察范圍較大,水平數(shù)大于5的多水平場(chǎng)合,實(shí)驗(yàn)量較大。而硬性地將水平數(shù)壓縮為2,3時(shí),用大步長離散網(wǎng)格來篩選優(yōu)化點(diǎn),存在較優(yōu)條件漏網(wǎng)的風(fēng)險(xiǎn)。
由此可見,正交試驗(yàn)設(shè)計(jì)比較適用于多因素、小范圍且對(duì)因素間交互作用有所了解的研究對(duì)象,尤其是從現(xiàn)有工藝出發(fā),進(jìn)行小范圍調(diào)優(yōu)及質(zhì)量控制研究具有相對(duì)優(yōu)勢(shì)。
筆者在蘭州化工部化工機(jī)械研究院工作期間,于1980年7月、1988年8月以《正交試驗(yàn)法》為教材,于1984年7月以《技術(shù)數(shù)理統(tǒng)計(jì)方法》為教材,三次舉辦培訓(xùn)班主講并推廣正交試驗(yàn)法。正交設(shè)計(jì)法還包括正交表并列設(shè)計(jì)(混合水平)、擬因子設(shè)計(jì)、部分追加法、裂區(qū)法等。鑒于當(dāng)前已有更為先進(jìn)的均勻設(shè)計(jì)法,不再進(jìn)一步展開。
上述正交試驗(yàn)設(shè)計(jì)通過極差分析、方差分析得到較優(yōu)的條件組合,但不能通過統(tǒng)計(jì)模型對(duì)離散水平之間可能的優(yōu)化組合作出可靠的預(yù)報(bào)和對(duì)交互作用進(jìn)行全面考察。數(shù)理統(tǒng)計(jì)求取統(tǒng)計(jì)模型一般應(yīng)用最小二乘原理,利用回歸分析建立變量和響應(yīng)的統(tǒng)計(jì)方程?;貧w分析和正交試驗(yàn)設(shè)計(jì)是互相獨(dú)立的應(yīng)用數(shù)學(xué)分支,但二者耦合構(gòu)成回歸正交試驗(yàn)設(shè)計(jì)。解決局限、不足驅(qū)動(dòng)了新的方法產(chǎn)生。
回歸正交設(shè)計(jì)在二水平正交試驗(yàn)點(diǎn)基礎(chǔ)上,擴(kuò)充增加星號(hào)試驗(yàn)點(diǎn)和零號(hào)試驗(yàn)點(diǎn),構(gòu)成試驗(yàn)設(shè)計(jì)方案。試驗(yàn)點(diǎn)分布見圖5、圖6,變量因素水平需增添為L=5,增加了實(shí)驗(yàn)樣本量。如前述三因素案例,構(gòu)筑三元二次回歸正交設(shè)計(jì)的方案實(shí)驗(yàn)次數(shù)N=15。
圖5 二元二次回歸正交組合設(shè)計(jì)試驗(yàn)點(diǎn)分布
由于當(dāng)年計(jì)算機(jī)及回歸分析軟件還不普及,回歸正交設(shè)計(jì)利用正交性、通過編碼轉(zhuǎn)換,不需要進(jìn)行矩陣轉(zhuǎn)置、求逆運(yùn)算,僅依靠計(jì)算器進(jìn)行表格式的運(yùn)算即可求得經(jīng)典的全回歸模型,一度受到關(guān)注。
筆者認(rèn)為回歸正交試驗(yàn)設(shè)計(jì)現(xiàn)已失去優(yōu)勢(shì)。從試驗(yàn)設(shè)計(jì)的角度分析,既然研究對(duì)象允許變量水平擴(kuò)充為多水平(L=5),均勻設(shè)計(jì)的效率更高;從數(shù)據(jù)處理的角度分析,軟件化的逐步回歸已取代經(jīng)典的全回歸分析。
由于近年出版的不少教材仍有關(guān)于回歸正交試驗(yàn)設(shè)計(jì)的章節(jié),所以本文也單獨(dú)對(duì)其進(jìn)行討論,讀者僅作科普性了解即可。
圖6 三元二次回歸正交組合設(shè)計(jì)試驗(yàn)點(diǎn)分布
因子設(shè)計(jì)是一種多因子(變量因素)試驗(yàn)設(shè)計(jì)方法,經(jīng)方差分析可以量化各因子及其交互作用對(duì)Y響應(yīng)的效應(yīng)。該方法主要用于對(duì)大量因子(M>5)進(jìn)行研究的初期探索階段,即進(jìn)行因子篩選。
在一項(xiàng)新領(lǐng)域的研究工作中,科研人員的先驗(yàn)經(jīng)驗(yàn)不足,需要考察的因素量M可能很多,但最終可能只有少數(shù)因素對(duì)響應(yīng)值Y有實(shí)際影響(效應(yīng)稀疏性)。利用因子設(shè)計(jì)法經(jīng)初期因子篩選后,對(duì)保留的因子可以進(jìn)行更為細(xì)微的主體優(yōu)化設(shè)計(jì)試驗(yàn)。但是,因子設(shè)計(jì)實(shí)際上是個(gè)全組合實(shí)驗(yàn)方案,包括2M、3M因子設(shè)計(jì),將研究因子范圍粗定為2水平、3水平,2水平為線性簡化。假定考察M=3,因子水平L=3,分別為0,1,2。如圖7所示33因子設(shè)計(jì)布點(diǎn),該設(shè)計(jì)實(shí)際上是N=33=27的全組合實(shí)驗(yàn)。如果M=5,L=3,則N=35=243,僅僅是初期的篩選試驗(yàn),就有這樣大的實(shí)驗(yàn)工作量。所以多因子篩選邏輯上的合理性和實(shí)驗(yàn)上的可操作性有很大矛盾。
筆者認(rèn)為因子設(shè)計(jì)是試驗(yàn)設(shè)計(jì)技術(shù)發(fā)展過程中曾經(jīng)出現(xiàn)過的一種方法,與當(dāng)前的均勻設(shè)計(jì)和逐步回歸設(shè)計(jì)技術(shù)相比,已無特色、優(yōu)勢(shì),僅作瀏覽即可。
圖7 33設(shè)計(jì)的處理組合
英國統(tǒng)計(jì)學(xué)家Box G和Wilso于1951年提出響應(yīng)曲面法(RSM),隨著計(jì)算機(jī)數(shù)據(jù)處理技術(shù)的發(fā)展,能給出2個(gè)變量對(duì)響應(yīng)Y的圖形。便于直觀判別優(yōu)化區(qū)域的RSM,一度得到了關(guān)注。
當(dāng)多因素試驗(yàn)在初期篩選因子后,只留下為數(shù)不多的因子(M=2~4),并搜索到優(yōu)化區(qū)域,再采用RSM進(jìn)行實(shí)驗(yàn)、建模和數(shù)據(jù)圖形處理。一階響應(yīng)曲面是作了線性簡化,二階響應(yīng)曲面為了二次多項(xiàng)式擬合建模需要,對(duì)實(shí)驗(yàn)方案及實(shí)驗(yàn)點(diǎn)作了與回歸正交試驗(yàn)設(shè)計(jì)相類似的技術(shù)處理,將變量水平擴(kuò)展為L=5,見圖5、圖6。
筆者認(rèn)為,凡是能統(tǒng)計(jì)建模的試驗(yàn)設(shè)計(jì),加上圖8所示計(jì)算機(jī)作圖(響應(yīng)曲面、等高線圖)功能,均可達(dá)到RSM的效果。
圖8 二因素的三維響應(yīng)曲面
一階、二階響應(yīng)曲面法,包括1960年推出的二階響應(yīng)曲面的改進(jìn)Box-Behnken設(shè)計(jì),在當(dāng)今試驗(yàn)設(shè)計(jì)中并無系統(tǒng)的優(yōu)勢(shì)。
至于建模后圖形處理和顯示,現(xiàn)有MINITAB等軟件均有較強(qiáng)的功能模塊給予支持。
1978年王元、方開泰用數(shù)論方法(或稱偽蒙特卡洛法)開發(fā)出了均勻設(shè)計(jì)。該方法被成功應(yīng)用于多因素多水平的導(dǎo)彈設(shè)計(jì)問題,并獲得推廣應(yīng)用。均勻設(shè)計(jì)被國際數(shù)理統(tǒng)計(jì)界公認(rèn)為先進(jìn)的試驗(yàn)設(shè)計(jì)方法,是一種穩(wěn)健設(shè)計(jì)方法,也是用于大系統(tǒng)計(jì)算機(jī)仿真試驗(yàn)設(shè)計(jì)的重要方法之一[國外還有“拉丁超立方體抽樣(LHS)”方法]。
正交設(shè)計(jì)的特點(diǎn):“均衡(勻)分散”使實(shí)驗(yàn)點(diǎn)具有代表性;“整齊可比”使實(shí)驗(yàn)數(shù)據(jù)可以直觀進(jìn)行比對(duì)分析。為了保證“整齊可比”,正交設(shè)計(jì)的兩個(gè)因素間必須全面進(jìn)行組合實(shí)驗(yàn),即最低實(shí)驗(yàn)次數(shù)N=L2。而均勻設(shè)計(jì)在實(shí)驗(yàn)考察范圍內(nèi)只考慮均勻分布,數(shù)據(jù)處理依靠回歸分析(逐步回歸),所以實(shí)驗(yàn)點(diǎn)可進(jìn)一步降低,每個(gè)水平只做一次實(shí)驗(yàn),樣本N=L,實(shí)驗(yàn)設(shè)計(jì)方案效率更高;回歸分析也有助于對(duì)變量間的交互作用作深入考察。
對(duì)均勻設(shè)計(jì)的樣本量,數(shù)據(jù)處理系統(tǒng)(DPS)建議N=3M,筆者推薦N=(2~2.5)M,可根據(jù)研究對(duì)象的復(fù)雜程度及實(shí)驗(yàn)誤差的控制水平選用均勻設(shè)計(jì)表。
表4 表及其配套的使用表
表4 表及其配套的使用表
U7*(74)表1 2 3 4 1 1 3 5 7 2 2 6 2 6 3 3 1 7 5 4 4 4 4 4 5 5 7 1 3 6 6 2 6 2 7 7 3 3 1 U7*(74)表的使用表因素?cái)?shù)列號(hào)D 2 1 3 0.158 2 3 2 3 40.213 2
若以本文在不同試驗(yàn)設(shè)計(jì)中列舉的因素M=3、水平L=5為例,進(jìn)行設(shè)計(jì)方案分析,則
全面組合實(shí)驗(yàn)次數(shù)N=LM=53=125;
降維單因素考察一輪實(shí)驗(yàn)次數(shù)N=L×M=5× 3=15,忽略交互作用,陷入局部優(yōu)化;
正交設(shè)計(jì)實(shí)驗(yàn)次數(shù)N=L2=52=25,選用L25(56)正交表,忽略交互作用,效應(yīng)混雜;
正交回歸設(shè)計(jì)實(shí)驗(yàn)次數(shù)N=15,選用三元二次回歸正交設(shè)計(jì);
均勻設(shè)計(jì)在多因素多水平研究問題中,顯示出突出的優(yōu)勢(shì)。
20世紀(jì)80年代,導(dǎo)彈設(shè)計(jì)中有個(gè)項(xiàng)目是5個(gè)變量(M=5),試驗(yàn)水平數(shù)不少于10(L≥10),而實(shí)驗(yàn)總次數(shù)又不能超過50(N≤50)。這是一個(gè)多因素多水平的研究對(duì)象,由于無法采用正交設(shè)計(jì)及其他試驗(yàn)設(shè)計(jì)方法,研究工作面臨困境。
王元、方開泰于1978年受當(dāng)時(shí)的第七機(jī)械工業(yè)部委托,用數(shù)論方法開發(fā)出了新的均勻設(shè)計(jì),實(shí)驗(yàn)量N=31,取得了成功。這是由需求驅(qū)動(dòng)的創(chuàng)新。
20世紀(jì)90年代中后期,筆者曾支持院科研處外請(qǐng)專家來院講授均勻設(shè)計(jì),教材是方開泰著的《均勻設(shè)計(jì)與均勻設(shè)計(jì)表》,該書我保留至今,時(shí)常翻閱。多年來也努力應(yīng)用并推廣均勻設(shè)計(jì)。30多年來,均勻設(shè)計(jì)從軍工系統(tǒng)向民用系統(tǒng)擴(kuò)散、轉(zhuǎn)移,得到迅速發(fā)展和應(yīng)用。均勻設(shè)計(jì)方法受到普遍關(guān)注。隨著試驗(yàn)設(shè)計(jì)和數(shù)據(jù)處理技術(shù)的發(fā)展,均勻設(shè)計(jì)還包含有定性因素的均勻設(shè)計(jì)、混料均勻設(shè)計(jì)、均勻序貫設(shè)計(jì),以及均勻設(shè)計(jì)和其他數(shù)值計(jì)算技術(shù)的耦合優(yōu)化,如UD+Fluet、UD+ASPEN等。均勻設(shè)計(jì)作為當(dāng)代優(yōu)化試驗(yàn)設(shè)計(jì)的主流技術(shù),值得學(xué)習(xí)、應(yīng)用、推廣。
在科學(xué)研究、工農(nóng)業(yè)生產(chǎn)中,混料——配方問題是廣泛涉及的研究對(duì)象?;炝显囼?yàn)中分量組分至少有三種(p≥3),每個(gè)組分χi的質(zhì)量分?jǐn)?shù)總和等于1,即
實(shí)驗(yàn)響應(yīng)值Y僅與xi的占比有關(guān),而與其總量無關(guān)。由于Σχi=1約束條件的存在,和以往試驗(yàn)不同,變量因素——組分xi是不獨(dú)立的,所以試驗(yàn)研究的設(shè)計(jì)方法、數(shù)據(jù)處理技術(shù)均有根本性的差異,因此試驗(yàn)設(shè)計(jì)就包括專門的混料設(shè)計(jì)。
在混料設(shè)計(jì)中,要以單形坐標(biāo)系而不是笛卡爾直角坐標(biāo)系來進(jìn)行描述。單形是指頂點(diǎn)數(shù)與坐標(biāo)空間維數(shù)相等的凸圖形,一般采用正單形,如正三角形、正四面體等。P維單形即P-1單純形,P=3即高為100%(1)的平面正三角形,構(gòu)成三線坐標(biāo)圖。正三角形內(nèi)任意一點(diǎn)R(具體的實(shí)驗(yàn)點(diǎn))都有三個(gè)組成的含量坐標(biāo),且x1+x2+x3=1,如圖9、圖10所示。P=4為正四面體,P≥5時(shí)無直觀圖形,用數(shù)學(xué)描述。
圖9 混料設(shè)計(jì)約束圖
圖10 混料設(shè)計(jì)三線坐標(biāo)圖
Scheffe于1958年在正單形坐標(biāo)體系基礎(chǔ)上提出單純形格子點(diǎn)法,1963年提出單純形質(zhì)心法。Cormell提出了軸設(shè)計(jì)法,并在1990年對(duì)經(jīng)典的混料設(shè)計(jì)作了綜合介紹。MINITAB軟件有相應(yīng)模塊支持單純形質(zhì)心法、單純形格點(diǎn)法、極端頂點(diǎn)設(shè)計(jì)法,只要輸入實(shí)驗(yàn)條件計(jì)算機(jī)即可生成混料設(shè)計(jì)方案。
圖11 單純形設(shè)計(jì)圖
圖11為利用極端頂點(diǎn)設(shè)計(jì)法分析某個(gè)阻燃劑案例的實(shí)驗(yàn)點(diǎn)分布。
在經(jīng)典混料設(shè)計(jì)法應(yīng)用過程中,發(fā)現(xiàn)了新的問題:(1)實(shí)驗(yàn)布點(diǎn)局部密集,點(diǎn)集TP布點(diǎn)不均勻;(2)界面點(diǎn)過多,在無下限約束中,實(shí)驗(yàn)時(shí)某個(gè)組分為零,造成化學(xué)反應(yīng)不發(fā)生或生成另一種產(chǎn)物,非實(shí)驗(yàn)所求。問題驅(qū)動(dòng)創(chuàng)新,王元、方開泰在1978年提出的均勻設(shè)計(jì)基礎(chǔ)上,于1990年提出混料均勻設(shè)計(jì),2000年完善為條件分布法的混料均勻設(shè)計(jì)。DPS軟件中有相應(yīng)模塊支持混料均勻設(shè)計(jì)。
表5為無上下限約束的P=5的混料均勻設(shè)計(jì)表,實(shí)驗(yàn)點(diǎn)組分沒有零值,布點(diǎn)更均勻。
表5 無上下限約束的P=5的混料均勻設(shè)計(jì)表
本文對(duì)講座涉及的試驗(yàn)設(shè)計(jì)方法等作概括介紹,對(duì)主要的現(xiàn)代技術(shù),今后將專題作應(yīng)用性介紹。
最近筆者閱讀了《中國人才》(2015年11期),國外知名職業(yè)人士社交網(wǎng)站Linkedin對(duì)全球超過3.3億用戶的工作經(jīng)歷和技能進(jìn)行了大數(shù)據(jù)分析,公布了2014年最受雇主喜歡、最炙手可熱的25項(xiàng)技能,其中“統(tǒng)計(jì)分析和數(shù)據(jù)挖掘”技能位列榜首。具體到人是“具備IT技術(shù)能力、數(shù)據(jù)統(tǒng)計(jì)能力以及本專業(yè)過硬的復(fù)合型人才”。
腳踏實(shí)地、眼望星空。愿青年科研人員結(jié)合崗位工作,學(xué)習(xí)、應(yīng)用數(shù)理統(tǒng)計(jì)方法、數(shù)字化技術(shù),提高研發(fā)水平和技術(shù)創(chuàng)新能力。
(略)