胡純嚴(yán) ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
多因素設(shè)計有很多種,它們之間的主要區(qū)別在于以下7個方面:①因素的性質(zhì)、個數(shù)及水平數(shù)不盡相同;②全部因素的水平是否需要全面組合(每種組合被稱為一個“試驗點”);③在各試驗點上是否進(jìn)行重復(fù)試驗;④是否存在某些因素的水平是固定的,另一些因素的水平是隨機(jī)選取的;⑤因素在施加時是否存在先后順序之分;⑥從客觀實際角度看,因素之間是否存在自然屬性上的嵌套關(guān)系;⑦各因素對定量結(jié)果的影響是否存在主次之分。具備最后兩點或其中之一的多因素設(shè)計類型被稱為嵌套設(shè)計。嵌套設(shè)計是一種實用的多因素設(shè)計方法,本文將詳細(xì)介紹該設(shè)計的主要特點、設(shè)計方法、定量資料一元方差分析的計算公式以及基于SAS軟件實現(xiàn)定量資料方差分析的方法。
嵌套設(shè)計也被稱為系統(tǒng)分組設(shè)計[1]?!扒短住庇袃煞N含義:其一,因素之間存在包含關(guān)系或嵌套關(guān)系;其二,因素對定量結(jié)果的影響有主次之分[2]。嵌套設(shè)計就是依據(jù)實際問題中因素之間的相互關(guān)系或各因素對結(jié)果的影響情況,以譜系圖的形式呈現(xiàn)出全部因素及其水平。例如,假定A、B、C這三個二水平因素之間存在包含關(guān)系,或者它們對結(jié)果的影響存在主次關(guān)系,可用結(jié)構(gòu)圖描述其關(guān)系。見圖1。因素A(兩個水平分別為A1和A2)為大組因素,因素B(兩個水平分別為B1和B2)為中組因素,因素C(兩個水平分別為C1和C2)為小組因素。
圖1 3個二水平因素的嵌套設(shè)計結(jié)構(gòu)圖Figure 1 Nested design structure diagram of three two-level factors
由圖1可知,嵌套設(shè)計近似一個2×2×2=23析因設(shè)計的架構(gòu)[1-2],但它們之間卻存在諸多不同之處。嵌套設(shè)計的特點如下:①因素之間可能存在自然屬性上的相互包含或嵌套關(guān)系,而不是相互獨立的關(guān)系;或者受試對象具有分組再分組的條件,基于此,嵌套設(shè)計又稱為系統(tǒng)分組設(shè)計[3]。②因素之間可能在對定量結(jié)果的影響上存在主次關(guān)系,而不是平等關(guān)系。③位于大組因素各水平之下的中組因素和小組因素的水平個數(shù)可以保持不變,但也可以變化;甚至水平的具體取值也可改變(參見后文表4),通常,中組或小組因素的水平是從眾多水平中隨機(jī)選取的[4-5]。④由于中組因素的每個水平并非都會出現(xiàn)在大組因素的每個水平之下,同樣,小組因素的每個水平也并非都會出現(xiàn)在中組因素的每個水平之下,因此,在嚴(yán)格的嵌套設(shè)計中,各層級因素之間沒有交互作用[4]。
針對嵌套設(shè)計的第二個和第三個特點,在對取自嵌套設(shè)計的定量資料進(jìn)行方差分析時,分析大組因素時需采用中組因素的均方作為誤差均方;分析中組因素時需采用小組因素的均方作為誤差均方;分析小組因素時需采用模型誤差均方作為誤差均方。
假設(shè)有一個三因素嵌套設(shè)計一元定量資料,試驗因素分別為A、B、C,其水平數(shù)分別為m、n、p。在每種試驗條件下進(jìn)行了r次獨立重復(fù)試驗,那么,總的受試對象數(shù)即為N=mnpr。三因素嵌套設(shè)計定量資料一元方差分析表見表1[4-5]。
表1 三因素嵌套設(shè)計一元定量資料的方差分析表Table 1 Analysis of variance table for the univariate quantitative data in three-factor nested design
表1中各統(tǒng)計量計算公式如下:
在以上各式中,i=1,2,…,m;j=1,2,…,n;k=1,2,…,p;l=1,2,…,r。
3.1.1 試驗因素存在自然屬性上的嵌套關(guān)系
【例1】為研究蘿卜葉子中M物質(zhì)的含量,隨機(jī)采集3個蘿卜(A1、A2、A3),在每個蘿卜上隨機(jī)取幾片葉子(B1、B2、B3),蘿卜葉子中M物質(zhì)含量的測定結(jié)果見表2[2]。顯然,M物質(zhì)的含量,不僅取決于不同的葉子,更主要是與所取自的蘿卜有關(guān),即不同蘿卜之間的變異大于同一個蘿卜上的葉子之間的變異。試分析不同蘿卜、不同葉片中的M物質(zhì)含量的均值之間差異是否有統(tǒng)計學(xué)意義。
表2 蘿卜葉子中M物質(zhì)含量的測定結(jié)果Table 2 Measurement results of the substance M in the radish leaves
【例2】某公司擬分批次從3個供應(yīng)商(S1、S2、S3)處購買某種原材料,已知該原材料的純度在不同批次之間的變異很大,并可能影響產(chǎn)品質(zhì)量。從每個供應(yīng)商處隨機(jī)分別抽取四批原材料,并在每批原材料中分別抽取三件測定其純度。設(shè)計格式和資料見表3[4]。表3中的數(shù)據(jù)Y是“純度值-93”的結(jié)果,目的是簡化手工計算的復(fù)雜程度。試分析不同供應(yīng)商、不同批次所對應(yīng)的原材料純度均值之間差異是否有統(tǒng)計學(xué)意義。
表3 原材料純度的測量結(jié)果(Y=純度值-93)Table 3 Measurement results of raw material purity(Y=purity value-93)
3.1.2 試驗因素對定量結(jié)果的影響存在主次之分
【例3】某項化合物的試驗研究涉及催化劑的種類和溫度(℃)。依據(jù)專業(yè)知識,催化劑對該化合物轉(zhuǎn)化率的影響大于溫度的影響,且不同催化劑條件下所對應(yīng)的溫度不完全相同。設(shè)計格式和資料見表4[2]。試分析不同催化劑(其水平分別為甲、乙、丙)、不同溫度(℃)(其水平分別為70、80、90;55、65、75;90、95、100)所對應(yīng)的轉(zhuǎn)化率均值之間的差別是否有統(tǒng)計學(xué)意義。
表4 某化合物在不同催化劑和不同溫度下的轉(zhuǎn)化率Table 4 Conversion rate of a compound under different catalysts and temperatures
3.1.3 嵌套設(shè)計與析因設(shè)計并存的設(shè)計
【例4】在印刷電路板上手動插入電子元件,以提高組裝操作的速度。研究者設(shè)計了3種裝配夾具(F1、F2、F3)和2個不同的工作場所(L1、L2)。從每個工作場所隨機(jī)抽取4位操作者(O1、O2、O3、O4),他們對每個裝配夾具重復(fù)操作兩次。試驗結(jié)果為裝配時間(秒)。設(shè)計格式和資料見表5[4]。試分析3種夾具、2個工作場所、4位操作者所對應(yīng)的裝配時間均值之間差異是否有統(tǒng)計學(xué)意義。
表5 不同操作者在不同工作場所裝配夾具所用的時間Table 5 Time spent by different operators assembling fixtures in different workplaces
3.2.1 對例1的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS程序說明】數(shù)據(jù)中的“.”代表缺失數(shù)據(jù)。
【SAS輸出結(jié)果及解釋】
由第一部分輸出結(jié)果可知,不同葉片的M物質(zhì)含量的均值之間差異有統(tǒng)計學(xué)意義(F=10.52,P=0.001 3)。
由第二部分輸出結(jié)果可知,3個蘿卜的葉子中M物質(zhì)含量的均值之間差異有統(tǒng)計學(xué)意義(F=8.52,P=0.036 1)。值得注意的是,分析因素A(即大組因素)時,應(yīng)采用因素B(即中組因素)的均方作為誤差均方[6]。
【結(jié)論】不同蘿卜的葉子中M物質(zhì)含量差異有統(tǒng)計學(xué)意義,且同一個蘿卜上不同葉片中的M物質(zhì)含量差異也有統(tǒng)計學(xué)意義。
3.2.2 對例2的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS程序說明】第一個過程步調(diào)用GLM過程進(jìn)行嵌套設(shè)計定量資料一元方差分析,需要用“TEST語句”為大組因素指定誤差項[“b(s)”的含義是因素b嵌套在因素s之下];而第三個過程步調(diào)用NESTED過程,只需將大組因素寫在“class語句”中的第一位,將中組因素寫在“class語句”中的第二位。
【SAS輸出結(jié)果及解釋】
由第一個過程步(GLM過程)的第1部分輸出結(jié)果可知,4批原材料的純度之間差異有統(tǒng)計學(xué)意義(F=2.94,P=0.016 7)。
由第一個過程步(GLM過程)的第2部分輸出結(jié)果可知,3個供應(yīng)商提供的原材料的純度之間差異無統(tǒng)計學(xué)意義(F=0.97,P=0.415 8)。
由第三個過程步(NESTED過程步)輸出結(jié)果可知,3個供應(yīng)商提供的原材料的純度之間差異無統(tǒng)計學(xué)意義(F=0.97,P=0.415 8),4批原材料的純度之間差異有統(tǒng)計學(xué)意義(F=2.94,P=0.016 7)。
【說明】采用GLM過程計算時,需要通過“TEST語句”為大組因素和中組因素分別指定誤差項,因此,解讀輸出結(jié)果時需謹(jǐn)慎;而采用NESTED過程計算時,可直接輸出所需要的正確結(jié)果。
【結(jié)論】原材料的批次不同,產(chǎn)品純度存在差異;但3個供應(yīng)商提供的原材料的純度比較接近。
3.2.3 對例3的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS程序說明】在以上SAS程序中,因素B的3個水平分別用1、2、3表示,而在表4中,因素B的水平值隨著因素A的水平改變而改變。若嚴(yán)格按表4中因素的真實水平呈現(xiàn),SAS程序如下:
后面的內(nèi)容與前一段SAS程序相同,此處從略。
上面兩段SAS程序輸出結(jié)果完全相同。
【SAS輸出結(jié)果及解釋】
由第一部分輸出結(jié)果可知,在不同溫度條件下,化合物轉(zhuǎn)化率的均值之間差異有統(tǒng)計學(xué)意義(F=12.15,P=0.000 7)。
由第二部分輸出結(jié)果可知,在三種催化劑條件下,化合物轉(zhuǎn)化率均值之間差異有統(tǒng)計學(xué)意義(F=14.63,P=0.004 9)。
【結(jié)論】化合物轉(zhuǎn)化率均值會隨著催化劑的改變而變化,也會隨溫度的改變而變化。具體地說,在甲催化劑條件下,轉(zhuǎn)化率普遍較高,并且當(dāng)溫度居中(80℃)時,轉(zhuǎn)化率最高;在乙催化劑條件下,轉(zhuǎn)化率普遍較低,并且溫度最高(75℃)時,轉(zhuǎn)化率最低。
3.2.4 對例4的分析與解答
【分析與解答】所需要的SAS程序如下:
【SAS程序說明】“O(L)”的含義是因素O嵌套在因素L之下;第一個“TEST語句”的含義是用“F*O(L)”作為誤差項分析“因素F”和“交互作用F*L”;第二個“TEST語句”的含義是用“O(L)”作為誤差項分析“因素L”。
【SAS輸出結(jié)果及解釋】
由輸出結(jié)果可知,操作者O(L)對試驗結(jié)果的影響具有統(tǒng)計學(xué)意義(F=5.14,P=0.001 6);交互作用F*O(L)對試驗結(jié)果的影響具有統(tǒng)計學(xué)意義(F=2.35,P=0.030 0);因素F(即夾具種類)對試驗結(jié)果的影響具有統(tǒng)計學(xué)意義(F=7.55,P=0.007 6);因素L(即工作場所)對試驗結(jié)果的影響無統(tǒng)計學(xué)意義(F=0.34,P=0.580 7)。
【結(jié)論】3種夾具對應(yīng)的試驗結(jié)果均值之間差異有統(tǒng)計學(xué)意義,2個工作場所對應(yīng)的試驗結(jié)果均值之間差異無統(tǒng)計學(xué)意義,4位操作者對應(yīng)的試驗結(jié)果均值之間差異有統(tǒng)計學(xué)意義。
對于嵌套設(shè)計而言,從因素分層角度來看,受試對象可以按多個因素進(jìn)行逐層分組;從組間變異度角度來看,大組因素水平組之間的變異大于中組因素水平組之間的變異,中組因素水平組之間的變異大于小組因素水平組之間的變異。
嵌套設(shè)計中一個值得關(guān)注的情形是:位于中層或底層因素的水平個數(shù)以及水平的具體取值是可變的,有時是隨機(jī)選取的。因此,嵌套設(shè)計定量資料的方差分析方法屬于混合效應(yīng)線性模型;若所有因素都是隨機(jī)效應(yīng)因素,則需要采用方差分量模型分析[4,6]。
本文介紹了嵌套設(shè)計的基本概念和設(shè)計特點,總結(jié)出3類嵌套設(shè)計:試驗因素存在自然屬性上的嵌套關(guān)系、試驗因素對定量結(jié)果的影響存在主次之分以及嵌套設(shè)計與析因設(shè)計并存的設(shè)計。基于4個實例,借助SAS軟件實現(xiàn)了嵌套設(shè)計定量資料一元方差分析,并對SAS輸出結(jié)果作出詳細(xì)解讀。