姚應水
(1.皖南醫(yī)學院 公共衛(wèi)生學院/慢性病防制研究所,安徽 蕪湖 241002;2.安徽中醫(yī)藥高等??茖W校臨床醫(yī)學系,安徽 蕪湖 241002)
在中醫(yī)藥科學研究中,統(tǒng)計分析的正確選擇是得到可靠結論的基本保證。不同的統(tǒng)計分析方法有各自的應用條件和適用范圍,實際應用時,必須根據研究目的、資料的性質、設計方案以及樣本含量大小等選擇適當的統(tǒng)計分析方法,以期達到統(tǒng)計分析為科學研究服務的目的[1]。研究者的統(tǒng)計學知識和分析策略對保障科研工作的科學性與嚴謹性具有重要作用。在中醫(yī)藥科學研究中,統(tǒng)計分析方法的選擇可遵循以下的基本原則:(1)研究分析的目的及意義;(2)反應變量是單變量、雙變量還是多變量;(3)欲分析的資料是屬于計量資料、無序分類資料、有序分類資料中的哪種類型;(4)欲分析的資料所屬的設計方案,是完全隨機設計、配對設計、隨機區(qū)組設計、析因設計及其他的設計類型;(5)自變量(影響因素)是一個還是多個;(6)分類變量是幾個水平,即是一組、兩組、多組樣本;(7)欲分析的資料樣本量是否較大;(8)樣本量較小時,判斷資料是否滿足所選用的統(tǒng)計分析方法的應用條件。
該類資料的統(tǒng)計分析步驟為:單變量分析;資料為計量資料;樣本均數與已知總體均數比較;先看樣本量大小,若樣本足夠大,則選用單樣本t/Z 檢驗(樣本均數與總體均數比較的t/Z 檢驗);若樣本較?。╪ < 50),則需要先判斷該資料是否符合正態(tài)分布,若資料符合正態(tài)分布,選用單樣本t檢驗;若不符合正態(tài)分布,則考慮變量變換或者選用非參數檢驗方法,即單樣本與總體中位數比較的Wilcoxon 符號秩和檢驗。樣本均數與已知總體均數比較的分析思路可參見圖1。
圖1 樣本均數與已知總體均數比較的分析思路示意圖
1.2.1 完全隨機設計/成組設計的兩樣本均數比較資料 先判斷資料是否滿足正態(tài)性和方差齊性的條件,若資料符合正態(tài)分布和方差齊性,則選用兩樣本比較的t檢驗;若不滿足正態(tài)性或方差齊性的條件,則考慮變量變換,也可以選用兩樣本比較的Wilcoxon秩和檢驗。
1.2.2 配對設計樣本均數比較資料 需先求差值,判斷差值是否符合正態(tài)分布;若符合正態(tài)分布,則選用配對t檢驗;若不符合正態(tài)分布,則考慮變量變換或者選用Wilcoxon 符號秩和檢驗。兩樣本均數比較的分析思路可參見圖2。
圖2 兩樣本均數/配對樣本均數比較的分析思路示意圖
單變量的多個樣本均數比較,完全隨機設計和隨機區(qū)組設計兩種情況較為常見。
1.3.1 完全隨機設計/成組設計的多個樣本均數比較 若各組樣本服從正態(tài)分布,且方差齊性,則選用完全隨機設計的單因素方差分析(one-way ANOVA)。其檢驗結果若有統(tǒng)計學意義,則還需進行兩兩比較??筛鶕芯磕康脑赟NK-q檢驗、LSD-t檢驗、Dunnett-t檢驗等兩兩比較方法中選擇。若資料不滿足正態(tài)性與方差齊性的條件,則選用Kruskal-Wallis 秩和檢驗。同樣,檢驗結果有統(tǒng)計學意義時,通常需進一步兩兩比較(可參考相關書籍)[2]。
1.3.2 隨機區(qū)組設計的的多個樣本均數比較 該類資料為單變量的比較,但涉及兩個分組因素,一個為處理因素,另一個為區(qū)組因素,也稱作配伍組。如果資料滿足正態(tài)性的條件,則采用隨機區(qū)組設計的雙因素方差分析,如果不滿足上述條件,則采用隨機區(qū)組設計資料的Friedman 秩和檢驗。
1.3.3 其他類型資料的方差分析 主要有析因設計、重復測量資料的方差分析等。析因設計中最簡單的是兩因素兩水平的方差分析,此時觀察兩個因素,每個因素兩個水平,共有2×2 即4 種不同的因素水平組合,要分別計算兩個因素的效應及因素間的交互作用效應。而對于重復測量的資料,由于同一受試對象在不同時點的觀察值之間彼此不獨立,因此,這類資料的方差分析具有一定的特殊性,可進行單變量的方差分析,也可視不同時間點的觀測值為多個反應變量,進行多變量分析(可參考相關書籍)[3-4]。
單變量計量資料多樣本均數比較的分析思路參見圖3。
圖3 多樣本均數比較的分析思路示意圖
(1)完全隨機設計兩樣本率的比較時,首先是考慮樣本含量n和理論頻數T,若n<40 或T <1,選擇Fisher 精確概率法;如果n≥40,T ≥5 時選擇卡方檢驗;如果n≥40,出現1 ≤T <5 的情況,則選擇校正卡方檢驗。
(2)調查設計兩變量關聯(lián)性分析時,分析方法選擇同兩樣本率的比較一樣,不同的是要同時計算列聯(lián)系數,以考察關聯(lián)的密切程度。
(3)配對設計資料兩個率比較時,選擇McNemar 檢驗,變量關聯(lián)性選列聯(lián)系數分析。
2×2 表資料的分析思路參見圖4。
圖4 兩個率比較的分析思路示意圖
R×C 表資料可以分為雙向無序、單向有序、雙向有序屬性相同和雙向有序屬性不同四類。
2.2.1 雙向無序R×C 表資料 R×C 表資料中兩個分類變量皆為無序分類變量時,①若研究目的為多個樣本率(或構成比)的比較,可用行×列表資料的χ2檢驗;②若研究目的為分析兩個無序分類變量間是否存在關聯(lián),宜用行×列表資料χ2的檢驗并計算Pearson 列聯(lián)系數,分析關聯(lián)的密切程度。
2.2.2 單向有序R×C 表資料 單向有序R×C 表資料有兩種形式。
(1)R×C 表資料中的分組變量是有序的(如年齡組),而應變量是無序的(如疾病的類型),其研究目的通常是分析有序分組變量間率或構成比的差別。例如:分析不同年齡組某病患病率的差別,此種單向有序R×C 表資料可用行×列表資料的χ2檢驗進行分析。
(2)R×C 表資料中的分組變量為無序的(如藥物分甲、乙、丙三種),而應變量是有序的(如藥物治療效果是治愈、有效、無效、惡化、死亡的等級),其研究目的為比較不同對比組的有序等級是否有差別。例如:甲、乙、丙三種療法的治療效果比較,此種單向有序R×C 表資料宜用秩轉換的非參數檢驗進行分析,即Kruskal-Wallis 秩和檢驗。
2.2.3 雙向有序屬性相同的R×C 表資料 R×C表資料中的兩個分類變量皆為有序且屬性相同。該種資料實際上是配對四格表資料的擴展,即水平數≥3的配伍資料,例如對同一批樣品用兩種檢測方法同時進行檢測,其檢測結果為-、±、+、++、+++。其研究目的通常是分析兩種檢測方法的一致性,此時宜用一致性檢驗或稱Kappa 檢驗。
2.2.4 雙向有序屬性不同的R×C 表資料 R×C表資料中兩個分類變量皆為有序的,但屬性不同。對于該資料分三種情況。
(1)研究目的為分析等級分組變量之間應變量有無差別時,例如分析不同年齡組(20 ~、30 ~、40 ~、50 及以上)患者療效(治愈、有效、無效)之間有無差別,可把該資料視為單向有序R×C 表資料,而選用Kruskal-Wallis 秩和檢驗。
(2)研究目的為分析兩個有序分類變量間是否存在相關關系,選用等級相關分析。
(3)研究目的為分析兩個有序分類變量間是否存在線性變化趨勢,宜用線性趨勢檢驗。
R×C 表資料的分析思路可參見圖5。
圖5 R×C 表資料的分析思路示意圖
兩組配對設計的資料比較,可選Wilcoxon 符號秩和檢驗;成組設計/完全隨機設計的兩樣本等級資料比較,可選兩樣本比較的Wilcoxon 秩和檢驗或Mann-Whiney U 檢驗;若為成組設計/完全隨機設計的多個樣本等級資料比較,可選Kruskal-Wallis 秩和檢驗;隨機區(qū)組設計的多個樣本等級資料比較,選擇Fridman 秩和檢驗。
單變量等級資料的分析思路參見圖6。
圖6 等級資料的分析思路示意圖
分析兩變量的相關關系時,先繪制散點圖,如果圖中提示兩變量有線性趨勢,且兩變量滿足雙變量正態(tài)分布,可選Pearson 直線相關分析;若兩變量不滿足雙變量的正態(tài)分布或是等級資料,可選Spearman秩相關分析。
分析兩變量的回歸關系時,先繪制散點圖,如果圖中提示兩變量有線性趨勢,且應變量滿足正態(tài)分布時,可選直線回歸分析。
分析兩變量的回歸關系時,若散點圖顯示兩變量的關系呈曲線趨勢,可進行曲線直線化變換,也可按曲線類型作相應曲線回歸分析,如指數曲線、多項式曲線、成長曲線等分析方法。雙變量資料的分析思路參見圖7。
圖7 雙變量資料的分析思路示意圖
多元線性回歸是直線回歸的擴展,研究的因變量只有一個,但是自變量卻有多個。在中醫(yī)藥研究中,常被用來篩選危險因素、分析交互效應、控制混雜因素、預測與控制等。多元線性回歸分析的前提假定條件是線性、獨立、正態(tài)及方差齊性。在實際問題中,殘差分析常被用來考察資料是否滿足這四個前提條件。多元線性回歸方程=b0+b1X1+b2X2+…+bmXm,bi(i= 1、2、…、m)稱為因變量Y對自變量Xi的偏回歸系數,表示除自變量Xi以外的其余m-1個自變量都固定不變時,自變量Xi每變化一個單位,因變量Y平均變化的單位數值,確切地說,當bi>0時,自變量Xi每增加一個單位,因變量Y平均增加bi個單位;當bi<0 時,自變量Xi每增加一個單位,因變量Y平均減少bi個單位。標準化偏回歸系數常常用來比較各個自變量對反應變量的貢獻大小。確定系數和調整的確定系數常常用于評價模型擬合效果的好壞。對整個回歸模型的假設檢驗一般采用方差分析,對各總體偏回歸系數是否為零的假設檢驗常采用t檢驗。當建模時存在多個自變量時,自變量之間可能會存在著較強的相關性,即多重共線性現象,這種情況下會使模型參數估計值不穩(wěn)定或不易解釋。逐步篩選變量時一定程度上解決此類問題的最簡單的做法,其次可以利用主成分間的正交性即采用主成分回歸方法來解決共線性問題。多重線性回歸分析中篩選自變量的方法有前進法、后退法、逐步回歸法和最優(yōu)子集法等。用于篩選自變量的指標有殘差平方和、殘差均方、確定系數、調整的確定系數、Cp統(tǒng)計量等。
Logistic 回歸模型分析是多變量統(tǒng)計方法中的重要內容,根據設計類型和構建似然函數模型的不同,可分為非條件模型和條件模型兩類。自變量X1,X2,…,Xm可以是連續(xù)型變量,也可以是離散型變量,因變量是分類變量。該方法可以篩選危險因素、校正混雜因素、預測與判別。Logistic 回歸模型的參數估計常采用最大似然法,求得Logistic 回歸方程后,仍需對回歸方程和每個回歸系數進行假設檢驗。回歸方程的檢驗一般可用似然比檢驗、Wald 卡方檢驗、記分檢驗等,回歸系數的假設檢驗常用Wald 卡方檢驗。為使建立的Logistic 回歸模型更為穩(wěn)定,需要對回歸自變量進行篩選,根據自變量的作用大小來決定是否將其引入回歸方程。Logistic 回歸模型的參數β和OR值有聯(lián)系:當某自變量的回歸系數β>0 時,其OR>1,該因素為危險因素;當β<0 時,其OR<1,該因素為保護因素;當β=0 時,其OR=1,該因素對結果不起作用。Logistic 回歸分析結果報告應包括:危險因素、相應的檢驗統(tǒng)計量、P值、各因素的β、標準誤(SE)、各因素OR值及OR值的95%可信區(qū)間。
生存分析是將終點事件的出現與否和達到終點所經歷的時間相結合起來進行分析的方法,其主要特點是考慮了每個觀察對象達到終點所經歷的時間長短。終點可以是死亡,也可以是疾病的發(fā)生,或者是藥物的治療效果等。生存率的估計有壽命表法和Kaplan-Meier 法,前者適用于大樣本資料,后者適用于小樣本。Cox 模型屬于比例風險模型。模型中回歸系數βj的含義是變量Xj每改變一個單位,風險函數增加exp (βj)倍。Cox 回歸分析可用于影響因素分析、校正混雜因素后的組間比較以及生存預測等[5]。
上述三種回歸模型形式比較相似,不同之處在于因變量的資料類型,若Y為數值變量資料,可考慮選用多元線性回歸分析;若Y為分類變量資料,特別是二分類變量,考慮選用Logistic 回歸分析;若Y為時間變量資料,則優(yōu)先選用Cox 比例風險模型。這三種多因素分析模型中,對自變量未進行特別規(guī)定,既可以是數值變量,也可以是分類變量,但是當自變量為無序多分類資料時,分析前要進行啞變量設置,以有利于結果的正確分析和解釋。
數據管理和分析貫穿整個中醫(yī)藥研究過程中,不同類型的研究,數據管理和統(tǒng)計分析的方法及指標選擇不同,應掌握每種具體方法的應用條件,科學合理地選用,對中醫(yī)藥研究的順利實施至關重要。