朱麗君,姚應水
(皖南醫(yī)學院 公共衛(wèi)生學院/慢性病防制研究所,安徽 蕪湖 241002)
醫(yī)藥統(tǒng)計學應用的重點是針對不同類型的資料選用不同的統(tǒng)計分析方法[1]。如果統(tǒng)計設計不當,或者統(tǒng)計學方法應用不當,不僅不能正確地反映科研結果,而且可能帶來錯誤的結論。定量資料是指通過對觀察對象指標的測量所得的數(shù)值大小的資料,又稱為數(shù)值變量資料或計量資料。中醫(yī)藥研究領域中,如各種中草藥的含量、濃度、劑量、重量、測定的溫度以及臨床資料中血壓、血糖、尿酸、膽固醇等生化指標數(shù)據(jù)。定量資料假設檢驗差異性比較的常用方法主要有t檢驗、方差分析和秩和檢驗?,F(xiàn)對中醫(yī)藥研究領域中關于定量資料存在的統(tǒng)計學問題做簡要闡述與分析,以期啟發(fā)讀者,提高中醫(yī)藥研究論文的質量。
假設檢驗是統(tǒng)計推斷的一個重要內容,也是醫(yī)學統(tǒng)計課堂教學的重點和難點之一。講授假設檢驗問題多以t檢驗為例,但實際應用中t檢驗往往會出現(xiàn)誤用[2]。t檢驗有三種類型,單樣本t檢驗、獨立樣本t檢驗,配對樣本t檢驗。單樣本t檢驗用于檢驗總體方差未知、正態(tài)分布或近似正態(tài)分布數(shù)據(jù)的單樣本的均值是否與已知的總體均值相等。例:已知A 中藥的平均質量,為了解某植物生長調節(jié)劑的效果,采用將該調節(jié)劑噴施與A 中藥,經(jīng)過一段時間,隨機測量部分中草藥的質量,問這種調節(jié)劑對中藥的質量是否有影響。獨立樣本t檢驗用于檢驗兩對獨立的正態(tài)分布或近似正態(tài)分布數(shù)據(jù)的樣本間均值是否相等。例:中藥聯(lián)合甲氨蝶呤治療輸卵管妊娠中,治療組采用中藥煎劑聯(lián)合甲氨蝶呤5 日療法治療,對照組單獨給予甲氨蝶呤5 日療法治療,比較兩組輸卵管妊娠保守治療成功患者的血人絨毛膜促性腺激素恢復正常時間。配對樣本t檢驗用于檢驗兩配對樣本數(shù)據(jù)的均值是否存在顯著性差異,資料要求差值服從正態(tài)或近似正態(tài)。臨床上常用來比較個體治療前和治療后的數(shù)據(jù),它的核心是數(shù)據(jù)一定是成對的出現(xiàn),其檢驗效能優(yōu)于獨立樣本t檢驗。例:中藥熏蒸治療腰椎間盤突出癥引起人體水分流失情況臨床觀察,采用配對t檢驗分析熏蒸前后人體總水分、細胞內液、細胞外液、軀干水分等的差異,屬于熏蒸前后的自身配對設計。
t檢驗只能適用于最多兩組定量資料的比較。若涉及3 組及3 組以上的定量資料,則采用方差分析檢驗,即F檢驗。資料需要滿足獨立性、正態(tài)性和方差齊性。F檢驗依據(jù)不同的設計方案,有常見的兩種類型,即完全隨機設計的方差分析和隨機區(qū)組設計的方差分析,分別是兩獨立樣本t檢驗和配對t檢驗的延伸。此外,還有析因設計和重復測量設計的方差分析等。F檢驗對于多組定量數(shù)據(jù)比較,當P<0.05時,只能得出各組間均數(shù)不全相同的結論,并不能說明是哪兩組均數(shù)間存在差異。此時不能采用獨立樣本t檢驗來比較各組間差異是否有統(tǒng)計學意義,會導致類錯誤風險增大。應采用多重比較的方法,常用的有LSD-t檢驗法(多個實驗組與一個對照組比較)、SNK-q檢驗法(多個均數(shù)間全部兩兩比較)等。例:采用生理鹽水、地榆炭、蒲黃粉、仙鶴草四種藥物進行小鼠體外促凝時間的比較,以評價促凝效果。
非參數(shù)檢驗是相對于參數(shù)檢驗而言,對總體分布類型不作嚴格假定,又稱任意分布檢驗,它不是推斷總體參數(shù)是否有差異,而是直接對總體分布作假設檢驗,所以適用范圍廣,受限條件少。如果定量資料滿足參數(shù)檢驗條件時,應首選參數(shù)檢驗,因為非參數(shù)檢驗對數(shù)據(jù)的信息利用不夠充分,會導致檢驗效能降低,Ⅱ類錯誤增大[3]。如定量資料比較時,當數(shù)據(jù)不滿足正態(tài)分布或方差不齊時,應用非參數(shù)檢驗。常用的比較系統(tǒng)完善的是非參數(shù)的秩和檢驗,有配對Wilcoxon 符號秩和檢驗、兩樣本比較的Wilcoxon 秩和檢驗,完全隨機設計多樣本 Kruskal-Wallis 秩和檢驗等。例:中醫(yī)藥治療中晚期股骨頭壞死“帶塌陷生存”療效分析及相關影響因素研究中,數(shù)據(jù)不滿足正態(tài)分布,采用非參數(shù)檢驗進行組間股骨頭硬化骨體積、軟組織體積、股骨頭密度對比分析。
2.1.1 配對t檢驗誤用為兩獨立樣本t檢驗 例1:為研究散結抗瘤方對小鼠體內抑瘤作用的實驗研究,將20 只小鼠按性別、體質量、窩別配成對子。每對中隨機抽取一只采用已制備的散結抗瘤方煎劑灌胃,實驗對照組每日用等量的生理鹽水灌胃,以上處理連續(xù)進行15 d 后,處死小鼠,并剝離瘤塊。問小鼠經(jīng)散結抗瘤方和生理鹽水處理后其平均瘤重有無差異?
原分析:結果顯示,散結抗瘤方組與生理鹽水組灌胃后,處死小鼠剝離瘤塊質量差異無統(tǒng)計學意義(P>0.05),詳見表1 和2。
表1 不同處理組小鼠的瘤重
表2 2 種處理方法小鼠瘤重
解析:本研究按照小鼠性別、體質量、窩別配成對子,屬于配對設計,不應采用兩獨立樣本t檢驗,配對t檢驗的檢驗效能更高,如果誤用了兩獨立樣本t檢驗,會降低檢驗效能,增加Ⅱ類錯誤的風險。正確分析結果顯示,散結抗瘤方組灌胃后,處死小鼠剝離瘤塊明顯重于生理鹽水組,差異有統(tǒng)計學意義(P<0.05),見表3。
表3 2 種處理方法小鼠瘤重
2.1.2 單因素方差分析誤用為多個兩獨立樣本t檢驗
例2:一項厚樸麻黃湯通過調節(jié)小鼠肺泡巨噬細胞JAK2 水平抑制氣道炎癥研究顯示,將小鼠肺泡巨噬細胞隨機分為4 組,空白對照組、脂多糖(LPS)組、血清對照組、含藥血清組,比較不同組JAK2mRNA表達水平有無差異?
原分析:每兩組之間采用兩獨立樣本t檢驗,共進行6 次比較。結果顯示,除LPS 組和含藥血清組外,其它任意兩組間JAK2mRNA 表達水平差異均有統(tǒng)計學意義(P<0.05),詳見表4。
表4 各組小鼠肺泡巨噬細胞JAK2mRNA 表達水平比較(±s,n = 6)
表4 各組小鼠肺泡巨噬細胞JAK2mRNA 表達水平比較(±s,n = 6)
注:*P <0.05。
組別mRNAt空白對照組(1)0.93±0.09t12 = 53.028*t13 = 2.357*LPS 組(2)7.77±0.30t14 = 18.784*t23 = 46.484*血清對照組(3)1.12±0.18t24 = 2.179t34 = 17.878*含藥血清組(4)7.02±0.79
解析:該研究是想比較空白對照組、LPS 組、血清對照組、含藥血清組的JAK2mRNA 表達水平的差異,屬于多組均數(shù)的比較,若直接采用t檢驗進行兩兩比較,則會增大犯I 型錯誤的概率,導致假陽性錯誤增高,會更容易得出差別有統(tǒng)計學意義的結論,從而產(chǎn)生虛假結論。本資料應先采用單因素方差分析,再進一步采用SNK-q法進行兩兩比較。正確分析結果顯示,LPS 組和含藥血清組JAK2mRNA 表達水平均高于空白對照組和血清對照組(P<0.05),且LPS 組高于含藥血清組(P<0.05),見表5。
表5 各組小鼠肺泡巨噬細胞JAK2mRNA 表達豐度(±s,n = 6)
表5 各組小鼠肺泡巨噬細胞JAK2mRNA 表達豐度(±s,n = 6)
注:與空白對照組比較,aP <0.05;與LPS 組比較,bP <0.05;與血清對照組比較,cP <0.05。
組別mRNA空白對照組0.93±0.09 LPS 組 7.77±0.30a血清對照組 1.12±0.18b含藥血清組 7.02±0.79abc F 434.182 P<0.001
2.1.3 隨機區(qū)組設計的方差分析或重復測量的方差分析誤用為單因素方差分析 例3:研究者欲比較針灸組、西藥組和對照組的對調節(jié)更年期綜合征大鼠模型體質量的效果。影響大鼠體質量增長的因素很多,這些因素的效應與不同處理因素的效應混雜在一起。為了消除和控制其他因素的影響,研究者將更年期綜合征大鼠配成若干區(qū)組,每個區(qū)組3 只大鼠,并且滿足同一區(qū)組的大鼠是同窩別、同性別、同日齡、體質量最接近,共配成10 個區(qū)組,然后在每個區(qū)組內將3 只大鼠隨機分配到各實驗組。比較4 周后各組大鼠的平均體質量增加量有無差異?
原分析:采用單因素分析結果顯示,針灸組大鼠的體質量增加高于對照組,差異有統(tǒng)計學意義(P<0.05),見表6 和表7。
表6 3 組不同處理組的大鼠體質量增重量(g)
表7 大鼠體質量變化水平的單因素方差分析(g,±s)
表7 大鼠體質量變化水平的單因素方差分析(g,±s)
注:與對照組比較,*P <0.05。
組別體質量FP對照組3.22±0.18 3.8390.034西藥組3.32±0.12針灸組3.40±0.12*
解析:本研究中大鼠按照同窩別、同性別、同日齡、體質量最接近,共配成10 個區(qū)組,屬于隨機區(qū)組設計的方差分析。如果按照表7 采用單因素方差分析則忽略了區(qū)組對結果的影響。前者變異拆分:SS總=SS組間+SS組內,后者變異拆分:SS總=SS區(qū)組+SS處理+SS誤差。正確結果分析顯示,尚不能得出針灸組、西藥組和對照組大鼠的體質量增加有差異(P>0.05),見表8。
表8 大鼠體質量變化水平的方差分析
例4:研究者欲分析右歸丸聯(lián)合中藥熏蒸治療腎陽虛型老年膝骨關節(jié)炎的效果,探討其對關節(jié)液中骨橋蛋白(OPN)水平的影響。老年膝骨關節(jié)炎患者隨機分為聯(lián)合組和對照組,聯(lián)合組選用右歸丸聯(lián)合中藥熏蒸治療,對照組選用常規(guī)療法,問治療前、治療后2 周、治療后4 周的OPN 水平是否有差異?
原分析:采用成組t檢驗,分別比較兩組患者治療前、治療后不同時間點OPN 的變化情況。結果顯示,治療前聯(lián)合組和對照組OPN 水平無統(tǒng)計學差異(P>0.05),治療2 周和4 周時,對照組OPN 水平均顯著高于聯(lián)合組,差異有統(tǒng)計學意義(P<0.05)。單因素分析結果顯示,聯(lián)合組和對照組治療前、治療2 周、4 周OPN 水平均逐漸降低(P<0.05),結果見表9。
表9 聯(lián)合組和對照組患者手術前、后OPN 比較(ug/L,±s)
表9 聯(lián)合組和對照組患者手術前、后OPN 比較(ug/L,±s)
注:與治療前比較,aP <0.05;與治療2 周比較,bP <0.05。
組別n治療前治療2 周治療4 周FP聯(lián)合組 38 54.47±10.80 34.39±8.24a 26.55±6.27ab 105.240 0.000對照組 37 55.43±11.00 40.30±7.77a 31.62±9.23ab 0.437 0.000 t 0.3813.1882.775 P 0.7040.0020.007
解析:該研究的目的是探討同一受試者在不同時間點上被重復觀測后其指標的變化情況,在臨床和醫(yī)藥研究領域比較常見。如果統(tǒng)計分析時只分析最后一次的測量結果,將會喪失很多“過程”信息[4]。本研究中實際上存在2 個因素:一是分組,分為兩種不同治療方案;二是時間因素,即在不同時間點重復測量OPN 的水平(≥3),因此本研究屬于兩因素的重復測量定量資料,應采用重復測量的方差分析。正確結果分析顯示,Mauchly’s 球形檢驗顯示P>0.05,數(shù)據(jù)滿足球形假設,處理因素的主效應有統(tǒng)計學意義,對照組的OPN 水平高于聯(lián)合組 (P<0.05)。時間因素對OPN 水平的主效應有統(tǒng)計學意義(P<0.05)。兩兩比較顯示,聯(lián)合組和對照組治療后2 周和4 周OPN 水平明顯低于治療前,治療后2 周、4 周2 個時間點比較,聯(lián)合組OPN 水平均低于對照組。不同分組和檢測時間點交互作用項無統(tǒng)計學意義(P>0.05),見表10 和表11。
表10 重復測量方差分析結果
表11 聯(lián)合組和對照組患者手術前、后OPN 比較(ug/L,±s)
表11 聯(lián)合組和對照組患者手術前、后OPN 比較(ug/L,±s)
注:與治療前相比,aP <0.05;與對照組相比,bP <0.05 。
組別n治療前治療2 周治療4 周聯(lián)合組3854.47±10.80 34.39±8.24ab 26.55±6.27ab對照組3755.43±11.00 40.30±7.77a 31.62±9.23a
2.2.1 配對Wilcoxon 符號秩和檢驗誤用為配對t檢驗
例5:一項探索深刺少陽經(jīng)腧穴結合中藥對難治性突發(fā)性聾患者耳鳴的改善情況,深刺組采用深刺結合中藥湯劑,治療前和治療后分別測量了耳鳴殘疾量表(THI),問治療前后THI 評分有無差異?
原分析:用配對樣本t檢驗進行差異性檢驗,結果顯示,深刺組治療后THI 水平明顯下降,差異具有統(tǒng)計學意義 (P<0.05),結果見表12。
表12 深刺組耳鳴殘疾量表治療前后的THI 評分(分,±s)
表12 深刺組耳鳴殘疾量表治療前后的THI 評分(分,±s)
d±sdtP深刺組13.62±31.162.2280.035組別
解析:該研究目的是想比較深刺組治療前和治療后的耳鳴殘疾量表是否有差異,屬于配對設計。首先考慮參數(shù)檢驗中的配對t檢驗,但要求差值滿足正態(tài)分布。從表中所給的均數(shù)和標準差來看,標準差遠大于均數(shù),極大可能不滿足正態(tài)分布,解決的辦法如下:一是對差值進行相應的變量變換使其滿足正態(tài)性后使用配對t檢驗,另一種方法是采用配對資料Wilcoxon符號秩和檢驗。本研究采用配對資料Wilcoxon 秩和,正確結果分析顯示,尚不能認為治療前和治療后的THI 評分存在差異(P>0.05),見表13。
表13 深刺組治療前后的THI 評分(分)
2.2.2 兩獨立樣本W(wǎng)ilcoxon秩和檢驗誤用為兩獨立樣本t檢驗 例6:一項針藥結合治療腦卒中伴肩手綜合征的臨床研究,收治的30 例腦卒中伴肩手綜合征患者,隨機分成研究組和對照組,比較兩組治療前視覺模擬評分法(VAS)測定的疼痛評分是否有差異?
原分析:采用兩獨立樣本t檢驗結果顯示,對照組VAS 評分高于研究組,差異有統(tǒng)計學意義(P<0.05),結果見表14。
表14 兩組患者治療前VAS 評分比較(分,±s,n = 15)
表14 兩組患者治療前VAS 評分比較(分,±s,n = 15)
組別VAStP對照組8.03±1.262.1130.044研究組5.70±4.08
解析:該研究是比較治療前VAS 的水平在兩組間是否有差異,病人是隨機分到2 組接受不同處理,屬于兩獨立樣本設計,組數(shù)為2 組。首選應考慮為獨立樣本t檢驗。從表中所給的均數(shù)和標準差來看,標準差小于均數(shù),大致可能服從正態(tài)分布,但兩樣本標準差差別比較大,很可能方差不齊。應采用近似t檢驗或者采用兩獨立樣本比較的Wilcoxon秩和檢驗。正確結果分析顯示,采用兩獨立樣本W(wǎng)ilcoxon 秩和檢驗顯示,兩組VAS 評分差異無統(tǒng)計學意義(P>0.05),見表15。
表15 兩組患者治療前VAS 評分比較(分,n = 15)
2.2.3 完全隨機設計多樣本 Kruskal-Wallis 秩和檢驗誤用為單因素方差分析 例7:應用酶聯(lián)免疫吸附測定法檢測35 例胰腺癌、37 例胰腺良性和36 例體檢健康者血清CA199 水平,問三組間的水平有無差異?
原分析:采用單因素方差分析結果顯示,胰腺良性組和健康組CA199 水平均明顯低于胰腺癌組(P<0.05),胰腺良性組和健康組之間差異無統(tǒng)計學意義(P>0.05),結果見表16。
表16 3 組血清CA199 水平情況(U/mL,±s)
表16 3 組血清CA199 水平情況(U/mL,±s)
注:與胰腺癌組比較,*P <0.05。
組別nCA199FP胰腺癌組35352.71±548.48胰腺良性組3758.11±99.74*10.744<0.001健康組3637.58±72.78*
解析:根據(jù)研究目的,首先考慮單因素方差分析,但需要滿足正態(tài)性和方差齊性。如果僅從表中所給的均數(shù)和標準差來看,標準差遠大于均數(shù),數(shù)據(jù)極大可能不滿足正態(tài)性,且3 組標準差差別比較大,很可能方差也不齊,應采用完全隨機設計多樣本 Kruskal-WallisH秩和檢驗,進一步兩兩比較采用Mann-WhitneyU檢驗。正確結果分析顯示,胰腺良性組和健康組CA199 水平均明顯低于胰腺癌組,差異均有統(tǒng)計學意義(P<0.05),見表17。
本文簡要列舉了在中醫(yī)藥文獻中較為普遍的定量資料假設檢驗方法的誤用,分析其出錯的原因,并給出正確的方法。希望引起讀者的重視,能夠正確合理地運用統(tǒng)計學,提高科研工作的水平和質量,積極推進中醫(yī)藥科研高質量發(fā)展。