裴磊磊,趙亞玲,康軼君,朱永生
(西安交通大學(xué)醫(yī)學(xué)部: 1.公共衛(wèi)生學(xué)院;2.法醫(yī)學(xué)院,陜西 西安 710061)
隨著醫(yī)學(xué)研究深度和廣度不斷發(fā)展,新的疾病預(yù)防及診療模式不斷涌現(xiàn),數(shù)據(jù)來源更加多元,包括臨床數(shù)據(jù)、多組學(xué)數(shù)據(jù)、環(huán)境暴露、遺傳信息、生活習(xí)慣、地理空間信息、社交媒體及其他多種與個體健康和疾病狀態(tài)相關(guān)的高維數(shù)據(jù),要從看似復(fù)雜無序的數(shù)據(jù)中發(fā)掘隱含的內(nèi)在規(guī)律, 以指導(dǎo)醫(yī)學(xué)決策,對統(tǒng)計學(xué)提出了新的挑戰(zhàn)[1]。而醫(yī)學(xué)基本統(tǒng)計方法僅限于單變量描述和推斷,無法深度挖掘多個相依因素(變量)之間的關(guān)系或具有這些因素的樣本(個體)之間關(guān)系。因此,醫(yī)用多因素統(tǒng)計分析方法(Medical multivariate statistical analysis)應(yīng)運而生,它是一種可以最大程度利用既有信息進行模型構(gòu)建的方法,達(dá)到簡化復(fù)雜數(shù)據(jù)結(jié)構(gòu),闡明主要研究問題的目的,目前已成為醫(yī)學(xué)統(tǒng)計學(xué)的重要組成部分,在公共衛(wèi)生學(xué)、臨床醫(yī)學(xué)、藥學(xué)、護理學(xué)等領(lǐng)域的數(shù)據(jù)分析中發(fā)揮了不可替代的作用[2]。
多因素統(tǒng)計分析是數(shù)理統(tǒng)計學(xué)的一部分,其中包含了抽象的概念及理論、煩瑣的矩陣代數(shù)計算、復(fù)雜的數(shù)學(xué)推導(dǎo)論證等,對于數(shù)學(xué)功底薄弱的醫(yī)學(xué)生而言,學(xué)習(xí)難度相對較大。同時多因素統(tǒng)計分析也是一門實踐性和應(yīng)用型非常強的課程,需要借助計算機軟件才能完成計算驗證過程,統(tǒng)計理論學(xué)習(xí)需要與計算機軟件教學(xué)同步進行。目前可供選擇的統(tǒng)計軟件有SPSS、SAS、STATA、R語言等,其中SPSS致力于簡便易行,尤其適合臨床醫(yī)學(xué)、藥學(xué)、護理學(xué)等專業(yè)統(tǒng)計學(xué)基礎(chǔ)薄弱的科研工作者,其操作能夠快速上手、基本滿足科研需求。筆者所在教學(xué)團隊基于多年教學(xué)實踐,針對醫(yī)學(xué)專業(yè)研究生總結(jié)編寫了《醫(yī)用多因素統(tǒng)計分析及SPSS操作》[2],旨在提升醫(yī)學(xué)生對醫(yī)學(xué)相關(guān)數(shù)據(jù)的綜合分析應(yīng)用能力,本文基于學(xué)生的實際情況和該課程的特點,探討了醫(yī)學(xué)多因素統(tǒng)計分析課程的教學(xué)方法并總結(jié)了以下教學(xué)經(jīng)驗,以達(dá)到拋磚引玉的作用,提高學(xué)生學(xué)習(xí)的積極性和解決實際問題的能力。文章所涉及的統(tǒng)計分析例題均來源于筆者團隊編寫的教材《醫(yī)用多因素統(tǒng)計分析及SPSS操作》,統(tǒng)計分析均在SPSS 18.0中實現(xiàn)[2]。
多因素統(tǒng)計分析理論復(fù)雜抽象,方法種類繁多,不同方法之間前后緊密相連,學(xué)習(xí)當(dāng)前統(tǒng)計方法同時緊密結(jié)合前面已學(xué)的統(tǒng)計理論,相互比較,相互印證,前后貫通,幫助學(xué)生形成貫通式的統(tǒng)計思維[3]。例如在學(xué)習(xí)多因素方差分析方法時,可以結(jié)合多重線性回歸分析理論,利用線性模型的原理闡述多因素方差分析的思想[4]。方差分析的研究設(shè)計包括了析因設(shè)計、協(xié)方差設(shè)計、重復(fù)測量設(shè)計等多種形式,各種類型的方差設(shè)計形式都可以利用回歸模型表示。以兩因素析因設(shè)計(即I×J析因設(shè)計)為例,表示有兩種處理因素,第一種處理因素A有I個水平,第二種處理因素B有J個水平,析因設(shè)計線性模型表示為Y=α+β1X1+β2X2+β3X1X2+ε,其中α是截距,β1、β2和β3為待估的回歸系數(shù),ε為獨立且服從正態(tài)分布的殘差。以教材中例3-1析因設(shè)計方差分析數(shù)據(jù)為例,采用多重線性回歸分析,研究藥物治療X1和給藥時間X2對小鼠肝臟組織鐵濃度的影響。當(dāng)X1=1時表示試驗組,X1=0時表示對照組;當(dāng)X2=1時表示給藥后30min,X2=0時表示給藥后60min。
首先建立析因設(shè)計方差分析SPSS數(shù)據(jù)文件,藥物表示實驗組和對照組,時間表示給藥后30min和60min,鐵濃度表示肝臟組織鐵濃度,執(zhí)行 Analyze→General Linear Model→Univariate命令,選擇藥物和時間的主效應(yīng)、交互效應(yīng),單擊對話框下方的OK按鈕,即可得到析因設(shè)計方差分析結(jié)果。
然后建立多重線性回歸分析數(shù)據(jù)庫,藥物治療X1和給藥時間X2分別為二分類變量,設(shè)置兩個啞變量及交互效應(yīng)引入模型中。首先考慮Analyze→Regression→Linear,打開Linear模塊后,依次選擇因變量和自變量,單擊對話框下方的OK按鈕,獲得相應(yīng)結(jié)果。
例3-1中數(shù)據(jù)進行多重線性回歸分析和析因設(shè)計的方差分析的結(jié)果完全一致,線性回歸引起的變異可以進一步分解為藥物、時間及交互作用三部分變異。將兩種方法的結(jié)果列于表1中,可見多因素線性回歸中回歸變異SS等于藥物、時間、交互效應(yīng)三部分SS之和,即多因素線性回歸中回歸變異可以進一步分解為析因設(shè)計方差分析中藥物、時間、交互效應(yīng)三部分,兩種方法總變異完全相等。
表1 例3-1多重線性回歸和析因設(shè)計方差分析比較
將原始數(shù)據(jù)的4組數(shù)據(jù)的均數(shù)整理成表2,得出藥物處理不同水平、時間效應(yīng)不同水平的單獨效應(yīng)、主效應(yīng)和交互作用。當(dāng)藥物固定在實驗組時,時間的單獨效應(yīng)為0.492;當(dāng)藥物固定在對照組時,時間的單獨效應(yīng)為0.233。同理,時間固定在30min時,藥物的單獨效應(yīng)為0.244;時間固定在60min時,藥物的單獨效應(yīng)為0.503。依次得到藥物治療和給藥時間的主效應(yīng)分別為(0.244+0.503)/2=0.374和(0.492+0.233)/2=0.363。藥物治療和給藥時間的交互效應(yīng)為(0.503-0.244)/2=(0.492-0.233)/2=0.129。
多重線性回歸系數(shù)估計結(jié)果見表3,藥物治療在60min時的單獨效應(yīng)為α+β1+β2+β3-α-β2=0.503,藥物治療在時間30min時的單獨效應(yīng)為α+β1-α=0.244,因此得到藥物治療主效應(yīng)為(2β1+β3)/2=(0.244+0.503)/2=0.374,同理得到給藥時間的主效應(yīng)為(2β2+β3)/2=0.363,藥物治療與給藥時間的交互效應(yīng)為β3/2=0.258/2=0.129,P值都小于0.001,說明藥物治療和給藥時間對小鼠肝臟組織的鐵濃度都有影響而且存在交互效應(yīng),與析因設(shè)計方差分析結(jié)果一致。
表3 例3-1線性回歸系數(shù)結(jié)果
此外,重復(fù)測量設(shè)計、協(xié)方差分析、交叉設(shè)計等都可以采用多重線性回歸分析的思路進行分析,各部分方法前后相互聯(lián)系,相互印證,培養(yǎng)貫通式思維能力,基于教材示例數(shù)據(jù),講授每一種統(tǒng)計分析方法可以緊密聯(lián)系所學(xué)統(tǒng)計理論方法,前后內(nèi)容相互銜接,既可以幫助學(xué)生回顧梳理統(tǒng)計學(xué)基本理論方法,又能加深對新的統(tǒng)計理論方法的理解。
在醫(yī)學(xué)研究中,研究者有時會盡可能多地收集信息,數(shù)據(jù)來源更加多元,包括門診信息、住院信息、常規(guī)體檢數(shù)據(jù)、居民健康檔案管理數(shù)據(jù)等,這樣涉及更多的研究指標(biāo)和變量,造成數(shù)據(jù)維度災(zāi)難,數(shù)據(jù)分析更加復(fù)雜。多因素統(tǒng)計分析中聚類分析、主成分分析和因子分析既能實現(xiàn)不同變量的聚類,達(dá)到降維的目的,簡化數(shù)據(jù)結(jié)構(gòu),又能發(fā)現(xiàn)不同變量之間的整體效應(yīng)。因此,在分析此類高維數(shù)據(jù)時,可以選用不同的多因素降維方法相互比較,培養(yǎng)統(tǒng)計學(xué)類比的思維能力,理解掌握統(tǒng)計學(xué)精髓。以教材中例9-1數(shù)據(jù)為例,分析500名青少年的健康相關(guān)結(jié)局,由于變量包括了總智商(Full scale intelligent quotient, FSIQ),行為問題總分(Total scores of Problem, Problem_ts),收縮壓(Systolic blood pressure, SBP),舒張壓(Diastolic blood pressure, DBP),按WHO標(biāo)準(zhǔn)化的身高性別、年齡別Z評分(Height-for-age and -sex Z score, HAZ),和體質(zhì)指數(shù)性別、年齡別Z評分(Body mass index-for-age and -sex Z score, BAZ)等指標(biāo),采用適當(dāng)多因素統(tǒng)計分析中的降維方法分析青少年人群的健康現(xiàn)況。
可以首先采用K-means聚類分析,考慮到不同變量有不同的量綱,在數(shù)量級上存在較大的差異,為了消除各變量量綱和數(shù)量級不同對聚類結(jié)果可能的影響,需要先對變量進行標(biāo)化處理。變量的標(biāo)化可以采用SPSS中 Analyze→Descriptive Statistics→Descriptives功能將標(biāo)化后的變量另存為新變量。然后選擇菜單Analyze→Classify→K-Means Cluster Analysis,打開K-Means Cluster Analysis模塊后,將6個標(biāo)化后的變量選入Variables框。將變量pc選入Label Cases by即個案標(biāo)注依據(jù)框。將聚類亞組數(shù)Number of Clusters改為3。單擊對話框下方的OK按鈕,得到相應(yīng)結(jié)果。
表4給出了聚類分析最終的類別中心點,該值為各個類別中各變量的均值。類別1人群的特征是智商水平在人群平均水平,行為問題發(fā)生率較低,而其他體格特征如BAZ、血壓等均處人群較高水平;類別2人群的收縮壓和舒張壓低于人群水平特征,智商和體格相關(guān)指標(biāo)高出平均水平,尤其是行為問題最為突出;類別3在所有健康指標(biāo)的均值都低于平均水平。結(jié)果提示在改善青少年健康狀況的干預(yù)政策的制定過程中,要重點關(guān)注類別1人群的心血管健康,類別2人群中的精神衛(wèi)生健康,類別3中所有的青少年。
表4 聚類分析不同類別中心點
之后采用主成分分析和因子分析再次分析,依次選擇主窗口主菜單中的Analyze→Dimension Reduction→Factor,在打開的主對話框中選左邊變量名列表中的6個變量到右邊的Variables(變量)框中,最后單擊主對話框下方的OK按鈕,即可獲得相應(yīng)結(jié)果。
KMO(Kaiser-Meyer-Olkin)統(tǒng)計量為0.497,Bartlett’s球形檢驗P<0.001,提示這6個指標(biāo)數(shù)據(jù)適宜進行主成分分析。按照特征根從大到小列出了所有的主成分。其中,第一個主成分的特征根為1.815,解釋了30.25%的總變異;第二個主成分的特征根為1.332,解釋了22.19%的總變異;第三個主成分的特征根為0.971,解釋了16.18%的總變異,前三個主成分共解釋了68.62%的總變異,因此,最終選擇三個主成分作為結(jié)果。
表5主成分特征向量結(jié)果顯示,第一主成分的特征是智商水平和行為問題影響較小,而其他體格特征如BAZ、血壓等均處人群較高水平,與聚類分析類別1相似;第二主成分對所有健康指標(biāo)具有影響,與聚類分析類別3相似;第三主成分對收縮壓和舒張壓影響較小,尤其是行為問題最為突出,與聚類分析類別2相似。結(jié)果也說明了在改善青少年健康狀況的干預(yù)政策的制定過程中,不同類別應(yīng)關(guān)注不同的指標(biāo),比如第一主成分的心血管健康,第二主成分的精神衛(wèi)生健康,第三主成分所有的健康指標(biāo)。該例題說明聚類分析和主成分分析都能夠?qū)崿F(xiàn)數(shù)據(jù)或變量降維,簡化數(shù)據(jù)結(jié)構(gòu),本質(zhì)上是相同的。
表5 主成分分析相關(guān)矩陣的特征向量
基于以上例題的分析,提示我們在教學(xué)過程中,針對多因素統(tǒng)計分析方法的學(xué)習(xí),可以根據(jù)已學(xué)統(tǒng)計理論知識,從不同角度類比聯(lián)想,采用新舊不同方法由淺入深,同時進行結(jié)果分析比較,既能幫助學(xué)生理解掌握新知識,又能進一步復(fù)習(xí)鞏固舊知識,可以取得事半功倍的教學(xué)效果。
多因素統(tǒng)計分析方法研究的是多個因素間的相互關(guān)系或彼此影響,不同方法不是孤立的,有著密切的聯(lián)系。例如本教材中多重線性回歸和Logistic回歸可以抽象為廣義線性模型的一種,而聚類分析、主成分分析和因子分析可以抽象為數(shù)據(jù)降維方法,整體性思維意味著應(yīng)對不同方法進行比較歸類,明確他們之間的區(qū)別和聯(lián)系,抽象概括統(tǒng)計規(guī)律性,這樣既幫助學(xué)生鞏固了所學(xué)知識,又加深了學(xué)生對多因素統(tǒng)計分析理論的理解和記憶。
多因素統(tǒng)計分析應(yīng)從醫(yī)學(xué)研究生和科研工作者的實踐應(yīng)用出發(fā),在適當(dāng)掌握一定理論的基礎(chǔ)上,開展以問題為中心的學(xué)習(xí)模式,以學(xué)生為主體,在教師的指導(dǎo)下,由學(xué)生圍繞身邊的相關(guān)醫(yī)學(xué)問題進行科研選題。根據(jù)研究目的進行科學(xué)的研究設(shè)計、現(xiàn)場調(diào)查、數(shù)據(jù)收集,甄選多因素分析方法形成統(tǒng)計分析方案;在研究實施過程中和完成后收集原始研究資料、整理資料、量化資料,建立分析數(shù)據(jù)庫,要求數(shù)據(jù)完整、準(zhǔn)確,樣本量足夠;選用合適的多因素分析方法利用SPSS軟件對數(shù)據(jù)資料進行全面分析,對結(jié)果進行解讀闡述,與文獻的分析過程進行比較,對其分析做出評價。
例如妊娠期糖尿病(Gestational Diabetes Mellitus,GDM)是由于妊娠后母體糖代謝異常而首次發(fā)生的糖尿病,是妊娠期常見的并發(fā)癥之一,與胎兒畸形、宮內(nèi)發(fā)育遲緩、新生兒窒息、早產(chǎn)、巨大兒等多種新生兒不良出生結(jié)局存在密切關(guān)聯(lián)[7-8]。針對該問題,要求學(xué)生采用病例對照研究設(shè)計,自行設(shè)計問卷調(diào)查某醫(yī)院孕6~13+6周的單胎孕婦,進行孕期體檢,愿意且能夠簽署知情同意書。收集數(shù)據(jù)包括孕婦的文化程度、孕期飲用咖啡和飲茶、孕前體重指數(shù)、糖尿病家族史、年齡胎次、孕期糖化血紅蛋白等7個因素的資料,要求學(xué)生收集數(shù)據(jù)后,整理資料、量化資料,建立分析數(shù)據(jù)庫,使用合適的統(tǒng)計分析方法進行分析,并給出臨床建議。
根據(jù)研究目的和數(shù)據(jù)特點,本研究可以采用Logistic回歸進行多因素分析,確定孕婦孕期并發(fā)糖尿病的主要影響因素。多因素分析結(jié)果發(fā)現(xiàn)高齡初產(chǎn)婦、糖尿病家族史、糖化血紅蛋白、超重、肥胖與孕期并發(fā)糖尿病正相關(guān),從臨床角度看,減少高齡初產(chǎn)婦、控制體重及糖化血紅蛋白等指標(biāo),對預(yù)防孕期并發(fā)糖尿病具有重要意義。本例以解決實際醫(yī)學(xué)問題為突破口,引導(dǎo)學(xué)生帶著問題有針對性地了解多因素Logistic回歸分析的數(shù)學(xué)模型和分析的基本思路,既提高了學(xué)生多因素統(tǒng)計分析知識的運用能力,又能激發(fā)學(xué)生參與課堂的熱情,滿足了醫(yī)學(xué)生理論聯(lián)系實際的需求。
醫(yī)用多因素統(tǒng)計分析方法在醫(yī)學(xué)研究中具有重要的作用,是醫(yī)學(xué)科學(xué)研究中不可或缺的重要分析工具,同時極大地促進了醫(yī)學(xué)科學(xué)發(fā)展。如何高效組織醫(yī)用多因素分析課程教學(xué),如何提高教學(xué)效果和學(xué)生學(xué)習(xí)的積極性是非常值得討論研究的問題。本文基于前期教學(xué)經(jīng)驗,并結(jié)合團隊編寫的《醫(yī)用多因素統(tǒng)計分析及SPSS操作》探討了教學(xué)過程中的基本規(guī)律和特征,總結(jié)運用了貫通式思維、類比的思維、整體性思維和實踐的思維等,將多因素統(tǒng)計分析理論前后有機結(jié)合,明確不同方法的區(qū)別和聯(lián)系,抽象整合不同的統(tǒng)計學(xué)理論方法,緊密聯(lián)系醫(yī)學(xué)實際問題,既能幫助學(xué)生掌握多因素統(tǒng)計分析的精髓和內(nèi)涵,又能提高學(xué)生解決實際問題的能力。同時對教師也提出了更高的要求,需要不斷學(xué)習(xí)新理論,不斷總結(jié)經(jīng)驗,進一步提高教學(xué)質(zhì)量。