邢維春,馬琪奇
(海南醫(yī)學雜志社,海南 ???570311)
醫(yī)學統(tǒng)計學是運用統(tǒng)計學的基本原理與方法來研究醫(yī)學問題的一門學科,無論在基礎(chǔ)、臨床及預防醫(yī)學的科研領(lǐng)域,還是預防、治療、康復等計劃的擬定與效果評估均涉及醫(yī)學統(tǒng)計學,因而醫(yī)學期刊編輯、審稿人、科研人員熟練掌握醫(yī)學統(tǒng)計學有重要意義[1]。醫(yī)學統(tǒng)計學包括研究設(shè)計、數(shù)據(jù)收集、數(shù)據(jù)整理、數(shù)據(jù)分析及分析結(jié)果的正確解釋與表達,而統(tǒng)計學分析方法使用正確與否直接關(guān)系到科研論文的可靠性與真實性,然而目前醫(yī)學論文中存在的統(tǒng)計學錯誤較普遍[2]。甚至有調(diào)查[3]顯示,192篇醫(yī)學研究生學位論文中,研究設(shè)計誤/錯用率達76.6%,統(tǒng)計描述誤/錯用率為70.3%,統(tǒng)計推斷誤/錯用率為8.9%,統(tǒng)計結(jié)果表達與解釋誤/錯用率為50.0%,整體誤/錯用率為94.8%,可見,提高醫(yī)學期刊稿件統(tǒng)計學水平十分必要[4]。
1.統(tǒng)計學表述內(nèi)容不全。統(tǒng)計學描述一般包括軟件名稱(公認統(tǒng)計軟件為SPSS及SAS)、統(tǒng)計學方法、檢驗水準等,而有的來稿只交代統(tǒng)計軟件,未交代具體統(tǒng)計分析方法,或只交代統(tǒng)計分析方法,而不交代使用何種統(tǒng)計軟件。大部分稿件不交代檢驗水準。對于定性資料,應(yīng)采用樣本率(或構(gòu)成比)的方法表示,并進一步描述采用何種χ2檢驗,而不是籠統(tǒng)地描述為率的比較采用χ2檢驗。此外,對計量資料,當多組進行總體比較有統(tǒng)計學差異時,需進一步進行兩兩比較,而來稿中常只交代多組間比較方法,未交代兩兩比較的方法。
2.統(tǒng)計學描述不規(guī)范。(1)對于定量資料,常用的研究設(shè)計類型分為成組設(shè)計、配對設(shè)計及析因設(shè)計、重復測量設(shè)計等。在判斷統(tǒng)計學類型時首先應(yīng)判斷其是否滿足參數(shù)檢驗條件,若不滿足則需采用非參數(shù)檢驗方法。同時,進行t檢驗的數(shù)據(jù)必須符合正態(tài)分布,因此在進行兩組獨立樣本t檢驗分析數(shù)據(jù)時應(yīng)明確說明正態(tài)性檢驗結(jié)果,才能在后續(xù)得出正確研究結(jié)果。此外,應(yīng)依據(jù)是否符合正態(tài)分布而采用不同描述方法,符合者一般以“均數(shù)±標準差”或“均數(shù)±標準誤”表示,對不符合者應(yīng)以中位數(shù)及四分位間距表示。(2)也有稿件在統(tǒng)計學方法部分出現(xiàn)“應(yīng)用ANOVA方差分析進行組間對比和卡方檢驗”語句,語序不夠通順,且“ANOVA方差分析”也念不通,因ANOVA是analysis of variance的縮寫,意即“方差分析”,再根據(jù)文中內(nèi)容推測,此處的“ANOVA方差分析”應(yīng)為“單因素方差分析”,這種錯誤在已出刊文獻[5-6]中也較多見。因此,建議在進行統(tǒng)計描述時,應(yīng)結(jié)合專業(yè)知識描述,方可體現(xiàn)出自身統(tǒng)計學水平。(3)統(tǒng)計結(jié)論只能表明有無統(tǒng)計學意義,而無法說明專業(yè)上的差異大小,P值大小不能說明實際效果的顯著或不顯著,只能反映兩者相同或不相同,因此不能表述為對比組間差異有或無顯著統(tǒng)計學意義,這種錯誤在來稿中較常見。當P≤0.01比P≤0.05只能是更有理由拒絕H0,而不是<0.01比<0.05時實際差異更大。
較多稿件在統(tǒng)計學分析部分描述了該研究所采取的統(tǒng)計學分析方法,而在結(jié)果部分卻未見相應(yīng)內(nèi)容。如某來稿稿件中統(tǒng)計學方法描述為“采用SPSS19.0軟件處理數(shù)據(jù),計數(shù)資料以%表示,采取χ2檢驗,計量資料以(±s)表示,行t檢驗,多因素分析采用Logistic回歸分析,P<0.05為差異有統(tǒng)計學意義”。而在結(jié)果中卻未見計量資料及多因素分析內(nèi)容,分析其原因多為疏漏所致。
有的稿件僅憑對所得數(shù)據(jù)的直觀判斷得出結(jié)論,如某來稿中比較了觀察組、對照組分別采用不同方案的療效,其結(jié)果描述為“治療后2個月,觀察組中臨床治愈、顯著有效、有效及無效分別9、8、3、0例,對照組分別為2、8、10、0例,觀察組臨床治愈率(45%)高于對照組(10%),顯著有效率兩組無統(tǒng)計學差異,觀察組有效率(15%)低于對照組。這些數(shù)據(jù)較難說明兩組療效有無統(tǒng)計學差異,建議正確的做法是采用秩和檢驗,結(jié)果為Z=7.970,P=0.005,認為兩組療效差異有統(tǒng)計學意義。甚至有的稿件中雖然做了分組設(shè)計、設(shè)計對照等,但未對此類數(shù)據(jù)進行統(tǒng)計學處理,而僅僅通過實驗所得實際數(shù)據(jù)直觀判斷就得出結(jié)論,這些均不符合現(xiàn)代醫(yī)學科研的結(jié)論需有據(jù)而立的原則[7]。
常用統(tǒng)計學方法包括t檢驗、χ2檢驗、方差分析、相關(guān)性分析、回歸分析(多元線性回歸、二分類Logistic回歸、無序多分類Logistic回歸、有序多分類Logistic回歸等)、ROC曲線分析、生存分析等。其中,t檢驗、χ2檢驗、方差分析、相關(guān)性分析、多元線性回歸等常用統(tǒng)計學方法使用頻次較高,準確選擇統(tǒng)計學方法對提高論文水平十分重要。
1.定量資料。(1)濫用t檢驗。t檢驗為計量資料假設(shè)檢驗中最常見及簡單的一種檢驗方法,但在來稿中發(fā)現(xiàn),多數(shù)編輯將t檢驗作為計量資料檢驗的萬能鑰匙,而忽略了其應(yīng)用條件及注意事項。t檢驗應(yīng)用條件:樣本量?。╪<50或n<30),且均呈正態(tài)分布;成組設(shè)計的兩樣本均數(shù)比較,且均來自方差相等的總體。當樣本量較大(n>50)時則需采用u檢驗。對兩均數(shù)進行比較時,首先需判斷兩樣本分別來自的總體是否為正態(tài)總體,其方差是否齊同,對明顯偏離正態(tài)分布及方差齊性的資料,應(yīng)采用數(shù)據(jù)轉(zhuǎn)換以改善其假定條件或改用非參數(shù)統(tǒng)計,如秩和檢驗,只有在滿足t檢驗條件后方可采用t檢驗。而來稿中較多未進行方差齊性檢驗、忽略正態(tài)分布與非正態(tài)分布的表述。(2)重復測量設(shè)計或多個樣本均數(shù)比較時錯誤使用t檢驗。重復測量設(shè)計為觀察接受不同處理的幾組研究對象某些定量觀測指標隨時間推移的動態(tài)變化趨勢,此時這些定量觀測指標需于不同時點上從同一個受試對象身上進行多次觀測。本次調(diào)查發(fā)現(xiàn),有些稿件將重復測量的資料按完全隨機設(shè)計的方差分析,或重復進行兩兩比較的t檢驗。如某篇文章采用4種鎮(zhèn)靜方法緩解癌癥患者手術(shù)后疼痛,觀察5個時相下VAS評分,每個時相做5次t檢驗,4種方法則要進行20次t檢驗,這將增加假陽性錯誤。此外,在采用t檢驗代替方差分析時也會損失部分信息,割裂了整體設(shè)計,使得出的結(jié)果不準確,結(jié)論的可靠性明顯降低。因此,當設(shè)計類型為重復測量設(shè)計資料時,若仍用t檢驗進行統(tǒng)計學分析,是不妥當?shù)模藭r需采用重復測量設(shè)計的方差分析[8]。當某個設(shè)計類型為完全隨機設(shè)計的多個樣本均數(shù)間比較,其統(tǒng)計推斷為各樣本所代表的各總體均數(shù)是否相等。此時,若連續(xù)型資料服從正態(tài)分布,則采用單因素方差分析(ONE WAY ANOVA),有統(tǒng)計學差異的再采用SNK-t檢驗(或LSD-t或Tukey)進行兩兩比較,或采用Bonferroni法對多重比較的檢驗水準進行校正)。若資料不服從正態(tài)分布,則可應(yīng)用Kruskal-Wallis H檢驗,如存在統(tǒng)計學差異則行DSCF法進行多重比較(也可以使用其他校正方法)。如表1,此表正確的統(tǒng)計方法應(yīng)該在對照組行下面再增加兩行,分別描述ONE WAY ANOVA的F值及P值,后應(yīng)用上角標*、#、①、②等在表下作腳注,標注哪兩組間差異有統(tǒng)計學意義。(3)誤用獨立t檢驗代替配對t檢驗。配對t檢驗適用于配對設(shè)計的計量資料,包括自身對照和配對對照的研究。因為配對t檢驗可將個體變異對處理間變異的可能影響最大程度減少,以較少樣本得到較多信息,提高檢驗效能。而較多稿件中將本來是配對t檢驗的樣本采用兩獨立樣本t檢驗,這種處理是不妥的。因為配對資料已經(jīng)在設(shè)計時盡量減少了實驗誤差,若進行獨立樣本t檢驗無疑會增大混雜因素,降低實驗精準度與結(jié)果可信度。
2.定性資料。(1)不滿足χ2檢驗條件。如某來稿就產(chǎn)后慢性疼痛問題對產(chǎn)婦進行調(diào)查,了解產(chǎn)后慢性疼痛發(fā)生情況,該編輯對不同年齡、職業(yè)、居住地、產(chǎn)前體質(zhì)指數(shù)、分娩次數(shù)等產(chǎn)婦后慢性疼痛進行了χ2檢驗,試圖分析相關(guān)因素,但因樣本較少,有的單元格中例數(shù)不滿足5個,此時一般的χ2檢驗無法滿足列聯(lián)表數(shù)據(jù)分析,應(yīng)采用Fisher確切概率法。對于R×C列聯(lián)表資料,采用χ2檢驗的前提是樣本數(shù)(N)≥40,且理論頻數(shù)(T)小于5的格子個數(shù)不能超過總格子數(shù)的1/5,否則應(yīng)考慮增加樣本量。若N≥40,而1≤T≤5應(yīng)使用連續(xù)校正χ2檢驗;若2×2表格中,N<40或T<1,或R×C檢驗表中,T<5的格子超過1/5或有<1的理論數(shù),則需采用Fisher確切概率法進行分析[9]。(2)混淆使用χ2檢驗與秩和檢驗。較多編輯對在χ2檢驗與秩和檢驗的問題上存在疑惑,其實究竟采用何種方法是依據(jù)資料分類變量的性質(zhì)與研究目的決定的。若為單向有序資料,即指標變量是無序,研究目的為多個構(gòu)成比的比較,此時應(yīng)采用χ2檢驗;而若分組變量無序,而指標變量為有序,研究目的是多個等級資料的比較,此時需采用秩和檢驗或Ridit分析。如治療療效(顯效、有效、無效)、護理滿意度(非常滿意、較滿意、滿意、不滿意)等涉及兩樣本等級資料的比較,此時應(yīng)采用秩和檢驗而非χ2檢驗,因χ2檢驗只反映構(gòu)成比有無差異,而無法比較效應(yīng)的平均水平[10-11]。
表1 三組MCP-1、CEA、MSP水平比較(±s)
表1 三組MCP-1、CEA、MSP水平比較(±s)
注:與對照組比較,*P<0.05;與肺結(jié)核組比較,#P<0.05。
組別 MCP-1(pg/ml) CEA(ng/ml) MSP(ng/ml)血清 胸水 血清 胸水 血清 胸水肺癌組 246.15±25.17*# 1024.15±113.46*# 4.15±0.51* 3.87±0.42*# 265.35±27.11*# 359.45±36.11*#肺結(jié)核組 146.32±15.11* 542.36±55.19* 42.15±3.18* 46.39±5.11* 364.15±37.11* 819.15±82.64*對照組 109.45±11.33 - 3.98±0.57 - 126.34±14.11
表2 腫瘤組、良性組及正常組血清TNF-α、IL-6、IL-8水平比較(±s,pg/mL)
表2 腫瘤組、良性組及正常組血清TNF-α、IL-6、IL-8水平比較(±s,pg/mL)
注:與正常組比較,①P<0.05;與良性組比較,②P<0.05。
組別 例數(shù) TNF-α IL-6 IL-8腫瘤組 43 52.48±5.34①② 42.17±4.53①② 24.10±2.63①②良性組 56 43.71±4.59① 32.99±3.97① 21.11±2.53①正常組 39 31.11±4.37 26.53±2.74 15.49±1.78
1.統(tǒng)計值和(或)P值描述不清及統(tǒng)計值缺失。具體統(tǒng)計量值和P值為最終準確推斷結(jié)論的重要依據(jù),精確的P值告訴讀者拒絕H0、接受H1時犯I類錯誤的概率,因而統(tǒng)計結(jié)果部分應(yīng)將具體的P值寫出。而較多稿件在對統(tǒng)計結(jié)果進行描述時,未完整清晰描述出統(tǒng)計值與P值,僅用“P<0.05”或“P>0.05”得出結(jié)論,缺少相應(yīng)統(tǒng)計值,不利于閱讀者進行數(shù)據(jù)驗證及推斷。如表2,僅列出了腫瘤組、良性組及正常組血清TNF-α、IL-6、IL-8水平,做了附注,但閱讀者無法得知其具體統(tǒng)計值,影響瀏覽及理解。此外,對于多重比較情形,因其表達難度,可在表下標注符號形式表達出是否有統(tǒng)計學意義。
2.統(tǒng)計值結(jié)果不準確。較常見的如在診斷試驗中,給出了某指標診斷某疾病的靈敏度、特異度分別為0.80、0.79,但在ROC曲線(橫坐標為1-特異度,縱坐標為靈敏度)上未找出近似的點(0.21,0.8),或列出的Cutt-off值(靈敏度+特異度-1)與圖上不符,正確判斷Cutt-off值的方法應(yīng)為ROC曲線上最靠近左上角的那一點為最佳臨界點,點上的值即為Cutt-off值,此點上敏感度、特異度均較高,假陽性、假陰性也最少。此外,在繪制ROC曲線時,建議以SPSS操作,避免截圖或者手動繪圖以減少誤差。也有的稿件在列Logistic回歸分析值時,OR值不在95%CI范圍之內(nèi),Logistic回歸分析相關(guān)參數(shù)有相關(guān)關(guān)聯(lián)的,即OR=eβ,Waldχ2=(β/SE)2,ln(OR)的95% CI為exp(β±1.96SEβ)?;蛴械母寮谶M行單因素分析后進入Logistic回歸分析,但未對有統(tǒng)計學意義的自變量進行賦值,使統(tǒng)計結(jié)果混亂[12]。
統(tǒng)計學在質(zhì)與量的辨證統(tǒng)一中研究現(xiàn)象與過程的數(shù)量表現(xiàn),同時以數(shù)據(jù)反映質(zhì)的特征,從而取得真實有效的科學結(jié)論。作為醫(yī)學編輯,若過度依賴審稿專家,而具備審稿資格的專家又較難有更多精力仔細審閱稿件,將導致部分質(zhì)量不高的稿件刊發(fā),影響醫(yī)學期刊聲譽。醫(yī)學編輯應(yīng)不斷學習統(tǒng)計學相關(guān)知識,如參加相關(guān)知識培訓、旁聽醫(yī)學院校統(tǒng)計學課程或向統(tǒng)計學方面的專家請教,提高自身統(tǒng)計學應(yīng)用水平,從思想上重視對統(tǒng)計學應(yīng)用的審查,正確地選擇統(tǒng)計學方法[13]。
醫(yī)學綜合期刊常涉及數(shù)據(jù)收集、處理及分析工作,其統(tǒng)計學專業(yè)性較強。因此,建議在論文審稿時聘請醫(yī)學統(tǒng)計學專家進入期刊編委會,負責所有論文的統(tǒng)計學審稿。對初審稿件中涉及統(tǒng)計學問題的文章進行退修,向作者提出其問題所在,修改后再次進行初審。最好在每期雜志印刷前由統(tǒng)計學編審再次核對,將統(tǒng)計學錯誤遏制在出刊前,提高期刊整體質(zhì)量[14-15]。
科研人員統(tǒng)計學水平與學生階段的統(tǒng)計學教育及教學質(zhì)量有關(guān)系,因而建議在大學適當開設(shè)統(tǒng)計學學時,從源頭上提高科研人員科研意識與水平。也可在期刊中刊登常用統(tǒng)計學方法介紹欄目,刊登與本刊論文關(guān)系密切的統(tǒng)計學方法與常見統(tǒng)計學錯誤,提高作者自身統(tǒng)計學應(yīng)用水平與科研能力[16]。向廣大科研工作者宣講統(tǒng)計學在醫(yī)學科研工作中的重要性,使其養(yǎng)成良好的正確應(yīng)用統(tǒng)計學的習慣,保證統(tǒng)計數(shù)據(jù)結(jié)果的準確性與真實性。如在處理原始數(shù)據(jù)時應(yīng)實事求是,切忌依據(jù)主觀意愿對實驗對象或?qū)嶒灁?shù)據(jù)進行取舍。論文應(yīng)根據(jù)研究結(jié)果得出結(jié)論,不應(yīng)帶有主觀傾向性描述結(jié)果,要做好統(tǒng)計學分析,嚴禁弄虛作假[17]。