彭 凡,張力為,周財亮
(1. 北京體育大學(xué) 心理學(xué)院,北京 100084;2. 北京體育大學(xué) 運動人體科學(xué)學(xué)院,北京 100084)
實驗研究者往往難以對總體中的所有個體進(jìn)行觀測,因此,常采用抽樣方式對總體進(jìn)行推論,抽樣的數(shù)目就是樣本量,即抽取的樣本中所含觀測值的數(shù)量。樣本量是否適宜,對統(tǒng)計功效(statistical power)、可信程度、效果量的估計以及可重復(fù)性均具有重要影響,因此,這一問題總是引發(fā)研究者的高度關(guān)注。對樣本量的估算是研究設(shè)計的重要組成部分。不同研究問題、研究設(shè)計、研究對象以及數(shù)據(jù)處理方法對樣本量的要求不同,過大或過小的樣本量都有悖研究倫理——樣本量過小會降低研究結(jié)果的可信度,研究結(jié)論的科學(xué)貢獻(xiàn)十分有限,而樣本量過大可能造成人力、物力資源的浪費[1]。
為分析體育科學(xué)領(lǐng)域?qū)嶒炑芯繕颖玖吭O(shè)計中可能存在的問題,筆者選取了4種能夠較好反映體育科學(xué)實驗研究水平的中文期刊《體育科學(xué)》《上海體育學(xué)院學(xué)報》《北京體育大學(xué)學(xué)報》《中國體育科技》,對這4種期刊2020—2021年發(fā)表的105篇實驗研究論文(共含111項實驗)進(jìn)行研讀,分別對體育教育訓(xùn)練學(xué)、運動人體科學(xué)、運動心理學(xué)、運動康復(fù)與運動醫(yī)學(xué)4個學(xué)科中實驗研究的樣本量問題進(jìn)行歸納和匯總(表1)。
本調(diào)查依據(jù)各個研究的實驗設(shè)計,以常用的功效計算軟件G*Power的計算結(jié)果為標(biāo)準(zhǔn),對不同學(xué)科實驗研究中存在的樣本量問題進(jìn)行統(tǒng)計。由表1可知:總體而言,體育科學(xué)領(lǐng)域樣本量達(dá)標(biāo)的實驗研究未過半數(shù),其中非干預(yù)研究的平均達(dá)標(biāo)率(17%)低于干預(yù)研究的平均達(dá)標(biāo)率(49%);只有個別研究(1項干預(yù)研究和2項非干預(yù)研究)報告了使用功效計算軟件對樣本量進(jìn)行估算的結(jié)果,以及計算過程中所采用的各項指標(biāo)(效果量、顯著性和統(tǒng)計功效);另外,樣本量過大(達(dá)到所需樣本量2倍以上)的實驗研究有9項,占比小于10%,樣本量過?。ú患八铇颖玖康?/2)的實驗研究有51項,占46%。這一結(jié)果與運動科學(xué)領(lǐng)域高水平期刊Journal of Sports Sciences編輯部在2020年對其3年內(nèi)收到的120篇實驗研究論文進(jìn)行的樣本量統(tǒng)計結(jié)果近似,該文發(fā)現(xiàn),120篇論文樣本量的中位數(shù)僅為19,有12篇論文(占10%)交代了研究前的樣本量估算,其中還有4篇論文未能說明確定效果量的合理依據(jù)[2]。筆者在調(diào)查中發(fā)現(xiàn),完整報告樣本量估算過程的研究比例更低。
表1 不同體育科學(xué)實驗研究樣本量問題一覽Table 1 List of sample size problems in experimental studies in different sport science research
以上結(jié)果揭示了體育科學(xué)實驗研究有關(guān)樣本量設(shè)置存在的諸多問題:①研究者對樣本量的合理標(biāo)準(zhǔn)及其估算過程的重視程度不足,主要表現(xiàn)為相當(dāng)一部分研究的樣本量過小(不及所需樣本量的1/2)。顯然,相較于樣本量稍顯不足,實際樣本量與所需樣本量之間差距過大對研究可信度的影響會更大。②絕大多數(shù)研究未預(yù)先對樣本量進(jìn)行合理估算。③研究者對于樣本量對實驗研究的質(zhì)量與可信度的影響認(rèn)知可能存在盲區(qū)和誤區(qū)。例如:在研究實踐中,一些研究者傾向于簡化甚至跳過樣本量估算這一步驟,隨意設(shè)置每組的樣本量;當(dāng)出現(xiàn)期望結(jié)果時,便不再繼續(xù)取樣,易造成樣本量過低的現(xiàn)象;相對于大樣本量的單一研究,研究者更傾向于開展小樣本量的多項研究,這一操作雖有利于科學(xué)探索的系統(tǒng)性,但也提高了“假陽性”錯誤出現(xiàn)的概率,對研究結(jié)果的可信度造成不利影響。實驗法是體育科學(xué)領(lǐng)域最常用的研究方法之一,在實驗研究中對樣本量問題的重視不足將不利于體育科學(xué)研究水平的提高。因此,本文討論適宜的樣本量對提高實驗研究的統(tǒng)計功效、降低Ⅰ型錯誤的概率、準(zhǔn)確估計效果量以及對提高實驗研究的可重復(fù)性的重要意義,介紹確定適宜樣本量的方法,旨在引發(fā)體育科學(xué)領(lǐng)域研究者對樣本量問題的重視,提高研究設(shè)計的合理性,進(jìn)而提高體育科學(xué)實驗研究的質(zhì)量和水平。
長期以來,樣本量與統(tǒng)計功效總是相伴出現(xiàn)的[3?5]。統(tǒng)計功效在假設(shè)檢驗的框架下被定義,指當(dāng)零假設(shè)為假時,拒絕零假設(shè)即可得到顯著結(jié)果的概率[6?7],即若某效應(yīng)真實存在,能得出此效應(yīng)存在的結(jié)論的概率。通俗而言,統(tǒng)計功效代表在多大程度上能“看見”實驗效應(yīng)[8]。
《美國心理學(xué)會(APA)出版手冊》(第 7 版)[9]建議,在研究結(jié)果中應(yīng)報告統(tǒng)計功效值(Power值),為其他研究者繼續(xù)探索某效應(yīng)提供依據(jù):若Power值偏小,研究者需通過更多的重復(fù)研究來獲得更準(zhǔn)確的結(jié)果;若結(jié)果不顯著而Power值已足夠大,研究者可不必在此花費時間。所以,對其他研究者而言,Power值較高的研究具有更大的參考意義和價值。統(tǒng)計功效由顯著性水平、效果量和樣本量三者共同決定[3],在顯著性水平和效果量不變的情況下,樣本量越大,Power值就越高[3,10]。所以,統(tǒng)計功效實際上取決于樣本量的大小,而提高統(tǒng)計功效的主要方法是增加樣本量[8]。在方差分析中,計算統(tǒng)計功效須從非中心F分布入手,其本質(zhì)上是不同自由度F分布的一種混合分布。統(tǒng)計功效取決于這一分布中的非中心參數(shù)(λ=nξ),意為各分布中心與零假設(shè)的分布中心之間的距離,其中:n為各組樣本量大?。沪螢橛煽傮w間不同特征而產(chǎn)生的均值差異,類似于效果量。非中心參數(shù)的公式清晰地描述了統(tǒng)計功效的變化是樣本量與效果量之間的結(jié)合效應(yīng)[11]。
在實際應(yīng)用中,研究者對于樣本量大小對Ⅰ型錯誤的影響常存有誤解。例如,一些研究者[6]認(rèn)為,Ⅰ型錯誤(α)的概率是預(yù)先設(shè)定的,只要看P值是否滿足不大于α(如α=0.05)即可控制Ⅰ型錯誤的出現(xiàn)概率。其實,樣本量過小同樣也可以導(dǎo)致“假陽性”結(jié)果,即Ⅰ型錯誤的概率升高??梢酝ㄟ^統(tǒng)計學(xué)中樣本量與Ⅰ型錯誤(α)和Ⅱ型錯誤(β)之間的計算公式對此加以理解[12]。以重復(fù)測量實驗數(shù)據(jù)的處理為例,各組所需樣本量為m=[1+(k?1)ρ]σ(Zα+Zβ)/kδ2,其中,k為重復(fù)測量的次數(shù),δ為容許誤差,σ為總體標(biāo)準(zhǔn)差,ρ為來自同一母體的樣本間的內(nèi)部相關(guān)系數(shù)。在研究之前,通常先設(shè)定Ⅰ型錯誤(α)出現(xiàn)的概率(如0.05或0.01),通過查表可以得到對應(yīng)的Zα(同理,可以得到Zβ),此時計算出的m是犯Ⅰ型錯誤和Ⅱ型錯誤的可能性不超過既定概率所需的最小樣本量。在其他指標(biāo)不變的情況下,設(shè)定的α與β越低(其中低β對應(yīng)高Power值),所需的樣本量越大。所以,當(dāng)樣本量未達(dá)到所需量m時,從統(tǒng)計學(xué)的角度而言,犯Ⅰ型錯誤的可能性就超出了既定的概率(如α=0.05)。在研究實踐中也不難發(fā)現(xiàn)樣本量對Ⅰ型錯誤的潛在影響:當(dāng)樣本量過小時,研究者更容易報告隨機(jī)出現(xiàn)的結(jié)果;或受樣本分布不均與非隨機(jī)抽樣(如隨意或方便抽樣)的交叉效應(yīng)影響,報告本不存在的效應(yīng)。所以,若研究者未能清晰地認(rèn)識到樣本量對Ⅰ型錯誤的影響,或為了得到“陽性”結(jié)果,選取過小的樣本量或非隨機(jī)取樣,其研究得出的結(jié)論會更多地依賴于偶然出現(xiàn)的效應(yīng),這會大大影響研究的內(nèi)部效度,研究的科學(xué)合理性也可能大幅降低。
研究能夠正確揭示現(xiàn)實的程度被稱為研究的正向預(yù)測價值(Positive Predictive Value,PPV)[6,13]。一項研究的正向預(yù)測價值由統(tǒng)計功效和Ⅰ型錯誤概率這2個因素共同決定[11]。研究者應(yīng)力求提高統(tǒng)計功效(降低Ⅱ型錯誤概率),同時降低Ⅰ型錯誤的概率,在實際操作中需要考慮兩者間的平衡問題。因為統(tǒng)計功效和Ⅰ型錯誤概率均與得出“陽性”結(jié)果有關(guān),所以容易出現(xiàn)同時升高或同時降低的情況。例如,若想通過提高顯著性水平的方法來提高統(tǒng)計功效(如以P<0.05替代P<0.01),此時Ⅰ型錯誤的概率也會隨之升高。不過,仍存在提高統(tǒng)計功效而不必以提高Ⅰ型錯誤概率為代價的方法,除了提高研究工具的可靠性外,還有另一種可行的思路:增大研究的樣本量[14]。
有研究[15?16]指出,樣本量過大會干擾研究結(jié)果,促使顯著性結(jié)果的產(chǎn)生。還有學(xué)者[17]認(rèn)為,在一些特殊領(lǐng)域,如應(yīng)用核磁共振原理和儀器診斷異常腦活動,大樣本得到的診斷結(jié)果未必經(jīng)得起可重復(fù)性檢驗。但在實際研究中,特別是在體育科學(xué)領(lǐng)域,樣本量不足的現(xiàn)象更為普遍(表1),容易對研究質(zhì)量產(chǎn)生較為嚴(yán)重的不利影響。誠然,樣本量不是越大越好,但在不同的研究設(shè)計中,相對充足的樣本量對研究的積極意義不可小覷,本文的側(cè)重點正是探討這一問題。
除了影響統(tǒng)計功效和Ⅰ型錯誤概率之外,樣本量與效果量之間也具有緊密的關(guān)聯(lián)。這一關(guān)聯(lián)性影響是雙向的:①效果量越小,所需要的樣本量越大;②樣本量過小會高估效果量。
從效果量對樣本量影響的角度分析,當(dāng)效果量較大時不需要大樣本量,而當(dāng)效果量較小時則需要更大的取樣來發(fā)現(xiàn)這一效果量。例如,在單因素組間設(shè)計中,在Power值固定為0.8的情況下,大效果量d=0.80需要n=50,中等效果量d=0.50需要n=130,小效果量d=0.20需要n=800[4,8]。這一影響就猶如使用放大鏡去觀察事物,效果量是觀察目標(biāo),而樣本量即放大鏡的倍數(shù),樣本量越大“放大”的倍數(shù)就越大,樣本量越小“放大”的倍數(shù)就越小。換言之,效果量越小對于大樣本量的要求就越高。
從樣本量對效果量影響的角度分析,樣本量過小會影響對效果量的估計,過小的樣本量會高估效果量,極易降低研究結(jié)果的可靠程度[14]。背后的原因體現(xiàn)在2個方面:①小樣本增加了Ⅱ型錯誤的出現(xiàn)概率,即提高了錯失真實效應(yīng)的概率,只有較大的效應(yīng)才被檢驗為具有統(tǒng)計學(xué)意義,而較小的效應(yīng)則不容易被檢驗為具有統(tǒng)計學(xué)意義。②在論文發(fā)表過程中對“陽性”結(jié)果有所偏愛,即具有陽性結(jié)果的研究會更容易發(fā)表,未發(fā)現(xiàn)陽性結(jié)果的研究不易發(fā)表。以上2點原因催生了經(jīng)濟(jì)學(xué)中的“勝利者詛咒”現(xiàn)象,即發(fā)表的小樣本研究論文有更大可能高估了該效應(yīng)的效果量[6,17]。此外,在研究實踐中,一些研究者為了論文更容易發(fā)表,只選取效果量較大的數(shù)據(jù),或到效果量足夠大時便不再選取新的樣本[18]等,這一系列不規(guī)范操作均會造成高估效果量。此外,研究者有時還存在這樣一種錯誤觀念:若在小樣本中發(fā)現(xiàn)了某個較大的效果量,這樣的結(jié)論更有意義,在大樣本中也必然可以得到重復(fù)[18]。這一觀念源于經(jīng)濟(jì)學(xué)中的“易得性偏差”,即個體在決策過程中過于看重容易得到的信息,而忽視對其他信息進(jìn)行深度發(fā)掘,從而造成判斷的偏差[19]。
實際上,樣本量不足會使研究結(jié)果對于效果量的估計產(chǎn)生較大偏離,致使結(jié)果不再可信。Camerer等[20]曾在2018年發(fā)表的重復(fù)性研究中揭示了效果量被高估的現(xiàn)象。他們嘗試對2010—2015年發(fā)表于Nature和Science的21項社會科學(xué)研究進(jìn)行重復(fù),對每項研究以75%和50%原有效果量進(jìn)行樣本量估算,最終選取原有樣本量5倍(此倍數(shù)為平均水平,75%和50%效果量分別致使所估算的樣本量有3倍和6倍的增長)的樣本進(jìn)行重復(fù)研究。結(jié)果顯示,在13篇(62%)發(fā)現(xiàn)了與原研究方向相同的顯著效應(yīng)的研究中,其效果量只有原研究的一半,而在那些顯著性未得到成功重復(fù)的研究中,效果量幾乎為零。Ioannidis[21]認(rèn)為,效果量被高估的重要原因之一是較低的統(tǒng)計功效,而樣本量不足會促使這一現(xiàn)象的發(fā)生,如Camerer等[20]發(fā)現(xiàn),在樣本量大幅增加的重復(fù)研究中,效果量出現(xiàn)了顯著下降。這一結(jié)果提示,在原有的樣本量相對較小的研究中,普遍存在效果量被高估的現(xiàn)象。類似地,多國研究者建立的開放性合作實驗室(The Open Science Collaboration)開展的對100篇心理學(xué)研究的大樣本重復(fù)研究也發(fā)現(xiàn),效果量僅為原研究效果量的一半[22]。
效果量估計的問題在體育科學(xué)領(lǐng)域的一些研究中顯得格外重要,如某研究的研究對象為數(shù)量較少的世界冠軍級運動員,如何在實驗中對效果量進(jìn)行準(zhǔn)確估計?有研究者[23]建議,如遇到這樣的情況,為避免效果量被高估,可以報告校正的效果量。校正與未校正效果量的區(qū)別主要在于校正效果量更具推廣性,而未校正效果量有樣本局限性,以此推測總體時易高估效果量[24]。最常用的效果量校正方法是Ezekiel在1930年提出的r2校正公式。具體的校正步驟[25]共分4步:①將d轉(zhuǎn)換為r,公式為r=d/[(d2+4)0.5];②計算r2;③計算r2*,公式為r2*=r2?(1?r2)[v/(n?v?1)],其中v為因變量的個數(shù);④將r2*開方,得到r*,然后按照公式d*=[2(r)]/[(1–r2)0.5]得到校正效果量d*。這一方法同樣適用于雙變量之間效果量r的校正[26]。
此外,體育科學(xué)研究者在對大、中、小效果量進(jìn)行解讀時,不必一味追求大效果量,要依研究問題而異。例如,某研究旨在探究某種訓(xùn)練方法對精英運動員運動技能的影響,如果訓(xùn)練效果能達(dá)到小效果量,可能已具有不可忽視的重要價值,因為奧運冠軍之爭常常就在毫厘之間。總之,當(dāng)樣本量受到人群特殊性的限制時,研究者有必要使用校正方法對效果量進(jìn)行報告,因為研究者報告的效果量對于其他研究者據(jù)此進(jìn)行后續(xù)研究的樣本量估算具有重要影響,后文3.1將對此再進(jìn)行詳述。
科學(xué)研究的可重復(fù)性問題已成為近年來科學(xué)家對科學(xué)合理性關(guān)注的重要方面。多年來在論文發(fā)表中對“陽性”結(jié)果的偏愛,即發(fā)表偏倚,是導(dǎo)致可重復(fù)性危機(jī)的重要原因[6]。對于研究者們得到的研究結(jié)果,具有統(tǒng)計學(xué)意義的差異性結(jié)果(通常P<0.05)會更容易發(fā)表[27]。然而,即使一些研究發(fā)現(xiàn)并不能真正反映某些效應(yīng),由于論文發(fā)表的壓力,研究者們還是想盡可能地將研究成果發(fā)表出來[28]。這就帶來了一系列問題,如不規(guī)范的研究設(shè)計、不合理的數(shù)據(jù)處理、過小的樣本量等[13, 18]。
可重復(fù)性危機(jī)已經(jīng)在許多科學(xué)領(lǐng)域引發(fā)強(qiáng)烈關(guān)注。2005年,Ioannidis[13]在一篇綜述中指出,由于“可懷疑的研究實踐”(questionable research practices),在所有已發(fā)表的社會科學(xué)和醫(yī)學(xué)研究中,“不合理”研究的占比可能超過50%。在經(jīng)濟(jì)學(xué)領(lǐng)域,Camerer等[29]于2016年對18項高水平研究進(jìn)行重復(fù),結(jié)果只有11項研究發(fā)現(xiàn)了方向相同的顯著性結(jié)果,平均效果量僅為原研究的66%。在癌癥研究領(lǐng)域,兩大科學(xué)機(jī)構(gòu)Science Exchange和Center for Open Science精選并嘗試重復(fù)發(fā)表于2010—2012年的10項癌癥領(lǐng)域較高水平的研究,其中,只有6項研究得到了相同方向的顯著性結(jié)果[30]。在心理學(xué)領(lǐng)域,2015年,在開放性合作實驗室嘗試重復(fù)的100項不同領(lǐng)域的心理學(xué)研究中,只有39%的研究得到了明確的可重復(fù)的結(jié)果[22,31]。在神經(jīng)科學(xué)領(lǐng)域,面對可重復(fù)性危機(jī),研究者[32]直接提出了該領(lǐng)域中存在的樣本量問題:經(jīng)檢驗,80名被試樣本(總量)是應(yīng)用fMRI(功能性磁共振成像)技術(shù)探測行為與腦神經(jīng)關(guān)聯(lián)的研究較適宜的樣本量,而現(xiàn)階段fMRI研究普遍只選取了20~30名樣本;依據(jù)該檢驗報告,無論采取何種數(shù)據(jù)分析方法,這樣的小樣本量都很難得到可重復(fù)性高的研究結(jié)果。
至今為止,在體育科學(xué)領(lǐng)域,可重復(fù)問題還未引起研究者們廣泛的關(guān)注與討論。這并不意味著本領(lǐng)域的研究不存在可重復(fù)性低的問題。實際上,體育科學(xué)領(lǐng)域內(nèi)有一些學(xué)者[33]已經(jīng)發(fā)出呼吁,為提高研究結(jié)果的可信度,研究質(zhì)量及研究方法應(yīng)具有更高的標(biāo)準(zhǔn)。例如,數(shù)據(jù)建模中常用因素分析法,在實際應(yīng)用中,可以使用統(tǒng)計模擬方法,也稱蒙特·卡羅方法(Monte Carlo methods)來確定適宜的樣本量大小和進(jìn)行統(tǒng)計功效的估計[34]。另外,體育科學(xué)領(lǐng)域的研究者[15,35]還在綜述中對零假設(shè)檢驗和信度做了詳盡闡釋,提出在發(fā)表論文時不應(yīng)過度追逐“陽性”結(jié)果,同時在研究中應(yīng)更加注重信度,并鼓勵用多種方式同時測量信度,以保證研究的科學(xué)合理性。
在對可重復(fù)性危機(jī)的討論中,研究者[18]開始格外關(guān)注導(dǎo)致“假陽性”或Ⅰ型錯誤過高的因素?!凹訇栃浴币鉃樽髡咴谖恼轮袌蟾媪嗽谡鎸嵤澜缰胁淮嬖诘男?yīng)。在體育科學(xué)領(lǐng)域,導(dǎo)致實驗研究“假陽性”過高的因素種類多樣、盤根錯節(jié),其中最主要的影響因素有研究者自由度和樣本量大小等[36]。研究者自由度就是研究者在收集數(shù)據(jù)、分析數(shù)據(jù)和報告研究結(jié)果時可自由選擇的范圍。例如,在某項有關(guān)不同體育教學(xué)方法對學(xué)生技能水平影響的研究中,如果研究者在收集數(shù)據(jù)時對接受不同體育教學(xué)方法的學(xué)生分組(即自變量)進(jìn)行改變或增減,或在分析數(shù)據(jù)時隨意舍棄某個技能水平(即因變量)的指標(biāo)等,都會使正確的虛無假設(shè)被拒絕,從而導(dǎo)致“假陽性”結(jié)果的概率升高[18]。相較于顯著結(jié)果的易發(fā)表性,研究者們對樣本量不足給研究可重復(fù)性帶來的影響缺乏認(rèn)真的思考和足夠的重視,這一點可能在體育科學(xué)領(lǐng)域表現(xiàn)得更為明顯[2]。
樣本量大小對研究結(jié)果可重復(fù)性的影響主要表現(xiàn)在以下3個方面:①樣本量過小會降低Power值,從而降低可重復(fù)性[37]。對于某個領(lǐng)域的研究而言,樣本量過小,效果量就會更加參差不齊,這會使各研究結(jié)論看起來更加不一致[38]。所以,如果某個領(lǐng)域中充斥著“低Power值”的研究,就像隨處可見“難以重復(fù)”和“不一致結(jié)論”,正如Fraley等[39]在論文中所描述的:“可重復(fù)性信任危機(jī)很可能源于長期以來領(lǐng)域內(nèi)低Power值的研究設(shè)計,而低Power值就決定了研究發(fā)現(xiàn)可以被重復(fù)的概率較低。”Power值直接體現(xiàn)了如果某實驗效應(yīng)為真,該實驗效應(yīng)可重復(fù)的概率[8]。如Power=0.3代表10次重復(fù)實驗中只有3次能得到實驗效應(yīng),而其他7次觀察不到實驗效應(yīng),這就意味著研究結(jié)果正確的概率低于二分自然概率50%,比單純猜測是否有效應(yīng)正確的概率還要低。②樣本量過小易導(dǎo)致高虛報率,使研究結(jié)果偏離真實效應(yīng)的程度增加,從而大大降低研究結(jié)果的可重復(fù)性[40]。③增加樣本量是提高研究可重復(fù)性的直接而有效的方法。
鑒于可重復(fù)性危機(jī)對諸多科學(xué)領(lǐng)域產(chǎn)生的沖擊,以及充足的樣本量對研究的可重復(fù)性所帶來的深遠(yuǎn)影響,Journal of Sports Sciences編輯部在2020年發(fā)表的社論中倡導(dǎo),體育科學(xué)領(lǐng)域的研究者應(yīng)在實驗前確定適宜的樣本量,并在投稿時詳細(xì)介紹實驗前樣本量的估算過程[2],同時報告該過程中使用的所有參數(shù)及其合理依據(jù)[41]。下文介紹確定適宜樣本量的具體方法和具體參數(shù)。
對于體育科學(xué)實驗研究而言,大部分都建立在假設(shè)檢驗的基礎(chǔ)之上,研究目的通常為樣本推論總體,通過組別間的比較來估計某實驗效應(yīng)為真的概率。通過合理的參數(shù)設(shè)定進(jìn)行樣本量的估算是研究設(shè)計的重要步驟之一[2]。
研究者在開展研究前可用G*Power[42]、jamovi[43]、PANGEA[44](用于方差分析)、semPower[45](用于結(jié)構(gòu)方程模型)、BUCSS[46]等工具進(jìn)行功效計算(power calculation),以確定適宜的樣本量。在假設(shè)檢驗中,既定的統(tǒng)計模型包含4個參數(shù):顯著性水平(α值)、效果量、樣本量、統(tǒng)計功效。當(dāng)其中3個參數(shù)確定后,可計算出第4個參數(shù)的值。以樣本量的估算為例,將Power值、α值和效果量確定后便可估算出對應(yīng)的樣本量,這一過程在功效計算中的類別為前驗(a prior)[另外兩類功效計算為敏感度(sensitivity)檢驗和事后(post-hoc)檢驗,分別為以估算效果量和Power值為目標(biāo)的功效計算],也是在研究實踐中應(yīng)用最廣泛的一類功效計算[47]。此處涉及2個關(guān)鍵問題:將這3個參數(shù)設(shè)定為多大才是合適的?如何闡明所設(shè)定的參數(shù)的合理性?下文對此進(jìn)行詳述。
(1)Power值的設(shè)定。統(tǒng)計學(xué)家Cohen[3,48]提出應(yīng)將預(yù)期的Power值設(shè)定為0.8。同時,2020年Bakker等[49]做出的統(tǒng)計結(jié)果也顯示,Power≥0.8是實踐中大多數(shù)研究所采用的標(biāo)準(zhǔn)。但是,一些研究者[50]提出應(yīng)將Power值的標(biāo)準(zhǔn)定為0.90或0.95,且已有期刊(如行為科學(xué)領(lǐng)域頂級期刊Cortex)開始明確要求投稿人采用0.90的Power值進(jìn)行前驗統(tǒng)計功效計算,同時,還建議研究者闡述該研究招募樣本的便捷程度,意在引導(dǎo)研究者在研究設(shè)計過程中綜合考慮研究成本和難度,提高研究的可行性。在體育科學(xué)領(lǐng)域,也有期刊(如體育科學(xué)領(lǐng)域頂級期刊Psychology of Sport and Exercise)已將樣本量估算與Power值計算的參數(shù)要求寫入投稿指南,將假設(shè)檢驗類投稿論文的Power值標(biāo)準(zhǔn)提高到0.90,并鼓勵注冊式投稿(registered reports),這一投稿方式將促使體育科學(xué)研究者做好研究前的樣本量估算和研究計劃,從而有效提高體育科學(xué)領(lǐng)域?qū)嶒炑芯康目芍貜?fù)性[33]。
(2)α值的設(shè)定。在傳統(tǒng)意義上,α值常被設(shè)定為0.05,即Ⅰ型錯誤(“假陽性”錯誤)的概率不超過5%[51]。但是,受可重復(fù)性危機(jī)影響,有些期刊(如Cortex)已將此標(biāo)準(zhǔn)提高至0.02。此外,在一些特殊的研究情形下,可能需要將這一概率設(shè)定得更低。例如,某研究為檢驗不同的鍛煉干預(yù)手段對老年人心理健康產(chǎn)生的積極效應(yīng)進(jìn)行了3個相互關(guān)聯(lián)的實驗,并計劃將結(jié)果進(jìn)行多重比較時,就要使用校正的α值來進(jìn)行統(tǒng)計功效計算(如采用Bonferroni-Holm法,設(shè)定α值為0.012 5來替代慣常所用的0.05)[52]。再如,某研究的目的為驗證前人研究中已發(fā)現(xiàn)的某種放松訓(xùn)練對運動員肌肉特征產(chǎn)生的影響,可將α值設(shè)定為0.005,理由是如果某效應(yīng)已經(jīng)被發(fā)現(xiàn),再次驗證時研究者可期待以更小的虛報率來提升研究結(jié)論的可靠性[53]。
(3)效果量的設(shè)定。對體育科學(xué)領(lǐng)域的研究者而言,效果量的設(shè)定往往是前驗功效計算中最棘手的部分。與Power值和α值不同的是,效果量沒有一個慣常的設(shè)定。Cohen[48]提出了效果量的界定標(biāo)準(zhǔn),d=0.2為小效果量,d=0.5為中等效果量,而d=0.8為大效果量,為諸多研究者所引用,作為其設(shè)定0.5這一中等效果量進(jìn)行統(tǒng)計功效計算的依據(jù)[49]。但也有研究者[54]認(rèn)為,這一做法并不十分可取,設(shè)定效果量不應(yīng)采用“通用規(guī)則”(one size fits all),如 Cohen[48]所述,在開辟新研究領(lǐng)域時應(yīng)力求準(zhǔn)確,將效果量設(shè)為小效果量,相對可見的差異可設(shè)為中等效果量,而差異較明顯時可設(shè)為大效果量??傮w而言,效果量的設(shè)定應(yīng)遵循的核心原則是,某效應(yīng)預(yù)期效果量的最小估計[47],即如果設(shè)置的效果量為d=0.5,假定預(yù)期的效果量最小也是中等效果。
在研究實踐中,可以采取以下方法實現(xiàn)效果量的合理設(shè)定。
(1)參考前人的元分析結(jié)果。例如,若研究者想繼續(xù)探索不同鍛煉方式對超重人群產(chǎn)生的身體和心理效益,可參考Carra?a等[55]的元分析結(jié)果,其中,有氧運動和阻抗運動結(jié)合的方式對總體身體效益的影響為大效果量(d=0.9),而在身體效益的一些子維度上,鍛煉的效果量有所降低(如身體功能d=0.4,身體疼痛d=0.24);但是,有氧運動與阻抗運動的結(jié)合對整體心理效益的影響不顯著,在心理效益的一些子維度上產(chǎn)生了小效果量(如活力d=0.41,心理健康d=0.22)。研究者可以根據(jù)自己的研究目的,參考與自己研究內(nèi)容相似的元分析結(jié)果。同時,在這一過程中,也要關(guān)注元分析中研究的質(zhì)量和可靠程度[47],因為元分析也是一把雙刃劍[56]:當(dāng)元分析納入的各項研究具有較高的可重復(fù)性時,元分析結(jié)果可以提供頗有價值的參考;如果元分析納入的研究存在不嚴(yán)謹(jǐn)或不規(guī)范的操作,元分析反而會致使有偏的估計進(jìn)一步擴(kuò)大。體育科學(xué)研究領(lǐng)域的強(qiáng)證據(jù)更有利于證據(jù)積累[57],這一點從樣本量估算角度看也顯得十分重要。嚴(yán)謹(jǐn)?shù)臉颖玖抗浪愫脱芯窟^程可以預(yù)防后續(xù)研究受到被高估的效果量的影響,而估算出的樣本量過小會使研究結(jié)果中的效果量再次被高估。周而復(fù)始,會形成惡性循環(huán)。
(2)參考前人關(guān)鍵研究的結(jié)果。當(dāng)同領(lǐng)域內(nèi)的研究積累還不夠多,或沒有合適的元分析可供參考時,少量的前人研究可能就成了可參考的關(guān)鍵。如Harms等[58]在2018年的研究中試圖重復(fù)前人發(fā)現(xiàn)的“整數(shù)價格”比“帶有零頭的價格”使人感覺更舒服的效應(yīng),首先參考了前人結(jié)果中的效果量η2=0.040(Power≥0.9,α≤0.05,n=318),又結(jié)合理論分析,推測實際的效果量可能比這一效果量要小,為了得到更加穩(wěn)健的結(jié)果,最終計劃招募600名被試樣本(約為原研究的2倍),這一樣本量在Power值不低于0.9的情況下可探測到的效果量為η2=0.017。該重復(fù)研究的結(jié)果未再現(xiàn)原研究的顯著結(jié)果。這提示,原研究(n=318)遠(yuǎn)遠(yuǎn)高估了效果量,其實際效果量(如果真的存在此效應(yīng))比η2=0.017還要小,即需要更大的樣本量才能將其探測出來。這說明,對前人研究積累較少的效應(yīng)進(jìn)行重復(fù)檢驗時,提高(甚至大幅提高)樣本量十分必要[20,59]。筆者認(rèn)為,一些重復(fù)性研究的樣本量往往是原研究的2~3 倍[20, 22, 29]。
(3)參考效果量分布。當(dāng)以上方法均不可用時,研究者可參考效果量的標(biāo)準(zhǔn)分布(如Cohen[48]對大、中、小效果量的界定標(biāo)準(zhǔn)),同時,有些領(lǐng)域可能也存在特定的效果量分布,如Szucs等[60?61]曾對認(rèn)知神經(jīng)科學(xué)、心理學(xué)和醫(yī)學(xué)領(lǐng)域多個高水平期刊已發(fā)表的近4 000篇研究進(jìn)行了效果量統(tǒng)計,發(fā)現(xiàn)這些領(lǐng)域大、中、小效果量的分布與Cohen[48]的標(biāo)準(zhǔn)存在不同程度的差異。體育科學(xué)領(lǐng)域的研究常與其他學(xué)科相融合,存在不少交叉學(xué)科(如運動認(rèn)知神經(jīng)科學(xué)、運動康復(fù)學(xué)和運動醫(yī)學(xué)等),研究者既要注重體育學(xué)的應(yīng)用性,也要關(guān)注這些學(xué)科在研究方法上的規(guī)范性。
除對上述3個參數(shù)的合理設(shè)定之外,體育科學(xué)實驗研究中確定樣本量還需要綜合考慮以下其他因素。
(1)研究假設(shè)。在進(jìn)行t檢驗的樣本量估算中,研究者需基于研究假設(shè),選擇單尾或雙尾檢驗:單尾檢驗適用于對2組因變量數(shù)據(jù)的高低有方向性假設(shè)的研究;雙尾檢驗的含義是僅假設(shè)2組的因變量數(shù)據(jù)有差異,但不假設(shè)孰高孰低。例如,在一項旨在探究運動經(jīng)驗影響專業(yè)運動員某腦電成分波幅的研究中:若研究者對運動員某腦電成分(如alpha波、Theta波、SMR波等)波幅隨運動經(jīng)驗的增加而提高或降低依理論或?qū)嵶C而有所假設(shè),即可使用單尾檢驗;若研究者對此沒有具體的方向性假設(shè),即可使用雙尾檢驗。在其他設(shè)定條件保持一致的情況下,相比于單尾檢驗,雙尾檢驗會多估算出約20%的樣本量[62]。例如,在G*Power中計算獨立樣本t檢驗所需的樣本量,設(shè)定Power值為0.8,α值為0.05,效果量為d=0.5,當(dāng)選擇單尾檢驗時,所需總樣本量為102,而選擇雙尾檢驗時,這一數(shù)值則升至128。
另外,研究者還指出,在先前研究自變量對因變量影響的基礎(chǔ)上,檢驗其中的調(diào)節(jié)變量會因研究假設(shè)的不同而有不同的樣本量要求。例如,在探究冷環(huán)境暴露影響最大有氧耐力的運動表現(xiàn)中性別的調(diào)節(jié)作用[38]時:若假設(shè)存在一邊倒式交互作用(knockout interaction),即在調(diào)節(jié)變量的A水平(如男性)上,冷環(huán)境暴露與最大有氧耐力運動表現(xiàn)關(guān)聯(lián)顯著,在調(diào)節(jié)變量的B水平(如女性)上,冷環(huán)境暴露與最大有氧耐力運動表現(xiàn)關(guān)聯(lián)不顯著,此時需要4倍于先前研究的樣本量;當(dāng)假設(shè)存在完美式交互作用(perfect cross-over interaction)時,即在調(diào)節(jié)變量的A水平(如男性)上,冷環(huán)境暴露與最大有氧耐力運動表現(xiàn)為正相關(guān)關(guān)系,在調(diào)節(jié)變量的B水平(如女性)上,冷環(huán)境暴露與最大有氧耐力運動表現(xiàn)為負(fù)相關(guān)關(guān)系,此時需要等同于先前研究的樣本量;當(dāng)假設(shè)存在效果減半式交互作用(50%attenuation interaction)時,即在調(diào)節(jié)變量的A水平(如男性)上,假定冷環(huán)境暴露與最大有氧耐力運動表現(xiàn)的相關(guān)系數(shù)為0.5,在調(diào)節(jié)變量的B水平(如女性)上,冷環(huán)境暴露與最大有氧耐力運動表現(xiàn)的相關(guān)系數(shù)減半,變?yōu)?.25,此時大約需要14倍于先前研究的樣本量。
(2)各組樣本比例。在其他設(shè)定條件不變的情況下,樣本量在2組之間的分配比例為1時(即兩組樣本數(shù)量均等的平衡設(shè)計),所需樣本量最?。ㄈ珉p尾檢驗下所需樣本量為128),隨著這一比例的升高(2、3、4······),樣本量也會隨之升高(144、170、200······)。這提示,在設(shè)計分組和招募樣本時,應(yīng)盡量做到組別之間樣本量的數(shù)量平衡。
(3)測量指標(biāo)的變異度。一些研究設(shè)計中指標(biāo)變異度較小,對樣本量的要求就會下降,如動物實驗的樣本量通常比人的實驗的樣本量要小一些。
(4)樣本的流失率。在實驗任務(wù)難度較大、包含多次測量或縱向追蹤式研究的情況下,研究者在估算樣本量時,不得不考慮樣本流失的問題。有研究者[62]認(rèn)為,為防止樣本流失、數(shù)據(jù)丟失等原因?qū)е碌臉颖玖坎蛔悖瑢嶋H樣本量需要比預(yù)估多10%~20%。
(5)樣本的易得性。在體育科學(xué)領(lǐng)域,一些研究的研究對象為世界冠軍級水平的運動員,這一群體的數(shù)量本身就非常有限。如遇此情況,可以在文中加以闡明。例如,Seli等[63]在一項探究心智游移的研究中,已經(jīng)最大限度地招募了樣本,在此種情況下,研究者還可增加統(tǒng)計功效計算中的敏感度(sensitivity)檢驗報告,用以說明特定樣本量可以檢驗出的最小效果量[52],作為解釋樣本量估算合理性的輔助信息。此外,針對數(shù)量有限的特殊群體開展的研究可采用縱向研究范式(如多重基線設(shè)計),針對具有鮮明個體特異性(如世界冠軍的成長規(guī)律)的研究問題,還可采用個案研究的方法[64]。
綜上所述,確定樣本量的影響因素有很多,其復(fù)雜程度往往超出我們的想象。不同的參數(shù)設(shè)置(包含Power值、α值和效果量)、不同假設(shè)(如單尾檢驗和雙尾檢驗)、不同群體(如樣本群體的同質(zhì)性及特殊性)、不同測量(如獨立測量和重復(fù)測量)的研究,對樣本量的要求都會有所不同[65]。因此,對于適宜樣本量的估算,也沒有唯一的對與錯的標(biāo)準(zhǔn)[56]?,F(xiàn)階段已有一些中文期刊對樣本量估算過程的描述提出清晰的要求[66],研究者據(jù)此對樣本量估算進(jìn)行詳細(xì)描述[2,66]是提高體育科學(xué)實驗研究結(jié)果可靠性的有效途徑和迫切需要。
在體育科學(xué)實驗研究中,充足、適宜的樣本量對論文作者和讀者(包括期刊審稿人、專業(yè)讀者、大眾讀者等)雙方都具有重要意義。①如果樣本量這一因素受到論文作者的重視,將促使他們在研究中選取符合數(shù)量標(biāo)準(zhǔn)的樣本,減少出于方便的隨意選取,降低因樣本量不足導(dǎo)致的“假陽性”錯誤的出現(xiàn)概率,提高研究結(jié)果的可靠性和可重復(fù)性。②樣本量對于論文評價也具有重要的參考價值,讀者可據(jù)此對整個研究的質(zhì)量進(jìn)行更為合理的評價。對于小樣本量研究得出的研究成果,審稿人和讀者須謹(jǐn)慎研讀和采納。
綜上所述,筆者提出與樣本量相關(guān)的7條具體應(yīng)用建議,供論文作者和讀者雙方參考:對于論文作者而言,這些建議是為了提高研究質(zhì)量;對于論文讀者而言,這些建議有助于評判論文質(zhì)量。
(1)根據(jù)研究假設(shè)確定樣本量。與有明確方向性假設(shè)的研究相比,無明確方向性假設(shè)的研究所需的樣本量通常更大。
(2)根據(jù)研究性質(zhì)確定樣本量。例如:與預(yù)研究相比,正式研究需要的樣本量通常更大;與原創(chuàng)性研究相比,重復(fù)性研究需要的樣本量通常更大。
(3)根據(jù)研究設(shè)計確定樣本量。在計算樣本量時,需要同時考慮并確定效果量、顯著性、統(tǒng)計功效、流失率等因素。
(4)根據(jù)樣本的易得性確定樣本量。與現(xiàn)場調(diào)查和現(xiàn)場實驗相比,網(wǎng)絡(luò)調(diào)查和網(wǎng)絡(luò)實驗期待的樣本量通常更大;與精英運動員、受傷運動員等特殊人群相比,一般學(xué)生的樣本量通常更大。
(5)在研究計劃、研究報告以及投稿論文中,明確描述樣本量的測算依據(jù)。測算依據(jù)包括但不限于研究假設(shè)、研究性質(zhì)、研究設(shè)計等。
(6)在投稿論文中,明確描述測試的樣本量,缺失、流失、刪除的樣本及原因,實際的樣本量(包括總樣本量和分組樣本量)。
(7)樣本量不是越大越好。計算樣本量時,還需要考慮研究的可行性和經(jīng)濟(jì)性。超過適宜樣本量的研究會造成人力、物力、時間等資源的浪費。
作者貢獻(xiàn)聲明:
彭 凡:確定論文選題,梳理文獻(xiàn),撰寫論文;
張力為:確定論文選題,審閱、修訂論文;
周財亮:完善統(tǒng)計方法,審閱、修訂論文。