胡傳鵬 孔祥禎 Eric-Jan Wagenmakers Alexander Ly,5 彭凱平
(1清華大學(xué)心理學(xué)系, 北京 100084)(2 Neuroimaging Center, Johannes Gutenberg University Medical Center,55131 Mainz, Germany)(3 Language and Genetics Department, Max Planck Institute for Psycholinguistics, 6500 AH Nijmegen, The Netherlands)(4 Department of Psychological Methods, University of Amsterdam, 1018 VZ Amsterdam, The Netherlands)(5 Centrum Wiskunde & Informatica, 1090 GB Amsterdam, The Netherlands)
自20世紀(jì)以來, 統(tǒng)計(jì)推斷在科學(xué)研究中起到越來越重要的作用(Salsburg, 2001), 科學(xué)研究結(jié)論的正確性也越來越依賴于統(tǒng)計(jì)推斷的正確應(yīng)用。目前, 使用最為廣泛的統(tǒng)計(jì)推斷方法是零假設(shè)檢驗(yàn)(Null hypothesis significance testing, NHST)(Wasserstein & Lazar, 2016)。然而, 與NHST在各個(gè)領(lǐng)域中廣泛使用相伴的是研究者對 NHST及p值的誤解和盲目使用(Gigerenzer, 2004; Greenland et al., 2016; Ziliak & McCloskey, 2008; 胡傳鵬等,2016; 駱大森, 2017), 因此帶來一些消極的后果。例如,p值被用來支持不合理且無法重復(fù)的研究結(jié)果(如, Bem, 2011), 引起了關(guān)于NHST是否適合于科學(xué)研究的爭論(Miller, 2011)。在這個(gè)背景之下, 有研究者推薦使用貝葉斯因子替代 NHST (Wagenmakers,Wetzels, Borsboom, & van der Maas, 2011; 鐘建軍,Dienes, 陳中永, 2017)。
貝葉斯因子(Bayes factor)是貝葉斯統(tǒng)計(jì)(Bayesian statistics)中用來進(jìn)行模型比較和假設(shè)檢驗(yàn)的方法。在假設(shè)檢驗(yàn)中, 其代表的是當(dāng)前數(shù)據(jù)對零假設(shè)與備擇假設(shè)支持的強(qiáng)度之間的比率。正如下一節(jié)將要詳述的, 貝葉斯因子能夠量化地反映當(dāng)前數(shù)據(jù)對各個(gè)假設(shè)支持的程度, 因此可能更加適用于科研中的假設(shè)檢驗(yàn)。但由于貝葉斯因子的統(tǒng)計(jì)原理及實(shí)現(xiàn)相對復(fù)雜, 其在各個(gè)學(xué)科的研究中并未獲得廣泛應(yīng)用。
近年來, 隨著計(jì)算機(jī)運(yùn)算能力的大大提升,貝葉斯統(tǒng)計(jì)在計(jì)算機(jī)等領(lǐng)域獲得了巨大的成功(如Zhu, Chen, Hu, & Zhang, 2017)。貝葉斯統(tǒng)計(jì)的工具迅速發(fā)展, 如WinBUGs (Lunn, Spiegelhalter,Thomas, & Best, 2009)、JAGS (Plummer, 2003)、Stan (Carpenter et al., 2017)和Python語言的工具包PyMC3 (Salvatier, Wiecki, & Fonnesbeck, 2016)等。這些軟件和工具包的出現(xiàn), 促進(jìn)貝葉斯方法在各個(gè)研究領(lǐng)域中的使用(Depaoli & van de Schoot,2017; van de Schoot, Winter, Ryan, Zondervan-Zwijnenburg, & Depaoli, 2017)。在這些工具中, 也出現(xiàn)了用于計(jì)算貝葉斯因子的工具, 如 R語言中的BayesFactor (http://bayesfactorpcl.r-forge.r-project.org/)。在心理學(xué)及相關(guān)領(lǐng)域, 最近有不少研究者試圖引入貝葉斯統(tǒng)計(jì)的方法(Dienes, 2008, 2011,2014; Hoijtink, 2011; Klugkist, Laudy, & Hoijtink,2005; Kruschke, 2014; Masson, 2011; Morey &Rouder, 2011; Mulder et al., 2009; Rouder, Morey,Speckman, & Province, 2012; Rouder, Speckman,Sun, Morey, & Iverson, 2009; Vanpaemel, 2010;Wagenmakers, Lodewyckx, Kuriyal, & Grasman,2010)。在心理學(xué)(Open Science Collaboration, 2015;胡傳鵬等, 2016)、神經(jīng)成像研究(Chen, Lu, & Yan,2018; Zuo & Xing, 2014)等領(lǐng)域出現(xiàn)“重復(fù)危機(jī)”的背景之下, 使用合理的統(tǒng)計(jì)方法顯得更加迫切。但對于不少心理學(xué)及相關(guān)領(lǐng)域的研究者來說,使用R語言或其他計(jì)算機(jī)語言進(jìn)行貝葉斯因子計(jì)算仍然較為困難。為解決這一障礙, 研究者們開發(fā)了與商業(yè)統(tǒng)計(jì)軟件 SPSS具有相似圖形界面的統(tǒng)計(jì)工具JASP (https://jasp-stats.org/, JASP team 2017) (JASP Team, 2017; Marsman & Wagenmakers,2017a; Wagenmakers, Love, et al., 2017; Wagenmakers,Marsman, et al., 2017), 簡化了貝葉斯因子的計(jì)算。
本文旨在為向心理學(xué)及相關(guān)學(xué)科的研究者介紹貝葉斯因子及其使用。首先本文將介紹貝葉斯因子的原理, 及其相對于傳統(tǒng)假設(shè)檢驗(yàn)中p值的優(yōu)勢; 再以獨(dú)立樣本t檢驗(yàn)為例, 介紹了如何使用
JASP計(jì)算貝葉斯因子, 以及如何解讀和報(bào)告其結(jié)果。在此基礎(chǔ)上, 討論了貝葉斯因子的應(yīng)用價(jià)值及其不足。
貝葉斯因子是貝葉斯統(tǒng)計(jì)在假設(shè)檢驗(yàn)上的應(yīng)用, 因此要理解貝葉斯因子, 首先需要理解貝葉斯統(tǒng)計(jì)的原理。
正由于頻率學(xué)派將概率看作長期行為表現(xiàn)的結(jié)果, 要理解頻率學(xué)派的概率, 通常需要假想尚未發(fā)生的事件。例如, 在NHST框架之下,p值的意義是假定H0為真的情況下, 出現(xiàn)當(dāng)前結(jié)果及比當(dāng)前結(jié)果更加極端結(jié)果的概率。換句話說,p值表達(dá)的意思是:假如H0為真, 如果采用完全相同的條件, 無數(shù)次地重復(fù)當(dāng)前實(shí)驗(yàn), 這些實(shí)驗(yàn)中將有多大比例會出現(xiàn)當(dāng)前結(jié)果模式或者比當(dāng)前結(jié)果模式更極端的模式。因此,p值的意義暗含一個(gè)重要的假設(shè):我們能夠無數(shù)次地重復(fù)試驗(yàn)。但研究者卻經(jīng)常忽略這種無數(shù)次重復(fù)相同試驗(yàn)的假定, 誤認(rèn)為p值是單次檢驗(yàn)中拒絕零假設(shè)時(shí)犯錯(cuò)誤的概率(Greenland et al., 2016)。這種對NHST的誤解,恰好是帶有貝葉斯統(tǒng)計(jì)色彩, 即根據(jù)當(dāng)前的數(shù)據(jù)計(jì)算某個(gè)模型正確或者錯(cuò)誤的概率。
與頻率學(xué)派統(tǒng)計(jì)不同, 貝葉斯統(tǒng)計(jì)最大的特點(diǎn)之一在于:它考慮了不同可能性對于個(gè)體來說的可信度(credibility) (Kruschke, 2014)。而通過不斷獲得的數(shù)據(jù), 人們可以改變對不同可能性的相應(yīng)程度。這種思維方式與人們在日常生活中的經(jīng)驗(yàn)非常相似:當(dāng)我們不斷地獲得支持某個(gè)觀點(diǎn)的證據(jù)時(shí), 我們會更加相信該觀點(diǎn)。
雖然貝葉斯統(tǒng)計(jì)對概率的理解與頻率學(xué)派不同, 但是其對概率的計(jì)算卻嚴(yán)格依照概率的基本原則:加法原則與乘法原則。貝葉斯統(tǒng)計(jì)中最核心的貝葉斯法則(Bayes rule), 也是根據(jù)簡單的加法原則與乘法原則推導(dǎo)而來。依據(jù)概率的乘法原則, 隨機(jī)事件A與隨機(jī)事件B同時(shí)發(fā)生的概率為:
貝葉斯學(xué)派(Bayesian statistics)與頻率學(xué)派(Frequentist statistics)是統(tǒng)計(jì)學(xué)中主要的兩個(gè)學(xué)派,其核心的差異在于他們對于概率(probability)所代表的意義有著不一樣的解讀。對于頻率學(xué)派而言,概率是通過無數(shù)次重復(fù)抽樣中頻率(frequency)的預(yù)期值。與之相反, 貝葉斯學(xué)派則認(rèn)為, 概率是對一件事情的相信程度, 從 0到 1表示人們基于所獲得的信息, 在多大程度上相信某件事情是真的。由于不同人對同一事件的相信程度可能不同,因此, 貝葉斯學(xué)派的概率是具有主觀性。但貝葉斯學(xué)派的概率卻不是任意的:人們通過合理的方式, 不斷獲取并更新已知信息, 可以最終消除主觀性, 從而達(dá)成一致。
式(1)即為聯(lián)合概率的公式, 即A與B同時(shí)發(fā)生的概率。其意義為:A與B的聯(lián)合概率(p(A∩B))為, 在B發(fā)生的條件下A發(fā)生的概率(p(A|B))與B發(fā)生的的概率(p(B))的乘積, 也等于在A發(fā)生的條件下B發(fā)生的概率(p(B|A))與A發(fā)生的概率(p(A))的乘積。其中,p(A|B)和p(B|A)均為條件概率(conditional probability), 二者意義不同。
對式(1)進(jìn)行變換, 即可以得到如下公式:
式(2)即為貝葉斯定理公式。其代表的意義是,如果我們要計(jì)算 B發(fā)生的條件下 A發(fā)生的概率(p(A|B)), 可以通過使用 A與 B同時(shí)發(fā)生的概率(p(A∩B))除以 B發(fā)生的概率(p(B)), 也就等于在A發(fā)生的條件下B發(fā)生的概率, 與A發(fā)生概率的乘積, 再除以B發(fā)生的概率。式(2)將兩個(gè)條件概率聯(lián)系起來, 從而使得計(jì)算不同的條件概率成為可能。
在貝葉斯統(tǒng)計(jì)的框架之下, 式(2)可以看作是一次信息的更新。假定我們需要根據(jù)一次實(shí)驗(yàn)收集到的數(shù)據(jù)(data)來檢驗(yàn)?zāi)硞€(gè)理論模型為真的可能性。以心理學(xué)研究中常用的零假設(shè)H0為例, 則可以將式(2)改寫如下:
p(H0|data)表示數(shù)據(jù)更新之后理論模型H0正確的概率, 即后驗(yàn)概率(posterior);p(H0)表示更新數(shù)據(jù)之前認(rèn)為理論模型H0正確的概率, 即先驗(yàn)概率(prior); 而p(data|H0)則是在模型H0之下, 出現(xiàn)當(dāng)前數(shù)據(jù)的概率, 即邊緣似然性(marginal likelihood)。由此可以看出, 在貝葉斯統(tǒng)計(jì)之中, 一次數(shù)據(jù)收集(實(shí)驗(yàn))的主要功能在于幫助我們更新理論模型的可信度。
根據(jù)式(3), 我們可以使用數(shù)據(jù)對任意的模型為真的概率進(jìn)行更新。在假設(shè)檢驗(yàn)中, 我們可以根據(jù)觀測數(shù)據(jù)同時(shí)對零假設(shè)(理論模型H0)和備擇假設(shè)(理論模型H1)的可信度進(jìn)行更新(分別見式(3)和式(4)), 得到它們更新的后驗(yàn)概率。
得到H0和H1的后驗(yàn)概率后, 可能對兩者進(jìn)行比較, 即式(5):
其中, 貝葉斯因子為:
在式(6)中, BF10下標(biāo)的1代表的是H1, 0代表的是H0, 因此, BF10即代表的是H1與H0對比的貝葉斯因子, 而 BF01則代表的是H0與H1對比的貝葉斯因子。例如, BF10= 19表示的是, 在備擇假設(shè)H1為真條件下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性是虛無假設(shè)H0條件下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性的19倍。從這個(gè)定義公式中可以看出, 貝葉斯因子是體現(xiàn)了當(dāng)前數(shù)據(jù)將先驗(yàn)概率更新為后驗(yàn)概率過程中的變化。
正是如此, 貝葉斯因子與 NHST回答了不同的問題。NHST試圖回答“假定我們已知兩個(gè)變量的關(guān)系(如, 兩種條件沒有差異), 出現(xiàn)當(dāng)前觀測數(shù)據(jù)的模式或者更加極端模式的概率(p(more extreme > observed data|H0))有多大”的問題; 而貝葉斯因子試圖回答的是:“在當(dāng)前數(shù)據(jù)更可能在哪個(gè)理論模型下出現(xiàn)”的問題。在假設(shè)檢驗(yàn)中, 貝葉斯因子具有一些 NHST不具備的優(yōu)勢(見表 1),下一小節(jié)將對這些優(yōu)勢進(jìn)行詳細(xì)說明。
在 Jeffreys (1961)的基礎(chǔ)上, Wagenmakers,Love等人(2017)對貝葉斯因子的大小所代表的意義進(jìn)行原則上的劃分(見表2)。但是這個(gè)劃分僅是大致參考, 不能嚴(yán)格對應(yīng), 研究者需要根據(jù)具體的研究來判斷貝葉斯因子的意義。
表1 假設(shè)檢驗(yàn)中貝葉斯推斷與傳統(tǒng)NHST推斷的比較
由于貝葉斯因子中先驗(yàn)概率具有至關(guān)重要的作用, 如何選擇備擇假設(shè)的先驗(yàn)分布變得尤其重要。其中一個(gè)較為合理的做法是, 根據(jù)某問題的先前研究結(jié)果(如元分析得到的效應(yīng)量)來設(shè)定備擇假設(shè)的先驗(yàn)分布。但這種做法在很多情況下并不現(xiàn)實(shí):首先根據(jù)范式的不同, 效應(yīng)量的可能分布不同; 更重要地, 由于許多研究本身具有一定的探索性, 并沒有先前研究結(jié)果作為指導(dǎo)。因此, 更加常用的做法是使用一個(gè)綜合的、標(biāo)準(zhǔn)化的先驗(yàn)。
例如, 在貝葉斯t檢驗(yàn)中, 使用柯西分布(Cauchy distribution)作為備擇假設(shè)的先驗(yàn)可能是比較合理的選擇(Jeffreys, 1961; Ly, Verhagen, &Wagenmakers, 2016a, 2016b; Rouder et al., 2009)。與標(biāo)準(zhǔn)正態(tài)分布相比, 柯西分布在 0附近概率密度相對更小一些, 因此其比標(biāo)準(zhǔn)的正態(tài)允許更多較大的效應(yīng)(見圖 1); 而與均勻分布(即效應(yīng)量在所有值上的分布完全相同)相比, 柯西分布更偏好零假設(shè)一些(Jeffreys, 1961; Rouder et al., 2009)。因此, 對于備擇假設(shè)的先驗(yàn)分布, 可以如下表示:
表2 貝葉斯因子決策標(biāo)準(zhǔn)
其中x0為柯西分布的位置(position)參數(shù), γ為尺度參數(shù)(Cauchy scale, 也有文獻(xiàn)中使用 r來表示)。Jeffreys (1961)最早提出在貝葉斯因子中使用柯西分布作為先驗(yàn)來比較兩樣本的問題。最近研究者的進(jìn)一步驗(yàn)證表明, 柯西分布可以作為先驗(yàn)用于計(jì)算心理學(xué)研究中常用的貝葉斯因子分析,如t檢驗(yàn)(Rouder et al., 2009)、ANOVA (Rouder et al., 2012)和相關(guān)分析(Ly, Marsman, & Wagenmakers,2018; Ly et al., 2016b)等。這些驗(yàn)證性的工作, 為貝葉斯因子在心理學(xué)及相關(guān)學(xué)科研究中的應(yīng)用打下了基礎(chǔ)。
圖1 柯西分布與正態(tài)分布的對比
如前所述, 在假設(shè)檢驗(yàn)中, 貝葉斯因子除了更加符合人們的直覺之外, 還具有一些 NHST所不具備的優(yōu)勢。這些優(yōu)勢可以總結(jié)為五個(gè)方面(見表1)。以下將從這五個(gè)方面展開。
貝葉斯因子的計(jì)算同時(shí)考慮H0和H1, 并根據(jù)全部現(xiàn)有數(shù)據(jù)對H0和H1為真的先驗(yàn)概率進(jìn)行更新, 在此基礎(chǔ)之上, 比較在當(dāng)前數(shù)據(jù)下哪個(gè)理論模型(H0和H1)更合理。這種思路與NHST不同:在NHST框架之下, 計(jì)算p值僅需要假定H0為真,而對H1不做任何假設(shè), 因此p值與H1無關(guān)。NHST的邏輯是, 如果H0為真的條件下, 觀察到當(dāng)前數(shù)據(jù)出現(xiàn)的概率非常小, 則拒絕H0, 接受H1。這種情況下, NHST忽略了一種可能性:當(dāng)前數(shù)據(jù)下,H1為真的概率與H0為真的概率相當(dāng)或者更小(Wagenmakers, Verhagen, et al., 2017)。例如, 在Bem (2011) 中,H0是被試的反應(yīng)不受到未來出現(xiàn)刺激的影響,H1是未來出現(xiàn)的刺激會影響到被試當(dāng)前反應(yīng), 即被試能夠“預(yù)知”尚未出現(xiàn)的刺激。雖然采用NHST的邏輯Bem (2011)得到了p< 0.05的結(jié)果, 即H0為真時(shí), 得到當(dāng)前數(shù)據(jù)的概率(p(data|H0))很低, 因此作者選擇拒絕H0而接受H1,認(rèn)為被試能夠預(yù)知未來出現(xiàn)的刺激。然而, 研究者更關(guān)心的是, 根據(jù)當(dāng)前數(shù)據(jù), 我們能夠得到某個(gè)模型/假設(shè)(如H1)為真的概率(p(H1|data)), 而非零假設(shè)H0為真時(shí)得到當(dāng)前數(shù)據(jù)的概率(p(data|H0))。在Bem (2011)這個(gè)研究中, 先驗(yàn)知識告訴我們H1本身為真的概率可能非常低, 在當(dāng)前數(shù)據(jù)模式下,H1為真的可能性p(H1|data)極可能比H0為真的可能性p(H0|data)更低(Rouder & Morey,2011; Wagenmakers et al., 2011), 但NHST卻完全忽視了這一點(diǎn)。
同樣, 由于貝葉斯因子同時(shí)量化當(dāng)前數(shù)據(jù)對H0和H1各自的支持強(qiáng)度, 其可以用來支持H0(Dienes, 2014)。但是, 在傳統(tǒng)的NHST框架之下,假設(shè)檢驗(yàn)僅在H0為真的假設(shè)下進(jìn)行, 僅憑借小于顯著性水平(比如 0.05或 0.005)無法為H0是否為真提供證據(jù)。比如, 僅依據(jù)假設(shè)檢驗(yàn)的結(jié)果p=0.2并不能推斷有證據(jù)表明沒有效應(yīng)(evidence of absence) (除非結(jié)合樣本量、效應(yīng)量和統(tǒng)計(jì)效力Power做出綜合判斷)。
實(shí)際的研究中, 能夠?qū)0提供量化的證據(jù)具有非常重要的意義(Gallistel, 2009; Rouder et al.,2009), 它可以直觀地讓研究者區(qū)分出有證據(jù)表明沒有效應(yīng)(evidence of absence)和沒有證據(jù)表明有效應(yīng)(absence of evidence)這兩種情況(Dienes,2014)。具體來說, 貝葉斯因子的結(jié)果有三種狀態(tài):(1)提供了支持 H1的證據(jù)(即有證據(jù)表明有效應(yīng));(2)支持H0的證據(jù)(即有證據(jù)表明沒有效應(yīng)); 或(3)證據(jù)對兩者都不支持(沒有足夠的證據(jù)表明有效應(yīng)還是無效應(yīng))。例如, 貝葉斯因子 BF01= 15表明觀察到的數(shù)據(jù)出現(xiàn)在 H0為真情況下的可能性是在 H1為真情況下的可能性的 15倍, 表明當(dāng)前數(shù)據(jù)更加支持沒有效應(yīng)的假設(shè)H0。但是, 假如BF01= 1.5, 則說明觀察到的數(shù)據(jù)出現(xiàn)在H0為真情況下的可能性是在H1為真情況下的可能性的1.5倍, 則說明當(dāng)前數(shù)據(jù)對于兩個(gè)假設(shè)的支持程度相當(dāng), 沒有足夠的證據(jù)支持H0或者H1(見表2關(guān)于貝葉斯因子大小意義的建議)。
值得注意的是, 不管是支持H1, 還是支持H0,貝葉斯因子提供的證據(jù)是相對的, 即相對于某個(gè)假設(shè)更支持另一個(gè)假設(shè), 因此可能存在第三個(gè)模型H2比H1和H0均更接近真實(shí)情況, 具有更高的后驗(yàn)概率。值得指出的是, 最近有研究者在NHST框架之下發(fā)展出可以接受零假設(shè)的方法:等同性檢驗(yàn)(Equivalence Test)。這種方法通過設(shè)定多個(gè)H0來檢驗(yàn)效應(yīng)量是否與 0沒有差異, 從而檢驗(yàn)是否能接受H0(Lakens, 2017)。但等同性檢驗(yàn)仍然使用了p值, 無法提供對證據(jù)的直接測量(Schervish,1996)。
貝葉斯因子同時(shí)分別量化了當(dāng)前數(shù)據(jù)對H0和H1支持的強(qiáng)度, 其與傳統(tǒng)NHST相比, 其對H0和H1的支持更加均衡, 從而其拒絕H0的傾向也相對沒有那么強(qiáng)烈。
在傳統(tǒng) NHST假設(shè)之下, 只要研究者能夠收集足夠多的數(shù)據(jù), 總能夠得到p< 0.05從而拒絕H0, 與之相反的是, 貝葉斯因子會隨著數(shù)據(jù)的增加而逐漸趨于穩(wěn)定(見后文3.2小節(jié)關(guān)于貝葉斯因子收斂的討論)。對于同樣的數(shù)據(jù),p值也似乎比貝葉斯因子對H0的反對程度更強(qiáng)。例如, 有研究者分析了美國總統(tǒng)選舉中候選人的身高與當(dāng)選之間的關(guān)系, 對相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)之后發(fā)現(xiàn)r=0.39,p= 0.007 (Stulp, Buunk, Verhulst, & Pollet,2013)。如果使用貝葉斯因子分析, 則會得到BF10=6.33 (Wagenmakers, Marsman, et al., 2017)。雖然兩種方法大致上支持了同樣的結(jié)論(即拒絕H0與中等程度的證據(jù)支持H1), 但是從p值上看, 似乎表明拒絕H0的證據(jù)很強(qiáng), 而貝葉斯因子得到的支持則是有保留的。Wetzels等人(2011)比較了855個(gè)t檢驗(yàn)的結(jié)果, 發(fā)現(xiàn)雖然大部分的情況下p值與貝葉斯因子在結(jié)論上的方向一致, 但是貝葉斯因子相對來說更加謹(jǐn)慎:p值在0.01與0.05之間的統(tǒng)計(jì)顯著結(jié)果, 其對應(yīng)的貝葉斯因子只表明有非常弱的證據(jù)。對傳統(tǒng)p值的貝葉斯解讀, 詳見(Johnson,2013; Marsman & Wagenmakers, 2017b)。
計(jì)算貝葉斯因子時(shí), 可以根據(jù)數(shù)據(jù)來更新對H0和H1支持的程度, 因此, 隨著新數(shù)據(jù)的出現(xiàn),可以不斷對不同假設(shè)的支持程度進(jìn)行更新。在貝葉斯框架之下, 貝葉斯因子的計(jì)算與解讀均不需要假定存在無數(shù)的重復(fù)實(shí)驗(yàn), 而是按照似然性法則對貝葉斯因子進(jìn)行更新, 此外數(shù)據(jù)的出現(xiàn)順序不會影響貝葉斯因子的解讀(Rouder, 2014)。
貝葉斯統(tǒng)計(jì)的框架之下, 不需要假定無數(shù)次重復(fù)試驗(yàn), 對貝葉斯因子的解讀不會受到何時(shí)停止收集數(shù)據(jù)的影響(Rouder, 2014)。實(shí)際上, 如果研究者們能夠采用序列貝葉斯因子設(shè)計(jì), 在實(shí)驗(yàn)開始前提前設(shè)置貝葉斯因子的合理閾值(通常是10, 即較強(qiáng)的證據(jù)), 則能夠在實(shí)驗(yàn)中根據(jù)數(shù)據(jù)增加對后驗(yàn)概率進(jìn)行更新, 可以在適當(dāng)?shù)臅r(shí)候停止收集數(shù)據(jù)(Schlaifer & Raiffa, 1961; Sch?nbrodt,Wagenmakers, Zehetleitner, & Perugini, 2017)。這種不受到停止規(guī)則影響的原則, 對實(shí)際研究具有重要的意義, 使得研究者能合理有效地收集數(shù)據(jù)。
抽樣計(jì)劃指研究者根據(jù)數(shù)據(jù)分析的假設(shè), 在研究開始之前對樣本選擇以及數(shù)據(jù)收集過程進(jìn)行計(jì)劃以保證數(shù)據(jù)符合統(tǒng)計(jì)假設(shè)。例如, 心理學(xué)實(shí)驗(yàn)中通常采用的隨機(jī)抽樣以及隨機(jī)分配的做法。由于 NHST的使用包含了一些潛在的假設(shè), 抽樣計(jì)劃(尤其是功效分析, power analysis)對于解讀p值具有重要意義(Halsey, Curran-Everett, Vowler,& Drummond, 2015)。
但對于貝葉斯因子的解讀, 則不受到抽樣計(jì)劃的影響, 原因在于貝葉斯因子的計(jì)算使用似然性原則(Berger & Wolpert, 1988), 其對數(shù)據(jù)的分析沒有預(yù)先的假設(shè)。換句話說, 即使研究者對數(shù)據(jù)收集的過程不清楚, 仍能夠計(jì)算和解讀貝葉斯因子。這個(gè)特點(diǎn)對于分析自然情境中獲得的數(shù)據(jù)非常實(shí)用。
仍然以上述的美國總統(tǒng)選舉中候選人的身高與當(dāng)選之間關(guān)系的研究為例, 研究者發(fā)現(xiàn)r= 0.39,p= 0.007 (Stulp et al., 2013)。在NHST框架之下,要對p值進(jìn)行合理的解讀, 我們必須假定實(shí)驗(yàn)者在總統(tǒng)選舉之前已經(jīng)計(jì)劃好進(jìn)行46次選舉, 并且在第46次選舉后停止收集數(shù)據(jù), 并在此基礎(chǔ)之上計(jì)算相關(guān)系數(shù)。如果不滿足這些假設(shè)條件,p=0.007代表的意義很難解讀。但很明顯的是, 這些假設(shè)是不成立的。
同樣, 這個(gè)例子還包含與停止規(guī)則(stopping rule, 即什么條件下停止收集數(shù)據(jù))相關(guān)的問題:在真實(shí)的生活中, 美國的總統(tǒng)選舉還會繼續(xù), 數(shù)據(jù)會繼續(xù)增加。如何分析未來的這些數(shù)據(jù)呢?如果每新增加一個(gè)數(shù)據(jù)均進(jìn)行一次 NHST分析, 則會引起多重比較的問題, 使得假陽性增加1對于頻率主義的分析來說, 多重比較是非獨(dú)立的, 校正的方法減少但不能消除一類錯(cuò)誤。。
與 NHST不同, 貝葉斯因子能夠隨著新數(shù)據(jù)不斷地出現(xiàn)而不斷地更新, 從而能夠分析實(shí)驗(yàn)室之外的真實(shí)數(shù)據(jù), 也能夠?qū)?shù)據(jù)進(jìn)行有意義的解讀。從這個(gè)角度來講, 貝葉斯因子實(shí)時(shí)監(jiān)控證據(jù)的優(yōu)勢與不受抽樣計(jì)劃影響的優(yōu)勢是相互關(guān)聯(lián)的:這兩個(gè)優(yōu)勢均是因?yàn)樨惾~斯因子不依賴于研究者收集數(shù)據(jù)的意圖。但是, 正如我們在后面要提到的, 雖然隨著數(shù)據(jù)更新而更新貝葉斯因子不會影響到對其解讀, 但這種忽略假陽性的做法并不能避免假陽性的升高, 研究者仍需要通過提前設(shè)置合理的閾值和(或)選擇合適的先驗(yàn)來控制假陽性。
總之, 貝葉斯因子以觀察到的數(shù)據(jù)為條件,定量地分析當(dāng)前數(shù)據(jù)對H0和H1提供的支持程度。通過實(shí)時(shí)地監(jiān)控證據(jù)強(qiáng)度的變化, 貝葉斯因子讓研究者可以在收集數(shù)據(jù)的同時(shí)監(jiān)控證據(jù)強(qiáng)度的變化。如果預(yù)先確定貝葉斯因子的停止閾值(比如BF10大于10或者BF10小于1/10時(shí)停止收集數(shù)據(jù)),研究者能夠在證據(jù)足夠充足停止收集數(shù)據(jù)。此外,即使缺乏數(shù)據(jù)收集計(jì)劃信息的情況下, 貝葉斯因子仍然能夠從觀測數(shù)據(jù)中得到證據(jù)來更加支持哪個(gè)假設(shè)。
由于貝葉斯因子的獨(dú)特優(yōu)勢, 因此很早就有研究者試圖將其引入心理學(xué)的研究之中(Edwards et al., 1963)。但貝葉斯因子的計(jì)算在實(shí)際情況中隨著數(shù)據(jù)類型和分析類型不同而變得更加復(fù)雜(相關(guān)公式可以參考, Morey & Rouder, 2011; Rouder et al., 2012; Rouder, Morey, Verhagen, Swagman, &Wagenmakers, 2017; Rouder et al., 2009)。正是由于這個(gè)原因, 貝葉斯因子在心理學(xué)的研究中一直受到很大的限制。最近, 研究者利用R語言豐富的軟件包, 開發(fā)了可視化的統(tǒng)計(jì)工具 JASP(https://jasp-stats.org/), 該軟件采用與 SPSS類似的圖形界面, 讓貝葉斯因子的計(jì)算變得更加容易實(shí)現(xiàn), 本小節(jié)將介紹JASP軟件及其使用2本小節(jié)內(nèi)容部分來自于Wagenmakers, E.-J., Love, J., Marsman,M., Jamil, T., Ly, A., Verhagen, J., et al. (2017). Bayesian Inference for Psychology. Part II: Example Applications with JASP. Psychonomic Bulletin & Review.。
JASP是一個(gè)免費(fèi)、開源的統(tǒng)計(jì)軟件, 其使用R語言的工具包進(jìn)行數(shù)據(jù)處理, 但其使用不需要安裝R。JASP的長期目標(biāo)是讓所有人能夠通過免費(fèi)的統(tǒng)計(jì)軟件進(jìn)行最先進(jìn)統(tǒng)計(jì)技術(shù), 尤其是貝葉斯因子。
JASP是在心理學(xué)研究面臨可重復(fù)危機(jī)的背景下開發(fā)的, 其開發(fā)理念如下:第一, 開源與免費(fèi),因?yàn)殚_源應(yīng)該是科學(xué)研究的本質(zhì)元素; 第二, 包容性, 既包括貝葉斯分析, 也包括 NHST分析方法, 而且 NHST分析方法中, 增加了對效應(yīng)量及其置信區(qū)間的輸出(Cumming, 2014); 第三, 簡潔性, 即 JASP的基本軟件中僅包括最常用的分析,而更高級的統(tǒng)計(jì)方法又可以通過插件模塊進(jìn)行補(bǔ)充; 第四, 友好的圖形界面, 例如, 輸出部分隨著用戶選擇變量輸入而實(shí)時(shí)更新, 表格使用 APA格式。同時(shí), JASP的使用遞進(jìn)式輸出, 即默認(rèn)的結(jié)果輸出是最簡潔的, 更多的結(jié)果輸出可以由研究者自己進(jìn)行定義。此外, 為方便公開和分享分析過程,JASP將輸入的數(shù)據(jù)與輸出結(jié)果保存于同一個(gè)后綴為.jasp的文件之中, 每個(gè)分析的結(jié)果均與相應(yīng)的分析和變量數(shù)據(jù)相關(guān)聯(lián)。這種結(jié)果與數(shù)據(jù)整合的文件可以與開放科學(xué)平臺Open science framework (OSF,https://osf.io/)兼容, 從而做到數(shù)據(jù)與結(jié)果公開。
目前, JASP中可以實(shí)現(xiàn)多種實(shí)驗(yàn)設(shè)計(jì)的貝葉斯因子分析, 包括單樣本t檢驗(yàn)、獨(dú)立樣本t檢驗(yàn)、配對樣本t檢驗(yàn)、方差分析、重復(fù)測量的方差分析、ANCOVA和相關(guān)分析。對于每一種分析, 均提供了頻率學(xué)派的方法和貝葉斯的方法。JASP的貝葉斯因子分析中采用默認(rèn)先驗(yàn)分布, 但也可以修改。接下來本文將Wagenmakers等人(2015, https://osf.io/uszvx/)對 Topolinski和 Sparenberg (2012)的重復(fù)實(shí)驗(yàn)數(shù)據(jù)為例進(jìn)行分析, 說明如何使用JASP進(jìn)行獨(dú)立樣本t檢驗(yàn)。其他常用貝葉斯因子分析,可以進(jìn)一步參考Wagenmakers, Love等人(2017)。
在Topolinski和Sparenberg (2012)的第二個(gè)實(shí)驗(yàn)中, 一組被試以順時(shí)針方向拔動一個(gè)廚房用的鐘, 而另一組則以逆時(shí)針方向撥動。隨后, 被試填寫一個(gè)評估經(jīng)驗(yàn)開放性的問卷。他們的數(shù)據(jù)表明,被試順時(shí)針轉(zhuǎn)時(shí)比逆時(shí)針轉(zhuǎn)的被試報(bào)告更高的對經(jīng)驗(yàn)的開放性(Topolinski & Sparenberg, 2012) (但是見 Francis, 2013)。Wagenmakers等人(2015)采用提前注冊(preregistration)的方式對該研究進(jìn)行重復(fù), 在實(shí)驗(yàn)開始前確定停止收集數(shù)據(jù)的標(biāo)準(zhǔn):當(dāng)支持某一個(gè)假設(shè)的貝葉斯因子達(dá)到 10時(shí)即停止收集數(shù)據(jù), 或者每條件下達(dá)到50個(gè)樣本后停止收集數(shù)據(jù)。此外, 預(yù)注冊時(shí)采用單側(cè)t檢驗(yàn)的默認(rèn)先驗(yàn), 即γ = 1的柯西分布。而單側(cè)的t檢驗(yàn)的先驗(yàn)是只有正效應(yīng)的柯西分布, 即備擇假設(shè)為H+:Cauchy (0, 1)。
有研究者認(rèn)為, 默認(rèn)先驗(yàn)分布 Cauchy (0, 1)是不現(xiàn)實(shí)的, 因?yàn)樵谶@個(gè)分布中, 大的效應(yīng)量占的比例太大(大于1的效應(yīng)量在分布中占了50%以上); 相反, 另一些人覺得這個(gè)分布不現(xiàn)實(shí)是因?yàn)檫@個(gè)分布中, 靠近 0的效應(yīng)量的比重太大, 即效應(yīng)量為0是最可能的值。一個(gè)避免這些問題的做法是減小柯西分布的尺度參數(shù)γ。在BayesFactor工具包中, 默認(rèn)采用的
JASP中對于單側(cè)的t檢驗(yàn)同樣采用這個(gè)先驗(yàn)。γ減小意味著H1和H0相似, 他們對觀測數(shù)據(jù)的預(yù)測相似, 更難得到支持H0的強(qiáng)證據(jù)。
使用 JASP可以對這批數(shù)據(jù)進(jìn)行貝葉斯的獨(dú)立樣本t檢驗(yàn)。首先用 JASP打開數(shù)據(jù)(File →Examples → “Kitchen Rolls”, 或者從 https://osf.io/9r423/下載后, 點(diǎn)擊File → Open), 然后在T-tests的面板中選擇“Bayesian Independent Samples T-test”。將顯示如圖1中間圖所示的對話框。我們已經(jīng)將“mean NEO”作為因變量(dependent variable),“Rotation”作為分組變量(grouping variable)。如圖2中間所示, 將Cauchy先驗(yàn)設(shè)置為JASP的默認(rèn)值γ = 0.707, 同時(shí)勾選了“Prior and posterior”及其子選項(xiàng)的“Additional info”這兩個(gè)選項(xiàng), 則得到如圖 2右側(cè)所示的結(jié)果:與順時(shí)針相比, 逆時(shí)針對經(jīng)驗(yàn)的開放性稍微高一些, 這個(gè)結(jié)果的方向與Topolinski和 Sparenberg (2012)所假設(shè)的正好相反。圖2右圖下半部分中, 實(shí)線為后驗(yàn)分布, 虛線為先驗(yàn)分布??梢钥吹? 大部分的后驗(yàn)概率是負(fù)值, 其的中值是?0.13, 95%的可信區(qū)間從?0.5到0.23。BF01= 3.71, 表明觀察到的數(shù)據(jù)在H0假設(shè)之下的可能性是在H1假設(shè)之下可能性的 3.71倍(我們選擇了BF01, 因?yàn)锽F01=3.71相對于等價(jià)的BF10=0.27來說更好解釋)。
通過這個(gè)初步的展示, 我們可以了解到如何進(jìn)行貝葉斯獨(dú)立樣本t檢驗(yàn)的操作。接下來展示如何按照提前注冊過的方法, 對這批數(shù)據(jù)進(jìn)行貝葉斯單側(cè)獨(dú)立樣本t檢驗(yàn)。由于描述性統(tǒng)計(jì)輸出表明順時(shí)針是組 1而逆時(shí)針是組 2, 我們將在”Hypothesis”的面板處勾選“group 1 > group 2”, 正如圖3中間所示。
單側(cè)檢驗(yàn)的結(jié)果如圖3右邊部分所示。與預(yù)期的一致, 如果觀察到的效應(yīng)是與假設(shè)相反, 則這種使用單側(cè)檢驗(yàn)將先驗(yàn)知識整合到分析之中的做法, 增加支持H0的相對證據(jù)(也見Matzke等人(2015)), 即貝葉斯因子BF01從3.71增加到了7.74,意味著觀察到的數(shù)據(jù)在H0下的可能是在H+可能性的7.74倍。
圖2 使用JASP進(jìn)行貝葉斯獨(dú)立樣本t檢驗(yàn)時(shí)的操作截屏。軟件左側(cè)是數(shù)據(jù); 中間為數(shù)據(jù)分析選項(xiàng); 右側(cè)為結(jié)果輸出。
值得注意的是, 在H+下的后驗(yàn)分布是集中在0但不是沒有負(fù)值(見圖3右側(cè)), 與H+中的順序限制是一致的。這一點(diǎn)與傳統(tǒng)頻率主義的單側(cè)置信區(qū)間不同, 傳統(tǒng)方法的單尾置信區(qū)間為[?0.23 +∞)3可以使用R語言中的t.test函數(shù)來得到p值的區(qū)間[–.23 +∞)。。雖然傳統(tǒng)頻率主義的區(qū)間在數(shù)學(xué)上是良好定義的(即, 它包括了全部的不會被單尾的a= 0.05顯著性檢驗(yàn)拒絕的值), 但是大部分研究者會發(fā)現(xiàn)這個(gè)區(qū)間即不好理解也沒有信息量(Morey, Hoekstra,Rouder, Lee, & Wagenmakers, 2016)。
除了計(jì)算貝葉斯因子外, JASP還可以進(jìn)行穩(wěn)健性分析(Bayesian robustness check), 從而量化柯西先驗(yàn)分布尺度參數(shù)γ對貝葉斯因子的影響。如圖4所示, 選中“Bayes factor robustness check”的選項(xiàng), 這將得到圖 4右側(cè)上面的圖。從該圖可以看到, 當(dāng)Cauchy先驗(yàn)的γ為0時(shí),H0與H+相同(BF0+= 1), BF0+隨著γ的增加而增加。在JASP的默認(rèn)值γ = 0.707, 貝葉斯因子BF0+= 7.73; 而對于Jeffrey默認(rèn)的γ = 1, 貝葉斯因子BF0+= 10.75。因此, 在一系列 γ的先驗(yàn)值中, 當(dāng)前數(shù)據(jù)顯示了對H0的中等到強(qiáng)的證據(jù)支持。
此外, 還可以勾選圖4中間的部分的“Sequential analysis”及其子選項(xiàng)“Robustness check”, 進(jìn)行序列分析。其結(jié)果見圖4右側(cè)下半部分的圖。序列分析顯示的是貝葉斯因子隨著著抽樣而變化的結(jié)果,也就是說, 研究都可以在新數(shù)據(jù)收集到時(shí)對證據(jù)的積累進(jìn)行監(jiān)控和可視化。從圖中可以看到, 實(shí)際上Wagenmakers等人(2015)并未按預(yù)注冊時(shí)的γ= 1 先驗(yàn)來計(jì)算 BF0+并在 BF0+> 10 或者 BF+0> 10時(shí)立刻停止收集數(shù)據(jù): 在55個(gè)被試之后, 虛線超過了BF0+> 10, 但是數(shù)據(jù)仍然繼續(xù)收集。在實(shí)踐中, 每隔幾天檢驗(yàn)一次貝葉斯因子, 有助于了解貝葉斯因子是否在某個(gè)時(shí)間點(diǎn)上超過預(yù)先決定的標(biāo)準(zhǔn), 并據(jù)此決定是否停止數(shù)據(jù)。
序列分析的一個(gè)優(yōu)點(diǎn)是它可視化了貝葉斯因子在不同先驗(yàn)條件下的收斂過程, 即貝葉斯因子在 log尺度上差異開始穩(wěn)定不變(如, Bahadur &Bickel, 2009; Gronau & Wagenmakers, 2017)。在當(dāng)前的例子中, 當(dāng)被試數(shù)量達(dá)到35時(shí), 不同先驗(yàn)下的貝葉斯因子開始出現(xiàn)收斂。要理解為什么在貝葉斯因子的 log值的差異會在一些初步的觀測數(shù)據(jù)之后不再變化, 我們可以假定數(shù)據(jù) y包括兩個(gè)部分y1和y2, 根據(jù)條件概率公式, BF0+(y) = BF0+(y1) × BF0+(y2|y1)。這個(gè)公式表明, 貝葉斯因子并非是對不同數(shù)據(jù)進(jìn)行盲目地相乘, 實(shí)際上公式中的第二個(gè)因子——BF0+(y2|y1)——反映的是:當(dāng)先驗(yàn)分布已經(jīng)根據(jù)數(shù)據(jù) y1進(jìn)行更新后, 數(shù)據(jù) y2對貝葉斯因子再次更新(Jeffreys, 1961, p. 333)。對這個(gè)公式進(jìn)行 log轉(zhuǎn)換后, 得到 log (BF0+(y)) =log (BF0+(y1)) + log (BF0+(y2|y1))。假定數(shù)據(jù)y1包括了足夠的信息, 不管γ如何變化, 通過y1更新后均得到大致相同的結(jié)果分布(在大部分情況下, 這種情況很快就會出現(xiàn))。而通過y1得到的這個(gè)后驗(yàn)分布, 又變成了數(shù)據(jù)y2的先驗(yàn)分布, 即成為 log (BF0+(y2|y1))的先驗(yàn)。在這種情況下, log(BF0+(y2|y1))的值大致相似(相似的先驗(yàn)分布, 相同的數(shù)據(jù))。因此, 不一樣的γ值會讓數(shù)據(jù)y1產(chǎn)生不同的后驗(yàn)分布, 但當(dāng)數(shù)據(jù)y1是足夠的大后, 使得y1的后驗(yàn)分布大致相似, 此時(shí)y2再次對模型進(jìn)行更新的大小也是相似, 這就使得log (BF0+(y2|y1))在不同的γ下相似, 產(chǎn)生收斂的現(xiàn)象。
圖4 使用JASP進(jìn)行貝葉斯因子的穩(wěn)健性分析
貝葉斯統(tǒng)計(jì)在目前的心理學(xué)研究中并不常見。雖然大部分雜志的編輯和審稿人會欣賞采用更加合理的統(tǒng)計(jì)手段, 但是出于對貝葉斯方法的陌生, 研究者使用貝葉斯因子時(shí), 需要提供相關(guān)的背景信息讓編輯和審稿人了解這種背景。因此,除了報(bào)告貝葉斯因子的結(jié)果之外, 還需要首先報(bào)告如下幾點(diǎn)(Kruschke, 2014)。第一, 選用貝葉斯因子的動機(jī)與原因, 即為什么在某個(gè)報(bào)告中使用貝葉斯因子而不是NHST。如前所述, 可以說明貝葉斯因子提供了更加豐富的信息, 或者數(shù)據(jù)特點(diǎn)不滿足NHST的前提假設(shè)(如在自然情境下收集的數(shù)據(jù), 無法判斷數(shù)據(jù)收集的動機(jī)和實(shí)驗(yàn)假設(shè))。第二, 描述貝葉斯因子在模型比較中的基本邏輯。即, 假定讀者并不非常了解貝葉斯因子, 簡單地解釋貝葉斯因子中模型比較的思想。第三, 描述貝葉斯因子分析中的先驗(yàn)分布以及采用該先驗(yàn)的原因, 先驗(yàn)分布應(yīng)該或多或少對數(shù)據(jù)分析提供一些信息。第四, 解釋貝葉斯因子, 將貝葉斯因子與研究中的理論或假設(shè)結(jié)合起來。
貝葉斯因子不使用統(tǒng)計(jì)顯著, 而是描述數(shù)據(jù)對假設(shè)的支持程度。例如, 在 Wagenmakers等(2015)中, 對Jeffreys默認(rèn)先驗(yàn)下的貝葉斯因子結(jié)果進(jìn)行如下描述:
“貝葉斯因子為BF01= 10.76, 說明在(假定沒有效應(yīng)的)零假設(shè)下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性是在(假定存在效應(yīng)的)備擇假設(shè)下可能性的10.76倍。根據(jù)Jeffreys (1961)提出的分類標(biāo)準(zhǔn), 這是較強(qiáng)的證據(jù)支持了零假設(shè), 即在順時(shí)針和立逆時(shí)針轉(zhuǎn)鐘表指針的人在經(jīng)驗(yàn)開放性(NEO)得分上沒有差異。”
此外, 使用貝葉斯因子進(jìn)行分析時(shí), 還可以報(bào)告探索性的結(jié)果, 如穩(wěn)健分析和序列分析的結(jié)果, 這將進(jìn)一步豐富結(jié)果, 給其他研究者提供更加全面的信息。
近年來, 科學(xué)研究的可重復(fù)問題備受關(guān)注(Baker, 2016; Begley & Ellis, 2012; Munafò et al.,2017), 在心理學(xué)(Ebersole et al., 2016; Klein et al.,2014; Open Science Collaboration, 2015)、神影像學(xué)(Poldrack et al., 2017; Zuo & Xing, 2014)尤其如此。而對NHST的過度依賴正是原因之一(Lindsay,2015; 胡傳鵬等, 2016)。因此, 研究者們希望貝葉斯因子作為一種假設(shè)檢驗(yàn)方法, 能改變當(dāng)前心理學(xué)研究過度依賴 NHST的現(xiàn)狀。當(dāng)然, 也有研究者提出了其他的方案, 例如, 將顯著性的閾限下降到0.005 (Benjamin et al., 2018)或是采用模型比較的似然性比(likelihood ratio) (Etz, in press)的方法。但是值得注意的是, 心理學(xué)研究重復(fù)失敗的原因多種多樣, 僅改變統(tǒng)計(jì)方法不能讓心理學(xué)的研究變得可重復(fù)。數(shù)據(jù)不開放以及研究過程不透明(Chambers, Feredoes, Muthukumaraswamy, & Etchells,2014; Lindsay, 2015; Nosek et al., 2015)、對探索性分析與驗(yàn)證性分析不加區(qū)分(Kerr, 1998;Wagenmakers, Wetzels, Borsboom, van der Maas, &Kievit, 2012)、以發(fā)表論文為核心的獎(jiǎng)勵(lì)體系(Nosek, Spies, & Motyl, 2012)等都可能是造成當(dāng)前研究可重復(fù)率低的原因。因此從某種程度上來講,對數(shù)據(jù)分析過程與數(shù)據(jù)結(jié)果保持開放與透明是關(guān)鍵的解決方案(如, Poldrack & Gorgolewski, 2017; Zuo et al., 2014)。
即便如此, 作為一種不同于傳統(tǒng) NHST的方法, 貝葉斯因子有助于研究者使用多種的方法對同一研究進(jìn)行分析, 從而得到準(zhǔn)確的統(tǒng)計(jì)推斷,得到更加接近真實(shí)的結(jié)論。需要指出的是, 采用多種方法進(jìn)行分析時(shí), 需要報(bào)告全部的分析過程和結(jié)果, 而非選擇最有利于自己結(jié)論的分析結(jié)果進(jìn)行報(bào)告。
貝葉斯因子是貝葉斯統(tǒng)計(jì)在假設(shè)檢驗(yàn)方面的應(yīng)用, 而貝葉斯學(xué)派與頻率學(xué)派統(tǒng)計(jì)的爭議一直存在(Miller, 2011)。實(shí)際上, 研究者指出貝葉斯因子也可能存在許多問題, 充分了解這些反對的觀點(diǎn), 將更加有利于我們在研究中合理地使用貝葉斯因子。
對貝葉斯因子最強(qiáng)烈的質(zhì)疑來自于對其先驗(yàn)概率的設(shè)定, 可能會認(rèn)為先驗(yàn)概率過于主觀、過于保守從而不容易出現(xiàn)較強(qiáng)的證據(jù)等(Wagenmakers,Marsman, et al., 2017)。也有研究者認(rèn)為, 默認(rèn)的先驗(yàn)對小的效應(yīng)不利。例如, Bem, Utts和Johnson(2011) 認(rèn)為, Wagenmakers等人(2011)對 Bem(2011)的數(shù)據(jù)進(jìn)行重新分析時(shí), 采用了不合適的先驗(yàn)概率是他們未能得到與Bem (2011)一致結(jié)論的原因。這種批評實(shí)質(zhì)上是對貝葉斯因子的誤用,即未將先驗(yàn)知識轉(zhuǎn)化成為合適的先驗(yàn)概率(Hoijtink,van Kooten, & Hulsker, 2016)。有趣的是, 只要研究者將自己使用的先驗(yàn)概率保持透明與公開, 其他研究者可以采用交叉驗(yàn)證, 從而起到充分探索的作用。
其次, 也有研究者認(rèn)為, 貝葉斯因子沒有考慮假陽性的問題。在 NHST框架之下, 研究者非常強(qiáng)調(diào)控制一類錯(cuò)誤與二類錯(cuò)誤的問題。例如心理學(xué)研究中一般將一類錯(cuò)誤控制在 5%以內(nèi), 因此顯著性水平設(shè)置為 0.05。也正是需要控制一類錯(cuò)誤, NHST框架之下有許多方法用來調(diào)整閾值使其一類錯(cuò)誤率不至于太高, 例如多重比較校正的方法。而貝葉斯統(tǒng)計(jì)主要是為了不斷地對證據(jù)的強(qiáng)度進(jìn)行測量, 其不考慮控制假陽性(即一類錯(cuò)誤)的問題。因此, 當(dāng)研究者基于貝葉斯因子進(jìn)行決策(效應(yīng)是否存在)時(shí), 就可能犯下一類錯(cuò)誤(Kruschke & Liddell, 2017a)。在實(shí)際的貝葉斯因子分析中, 可以通過先驗(yàn)來解決多重比較的問題(Jeffreys, 1938; Scott & Berger, 2006, 2010)。例如,直接說明研究者預(yù)期假陽性率有多大(Stephens &Balding, 2009)。
還有研究者指出, 基于估計(jì)的統(tǒng)計(jì)總是要比假設(shè)檢驗(yàn)更優(yōu), 因?yàn)楣烙?jì)本身將不確定性考慮進(jìn)來。例如, Cumming (2014)建議使用效應(yīng)量及其置信區(qū)間以替代p值。但是考慮到參數(shù)估計(jì)與假設(shè)檢驗(yàn)在科研中均有其相應(yīng)最適用的問題, 因此貝葉斯因子無法直接與基于估計(jì)的頻率主義學(xué)派統(tǒng)計(jì)進(jìn)行比較。但是, 貝葉斯統(tǒng)計(jì)中, 也有基于估計(jì)的方法(Kruschke & Liddell, 2017b)。
最后, 貝葉斯因子進(jìn)行假設(shè)檢驗(yàn), 本質(zhì)上是證據(jù)的不斷累積, 而非得到二分的結(jié)論。因此, 一次實(shí)驗(yàn)的結(jié)果可以被看作是試探性的, 研究者可以繼續(xù)收集數(shù)據(jù)或者進(jìn)行重復(fù)實(shí)驗(yàn)(Ly, Etz, Marsman,& Wagenmakers, 2017)。
貝葉斯因子作為基于貝葉斯統(tǒng)計(jì)的假設(shè)檢驗(yàn)方法, 與 NHST相比具有一些優(yōu)勢, 其使得研究者可以直接檢驗(yàn)數(shù)據(jù)是否支持零假設(shè), 不再受抽樣意圖和停止收集數(shù)據(jù)標(biāo)準(zhǔn)的影響, 從而更加靈活地進(jìn)行數(shù)據(jù)分析。這些優(yōu)勢可能幫助心理學(xué)家更好地在研究過程中進(jìn)行決策, 同時(shí), 貝葉斯因子的采用也可以促進(jìn)研究者去更加深入地理解貝葉斯方向法的適用范圍以及前提條件等(Depaoli& van de Schoot, 2017)。
JASP的開發(fā), 使用貝葉斯因子的計(jì)算和解讀變得更加簡便, 研究者即便沒有很強(qiáng)的編程基礎(chǔ),也能夠使用 JASP地進(jìn)行貝葉斯因子分析。這可能有助于推動研究者更加廣泛地使用貝葉斯因子。此外, JASP本身正在快速發(fā)展, 其功能的深度和廣度正在不斷地?cái)U(kuò)大, 新的方法和標(biāo)準(zhǔn)將不斷地整合到軟件之中, 可能幫助研究者更科學(xué)地進(jìn)行研究。
致謝:感謝清華大學(xué)心理學(xué)系張咪同學(xué)在本文撰寫之初提供的幫助, 感謝兩位匿名審稿人對本文提供的寶貴意見。
胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平. (2016).心理學(xué)研究中的可重復(fù)性問題: 從危機(jī)到契機(jī).心理科學(xué)進(jìn)展, 24(9), 1504–1518.
駱大森. (2017). 心理學(xué)可重復(fù)性危機(jī)兩種根源的評估.心理與行為研究, 15(5), 577–586.
鐘建軍, Dienes, Z., 陳中永. (2017). 心理研究中引入貝葉斯統(tǒng)計(jì)推斷的必要性、應(yīng)用思路與領(lǐng)域.心理科學(xué),40(6), 1477–1482.
Bahadur, R. R., & Bickel, P. J. (2009). An optimality property of Bayes' test statistics.Lecture Notes-Monograph Series, 57,18–30.
Baker, M. (2016). 1,500 scientists lift the lid on reproducibility.Nature, 533, 452–454.
Begley, C. G., & Ellis, L. M. (2012). Drug development:Raise standards for preclinical cancer research.Nature,483(7391), 531–533.
Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect.Journal of Personality and Social Psychology,100(3), 407–425.
Bem, D. J., Utts, J., & Johnson, W. O. (2011). Must psychologists change the way they analyze their data?Journal of Personality and Social Psychology, 101(4),716–719.
Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B.A., Wagenmakers, E.-J., Berk, R., … Johnson, V. E.(2018). Redefine statistical significance.Nature Human Behaviour, 2(1), 6–10.
Berger, J. O., & Berry, D. A. (1988). Statistical analysis and the illusion of objectivity.American Scientist, 76(2),159–165.
Berger, J. O., & Delampady, M. (1987). Testing precise hypotheses.Statistical Science, 2(3), 317–335.
Berger, J. O., & Wolpert, R. L. (1988).The likelihood principle(2nd ed.). Hayward (CA): Institute of Mathematical Statistics.
Carpenter, B., Gelman, A., Hoffman, M. D., Lee, D.,Goodrich, B., Betancourt, M., … Riddell, A. (2017). Stan:A probabilistic programming language.Journal of Statistical Software, 76(1), 1–32.
Chambers, C. D., Feredoes, E., Muthukumaraswamy, S. D.,& Etchells, P. J. (2014). Instead of “playing the game” it is time to change the rules: Registered Reports atAIMS Neuroscienceand beyond.AIMS Neuroscience, 1(1), 4–17.Chen, X., Lu, B., & Yan, C.-G. (2018). Reproducibility of R-fMRI metrics on the impact of different strategies for multiple comparison correction and sample sizes.Human Brain Mapping, 39(1), 300–318.
Cumming, G. (2014). The new statistics: Why and how.Psychological Science, 25(1), 7–29.
Depaoli, S., & van de Schoot, R. (2017). Improving transparency and replication in Bayesian statistics: The WAMBS-Checklist.Psychological Methods, 22(2), 240–261.
Dienes, Z. (2008).Understanding psychology as a science:An introduction to scientific and statistical inference.London, UK: Palgrave Macmillan.
Dienes, Z. (2011). Bayesian versus orthodox statistics:Which side are you on?Perspectives on Psychological Science, 6(3), 274–290.
Dienes, Z. (2014). Using Bayes to get the most out of non-significant results.Frontiers in Psychology, 5, 781.
Ebersole, C. R., Atherton, O. E., Belanger, A. L., Skulborstad, H.M., Allen, J. M., Banks, J. B., ... Nosek, B. A. (2016).Many Labs 3: Evaluating participant pool quality across the academic semester via replication.Journal of Experimental Social Psychology, 67, 68–82.
Edwards, W. (1965). Tactical note on the relation between scientific and statistical hypotheses.Psychological Bulletin,63(6), 400–402.
Edwards, W., Lindman, H., & Savage, L. J. (1963). Bayesian statistical inference for psychological research.Psychological Review, 70(3), 193–242.
Etz, A. (in press). Introduction to the concept of likelihood and its applications.Advances in Methods and Practices in Psychological Science.
Francis, G. (2013). Replication, statistical consistency, and publication bias.Journal of Mathematical Psychology,57(5), 153–169.
Gallistel, C. R. (2009). The importance of proving the null.Psychological Review, 116(2), 439–453.
Gigerenzer, G. (2004). Mindless statistics.The Journal of Socio-Economics, 33(5), 587–606.
Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B.,Poole, C., Goodman, S. N., … Altman, D. G. (2016).Statistical tests,Pvalues, confidence intervals, and power:A guide to misinterpretations.European Journal of Epidemiology, 31(4), 337–350.
Gronau, Q. F., & Wagenmakers, E.-J. (2017). Bayesian evidence accumulation in experimental mathematics: A case study of four irrational numbers.Experimental Mathematics,1–10.
Halsey, L. G., Curran-Everett, D., Vowler, S. L., &Drummond, G. B. (2015). The fickle P value generates irreproducible results.Nature Methods, 12(3), 179–185.
Hoijtink, H. (2011).Informative hypotheses: Theory and practice for behavioral and social scientists. Boca Raton,FL: Chapman & Hall/CRC.
Hoijtink, H., van Kooten, P., & Hulsker, K. (2016). Why Bayesian psychologists should change the way they use the Bayes factor.Multivariate Behavioral Research, 51(1),2–10.
JASP Team. (2017). JASP (Version 0.8.2) [Computer software].Jeffreys, H. (1935). Some tests of significance, treated by the theory of probability.Mathematical Proceedings of the Cambridge Philosophical Society, 31(2), 203–222.
Jeffreys, H. (1938). Significance tests when several degrees of freedom arise simultaneously.Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences,165(921), 161–198.
Jeffreys, H. (1961).Theory of probability(3rd ed.). Oxford,UK: Oxford University Press.
Johnson, V. E. (2013). Revised standards for statistical evidence.Proceedings of the National Academy of Sciences of the United States of America, 110(48), 19313–19317.
Kerr, N. L. (1998). HARKing: Hypothesizing after the results are known.Personality and Social Psychology Review, 2(3), 196–217.
Klein, R. A., Ratliff, K. A., Vianello, M., Adams, R. B., Jr.,Bahník, ?., Bernstein, M. J., … Nosek, B. A. (2014).Investigating variation in replicability: A “many labs”replication project.Social Psychology, 45(3), 142–152.
Klugkist, I., Laudy, O., & Hoijtink, H. (2005). Inequality constrained analysis of variance: A Bayesian approach.Psychological Methods, 10(4), 477–493.
Kruschke, J. K. (2014).Doing Bayesian data analysis: A tutorial with R, JAGS, and stan(2nd ed.). San Diego, CA:Academic Press/Elsevier.
Kruschke, J. K., & Liddell, T. M. (2017a). Bayesian data analysis for newcomers.Psychonomic Bulletin & Review,1–23.
Kruschke, J. K., & Liddell, T. M. (2017b). The Bayesian New Statistics: Hypothesis testing, estimation, meta-analysis,and power analysis from a Bayesian perspective.Psychonomic Bulletin & Review, 1–29.
Lakens, D. (2017). Equivalence tests: A practical primer for t-Tests, correlations, and meta-analyses.Social Psychological and Personality Science, 8(4), 355–362.
Lindley, D. V. (1993). The analysis of experimental data:The appreciation of tea and wine.Teaching Statistics,15(1), 22–25.
Lindsay, D. S. (2015). Replication in psychological science.Psychological Science, 26(12), 1827–1832.
Lunn, D., Spiegelhalter, D., Thomas, A., & Best, N. (2009).The BUGS project: Evolution, critique and future directions.Statistics in Medicine, 28(25), 3049–3067.
Ly, A., Etz, A., Marsman, M., & Wagenmakers, E.-J. (2017).Replication Bayes factors from evidence updating.PsyArXiv. Retrieved from https://osf.io/preprints/psyarxiv/u8m2s/
Ly, A., Marsman, M., & Wagenmakers, E.-J. (2018).Analytic posteriors for Pearson’s correlation coefficient.Statistica Neerlandica, 72, 4–13.
Ly, A., Verhagen, J., & Wagenmakers, E.-J. (2016a). An evaluation of alternative methods for testing hypotheses,from the perspective of Harold Jeffreys.Journal of Mathematical Psychology, 72, 43–55.
Ly, A., Verhagen, J., & Wagenmakers, E.-J. (2016b). Harold Jeffreys’s default Bayes factor hypothesis tests: Explanation,extension, and application in psychology.Journal of Mathematical Psychology, 72, 19–32.
Marsman, M., & Wagenmakers, E.-J. (2017a). Bayesian benefits with JASP.European Journal of Developmental Psychology, 14(5), 545–555.
Marsman, M., & Wagenmakers, E.-J. (2017b). Three insights from a bayesian interpretation of the one-sidedPvalue.Educational and Psychological Measurement, 77(3), 529–539.
Masson, M. E. J. (2011). A tutorial on a practical Bayesian alternative to null-hypothesis significance testing.Behavior Research Methods, 43(3), 679–690.
Matzke, D., Nieuwenhuis, S., van Rijn, H., Slagter, H. A.,van der Molen, M. W., & Wagenmakers, E.-J. (2015). The effect of horizontal eye movements on free recall: A preregistered adversarial collaboration.Journal of Experimental Psychology: General, 144(1), e1–e15.
Miller, G. (2011). ESP paper rekindles discussion about statistics.Science, 331(6015), 272–273.
Morey, R. D., Hoekstra, R., Rouder, J. N., Lee, M. D., &Wagenmakers, E.-J. (2016). The fallacy of placing confidence in confidence intervals.Psychonomic Bulletin& Review, 23(1), 103–123.
Morey, R. D., & Rouder, J. N. (2011). Bayes factor approaches for testing interval null hypotheses.Psychological Methods, 16(4), 406–419.
Mulder, J., Klugkist, I., van de Schoot, R., Meeus, W. H. J.,Selfhout, M., & Hoijtink, H. (2009). Bayesian model selection of informative hypotheses for repeated measurements.Journal of Mathematical Psychology, 53(6), 530–546.
Munafò, M. R., Nosek, B. A., Bishop, D. V. M., Button, K.S., Chambers, C. D., Percie du Sert, N., … Ioannidis, J. P.A. (2017). A manifesto for reproducible science.Nature Human Behaviour, 1(1), 0021.
Nosek, B. A., Alter, G., Banks, G. C., Borsboom, D.,Bowman, S. D., Breckler, S. J., … Yarkoni, T. (2015).Promoting an open research culture.Science, 348(6242),1422–1425.
Nosek, B. A., Spies, J. R., & Motyl, M. (2012). Scientific Utopia: II. Restructuring incentives and practices to promote truth over publishability.Perspectives on Psychological Science, 7(6), 615–631.
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science.Science, 349(6251),aac4716.
Plummer, M. (2003).JAGS: A program for analysis of Bayesian graphical models using Gibbs sampling. Paper presented at the Proceedings of the 3rd International Workshop on Distributed Statistical Computing (DSC 2003).
Poldrack, R. A., Baker, C. I., Durnez, J., Gorgolewski, K. J.,Matthews, P. M., Munafò, M. R., … Yarkoni, T. (2017).Scanning the horizon: Towards transparent and reproducible neuroimaging research.Nature Reviews Neuroscience,18(2), 115–126.
Poldrack, R. A., & Gorgolewski, K. J. (2017). OpenfMRI:Open sharing of task fMRI data.NeuroImage, 144, 259–261.
Rouder, J. N. (2014). Optional stopping: No problem for Bayesians.Psychonomic Bulletin & Review, 21(2), 301–308.
Rouder, J. N., & Morey, R. D. (2011). A Bayes factor meta-analysis of Bem’s ESP claim.Psychonomic Bulletin& Review, 18(4), 682–689.
Rouder, J. N., Morey, R. D., Speckman, P. L., & Province, J.M. (2012). Default Bayes factors for ANOVA designs.Journal of Mathematical Psychology, 56(5), 356–374.
Rouder, J. N., Morey, R. D., Verhagen, J., Swagman, A. R.,& Wagenmakers, E.-J. (2017). Bayesian analysis of factorial designs.Psychological Methods, 22(2), 304–321.
Rouder, J. N., Speckman, P. L., Sun, D. C., Morey, R. D., &Iverson, G. (2009). Bayesianttests for accepting and rejecting the null hypothesis.Psychonomic Bulletin &Review, 16(2), 225–237.
Salsburg, D. (2001).The lady tasting tea: How statistics revolutionized science in the twentieth century. New York,NY: W. H. Freeman and Company.
Salvatier, J., Wiecki, T. V., & Fonnesbeck, C. (2016).Probabilistic programming in Python using PyMC3.Peer J Computer Science, 2, e55.
Schervish, M. J. (1996). P values: What they are and what they are not.The American Statistician, 50(3), 203–206.
Schlaifer, R., & Raiffa, H. (1961). Applied statistical decision theory. Boston: Harvard University.
Sch?nbrodt, F. D., Wagenmakers, E.-J., Zehetleitner, M., &Perugini, M. (2017). Sequential hypothesis testing with Bayes factors: Efficiently testing mean differences.Psychological Methods, 22(2), 322–339.
Scott, J. G., & Berger, J. O. (2006). An exploration of aspects of Bayesian multiple testing.Journal of Statistical Planning and Inference, 136(7), 2144–2162.
Scott, J. G., & Berger, J. O. (2010). Bayes and empirical-Bayes multiplicity adjustment in the variable-selection problem.The Annals of Statististics, 38(5), 2587–2619.
Sellke, T., Bayarri, M. J., & Berger, J. O. (2001). Calibration ofρvalues for testing precise null hypotheses.The American Statistician, 55(1), 62–71.
Stephens, M., & Balding, D. J. (2009). Bayesian statistical methods for genetic association studies.Nature Reviews Genetics, 10(10), 681–690.
Stulp, G., Buunk, A. P., Verhulst, S., & Pollet, T. V. (2013).Tall claims? Sense and nonsense about the importance of height of US presidents.The Leadership Quarterly, 24(1),159–171.
Topolinski, S., & Sparenberg, P. (2012). Turning the hands of time.Social Psychological and Personality Science, 3(3),308–314.
van de Schoot, R., Winter, S., Ryan, O., Zondervan-Zwijnenburg, M., & Depaoli, S. (2017). A systematic review of Bayesian papers in psychology: The last 25 years.Psychological Methods, 22(2), 217–239.
Vanpaemel, W. (2010). Prior sensitivity in theory testing: An apologia for the Bayes factor.Journal of Mathematical Psychology, 54(6), 491–498.
Wagenmakers, E.-J. (2007). A practical solution to the pervasive problems ofpvalues.Psychonomic Bulletin &Review, 14(5), 779–804.
Wagenmakers, E.-J., Beek, T. F., Rotteveel, M., Gierholz, A.,Matzke, D., Steingroever, H., … Pinto, Y. (2015). Turning the hands of time again: A purely confirmatory replication study and a Bayesian analysis.Frontiers in Psychology, 6, 494.
Wagenmakers, E.-J., Lodewyckx, T., Kuriyal, H., & Grasman,R. (2010). Bayesian hypothesis testing for psychologists:A tutorial on the Savage–Dickey method.Cognitive Psychology, 60(3), 158–189.
Wagenmakers, E.-J., Love, J., Marsman, M., Jamil, T., Ly, A.,Verhagen, J., … van Doorn, J. (2017). Bayesian inference for psychology. Part II: Example applications with JASP.Psychonomic Bulletin & Review, 1–19.
Wagenmakers, E.-J., Marsman, M., Jamil, T., Ly, A.,Verhagen, J., Love, J., … Morey, R. D. (2017). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications.Psychonomic Bulletin &Review, 1–23.
Wagenmakers, E.-J., Verhagen, J., Ly, A., Matzke, D.,Steingroever, H., Rouder, J. N., & Morey, R. D. (2017).The need for Bayesian hypothesis testing in psychological science. In S. O. Lilienfeld & I. D. Waldman (Eds.),Psychological science under scrutiny(pp. 123–138). Chichester:John Wiley & Sons, Inc.
Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011). Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011).Journal of Personality and Social Psychology,100(3), 426–432.
Wagenmakers, E.-J., Wetzels, R., Borsboom, D., van der Maas, H. L. J., & Kievit, R. A. (2012). An agenda for purely confirmatory research.Perspectives on Psychological Science, 7(6), 632–638.
Wasserstein, R. L., & Lazar, N. A. (2016). The ASA's statement onp-values: Context, process, and purpose.The American Statistician, 70(2), 129–133.
Wetzels, R., Matzke, D., Lee, M. D., Rouder, J. N., Iverson,G. J., & Wagenmakers, E.-J. (2011). Statistical evidence in experimental psychology: An empirical comparison ssing 855 t tests.Perspectives on Psychological Science, 6(3),291–298.
Zhu, J., Chen, J. F., Hu, W. B., & Zhang, B. (2017). Big Learning with Bayesian methods.National Science Review,4(4), 627–651.
Ziliak, S. T., & McCloskey, D. N. (2008).The cult of statistical significance. Ann Arbor: University of Michigan Press.
Zuo, X.-N., Anderson, J. S., Bellec, P., Birn, R. M., Biswal,B. B., Blautzik, J., … Milham, M. P. (2014). An open science resource for establishing reliability and reproducibility in functional connectomics.Nature Scientific Data, 1,140049.
Zuo, X.-N., & Xing, X.-X. (2014). Test-retest reliabilities of resting-state FMRI measurements in human brain functional connectomics: A systems neuroscience perspective.Neuroscience & Biobehavioral Reviews, 45, 100–118.