• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    貝葉斯因子及其在JASP中的實(shí)現(xiàn)

    2018-06-04 02:40:24胡傳鵬孔祥禎EricJanWagenmakersAlexanderLy彭凱平
    心理科學(xué)進(jìn)展 2018年6期

    胡傳鵬 孔祥禎 Eric-Jan Wagenmakers Alexander Ly,5 彭凱平

    (1清華大學(xué)心理學(xué)系, 北京 100084)(2 Neuroimaging Center, Johannes Gutenberg University Medical Center,55131 Mainz, Germany)(3 Language and Genetics Department, Max Planck Institute for Psycholinguistics, 6500 AH Nijmegen, The Netherlands)(4 Department of Psychological Methods, University of Amsterdam, 1018 VZ Amsterdam, The Netherlands)(5 Centrum Wiskunde & Informatica, 1090 GB Amsterdam, The Netherlands)

    自20世紀(jì)以來, 統(tǒng)計(jì)推斷在科學(xué)研究中起到越來越重要的作用(Salsburg, 2001), 科學(xué)研究結(jié)論的正確性也越來越依賴于統(tǒng)計(jì)推斷的正確應(yīng)用。目前, 使用最為廣泛的統(tǒng)計(jì)推斷方法是零假設(shè)檢驗(yàn)(Null hypothesis significance testing, NHST)(Wasserstein & Lazar, 2016)。然而, 與NHST在各個(gè)領(lǐng)域中廣泛使用相伴的是研究者對 NHST及p值的誤解和盲目使用(Gigerenzer, 2004; Greenland et al., 2016; Ziliak & McCloskey, 2008; 胡傳鵬等,2016; 駱大森, 2017), 因此帶來一些消極的后果。例如,p值被用來支持不合理且無法重復(fù)的研究結(jié)果(如, Bem, 2011), 引起了關(guān)于NHST是否適合于科學(xué)研究的爭論(Miller, 2011)。在這個(gè)背景之下, 有研究者推薦使用貝葉斯因子替代 NHST (Wagenmakers,Wetzels, Borsboom, & van der Maas, 2011; 鐘建軍,Dienes, 陳中永, 2017)。

    貝葉斯因子(Bayes factor)是貝葉斯統(tǒng)計(jì)(Bayesian statistics)中用來進(jìn)行模型比較和假設(shè)檢驗(yàn)的方法。在假設(shè)檢驗(yàn)中, 其代表的是當(dāng)前數(shù)據(jù)對零假設(shè)與備擇假設(shè)支持的強(qiáng)度之間的比率。正如下一節(jié)將要詳述的, 貝葉斯因子能夠量化地反映當(dāng)前數(shù)據(jù)對各個(gè)假設(shè)支持的程度, 因此可能更加適用于科研中的假設(shè)檢驗(yàn)。但由于貝葉斯因子的統(tǒng)計(jì)原理及實(shí)現(xiàn)相對復(fù)雜, 其在各個(gè)學(xué)科的研究中并未獲得廣泛應(yīng)用。

    近年來, 隨著計(jì)算機(jī)運(yùn)算能力的大大提升,貝葉斯統(tǒng)計(jì)在計(jì)算機(jī)等領(lǐng)域獲得了巨大的成功(如Zhu, Chen, Hu, & Zhang, 2017)。貝葉斯統(tǒng)計(jì)的工具迅速發(fā)展, 如WinBUGs (Lunn, Spiegelhalter,Thomas, & Best, 2009)、JAGS (Plummer, 2003)、Stan (Carpenter et al., 2017)和Python語言的工具包PyMC3 (Salvatier, Wiecki, & Fonnesbeck, 2016)等。這些軟件和工具包的出現(xiàn), 促進(jìn)貝葉斯方法在各個(gè)研究領(lǐng)域中的使用(Depaoli & van de Schoot,2017; van de Schoot, Winter, Ryan, Zondervan-Zwijnenburg, & Depaoli, 2017)。在這些工具中, 也出現(xiàn)了用于計(jì)算貝葉斯因子的工具, 如 R語言中的BayesFactor (http://bayesfactorpcl.r-forge.r-project.org/)。在心理學(xué)及相關(guān)領(lǐng)域, 最近有不少研究者試圖引入貝葉斯統(tǒng)計(jì)的方法(Dienes, 2008, 2011,2014; Hoijtink, 2011; Klugkist, Laudy, & Hoijtink,2005; Kruschke, 2014; Masson, 2011; Morey &Rouder, 2011; Mulder et al., 2009; Rouder, Morey,Speckman, & Province, 2012; Rouder, Speckman,Sun, Morey, & Iverson, 2009; Vanpaemel, 2010;Wagenmakers, Lodewyckx, Kuriyal, & Grasman,2010)。在心理學(xué)(Open Science Collaboration, 2015;胡傳鵬等, 2016)、神經(jīng)成像研究(Chen, Lu, & Yan,2018; Zuo & Xing, 2014)等領(lǐng)域出現(xiàn)“重復(fù)危機(jī)”的背景之下, 使用合理的統(tǒng)計(jì)方法顯得更加迫切。但對于不少心理學(xué)及相關(guān)領(lǐng)域的研究者來說,使用R語言或其他計(jì)算機(jī)語言進(jìn)行貝葉斯因子計(jì)算仍然較為困難。為解決這一障礙, 研究者們開發(fā)了與商業(yè)統(tǒng)計(jì)軟件 SPSS具有相似圖形界面的統(tǒng)計(jì)工具JASP (https://jasp-stats.org/, JASP team 2017) (JASP Team, 2017; Marsman & Wagenmakers,2017a; Wagenmakers, Love, et al., 2017; Wagenmakers,Marsman, et al., 2017), 簡化了貝葉斯因子的計(jì)算。

    本文旨在為向心理學(xué)及相關(guān)學(xué)科的研究者介紹貝葉斯因子及其使用。首先本文將介紹貝葉斯因子的原理, 及其相對于傳統(tǒng)假設(shè)檢驗(yàn)中p值的優(yōu)勢; 再以獨(dú)立樣本t檢驗(yàn)為例, 介紹了如何使用

    JASP計(jì)算貝葉斯因子, 以及如何解讀和報(bào)告其結(jié)果。在此基礎(chǔ)上, 討論了貝葉斯因子的應(yīng)用價(jià)值及其不足。

    1 貝葉斯因子的原理

    貝葉斯因子是貝葉斯統(tǒng)計(jì)在假設(shè)檢驗(yàn)上的應(yīng)用, 因此要理解貝葉斯因子, 首先需要理解貝葉斯統(tǒng)計(jì)的原理。

    1.1 貝葉斯統(tǒng)計(jì)簡介

    正由于頻率學(xué)派將概率看作長期行為表現(xiàn)的結(jié)果, 要理解頻率學(xué)派的概率, 通常需要假想尚未發(fā)生的事件。例如, 在NHST框架之下,p值的意義是假定H0為真的情況下, 出現(xiàn)當(dāng)前結(jié)果及比當(dāng)前結(jié)果更加極端結(jié)果的概率。換句話說,p值表達(dá)的意思是:假如H0為真, 如果采用完全相同的條件, 無數(shù)次地重復(fù)當(dāng)前實(shí)驗(yàn), 這些實(shí)驗(yàn)中將有多大比例會出現(xiàn)當(dāng)前結(jié)果模式或者比當(dāng)前結(jié)果模式更極端的模式。因此,p值的意義暗含一個(gè)重要的假設(shè):我們能夠無數(shù)次地重復(fù)試驗(yàn)。但研究者卻經(jīng)常忽略這種無數(shù)次重復(fù)相同試驗(yàn)的假定, 誤認(rèn)為p值是單次檢驗(yàn)中拒絕零假設(shè)時(shí)犯錯(cuò)誤的概率(Greenland et al., 2016)。這種對NHST的誤解,恰好是帶有貝葉斯統(tǒng)計(jì)色彩, 即根據(jù)當(dāng)前的數(shù)據(jù)計(jì)算某個(gè)模型正確或者錯(cuò)誤的概率。

    與頻率學(xué)派統(tǒng)計(jì)不同, 貝葉斯統(tǒng)計(jì)最大的特點(diǎn)之一在于:它考慮了不同可能性對于個(gè)體來說的可信度(credibility) (Kruschke, 2014)。而通過不斷獲得的數(shù)據(jù), 人們可以改變對不同可能性的相應(yīng)程度。這種思維方式與人們在日常生活中的經(jīng)驗(yàn)非常相似:當(dāng)我們不斷地獲得支持某個(gè)觀點(diǎn)的證據(jù)時(shí), 我們會更加相信該觀點(diǎn)。

    雖然貝葉斯統(tǒng)計(jì)對概率的理解與頻率學(xué)派不同, 但是其對概率的計(jì)算卻嚴(yán)格依照概率的基本原則:加法原則與乘法原則。貝葉斯統(tǒng)計(jì)中最核心的貝葉斯法則(Bayes rule), 也是根據(jù)簡單的加法原則與乘法原則推導(dǎo)而來。依據(jù)概率的乘法原則, 隨機(jī)事件A與隨機(jī)事件B同時(shí)發(fā)生的概率為:

    貝葉斯學(xué)派(Bayesian statistics)與頻率學(xué)派(Frequentist statistics)是統(tǒng)計(jì)學(xué)中主要的兩個(gè)學(xué)派,其核心的差異在于他們對于概率(probability)所代表的意義有著不一樣的解讀。對于頻率學(xué)派而言,概率是通過無數(shù)次重復(fù)抽樣中頻率(frequency)的預(yù)期值。與之相反, 貝葉斯學(xué)派則認(rèn)為, 概率是對一件事情的相信程度, 從 0到 1表示人們基于所獲得的信息, 在多大程度上相信某件事情是真的。由于不同人對同一事件的相信程度可能不同,因此, 貝葉斯學(xué)派的概率是具有主觀性。但貝葉斯學(xué)派的概率卻不是任意的:人們通過合理的方式, 不斷獲取并更新已知信息, 可以最終消除主觀性, 從而達(dá)成一致。

    式(1)即為聯(lián)合概率的公式, 即A與B同時(shí)發(fā)生的概率。其意義為:A與B的聯(lián)合概率(p(A∩B))為, 在B發(fā)生的條件下A發(fā)生的概率(p(A|B))與B發(fā)生的的概率(p(B))的乘積, 也等于在A發(fā)生的條件下B發(fā)生的概率(p(B|A))與A發(fā)生的概率(p(A))的乘積。其中,p(A|B)和p(B|A)均為條件概率(conditional probability), 二者意義不同。

    對式(1)進(jìn)行變換, 即可以得到如下公式:

    式(2)即為貝葉斯定理公式。其代表的意義是,如果我們要計(jì)算 B發(fā)生的條件下 A發(fā)生的概率(p(A|B)), 可以通過使用 A與 B同時(shí)發(fā)生的概率(p(A∩B))除以 B發(fā)生的概率(p(B)), 也就等于在A發(fā)生的條件下B發(fā)生的概率, 與A發(fā)生概率的乘積, 再除以B發(fā)生的概率。式(2)將兩個(gè)條件概率聯(lián)系起來, 從而使得計(jì)算不同的條件概率成為可能。

    在貝葉斯統(tǒng)計(jì)的框架之下, 式(2)可以看作是一次信息的更新。假定我們需要根據(jù)一次實(shí)驗(yàn)收集到的數(shù)據(jù)(data)來檢驗(yàn)?zāi)硞€(gè)理論模型為真的可能性。以心理學(xué)研究中常用的零假設(shè)H0為例, 則可以將式(2)改寫如下:

    p(H0|data)表示數(shù)據(jù)更新之后理論模型H0正確的概率, 即后驗(yàn)概率(posterior);p(H0)表示更新數(shù)據(jù)之前認(rèn)為理論模型H0正確的概率, 即先驗(yàn)概率(prior); 而p(data|H0)則是在模型H0之下, 出現(xiàn)當(dāng)前數(shù)據(jù)的概率, 即邊緣似然性(marginal likelihood)。由此可以看出, 在貝葉斯統(tǒng)計(jì)之中, 一次數(shù)據(jù)收集(實(shí)驗(yàn))的主要功能在于幫助我們更新理論模型的可信度。

    根據(jù)式(3), 我們可以使用數(shù)據(jù)對任意的模型為真的概率進(jìn)行更新。在假設(shè)檢驗(yàn)中, 我們可以根據(jù)觀測數(shù)據(jù)同時(shí)對零假設(shè)(理論模型H0)和備擇假設(shè)(理論模型H1)的可信度進(jìn)行更新(分別見式(3)和式(4)), 得到它們更新的后驗(yàn)概率。

    得到H0和H1的后驗(yàn)概率后, 可能對兩者進(jìn)行比較, 即式(5):

    其中, 貝葉斯因子為:

    在式(6)中, BF10下標(biāo)的1代表的是H1, 0代表的是H0, 因此, BF10即代表的是H1與H0對比的貝葉斯因子, 而 BF01則代表的是H0與H1對比的貝葉斯因子。例如, BF10= 19表示的是, 在備擇假設(shè)H1為真條件下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性是虛無假設(shè)H0條件下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性的19倍。從這個(gè)定義公式中可以看出, 貝葉斯因子是體現(xiàn)了當(dāng)前數(shù)據(jù)將先驗(yàn)概率更新為后驗(yàn)概率過程中的變化。

    正是如此, 貝葉斯因子與 NHST回答了不同的問題。NHST試圖回答“假定我們已知兩個(gè)變量的關(guān)系(如, 兩種條件沒有差異), 出現(xiàn)當(dāng)前觀測數(shù)據(jù)的模式或者更加極端模式的概率(p(more extreme > observed data|H0))有多大”的問題; 而貝葉斯因子試圖回答的是:“在當(dāng)前數(shù)據(jù)更可能在哪個(gè)理論模型下出現(xiàn)”的問題。在假設(shè)檢驗(yàn)中, 貝葉斯因子具有一些 NHST不具備的優(yōu)勢(見表 1),下一小節(jié)將對這些優(yōu)勢進(jìn)行詳細(xì)說明。

    在 Jeffreys (1961)的基礎(chǔ)上, Wagenmakers,Love等人(2017)對貝葉斯因子的大小所代表的意義進(jìn)行原則上的劃分(見表2)。但是這個(gè)劃分僅是大致參考, 不能嚴(yán)格對應(yīng), 研究者需要根據(jù)具體的研究來判斷貝葉斯因子的意義。

    表1 假設(shè)檢驗(yàn)中貝葉斯推斷與傳統(tǒng)NHST推斷的比較

    1.2 備擇假設(shè)的默認(rèn)先驗(yàn)

    由于貝葉斯因子中先驗(yàn)概率具有至關(guān)重要的作用, 如何選擇備擇假設(shè)的先驗(yàn)分布變得尤其重要。其中一個(gè)較為合理的做法是, 根據(jù)某問題的先前研究結(jié)果(如元分析得到的效應(yīng)量)來設(shè)定備擇假設(shè)的先驗(yàn)分布。但這種做法在很多情況下并不現(xiàn)實(shí):首先根據(jù)范式的不同, 效應(yīng)量的可能分布不同; 更重要地, 由于許多研究本身具有一定的探索性, 并沒有先前研究結(jié)果作為指導(dǎo)。因此, 更加常用的做法是使用一個(gè)綜合的、標(biāo)準(zhǔn)化的先驗(yàn)。

    例如, 在貝葉斯t檢驗(yàn)中, 使用柯西分布(Cauchy distribution)作為備擇假設(shè)的先驗(yàn)可能是比較合理的選擇(Jeffreys, 1961; Ly, Verhagen, &Wagenmakers, 2016a, 2016b; Rouder et al., 2009)。與標(biāo)準(zhǔn)正態(tài)分布相比, 柯西分布在 0附近概率密度相對更小一些, 因此其比標(biāo)準(zhǔn)的正態(tài)允許更多較大的效應(yīng)(見圖 1); 而與均勻分布(即效應(yīng)量在所有值上的分布完全相同)相比, 柯西分布更偏好零假設(shè)一些(Jeffreys, 1961; Rouder et al., 2009)。因此, 對于備擇假設(shè)的先驗(yàn)分布, 可以如下表示:

    表2 貝葉斯因子決策標(biāo)準(zhǔn)

    其中x0為柯西分布的位置(position)參數(shù), γ為尺度參數(shù)(Cauchy scale, 也有文獻(xiàn)中使用 r來表示)。Jeffreys (1961)最早提出在貝葉斯因子中使用柯西分布作為先驗(yàn)來比較兩樣本的問題。最近研究者的進(jìn)一步驗(yàn)證表明, 柯西分布可以作為先驗(yàn)用于計(jì)算心理學(xué)研究中常用的貝葉斯因子分析,如t檢驗(yàn)(Rouder et al., 2009)、ANOVA (Rouder et al., 2012)和相關(guān)分析(Ly, Marsman, & Wagenmakers,2018; Ly et al., 2016b)等。這些驗(yàn)證性的工作, 為貝葉斯因子在心理學(xué)及相關(guān)學(xué)科研究中的應(yīng)用打下了基礎(chǔ)。

    圖1 柯西分布與正態(tài)分布的對比

    2 貝葉斯因子的優(yōu)勢

    如前所述, 在假設(shè)檢驗(yàn)中, 貝葉斯因子除了更加符合人們的直覺之外, 還具有一些 NHST所不具備的優(yōu)勢。這些優(yōu)勢可以總結(jié)為五個(gè)方面(見表1)。以下將從這五個(gè)方面展開。

    2.1 同時(shí)考慮H0和H1

    貝葉斯因子的計(jì)算同時(shí)考慮H0和H1, 并根據(jù)全部現(xiàn)有數(shù)據(jù)對H0和H1為真的先驗(yàn)概率進(jìn)行更新, 在此基礎(chǔ)之上, 比較在當(dāng)前數(shù)據(jù)下哪個(gè)理論模型(H0和H1)更合理。這種思路與NHST不同:在NHST框架之下, 計(jì)算p值僅需要假定H0為真,而對H1不做任何假設(shè), 因此p值與H1無關(guān)。NHST的邏輯是, 如果H0為真的條件下, 觀察到當(dāng)前數(shù)據(jù)出現(xiàn)的概率非常小, 則拒絕H0, 接受H1。這種情況下, NHST忽略了一種可能性:當(dāng)前數(shù)據(jù)下,H1為真的概率與H0為真的概率相當(dāng)或者更小(Wagenmakers, Verhagen, et al., 2017)。例如, 在Bem (2011) 中,H0是被試的反應(yīng)不受到未來出現(xiàn)刺激的影響,H1是未來出現(xiàn)的刺激會影響到被試當(dāng)前反應(yīng), 即被試能夠“預(yù)知”尚未出現(xiàn)的刺激。雖然采用NHST的邏輯Bem (2011)得到了p< 0.05的結(jié)果, 即H0為真時(shí), 得到當(dāng)前數(shù)據(jù)的概率(p(data|H0))很低, 因此作者選擇拒絕H0而接受H1,認(rèn)為被試能夠預(yù)知未來出現(xiàn)的刺激。然而, 研究者更關(guān)心的是, 根據(jù)當(dāng)前數(shù)據(jù), 我們能夠得到某個(gè)模型/假設(shè)(如H1)為真的概率(p(H1|data)), 而非零假設(shè)H0為真時(shí)得到當(dāng)前數(shù)據(jù)的概率(p(data|H0))。在Bem (2011)這個(gè)研究中, 先驗(yàn)知識告訴我們H1本身為真的概率可能非常低, 在當(dāng)前數(shù)據(jù)模式下,H1為真的可能性p(H1|data)極可能比H0為真的可能性p(H0|data)更低(Rouder & Morey,2011; Wagenmakers et al., 2011), 但NHST卻完全忽視了這一點(diǎn)。

    2.2 可以用來支持H0

    同樣, 由于貝葉斯因子同時(shí)量化當(dāng)前數(shù)據(jù)對H0和H1各自的支持強(qiáng)度, 其可以用來支持H0(Dienes, 2014)。但是, 在傳統(tǒng)的NHST框架之下,假設(shè)檢驗(yàn)僅在H0為真的假設(shè)下進(jìn)行, 僅憑借小于顯著性水平(比如 0.05或 0.005)無法為H0是否為真提供證據(jù)。比如, 僅依據(jù)假設(shè)檢驗(yàn)的結(jié)果p=0.2并不能推斷有證據(jù)表明沒有效應(yīng)(evidence of absence) (除非結(jié)合樣本量、效應(yīng)量和統(tǒng)計(jì)效力Power做出綜合判斷)。

    實(shí)際的研究中, 能夠?qū)0提供量化的證據(jù)具有非常重要的意義(Gallistel, 2009; Rouder et al.,2009), 它可以直觀地讓研究者區(qū)分出有證據(jù)表明沒有效應(yīng)(evidence of absence)和沒有證據(jù)表明有效應(yīng)(absence of evidence)這兩種情況(Dienes,2014)。具體來說, 貝葉斯因子的結(jié)果有三種狀態(tài):(1)提供了支持 H1的證據(jù)(即有證據(jù)表明有效應(yīng));(2)支持H0的證據(jù)(即有證據(jù)表明沒有效應(yīng)); 或(3)證據(jù)對兩者都不支持(沒有足夠的證據(jù)表明有效應(yīng)還是無效應(yīng))。例如, 貝葉斯因子 BF01= 15表明觀察到的數(shù)據(jù)出現(xiàn)在 H0為真情況下的可能性是在 H1為真情況下的可能性的 15倍, 表明當(dāng)前數(shù)據(jù)更加支持沒有效應(yīng)的假設(shè)H0。但是, 假如BF01= 1.5, 則說明觀察到的數(shù)據(jù)出現(xiàn)在H0為真情況下的可能性是在H1為真情況下的可能性的1.5倍, 則說明當(dāng)前數(shù)據(jù)對于兩個(gè)假設(shè)的支持程度相當(dāng), 沒有足夠的證據(jù)支持H0或者H1(見表2關(guān)于貝葉斯因子大小意義的建議)。

    值得注意的是, 不管是支持H1, 還是支持H0,貝葉斯因子提供的證據(jù)是相對的, 即相對于某個(gè)假設(shè)更支持另一個(gè)假設(shè), 因此可能存在第三個(gè)模型H2比H1和H0均更接近真實(shí)情況, 具有更高的后驗(yàn)概率。值得指出的是, 最近有研究者在NHST框架之下發(fā)展出可以接受零假設(shè)的方法:等同性檢驗(yàn)(Equivalence Test)。這種方法通過設(shè)定多個(gè)H0來檢驗(yàn)效應(yīng)量是否與 0沒有差異, 從而檢驗(yàn)是否能接受H0(Lakens, 2017)。但等同性檢驗(yàn)仍然使用了p值, 無法提供對證據(jù)的直接測量(Schervish,1996)。

    2.3 不“嚴(yán)重”地傾向于反對H0

    貝葉斯因子同時(shí)分別量化了當(dāng)前數(shù)據(jù)對H0和H1支持的強(qiáng)度, 其與傳統(tǒng)NHST相比, 其對H0和H1的支持更加均衡, 從而其拒絕H0的傾向也相對沒有那么強(qiáng)烈。

    在傳統(tǒng) NHST假設(shè)之下, 只要研究者能夠收集足夠多的數(shù)據(jù), 總能夠得到p< 0.05從而拒絕H0, 與之相反的是, 貝葉斯因子會隨著數(shù)據(jù)的增加而逐漸趨于穩(wěn)定(見后文3.2小節(jié)關(guān)于貝葉斯因子收斂的討論)。對于同樣的數(shù)據(jù),p值也似乎比貝葉斯因子對H0的反對程度更強(qiáng)。例如, 有研究者分析了美國總統(tǒng)選舉中候選人的身高與當(dāng)選之間的關(guān)系, 對相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)之后發(fā)現(xiàn)r=0.39,p= 0.007 (Stulp, Buunk, Verhulst, & Pollet,2013)。如果使用貝葉斯因子分析, 則會得到BF10=6.33 (Wagenmakers, Marsman, et al., 2017)。雖然兩種方法大致上支持了同樣的結(jié)論(即拒絕H0與中等程度的證據(jù)支持H1), 但是從p值上看, 似乎表明拒絕H0的證據(jù)很強(qiáng), 而貝葉斯因子得到的支持則是有保留的。Wetzels等人(2011)比較了855個(gè)t檢驗(yàn)的結(jié)果, 發(fā)現(xiàn)雖然大部分的情況下p值與貝葉斯因子在結(jié)論上的方向一致, 但是貝葉斯因子相對來說更加謹(jǐn)慎:p值在0.01與0.05之間的統(tǒng)計(jì)顯著結(jié)果, 其對應(yīng)的貝葉斯因子只表明有非常弱的證據(jù)。對傳統(tǒng)p值的貝葉斯解讀, 詳見(Johnson,2013; Marsman & Wagenmakers, 2017b)。

    2.4 可以監(jiān)控證據(jù)的強(qiáng)度變化

    計(jì)算貝葉斯因子時(shí), 可以根據(jù)數(shù)據(jù)來更新對H0和H1支持的程度, 因此, 隨著新數(shù)據(jù)的出現(xiàn),可以不斷對不同假設(shè)的支持程度進(jìn)行更新。在貝葉斯框架之下, 貝葉斯因子的計(jì)算與解讀均不需要假定存在無數(shù)的重復(fù)實(shí)驗(yàn), 而是按照似然性法則對貝葉斯因子進(jìn)行更新, 此外數(shù)據(jù)的出現(xiàn)順序不會影響貝葉斯因子的解讀(Rouder, 2014)。

    貝葉斯統(tǒng)計(jì)的框架之下, 不需要假定無數(shù)次重復(fù)試驗(yàn), 對貝葉斯因子的解讀不會受到何時(shí)停止收集數(shù)據(jù)的影響(Rouder, 2014)。實(shí)際上, 如果研究者們能夠采用序列貝葉斯因子設(shè)計(jì), 在實(shí)驗(yàn)開始前提前設(shè)置貝葉斯因子的合理閾值(通常是10, 即較強(qiáng)的證據(jù)), 則能夠在實(shí)驗(yàn)中根據(jù)數(shù)據(jù)增加對后驗(yàn)概率進(jìn)行更新, 可以在適當(dāng)?shù)臅r(shí)候停止收集數(shù)據(jù)(Schlaifer & Raiffa, 1961; Sch?nbrodt,Wagenmakers, Zehetleitner, & Perugini, 2017)。這種不受到停止規(guī)則影響的原則, 對實(shí)際研究具有重要的意義, 使得研究者能合理有效地收集數(shù)據(jù)。

    2.5 不受抽樣計(jì)劃的影響

    抽樣計(jì)劃指研究者根據(jù)數(shù)據(jù)分析的假設(shè), 在研究開始之前對樣本選擇以及數(shù)據(jù)收集過程進(jìn)行計(jì)劃以保證數(shù)據(jù)符合統(tǒng)計(jì)假設(shè)。例如, 心理學(xué)實(shí)驗(yàn)中通常采用的隨機(jī)抽樣以及隨機(jī)分配的做法。由于 NHST的使用包含了一些潛在的假設(shè), 抽樣計(jì)劃(尤其是功效分析, power analysis)對于解讀p值具有重要意義(Halsey, Curran-Everett, Vowler,& Drummond, 2015)。

    但對于貝葉斯因子的解讀, 則不受到抽樣計(jì)劃的影響, 原因在于貝葉斯因子的計(jì)算使用似然性原則(Berger & Wolpert, 1988), 其對數(shù)據(jù)的分析沒有預(yù)先的假設(shè)。換句話說, 即使研究者對數(shù)據(jù)收集的過程不清楚, 仍能夠計(jì)算和解讀貝葉斯因子。這個(gè)特點(diǎn)對于分析自然情境中獲得的數(shù)據(jù)非常實(shí)用。

    仍然以上述的美國總統(tǒng)選舉中候選人的身高與當(dāng)選之間關(guān)系的研究為例, 研究者發(fā)現(xiàn)r= 0.39,p= 0.007 (Stulp et al., 2013)。在NHST框架之下,要對p值進(jìn)行合理的解讀, 我們必須假定實(shí)驗(yàn)者在總統(tǒng)選舉之前已經(jīng)計(jì)劃好進(jìn)行46次選舉, 并且在第46次選舉后停止收集數(shù)據(jù), 并在此基礎(chǔ)之上計(jì)算相關(guān)系數(shù)。如果不滿足這些假設(shè)條件,p=0.007代表的意義很難解讀。但很明顯的是, 這些假設(shè)是不成立的。

    同樣, 這個(gè)例子還包含與停止規(guī)則(stopping rule, 即什么條件下停止收集數(shù)據(jù))相關(guān)的問題:在真實(shí)的生活中, 美國的總統(tǒng)選舉還會繼續(xù), 數(shù)據(jù)會繼續(xù)增加。如何分析未來的這些數(shù)據(jù)呢?如果每新增加一個(gè)數(shù)據(jù)均進(jìn)行一次 NHST分析, 則會引起多重比較的問題, 使得假陽性增加1對于頻率主義的分析來說, 多重比較是非獨(dú)立的, 校正的方法減少但不能消除一類錯(cuò)誤。。

    與 NHST不同, 貝葉斯因子能夠隨著新數(shù)據(jù)不斷地出現(xiàn)而不斷地更新, 從而能夠分析實(shí)驗(yàn)室之外的真實(shí)數(shù)據(jù), 也能夠?qū)?shù)據(jù)進(jìn)行有意義的解讀。從這個(gè)角度來講, 貝葉斯因子實(shí)時(shí)監(jiān)控證據(jù)的優(yōu)勢與不受抽樣計(jì)劃影響的優(yōu)勢是相互關(guān)聯(lián)的:這兩個(gè)優(yōu)勢均是因?yàn)樨惾~斯因子不依賴于研究者收集數(shù)據(jù)的意圖。但是, 正如我們在后面要提到的, 雖然隨著數(shù)據(jù)更新而更新貝葉斯因子不會影響到對其解讀, 但這種忽略假陽性的做法并不能避免假陽性的升高, 研究者仍需要通過提前設(shè)置合理的閾值和(或)選擇合適的先驗(yàn)來控制假陽性。

    總之, 貝葉斯因子以觀察到的數(shù)據(jù)為條件,定量地分析當(dāng)前數(shù)據(jù)對H0和H1提供的支持程度。通過實(shí)時(shí)地監(jiān)控證據(jù)強(qiáng)度的變化, 貝葉斯因子讓研究者可以在收集數(shù)據(jù)的同時(shí)監(jiān)控證據(jù)強(qiáng)度的變化。如果預(yù)先確定貝葉斯因子的停止閾值(比如BF10大于10或者BF10小于1/10時(shí)停止收集數(shù)據(jù)),研究者能夠在證據(jù)足夠充足停止收集數(shù)據(jù)。此外,即使缺乏數(shù)據(jù)收集計(jì)劃信息的情況下, 貝葉斯因子仍然能夠從觀測數(shù)據(jù)中得到證據(jù)來更加支持哪個(gè)假設(shè)。

    3 使用JASP計(jì)算貝葉斯因子

    由于貝葉斯因子的獨(dú)特優(yōu)勢, 因此很早就有研究者試圖將其引入心理學(xué)的研究之中(Edwards et al., 1963)。但貝葉斯因子的計(jì)算在實(shí)際情況中隨著數(shù)據(jù)類型和分析類型不同而變得更加復(fù)雜(相關(guān)公式可以參考, Morey & Rouder, 2011; Rouder et al., 2012; Rouder, Morey, Verhagen, Swagman, &Wagenmakers, 2017; Rouder et al., 2009)。正是由于這個(gè)原因, 貝葉斯因子在心理學(xué)的研究中一直受到很大的限制。最近, 研究者利用R語言豐富的軟件包, 開發(fā)了可視化的統(tǒng)計(jì)工具 JASP(https://jasp-stats.org/), 該軟件采用與 SPSS類似的圖形界面, 讓貝葉斯因子的計(jì)算變得更加容易實(shí)現(xiàn), 本小節(jié)將介紹JASP軟件及其使用2本小節(jié)內(nèi)容部分來自于Wagenmakers, E.-J., Love, J., Marsman,M., Jamil, T., Ly, A., Verhagen, J., et al. (2017). Bayesian Inference for Psychology. Part II: Example Applications with JASP. Psychonomic Bulletin & Review.。

    3.1 JASP軟件簡介

    JASP是一個(gè)免費(fèi)、開源的統(tǒng)計(jì)軟件, 其使用R語言的工具包進(jìn)行數(shù)據(jù)處理, 但其使用不需要安裝R。JASP的長期目標(biāo)是讓所有人能夠通過免費(fèi)的統(tǒng)計(jì)軟件進(jìn)行最先進(jìn)統(tǒng)計(jì)技術(shù), 尤其是貝葉斯因子。

    JASP是在心理學(xué)研究面臨可重復(fù)危機(jī)的背景下開發(fā)的, 其開發(fā)理念如下:第一, 開源與免費(fèi),因?yàn)殚_源應(yīng)該是科學(xué)研究的本質(zhì)元素; 第二, 包容性, 既包括貝葉斯分析, 也包括 NHST分析方法, 而且 NHST分析方法中, 增加了對效應(yīng)量及其置信區(qū)間的輸出(Cumming, 2014); 第三, 簡潔性, 即 JASP的基本軟件中僅包括最常用的分析,而更高級的統(tǒng)計(jì)方法又可以通過插件模塊進(jìn)行補(bǔ)充; 第四, 友好的圖形界面, 例如, 輸出部分隨著用戶選擇變量輸入而實(shí)時(shí)更新, 表格使用 APA格式。同時(shí), JASP的使用遞進(jìn)式輸出, 即默認(rèn)的結(jié)果輸出是最簡潔的, 更多的結(jié)果輸出可以由研究者自己進(jìn)行定義。此外, 為方便公開和分享分析過程,JASP將輸入的數(shù)據(jù)與輸出結(jié)果保存于同一個(gè)后綴為.jasp的文件之中, 每個(gè)分析的結(jié)果均與相應(yīng)的分析和變量數(shù)據(jù)相關(guān)聯(lián)。這種結(jié)果與數(shù)據(jù)整合的文件可以與開放科學(xué)平臺Open science framework (OSF,https://osf.io/)兼容, 從而做到數(shù)據(jù)與結(jié)果公開。

    3.2 貝葉斯因子分析在JASP的實(shí)現(xiàn)及其結(jié)果解讀

    目前, JASP中可以實(shí)現(xiàn)多種實(shí)驗(yàn)設(shè)計(jì)的貝葉斯因子分析, 包括單樣本t檢驗(yàn)、獨(dú)立樣本t檢驗(yàn)、配對樣本t檢驗(yàn)、方差分析、重復(fù)測量的方差分析、ANCOVA和相關(guān)分析。對于每一種分析, 均提供了頻率學(xué)派的方法和貝葉斯的方法。JASP的貝葉斯因子分析中采用默認(rèn)先驗(yàn)分布, 但也可以修改。接下來本文將Wagenmakers等人(2015, https://osf.io/uszvx/)對 Topolinski和 Sparenberg (2012)的重復(fù)實(shí)驗(yàn)數(shù)據(jù)為例進(jìn)行分析, 說明如何使用JASP進(jìn)行獨(dú)立樣本t檢驗(yàn)。其他常用貝葉斯因子分析,可以進(jìn)一步參考Wagenmakers, Love等人(2017)。

    在Topolinski和Sparenberg (2012)的第二個(gè)實(shí)驗(yàn)中, 一組被試以順時(shí)針方向拔動一個(gè)廚房用的鐘, 而另一組則以逆時(shí)針方向撥動。隨后, 被試填寫一個(gè)評估經(jīng)驗(yàn)開放性的問卷。他們的數(shù)據(jù)表明,被試順時(shí)針轉(zhuǎn)時(shí)比逆時(shí)針轉(zhuǎn)的被試報(bào)告更高的對經(jīng)驗(yàn)的開放性(Topolinski & Sparenberg, 2012) (但是見 Francis, 2013)。Wagenmakers等人(2015)采用提前注冊(preregistration)的方式對該研究進(jìn)行重復(fù), 在實(shí)驗(yàn)開始前確定停止收集數(shù)據(jù)的標(biāo)準(zhǔn):當(dāng)支持某一個(gè)假設(shè)的貝葉斯因子達(dá)到 10時(shí)即停止收集數(shù)據(jù), 或者每條件下達(dá)到50個(gè)樣本后停止收集數(shù)據(jù)。此外, 預(yù)注冊時(shí)采用單側(cè)t檢驗(yàn)的默認(rèn)先驗(yàn), 即γ = 1的柯西分布。而單側(cè)的t檢驗(yàn)的先驗(yàn)是只有正效應(yīng)的柯西分布, 即備擇假設(shè)為H+:Cauchy (0, 1)。

    有研究者認(rèn)為, 默認(rèn)先驗(yàn)分布 Cauchy (0, 1)是不現(xiàn)實(shí)的, 因?yàn)樵谶@個(gè)分布中, 大的效應(yīng)量占的比例太大(大于1的效應(yīng)量在分布中占了50%以上); 相反, 另一些人覺得這個(gè)分布不現(xiàn)實(shí)是因?yàn)檫@個(gè)分布中, 靠近 0的效應(yīng)量的比重太大, 即效應(yīng)量為0是最可能的值。一個(gè)避免這些問題的做法是減小柯西分布的尺度參數(shù)γ。在BayesFactor工具包中, 默認(rèn)采用的

    JASP中對于單側(cè)的t檢驗(yàn)同樣采用這個(gè)先驗(yàn)。γ減小意味著H1和H0相似, 他們對觀測數(shù)據(jù)的預(yù)測相似, 更難得到支持H0的強(qiáng)證據(jù)。

    使用 JASP可以對這批數(shù)據(jù)進(jìn)行貝葉斯的獨(dú)立樣本t檢驗(yàn)。首先用 JASP打開數(shù)據(jù)(File →Examples → “Kitchen Rolls”, 或者從 https://osf.io/9r423/下載后, 點(diǎn)擊File → Open), 然后在T-tests的面板中選擇“Bayesian Independent Samples T-test”。將顯示如圖1中間圖所示的對話框。我們已經(jīng)將“mean NEO”作為因變量(dependent variable),“Rotation”作為分組變量(grouping variable)。如圖2中間所示, 將Cauchy先驗(yàn)設(shè)置為JASP的默認(rèn)值γ = 0.707, 同時(shí)勾選了“Prior and posterior”及其子選項(xiàng)的“Additional info”這兩個(gè)選項(xiàng), 則得到如圖 2右側(cè)所示的結(jié)果:與順時(shí)針相比, 逆時(shí)針對經(jīng)驗(yàn)的開放性稍微高一些, 這個(gè)結(jié)果的方向與Topolinski和 Sparenberg (2012)所假設(shè)的正好相反。圖2右圖下半部分中, 實(shí)線為后驗(yàn)分布, 虛線為先驗(yàn)分布??梢钥吹? 大部分的后驗(yàn)概率是負(fù)值, 其的中值是?0.13, 95%的可信區(qū)間從?0.5到0.23。BF01= 3.71, 表明觀察到的數(shù)據(jù)在H0假設(shè)之下的可能性是在H1假設(shè)之下可能性的 3.71倍(我們選擇了BF01, 因?yàn)锽F01=3.71相對于等價(jià)的BF10=0.27來說更好解釋)。

    通過這個(gè)初步的展示, 我們可以了解到如何進(jìn)行貝葉斯獨(dú)立樣本t檢驗(yàn)的操作。接下來展示如何按照提前注冊過的方法, 對這批數(shù)據(jù)進(jìn)行貝葉斯單側(cè)獨(dú)立樣本t檢驗(yàn)。由于描述性統(tǒng)計(jì)輸出表明順時(shí)針是組 1而逆時(shí)針是組 2, 我們將在”Hypothesis”的面板處勾選“group 1 > group 2”, 正如圖3中間所示。

    單側(cè)檢驗(yàn)的結(jié)果如圖3右邊部分所示。與預(yù)期的一致, 如果觀察到的效應(yīng)是與假設(shè)相反, 則這種使用單側(cè)檢驗(yàn)將先驗(yàn)知識整合到分析之中的做法, 增加支持H0的相對證據(jù)(也見Matzke等人(2015)), 即貝葉斯因子BF01從3.71增加到了7.74,意味著觀察到的數(shù)據(jù)在H0下的可能是在H+可能性的7.74倍。

    圖2 使用JASP進(jìn)行貝葉斯獨(dú)立樣本t檢驗(yàn)時(shí)的操作截屏。軟件左側(cè)是數(shù)據(jù); 中間為數(shù)據(jù)分析選項(xiàng); 右側(cè)為結(jié)果輸出。

    值得注意的是, 在H+下的后驗(yàn)分布是集中在0但不是沒有負(fù)值(見圖3右側(cè)), 與H+中的順序限制是一致的。這一點(diǎn)與傳統(tǒng)頻率主義的單側(cè)置信區(qū)間不同, 傳統(tǒng)方法的單尾置信區(qū)間為[?0.23 +∞)3可以使用R語言中的t.test函數(shù)來得到p值的區(qū)間[–.23 +∞)。。雖然傳統(tǒng)頻率主義的區(qū)間在數(shù)學(xué)上是良好定義的(即, 它包括了全部的不會被單尾的a= 0.05顯著性檢驗(yàn)拒絕的值), 但是大部分研究者會發(fā)現(xiàn)這個(gè)區(qū)間即不好理解也沒有信息量(Morey, Hoekstra,Rouder, Lee, & Wagenmakers, 2016)。

    除了計(jì)算貝葉斯因子外, JASP還可以進(jìn)行穩(wěn)健性分析(Bayesian robustness check), 從而量化柯西先驗(yàn)分布尺度參數(shù)γ對貝葉斯因子的影響。如圖4所示, 選中“Bayes factor robustness check”的選項(xiàng), 這將得到圖 4右側(cè)上面的圖。從該圖可以看到, 當(dāng)Cauchy先驗(yàn)的γ為0時(shí),H0與H+相同(BF0+= 1), BF0+隨著γ的增加而增加。在JASP的默認(rèn)值γ = 0.707, 貝葉斯因子BF0+= 7.73; 而對于Jeffrey默認(rèn)的γ = 1, 貝葉斯因子BF0+= 10.75。因此, 在一系列 γ的先驗(yàn)值中, 當(dāng)前數(shù)據(jù)顯示了對H0的中等到強(qiáng)的證據(jù)支持。

    此外, 還可以勾選圖4中間的部分的“Sequential analysis”及其子選項(xiàng)“Robustness check”, 進(jìn)行序列分析。其結(jié)果見圖4右側(cè)下半部分的圖。序列分析顯示的是貝葉斯因子隨著著抽樣而變化的結(jié)果,也就是說, 研究都可以在新數(shù)據(jù)收集到時(shí)對證據(jù)的積累進(jìn)行監(jiān)控和可視化。從圖中可以看到, 實(shí)際上Wagenmakers等人(2015)并未按預(yù)注冊時(shí)的γ= 1 先驗(yàn)來計(jì)算 BF0+并在 BF0+> 10 或者 BF+0> 10時(shí)立刻停止收集數(shù)據(jù): 在55個(gè)被試之后, 虛線超過了BF0+> 10, 但是數(shù)據(jù)仍然繼續(xù)收集。在實(shí)踐中, 每隔幾天檢驗(yàn)一次貝葉斯因子, 有助于了解貝葉斯因子是否在某個(gè)時(shí)間點(diǎn)上超過預(yù)先決定的標(biāo)準(zhǔn), 并據(jù)此決定是否停止數(shù)據(jù)。

    序列分析的一個(gè)優(yōu)點(diǎn)是它可視化了貝葉斯因子在不同先驗(yàn)條件下的收斂過程, 即貝葉斯因子在 log尺度上差異開始穩(wěn)定不變(如, Bahadur &Bickel, 2009; Gronau & Wagenmakers, 2017)。在當(dāng)前的例子中, 當(dāng)被試數(shù)量達(dá)到35時(shí), 不同先驗(yàn)下的貝葉斯因子開始出現(xiàn)收斂。要理解為什么在貝葉斯因子的 log值的差異會在一些初步的觀測數(shù)據(jù)之后不再變化, 我們可以假定數(shù)據(jù) y包括兩個(gè)部分y1和y2, 根據(jù)條件概率公式, BF0+(y) = BF0+(y1) × BF0+(y2|y1)。這個(gè)公式表明, 貝葉斯因子并非是對不同數(shù)據(jù)進(jìn)行盲目地相乘, 實(shí)際上公式中的第二個(gè)因子——BF0+(y2|y1)——反映的是:當(dāng)先驗(yàn)分布已經(jīng)根據(jù)數(shù)據(jù) y1進(jìn)行更新后, 數(shù)據(jù) y2對貝葉斯因子再次更新(Jeffreys, 1961, p. 333)。對這個(gè)公式進(jìn)行 log轉(zhuǎn)換后, 得到 log (BF0+(y)) =log (BF0+(y1)) + log (BF0+(y2|y1))。假定數(shù)據(jù)y1包括了足夠的信息, 不管γ如何變化, 通過y1更新后均得到大致相同的結(jié)果分布(在大部分情況下, 這種情況很快就會出現(xiàn))。而通過y1得到的這個(gè)后驗(yàn)分布, 又變成了數(shù)據(jù)y2的先驗(yàn)分布, 即成為 log (BF0+(y2|y1))的先驗(yàn)。在這種情況下, log(BF0+(y2|y1))的值大致相似(相似的先驗(yàn)分布, 相同的數(shù)據(jù))。因此, 不一樣的γ值會讓數(shù)據(jù)y1產(chǎn)生不同的后驗(yàn)分布, 但當(dāng)數(shù)據(jù)y1是足夠的大后, 使得y1的后驗(yàn)分布大致相似, 此時(shí)y2再次對模型進(jìn)行更新的大小也是相似, 這就使得log (BF0+(y2|y1))在不同的γ下相似, 產(chǎn)生收斂的現(xiàn)象。

    圖4 使用JASP進(jìn)行貝葉斯因子的穩(wěn)健性分析

    3.3 如何報(bào)告貝葉斯因子結(jié)果

    貝葉斯統(tǒng)計(jì)在目前的心理學(xué)研究中并不常見。雖然大部分雜志的編輯和審稿人會欣賞采用更加合理的統(tǒng)計(jì)手段, 但是出于對貝葉斯方法的陌生, 研究者使用貝葉斯因子時(shí), 需要提供相關(guān)的背景信息讓編輯和審稿人了解這種背景。因此,除了報(bào)告貝葉斯因子的結(jié)果之外, 還需要首先報(bào)告如下幾點(diǎn)(Kruschke, 2014)。第一, 選用貝葉斯因子的動機(jī)與原因, 即為什么在某個(gè)報(bào)告中使用貝葉斯因子而不是NHST。如前所述, 可以說明貝葉斯因子提供了更加豐富的信息, 或者數(shù)據(jù)特點(diǎn)不滿足NHST的前提假設(shè)(如在自然情境下收集的數(shù)據(jù), 無法判斷數(shù)據(jù)收集的動機(jī)和實(shí)驗(yàn)假設(shè))。第二, 描述貝葉斯因子在模型比較中的基本邏輯。即, 假定讀者并不非常了解貝葉斯因子, 簡單地解釋貝葉斯因子中模型比較的思想。第三, 描述貝葉斯因子分析中的先驗(yàn)分布以及采用該先驗(yàn)的原因, 先驗(yàn)分布應(yīng)該或多或少對數(shù)據(jù)分析提供一些信息。第四, 解釋貝葉斯因子, 將貝葉斯因子與研究中的理論或假設(shè)結(jié)合起來。

    貝葉斯因子不使用統(tǒng)計(jì)顯著, 而是描述數(shù)據(jù)對假設(shè)的支持程度。例如, 在 Wagenmakers等(2015)中, 對Jeffreys默認(rèn)先驗(yàn)下的貝葉斯因子結(jié)果進(jìn)行如下描述:

    “貝葉斯因子為BF01= 10.76, 說明在(假定沒有效應(yīng)的)零假設(shè)下出現(xiàn)當(dāng)前數(shù)據(jù)的可能性是在(假定存在效應(yīng)的)備擇假設(shè)下可能性的10.76倍。根據(jù)Jeffreys (1961)提出的分類標(biāo)準(zhǔn), 這是較強(qiáng)的證據(jù)支持了零假設(shè), 即在順時(shí)針和立逆時(shí)針轉(zhuǎn)鐘表指針的人在經(jīng)驗(yàn)開放性(NEO)得分上沒有差異。”

    此外, 使用貝葉斯因子進(jìn)行分析時(shí), 還可以報(bào)告探索性的結(jié)果, 如穩(wěn)健分析和序列分析的結(jié)果, 這將進(jìn)一步豐富結(jié)果, 給其他研究者提供更加全面的信息。

    4 總結(jié)與展望

    近年來, 科學(xué)研究的可重復(fù)問題備受關(guān)注(Baker, 2016; Begley & Ellis, 2012; Munafò et al.,2017), 在心理學(xué)(Ebersole et al., 2016; Klein et al.,2014; Open Science Collaboration, 2015)、神影像學(xué)(Poldrack et al., 2017; Zuo & Xing, 2014)尤其如此。而對NHST的過度依賴正是原因之一(Lindsay,2015; 胡傳鵬等, 2016)。因此, 研究者們希望貝葉斯因子作為一種假設(shè)檢驗(yàn)方法, 能改變當(dāng)前心理學(xué)研究過度依賴 NHST的現(xiàn)狀。當(dāng)然, 也有研究者提出了其他的方案, 例如, 將顯著性的閾限下降到0.005 (Benjamin et al., 2018)或是采用模型比較的似然性比(likelihood ratio) (Etz, in press)的方法。但是值得注意的是, 心理學(xué)研究重復(fù)失敗的原因多種多樣, 僅改變統(tǒng)計(jì)方法不能讓心理學(xué)的研究變得可重復(fù)。數(shù)據(jù)不開放以及研究過程不透明(Chambers, Feredoes, Muthukumaraswamy, & Etchells,2014; Lindsay, 2015; Nosek et al., 2015)、對探索性分析與驗(yàn)證性分析不加區(qū)分(Kerr, 1998;Wagenmakers, Wetzels, Borsboom, van der Maas, &Kievit, 2012)、以發(fā)表論文為核心的獎(jiǎng)勵(lì)體系(Nosek, Spies, & Motyl, 2012)等都可能是造成當(dāng)前研究可重復(fù)率低的原因。因此從某種程度上來講,對數(shù)據(jù)分析過程與數(shù)據(jù)結(jié)果保持開放與透明是關(guān)鍵的解決方案(如, Poldrack & Gorgolewski, 2017; Zuo et al., 2014)。

    即便如此, 作為一種不同于傳統(tǒng) NHST的方法, 貝葉斯因子有助于研究者使用多種的方法對同一研究進(jìn)行分析, 從而得到準(zhǔn)確的統(tǒng)計(jì)推斷,得到更加接近真實(shí)的結(jié)論。需要指出的是, 采用多種方法進(jìn)行分析時(shí), 需要報(bào)告全部的分析過程和結(jié)果, 而非選擇最有利于自己結(jié)論的分析結(jié)果進(jìn)行報(bào)告。

    4.1 貝葉斯因子的不足

    貝葉斯因子是貝葉斯統(tǒng)計(jì)在假設(shè)檢驗(yàn)方面的應(yīng)用, 而貝葉斯學(xué)派與頻率學(xué)派統(tǒng)計(jì)的爭議一直存在(Miller, 2011)。實(shí)際上, 研究者指出貝葉斯因子也可能存在許多問題, 充分了解這些反對的觀點(diǎn), 將更加有利于我們在研究中合理地使用貝葉斯因子。

    對貝葉斯因子最強(qiáng)烈的質(zhì)疑來自于對其先驗(yàn)概率的設(shè)定, 可能會認(rèn)為先驗(yàn)概率過于主觀、過于保守從而不容易出現(xiàn)較強(qiáng)的證據(jù)等(Wagenmakers,Marsman, et al., 2017)。也有研究者認(rèn)為, 默認(rèn)的先驗(yàn)對小的效應(yīng)不利。例如, Bem, Utts和Johnson(2011) 認(rèn)為, Wagenmakers等人(2011)對 Bem(2011)的數(shù)據(jù)進(jìn)行重新分析時(shí), 采用了不合適的先驗(yàn)概率是他們未能得到與Bem (2011)一致結(jié)論的原因。這種批評實(shí)質(zhì)上是對貝葉斯因子的誤用,即未將先驗(yàn)知識轉(zhuǎn)化成為合適的先驗(yàn)概率(Hoijtink,van Kooten, & Hulsker, 2016)。有趣的是, 只要研究者將自己使用的先驗(yàn)概率保持透明與公開, 其他研究者可以采用交叉驗(yàn)證, 從而起到充分探索的作用。

    其次, 也有研究者認(rèn)為, 貝葉斯因子沒有考慮假陽性的問題。在 NHST框架之下, 研究者非常強(qiáng)調(diào)控制一類錯(cuò)誤與二類錯(cuò)誤的問題。例如心理學(xué)研究中一般將一類錯(cuò)誤控制在 5%以內(nèi), 因此顯著性水平設(shè)置為 0.05。也正是需要控制一類錯(cuò)誤, NHST框架之下有許多方法用來調(diào)整閾值使其一類錯(cuò)誤率不至于太高, 例如多重比較校正的方法。而貝葉斯統(tǒng)計(jì)主要是為了不斷地對證據(jù)的強(qiáng)度進(jìn)行測量, 其不考慮控制假陽性(即一類錯(cuò)誤)的問題。因此, 當(dāng)研究者基于貝葉斯因子進(jìn)行決策(效應(yīng)是否存在)時(shí), 就可能犯下一類錯(cuò)誤(Kruschke & Liddell, 2017a)。在實(shí)際的貝葉斯因子分析中, 可以通過先驗(yàn)來解決多重比較的問題(Jeffreys, 1938; Scott & Berger, 2006, 2010)。例如,直接說明研究者預(yù)期假陽性率有多大(Stephens &Balding, 2009)。

    還有研究者指出, 基于估計(jì)的統(tǒng)計(jì)總是要比假設(shè)檢驗(yàn)更優(yōu), 因?yàn)楣烙?jì)本身將不確定性考慮進(jìn)來。例如, Cumming (2014)建議使用效應(yīng)量及其置信區(qū)間以替代p值。但是考慮到參數(shù)估計(jì)與假設(shè)檢驗(yàn)在科研中均有其相應(yīng)最適用的問題, 因此貝葉斯因子無法直接與基于估計(jì)的頻率主義學(xué)派統(tǒng)計(jì)進(jìn)行比較。但是, 貝葉斯統(tǒng)計(jì)中, 也有基于估計(jì)的方法(Kruschke & Liddell, 2017b)。

    最后, 貝葉斯因子進(jìn)行假設(shè)檢驗(yàn), 本質(zhì)上是證據(jù)的不斷累積, 而非得到二分的結(jié)論。因此, 一次實(shí)驗(yàn)的結(jié)果可以被看作是試探性的, 研究者可以繼續(xù)收集數(shù)據(jù)或者進(jìn)行重復(fù)實(shí)驗(yàn)(Ly, Etz, Marsman,& Wagenmakers, 2017)。

    4.2 貝葉斯因子的應(yīng)用前景

    貝葉斯因子作為基于貝葉斯統(tǒng)計(jì)的假設(shè)檢驗(yàn)方法, 與 NHST相比具有一些優(yōu)勢, 其使得研究者可以直接檢驗(yàn)數(shù)據(jù)是否支持零假設(shè), 不再受抽樣意圖和停止收集數(shù)據(jù)標(biāo)準(zhǔn)的影響, 從而更加靈活地進(jìn)行數(shù)據(jù)分析。這些優(yōu)勢可能幫助心理學(xué)家更好地在研究過程中進(jìn)行決策, 同時(shí), 貝葉斯因子的采用也可以促進(jìn)研究者去更加深入地理解貝葉斯方向法的適用范圍以及前提條件等(Depaoli& van de Schoot, 2017)。

    JASP的開發(fā), 使用貝葉斯因子的計(jì)算和解讀變得更加簡便, 研究者即便沒有很強(qiáng)的編程基礎(chǔ),也能夠使用 JASP地進(jìn)行貝葉斯因子分析。這可能有助于推動研究者更加廣泛地使用貝葉斯因子。此外, JASP本身正在快速發(fā)展, 其功能的深度和廣度正在不斷地?cái)U(kuò)大, 新的方法和標(biāo)準(zhǔn)將不斷地整合到軟件之中, 可能幫助研究者更科學(xué)地進(jìn)行研究。

    致謝:感謝清華大學(xué)心理學(xué)系張咪同學(xué)在本文撰寫之初提供的幫助, 感謝兩位匿名審稿人對本文提供的寶貴意見。

    胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平. (2016).心理學(xué)研究中的可重復(fù)性問題: 從危機(jī)到契機(jī).心理科學(xué)進(jìn)展, 24(9), 1504–1518.

    駱大森. (2017). 心理學(xué)可重復(fù)性危機(jī)兩種根源的評估.心理與行為研究, 15(5), 577–586.

    鐘建軍, Dienes, Z., 陳中永. (2017). 心理研究中引入貝葉斯統(tǒng)計(jì)推斷的必要性、應(yīng)用思路與領(lǐng)域.心理科學(xué),40(6), 1477–1482.

    Bahadur, R. R., & Bickel, P. J. (2009). An optimality property of Bayes' test statistics.Lecture Notes-Monograph Series, 57,18–30.

    Baker, M. (2016). 1,500 scientists lift the lid on reproducibility.Nature, 533, 452–454.

    Begley, C. G., & Ellis, L. M. (2012). Drug development:Raise standards for preclinical cancer research.Nature,483(7391), 531–533.

    Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect.Journal of Personality and Social Psychology,100(3), 407–425.

    Bem, D. J., Utts, J., & Johnson, W. O. (2011). Must psychologists change the way they analyze their data?Journal of Personality and Social Psychology, 101(4),716–719.

    Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B.A., Wagenmakers, E.-J., Berk, R., … Johnson, V. E.(2018). Redefine statistical significance.Nature Human Behaviour, 2(1), 6–10.

    Berger, J. O., & Berry, D. A. (1988). Statistical analysis and the illusion of objectivity.American Scientist, 76(2),159–165.

    Berger, J. O., & Delampady, M. (1987). Testing precise hypotheses.Statistical Science, 2(3), 317–335.

    Berger, J. O., & Wolpert, R. L. (1988).The likelihood principle(2nd ed.). Hayward (CA): Institute of Mathematical Statistics.

    Carpenter, B., Gelman, A., Hoffman, M. D., Lee, D.,Goodrich, B., Betancourt, M., … Riddell, A. (2017). Stan:A probabilistic programming language.Journal of Statistical Software, 76(1), 1–32.

    Chambers, C. D., Feredoes, E., Muthukumaraswamy, S. D.,& Etchells, P. J. (2014). Instead of “playing the game” it is time to change the rules: Registered Reports atAIMS Neuroscienceand beyond.AIMS Neuroscience, 1(1), 4–17.Chen, X., Lu, B., & Yan, C.-G. (2018). Reproducibility of R-fMRI metrics on the impact of different strategies for multiple comparison correction and sample sizes.Human Brain Mapping, 39(1), 300–318.

    Cumming, G. (2014). The new statistics: Why and how.Psychological Science, 25(1), 7–29.

    Depaoli, S., & van de Schoot, R. (2017). Improving transparency and replication in Bayesian statistics: The WAMBS-Checklist.Psychological Methods, 22(2), 240–261.

    Dienes, Z. (2008).Understanding psychology as a science:An introduction to scientific and statistical inference.London, UK: Palgrave Macmillan.

    Dienes, Z. (2011). Bayesian versus orthodox statistics:Which side are you on?Perspectives on Psychological Science, 6(3), 274–290.

    Dienes, Z. (2014). Using Bayes to get the most out of non-significant results.Frontiers in Psychology, 5, 781.

    Ebersole, C. R., Atherton, O. E., Belanger, A. L., Skulborstad, H.M., Allen, J. M., Banks, J. B., ... Nosek, B. A. (2016).Many Labs 3: Evaluating participant pool quality across the academic semester via replication.Journal of Experimental Social Psychology, 67, 68–82.

    Edwards, W. (1965). Tactical note on the relation between scientific and statistical hypotheses.Psychological Bulletin,63(6), 400–402.

    Edwards, W., Lindman, H., & Savage, L. J. (1963). Bayesian statistical inference for psychological research.Psychological Review, 70(3), 193–242.

    Etz, A. (in press). Introduction to the concept of likelihood and its applications.Advances in Methods and Practices in Psychological Science.

    Francis, G. (2013). Replication, statistical consistency, and publication bias.Journal of Mathematical Psychology,57(5), 153–169.

    Gallistel, C. R. (2009). The importance of proving the null.Psychological Review, 116(2), 439–453.

    Gigerenzer, G. (2004). Mindless statistics.The Journal of Socio-Economics, 33(5), 587–606.

    Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B.,Poole, C., Goodman, S. N., … Altman, D. G. (2016).Statistical tests,Pvalues, confidence intervals, and power:A guide to misinterpretations.European Journal of Epidemiology, 31(4), 337–350.

    Gronau, Q. F., & Wagenmakers, E.-J. (2017). Bayesian evidence accumulation in experimental mathematics: A case study of four irrational numbers.Experimental Mathematics,1–10.

    Halsey, L. G., Curran-Everett, D., Vowler, S. L., &Drummond, G. B. (2015). The fickle P value generates irreproducible results.Nature Methods, 12(3), 179–185.

    Hoijtink, H. (2011).Informative hypotheses: Theory and practice for behavioral and social scientists. Boca Raton,FL: Chapman & Hall/CRC.

    Hoijtink, H., van Kooten, P., & Hulsker, K. (2016). Why Bayesian psychologists should change the way they use the Bayes factor.Multivariate Behavioral Research, 51(1),2–10.

    JASP Team. (2017). JASP (Version 0.8.2) [Computer software].Jeffreys, H. (1935). Some tests of significance, treated by the theory of probability.Mathematical Proceedings of the Cambridge Philosophical Society, 31(2), 203–222.

    Jeffreys, H. (1938). Significance tests when several degrees of freedom arise simultaneously.Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences,165(921), 161–198.

    Jeffreys, H. (1961).Theory of probability(3rd ed.). Oxford,UK: Oxford University Press.

    Johnson, V. E. (2013). Revised standards for statistical evidence.Proceedings of the National Academy of Sciences of the United States of America, 110(48), 19313–19317.

    Kerr, N. L. (1998). HARKing: Hypothesizing after the results are known.Personality and Social Psychology Review, 2(3), 196–217.

    Klein, R. A., Ratliff, K. A., Vianello, M., Adams, R. B., Jr.,Bahník, ?., Bernstein, M. J., … Nosek, B. A. (2014).Investigating variation in replicability: A “many labs”replication project.Social Psychology, 45(3), 142–152.

    Klugkist, I., Laudy, O., & Hoijtink, H. (2005). Inequality constrained analysis of variance: A Bayesian approach.Psychological Methods, 10(4), 477–493.

    Kruschke, J. K. (2014).Doing Bayesian data analysis: A tutorial with R, JAGS, and stan(2nd ed.). San Diego, CA:Academic Press/Elsevier.

    Kruschke, J. K., & Liddell, T. M. (2017a). Bayesian data analysis for newcomers.Psychonomic Bulletin & Review,1–23.

    Kruschke, J. K., & Liddell, T. M. (2017b). The Bayesian New Statistics: Hypothesis testing, estimation, meta-analysis,and power analysis from a Bayesian perspective.Psychonomic Bulletin & Review, 1–29.

    Lakens, D. (2017). Equivalence tests: A practical primer for t-Tests, correlations, and meta-analyses.Social Psychological and Personality Science, 8(4), 355–362.

    Lindley, D. V. (1993). The analysis of experimental data:The appreciation of tea and wine.Teaching Statistics,15(1), 22–25.

    Lindsay, D. S. (2015). Replication in psychological science.Psychological Science, 26(12), 1827–1832.

    Lunn, D., Spiegelhalter, D., Thomas, A., & Best, N. (2009).The BUGS project: Evolution, critique and future directions.Statistics in Medicine, 28(25), 3049–3067.

    Ly, A., Etz, A., Marsman, M., & Wagenmakers, E.-J. (2017).Replication Bayes factors from evidence updating.PsyArXiv. Retrieved from https://osf.io/preprints/psyarxiv/u8m2s/

    Ly, A., Marsman, M., & Wagenmakers, E.-J. (2018).Analytic posteriors for Pearson’s correlation coefficient.Statistica Neerlandica, 72, 4–13.

    Ly, A., Verhagen, J., & Wagenmakers, E.-J. (2016a). An evaluation of alternative methods for testing hypotheses,from the perspective of Harold Jeffreys.Journal of Mathematical Psychology, 72, 43–55.

    Ly, A., Verhagen, J., & Wagenmakers, E.-J. (2016b). Harold Jeffreys’s default Bayes factor hypothesis tests: Explanation,extension, and application in psychology.Journal of Mathematical Psychology, 72, 19–32.

    Marsman, M., & Wagenmakers, E.-J. (2017a). Bayesian benefits with JASP.European Journal of Developmental Psychology, 14(5), 545–555.

    Marsman, M., & Wagenmakers, E.-J. (2017b). Three insights from a bayesian interpretation of the one-sidedPvalue.Educational and Psychological Measurement, 77(3), 529–539.

    Masson, M. E. J. (2011). A tutorial on a practical Bayesian alternative to null-hypothesis significance testing.Behavior Research Methods, 43(3), 679–690.

    Matzke, D., Nieuwenhuis, S., van Rijn, H., Slagter, H. A.,van der Molen, M. W., & Wagenmakers, E.-J. (2015). The effect of horizontal eye movements on free recall: A preregistered adversarial collaboration.Journal of Experimental Psychology: General, 144(1), e1–e15.

    Miller, G. (2011). ESP paper rekindles discussion about statistics.Science, 331(6015), 272–273.

    Morey, R. D., Hoekstra, R., Rouder, J. N., Lee, M. D., &Wagenmakers, E.-J. (2016). The fallacy of placing confidence in confidence intervals.Psychonomic Bulletin& Review, 23(1), 103–123.

    Morey, R. D., & Rouder, J. N. (2011). Bayes factor approaches for testing interval null hypotheses.Psychological Methods, 16(4), 406–419.

    Mulder, J., Klugkist, I., van de Schoot, R., Meeus, W. H. J.,Selfhout, M., & Hoijtink, H. (2009). Bayesian model selection of informative hypotheses for repeated measurements.Journal of Mathematical Psychology, 53(6), 530–546.

    Munafò, M. R., Nosek, B. A., Bishop, D. V. M., Button, K.S., Chambers, C. D., Percie du Sert, N., … Ioannidis, J. P.A. (2017). A manifesto for reproducible science.Nature Human Behaviour, 1(1), 0021.

    Nosek, B. A., Alter, G., Banks, G. C., Borsboom, D.,Bowman, S. D., Breckler, S. J., … Yarkoni, T. (2015).Promoting an open research culture.Science, 348(6242),1422–1425.

    Nosek, B. A., Spies, J. R., & Motyl, M. (2012). Scientific Utopia: II. Restructuring incentives and practices to promote truth over publishability.Perspectives on Psychological Science, 7(6), 615–631.

    Open Science Collaboration. (2015). Estimating the reproducibility of psychological science.Science, 349(6251),aac4716.

    Plummer, M. (2003).JAGS: A program for analysis of Bayesian graphical models using Gibbs sampling. Paper presented at the Proceedings of the 3rd International Workshop on Distributed Statistical Computing (DSC 2003).

    Poldrack, R. A., Baker, C. I., Durnez, J., Gorgolewski, K. J.,Matthews, P. M., Munafò, M. R., … Yarkoni, T. (2017).Scanning the horizon: Towards transparent and reproducible neuroimaging research.Nature Reviews Neuroscience,18(2), 115–126.

    Poldrack, R. A., & Gorgolewski, K. J. (2017). OpenfMRI:Open sharing of task fMRI data.NeuroImage, 144, 259–261.

    Rouder, J. N. (2014). Optional stopping: No problem for Bayesians.Psychonomic Bulletin & Review, 21(2), 301–308.

    Rouder, J. N., & Morey, R. D. (2011). A Bayes factor meta-analysis of Bem’s ESP claim.Psychonomic Bulletin& Review, 18(4), 682–689.

    Rouder, J. N., Morey, R. D., Speckman, P. L., & Province, J.M. (2012). Default Bayes factors for ANOVA designs.Journal of Mathematical Psychology, 56(5), 356–374.

    Rouder, J. N., Morey, R. D., Verhagen, J., Swagman, A. R.,& Wagenmakers, E.-J. (2017). Bayesian analysis of factorial designs.Psychological Methods, 22(2), 304–321.

    Rouder, J. N., Speckman, P. L., Sun, D. C., Morey, R. D., &Iverson, G. (2009). Bayesianttests for accepting and rejecting the null hypothesis.Psychonomic Bulletin &Review, 16(2), 225–237.

    Salsburg, D. (2001).The lady tasting tea: How statistics revolutionized science in the twentieth century. New York,NY: W. H. Freeman and Company.

    Salvatier, J., Wiecki, T. V., & Fonnesbeck, C. (2016).Probabilistic programming in Python using PyMC3.Peer J Computer Science, 2, e55.

    Schervish, M. J. (1996). P values: What they are and what they are not.The American Statistician, 50(3), 203–206.

    Schlaifer, R., & Raiffa, H. (1961). Applied statistical decision theory. Boston: Harvard University.

    Sch?nbrodt, F. D., Wagenmakers, E.-J., Zehetleitner, M., &Perugini, M. (2017). Sequential hypothesis testing with Bayes factors: Efficiently testing mean differences.Psychological Methods, 22(2), 322–339.

    Scott, J. G., & Berger, J. O. (2006). An exploration of aspects of Bayesian multiple testing.Journal of Statistical Planning and Inference, 136(7), 2144–2162.

    Scott, J. G., & Berger, J. O. (2010). Bayes and empirical-Bayes multiplicity adjustment in the variable-selection problem.The Annals of Statististics, 38(5), 2587–2619.

    Sellke, T., Bayarri, M. J., & Berger, J. O. (2001). Calibration ofρvalues for testing precise null hypotheses.The American Statistician, 55(1), 62–71.

    Stephens, M., & Balding, D. J. (2009). Bayesian statistical methods for genetic association studies.Nature Reviews Genetics, 10(10), 681–690.

    Stulp, G., Buunk, A. P., Verhulst, S., & Pollet, T. V. (2013).Tall claims? Sense and nonsense about the importance of height of US presidents.The Leadership Quarterly, 24(1),159–171.

    Topolinski, S., & Sparenberg, P. (2012). Turning the hands of time.Social Psychological and Personality Science, 3(3),308–314.

    van de Schoot, R., Winter, S., Ryan, O., Zondervan-Zwijnenburg, M., & Depaoli, S. (2017). A systematic review of Bayesian papers in psychology: The last 25 years.Psychological Methods, 22(2), 217–239.

    Vanpaemel, W. (2010). Prior sensitivity in theory testing: An apologia for the Bayes factor.Journal of Mathematical Psychology, 54(6), 491–498.

    Wagenmakers, E.-J. (2007). A practical solution to the pervasive problems ofpvalues.Psychonomic Bulletin &Review, 14(5), 779–804.

    Wagenmakers, E.-J., Beek, T. F., Rotteveel, M., Gierholz, A.,Matzke, D., Steingroever, H., … Pinto, Y. (2015). Turning the hands of time again: A purely confirmatory replication study and a Bayesian analysis.Frontiers in Psychology, 6, 494.

    Wagenmakers, E.-J., Lodewyckx, T., Kuriyal, H., & Grasman,R. (2010). Bayesian hypothesis testing for psychologists:A tutorial on the Savage–Dickey method.Cognitive Psychology, 60(3), 158–189.

    Wagenmakers, E.-J., Love, J., Marsman, M., Jamil, T., Ly, A.,Verhagen, J., … van Doorn, J. (2017). Bayesian inference for psychology. Part II: Example applications with JASP.Psychonomic Bulletin & Review, 1–19.

    Wagenmakers, E.-J., Marsman, M., Jamil, T., Ly, A.,Verhagen, J., Love, J., … Morey, R. D. (2017). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications.Psychonomic Bulletin &Review, 1–23.

    Wagenmakers, E.-J., Verhagen, J., Ly, A., Matzke, D.,Steingroever, H., Rouder, J. N., & Morey, R. D. (2017).The need for Bayesian hypothesis testing in psychological science. In S. O. Lilienfeld & I. D. Waldman (Eds.),Psychological science under scrutiny(pp. 123–138). Chichester:John Wiley & Sons, Inc.

    Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011). Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011).Journal of Personality and Social Psychology,100(3), 426–432.

    Wagenmakers, E.-J., Wetzels, R., Borsboom, D., van der Maas, H. L. J., & Kievit, R. A. (2012). An agenda for purely confirmatory research.Perspectives on Psychological Science, 7(6), 632–638.

    Wasserstein, R. L., & Lazar, N. A. (2016). The ASA's statement onp-values: Context, process, and purpose.The American Statistician, 70(2), 129–133.

    Wetzels, R., Matzke, D., Lee, M. D., Rouder, J. N., Iverson,G. J., & Wagenmakers, E.-J. (2011). Statistical evidence in experimental psychology: An empirical comparison ssing 855 t tests.Perspectives on Psychological Science, 6(3),291–298.

    Zhu, J., Chen, J. F., Hu, W. B., & Zhang, B. (2017). Big Learning with Bayesian methods.National Science Review,4(4), 627–651.

    Ziliak, S. T., & McCloskey, D. N. (2008).The cult of statistical significance. Ann Arbor: University of Michigan Press.

    Zuo, X.-N., Anderson, J. S., Bellec, P., Birn, R. M., Biswal,B. B., Blautzik, J., … Milham, M. P. (2014). An open science resource for establishing reliability and reproducibility in functional connectomics.Nature Scientific Data, 1,140049.

    Zuo, X.-N., & Xing, X.-X. (2014). Test-retest reliabilities of resting-state FMRI measurements in human brain functional connectomics: A systems neuroscience perspective.Neuroscience & Biobehavioral Reviews, 45, 100–118.

    国产亚洲精品第一综合不卡| 久久免费观看电影| 亚洲精品一卡2卡三卡4卡5卡| 国产成人欧美在线观看 | 成人特级黄色片久久久久久久 | 久久99热这里只频精品6学生| 欧美一级毛片孕妇| 狠狠婷婷综合久久久久久88av| 天堂俺去俺来也www色官网| 国产一区二区 视频在线| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲欧美一区二区三区黑人| 国产一区二区三区综合在线观看| 丁香欧美五月| 亚洲中文字幕日韩| 精品国内亚洲2022精品成人 | 日本精品一区二区三区蜜桃| 自线自在国产av| 亚洲精品一卡2卡三卡4卡5卡| 亚洲午夜理论影院| 久久久久精品国产欧美久久久| 美女主播在线视频| 亚洲国产欧美一区二区综合| av有码第一页| 久久av网站| 久久久欧美国产精品| 涩涩av久久男人的天堂| 国产精品亚洲一级av第二区| 91大片在线观看| 成年女人毛片免费观看观看9 | 在线亚洲精品国产二区图片欧美| 一本大道久久a久久精品| 久久热在线av| 欧美国产精品一级二级三级| 成人国语在线视频| 热99re8久久精品国产| 天天添夜夜摸| 欧美激情极品国产一区二区三区| 久久av网站| 丁香六月天网| 国产视频一区二区在线看| 国产1区2区3区精品| 夫妻午夜视频| 国产国语露脸激情在线看| 亚洲av第一区精品v没综合| 中文字幕人妻丝袜一区二区| 在线观看一区二区三区激情| 日韩一区二区三区影片| 欧美乱码精品一区二区三区| 黄色毛片三级朝国网站| 久久久精品94久久精品| 国产精品免费大片| 99久久精品国产亚洲精品| 嫁个100分男人电影在线观看| 最近最新中文字幕大全免费视频| 欧美日本中文国产一区发布| 1024香蕉在线观看| 亚洲国产看品久久| 国产在线一区二区三区精| 国产精品99久久99久久久不卡| 亚洲中文日韩欧美视频| 精品国产乱码久久久久久小说| 久久精品国产亚洲av高清一级| 性高湖久久久久久久久免费观看| 精品人妻熟女毛片av久久网站| 曰老女人黄片| svipshipincom国产片| 国产一区二区在线观看av| 久久久久国内视频| 免费观看av网站的网址| 亚洲熟妇熟女久久| 黄片小视频在线播放| 欧美精品高潮呻吟av久久| 12—13女人毛片做爰片一| 久久久久网色| 成人精品一区二区免费| 国产在线精品亚洲第一网站| 大码成人一级视频| 热99re8久久精品国产| 亚洲色图 男人天堂 中文字幕| 久久亚洲真实| 黑丝袜美女国产一区| 视频区欧美日本亚洲| 欧美黄色片欧美黄色片| 久久精品aⅴ一区二区三区四区| 欧美av亚洲av综合av国产av| 国产男靠女视频免费网站| 午夜福利视频在线观看免费| 午夜视频精品福利| 麻豆成人av在线观看| 欧美日韩精品网址| 变态另类成人亚洲欧美熟女 | 日本vs欧美在线观看视频| 无人区码免费观看不卡 | 黑人巨大精品欧美一区二区mp4| 香蕉久久夜色| 亚洲国产欧美网| 王馨瑶露胸无遮挡在线观看| 久久 成人 亚洲| 久久青草综合色| 一级毛片精品| 中文字幕高清在线视频| 一级毛片精品| 99久久99久久久精品蜜桃| 亚洲 欧美一区二区三区| 精品国产乱子伦一区二区三区| 精品熟女少妇八av免费久了| 精品熟女少妇八av免费久了| 一进一出抽搐动态| 精品午夜福利视频在线观看一区 | aaaaa片日本免费| bbb黄色大片| 亚洲人成电影免费在线| √禁漫天堂资源中文www| 搡老乐熟女国产| 丰满迷人的少妇在线观看| 成人18禁在线播放| 2018国产大陆天天弄谢| 一级片'在线观看视频| 国产单亲对白刺激| 极品人妻少妇av视频| 女警被强在线播放| 性少妇av在线| 国产精品亚洲av一区麻豆| 在线播放国产精品三级| 国产精品一区二区免费欧美| 91精品国产国语对白视频| av电影中文网址| 一本大道久久a久久精品| 亚洲va日本ⅴa欧美va伊人久久| 国产精品99久久99久久久不卡| 精品一区二区三区视频在线观看免费 | 欧美精品人与动牲交sv欧美| 超色免费av| 精品国产乱码久久久久久男人| 肉色欧美久久久久久久蜜桃| av网站免费在线观看视频| 精品熟女少妇八av免费久了| 日韩一卡2卡3卡4卡2021年| 精品久久久久久电影网| 国产麻豆69| 国产麻豆69| 成人国产av品久久久| 亚洲欧洲日产国产| 成年女人毛片免费观看观看9 | 成人免费观看视频高清| 亚洲久久久国产精品| 欧美在线黄色| 不卡一级毛片| 成人精品一区二区免费| 国产精品电影一区二区三区 | 最新美女视频免费是黄的| 黑人欧美特级aaaaaa片| 日本av手机在线免费观看| 亚洲av电影在线进入| 成人亚洲精品一区在线观看| 精品久久久久久久毛片微露脸| 黄色视频,在线免费观看| 超色免费av| 性少妇av在线| 正在播放国产对白刺激| 窝窝影院91人妻| 日日摸夜夜添夜夜添小说| 热re99久久国产66热| 下体分泌物呈黄色| 热re99久久精品国产66热6| 久久人人97超碰香蕉20202| 日韩欧美国产一区二区入口| 十八禁高潮呻吟视频| 国产精品久久久久久精品古装| 男人舔女人的私密视频| 午夜免费成人在线视频| 亚洲欧美色中文字幕在线| 亚洲第一av免费看| tube8黄色片| 国产又爽黄色视频| 国产精品久久久人人做人人爽| 亚洲久久久国产精品| 天天添夜夜摸| 免费在线观看完整版高清| 国产精品.久久久| 精品国产乱码久久久久久男人| 国产精品成人在线| 欧美亚洲 丝袜 人妻 在线| 制服诱惑二区| 亚洲国产av影院在线观看| 91麻豆av在线| 国精品久久久久久国模美| 午夜福利影视在线免费观看| 欧美性长视频在线观看| 不卡av一区二区三区| 亚洲三区欧美一区| 丁香欧美五月| 久久久精品免费免费高清| 国产精品国产av在线观看| 啦啦啦 在线观看视频| 欧美日韩亚洲综合一区二区三区_| 久久久久久久久久久久大奶| 久久精品亚洲av国产电影网| 成人手机av| 精品国产乱码久久久久久小说| 亚洲成国产人片在线观看| 在线观看免费午夜福利视频| 国产成人欧美在线观看 | 亚洲一卡2卡3卡4卡5卡精品中文| 无人区码免费观看不卡 | 老熟妇仑乱视频hdxx| 97在线人人人人妻| 国产成人系列免费观看| 欧美日韩亚洲综合一区二区三区_| 狠狠狠狠99中文字幕| 国产成人精品久久二区二区91| 亚洲av国产av综合av卡| 亚洲人成电影免费在线| 女人精品久久久久毛片| 午夜久久久在线观看| 黄片播放在线免费| 无限看片的www在线观看| 麻豆乱淫一区二区| 新久久久久国产一级毛片| 免费在线观看完整版高清| 成人亚洲精品一区在线观看| 18禁美女被吸乳视频| 成人手机av| 国产亚洲午夜精品一区二区久久| 日日摸夜夜添夜夜添小说| 午夜91福利影院| 欧美日韩av久久| av线在线观看网站| 他把我摸到了高潮在线观看 | 欧美精品一区二区免费开放| 国产区一区二久久| 亚洲精品国产色婷婷电影| 无限看片的www在线观看| 亚洲国产成人一精品久久久| 国产91精品成人一区二区三区 | 午夜成年电影在线免费观看| 亚洲 欧美一区二区三区| www日本在线高清视频| 国产精品98久久久久久宅男小说| 中文字幕制服av| 在线观看人妻少妇| 久久中文看片网| 国产三级黄色录像| 99国产精品一区二区蜜桃av | 在线看a的网站| 这个男人来自地球电影免费观看| 欧美人与性动交α欧美精品济南到| 国产精品秋霞免费鲁丝片| 黑人猛操日本美女一级片| xxxhd国产人妻xxx| 美女国产高潮福利片在线看| 亚洲 国产 在线| 欧美午夜高清在线| 18禁美女被吸乳视频| 别揉我奶头~嗯~啊~动态视频| 人妻久久中文字幕网| 一级毛片女人18水好多| 九色亚洲精品在线播放| 成人特级黄色片久久久久久久 | 亚洲男人天堂网一区| 久久人妻福利社区极品人妻图片| 超色免费av| 免费久久久久久久精品成人欧美视频| 精品少妇久久久久久888优播| 一本久久精品| 国产亚洲一区二区精品| 亚洲第一av免费看| 90打野战视频偷拍视频| 汤姆久久久久久久影院中文字幕| 日韩大片免费观看网站| 淫妇啪啪啪对白视频| 在线 av 中文字幕| 91成人精品电影| 国产亚洲欧美在线一区二区| 夜夜爽天天搞| 国产国语露脸激情在线看| 亚洲欧洲日产国产| 99久久99久久久精品蜜桃| 精品一区二区三区视频在线观看免费 | 超碰成人久久| 欧美亚洲日本最大视频资源| 欧美在线黄色| 90打野战视频偷拍视频| 青草久久国产| 中文字幕色久视频| 久久国产亚洲av麻豆专区| 在线观看免费视频日本深夜| 免费少妇av软件| 久久久国产精品麻豆| 欧美日韩成人在线一区二区| 老司机福利观看| 久久精品国产综合久久久| 激情视频va一区二区三区| 国产在线观看jvid| 成人免费观看视频高清| 黄片大片在线免费观看| 国产精品久久电影中文字幕 | 久久免费观看电影| 十分钟在线观看高清视频www| 国产在线精品亚洲第一网站| 激情在线观看视频在线高清 | 精品国产亚洲在线| 欧美黑人精品巨大| 精品国产乱码久久久久久男人| 精品熟女少妇八av免费久了| 久久国产精品人妻蜜桃| 色婷婷久久久亚洲欧美| 嫩草影视91久久| 午夜福利,免费看| 久久久久久久久久久久大奶| 成年女人毛片免费观看观看9 | 超色免费av| 美女扒开内裤让男人捅视频| 国产在视频线精品| 亚洲欧美色中文字幕在线| 五月开心婷婷网| 亚洲精华国产精华精| 精品午夜福利视频在线观看一区 | 丝袜在线中文字幕| 久久久欧美国产精品| 久久精品国产亚洲av高清一级| 精品国产一区二区久久| 久久青草综合色| 国产高清视频在线播放一区| 一二三四社区在线视频社区8| 日韩大码丰满熟妇| 成人18禁在线播放| 五月天丁香电影| 人人妻,人人澡人人爽秒播| 欧美黄色片欧美黄色片| 久久精品成人免费网站| 国产亚洲午夜精品一区二区久久| 国产成+人综合+亚洲专区| 99国产极品粉嫩在线观看| 国产一区二区激情短视频| 波多野结衣一区麻豆| 色尼玛亚洲综合影院| 国产精品99久久99久久久不卡| 久久亚洲精品不卡| 男女边摸边吃奶| 夫妻午夜视频| 国产精品熟女久久久久浪| 久久久欧美国产精品| 十八禁人妻一区二区| 成人18禁高潮啪啪吃奶动态图| 动漫黄色视频在线观看| 国产精品九九99| aaaaa片日本免费| 精品国产国语对白av| 精品亚洲成a人片在线观看| 俄罗斯特黄特色一大片| 亚洲免费av在线视频| 天天躁日日躁夜夜躁夜夜| 国产一区二区三区视频了| www.999成人在线观看| 三级毛片av免费| 国产在视频线精品| 精品一品国产午夜福利视频| 最新的欧美精品一区二区| 在线播放国产精品三级| 麻豆成人av在线观看| 亚洲,欧美精品.| 桃红色精品国产亚洲av| 午夜久久久在线观看| 亚洲三区欧美一区| 91精品三级在线观看| 如日韩欧美国产精品一区二区三区| 黄片播放在线免费| 建设人人有责人人尽责人人享有的| 在线永久观看黄色视频| 免费人妻精品一区二区三区视频| www.熟女人妻精品国产| 亚洲五月色婷婷综合| 精品国产一区二区三区四区第35| 久久久久久久久久久久大奶| 亚洲情色 制服丝袜| 伊人久久大香线蕉亚洲五| 久久精品人人爽人人爽视色| 十分钟在线观看高清视频www| av免费在线观看网站| kizo精华| 别揉我奶头~嗯~啊~动态视频| 亚洲中文日韩欧美视频| 精品亚洲乱码少妇综合久久| 日本a在线网址| 2018国产大陆天天弄谢| 亚洲欧美激情在线| 成年人免费黄色播放视频| 一进一出抽搐动态| 丰满少妇做爰视频| 欧美av亚洲av综合av国产av| 亚洲黑人精品在线| 成人18禁高潮啪啪吃奶动态图| 亚洲全国av大片| 国产精品av久久久久免费| 色综合欧美亚洲国产小说| 精品国产超薄肉色丝袜足j| 深夜精品福利| 国产一区二区在线观看av| 热re99久久国产66热| 新久久久久国产一级毛片| 久久99一区二区三区| 色尼玛亚洲综合影院| 妹子高潮喷水视频| 国产一区二区激情短视频| e午夜精品久久久久久久| 日韩免费高清中文字幕av| 天天影视国产精品| 午夜福利在线观看吧| 亚洲精品av麻豆狂野| 无遮挡黄片免费观看| 男女免费视频国产| www.精华液| 老汉色∧v一级毛片| 在线天堂中文资源库| 国产区一区二久久| 亚洲精品一卡2卡三卡4卡5卡| 99re6热这里在线精品视频| 午夜精品久久久久久毛片777| 久久精品亚洲精品国产色婷小说| 久久精品熟女亚洲av麻豆精品| 国产黄频视频在线观看| 日日夜夜操网爽| 国产日韩欧美亚洲二区| 中亚洲国语对白在线视频| 亚洲精品久久午夜乱码| 国产日韩欧美亚洲二区| av超薄肉色丝袜交足视频| 人人妻人人添人人爽欧美一区卜| 精品亚洲乱码少妇综合久久| 纵有疾风起免费观看全集完整版| 91老司机精品| 亚洲精品在线观看二区| 日韩大码丰满熟妇| 欧美乱码精品一区二区三区| av视频免费观看在线观看| tocl精华| 欧美性长视频在线观看| 国产欧美日韩精品亚洲av| 成人国语在线视频| 少妇 在线观看| 99在线人妻在线中文字幕 | 欧美日韩亚洲综合一区二区三区_| 国产男女内射视频| 天堂俺去俺来也www色官网| 91成年电影在线观看| 国产精品影院久久| 久久精品aⅴ一区二区三区四区| 国产欧美日韩综合在线一区二区| 一本综合久久免费| 欧美日本中文国产一区发布| 国产亚洲欧美精品永久| 天天躁夜夜躁狠狠躁躁| 国产亚洲精品久久久久5区| 国产高清国产精品国产三级| www.自偷自拍.com| 视频在线观看一区二区三区| 免费在线观看日本一区| 免费少妇av软件| 免费观看a级毛片全部| 女人爽到高潮嗷嗷叫在线视频| 久久精品国产亚洲av香蕉五月 | 亚洲七黄色美女视频| 亚洲情色 制服丝袜| 99国产极品粉嫩在线观看| 色精品久久人妻99蜜桃| 久久青草综合色| 日韩视频在线欧美| 两性夫妻黄色片| 国产亚洲精品一区二区www | 精品视频人人做人人爽| 黄色片一级片一级黄色片| 国产精品99久久99久久久不卡| 亚洲熟妇熟女久久| 婷婷丁香在线五月| 日韩中文字幕欧美一区二区| 国产一区二区激情短视频| 午夜成年电影在线免费观看| 五月天丁香电影| 国产av一区二区精品久久| 成人黄色视频免费在线看| 久久热在线av| av天堂在线播放| 十八禁人妻一区二区| 丰满少妇做爰视频| 一本一本久久a久久精品综合妖精| 国产成人免费观看mmmm| 国产精品亚洲一级av第二区| 99国产综合亚洲精品| 男女高潮啪啪啪动态图| 亚洲伊人色综图| 又大又爽又粗| 香蕉久久夜色| 啦啦啦 在线观看视频| 亚洲精品国产一区二区精华液| 纯流量卡能插随身wifi吗| 久久久久久久久久久久大奶| 美女福利国产在线| 蜜桃在线观看..| 国产成人欧美在线观看 | 欧美精品亚洲一区二区| 亚洲精品国产精品久久久不卡| 夫妻午夜视频| 成人亚洲精品一区在线观看| www.精华液| 国产一区有黄有色的免费视频| tocl精华| 97人妻天天添夜夜摸| 久久国产精品大桥未久av| 99精品在免费线老司机午夜| 日韩精品免费视频一区二区三区| 国产极品粉嫩免费观看在线| 在线观看免费视频日本深夜| 国内毛片毛片毛片毛片毛片| 亚洲色图综合在线观看| 午夜福利一区二区在线看| 精品一区二区三区四区五区乱码| 亚洲五月色婷婷综合| 欧美在线一区亚洲| netflix在线观看网站| av有码第一页| 我的亚洲天堂| 欧美老熟妇乱子伦牲交| 免费久久久久久久精品成人欧美视频| 男人舔女人的私密视频| 日本av免费视频播放| 五月天丁香电影| 亚洲精品国产精品久久久不卡| 高清在线国产一区| 国产日韩欧美在线精品| 久久精品国产99精品国产亚洲性色 | 国产精品一区二区在线观看99| 亚洲欧美日韩高清在线视频 | 首页视频小说图片口味搜索| 久久久久久人人人人人| 这个男人来自地球电影免费观看| 成年人午夜在线观看视频| 国产精品av久久久久免费| 亚洲精品av麻豆狂野| 欧美黄色片欧美黄色片| 亚洲第一欧美日韩一区二区三区 | 亚洲成av片中文字幕在线观看| 国产精品欧美亚洲77777| 搡老岳熟女国产| 欧美黄色淫秽网站| 伊人久久大香线蕉亚洲五| 亚洲天堂av无毛| 中文亚洲av片在线观看爽 | 人人妻人人澡人人爽人人夜夜| 99精品在免费线老司机午夜| 免费在线观看完整版高清| √禁漫天堂资源中文www| 久久精品熟女亚洲av麻豆精品| 成人国语在线视频| 男女午夜视频在线观看| 女警被强在线播放| 久久婷婷成人综合色麻豆| 久久精品亚洲av国产电影网| 黄色成人免费大全| 亚洲精品中文字幕一二三四区 | 80岁老熟妇乱子伦牲交| 国产极品粉嫩免费观看在线| 婷婷成人精品国产| tocl精华| 另类精品久久| 一区二区三区精品91| 久热爱精品视频在线9| 一级片免费观看大全| 老司机亚洲免费影院| 日韩欧美免费精品| 一本久久精品| 老司机影院毛片| 91精品国产国语对白视频| 亚洲熟妇熟女久久| 怎么达到女性高潮| 一本一本久久a久久精品综合妖精| 亚洲精品国产色婷婷电影| 人妻 亚洲 视频| 午夜久久久在线观看| 久久精品熟女亚洲av麻豆精品| 在线观看免费高清a一片| 999精品在线视频| 午夜福利在线观看吧| 757午夜福利合集在线观看| 欧美日韩亚洲综合一区二区三区_| 老司机亚洲免费影院| 又大又爽又粗| 国产精品久久久久久精品古装| 69精品国产乱码久久久| 另类精品久久| 亚洲熟女精品中文字幕| 精品一区二区三区视频在线观看免费 | 亚洲国产看品久久| 亚洲第一欧美日韩一区二区三区 | 国产xxxxx性猛交| 日韩大片免费观看网站| 亚洲欧美色中文字幕在线| 欧美黄色淫秽网站| 国产精品麻豆人妻色哟哟久久| 精品久久蜜臀av无| 亚洲国产看品久久| 免费久久久久久久精品成人欧美视频| 精品国产一区二区三区四区第35| 夜夜夜夜夜久久久久| 一个人免费看片子| 精品欧美一区二区三区在线| 久久狼人影院| 免费久久久久久久精品成人欧美视频| 亚洲国产看品久久| 国产精品免费大片| 人妻 亚洲 视频| av一本久久久久| 欧美午夜高清在线| 9色porny在线观看|