• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    統(tǒng)計(jì)顯著性:一個(gè)被誤讀的P值——基于美國統(tǒng)計(jì)學(xué)會(huì)的聲明

    2016-12-20 05:43:13劉樂平申亞飛
    統(tǒng)計(jì)與信息論壇 2016年12期
    關(guān)鍵詞:假設(shè)檢驗(yàn)硬幣概率

    郝 麗,劉樂平,申亞飛

    (天津財(cái)經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計(jì)分析中心,天津 300222)

    ?

    【統(tǒng)計(jì)理論與方法】

    統(tǒng)計(jì)顯著性:一個(gè)被誤讀的P值
    ——基于美國統(tǒng)計(jì)學(xué)會(huì)的聲明

    郝 麗,劉樂平,申亞飛

    (天津財(cái)經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計(jì)分析中心,天津 300222)

    美國統(tǒng)計(jì)學(xué)會(huì)“關(guān)于統(tǒng)計(jì)顯著性與P值”的官方聲明發(fā)布之后,再次引發(fā)國內(nèi)外研究學(xué)者對P值的廣泛關(guān)注。在介紹國內(nèi)統(tǒng)計(jì)教材中假設(shè)檢驗(yàn)的基本內(nèi)容和步驟的基礎(chǔ)上,以“硬幣投擲”與“背影識(shí)人”為例直觀性解釋P值、統(tǒng)計(jì)顯著性與統(tǒng)計(jì)功效等相關(guān)概念,并引用心理學(xué)統(tǒng)計(jì)經(jīng)典調(diào)查案例分析P值被誤讀的原因。同時(shí),基于美國統(tǒng)計(jì)學(xué)會(huì)的聲明,給出正確使用P值的建議。

    統(tǒng)計(jì)顯著性;P值;心理統(tǒng)計(jì)學(xué);貝葉斯統(tǒng)計(jì)

    一、引 言

    2014年2月,在美國統(tǒng)計(jì)學(xué)會(huì)(ASA)召開的一次重要學(xué)術(shù)論壇上,來自美國曼荷蓮女子學(xué)院(Mount Holyoke College)的數(shù)學(xué)和統(tǒng)計(jì)學(xué)榮譽(yù)退休教授George Cobb,以一問一答的方式提出了如下有趣的問題:“為什么那么多大學(xué)和研究院都在教P=0.05?因?yàn)槟鞘强茖W(xué)社團(tuán)和期刊編輯仍然都在用的標(biāo)準(zhǔn)”;“為什么還有那么多人在用P=0.05?因?yàn)榇髮W(xué)和研究院里還在這么教”。

    Cobb教授關(guān)切的問題并非一時(shí)興起,因?yàn)樵诖酥?,心理學(xué)、循證醫(yī)學(xué)和社會(huì)學(xué)的學(xué)者就早已針對P值和使用P<0.05進(jìn)行科學(xué)推斷的弊端展開了激烈的學(xué)術(shù)爭論,“地球是圓的(P<0.05)”早已成為諷刺濫用統(tǒng)計(jì)推斷的經(jīng)典笑話,這些現(xiàn)象引起了美國統(tǒng)計(jì)學(xué)會(huì)理事會(huì)的高度關(guān)注[1]。

    2010年, Siegfried在《Science News》撰文言辭激烈地指出:“這是科學(xué)界中最不可告人的秘密:統(tǒng)計(jì)分析中檢驗(yàn)假設(shè)的‘科學(xué)方法’建立在一個(gè)脆弱的基礎(chǔ)之上”;2014年2月7日,他繼續(xù)在《Science News》上撰文批評(píng):“檢驗(yàn)各種科學(xué)假設(shè)中用到的統(tǒng)計(jì)方法……比Facebook隱私條款中的缺陷還要多”。一周之后,Regina Nuzzo在《Nature》雜志科學(xué)方法專欄中發(fā)表了名為《統(tǒng)計(jì)誤差》的論文[2],目前已成為該雜志閱讀次數(shù)最多的文章之一。國內(nèi)“果殼網(wǎng)”科學(xué)人專欄將此文進(jìn)行了編譯,取名為“統(tǒng)計(jì)學(xué)里‘P’的故事:蚊子、皇帝的新衣和不育的風(fēng)流才子”,隨后“數(shù)據(jù)工作室”微信公眾號(hào)的推文《P值之死》在朋友圈和各類網(wǎng)絡(luò)媒體中盛傳。

    2016年3月7日,美國統(tǒng)計(jì)學(xué)會(huì)執(zhí)行主任Ronald L. Wasserstein代表美國統(tǒng)計(jì)學(xué)會(huì)理事會(huì)在《The American Statistician》雜志(網(wǎng)絡(luò)版)上發(fā)表了名為《關(guān)于統(tǒng)計(jì)顯著性與P值》的官方聲明。之后,在中國統(tǒng)計(jì)學(xué)門戶網(wǎng)站“統(tǒng)計(jì)之都”上,邱怡軒發(fā)表博文“美國統(tǒng)計(jì)協(xié)會(huì)開始正式吐槽(錯(cuò)用)P值啦”;2016年3月23日,在微信公眾號(hào)“科研圈”上,譚坤編譯了“美國統(tǒng)計(jì)學(xué)會(huì)權(quán)威發(fā)布:P值應(yīng)該這么用,學(xué)界有錯(cuò)須改正”的有關(guān)內(nèi)容。

    P值究竟怎么了?統(tǒng)計(jì)顯著性到底是否科學(xué)?鑒此,筆者從被誤讀與誤導(dǎo)的P值入手,基于國內(nèi)統(tǒng)計(jì)學(xué)教材和文獻(xiàn)的“假設(shè)檢驗(yàn)”內(nèi)容,通過示例和幾何圖示,直觀地解釋P值、統(tǒng)計(jì)顯著性與統(tǒng)計(jì)功效等不易理解的概念;回顧心理學(xué)統(tǒng)計(jì)研究經(jīng)典文獻(xiàn)《顯著性誤讀:一個(gè)師生共存的問題》,討論P(yáng)值是如何被誤讀與怎樣被誤導(dǎo)的,并基于美國統(tǒng)計(jì)學(xué)會(huì)的官方聲明,給出正確使用P值的建議。

    二、假設(shè)檢驗(yàn)、統(tǒng)計(jì)顯著性與統(tǒng)計(jì)功效

    (一)假設(shè)檢驗(yàn)

    1.假設(shè)檢驗(yàn)的臨界值法。目前,國內(nèi)的《概率論與數(shù)理統(tǒng)計(jì)》和《統(tǒng)計(jì)學(xué)》教材中,都會(huì)至少用一章的內(nèi)容介紹假設(shè)檢驗(yàn)的基本原理與步驟。如果檢驗(yàn)需要利用“Z檢驗(yàn)(或t檢驗(yàn))的臨界值表”,則被稱為假設(shè)檢驗(yàn)的“臨界值法”,并已被廣泛應(yīng)用于實(shí)際問題中。在此,以“假設(shè)檢驗(yàn)在審計(jì)抽樣工作中的應(yīng)用研究”為例[3],將教材所傳授的假設(shè)檢驗(yàn)“四部曲”總結(jié)如下:

    第一步,根據(jù)實(shí)際問題的要求,提出原假設(shè)H0及備擇假設(shè)H1。例如,假設(shè)X1, X2,…,Xn是取自正態(tài)總體N(μ,σ2)的一組樣本,要檢驗(yàn)如下假設(shè):

    H0:μ=μ0,H1:μ≠μ0(雙側(cè)檢驗(yàn);或H1:μ<μ0左側(cè)檢驗(yàn);H1:μ>μ0右側(cè)檢驗(yàn))。

    第二步,根據(jù)總體分布情況及方差是否已知,選擇合適的統(tǒng)計(jì)量。

    第三步,給定顯著性水平α,確定相應(yīng)臨界值水平。顯著性水平α表示假設(shè)H0為真時(shí)拒絕原假設(shè)的概率,也就是拒絕原假設(shè)所面臨的風(fēng)險(xiǎn),一般是人為給定,取值通常很小,如 0.1、0.05、0.01 等,表明原假設(shè)為真時(shí),檢驗(yàn)統(tǒng)計(jì)量落在其拒絕區(qū)域內(nèi)的概率只有α,而落入其接受區(qū)域內(nèi)的可能概率是 1-α 。

    第四步,依據(jù)假設(shè)檢驗(yàn)的規(guī)則,由樣本數(shù)據(jù)計(jì)算出檢驗(yàn)統(tǒng)計(jì)量的實(shí)際值,與查表獲得的臨界值進(jìn)行比較,視實(shí)際值落入接受區(qū)域還是拒絕區(qū)域,做出是否拒絕原假設(shè)H0的結(jié)論。

    具體來說,當(dāng)需要采用 Z統(tǒng)計(jì)量進(jìn)行右側(cè)檢驗(yàn)時(shí),檢驗(yàn)規(guī)則為:當(dāng)Z≥zα?xí)r,拒絕H0;當(dāng)Z

    2. 假設(shè)檢驗(yàn)的P值檢驗(yàn)法。隨著計(jì)算機(jī)軟件的普及和發(fā)展,在假設(shè)檢驗(yàn)“臨界值法”的基礎(chǔ)上,部分教材還簡要介紹了假設(shè)檢驗(yàn)的P值檢驗(yàn)法的一般步驟,并討論了兩種檢驗(yàn)方法的區(qū)別[4]214-216。

    “假設(shè)檢驗(yàn)問題的P值是由檢驗(yàn)統(tǒng)計(jì)量的樣本觀測值得出的原假設(shè)可被拒絕的最小顯著性水平”,在現(xiàn)代計(jì)算機(jī)統(tǒng)計(jì)軟件中一般都給出檢驗(yàn)問題的P值,按P值的定義,對于任意給定的顯著性水平就有:

    (1)若P值≤ α,則在顯著性水平α下拒絕H0。

    (2)若P值>α,則在顯著性水平α下接受H0*正取的說法應(yīng)為“不能拒絕”。。

    P值法給出了拒絕H0的最小顯著性水平,因此P值法比臨界值法給出了有關(guān)拒絕域更多的信息。

    3. P值的幾何圖示。我們以右側(cè)假設(shè)檢驗(yàn)H0:μ=μ0,H1:μ>μ0為例,圖示臨界值與P值的關(guān)系。假設(shè)顯著性水平為α在H0為真的條件下,PH0(Z≥zα)=α (總體方差已知時(shí)的Z檢驗(yàn))。

    zα為臨界值,可通過標(biāo)準(zhǔn)正態(tài)分布表查出具體數(shù)值,如α =0.05時(shí),zα= 1.65。P值是由檢驗(yàn)統(tǒng)計(jì)量的樣本觀測值得出的原假設(shè)可被拒絕的最小顯著性水平,正態(tài)分布概率密度函數(shù)條件下,假設(shè)檢驗(yàn)的臨界值和P值幾何意義如圖1所示。

    (二)P值與統(tǒng)計(jì)顯著性

    1. P值。以上教材和文獻(xiàn)中的P值概念比較晦澀難懂。美國統(tǒng)計(jì)學(xué)會(huì)的聲明中也給出了P值的非正式定義:“P值就是基于某個(gè)特定統(tǒng)計(jì)模型之下,

    圖1 正態(tài)分布概率密度函數(shù)下臨界值和P值圖

    對于數(shù)據(jù)的某個(gè)統(tǒng)計(jì)量(如兩個(gè)對照組的樣本平均值之差)與觀測值相等或比觀測值更極端的概率”,此定義也有些繞口,不易理解;百度或維基百科上關(guān)于P值的概念要相對精煉簡要:“P值就是當(dāng)原假設(shè)為真時(shí),所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率”,但“更極端”的含義似乎也不夠直觀。

    下面通過“硬幣投擲”直觀性試驗(yàn),盡可能用非數(shù)學(xué)語言來解釋以上P值的概念*更加深入淺出、圖文并茂的解讀詳見謝益輝、胡江堂等在“統(tǒng)計(jì)之都”上的博文和張之昊在“協(xié)和八”微信公眾號(hào)上連載的“說人話的統(tǒng)計(jì)學(xué)”系列。。

    (1)原假設(shè)。你從錢包中拿出一枚硬幣,隨手向空中一拋。一般來講,如果一枚硬幣沒有做假是“均勻”的,那么結(jié)果出現(xiàn)正面和反面的可能性(概率)應(yīng)該都是1/2。現(xiàn)在,如何來證明你手中的硬幣是“均勻”的呢?

    除了直接觀察,人們會(huì)想到用試驗(yàn)的方法來證明,即將硬幣拋2次,結(jié)果2次都是正面或者2次都是反面,這時(shí)是否會(huì)懷疑你的硬幣?假如結(jié)果正好是1正1反(或1反1正),是否能肯定你的硬幣是均勻的?你可能不會(huì)輕易下結(jié)論,因?yàn)閼{直覺會(huì)認(rèn)為硬幣拋2次太少了。以上每種結(jié)果的出現(xiàn)都很正常,此證據(jù)不足以否定硬幣的“均勻”性。

    增加投擲硬幣的次數(shù),即將硬幣投擲5次,每次拋擲的結(jié)果都做記錄;最后把出現(xiàn)正反面的次數(shù)分別統(tǒng)計(jì),假設(shè)某一次試驗(yàn)的結(jié)果是:正面4次,反面1次,這時(shí)將如何判斷硬幣是否“均勻”呢?

    按照R. A. Fisher(1890—1962)創(chuàng)建的“顯著性檢驗(yàn)(Significance Testing)”理論(注意:非J. Neyman(1894—1981)與E.S. Pearson(1895—1980)創(chuàng)建的“一致最優(yōu)檢驗(yàn)(Uniformly Most Powerul Test)”理論*兩者的區(qū)別可參見Lehmann EL. The Fisher, Neyman-Pearson Theories of Testing Hypotheses: One Theory or Two? Journal of the American Statistical Association, 1993(88):1242-1249.),首先“假設(shè)”硬幣是均勻的,也就是拋出來正面和反面的概率都是0.5,這就是P值定義里的“原假設(shè)”。

    (2)所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)。硬幣試驗(yàn)中的“樣本”就是拋5次硬幣,得到了“4正1反”;如果拋了5次,得到的觀察結(jié)果是“5正0反”,這就是比“樣本4正1反”“更極端的結(jié)果”。

    假設(shè)硬幣是均勻的(“原假設(shè)”為真),連拋5次硬幣得到都是正面的概率就是0.5的5次方,也就是0.031 25,這就是所定義的P值。換言之,這種結(jié)果的出現(xiàn),在32次試驗(yàn)中才可能出現(xiàn)1次。

    2. 統(tǒng)計(jì)顯著性。從日常生活的經(jīng)驗(yàn)中人們能感覺到,對于一塊均勻的硬幣來說,5次拋擲中可能性最大的結(jié)果應(yīng)是“3正2反或3反2正”,而得到“4正1反”這樣的結(jié)果就有些懷疑了*此例設(shè)計(jì)硬幣投擲5次,是為了使概率計(jì)算過程簡單,便于理解。實(shí)際上,試驗(yàn)次數(shù)設(shè)計(jì)偏少,若改為100次投擲后,結(jié)果90正10反,則更符合實(shí)際。,得到比“4正1反”更極端的結(jié)果“5正0反”實(shí)在是不太可能了。與其相信這樣的小概率事件在一次試驗(yàn)中真的發(fā)生了,還不如懷疑“原假設(shè)”硬幣均勻的正確性,而認(rèn)為更合理的解釋是這塊硬幣可能是“不均勻”的。

    那么,多小的P值算是小呢?在統(tǒng)計(jì)學(xué)中,按慣例事先給出的界線是0.05,因?yàn)橐陨显囼?yàn)的樣本結(jié)果為“5正0反”,則對應(yīng)的P值=0.031 25,因?yàn)镻值<0.05,所以就拒絕“原假設(shè)”,否定硬幣的“均勻性”,這就是常見的“具有統(tǒng)計(jì)學(xué)意義上的顯著性”,可以推斷該硬幣是一枚偏向正面的非均勻硬幣。

    P值的定義中蘊(yùn)含了“顯著性檢驗(yàn)”的基本統(tǒng)計(jì)思維方法,這種統(tǒng)計(jì)歸納思維方法幾乎被運(yùn)用在所有學(xué)科領(lǐng)域的主流統(tǒng)計(jì)分析之中,對它的準(zhǔn)確理解不僅是通向掌握各種具體統(tǒng)計(jì)學(xué)測試的大門,更影響著人們對統(tǒng)計(jì)分析結(jié)果的解讀。

    P值本質(zhì)上是什么?它是基于特定假設(shè)和實(shí)際樣本進(jìn)行統(tǒng)計(jì)推斷的一個(gè)工具。某種意義上說,P值體現(xiàn)了如果原假設(shè)成立時(shí)研究者看到樣本的奇怪程度。P值越小,所獲得的樣本在原假設(shè)成立的前提下就越不可能出現(xiàn);而當(dāng)P值小到一定程度時(shí),不得不認(rèn)定其假設(shè)是錯(cuò)誤的,因?yàn)榭赡苄赃@么小的事件,實(shí)在是在一次試驗(yàn)中太難發(fā)生了。

    根據(jù)P值進(jìn)行統(tǒng)計(jì)推斷的思想與數(shù)學(xué)中的反證法具有一定的相似性。但是,由于歸納與演繹邏輯的不同,兩者有一個(gè)關(guān)鍵的區(qū)別,由于隨機(jī)性的存在,在統(tǒng)計(jì)推斷中無法像在數(shù)學(xué)反證法中一樣千真萬確地認(rèn)定原假設(shè)是絕對錯(cuò)誤的,只能根據(jù)“小概率事件在一次隨機(jī)實(shí)驗(yàn)中不會(huì)發(fā)生”的原理做出有較大可能性推翻原假設(shè)的統(tǒng)計(jì)決策。

    (三) 統(tǒng)計(jì)功效

    1.第一類錯(cuò)誤與第二類錯(cuò)誤。統(tǒng)計(jì)功效與統(tǒng)計(jì)顯著性有著極為密切的聯(lián)系,而它們又都是建立在統(tǒng)計(jì)假設(shè)檢驗(yàn)的兩個(gè)基本概念“第一類錯(cuò)誤”和“第二類錯(cuò)誤”之上。為了更加生動(dòng)形象介紹多數(shù)統(tǒng)計(jì)教材沒有涉及的“統(tǒng)計(jì)功效”的概念與含義,用“背影識(shí)人”為例進(jìn)行直觀性說明:

    某一大型商場的經(jīng)理,在月末盤點(diǎn)時(shí)需要了解該月光臨商場顧客中女性的比例。假設(shè)只有商場出口的監(jiān)控記錄可以調(diào)用,且監(jiān)控?cái)z像只攝錄到了顧客出門時(shí)的頭部影像而無法看到臉部,故只能從背部看清顧客頭發(fā)的長短。那么,如何辨別顧客的性別呢?有人給出建議,即如果顧客是長發(fā)則為女性;如果顧客是短發(fā)則為男性。

    改用統(tǒng)計(jì)學(xué)的語言來描述:由于旨在找出女性顧客,每當(dāng)看到一個(gè)顧客背影的頭像時(shí),就先假設(shè)這是個(gè)女人(“原假設(shè)”)。如果此人頭發(fā)太短,那就認(rèn)為他不是女人(“拒絕原假設(shè)”); 如果此人頭發(fā)夠長,那就認(rèn)為她是女人(“接受原假設(shè)”,更嚴(yán)格地說應(yīng)為“不能拒絕原假設(shè)”)。

    但是,這種判別方法可能會(huì)犯以下兩類錯(cuò)誤:一是把一小部分短發(fā)女人當(dāng)成了男人,也就是在原假設(shè)其實(shí)為真時(shí)錯(cuò)誤地拒絕之(棄真),這在統(tǒng)計(jì)學(xué)中被稱為“第一類錯(cuò)誤”;二是把另一小部分長發(fā)男人當(dāng)成了女人,也就是在原假設(shè)其實(shí)為假時(shí)錯(cuò)誤地接受之(取偽),這在統(tǒng)計(jì)學(xué)中被稱為“第二類錯(cuò)誤”。

    2. 統(tǒng)計(jì)功效。教科書中通常用希臘字母α代表犯第一類錯(cuò)誤的概率;β代表犯第二類錯(cuò)誤的概率,α和β的幾何意義如圖2所示。在這個(gè)例子中,α就是被誤判的女人在所有女人中的比例,而β則是被誤判的男人在所有男人中的比例。

    第一類錯(cuò)誤與之前討論的統(tǒng)計(jì)顯著性密切相關(guān),α就是事先給定的顯著性水平(通常為0.05),之所以要在P值足夠小的時(shí)候才拒絕原假設(shè),就是為了讓犯第一類錯(cuò)誤的可能性盡可能低,而如何知道這個(gè)建議的最終識(shí)別率有多高呢?既然商場經(jīng)理的目的是想?yún)^(qū)別出男性顧客,那就要看到底多大比例的男性顧客被識(shí)別了出來,這個(gè)比例就是1-β,即所有男人減去誤判的男人(長發(fā)男人)在所有男人中的比例,“1-β”正是“統(tǒng)計(jì)功效”。

    第一類錯(cuò)誤用α值和P值來控制,第二類錯(cuò)誤由什么來控制呢?用統(tǒng)計(jì)功效。統(tǒng)計(jì)功效指的就是:如果我們感興趣的效應(yīng)或差異的確存在,在給定的顯著性水平的規(guī)定下能夠正確地拒絕原假設(shè)的概率,這其實(shí)就是不犯第二類錯(cuò)誤的概率,因此統(tǒng)計(jì)功效的值可以用1減去β得到。

    在任何統(tǒng)計(jì)學(xué)問題上,以上兩類錯(cuò)誤都是此消彼長的。如果商場經(jīng)理想少犯第二類錯(cuò)誤,增加頭發(fā)長度的標(biāo)準(zhǔn),把中長發(fā)男性盡量排出,那么必然會(huì)有更多中短發(fā)女性被誤判;相反,如果經(jīng)理想少犯第一類錯(cuò)誤,降低頭發(fā)長度的標(biāo)準(zhǔn),那么男性錯(cuò)判的可能性就增加了。

    圖2 假設(shè)檢驗(yàn)犯兩類錯(cuò)誤概率示圖

    三、P值誤讀經(jīng)典案例及其原因分析

    (一) 經(jīng)典案例“顯著性誤讀,一個(gè)師生共存的問題”

    關(guān)于P值的爭議由來已久,主要集中在大量應(yīng)用統(tǒng)計(jì)假設(shè)檢驗(yàn)進(jìn)行實(shí)證研究的心理學(xué)和醫(yī)學(xué)領(lǐng)域中。2000年,德國柏林自由大學(xué)(Free University of Berlin)教育科學(xué)與心理學(xué)系的Heiko Haller教授與馬克思·普朗克人類發(fā)展研究所(Max Planck Institute for Human Development)的Stefan Krauss研究員,在德國的6所大學(xué)中進(jìn)行了一項(xiàng)小型的關(guān)于“顯著性(Significance)誤讀:一個(gè)師生共存的問題”的問卷調(diào)查[5],調(diào)查結(jié)果大大出乎他們的意料。

    此次問卷的調(diào)查對象是德國6所大學(xué)的心理學(xué)系師生。調(diào)查對象被分成三組:第一組是教師組(N=30名),包括給心理學(xué)系學(xué)生講授統(tǒng)計(jì)學(xué)和假設(shè)檢驗(yàn)的教授和輔導(dǎo)新生的高年級(jí)研究生助教;第二組是研究員組(N=39名),包括沒有講授統(tǒng)計(jì)學(xué)的教授和研究人員;第三組是學(xué)生組(N=44名),全部由心理學(xué)專業(yè)的學(xué)生組成。

    問卷非常簡短,只包含一個(gè)問題和6個(gè)“是非”選項(xiàng):“假設(shè)你進(jìn)行了一項(xiàng)對照組試驗(yàn),需要比較兩組實(shí)驗(yàn)結(jié)果的均值(每組樣本個(gè)數(shù)為20),采用的方法是獨(dú)立均值t檢驗(yàn),檢驗(yàn)結(jié)果為:t = 2.7,df(自由度)= 18, p(P值)= 0.01?!闭埮袛嘁韵?個(gè)陳述是“正確”還是“錯(cuò)誤”(“錯(cuò)誤”意指該陳述不能由以上檢驗(yàn)結(jié)果得出,以下錯(cuò)誤結(jié)果可能不止1個(gè))。

    1.你可以完全否定“總體均值無差異”的原假設(shè)。[ ]正確/錯(cuò)誤[ ]

    2.你已經(jīng)知道了原假設(shè)為真的概率。[ ]正確/錯(cuò)誤[ ]

    3.你可以完全肯定“總體均值有差異”的備擇假設(shè)。[ ]正確/錯(cuò)誤[ ]

    4.你可以推斷出備擇假設(shè)為真的概率。[ ]正確/錯(cuò)誤[ ]

    5.如果你決定拒絕原假設(shè),你就可以推斷你做出錯(cuò)誤決定的概率。[ ]正確/錯(cuò)誤[ ]

    6.如果以上同樣的試驗(yàn)重復(fù)很多遍,將有99%的試驗(yàn)獲得顯著性的結(jié)果。[ ]正確/錯(cuò)誤[ ]

    Haller教授與Krauss研究員將113份有效調(diào)查問卷進(jìn)行統(tǒng)計(jì)分析,最終結(jié)果如表1所示。表1中的比率值為各組回答的“錯(cuò)誤率”,即在每組參加調(diào)查者的回答中至少出現(xiàn)一個(gè)錯(cuò)誤的人數(shù)占小組人數(shù)的百分比;表1第4列的比例是Oakes在1986年所做類似研究的結(jié)果。

    表1 2000年德國六所大學(xué)師生關(guān)于“顯著性誤讀” 問卷調(diào)查結(jié)果比較表

    注:資料來源于參考文獻(xiàn)[5]。

    (二)P值被誤讀的原因分析

    Haller教授與Krauss研究員對以上調(diào)查結(jié)果表示極其驚訝,“盡管Oakes(1986)的調(diào)查結(jié)果和研究著作發(fā)表已經(jīng)過去了15 年,而且有關(guān)討論顯著性檢驗(yàn)誤解的論文也發(fā)表了很多篇,但是似乎一切都沒改變”。*2015年,筆者也將以上問題對30名統(tǒng)計(jì)專業(yè)的本科生進(jìn)行了調(diào)查。同樣,距離2000年德國大學(xué)的調(diào)查,15年時(shí)間過去了,我們的結(jié)果也驚人地相似,學(xué)生組錯(cuò)誤率100%,沒有1名學(xué)生全部答對。

    表1顯示,問卷調(diào)查結(jié)果中學(xué)生組全部答錯(cuò),錯(cuò)誤率100%;近 90%的心理學(xué)科學(xué)研究人員至少將一個(gè)含有錯(cuò)誤“意義”的P值誤認(rèn)為是正確的;更加重要的是,造成以上結(jié)果的重要原因在于,講授假設(shè)檢驗(yàn)方法的教師們的錯(cuò)誤率也高達(dá)80%,可以想象他們對顯著性的“誤解”正在課堂的講解中一遍又一遍地重復(fù),不斷“誤導(dǎo)”著一批又一批的學(xué)生,對于這種現(xiàn)象,兩位學(xué)者表示“實(shí)在是令人目瞪口呆、無言以對”。

    事實(shí)上,Haller教授與Krauss研究員調(diào)查問題中的6個(gè)“是非”陳述選項(xiàng)答案全是錯(cuò)誤的。

    陳述選項(xiàng)1 和 3 容易答對,兩者的錯(cuò)誤比較明顯:顯著性檢驗(yàn)絕對不能證明 (或否定) 假設(shè);顯著性檢驗(yàn)只能提供“可能的”信息,這些信息最多只能用來對某些理論進(jìn)行印證;統(tǒng)計(jì)推斷不可能得出“完全肯定(或否定)”的“絕對”結(jié)論。

    一般來說,通過顯著性檢驗(yàn)不可能得到任何假設(shè)成立的概率:既不能得到概率值為1(陳述選項(xiàng)1 和 3) 也不能得到其他概率值 (陳述選項(xiàng)2 和 4)。所以,陳述選項(xiàng)2 和 4也都是錯(cuò)誤的。對假設(shè)給出概率的描述只可能在貝葉斯統(tǒng)計(jì)中出現(xiàn)[6]。

    陳述選項(xiàng) 5 看起來與第一類錯(cuò)誤的定義非常相似(即當(dāng)原假設(shè)為真時(shí)拒絕原假設(shè)的概率),但實(shí)際上如果你決定拒絕原假設(shè) (陳述選項(xiàng) 5所述 ),當(dāng)且僅當(dāng)原假設(shè)是正確的情況下,你的這個(gè)決定才是錯(cuò)誤的,因此在陳述選項(xiàng) 5中的“概率 ”(“你做出錯(cuò)誤決定”) 其實(shí)是“原假設(shè)”為真的概率,而這個(gè)概率如選項(xiàng) 2所述,是不可能由這種檢驗(yàn)方法得到的。

    陳述選項(xiàng) 6是所有選項(xiàng)中極易混淆的難題,它實(shí)際上反映的是所謂“重復(fù)謬誤”。在Neyman 和 Pearsons的檢驗(yàn)范式中,以頻率學(xué)派的觀點(diǎn),可以通過P=0.01解釋 “如果原假設(shè)為真,在多次重復(fù)試驗(yàn)中拒絕原假設(shè)的相對頻率”,但在本例中你只進(jìn)行了一次試驗(yàn),沒有證據(jù)證明原假設(shè)是真的。在許多人的腦海里,會(huì)對“P=0.01”的含義“過度”引申,將1-p錯(cuò)誤地演變成拒絕原假設(shè)的相對頻率,即顯著性結(jié)果可以被重復(fù)的概率。實(shí)際上,如果你將以上同樣的試驗(yàn)重復(fù)多遍,由于影響試驗(yàn)條件的不確定性,你很難每次試驗(yàn)都獲得顯著性的結(jié)果。

    所以,我們不能簡單地停留在“P值是什么”的問題上,而要將重點(diǎn)放在“P值為什么”,而真正理解“統(tǒng)計(jì)顯著性”,又要從了解“P值不是什么”開始。

    P值是目前科學(xué)界廣泛使用的主流統(tǒng)計(jì)學(xué)方法中最重要的一個(gè)概念,同時(shí)也可能是被誤讀和誤導(dǎo)最多的一個(gè)概念。翻閱各學(xué)科的文獻(xiàn),很容易就發(fā)現(xiàn)對P值的錯(cuò)誤理解和表述,即便是發(fā)表在《Science》和《Nature》之類頂級(jí)期刊的文章也不可避免。

    對P值定義的誤解一般可分為兩個(gè)層面:一是基本層面,將P值簡化誤認(rèn)為“P值是原假設(shè)為真的概率”;二是引申層面,先按“原假設(shè)為真”推斷至“備擇假設(shè)為假”,再將“P值是原假設(shè)為真的概率”引申到“P值是備擇假設(shè)為假的概率”。

    當(dāng)P值很小時(shí)就拒絕原假設(shè),認(rèn)為備擇假設(shè)是真的嗎?那難道不是說P值代表原假設(shè)有多真嗎?不是,這個(gè)問題最簡單的解釋是:對于任何一個(gè)假設(shè)它為真的概率都是固定的。然而,已經(jīng)知道P值是根據(jù)具體的樣本數(shù)據(jù)計(jì)算得出的,同樣的實(shí)驗(yàn)重復(fù)做幾次,每次得到不同的樣本,P值也自然會(huì)有區(qū)別。因此,P值不可能是原假設(shè)為真或備擇假設(shè)為假的概率。

    進(jìn)一步,回顧“顯著性檢驗(yàn)”的統(tǒng)計(jì)思維邏輯:P值越小,樣本提供的支持“原假設(shè)正確”的證據(jù)就越少,少到一定程度時(shí)則可以(統(tǒng)計(jì))推斷原假設(shè)是不正確的。P值只描述樣本與原假設(shè)的相悖程度,原假設(shè)的真與假是我們“僅僅以一次試驗(yàn)觀察為根據(jù)”做出的一個(gè)判斷。事實(shí)上,P值并不是刻畫“原假設(shè)為真假”或“備擇假設(shè)為真假”的概率。

    所以,P值既不是原假設(shè)為真或假的概率,也不是備擇假設(shè)為真或假的概率。目前,所廣泛使用的一整套統(tǒng)計(jì)推斷和假設(shè)檢驗(yàn)方法及其思想體系,均屬于統(tǒng)計(jì)學(xué)的 “頻率學(xué)派”,P值能做的就是在特定的原假設(shè)條件下,對數(shù)據(jù)未知特征進(jìn)行推斷分析。但是,如果要對這些假設(shè)本身作出判斷,僅憑數(shù)據(jù)本身是不夠的,還需要根據(jù)相關(guān)學(xué)科的理論知識(shí),了解研究對象中除了人們感興趣的假設(shè)以外其他假設(shè)存在的概率。

    實(shí)際上,假設(shè)本身成立與否的概率是統(tǒng)計(jì)學(xué)科中另一個(gè)近年來日漸受到重視的流派“貝葉斯學(xué)派”試圖解決的問題[7]。隨著大數(shù)據(jù)時(shí)代的到來和計(jì)算機(jī)技術(shù)的發(fā)展,需要大量計(jì)算輔助的貝葉斯統(tǒng)計(jì)方法逐漸受到了重視[8],也有不少統(tǒng)計(jì)學(xué)者呼吁學(xué)術(shù)界應(yīng)當(dāng)用貝葉斯方法補(bǔ)充如今僅以P值為中心的頻率學(xué)派方法。

    四、正確使用P值的建議

    P值只是在特定數(shù)據(jù)和模型的條件下,利用顯著性檢驗(yàn)理論框架進(jìn)行統(tǒng)計(jì)推斷,以表明總體未知特征是否具有統(tǒng)計(jì)顯著性的一個(gè)簡化閾值標(biāo)準(zhǔn)。但是,隨著研究問題的復(fù)雜性和不確定性的增加,P值已逐漸被研究人員“異化”成為論文能否發(fā)表的“關(guān)鍵之值”,部分研究人員似乎忘了研究本來的真正目標(biāo),而是將研究目的變?yōu)榻弑M全力追逐一個(gè)小于0.05的P值。進(jìn)而,一個(gè)小小的P值引發(fā)了許多重大的“科學(xué)”發(fā)現(xiàn)。

    由于在各學(xué)科實(shí)際問題的數(shù)據(jù)統(tǒng)計(jì)分析研究中,P值經(jīng)常被誤讀和濫用。鑒于此,美國統(tǒng)計(jì)學(xué)會(huì)在聲明中提出了以下6條正確使用P值的準(zhǔn)則[1]。筆者基于這6條準(zhǔn)則,建議在理論探討和應(yīng)用研究方面注意以下三方面的問題:

    (一) 重點(diǎn)關(guān)注P值的“一個(gè)可以,三個(gè)不能”

    對于一個(gè)特定的數(shù)據(jù)集,常用的研究方法是對此數(shù)據(jù)集在一定的假設(shè)條件下設(shè)定一個(gè)模型,由于不確定性,數(shù)據(jù)與模型之間總會(huì)存在不相容性,將這些假設(shè)的條件與設(shè)定的模型統(tǒng)稱為“原假設(shè)*也翻譯成“零假設(shè)”,心理學(xué)中常翻譯成“虛無假設(shè)”?!薄R话銇碚f,“原假設(shè)”表示某種效應(yīng)不存在,例如兩個(gè)試驗(yàn)組之間不存在差異,或一個(gè)因素與一種結(jié)果之間的沒有關(guān)系。如果在給定的“原假設(shè)”(假設(shè)的條件與設(shè)定的模型)下計(jì)算得到了一個(gè)P值,而此P值越小,數(shù)據(jù)與“原假設(shè)”之間統(tǒng)計(jì)的不相容性就越大,這種不相容性可以用來詮釋對“原假設(shè)”存疑的程度,或提供反對“原假設(shè)”成立的證據(jù)。所以,P值可以表明數(shù)據(jù)與一個(gè)設(shè)定統(tǒng)計(jì)模型之間不相容的程度。不過,對于研究者來說,更加重要的是要特別關(guān)注P值的“三個(gè)不能”。

    1.P值不能度量某個(gè)研究假設(shè)為真或假的概率,也不能度量數(shù)據(jù)僅由隨機(jī)因素影響的概率。研究人員非常希望將P值轉(zhuǎn)化成一個(gè)“原假設(shè)”為真的證據(jù),或者能夠度量觀測數(shù)據(jù)僅由隨機(jī)事件造成的概率,但P值兩者都做不到,P值只能解釋數(shù)據(jù)與特定假設(shè)之間的關(guān)系,而并不能解釋假設(shè)本身。

    2.P值或統(tǒng)計(jì)顯著性并不能度量某個(gè)效應(yīng)的大小,也不能度量某種結(jié)果是否重要。統(tǒng)計(jì)上的顯著性并不等于科學(xué)、人文或經(jīng)濟(jì)上的重要性。較小的P值并不一定意味著有更大或更重要的效應(yīng);較大的P值也不代表重要性缺乏或更小的效應(yīng)。所以,不管某個(gè)效應(yīng)的影響有多小,當(dāng)樣本量足夠大或測量精度足夠高時(shí),有可能得到一個(gè)較小的P值;反之,無論某個(gè)效應(yīng)影響有多大,當(dāng)樣本量很小或測量不精確時(shí),也可能會(huì)得到一個(gè)較大的P值。相類似,對于相同的估計(jì)效應(yīng),當(dāng)估計(jì)的精度不同時(shí)也會(huì)得到不同的P值。

    3.P值本身并不能對統(tǒng)計(jì)模型或研究假設(shè)的可信度進(jìn)行一個(gè)充分的評(píng)價(jià)。研究者應(yīng)該在研究中清楚地意識(shí)到:在沒有充分的專業(yè)理論背景和其他相關(guān)證據(jù)時(shí),P值所能表示的信息極其有限。例如以0.05為標(biāo)準(zhǔn),較小的P值只能為拒絕“原假設(shè)”提供非常弱的信息。同樣,相對較大的P值也不一定意味著信息就偏向支持“原假設(shè)”,因?yàn)榭赡苓€有其他的“假設(shè)”與觀測數(shù)據(jù)具有更強(qiáng)的一致性。因此,如果還存在其他可靠的研究證據(jù),研究者對數(shù)據(jù)的分析就不應(yīng)僅僅停留在對P值的計(jì)算上。

    (二) 基于P值的推論需要完整的研究報(bào)告和透明的研究過程

    研究者不應(yīng)選擇性地報(bào)告P值和相關(guān)分析。某項(xiàng)研究可能使用了多種分析方法,而研究者只報(bào)告其中的一部分P值的結(jié)果(特別是那些通過顯著性標(biāo)準(zhǔn)的),這些P值難以從本質(zhì)上解釋研究結(jié)論。在已發(fā)表的文獻(xiàn)中,用“櫻桃采摘式”的只挑好不選壞的研究方法,諸如數(shù)據(jù)疏浚、 顯著性追逐、 顯著性探索、 選擇性推斷和“P值黑客”,得到了許多虛假的統(tǒng)計(jì)顯著結(jié)果。如果不對問題進(jìn)行多項(xiàng)統(tǒng)計(jì)檢驗(yàn),容易產(chǎn)生如下結(jié)果:無論研究者選擇哪種基于統(tǒng)計(jì)結(jié)果的結(jié)論,由于讀者無法得知研究者所采用的全部依據(jù)和選擇,研究結(jié)果的有效性就打了大大的折扣。研究者應(yīng)該盡量展示研究過程中所使用過的假設(shè)、所有數(shù)據(jù)收集的過程、所有進(jìn)行的統(tǒng)計(jì)分析和所有計(jì)算得到的P值。如果連進(jìn)行了多少次分析、進(jìn)行了哪些分析以及得到了什么樣的分析結(jié)果(包括P值)都不知道,基于P值和相關(guān)統(tǒng)計(jì)量的研究結(jié)論就不能推斷出有效的科學(xué)結(jié)論。

    (三) 科學(xué)研究的結(jié)論、商業(yè)企業(yè)的決策或公共政策的制定,都不應(yīng)該只取決于看一個(gè)P值是否達(dá)到了一個(gè)認(rèn)為給定的標(biāo)準(zhǔn)

    在實(shí)踐中,為了給某種科學(xué)主張或論斷提供佐證,將數(shù)據(jù)分析或科學(xué)推斷簡化為一個(gè)機(jī)械的“明線”規(guī)則 (如“P< 0.05”) ,這種做法可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論和失誤的商業(yè)決策。事實(shí)上,一個(gè)科學(xué)結(jié)論的正確與否,并不會(huì)隨著研究者算出的P值大于還是小于0.05而改變。研究人員需要將更多專業(yè)理論背景和其他相關(guān)證據(jù)納入到科學(xué)推斷的過程中,包括研究的有效設(shè)計(jì)、樣本數(shù)據(jù)的質(zhì)量評(píng)價(jià)、研究問題的非樣本信息以及數(shù)據(jù)分析時(shí)所采用的合理假設(shè)等。出于簡化實(shí)用的考慮,商業(yè)決策者常需根據(jù)研究結(jié)論做出“是與否”的決策,但這并不意味著僅憑P值本身就可以單獨(dú)斷定這一商業(yè)決策的正確與否。

    總之,數(shù)據(jù)分析不能僅僅局限于計(jì)算P值,而應(yīng)探索其他更擬合數(shù)據(jù)的模型。科學(xué)的世界中,不存在哪個(gè)單一的指標(biāo)能替代科學(xué)求真的思維方式。

    大數(shù)據(jù)時(shí)代,小小的P值已引起了國際學(xué)術(shù)界和美國統(tǒng)計(jì)學(xué)會(huì)理事會(huì)的高度關(guān)注,因?yàn)樗鼘y(tǒng)計(jì)學(xué)的科學(xué)性提出了嚴(yán)重質(zhì)疑。所以,希望國內(nèi)相關(guān)部門也能引起高度重視,將以上P值的“注意事項(xiàng)”早日編入中國的統(tǒng)計(jì)教科書,重編假設(shè)檢驗(yàn)相關(guān)章節(jié),不要再讓美國教授嘲諷“我們教它是因?yàn)槲覀冇盟覀冇盟且驗(yàn)槲覀兘趟钡倪@種循環(huán)誤導(dǎo)、以訛傳訛的現(xiàn)象,在中國的大學(xué)和研究生院里繼續(xù)重演。

    [1] Wasserstein R L, Lazar N A. The ASA's Statement on P-Values: Context, Process, and Purpose[J]. The American Statistician, 2016 (3).

    [2] Nuzzo R . Statistical Errors[J]. Nature, 2014 (2).

    [3] 王芳,王景東. 統(tǒng)計(jì)假設(shè)檢驗(yàn)在審計(jì)抽樣工作中的應(yīng)用研究[J]. 審計(jì)研究,2010(5).

    [4] 盛驟, 謝式千, 潘承毅. 概率論與數(shù)理統(tǒng)計(jì)[M]. 4版.北京:高等教育出版社,2008.

    [5] Haller H, Krauss S. Misinterpretations of Significance: A Problem Students Share with Their Teachers? [J]. Methods of Psychological Research, 2002(7).

    [6] 丁東洋,周麗莉. 基于貝葉斯方法的信用評(píng)級(jí)模型構(gòu)建與違約概率估計(jì)[J]. 統(tǒng)計(jì)與信息論壇, 2010(9).

    [7] 王佐仁,楊琳. 貝葉斯統(tǒng)計(jì)推斷及其主要進(jìn)展[J]. 統(tǒng)計(jì)與信息論壇,2012(12).

    [8] 劉樂平,高磊,楊娜. MCMC方法的發(fā)展與現(xiàn)代貝葉斯的復(fù)興——紀(jì)念貝葉斯定理發(fā)現(xiàn)250周年[J]. 統(tǒng)計(jì)與信息論壇,2014(2).

    (責(zé)任編輯:郭詩夢)

    Statistical Significance a Misreading of P-Values:Based on the Official Statement of ASA

    HAO Li, LIU Le-ping, SHEN Ya-fei

    (Big Data Statistics Research Center, Tianjin University of Finance and Economics, Tianjin 300222, China)

    After the ASA's statement on p-values and significance, p-value was brought to the attention of the scholars. The paper briefly explains p-value, statistical significance, and statistical power concepts, through "Coin-Throwing" and "Hair Length Determine Person's" intuitive examples, analysis the reason of p-value misreading with the classic case of psychological statistics. The paper strongly recommends that researchers in accordance with the "Six Principles" of proper use the p-value, based on the official statement of ASA.

    statistical significance; p-values; psychological statistics; Bayesian statistics

    2016-04-06;修復(fù)日期:2016-10-11

    國家社會(huì)科學(xué)基金項(xiàng)目 《基于大數(shù)據(jù)分析的城市社區(qū)養(yǎng)老模式研究》(15BRK002)

    郝 麗,女,安徽壽縣人,經(jīng)濟(jì)學(xué)碩士,副教授,研究方向:體育與健康大數(shù)據(jù)統(tǒng)計(jì)分析; 劉樂平,男,江西萍鄉(xiāng)人,經(jīng)濟(jì)學(xué)博士,教授,博士生導(dǎo)師,研究方向:貝葉斯數(shù)據(jù)分析,精算與風(fēng)險(xiǎn)管理; 申亞飛,男,山西黎城人,碩士生,研究方向:大數(shù)據(jù)統(tǒng)計(jì)分析。

    C829.29∶O211.9

    A

    1007-3116(2016)12-0003-08

    猜你喜歡
    假設(shè)檢驗(yàn)硬幣概率
    第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
    第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
    概率與統(tǒng)計(jì)(一)
    概率與統(tǒng)計(jì)(二)
    硬幣巧入盤
    不翼而飛的硬幣
    統(tǒng)計(jì)推斷的研究
    雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn)
    Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
    統(tǒng)計(jì)學(xué)教學(xué)中關(guān)于假設(shè)檢驗(yàn)問題探討
    av免费观看日本| 少妇人妻久久综合中文| 日韩av在线免费看完整版不卡| 亚洲精品视频女| 久久精品国产鲁丝片午夜精品| 自线自在国产av| 又黄又爽又刺激的免费视频.| 国产午夜精品一二区理论片| 大陆偷拍与自拍| 永久免费av网站大全| 最新的欧美精品一区二区| www.色视频.com| 在线观看美女被高潮喷水网站| 高清欧美精品videossex| 超碰97精品在线观看| 夜夜爽夜夜爽视频| 成人免费观看视频高清| 满18在线观看网站| 免费人妻精品一区二区三区视频| 免费播放大片免费观看视频在线观看| 国产亚洲最大av| 一级毛片电影观看| 久久99蜜桃精品久久| 少妇精品久久久久久久| 有码 亚洲区| 久久99精品国语久久久| 国产在线视频一区二区| 成人综合一区亚洲| 久久久国产欧美日韩av| 久久久久久人妻| 少妇人妻精品综合一区二区| 免费观看的影片在线观看| 久久99热这里只频精品6学生| 亚洲精品国产色婷婷电影| 大片免费播放器 马上看| 狂野欧美白嫩少妇大欣赏| 精品亚洲成国产av| 亚洲性久久影院| 三级国产精品欧美在线观看| 国产极品粉嫩免费观看在线 | 妹子高潮喷水视频| 成年女人在线观看亚洲视频| 波野结衣二区三区在线| 国产精品成人在线| 午夜久久久在线观看| 王馨瑶露胸无遮挡在线观看| 成人二区视频| 欧美变态另类bdsm刘玥| 成年美女黄网站色视频大全免费 | 久久精品国产亚洲av天美| 91精品一卡2卡3卡4卡| 制服丝袜香蕉在线| 亚洲国产av新网站| 免费观看性生交大片5| 久久精品夜色国产| 成人综合一区亚洲| 一级毛片黄色毛片免费观看视频| 成人黄色视频免费在线看| 极品人妻少妇av视频| 亚洲伊人久久精品综合| 亚洲av电影在线观看一区二区三区| 91久久精品国产一区二区三区| 人妻人人澡人人爽人人| 亚洲人成网站在线播| 日韩成人伦理影院| 男的添女的下面高潮视频| 亚洲av男天堂| 久久国产亚洲av麻豆专区| 国产视频内射| 一区二区日韩欧美中文字幕 | 日韩av在线免费看完整版不卡| 又粗又硬又长又爽又黄的视频| 国模一区二区三区四区视频| 内地一区二区视频在线| 看免费成人av毛片| 欧美精品一区二区免费开放| av天堂久久9| 国产黄色视频一区二区在线观看| 精品视频人人做人人爽| 寂寞人妻少妇视频99o| 亚洲一级一片aⅴ在线观看| 大片免费播放器 马上看| 午夜精品国产一区二区电影| 国产一区二区三区综合在线观看 | 制服人妻中文乱码| 在线免费观看不下载黄p国产| 成人综合一区亚洲| 国产成人精品无人区| 国产精品人妻久久久影院| 一本久久精品| 国产乱人偷精品视频| 国产精品.久久久| 精品久久久久久久久亚洲| 国产高清国产精品国产三级| 欧美精品亚洲一区二区| 精品一品国产午夜福利视频| 男的添女的下面高潮视频| 少妇的逼好多水| 日本欧美国产在线视频| 亚洲av成人精品一区久久| 夫妻性生交免费视频一级片| 少妇人妻 视频| 免费观看无遮挡的男女| 久久久久久人妻| 精品酒店卫生间| 精品久久久久久久久亚洲| 久久97久久精品| 中文字幕亚洲精品专区| 成人免费观看视频高清| 观看av在线不卡| 天美传媒精品一区二区| 亚洲精品456在线播放app| 午夜福利,免费看| 免费高清在线观看视频在线观看| 亚洲欧洲精品一区二区精品久久久 | 亚洲欧洲日产国产| 欧美精品亚洲一区二区| 韩国高清视频一区二区三区| 久热这里只有精品99| 91久久精品电影网| 日韩中文字幕视频在线看片| 日日爽夜夜爽网站| 日韩成人av中文字幕在线观看| 日本爱情动作片www.在线观看| 老司机影院成人| 久久久久久人妻| 亚洲精华国产精华液的使用体验| 欧美日韩综合久久久久久| 亚洲精品视频女| 国产成人免费观看mmmm| 视频中文字幕在线观看| 久久久久精品性色| 考比视频在线观看| 熟女电影av网| 亚洲av成人精品一二三区| 美女内射精品一级片tv| 国产亚洲精品第一综合不卡 | 亚洲国产精品专区欧美| 最近手机中文字幕大全| 日本vs欧美在线观看视频| 美女福利国产在线| 天天影视国产精品| 男女免费视频国产| 日韩三级伦理在线观看| 午夜激情福利司机影院| 少妇的逼水好多| 午夜av观看不卡| 国产成人免费无遮挡视频| av在线老鸭窝| 九九在线视频观看精品| 国产欧美另类精品又又久久亚洲欧美| 在线免费观看不下载黄p国产| 成年人免费黄色播放视频| 亚洲欧洲国产日韩| 五月天丁香电影| 亚洲精华国产精华液的使用体验| 成人国产麻豆网| 免费日韩欧美在线观看| 日本午夜av视频| 日本色播在线视频| 久久午夜福利片| 欧美在线黄色| 两性夫妻黄色片| 真人做人爱边吃奶动态| 国产一区有黄有色的免费视频| 亚洲av日韩在线播放| 成人18禁在线播放| 久久国产精品影院| 亚洲久久久国产精品| 欧美人与性动交α欧美精品济南到| 人人澡人人妻人| 嫩草影视91久久| 国产精品av久久久久免费| 中文字幕色久视频| 777久久人妻少妇嫩草av网站| 他把我摸到了高潮在线观看 | 亚洲成人免费av在线播放| 亚洲七黄色美女视频| 亚洲第一欧美日韩一区二区三区 | 精品国产乱码久久久久久男人| 午夜成年电影在线免费观看| 成人av一区二区三区在线看| 91av网站免费观看| 国产人伦9x9x在线观看| 韩国精品一区二区三区| 亚洲国产欧美一区二区综合| 亚洲精品久久午夜乱码| 亚洲国产毛片av蜜桃av| 超色免费av| 久久午夜综合久久蜜桃| 国产精品免费视频内射| 久久婷婷成人综合色麻豆| 18在线观看网站| 老司机福利观看| 性色av乱码一区二区三区2| 亚洲精品国产色婷婷电影| 久热爱精品视频在线9| 精品人妻在线不人妻| 久9热在线精品视频| 日本av手机在线免费观看| 999久久久精品免费观看国产| 蜜桃在线观看..| 99在线人妻在线中文字幕 | 人人妻人人澡人人爽人人夜夜| 狂野欧美激情性xxxx| 亚洲成人免费电影在线观看| 国产91精品成人一区二区三区 | 激情在线观看视频在线高清 | 美女高潮到喷水免费观看| 国产熟女午夜一区二区三区| 国产精品久久久久久精品电影小说| 免费少妇av软件| 成人免费观看视频高清| 在线播放国产精品三级| 国产精品98久久久久久宅男小说| 人人妻人人澡人人爽人人夜夜| 国产精品秋霞免费鲁丝片| 黄色毛片三级朝国网站| 在线永久观看黄色视频| 1024视频免费在线观看| 亚洲国产欧美网| 国产深夜福利视频在线观看| 女人久久www免费人成看片| 欧美另类亚洲清纯唯美| 欧美国产精品va在线观看不卡| 免费黄频网站在线观看国产| 国产又爽黄色视频| 一区二区三区精品91| 精品久久久精品久久久| 久久国产精品男人的天堂亚洲| 国产男女超爽视频在线观看| 两人在一起打扑克的视频| 一边摸一边做爽爽视频免费| 国产欧美日韩一区二区三| 中亚洲国语对白在线视频| √禁漫天堂资源中文www| 变态另类成人亚洲欧美熟女 | 亚洲成av片中文字幕在线观看| 麻豆av在线久日| 亚洲欧洲精品一区二区精品久久久| 麻豆成人av在线观看| 1024香蕉在线观看| 中文欧美无线码| 久久久久精品国产欧美久久久| 真人做人爱边吃奶动态| 国产不卡av网站在线观看| 桃红色精品国产亚洲av| 欧美久久黑人一区二区| 欧美 日韩 精品 国产| 国产淫语在线视频| 久久中文字幕一级| 国产区一区二久久| 亚洲专区字幕在线| 男女午夜视频在线观看| 99国产极品粉嫩在线观看| 两个人免费观看高清视频| 十八禁网站网址无遮挡| 熟女少妇亚洲综合色aaa.| 侵犯人妻中文字幕一二三四区| 国产有黄有色有爽视频| 多毛熟女@视频| 日韩制服丝袜自拍偷拍| 狠狠婷婷综合久久久久久88av| 老司机午夜十八禁免费视频| 亚洲国产欧美日韩在线播放| 俄罗斯特黄特色一大片| 啦啦啦中文免费视频观看日本| h视频一区二区三区| 亚洲国产欧美一区二区综合| 久久人人爽av亚洲精品天堂| 变态另类成人亚洲欧美熟女 | 国内毛片毛片毛片毛片毛片| 老司机午夜福利在线观看视频 | 美女午夜性视频免费| 操出白浆在线播放| 亚洲午夜理论影院| 亚洲熟妇熟女久久| e午夜精品久久久久久久| 国产无遮挡羞羞视频在线观看| 亚洲人成77777在线视频| 大香蕉久久成人网| 欧美精品av麻豆av| 国产人伦9x9x在线观看| 99国产精品99久久久久| 亚洲五月色婷婷综合| 国产日韩欧美在线精品| 国产淫语在线视频| 日韩欧美一区二区三区在线观看 | 夫妻午夜视频| 日韩中文字幕视频在线看片| 国产精品美女特级片免费视频播放器 | 黄色片一级片一级黄色片| 又黄又粗又硬又大视频| 精品人妻在线不人妻| 后天国语完整版免费观看| 国产精品电影一区二区三区 | 久久精品人人爽人人爽视色| av又黄又爽大尺度在线免费看| 欧美精品亚洲一区二区| 久久国产精品男人的天堂亚洲| 亚洲人成伊人成综合网2020| 欧美激情久久久久久爽电影 | 亚洲人成电影观看| 两人在一起打扑克的视频| 这个男人来自地球电影免费观看| 精品国内亚洲2022精品成人 | 久久婷婷成人综合色麻豆| 国产伦理片在线播放av一区| 亚洲人成电影免费在线| 咕卡用的链子| 啦啦啦 在线观看视频| 日本wwww免费看| 搡老熟女国产l中国老女人| 一区二区日韩欧美中文字幕| 后天国语完整版免费观看| 国产日韩欧美视频二区| 亚洲精品粉嫩美女一区| 精品久久蜜臀av无| 亚洲欧美激情在线| 一边摸一边抽搐一进一小说 | 午夜免费鲁丝| 日本五十路高清| 久久性视频一级片| 窝窝影院91人妻| 天天躁夜夜躁狠狠躁躁| 黄色视频不卡| 欧美国产精品一级二级三级| 国产真人三级小视频在线观看| 老鸭窝网址在线观看| 久久午夜综合久久蜜桃| 女人爽到高潮嗷嗷叫在线视频| 麻豆成人av在线观看| 天天影视国产精品| 啦啦啦 在线观看视频| 两人在一起打扑克的视频| 日日爽夜夜爽网站| 飞空精品影院首页| 少妇裸体淫交视频免费看高清 | 国产精品秋霞免费鲁丝片| 成人18禁在线播放| 一级毛片女人18水好多| 免费少妇av软件| 久久九九热精品免费| 黑人猛操日本美女一级片| 美女视频免费永久观看网站| 国产黄频视频在线观看| 国产精品久久久久成人av| h视频一区二区三区| 大片电影免费在线观看免费| 老司机靠b影院| 亚洲熟女精品中文字幕| 99国产精品一区二区三区| 免费观看人在逋| 久久午夜综合久久蜜桃| 欧美黄色片欧美黄色片| 国产麻豆69| 18禁观看日本| 久久香蕉激情| 国产精品一区二区精品视频观看| 电影成人av| 亚洲精品av麻豆狂野| 精品少妇黑人巨大在线播放| 老司机午夜福利在线观看视频 | 18禁国产床啪视频网站| 一区二区av电影网| 日韩制服丝袜自拍偷拍| 男女下面插进去视频免费观看| 色视频在线一区二区三区| 变态另类成人亚洲欧美熟女 | 国产亚洲欧美在线一区二区| 亚洲精品久久午夜乱码| 亚洲精品久久成人aⅴ小说| 国产激情久久老熟女| 自线自在国产av| 啪啪无遮挡十八禁网站| 国产1区2区3区精品| 欧美黄色片欧美黄色片| 成年女人毛片免费观看观看9 | 啦啦啦中文免费视频观看日本| 男人舔女人的私密视频| 啪啪无遮挡十八禁网站| www.熟女人妻精品国产| 国产日韩欧美视频二区| 在线看a的网站| 精品少妇久久久久久888优播| 国产日韩欧美亚洲二区| 女人精品久久久久毛片| 丝袜在线中文字幕| 麻豆av在线久日| 91精品国产国语对白视频| 亚洲精品一二三| 老司机午夜十八禁免费视频| 亚洲精品中文字幕在线视频| 中文字幕人妻熟女乱码| 午夜福利影视在线免费观看| 深夜精品福利| 在线观看免费日韩欧美大片| 亚洲精品一卡2卡三卡4卡5卡| 一二三四社区在线视频社区8| 熟女少妇亚洲综合色aaa.| 久久久久久久国产电影| 国产成人精品无人区| 色老头精品视频在线观看| 久久久国产精品麻豆| 亚洲欧洲日产国产| 女人高潮潮喷娇喘18禁视频| 久久久久国产一级毛片高清牌| 亚洲国产欧美日韩在线播放| 老鸭窝网址在线观看| 一边摸一边做爽爽视频免费| 黄频高清免费视频| 色视频在线一区二区三区| 亚洲国产看品久久| 日韩有码中文字幕| 在线观看免费视频日本深夜| 国内毛片毛片毛片毛片毛片| 国产精品久久久久成人av| 国产精品九九99| 欧美另类亚洲清纯唯美| 午夜福利视频在线观看免费| 成人国语在线视频| 婷婷成人精品国产| 国产成人精品无人区| 国产99久久九九免费精品| 在线观看人妻少妇| 亚洲天堂av无毛| 97人妻天天添夜夜摸| 人成视频在线观看免费观看| 亚洲专区字幕在线| av有码第一页| 国产人伦9x9x在线观看| 亚洲精品美女久久av网站| 国产精品 欧美亚洲| 精品人妻1区二区| 91麻豆av在线| 亚洲 国产 在线| 嫁个100分男人电影在线观看| 少妇 在线观看| 18禁美女被吸乳视频| 国产99久久九九免费精品| 人妻 亚洲 视频| 人人澡人人妻人| 啦啦啦免费观看视频1| 欧美成狂野欧美在线观看| 夜夜爽天天搞| 99精品在免费线老司机午夜| 欧美午夜高清在线| 18禁裸乳无遮挡动漫免费视频| 精品国产国语对白av| 十八禁网站免费在线| 真人做人爱边吃奶动态| 人人妻人人爽人人添夜夜欢视频| av网站在线播放免费| 国产91精品成人一区二区三区 | 中文字幕色久视频| 夜夜骑夜夜射夜夜干| 欧美精品高潮呻吟av久久| 一夜夜www| 亚洲国产欧美网| 1024香蕉在线观看| 怎么达到女性高潮| 免费高清在线观看日韩| 亚洲国产欧美网| 日韩欧美三级三区| 国产成人啪精品午夜网站| 午夜免费成人在线视频| 国产成人精品无人区| 日韩中文字幕欧美一区二区| 一边摸一边抽搐一进一小说 | 精品久久久精品久久久| 久久av网站| 日日爽夜夜爽网站| 一本一本久久a久久精品综合妖精| 久久久精品94久久精品| 欧美精品高潮呻吟av久久| 免费不卡黄色视频| 亚洲国产成人一精品久久久| 久久精品91无色码中文字幕| 欧美 日韩 精品 国产| 亚洲人成电影观看| 777久久人妻少妇嫩草av网站| 青草久久国产| 欧美成人午夜精品| 亚洲国产欧美一区二区综合| 国产欧美日韩一区二区三区在线| 欧美亚洲 丝袜 人妻 在线| 成年人午夜在线观看视频| 极品教师在线免费播放| 精品少妇一区二区三区视频日本电影| 久久免费观看电影| 黄色成人免费大全| 午夜精品久久久久久毛片777| 日韩中文字幕欧美一区二区| 亚洲精华国产精华精| 亚洲国产成人一精品久久久| 成年人黄色毛片网站| 老司机深夜福利视频在线观看| 十八禁人妻一区二区| a级毛片黄视频| 精品国产乱码久久久久久男人| 侵犯人妻中文字幕一二三四区| 精品国产乱码久久久久久男人| 亚洲欧美一区二区三区久久| 蜜桃国产av成人99| 国产成人影院久久av| a级毛片黄视频| 国产亚洲精品久久久久5区| 老司机在亚洲福利影院| 精品国产一区二区三区久久久樱花| 免费一级毛片在线播放高清视频 | 丝袜美腿诱惑在线| 男男h啪啪无遮挡| h视频一区二区三区| 亚洲欧美日韩高清在线视频 | 国产成人精品在线电影| 国产aⅴ精品一区二区三区波| 国产精品麻豆人妻色哟哟久久| 国产成人一区二区三区免费视频网站| 欧美日韩亚洲高清精品| 最近最新中文字幕大全免费视频| 亚洲欧美日韩另类电影网站| 精品福利永久在线观看| 国产精品久久久久久精品电影小说| 老司机影院毛片| 99久久99久久久精品蜜桃| 精品久久久久久久毛片微露脸| 久久久久久久久免费视频了| 国产精品自产拍在线观看55亚洲 | 久久人人爽av亚洲精品天堂| 精品国产一区二区三区四区第35| 亚洲成国产人片在线观看| 天堂俺去俺来也www色官网| 欧美日韩一级在线毛片| 久久人人97超碰香蕉20202| 亚洲人成电影免费在线| 午夜福利乱码中文字幕| 美女扒开内裤让男人捅视频| 丁香欧美五月| 精品欧美一区二区三区在线| 亚洲,欧美精品.| www.精华液| 国产av一区二区精品久久| 久久久国产一区二区| 人人妻,人人澡人人爽秒播| 性少妇av在线| 999久久久国产精品视频| 成人手机av| 老汉色∧v一级毛片| 成人黄色视频免费在线看| 亚洲美女黄片视频| 老司机午夜十八禁免费视频| 丁香六月天网| 人人妻人人澡人人看| 亚洲欧美一区二区三区久久| 少妇裸体淫交视频免费看高清 | 2018国产大陆天天弄谢| 亚洲熟妇熟女久久| 日日爽夜夜爽网站| 十八禁网站免费在线| 亚洲一区中文字幕在线| 国产精品久久久久久人妻精品电影 | 欧美日韩国产mv在线观看视频| 成人免费观看视频高清| 麻豆成人av在线观看| 日韩大码丰满熟妇| 一二三四在线观看免费中文在| 日本撒尿小便嘘嘘汇集6| 97在线人人人人妻| 十分钟在线观看高清视频www| 国产精品免费一区二区三区在线 | 欧美乱妇无乱码| 黑人操中国人逼视频| a在线观看视频网站| 国产视频一区二区在线看| 交换朋友夫妻互换小说| 久久精品国产a三级三级三级| 老司机午夜十八禁免费视频| 无遮挡黄片免费观看| 久久青草综合色| 国产精品九九99| netflix在线观看网站| av有码第一页| 亚洲午夜理论影院| 日本a在线网址| 美女视频免费永久观看网站| 99香蕉大伊视频| 女人被躁到高潮嗷嗷叫费观| 午夜激情久久久久久久| av在线播放免费不卡| 国产人伦9x9x在线观看| 十八禁网站免费在线| 黄色a级毛片大全视频| 国产在线视频一区二区| 亚洲情色 制服丝袜| 亚洲欧美一区二区三区黑人| 免费日韩欧美在线观看| 最近最新免费中文字幕在线| 欧美亚洲日本最大视频资源| 亚洲avbb在线观看| 考比视频在线观看| 香蕉久久夜色| 欧美日韩视频精品一区| 久久婷婷成人综合色麻豆| 婷婷丁香在线五月| 波多野结衣av一区二区av| 天堂8中文在线网| 精品人妻熟女毛片av久久网站| 黄色成人免费大全| 午夜福利在线观看吧| 国产成人系列免费观看| 99久久精品国产亚洲精品| 丁香六月天网| 黄色片一级片一级黄色片| 亚洲精品久久午夜乱码| 日韩三级视频一区二区三区|