焉 石,許水生,董 宇,龐雪林
問卷是指研究者為了收集調(diào)查對象的行為、態(tài)度及觀念等社會資料或信息,將所要調(diào)查的內(nèi)容和問題編排成統(tǒng)一形式,從而用以解釋所研究的問題和驗證所提出的研究假設的一種測量工具(徐建華等,2015)。[1]近年來隨著統(tǒng)計技術(shù)的不斷提升,問卷調(diào)查法仍然是體育學研究中不可忽視的一種重要的研究方法,但提及問卷就不能忽視評價調(diào)查問卷質(zhì)量的兩個重要指標,即確保問卷可靠性和準確性的信度和效度。作為重要指標,信效度的科學性是保證調(diào)查研究的前提條件,因此提升信度和效度是問卷調(diào)查研究的根本任務。一直以來,不同學者對信度和效度的孰重孰輕分別給出了不同見解,張力為(2002)認為[2],信度是效度的基礎,所以問卷應首先具備較高的信度,如果信度低,效度一定低。但也有研究認為[3],效度是科學的測量工具所必須具備的最重要的條件,即任何測量首先要保證其測量工具的準確性和有效性,缺乏效度的測量,即便是它的信度再高也是沒有任何意義的。本研究認為,對于問卷調(diào)查研究,無論是信度還是效度同樣重要。但如非要給二者排序的話,相對于信度而言,對于調(diào)查研究來說效度應首當其沖。例如在練習打靶中,盡管命中率很高,且非常密集,但如果主要聚集在靶心以外區(qū)域的話,也只能說明射擊水平較高,而不能稱之為神槍手。
查閱文獻發(fā)現(xiàn)目前在體育學領域,不僅僅在學位論文中,甚至在各類體育類核心期刊中,針對問卷或量表的信效度檢驗方面,普遍存在誤用及濫用情況。究其原因,主要由于如檢驗問卷的信效度,必然會涉及統(tǒng)計學相關知識,而大部分學生反映看不懂量化研究論文,更不要說運用各種統(tǒng)計方法,即使有意愿學習,但由于數(shù)理基礎薄弱,所以對量化研究選擇敬而遠之。有的學校雖然開設了體育統(tǒng)計學課程,但大多授課教師不具備體育專業(yè)背景,對于體育專業(yè)的特點不夠了解,課上的教學案例也與體育相差甚遠,而且在教學內(nèi)容上也主要以數(shù)理統(tǒng)計的原理性知識為主,對于應用性知識重視不足,致使大多學生對待統(tǒng)計知識的掌握大多流于形式。
本研究旨在從實際應用統(tǒng)計學角度出發(fā),盡量減少抽象的原理性知識灌輸,緊密結(jié)合體育學案例,并將問卷信效度檢驗中必需的統(tǒng)計基礎知識,以“白話”形式進行講授,使學生能夠形象的掌握,并結(jié)合相關統(tǒng)計分析軟件,能夠正確合理的運用問卷和量表進行科學研究。另外,也為體育學研究中針對問卷、量表的不同信效度驗證方法進行梳理,為體育學科的科學發(fā)展提供理論參考。
在問卷與量表的差異方面,大多學生無法清晰辨別,普遍認為二者同屬一類,但實際上二者有著多方面差異,無論是編制方面,還是后續(xù)的統(tǒng)計分析方面都存在巨大差異。量表嚴格意義上屬于問卷的一種特例,主要用于精確度量一個比較抽象或綜合性較強的概念,特別是在心理學研究領域較為常見,主要用于度量一些無法直接測量的變量,例如態(tài)度和觀念的不同程度或差異等,而且編制過程中需要以理論為基礎,并遵循嚴格的量表設計程序,以及反復的驗證等,多見于探討不同變量間的相關性研究。而問卷的調(diào)查內(nèi)容則相對較為寬泛,尤其是在一些“現(xiàn)狀與對策”類的研究較為常見,在內(nèi)容的設計方面也相對量表較為寬松,主要是以圍繞研究的主題進行設計,也無須明確的理論為基礎,只需滿足研究者關注的問題即可,該類問卷也是體育專業(yè)研究生較為常用的研究方式之一。
由于問卷與量表的編制形式及統(tǒng)計分析方法的不同,所以各自采用的信效度檢驗方法也大相徑庭。但合理的選擇正確的信效度檢驗方法之前,首先應明確掌握問卷與量表中常見的三種不同類型的變量,只有準確的辨認其變量特點,才能夠正確選擇與之相對應的檢驗方法。大致可以分為類別變量、等級變量和連續(xù)變量三種類型。類別變量又稱分類變量、名義變量,屬于定性變量,不能以連續(xù)數(shù)值只能用類別表示其特征,表現(xiàn)為互不相容的類別或?qū)傩?。例如問卷中常見的性別、國籍、省份等。等級變量又稱順序變量,指既無相等單位又無絕對零點的變量,是以有序數(shù)值表示其特征。例如名次等。連續(xù)變量又稱定比變量,指相鄰兩個數(shù)值可作無線分割的數(shù)值表示其特征的變量,例如身高、體重,血壓等。以上三種變量中,由于其特性不一,所以在進行信效度檢驗時所對應的方法也不同。另外,連續(xù)變量所包含的實數(shù)列特征最多,其次是等級變量,最后是類別變量,所以三者間可以采用由上至下的變量轉(zhuǎn)換形式,可將連續(xù)變量轉(zhuǎn)成等級變量,等級變量轉(zhuǎn)成類別變量。例如血壓值,作為連續(xù)變量時可以是具體的有單位的數(shù)值,作為等級變量時可以分為高、中、低血壓,而作為類別變量時還可以為正常和非正常血壓。但由下至上的反方向則不可以轉(zhuǎn)化,從而應在編制中盡可能多設計連續(xù)型變量題目。
查閱近年體育學碩士學位論文發(fā)現(xiàn),調(diào)查類研究在問卷設計方面大多傾向采用自編問卷,且在效度檢驗方面主要采用專家效度作為對問卷的效度檢驗,從而證明研究工具的合理性。但主要存在以下問題:(1)既然選擇專家效度,就應證明專家在此領域的專業(yè)性及權(quán)威性,而大多研究并沒有任何相關專家的學術(shù)背景介紹,僅是簡單地提及選擇了幾位教授或副教授進行了調(diào)查,有的甚至只在乎專家的職稱,忽略是否是本研究領域?qū)<?,又與本研究有多大關聯(lián)性等。(2)在對專家效度的問卷中,題目設計方面存在明顯誘導性回答,例如在回答項選擇中設置“非常合理、較合理、合理、不合理”的形式,該選項明顯存在誘導專家選擇的意圖,合理與不合理的比重不一。(3)簡單粗暴將內(nèi)容效度完全依靠專家回答,并以簡單的百分比形式進行定性,缺乏對問卷每個題目的具體統(tǒng)計分析。
在內(nèi)容效度檢驗方面,可以采用目前最為廣泛的由Hambleton和Martuza等[4-5]提出的內(nèi)容效度指數(shù)法(content validity index,CVI)。該方法可分別對問卷的每個題目,以及整個問卷的內(nèi)容效度進行評估。具體操作程序如下:(1)首先選擇8-12位專家,對已編制好的問卷在各題目后設置4等級評分,分別為1=不相關,2=弱相關,3=較強相關,4=非常相關。請專家進行逐題內(nèi)容效度評估。(2)其次,逐題計算隨機一致性概率值(Pc)[6]:Pc=×0.5n n為專家人數(shù),A為對每題評分為3或4分的專家人數(shù),0.5為專家選擇相關或不相關的概率值。(3)結(jié)合Pc值計算Kappa值:KAPPA=CVI為評分為3或4分的專家人數(shù)除以參評的專家總數(shù)比。(4)KAPPA值評價標準:大于0.74為優(yōu)秀,0.6-0.74為良好,0.4-0.59為一般。(5)計算完每題的內(nèi)容效度值后,將所有題目的CVI值進行平均,高于0.9則認為該問卷不僅各題目效度良好,問卷的整體效度也良好[7]。(6)最后,結(jié)合第一輪專家評估指數(shù),進行修改后實施第二輪專家效度評估,專家人數(shù)可適當減少至3-5人。
以8位專家對某問卷中的3個問題的評估為例,具體論文中呈現(xiàn)形式如下(見表1):
表1 不同專家的內(nèi)容效度評估指數(shù)計算
目前大多學位論文中,針對調(diào)查問卷的可靠性所采用的信度檢驗,主要采用重測信度的方法,先后兩次對同一樣本以同一份問卷進行兩次測量,通過檢驗樣本的兩次回答的一致性程度,間接判斷該問卷的穩(wěn)定程度。但仍存在以下問題:(1)大多學生對統(tǒng)計分析的變量類型掌握不扎實,故無法正確選擇相對應的統(tǒng)計檢驗方法。例如在自編的問卷中,眾多論文表現(xiàn)在,無論是針對人口統(tǒng)計學變量特征的類別變量,還是順序變量及連續(xù)變量,無論青紅皂白,一律采用積差相關系數(shù)R作為重測信度的評估值。然而至于該方法是否合適普遍并不知曉,只是盲目相互模仿,甚至該錯誤現(xiàn)象愈演愈烈,以致發(fā)展到成為一種固定模式,只要是針對問卷的信度檢驗,似乎必須采用積差相關系數(shù)作為信度評估值才是金標準。但實際上,積差相關系數(shù)盡管能夠反映連續(xù)型變量間的關聯(lián)程度,但在重測信度的測量中,連續(xù)變量的前后一致性檢驗應采用組內(nèi)相關系數(shù)(ICC),而類別及順序變量則需要采用卡方檢驗,同時結(jié)合KAPAA一致性分析進行檢驗才是正確的方法。(2)對一些事實類的問題也機械性地進行了信度檢驗,一般該類型題目并不需要進行信效度檢驗,而主要通過測量環(huán)境及指導語的控制去實現(xiàn)。[8]
由于問卷調(diào)查類研究的各個題目的類型不一,所以不能一次性將提問的問題都進行信效度檢驗,需要根據(jù)不同進行區(qū)別檢驗。針對類別變量、等級變量的檢驗程序(以SPSS統(tǒng)計軟件為例):(1)分別將第一次和第二次的數(shù)據(jù)錄入SPSS軟件中(2)打開菜單中“分析”,選擇“描述”下的“交叉表”,(3)分別將第一次和第二次的數(shù)據(jù)選入“行”和“列”(4)在“統(tǒng)計”里將“KAPPA”和“麥克尼馬爾”打勾后,選擇確定(5)在分析結(jié)果中先確定“卡方檢驗”下的“麥克尼馬爾-鮑克檢驗”的值和漸進顯著性(P值)(6)其次在“對稱測量”下確認KAPPA值及漸進顯著性(p值)。(7)麥克尼馬爾P值要>0.05,KAPPA值>0.75一致性較好,0.4-0.75一致性一般,<0.4一致性較差。(8)ICC>0.7為較好,0.5-0.7為一般,<0.5為較差。
以“您在參加課外體育鍛煉時發(fā)生運動損傷的頻率”問題為例,答案為“經(jīng)常、偶爾、幾乎沒有”,樣本為30人。結(jié)果顯示(表2)該題項的前后兩次重測信度較高。
表2 卡方與KAPPA一致性檢驗
論文中呈現(xiàn)形式如下:
針對連續(xù)變量的組內(nèi)相關系數(shù)檢驗程序:(1)打開菜單中“分析”,選擇“刻度”,選中“可靠性分析”(2)分別將兩次的數(shù)值選入右側(cè)“項”欄中,并點擊“統(tǒng)計”(3)勾選“同類相關系數(shù)”,模型設置“雙向混合”,并“確認”(4)確認統(tǒng)計結(jié)果中的“單個測量”欄目中的“同類相關性”值,以及P值。
以“每次體育課結(jié)束后您的主觀疲勞程度”問題為例,得分從1—10分,分數(shù)越高疲勞程度越深,樣本數(shù)為10人。該變量屬于連續(xù)型數(shù)據(jù),故需要采用ICC組內(nèi)相關系數(shù)進行檢驗。結(jié)果顯示(表3),兩次的組內(nèi)相關系數(shù)為0.855,P<0.001。
表3 組內(nèi)相關系數(shù)檢驗
相較于問卷,量表在編制與統(tǒng)計方面都較為嚴謹。由于量表的題目屬于反映型指標,表現(xiàn)為連續(xù)型數(shù)據(jù),所以可采用的統(tǒng)計分析方法也較為多元。一般在心理學、教育學、管理學等專業(yè)方面較為常見,主要用于探究各變量間的相關性研究時常見。其中在效度檢驗方面,分別需要進行驗證量表編制的結(jié)構(gòu)效度,以及各變量對各自題目的收斂效度,和了解變量與變量間的不同的區(qū)別效度等三種效度。但目前涉及量表的學位論文中,大多只進行了探索性因素分析檢驗量表的結(jié)構(gòu)效度,而對于收斂效度與區(qū)別效度并為提及,因此有必要對收斂和區(qū)別效度的檢驗方法進行介紹。
以探究體育教師的變革型領導行為與體育課滿意感及持續(xù)參與體育鍛煉意愿的關系為例。該研究的結(jié)構(gòu)效度檢驗程序(以SPSS統(tǒng)計軟件為例):首先進行因素分析,(1)將數(shù)據(jù)分別錄入SPSS軟件,并進行數(shù)據(jù)處理(2)點擊“分析”,選擇“降維”并確認“因子”(3)將各變量下的題目選入右側(cè)“變量”欄內(nèi)(4)點擊“描述”勾選“KMO和巴特利球形檢驗”(5)點擊“提取”在因子的固定數(shù)目內(nèi)輸入3,由于本研究涉及3個變量(6)點擊“旋轉(zhuǎn)”選擇“最大方差法”(7)點擊“選項”勾選“禁止顯示小系數(shù)”,并在絕對值內(nèi)輸入0.4,最后點擊“確認”(8)統(tǒng)計結(jié)果方面(表4),KMO值越大表示越適合進行因素分析,至少為0.7,0.8-0.9適合,0.9以上表示非常適合,同時Bartlett球形檢驗值應顯著且小于0.05(9)各題目因素負荷量均應超過0.6,且均在各自的維度下,結(jié)構(gòu)效度良好。其次,通過因素分析的因子載荷值計算收斂效度AVE值,用各變量題目的因子載荷值相加,然后求平均數(shù),最后將平均數(shù)進行平方,便可得出AVE值。[9]如>0.36表明具有收斂效度,也表明各變量內(nèi)題目的相關較高。最后,通過將收斂效度AVE開根號后得出區(qū)別效度值,同時與各變量間的皮爾森相關值進行比較,大于相關值表明具有區(qū)別效度(表5)。
表4 變革型領導行為、體育課滿意感、持續(xù)參與體育鍛煉意愿驗證式因素分析
表5 收斂效度、區(qū)別效度檢驗及相關性檢驗
論文中呈現(xiàn)形式如下:
問卷的信度檢驗主要采用重測信度,比較關注問卷的可靠性。而量表則比較注重各維度下題目間的一致性,是否能夠很好地反映或者間接測量出該維度的具體狀態(tài),所以量表則主要采用克隆巴赫檢驗。目前在此方面大多論文都能夠準確的實施克隆巴赫內(nèi)部一致性檢驗,但多數(shù)論文在統(tǒng)計結(jié)果的展示中,忽略了對校正后的項總計相關性和各題項間的相關性的呈現(xiàn),只是簡單地介紹了克隆巴赫值,由于克隆巴赫檢驗受題項數(shù)的影響較大,即使完全不相關的題項放在一起,該值也會隨著題項增加而增加,所以如不結(jié)合校正后的項總計相關性和各題項間的相關性兩項參考指標,很難進行判斷該量表信度的高低。
以變革型領導行為維度為例,具體程序如下(以SPSS統(tǒng)計軟件為例):(1)進入“分析”,選擇“刻度”,點擊“可靠性分析”(2)將體育課滿意感的題目全部選入右側(cè)“項”欄內(nèi);(3)點擊“統(tǒng)計”,分別勾選“相關性”、“刪除項后的標度”,點擊確認;(4)統(tǒng)計結(jié)果中(表6),首先關注題目間相關系數(shù)值,如超過0.85表明應刪除其中1題。其次,看修正后的項與總計相關值不能低于0.5。如通過以上兩個評價,且克隆巴赫值在0.7以上,則表明該量表信度良好。
表6 變革型領導行為的信度檢驗
論文中呈現(xiàn)形式如下:
問卷調(diào)查法目前是體育專業(yè)研究生廣泛使用的研究方法之一,但普遍對于問卷與量表的信效度的檢驗程序卻重視不足,導致學位論文中信效度檢驗方法錯誤百出,甚至呈現(xiàn)相互效仿的不良態(tài)勢。究其根本,體育專業(yè)學生的數(shù)理統(tǒng)計基礎較弱,且缺乏對學術(shù)研究的敬畏心,所以建議導師應結(jié)合體育專業(yè)學生特點,不斷探索指導形式,逐步提升其在統(tǒng)計方面的學習能力,同時強化學生對待科學研究的謹慎心理,從而保證學術(shù)研究的科學性。