李曼
(溫州職業(yè)技術學院 公共教學部,浙江 溫州 325035)
20世紀80年代出版的美國布萊洛克[1]的《社會統(tǒng)計學》和北京大學盧淑華[2]的《社會統(tǒng)計學》,及之后出版的袁方[3]《社會研究方法教程》和范偉達[4]《現(xiàn)代社會研究方法》,作為前置限制詞的核心概念都是“社會”,前者對資料收集技術和統(tǒng)計分析技術有所側重,兼顧了研究設計和研究方法等;而后者則對研究原理、研究程序、研究設計和研究方法有所側重,兼顧了資料收集技術和統(tǒng)計分析技術??梢哉f,這兩類著作都是針對社會研究而言的指導性工具書。社會研究(Social research)是個比較寬泛的概念。它既包括社會科學各學科的研究,也包括各個社會工作部門的研究。在一般情況下,對這一概念并不作嚴格的定義[3]20。國內出版的《中國大百科全書·社會學卷》對社會研究做了如下釋義:“社會研究(Social Research)是運用科學方法對社會生活現(xiàn)象加以了解、說明和解釋的一切活動。它是以人類社會為對象,以科學方法為手段,以解釋和預測為目的,以科學理論和方法論為指導的一個完整的過程。”[5]347社會研究有很多方法,但問卷調查法是最常用的一種收集資料的方法,特別是在社會調查中,它的使用更為普遍。因此,美國社會學家艾爾·巴比稱“問卷是社會調查的支柱”,英國社會學家莫澤說“十項社會調查中就有九項是采用問卷進行的”??梢娚鐣芯空邔柧矸ǖ脑u價之高[3]231。改革開放以來,隨著體育事業(yè)的迅速發(fā)展,問卷調查法作為收集資料的一種重要方法在體育社會科學研究中得到了廣泛的應用,為描述、說明和解釋體育這一社會現(xiàn)象做出了重要貢獻。但在問卷調查法使用的過程中也出現(xiàn)了一些問題,直接影響到研究結果的可信度。本研究試圖通過對樣本容量、效度和信度檢驗、問卷有效回收率統(tǒng)計等問題的討論,為規(guī)范問卷調查法的使用,促進研究結果可信度和體育社會科學研究質量的提高提供參考。
問卷是要發(fā)放給被調查者的,發(fā)放給哪些被調查者,發(fā)放多少,這就涉及到抽樣和樣本容量的問題。為此,“抽樣—問卷—定量分析三者的結合體,是現(xiàn)代社會學定量研究中最常見,也是最重要的一種方式”[3]266。也就是說,問卷調查必須與科學的抽樣技術相結合才能得到可靠的研究結果。體育社會科學的研究亦不例外。但是,這一點并沒有引起研究者的足夠重視,特別是對樣本容量的確定隨意性很大,許多研究都沒有按照社會統(tǒng)計學的要求去確定樣本容量,甚至120人或180人也要去代表具有相當規(guī)模的研究總體,例如某項關于廣州市居民亞運會影響感知的研究中,以天河、越秀、海珠、番禺等4個區(qū)隨機發(fā)放問卷180份(回收有效問卷 151份)作為調查樣本。實際上,廣州市2010年第六次全國人口普查主要數(shù)據(jù)公報披露的天河區(qū)常住人口為1 432 431人、海珠區(qū)為1 558 663人、越秀區(qū)為1 157 277人、番禺區(qū)為1 764 869人,合計為5 913 240人。相對于590多萬人,180個樣本有代表性嗎?例如某項關于某省成年女性身體素質現(xiàn)狀及體育行為特征的研究,從24個地市(縣)中抽取23 088人作為調查對象。那么是不是樣本越多,其代表性就好呢?
樣本容量又稱樣本大小、樣本規(guī)模,指的是樣本內所含個體數(shù)量的多少。樣本容量的確定是抽樣設計的最重要的內容之一[3]224。確定樣本容量,首先,要確定樣本的精確度(置信區(qū)間)和置信水平(置信度)。樣本精確度(置信區(qū)間)表示允許誤差的范圍,社會學研究允許誤差的范圍為1%~7%;置信水平(置信度)則表示對研究結論正確性的把握程度,社會學研究設置了兩個置信水平,即95%和99%。其次,要清楚樣本容量和總體的關系。樣本容量和總體二者不是直接關系,而是緩慢的曲線關系。范偉達[4]210給出了不同總體規(guī)模所需的樣本數(shù)量,可供確定樣本容量時參考。
根據(jù)范偉達確定樣本量的方法,在置信水平(置信度)為95%,置信區(qū)間(精確度)為±3%,總體異質性較大的條件下,1 000人的總體需要350人的樣本,10 000人的總體需要600人的樣本,而100 000人的總體只需要680人的樣本,當總體為500 000人的時候,樣本量只增至700人。可見,樣本量并非隨著總體的增加而相應增加,也不是樣本越大越能代表總體,如美國民意測驗的樣本數(shù)一般在1 600~2 000人,最多不超過3 000人[3]225-228,中國十大社會階層調查樣本為6 240人[6]363。社會學家風笑天[7]指出,在 95%的置信度下按抽樣絕對誤差不超過 3%的要求進行計算,需要抽取樣本量:n=ua2p(1-p)/d2=1.962×0.25÷0.032=1 067(d 為抽樣絕對誤差取0.03,ua在置信度為0.95時為1.96,p(1-p)最大取 0.25)。在采用多階段的復雜抽樣時,設計效應(deff)一般會在2和2.5之間。假如我們要將某一大城市接近1 000萬人的戶籍人口作為研究總體,而且需要采用多階段的復雜抽樣,則可將設計效應(deff)確定為 2,設計效應和按公式計算出的樣本量是倍數(shù)關系,即1 067×2=2 134。這樣,即可初步確定對該大城市市民調查的樣本容量是2 134人??紤]到可能會有20%的被調查者或拒訪、或無回答等的情況,故實際調查所用的樣本量應為2 134÷80%=2 668人。唐盛明[8]154-155指出:當總體為1 000萬或1 000萬以上的時候,樣本比例的增加實際上不產生作用。除非有特殊的要求,樣本的數(shù)目一般無需超過2 500人。
問卷是由圍繞某一主題的相互關聯(lián)的測量指標組成的測量社會現(xiàn)象的測量工具。任何一項將要使用問卷調查法的社會研究,在遵循社會研究的規(guī)范(原則)完成問卷設計之后,都面臨著該問卷的效度和信度問題,即有效性和可靠性的問題。使用未經(jīng)效度和信度檢驗或未能正確進行效度和信度檢驗的問卷,將會使研究結果的有效性和可靠性大打折扣。范偉達[4]130指出:“效度是指用測量工具測出變量的準確程度,即準確性?!币簿褪钦f:“在用指標去量度體育這一社會現(xiàn)象時,有一個該指標能否反映測量目標與測量結果的一致性問題?!盵9]36一般效度檢驗的方法有內容效度、準則效度(亦稱效標效度與統(tǒng)計效度)、建構效度(亦稱理論效度)和因素分析效度等,最常用的是內容效度。信度是指作為測量工具的問卷的穩(wěn)定性與可靠性問題。“所謂信度是指測量數(shù)據(jù)(資料)與結論的可靠性程度,即測量工具能否穩(wěn)定地測量到它要測量的事項的程度”[3]187?!皽y量的信度通常以相關系數(shù)來表示。由于測量分數(shù)的誤差變異之來源有所不同,各種信度系數(shù)分別說明信度的不同層面而具有不同的意義”[4]134。
在體育社會科學研究中,只要使用了問卷調查法,都應該對其效度和信度檢驗做出必要的說明。然而,也不乏有被研究者忽略的。例一:某作者關于潛優(yōu)勢射箭項目青少年訓練問題的研究,使用了問卷調查法,并將回收的問卷數(shù)據(jù)利用SPSS軟件進行了統(tǒng)計處理,但卻沒有交代問卷的效度與信度檢驗。為此,其數(shù)據(jù)結果的有效性和可靠性令人生疑。例二:某作者關于體育教師績效考核指標體系的研究,使用了問卷調查法,說明了回收率和有效回收率,但無問卷效度與信度檢驗的說明。例三:某作者關于高師體育教育專業(yè)某門課程學習評價方法的研究,使用了問卷調查法,也沒有說明是如何進行效度與信度檢驗的。例四,某作者關于某省鄉(xiāng)鎮(zhèn)社區(qū)體育的調查研究,在139個區(qū)、縣、市中獲得調查問卷1 594份,但也沒有說明問卷的效度與信度檢驗。
在一次旁聽某大學體育學碩士論文答辯時,有專家在答辯人(體育社會科學的論文,非心理學研究)已經(jīng)說明對問卷進行了內容效度檢驗的情況下,提出了還應該進行問卷結構效度檢驗的質疑。我當時的理解是,問卷的內容效度是指問卷的有效性,結構效度無非就是指問卷設計的結構是否合理。后來,看到多數(shù)體育社會科學(非心理學研究)的文章在運用問卷調查法時,大多使用內容效度評價,但也有采用結構效度評價的。例如,某作者關于某省學校體育現(xiàn)狀調查與發(fā)展對策的研究,沒有對問卷進行內容效度檢驗,而是請專家對問卷進行了結構效度檢驗,但文中并未說明該“結構效度”指的是什么。正是帶著這樣的問題本人開始學習了解問卷的結構效度和內容效度,并有了一個初步的認識。百度百科對結構效度的定義是:“結構效度是指一個測驗實際測到所要測量的理論結構和特質的程度,或者說它是指測驗分數(shù)能夠說明心理學理論的某種結構或特質的程度;是指實驗與理論之間的一致性,即實驗是否真正測量到假設(構造)的理論?!盵10]結構效度的概念最初是由美國心理學會(APA)、美國教育研究協(xié)會(AERA)和美國國家教育測量協(xié)會(NCME)(1954)聯(lián)合委員會提出,發(fā)表于《心理測驗和診斷技術的技術建議》。此后,在半個世紀的發(fā)展中,結構效度的定義經(jīng)歷了許多微妙的變化。結構效度(Construct Validity)亦稱(構念效度)。結構是個心理學概念(或稱構念),是對某種不能被測量而且不能直接觀察到的人類行為所做的理論定義。例如,智力、成就動機、緊張、成績、態(tài)度和閱讀理解等等。換言之,結構是一個人潛在的心理屬性,是不能直接被觀察和測量的一種或一組能力,但是能夠通過測試成績做出推斷[6]。在實踐中,結構效度多用于心理學的研究或是考試(教育測量)。傳統(tǒng)的結構效度檢驗是實驗或考試結束后的實證研究。到目前為止,盡管對試前和實驗實施階段的理論驗證已經(jīng)引起了學者們的重視,但多數(shù)的結構效度驗證仍然是在實驗或考試后的實證研究。這一點與社會研究對內容效度檢驗的要求有很大的不同,內容效度檢驗要求在前,而不是事后的測試。要檢查問卷內容是否能達到測量目的與測量結果的一致性,即是否有效,只能依靠多數(shù)專家的共同意見。因此,至少目前在體育社會科學研究的問卷調查法使用中(心理學研究除外)是可以忽略結構效度的。
社會科學研究中常用的信度檢驗方法有重測信度(亦稱再測信度)、復本信度、折半信度等。通過查閱期刊論文和博士碩士論文可知,重測信度在體育社會科學研究的問卷調查法使用中得到了最廣泛的應用。重測(再測)信度是指用同一份問卷,對同一被測群體前后調查兩次,再根據(jù)調查結果計算(第1次X和第2次Y)的相關系數(shù)。但在現(xiàn)實研究中,常常遇到的問題是,利用重測(再測)法進行信度檢驗的第 2次調查(重測)是針對全部被調查對象,還是部分被調查對象的問題。而許多研究恰恰回避了這一問題,即在使用重測(再測)法進行信度檢驗時,沒有說明進行第 2次問卷調查時,是針對全體被調查對象,還是只針對部分被調查對象。此類事例較多,這里簡舉3例:例一,某作者關于某省城市老年人體育生活方式的社會學分析一文,使用了問卷調查法,發(fā)放問卷600份,其信度檢驗用的是再測法,信度系數(shù)R=0.82(P<0.05),但沒有交代兩次調查的時間間隔以及第2次調查的發(fā)放對象是全部還是部分。例二,某作者關于從某城市體育人口的性別結構透視其婦女體育開展的研究,發(fā)放問卷3 000份,采用再測法,間隔1個月,用同樣問卷分別進行2次測試,相關系數(shù)R=0.85。但沒有具體說明第2次測試是針對3 000人,還是針對部分人。
重測(再測)信度一般要求對被測群體全體成員前后進行兩次調查。雖然《社會研究方法》或《社會統(tǒng)計學》的書中并沒有給出使用重測(再測)法進行第 2次問卷調查時可以選取部分被調查對象,但有時因為樣本量較大或很大,一些研究者在第2次調查時,只隨機抽取部分被調查對象。這種做法雖然亦可接受,但必須注意避免操作上的誤區(qū)。例如,第2次調查隨機抽取了50名被測群體成員,然后再從第1次調查被測群體全體成員中隨機抽取50名成員,根據(jù)其兩次問卷填寫的結果計算其相關系數(shù),就陷入了誤區(qū)。因為無法保證這 50名成員中的每個成員都是自己前后填寫的兩份問卷,其中有不少是“張冠李戴”的,無法測量出真實的問卷信度。正確做法的關鍵是第1次向被測群體全體成員發(fā)放的問卷一定要編號。第2次隨機抽取的50名被測群體成員的問卷也要編號,假如第2次隨機抽取的50名成員為51~100號,則應是51Y、52Y、53Y、54Y……100Y。問卷回收以后,將第1次回收的問卷為X,第2次回收的問卷為Y,從而形成51X-51Y、52X-52Y、53X-53Y……100X-100Y兩組相對應的問卷。由于多數(shù)問卷都是由圍繞主題的相互關聯(lián)的問題組成的,還必須將其轉換成數(shù)量關系方能計算其相關系數(shù)。一般可采用對封閉式答案賦值的辦法,以被測成員51號為例,在其第1份問卷中可以得到若干X的分值,在其第2份問卷中可以得到若干Y的分值,總加之后則得到∑X與∑Y兩個分值。
問卷的有效回收率統(tǒng)計是使用問卷調查法的重要一環(huán)。但有的文章在統(tǒng)計問卷的有效回收率時存在錯誤。例如,某作者關于優(yōu)秀運動員退役原因的研究,該文在其調查過程中寫到:“問卷共發(fā)放560份,回收541份,回收率 96.6%,有效回收率 100%”。這里必須強調的是,有效率可以和回收率相等,但有效率高于回收率則有悖常識。盧淑華[2]562強調指出:“發(fā)放的問卷數(shù)應不少于樣本的容量,但在任何情況下都應該以發(fā)放的問卷份數(shù)作為分母,而不是樣本容量?;厥章?筆者代注:指有效回收率)不得少于 70%,否則將嚴重破壞隨機抽樣的原則。”據(jù)此,“在任何情況下都應該以發(fā)放的問卷份數(shù)作為分母”的情況下,該問卷的有效回收率也應該是96.6%,而不是100%。也就是說,100%有效只是相對回收的541份問卷全部有效而言,但整個問卷的有效回收率是以發(fā)放的問卷份數(shù)作為分母,以回收的有效問卷數(shù)作為分子來計算的(541/560),因此該問卷的有效回收率也應該是96.6%。
再如,某作者關于體育賽事影響的論文在問卷發(fā)放與回收中寫到:“共計發(fā)放問卷1 084份,回收問卷921份,回收率為84.96%,其中有效問卷784份,有效回收率為 85.12%”。有效回收率高于回收率。此例中統(tǒng)計的錯誤在于,統(tǒng)計有效回收率時沒有將發(fā)放問卷數(shù)作為分母,而是將回收問卷數(shù)作為分母,從而導致有效回收率(85.12%)比回收率(84.96%)還高。此例中統(tǒng)計的正確結果應該是有效回收率72.32%。
[1] 布萊洛克. 社會統(tǒng)計學[M]. 傅正元等,譯. 北京:中國社會科學出版社,1988.
[2] 盧淑華. 社會統(tǒng)計學[M]. 北京:北京大學出版社,1989.
[3] 袁方,王漢生. 社會研究方法教程[M]. 北京:北京大學出版社,1997.
[4] 范偉達. 現(xiàn)代社會研究方法[M]. 上海:復旦大學出版社,2001.
[5] 中國大百科全書總編輯委員會. 中國大百科全書·社會學卷[M]. 北京:中國大百科全書出版社,1991.
[6] 陸學藝. 當代中國社會流動[M]. 北京:社會科學文獻出版社,2004.
[7] 風笑天. 再談樣本規(guī)模和調查回收率[J]. 社會學研究,2007(6):195-212.
[8] 唐盛明. 社會科學研究方法新解[M]. 上海:上海社會科學院出版社,2003.
[9] 呂樹庭,楊霆,車建平. 體育社會測量方法[M]. 廣州:廣東高等教育出版社,1998.
[10] 百度百科 結構效度. [EB/OL]. http://baike. baidu.com/view/1350460.htm.