周學(xué)路 任 杰
信度指某一測驗(yàn)測量結(jié)果的可靠度,是衡量該測驗(yàn)質(zhì)量的最重要的指標(biāo)之一?;谡娣?jǐn)?shù)理論和方差分析思想,信度在經(jīng)典測量理論中表示為真分?jǐn)?shù)方差與觀察分?jǐn)?shù)方差之比,即rxx=S2T/S2X?;谶@一定義產(chǎn)生了許多信度估計(jì)方法,其中,α 系數(shù)、β 系數(shù)和γ 系數(shù)是三種常見的、具有代表性的信度估計(jì)指標(biāo)。一直以來,經(jīng)過Cronbach 公式化后的α 系數(shù)[1]幾乎成了測驗(yàn)信度的代名詞,但它很明顯地受到一些與信度定義無關(guān)的因素的影響,尤其是測驗(yàn)同質(zhì)性和被試同質(zhì)性,在這種情況下,陳希鎮(zhèn)和謝小慶先后分別提出了β 系數(shù)[2]與γ 系數(shù)[3]對其進(jìn)行優(yōu)化。從理論與計(jì)算公式上來說,β 系數(shù)降低了信度估計(jì)對題目高同質(zhì)性的依賴,γ系數(shù)又在此基礎(chǔ)上降低了被試同質(zhì)性程度對信度估計(jì)的影響,二者均在不同程度上優(yōu)化了α 系數(shù)。那么,在實(shí)際應(yīng)用中,三者在信度估計(jì)方面的效果究竟如何?以下基于某考試實(shí)測數(shù)據(jù)對此進(jìn)行研究。
經(jīng)過Cronbach 公式化后的α 系數(shù)的計(jì)算公式如下:
其中,k為測驗(yàn)包含的題目數(shù)量,S2x為測驗(yàn)總分方差,S2i為第i題的題目方差。
該公式的另外兩種表達(dá)方式為:
其中,δ2p為真分?jǐn)?shù)方差分量的估計(jì)值,δ2pi為相對決策誤差方差分量,k為項(xiàng)目的個(gè)數(shù)。
其中,MSp為真分?jǐn)?shù)均方,MSpi為誤差均方。
α 系數(shù)憑借其計(jì)算簡單易行和穩(wěn)定性、優(yōu)于分半信度估計(jì)等優(yōu)點(diǎn),逐漸成為應(yīng)用最廣泛的信度系數(shù)。但是α 系數(shù)受到諸多方面因素的影響,如題目數(shù)量多少、題目同質(zhì)性高低、被試同質(zhì)性高低等,這在某種程度上與信度的定義相左[4-6]。
由于α 系數(shù)受題目同質(zhì)性程度影響較大,當(dāng)題目同質(zhì)性程度較高時(shí),即題目得分具有較高的相關(guān)、測驗(yàn)測量的能力維度較為集中時(shí),α 系數(shù)可以作為信度和同質(zhì)性的測量指標(biāo),如果測驗(yàn)的同質(zhì)性程度不高或者測驗(yàn)異質(zhì),α 系數(shù)就會(huì)低估測驗(yàn)信度。為了降低測驗(yàn)同質(zhì)性高低對信度估計(jì)的影響,陳希鎮(zhèn)提出了β系數(shù)。β系數(shù)的計(jì)算公式如下:
其中,k為測驗(yàn)包含的題目數(shù)量,ρ為各題兩兩相關(guān)系數(shù)的最大值,S2x為測驗(yàn)總分方差,S2i為第i題的題目方差。
β 系數(shù)出于對題目間相關(guān)程度的考慮,實(shí)際是在題目同質(zhì)性不高或異質(zhì)時(shí),對在題目同質(zhì)性較高時(shí)的α系數(shù)進(jìn)行了“放大”。
β 系數(shù)降低了信度估計(jì)對題目高同質(zhì)性的依賴,為了降低被試同質(zhì)性程度對信度估計(jì)的影響,得到對信度這一測驗(yàn)本身性質(zhì)的更加精確的估計(jì),謝小慶提出了γ系數(shù)。γ系數(shù)的計(jì)算公式如下:
其中,k 為測驗(yàn)中包含的題目數(shù)量,S2x為測驗(yàn)總分方差,S2i為第i題的題目方差,Xmax為測驗(yàn)得分中的最高分,Xmin為測驗(yàn)得分中的最低分。
由此可導(dǎo)出以下兩個(gè)公式:
其中,SE為標(biāo)準(zhǔn)誤。
其中,σ為測驗(yàn)標(biāo)準(zhǔn)差,α為α系數(shù)。
由公式(6)和公式(7)可知γ 與標(biāo)準(zhǔn)誤和α 系數(shù)的關(guān)系。而與α 系數(shù)相比,標(biāo)準(zhǔn)誤具有更高的穩(wěn)定性,并不因被試同質(zhì)性程度的變化而出現(xiàn)太大的變化。因此,利用標(biāo)準(zhǔn)誤進(jìn)行信度估計(jì)更加可靠。
基于某次考試的實(shí)測數(shù)據(jù)執(zhí)行多種抽樣方案,對各個(gè)樣本進(jìn)行描述性統(tǒng)計(jì)并利用α系數(shù)、β系數(shù)和γ系數(shù)對不同樣本進(jìn)行信度估計(jì),比較不同的分?jǐn)?shù)分布形態(tài)和不同的分?jǐn)?shù)變異對三種信度系數(shù)的影響。
1. 研究對象
研究使用某考試的實(shí)測數(shù)據(jù),該考試試卷結(jié)構(gòu)如表1所示:
表1 某考試試卷結(jié)構(gòu)
采用因素分析的主成分分析方法對該考試作答 數(shù)據(jù)進(jìn)行分析,結(jié)果如表2所示:
表2 某考試試卷因素分析之總方差解釋
該考試三個(gè)分測驗(yàn)作答數(shù)據(jù)的相關(guān)性如表3所示:
表3 某考試分測驗(yàn)相關(guān)性
如表2 和表3 所示,抽取的特征值大于1 的因素只有一個(gè),能夠解釋總方差的74.004%,其方差占比為第二位因素的4 倍以上(一般認(rèn)為第一個(gè)因素方差所占百分比是第二個(gè)因素方差所占百分比的3 倍或5 倍以上,測驗(yàn)基本滿足/滿足單維性假設(shè)),三個(gè)分測驗(yàn)的相關(guān)性為中強(qiáng)度相關(guān),故該測驗(yàn)所測能力維度較為單一,題目同質(zhì)性較高。
該考試描述性統(tǒng)計(jì)和分?jǐn)?shù)分布直方圖如表4 和圖1所示:
圖1 某考試分?jǐn)?shù)分布直方圖
表4 某考試原始樣本描述性統(tǒng)計(jì)
該考試的原始樣本的樣本量為1901,最高分為93.5,最低分為11.5,全距為82,均值為52.96,標(biāo)準(zhǔn)差為15.816,偏度為-0.211,峰度為-0.683,分?jǐn)?shù)分布形狀可視為稍平緩的近似正態(tài)分布。
2. 抽樣方案
原始樣本的分組情況如表5所示:
表5 某考試原始樣本分組情況
將原始樣本1901 人按分?jǐn)?shù)高低分為高、中、低三組,其中,高、低兩組的被試比例和被試數(shù)量均為27%和513人,中等分組的被試比例和被試數(shù)量分別為46%和875人。
為了驗(yàn)證 α 系數(shù)、β 系數(shù)和 γ 系數(shù)估計(jì)信度時(shí)受被試同質(zhì)性和分?jǐn)?shù)分布形狀影響程度的大小,按照不同的被試比例和分布形態(tài)執(zhí)行了八次簡單隨機(jī)不重復(fù)抽樣。抽樣方案如表6所示:
表6 抽樣方案
為盡可能控制無關(guān)變量,抽取的各個(gè)樣本的樣本量均為700。其中,方案一是從原始樣本中進(jìn)行不分層簡單隨機(jī)抽樣所抽取的正態(tài)分布的樣本,用來作為樣本間比較的“原始樣本”,方案二到方案八是從原始樣本中進(jìn)行分層簡單隨機(jī)抽樣所抽取的不同分布形態(tài)的樣本。
使用 SPSS、Visual Fox Pro 和 Excel 對各樣本數(shù)據(jù)進(jìn)行分析,結(jié)果如下:
表7 各樣本描述性統(tǒng)計(jì)與題目間的最大相關(guān)系數(shù)
表8 各樣本信度估計(jì)結(jié)果
圖2 橫坐標(biāo)中的漢字為樣本編號(hào),字母為分布形態(tài)縮寫(N、PS、NS、B 分別對應(yīng)正態(tài)、正偏態(tài)、負(fù)偏態(tài)、雙峰),數(shù)字為該樣本對應(yīng)的標(biāo)準(zhǔn)差。
圖2 三種信度系數(shù)與標(biāo)準(zhǔn)差的關(guān)系
表9 基于抽樣對三種信度系數(shù)標(biāo)準(zhǔn)差的估計(jì)
結(jié)合上述圖表可知,從總體上看,在對某一樣本進(jìn)行信度估計(jì)時(shí),三種信度系數(shù)的大小關(guān)系為β 系數(shù)>α 系數(shù)>γ 系數(shù)。當(dāng)被試分?jǐn)?shù)標(biāo)準(zhǔn)差和變異系數(shù)相近,即被試同質(zhì)性程度相近,且分?jǐn)?shù)分布形態(tài)相同時(shí),如樣本三和樣本六、樣本四和樣本七,三種信度系數(shù)均具有較好的穩(wěn)定性;當(dāng)被試分?jǐn)?shù)標(biāo)準(zhǔn)差和變異系數(shù)相近,即同質(zhì)性程度相近,而分?jǐn)?shù)分布形態(tài)不同時(shí),如樣本一和樣本四、樣本二和樣本三,三種信度系數(shù)亦均具有較好的穩(wěn)定性;當(dāng)分?jǐn)?shù)分布形態(tài)相同,而被試分?jǐn)?shù)標(biāo)準(zhǔn)差和變異系數(shù)差異較大,即被試同質(zhì)性程度不同時(shí),如樣本一和樣本五、樣本二和樣本五,γ 系數(shù)表現(xiàn)出比α 系數(shù)和β 系數(shù)更強(qiáng)的穩(wěn)定性;當(dāng)分?jǐn)?shù)分布形態(tài)不同,且被試分?jǐn)?shù)標(biāo)準(zhǔn)差和變異系數(shù)差異較大,即被試同質(zhì)性程度不同時(shí),如樣本五和樣本八,γ系數(shù)表現(xiàn)出的穩(wěn)定性更加明顯。
基于抽樣對三種信度系數(shù)標(biāo)準(zhǔn)差的估計(jì)結(jié)果顯示,α 系數(shù)和 β 系數(shù)的標(biāo)準(zhǔn)差均在 0.04 左右,γ 系數(shù)的標(biāo)準(zhǔn)差僅為不到0.02。由此可知,特別是當(dāng)原始數(shù)據(jù)樣本量較大,而基于抽樣進(jìn)行信度估計(jì)時(shí),γ 系數(shù)的穩(wěn)定性將得到凸顯。即便是基于原始數(shù)據(jù)進(jìn)行信度估計(jì),γ 系數(shù)的穩(wěn)定性優(yōu)勢也不可忽視,因?yàn)樗^的原始數(shù)據(jù)實(shí)際上也只是從總體中抽出的一個(gè)樣本而已。
從標(biāo)準(zhǔn)差來看γ 系數(shù)是一種比α 系數(shù)和β 系數(shù)更加穩(wěn)定的信度系數(shù)。當(dāng)被試同質(zhì)性程度相近時(shí),無論分?jǐn)?shù)分布形態(tài)是否相同,三種信度系數(shù)均具有較好的穩(wěn)定性;當(dāng)被試同質(zhì)性程度不同時(shí),無論分?jǐn)?shù)分布形態(tài)是否相同,γ 系均數(shù)表現(xiàn)出比α 系數(shù)和β 系數(shù)更強(qiáng)的穩(wěn)定性,尤其是當(dāng)分?jǐn)?shù)分布形狀不同時(shí),γ系數(shù)表現(xiàn)出的穩(wěn)定性更加明顯。
就信度估計(jì)結(jié)果而言,γ 系數(shù)比 α 系數(shù)和 β 系數(shù)低,存在低估信度的可能。一般情況下,在對某一樣本進(jìn)行信度估計(jì)時(shí),三種信度系數(shù)的大小關(guān)系為β系數(shù)>α 系數(shù)>γ 系數(shù)。β 系數(shù)未得到廣泛應(yīng)用,可能與其信度估計(jì)結(jié)果和穩(wěn)定性同α 系數(shù)的信度估計(jì)結(jié)果和穩(wěn)定性差距微小有關(guān);γ 系數(shù)未得到廣泛使用,可能與其信度估計(jì)結(jié)果與α 系數(shù)和β 系數(shù)的估計(jì)結(jié)果相比偏低有關(guān),既然β 系數(shù)可以出于對題目間相關(guān)程度的考慮,相當(dāng)于在題目同質(zhì)性不高或異質(zhì)時(shí)對在題目同質(zhì)性較高時(shí)的α 系數(shù)進(jìn)行“放大”,γ系數(shù)或也可參考此法進(jìn)行適當(dāng)修正。