[摘 要] 構(gòu)想效度是效度論證的核心問(wèn)題,也是檢驗(yàn)測(cè)試質(zhì)量的關(guān)鍵指標(biāo)。以普通話水平測(cè)試實(shí)測(cè)數(shù)據(jù)為研究材料,考察普通話水平測(cè)試的構(gòu)想效度。使用結(jié)構(gòu)方程驗(yàn)證性因子分析檢驗(yàn)測(cè)試的構(gòu)想效度,使用跨組別驗(yàn)證性因子分析測(cè)試構(gòu)想在男女考生組別的跨組別一致性。驗(yàn)證性因子分析結(jié)果顯示:“有文字憑借模式下的普通話表達(dá)+無(wú)文字憑借模式下的普通話表達(dá)”兩因子模型與實(shí)測(cè)數(shù)據(jù)擬合最佳;參數(shù)估計(jì)結(jié)果顯示測(cè)試聚斂效度良好,判別效度較低??缃M別分析結(jié)果顯示:兩因子模型各項(xiàng)參數(shù)在男女考生群體中表現(xiàn)一致,測(cè)試結(jié)構(gòu)表現(xiàn)出較好的穩(wěn)定性。從實(shí)證角度論證了普通話水平測(cè)試的構(gòu)想效度,并對(duì)命題說(shuō)話題目提出設(shè)置情境、更新題庫(kù)、提高被試表達(dá)真實(shí)性等改進(jìn)建議。
[關(guān)鍵詞] 普通話水平測(cè)試;構(gòu)想效度;結(jié)構(gòu)方程模型;因子結(jié)構(gòu)
[中圖分類號(hào)] G424.74 [文獻(xiàn)標(biāo)識(shí)碼] A
[文章編號(hào)] 1673—1654(2024)06—031—011
普通話水平測(cè)試(Putonghua Shuiping Ceshi,PSC)是專門測(cè)試漢語(yǔ)母語(yǔ)者標(biāo)準(zhǔn)語(yǔ)水平的大規(guī)??谠?,是促進(jìn)國(guó)家通用語(yǔ)言高質(zhì)量推廣普及的重要舉措。該測(cè)試對(duì)象范圍廣、測(cè)試數(shù)量龐大,是相關(guān)職業(yè)及專業(yè)資格認(rèn)證、學(xué)生學(xué)業(yè)成就認(rèn)證的重要依據(jù)。效度是衡量測(cè)試質(zhì)量的核心標(biāo)準(zhǔn),“任何嚴(yán)肅的測(cè)試都必須提供令人滿意的效度證據(jù)”[1],測(cè)試最重要的效度證據(jù)就是測(cè)試的構(gòu)想效度,即被試的考試成績(jī)與考試開(kāi)發(fā)者所設(shè)想的語(yǔ)言能力理論相符的程度[2]。PSC測(cè)評(píng)質(zhì)量的研究一直受到學(xué)界重視,相關(guān)研究也從不同角度論證了測(cè)試的質(zhì)量,但幾乎沒(méi)有觸及構(gòu)想效度這一測(cè)試質(zhì)量的核心問(wèn)題。關(guān)于PSC的構(gòu)想及效度等諸多關(guān)鍵問(wèn)題,需要深入研究和探索。
一、研究背景和提出問(wèn)題
(一)口語(yǔ)測(cè)試的構(gòu)想效度研究
測(cè)試的構(gòu)想效度研究一直是語(yǔ)言測(cè)驗(yàn)領(lǐng)域的一個(gè)核心課題。構(gòu)想是一種語(yǔ)言能力理論在測(cè)驗(yàn)中的體現(xiàn)。語(yǔ)言測(cè)驗(yàn)涉及的一個(gè)重要假設(shè)就是測(cè)驗(yàn)的構(gòu)想與所測(cè)內(nèi)容有著同樣的結(jié)構(gòu)關(guān)系。研究構(gòu)想效度是為了檢驗(yàn)試卷結(jié)構(gòu)與所測(cè)語(yǔ)言能力之間的相符程度,以回答“測(cè)試到底在多大程度上測(cè)到了其想測(cè)的能力”這一反映測(cè)試質(zhì)量的關(guān)鍵問(wèn)題。盡管研究者們對(duì)效度的分類法存在差異,但構(gòu)想效度一直居于效度研究的中心地位,Cronbach將效度研究比作對(duì)以構(gòu)想效度為特征的科學(xué)理論的評(píng)估,指出大多數(shù)教育測(cè)量都需要構(gòu)想效度[2]。Messick認(rèn)為構(gòu)想效度也許不能代表效度的全部,但它是效度的核心[3]。Bachman引用Messick的論述[4-5],指出盡管研究者們將效度證據(jù)分為內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度、結(jié)構(gòu)效度等不同種類,但效度具有一元性,內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度都是支持構(gòu)想效度的輔助性證據(jù)[6]??梢?jiàn),構(gòu)想效度的論證是語(yǔ)言測(cè)驗(yàn)的開(kāi)發(fā)與使用無(wú)法回避的問(wèn)題。
Messick的一元化效度觀認(rèn)為,效度是一個(gè)綜合性的評(píng)價(jià),效度證據(jù)來(lái)自多個(gè)方面[7]。效度是一種程度,有高低之分,不是非有即無(wú)。效度驗(yàn)證是動(dòng)態(tài)的、持續(xù)的過(guò)程,研究者可以通過(guò)多種渠道、從多個(gè)方面收集構(gòu)想效度證據(jù),以說(shuō)明測(cè)試分?jǐn)?shù)解釋和使用的合理性。
目前國(guó)內(nèi)外直接研究PSC構(gòu)想效度的文章相對(duì)較少。張國(guó)華通過(guò)面向應(yīng)試人員的問(wèn)卷調(diào)查和面向測(cè)試員的座談收集對(duì)PSC各類效度的評(píng)價(jià)數(shù)據(jù),包括PSC的構(gòu)念效度、內(nèi)容效度、表面效度等;調(diào)查結(jié)果顯示應(yīng)試人和測(cè)試員普遍認(rèn)為PSC構(gòu)念效度較高,但多數(shù)被試認(rèn)為第一項(xiàng)“讀單音節(jié)字詞”內(nèi)容效度較低;同時(shí)相當(dāng)比重的應(yīng)試人認(rèn)為試卷表面效度較好,但仍需做很多改進(jìn)[8]。常曉宇對(duì)PSC“朗讀短文”測(cè)試項(xiàng)進(jìn)行效度研究,使用層次分析法確定了PSC朗讀短文測(cè)試項(xiàng)各評(píng)分要素的比重,使用多重線性回歸的方法構(gòu)建了普通話朗讀能力要素的回歸方程[9]。張寵以華裔學(xué)生PSC實(shí)測(cè)數(shù)據(jù)為研究材料,從內(nèi)容效度、校標(biāo)關(guān)聯(lián)效度、構(gòu)想效度、測(cè)試后效等效度的不同方面探討PSC對(duì)華裔學(xué)生的適用性[10]??傮w上看,PSC的構(gòu)想效度研究領(lǐng)域?qū)y(cè)試效度的研究經(jīng)驗(yàn)探討多,實(shí)證研究少。
(二)口語(yǔ)測(cè)試因子結(jié)構(gòu)的跨組別一致性研究
測(cè)試的公平性是影響測(cè)試效度的一個(gè)重要方面,只有公平的測(cè)試才可能是有效的測(cè)試,任何削弱公平性的行為都會(huì)損害測(cè)試分?jǐn)?shù)解釋和使用的有效性[11]。進(jìn)行因子結(jié)構(gòu)跨組別的比較研究是為了檢驗(yàn)測(cè)試構(gòu)想在不同應(yīng)試群體中是否存在偏差,即測(cè)試構(gòu)想對(duì)不同群體是否公平。如果測(cè)試因子結(jié)構(gòu)與不同考生群體測(cè)試數(shù)據(jù)的擬合具有跨組別不變性,那么可以認(rèn)為測(cè)試構(gòu)想對(duì)不同考生群體是一致且有效的。否則,測(cè)試可能會(huì)顯示出對(duì)特定考生群體的偏見(jiàn)?!督逃c心理測(cè)量標(biāo)準(zhǔn)》(Standards for Educational and Psychological Testing)一書(shū)認(rèn)為,當(dāng)測(cè)試涉及不同的亞群體受試時(shí),應(yīng)該實(shí)施效度的跨群體一致性驗(yàn)證[12]。已有研究涉及的亞群體類別包括社會(huì)地位、性別、語(yǔ)言和文化背景、專業(yè)背景等[13-16]。但已有研究多是針對(duì)紙筆考試的試卷結(jié)構(gòu),對(duì)口語(yǔ)能力結(jié)構(gòu)模型的公平性研究較少。
在語(yǔ)言測(cè)試領(lǐng)域,性別對(duì)口語(yǔ)能力的影響是比較受關(guān)注的話題。有研究認(rèn)為,男女在會(huì)話風(fēng)格、語(yǔ)言互動(dòng)方面存在較大差異,口語(yǔ)交際能力的構(gòu)想在男女性別上并沒(méi)有做到公平一致[17];也有研究發(fā)現(xiàn)性別對(duì)口語(yǔ)水平并無(wú)明顯的影響[18]。可見(jiàn),對(duì)于口語(yǔ)能力與性別的關(guān)系,研究者們觀點(diǎn)并不一致。PSC作為一項(xiàng)大規(guī)模的母語(yǔ)口語(yǔ)水平考試,測(cè)試構(gòu)想對(duì)男女考生群體是否存在偏差是值得研究的課題。
(三)結(jié)構(gòu)方程模型在測(cè)試效度研究中的應(yīng)用
結(jié)構(gòu)方程模型(Structure Equation Model,SEM)也稱為協(xié)方差結(jié)構(gòu)分析或結(jié)構(gòu)方程建模,是基于變量的協(xié)方差矩陣分析變量間關(guān)系的一種統(tǒng)計(jì)方法。SEM可分為測(cè)量方程(Measurement Equation)和結(jié)構(gòu)方程(Structural Equation)兩部分。測(cè)量方程描述潛變量與指標(biāo)之間的關(guān)系。結(jié)構(gòu)方程則描述潛變量之間的關(guān)系。SEM通過(guò)假設(shè)模型與實(shí)測(cè)數(shù)據(jù)的擬合,估計(jì)觀測(cè)變量、潛在變量之間的關(guān)系,確定理論構(gòu)想與實(shí)際數(shù)據(jù)表現(xiàn)的相符程度。20世紀(jì)80年代以來(lái),SEM廣泛應(yīng)用于語(yǔ)言能力結(jié)構(gòu)、測(cè)試構(gòu)想效度、測(cè)試公平性的研究[19-22]。SEM的最大優(yōu)點(diǎn)之一就是能夠評(píng)估理論模型的構(gòu)想效度[23],是一種“理論檢驗(yàn)”的活動(dòng)[24]。
PSC作為一項(xiàng)服務(wù)國(guó)家語(yǔ)言文字事業(yè),對(duì)國(guó)家通用語(yǔ)言高質(zhì)量普及提升起到重要助推作用的測(cè)試,其構(gòu)想效度研究是重要的研究課題,也是推動(dòng)國(guó)家通用語(yǔ)言高質(zhì)量發(fā)展的應(yīng)有之義。本研究將使用結(jié)構(gòu)方程模型,在論證考試因子結(jié)構(gòu)的基礎(chǔ)上,進(jìn)一步探討測(cè)試結(jié)構(gòu)在不同考生群體上的穩(wěn)定性,為PSC的效度論證提供實(shí)證依據(jù)。具體研究問(wèn)題有兩個(gè):一是PSC的構(gòu)想效度如何?二是PSC對(duì)男女性別的被試是否具有跨組別一致性?
二、研究方法與過(guò)程
(一)樣本數(shù)量的確定及樣本情況
目前學(xué)界對(duì)結(jié)構(gòu)方程模型研究的最低樣本量并沒(méi)有確定且統(tǒng)一的標(biāo)準(zhǔn),經(jīng)常被引用的一種確定樣本量的方法是考慮樣本量與觀測(cè)變量個(gè)數(shù)的關(guān)系。Bentler和Chou認(rèn)為對(duì)于呈正態(tài)分布和橢圓分布的數(shù)據(jù),樣本量應(yīng)該是觀測(cè)變量個(gè)數(shù)的5倍;而對(duì)于其他分布情況的數(shù)據(jù),樣本量應(yīng)該是觀測(cè)變量個(gè)數(shù)的10倍[25]。Muthen L和Muthen B認(rèn)為,對(duì)于一個(gè)有10個(gè)觀測(cè)變量的模型,如果數(shù)據(jù)分布接近正態(tài)且無(wú)缺失值,則最低樣本量為150[26]。一般來(lái)說(shuō),觀測(cè)變量個(gè)數(shù)越少、數(shù)據(jù)越接近正態(tài)、缺失值越少,則需要的樣本數(shù)量越少。本研究的PSC包含4個(gè)觀測(cè)變量,在數(shù)據(jù)呈正態(tài)分布、無(wú)缺失值的情況下,100至200名被試可以保證研究的信度。此外,結(jié)構(gòu)方程模型多組比較時(shí),如不同組別的樣本量差異較大,估計(jì)值會(huì)盡量遷就人數(shù)較多的組,使總χ2最小,為保證模型估計(jì)的準(zhǔn)確性,應(yīng)保證各組人數(shù)等同或接近。
從某次普通話測(cè)試中抽取180名被試的語(yǔ)音樣本,其中男性90名,女性90名。180名被試的語(yǔ)音樣本均包含讀單音節(jié)字詞、讀多音節(jié)詞語(yǔ)、朗讀短文、命題說(shuō)話4項(xiàng)。聘請(qǐng)兩名省級(jí)評(píng)分員對(duì)180名被試在4個(gè)題型上的表現(xiàn)進(jìn)行分項(xiàng)評(píng)分,取兩名評(píng)分員評(píng)分結(jié)果的平均數(shù)作為測(cè)試最終得分。被試分項(xiàng)得分情況見(jiàn)表1。
(二)競(jìng)爭(zhēng)模型的建立及指標(biāo)的設(shè)定
《普通話水平測(cè)試大綱》(以下簡(jiǎn)稱“《大綱》”)對(duì)PSC的試卷結(jié)構(gòu)進(jìn)行了描述。如表2所示,普通話水平測(cè)試包括“讀單音節(jié)字詞”“讀多音節(jié)詞語(yǔ)”“朗讀短文”和“命題說(shuō)話”?!白x單音節(jié)字詞”“讀多音節(jié)詞語(yǔ)”“朗讀短文”屬于有文字憑借測(cè)試項(xiàng),測(cè)查被試讀字詞的語(yǔ)音標(biāo)準(zhǔn)程度和朗讀書(shū)面作品的水平;命題說(shuō)話測(cè)試項(xiàng)為無(wú)文字憑借測(cè)試項(xiàng),測(cè)查被試在沒(méi)有文字憑借的情況下使用普通話所達(dá)到的規(guī)范程度[27]。
根據(jù)《大綱》對(duì)PSC試卷結(jié)構(gòu)的闡述,本研究構(gòu)擬了2個(gè)競(jìng)爭(zhēng)模型。模型A包含普通話能力1個(gè)潛變量,將其命名為PT;4個(gè)觀測(cè)變量分別為讀單音節(jié)字詞、讀多音節(jié)詞語(yǔ)、朗讀短文和命題說(shuō)話,分別命名為DZ、DC、DW和MS。模型B包含“有文字憑借模式下的普通話表達(dá)”和“無(wú)文字憑借模式下的普通話表達(dá)”兩個(gè)潛變量,分別命名為YWZ和WWZ;YWZ因子包含讀單音節(jié)字詞(DZ)、讀多音節(jié)詞語(yǔ)(DC)、朗讀短文(DW)3個(gè)觀測(cè)變量;WWZ因子的觀測(cè)變量為命題說(shuō)話(MS)。結(jié)構(gòu)方程模型進(jìn)行指標(biāo)設(shè)定時(shí),每個(gè)因子至少有2個(gè)指標(biāo)模型才可被識(shí)別。使用兩位評(píng)分員的評(píng)分結(jié)果作為WWZ因子的2個(gè)測(cè)量指標(biāo),分別命名為MS1、MS2。對(duì)于含有2個(gè)指標(biāo)的多因子模型,侯杰泰等提出兩指標(biāo)法則[28],即對(duì)于一個(gè)多因子模型,如果有因子只含兩個(gè)指標(biāo),模型可識(shí)別的充分條件如下:一是每個(gè)因子有兩個(gè)或兩個(gè)以上的指標(biāo);二是每個(gè)指標(biāo)只測(cè)量一個(gè)潛變量;三是對(duì)每個(gè)潛變量,至少有另一個(gè)潛變量與之相關(guān);四是誤差之間不相關(guān)。根據(jù)此法則對(duì)本研究各理論模型進(jìn)行檢視,結(jié)果均符合法則要求,因此本研究模型的建立是可行的。
模型A和模型B的結(jié)構(gòu)關(guān)系圖分別見(jiàn)圖1和圖2。
(三)數(shù)據(jù)分析步驟
對(duì)所有模型的擬合、參數(shù)估計(jì)均使用結(jié)構(gòu)方程模型分析軟件Lisrel(8.80)。數(shù)據(jù)研究分為三步:一是數(shù)據(jù)一元正態(tài)和多元正態(tài)性檢驗(yàn),二是確立基準(zhǔn)模型,三是跨組別分析。
一元正態(tài)及多元正態(tài)檢驗(yàn)參考數(shù)據(jù)偏度、峰度顯著性檢驗(yàn)以及總體顯著性檢驗(yàn),檢驗(yàn)的零假設(shè)是數(shù)據(jù)符合正態(tài)分布,我們希望接受這個(gè)零假設(shè),即希望p值大于0.01。使用極大似然估計(jì)(Maximum Likelihood,ML)進(jìn)行數(shù)據(jù)擬合。模型與數(shù)據(jù)的擬合程度主要參考兩個(gè)標(biāo)準(zhǔn):一是模型擬合指數(shù),二是參數(shù)估計(jì)結(jié)果的合理性?;鶞?zhǔn)模型的建立和跨組別分析參考一系列擬合指數(shù)。目前普遍認(rèn)為評(píng)價(jià)模型擬合程度時(shí)應(yīng)參考多個(gè)不同類型的評(píng)價(jià)指標(biāo)。參考已有研究常用且普遍認(rèn)為較穩(wěn)定的擬合指數(shù)[29-30],擬選擇以下幾個(gè)擬合指數(shù)作為模型擬合的檢驗(yàn)標(biāo)準(zhǔn):χ2(越小越好)、χ2/df(<3)、χ2檢驗(yàn)p值(>0.01)、GFI(>0.9)、AGFI(>0.9)、NFI(>0.9)、NNFI(>0.9)、CFI(>0.9)、RMSEA(<0.08)。
三、研究結(jié)果
(一)數(shù)據(jù)正態(tài)檢驗(yàn)結(jié)果
對(duì)各項(xiàng)數(shù)據(jù)的正態(tài)檢驗(yàn)結(jié)果顯示,只有命題說(shuō)話項(xiàng)分?jǐn)?shù)符合正態(tài)分布,其它數(shù)據(jù)正態(tài)顯著性檢驗(yàn)均不符合正態(tài)分布(P<0.01)。其中DZ、DC呈負(fù)偏態(tài),DW呈負(fù)峰度。根據(jù)Hair,Black amp; Babin針對(duì)不同偏態(tài)提出的轉(zhuǎn)換法則[23],對(duì)以上3個(gè)變量進(jìn)行了處理1。處理結(jié)果顯示,變量均符合正態(tài)分布(P>0.01)。使用處理后的數(shù)據(jù)計(jì)算單因子模型和兩因子模型的協(xié)方差矩陣,作為模型驗(yàn)證時(shí)參數(shù)估計(jì)的基礎(chǔ)。
(二)基準(zhǔn)模型的確立
在結(jié)構(gòu)方程模型中,要確定哪個(gè)模型與實(shí)測(cè)數(shù)據(jù)的擬合結(jié)果最佳,主要從兩個(gè)方面進(jìn)行評(píng)估:一是用擬合指數(shù)對(duì)模型做整體評(píng)價(jià),二是檢驗(yàn)參數(shù)估計(jì)值的顯著性及參數(shù)的意義和合理性。
1.模型擬合指數(shù)比較
如表3所示,單因子模型(模型A)、兩因子模型(模型B)的各項(xiàng)擬合指數(shù)均符合評(píng)價(jià)標(biāo)準(zhǔn)。通過(guò)對(duì)比發(fā)現(xiàn),除GFI值均為0.99,模型B的各項(xiàng)擬合指數(shù)表現(xiàn)均明顯優(yōu)于模型A;模型B χ2檢驗(yàn)的顯著性p值也明顯高于模型A。根據(jù)擬合指數(shù)的總體表現(xiàn),模型 B兩因子模型擬合數(shù)據(jù)最佳。
2.參數(shù)估計(jì)結(jié)果檢驗(yàn)
進(jìn)而考察模型 B的參數(shù)估計(jì)合理性,參數(shù)估計(jì)值見(jiàn)表4。經(jīng)過(guò)檢視,模型B所估計(jì)的誤差方差、標(biāo)準(zhǔn)誤等均未出現(xiàn)負(fù)值;標(biāo)準(zhǔn)化估計(jì)值都小于1;參數(shù)估計(jì)顯著性檢驗(yàn)t值也都大于2,表明所有參數(shù)估計(jì)值都顯著地不等于0。從表4可以看出,標(biāo)準(zhǔn)化因子負(fù)荷均介于0.5~0.95,R2的值都介于0.5~0.9,表明觀測(cè)變量很好地解釋了潛在變量,模型擬合結(jié)果良好。因此,模型B作為基準(zhǔn)模型是成立的。根據(jù)計(jì)算,PSC因素結(jié)構(gòu)圖見(jiàn)圖3。
3.構(gòu)想效度的考察
通過(guò)參數(shù)估計(jì)值考察測(cè)試構(gòu)想效度。聚斂效度和判別效度是衡量構(gòu)想效度的兩個(gè)主要指標(biāo):聚斂效度指測(cè)量指標(biāo)多大程度上測(cè)到了所附屬的潛在變量;判別效度指各潛在變量之間的區(qū)別程度。根據(jù)Hair等的研究,聚斂效度的考察標(biāo)準(zhǔn)主要包括因子負(fù)荷、方差析出量(Variance Extracted)1和構(gòu)想信度(Construct Reliability)2。Hair等對(duì)3個(gè)指數(shù)提出了具體的評(píng)價(jià)標(biāo)準(zhǔn):一是每個(gè)指標(biāo)在相應(yīng)因子上的負(fù)荷越高,表明聚斂效度越好,一般標(biāo)準(zhǔn)化的因子負(fù)荷應(yīng)至少達(dá)到0.5,0.7以上則較為理想;二是方差析出量達(dá)到0.5以上表明收斂性較好;三是構(gòu)想信度達(dá)到0.7以上表示各指標(biāo)具有內(nèi)部一致性,說(shuō)明指標(biāo)測(cè)量了同一個(gè)潛在構(gòu)想[23]。判別效度的考察方法為,將兩個(gè)因子間相關(guān)(標(biāo)準(zhǔn)化)的平方同這兩個(gè)因子各自的方差析出量進(jìn)行比較,兩個(gè)方差析出量都大于相關(guān)的平方時(shí),說(shuō)明測(cè)量模型具有較好的判別效度。
根據(jù)表5,本研究所有5個(gè)指標(biāo)在相應(yīng)因子上的負(fù)荷均超過(guò)0.7,其中DW、MS1指標(biāo)的標(biāo)準(zhǔn)化因子負(fù)荷達(dá)到0.9以上,每個(gè)因子的方差析出量都在0.7以上,構(gòu)想信度也都達(dá)到0.9,表明測(cè)量模型具有非常好的聚斂效度。表6中判別效度檢驗(yàn)結(jié)果顯示,兩個(gè)因子的方差析出量均略小于因子間相關(guān)的平方,因子間區(qū)別程度不明顯。綜合聚斂效度和判別效度的檢驗(yàn)結(jié)果,本研究認(rèn)為PSC具有較好的聚斂效度,判別效度有待提高。
(三)跨組別檢驗(yàn)結(jié)果
多組驗(yàn)證性因子分析的目的在于檢驗(yàn)測(cè)試結(jié)構(gòu)在男女考生群體上的一致性。根據(jù)侯杰泰等的建議[28],結(jié)合本研究具體情況,對(duì)基準(zhǔn)模型在男女考生群體上的估計(jì)值進(jìn)行逐層的等值限制,具體步驟如下:一是完形模型(Configural Model),模型形態(tài)等同,對(duì)兩組數(shù)據(jù)在模型上的參數(shù)估計(jì)不做限制;二是因子負(fù)荷等同,限定模型形態(tài)等同的基礎(chǔ)上,追加限定兩組對(duì)應(yīng)的因子負(fù)荷相同;三是協(xié)方差等同,在前兩步基礎(chǔ)上繼續(xù)限定男女組別因子協(xié)方差等同,即限定各組因子的相關(guān)系數(shù)等同;四是在前3種限定的基礎(chǔ)上,繼續(xù)限定兩組指標(biāo)截距等同;五是在前四步限制的基礎(chǔ)上,限定因子均值等同。五層限制分別產(chǎn)生了5個(gè)模型,5個(gè)模型的擬合指標(biāo)見(jiàn)表7。
對(duì)比5個(gè)模型發(fā)現(xiàn),整體上隨著限制條件的增加,GFI、NFI、NNFI、CFI幾個(gè)擬合指標(biāo)并未發(fā)生顯著變化。RMSEA存在變好的趨勢(shì)。χ2/df結(jié)果越來(lái)越小。χ2顯著性檢驗(yàn)p值也越來(lái)越大。每一步追加等同條件后模型擬合指數(shù)都在評(píng)價(jià)標(biāo)準(zhǔn)范圍內(nèi),模型擬合均比較理想。整體上模型擬合的結(jié)果越來(lái)越好。
一個(gè)經(jīng)驗(yàn)性法則是,觀察增加等同限制條件前后χ2和自由度的變化,如Δχ2/Δdf小于5,則認(rèn)為增加同等條件后,擬合優(yōu)度沒(méi)有顯著變壞,等同條件成立[28]。本研究將Model 2-5與基準(zhǔn)模型Model 1進(jìn)行比較,發(fā)現(xiàn)追加限制后的模型Δχ2/Δdf值均小于5。此外,基準(zhǔn)模型與其它模型的卡方差異檢驗(yàn)結(jié)果表明,每一層追加限制后的模型(Model 2-Model 5)與基準(zhǔn)模型(Model 1)相比,在與實(shí)測(cè)數(shù)據(jù)的擬合程度上并不存在統(tǒng)計(jì)學(xué)意義上的顯著差異(p值均大于0.05)。這些分析說(shuō)明,經(jīng)過(guò)逐層等值限制以后的模型與基準(zhǔn)模型在擬合上不存在顯著的差異,測(cè)試構(gòu)想在男女考生群體中均可以保持較好的穩(wěn)定性。
四、討論與建議
本研究使用結(jié)構(gòu)方程模型驗(yàn)證性因子分析檢驗(yàn)PSC因子結(jié)構(gòu)以及測(cè)試在男女考生群體中的穩(wěn)定性,以考察測(cè)試的構(gòu)想效度。研究對(duì)兩個(gè)競(jìng)爭(zhēng)模型的驗(yàn)證性因子分析顯示,“有文字憑借模式下的普通話表達(dá)+無(wú)文字憑借模式下的普通話表達(dá)”兩因子模型數(shù)據(jù)擬合結(jié)果最佳,兩因子模型的聚斂效度良好,判別效度偏低??缃M別分析結(jié)果顯示,兩因子模型各項(xiàng)參數(shù)在男女考生群體中表現(xiàn)一致,測(cè)試結(jié)構(gòu)表現(xiàn)出較好的穩(wěn)定性。
(一)關(guān)于PSC因子結(jié)構(gòu)的討論
研究結(jié)果顯示,PSC試卷結(jié)構(gòu)包含“有文字憑借模式下的普通話表達(dá)”和“無(wú)文字憑借下的普通話表達(dá)”兩個(gè)因子。從標(biāo)準(zhǔn)化因子負(fù)荷估計(jì)結(jié)果看,讀單音節(jié)字詞、讀多音節(jié)詞語(yǔ)、朗讀短文3個(gè)測(cè)量指標(biāo)在“有文字憑借”因子上的負(fù)荷都比較高(分別為0.78、0.83、0.96),有文字憑借因子的方差析出量達(dá)到0.74,說(shuō)明3個(gè)觀測(cè)變量較好地解釋了有文字憑借因子。從讀單音節(jié)字詞、讀多音節(jié)詞語(yǔ)再到讀語(yǔ)篇,3個(gè)觀測(cè)變量對(duì)有文字憑借因子的解釋能力逐漸增強(qiáng)。這也符合單音節(jié)字詞、多音節(jié)詞語(yǔ)、語(yǔ)篇對(duì)普通話應(yīng)用的實(shí)際影響程度。命題說(shuō)話題目在無(wú)文字憑借因子上的負(fù)荷也比較高。說(shuō)明測(cè)試各項(xiàng)觀測(cè)指標(biāo)都對(duì)相應(yīng)的潛變量具有很好的解釋效力,PSC測(cè)試結(jié)構(gòu)具備良好的聚斂效度。
有文字憑借和無(wú)文字憑借兩個(gè)因子達(dá)到0.93的較高相關(guān)。對(duì)參數(shù)估計(jì)值的考察也發(fā)現(xiàn),兩因子模型中兩個(gè)因子各自的方差析出量均略小于因子間相關(guān)的平方,說(shuō)明兩個(gè)因子間區(qū)別程度較低,測(cè)試判別效度不太理想。
(二)關(guān)于測(cè)試判別效度的討論和改進(jìn)建議
一般來(lái)說(shuō)我們希望兩個(gè)因子間具有一定的區(qū)別性,即希望測(cè)試結(jié)構(gòu)中的兩個(gè)因子分別代表普通話表達(dá)能力下的兩種不同的微技能?!坝形淖謶{借”是借助文字材料說(shuō)普通話,由于文字材料已給定,應(yīng)試人只需要朗讀出試卷內(nèi)容,那么測(cè)試主要測(cè)查的就是語(yǔ)音標(biāo)準(zhǔn)程度和流暢程度。“無(wú)文字憑借”是在沒(méi)有文字輔助的情況下進(jìn)行普通話表達(dá),除了語(yǔ)音標(biāo)準(zhǔn)程度和流暢程度,也考查語(yǔ)法規(guī)范以及遣詞造句、修辭等語(yǔ)用能力。從理論上來(lái)說(shuō)兩個(gè)因子間應(yīng)當(dāng)具有一定的區(qū)別性,為何兩個(gè)因子卻達(dá)到0.93的高相關(guān)呢?
從測(cè)評(píng)維度看,我國(guó)幅員遼闊,方言復(fù)雜,方言間差異最大的是語(yǔ)音,其次是詞匯和語(yǔ)法。PSC從設(shè)計(jì)之初就是為了推廣普通話,促進(jìn)各民族各地區(qū)人民的交流。因而PSC題型設(shè)計(jì)和分值權(quán)重主要側(cè)重語(yǔ)言本身的語(yǔ)碼操作能力(即語(yǔ)音、詞匯、語(yǔ)法等語(yǔ)言結(jié)構(gòu)系統(tǒng)中各要素的操作能力),尤其是語(yǔ)音標(biāo)準(zhǔn)程度。即便是應(yīng)該體現(xiàn)交際能力的“命題說(shuō)話”也主要側(cè)重語(yǔ)音標(biāo)準(zhǔn)程度的測(cè)評(píng),較少涉及語(yǔ)用能力,交際策略能力則幾乎沒(méi)有涉及。有文字憑借測(cè)試項(xiàng)和無(wú)文字憑借測(cè)試項(xiàng)在測(cè)評(píng)維度上較為一致,因而相關(guān)程度較高。
從測(cè)試形式來(lái)看,PSC屬于獨(dú)白式口試,被試依據(jù)試卷上的文字引導(dǎo)語(yǔ)進(jìn)行口語(yǔ)產(chǎn)出。無(wú)論是有文字憑借還是無(wú)文字憑借測(cè)試項(xiàng),都不涉及交際情境,考官不參與對(duì)話交流[31]。PSC“命題說(shuō)話”缺乏語(yǔ)境、情境等因素,交際性不明顯[32-33],因而無(wú)文字憑借的“命題說(shuō)話”與有文字憑借的測(cè)試項(xiàng)間沒(méi)有形成明顯的區(qū)別。
從測(cè)試流程看,為達(dá)到以測(cè)促訓(xùn)的目的,PSC說(shuō)話題目的范圍是事先給定的,被試在考前充分培訓(xùn)、準(zhǔn)備的情況下,單向說(shuō)話的表現(xiàn)由即興口頭表達(dá)變成機(jī)械背稿,“命題說(shuō)話”并未在真實(shí)、即興的情境下表達(dá),沒(méi)有實(shí)現(xiàn)口語(yǔ)測(cè)試真實(shí)性的目的。因而,有文字憑借與無(wú)文字憑借測(cè)試在測(cè)查表現(xiàn)上區(qū)別度較低。
總體上,PSC測(cè)試構(gòu)想較好地反映了測(cè)試目的,無(wú)文字憑借與有文字憑借測(cè)試項(xiàng)相關(guān)度較高也有其客觀原因。但不可否認(rèn)的是,為了達(dá)到以測(cè)促訓(xùn)的目的,測(cè)試在一定程度上犧牲了真實(shí)性,進(jìn)而影響了測(cè)試的構(gòu)想效度。如何在確保被試充分訓(xùn)練、以考促學(xué)的同時(shí),提高測(cè)試的構(gòu)想效度是測(cè)試需要解決的問(wèn)題。
在測(cè)試中應(yīng)保證命題說(shuō)話測(cè)試的真實(shí)性,最大程度獲得被試日常普通話表達(dá)原汁原味的樣本,以確保分?jǐn)?shù)推論的有效性。為此可以從以下4個(gè)方面對(duì)測(cè)試進(jìn)行改進(jìn):一是在題型設(shè)置上,將命題說(shuō)話題目改為貼近日常工作生活且具有一定語(yǔ)境情境的話題,引導(dǎo)貼近生活的真實(shí)口語(yǔ)表達(dá);二是在考試命題方面,組織人員進(jìn)行命題說(shuō)話項(xiàng)的命題,定期更新題庫(kù);三是在測(cè)試流程方面,命題說(shuō)話的試題在考試時(shí)臨場(chǎng)給出,避免提前準(zhǔn)備、背稿的問(wèn)題,保證考生語(yǔ)言表現(xiàn)的真實(shí)性;四是在測(cè)試培訓(xùn)和準(zhǔn)備方面,在《普通話水平測(cè)試實(shí)施綱要》中只公開(kāi)第一、二、三項(xiàng)測(cè)試的字表、詞表和朗讀篇目,并給出一部分命題說(shuō)話項(xiàng)例題作為考前練習(xí),但命題說(shuō)話正式施測(cè)題目不在《綱要》中出現(xiàn)。這樣既達(dá)到通過(guò)訓(xùn)練提高普通話水平的目的,也保證了測(cè)試的效度。
根據(jù)構(gòu)想效度的研究結(jié)果,PSC測(cè)試結(jié)構(gòu)包含“有文字憑借模式下”和“無(wú)文字憑借模式下”兩種普通話表達(dá)模式,且包含單音節(jié)字詞、多音節(jié)詞語(yǔ)、語(yǔ)篇、命題說(shuō)話等測(cè)量指標(biāo)。可見(jiàn)口語(yǔ)表達(dá)不是簡(jiǎn)單的語(yǔ)言能力要素的組合,而是表達(dá)模式和表達(dá)內(nèi)容相互作用的結(jié)果。
(三)關(guān)于PSC測(cè)試構(gòu)想跨組別一致性的討論
測(cè)試結(jié)構(gòu)在不同亞群體中的穩(wěn)定性是效度的重要證據(jù),測(cè)試構(gòu)想的一致性關(guān)系到考試是否對(duì)所有考生一視同仁,這對(duì)考試的公平使用和決策至關(guān)重要。關(guān)于性別與口語(yǔ)能力的關(guān)系,研究者的觀點(diǎn)并不一致。一些研究認(rèn)為男女在會(huì)話風(fēng)格上存在明顯差異[34-35],在英語(yǔ)口語(yǔ)表現(xiàn)方面,女性的口試成績(jī)明顯高于男性[36]。但也有研究發(fā)現(xiàn),不同性別的考生口語(yǔ)能力幾乎沒(méi)有差異[37]。O’ Loughlin、范勁松等分別考察了語(yǔ)言測(cè)試對(duì)男女考生群體的公平性,研究結(jié)果顯示,測(cè)試因子結(jié)構(gòu)和評(píng)分在男女考生中具有較好的一致性[38-39]。已有研究得出不同的結(jié)論,可能與被試樣本選擇及測(cè)試內(nèi)容存在一定關(guān)系。本研究效度的跨組別一致性檢驗(yàn)結(jié)果表明,PSC測(cè)試結(jié)構(gòu)在男女組別表現(xiàn)相同,具有較好的穩(wěn)定性,說(shuō)明測(cè)試構(gòu)想在男女生被試群體中是充分且合適的,并不存在偏差。
五、結(jié)束語(yǔ)
本研究使用SEM驗(yàn)證性因子分析檢驗(yàn)PSC的構(gòu)想效度,以及構(gòu)想效度的跨群體穩(wěn)定性。理論模型與實(shí)測(cè)數(shù)據(jù)擬合及參數(shù)估計(jì)結(jié)果顯示“有文字憑借模式下的普通話表達(dá)+無(wú)文字憑借模式下的普通話表達(dá)”兩因子模型較好地代表了被試的實(shí)際語(yǔ)言能力結(jié)構(gòu),且測(cè)試結(jié)構(gòu)在男女考生組別上具有良好的穩(wěn)定性,測(cè)試構(gòu)想效度良好,但兩個(gè)因子區(qū)別度較低。構(gòu)想效度的研究本質(zhì)上是證明測(cè)試背后的理論有效[40]。研究論證了測(cè)試的理論構(gòu)想的有效性,為PSC提供了實(shí)證性的效度證據(jù),并為未來(lái)開(kāi)展PSC的效度研究提供了一些方法和路徑上的參考。
本研究還存在以下尚待補(bǔ)充之處。首先,研究?jī)H從測(cè)試因子結(jié)構(gòu)的角度考察測(cè)試效度。隨著效度理論的發(fā)展,在新的效度理論框架下,效度是一個(gè)多層面的整體概念,效度驗(yàn)證需要多方面收集不同類型的證據(jù),使這些證據(jù)構(gòu)成一個(gè)相互補(bǔ)充的效度論證鏈[41]。PSC的效度研究還有很多尚待探索的領(lǐng)域。測(cè)試的效標(biāo)關(guān)聯(lián)效度、評(píng)分效度,以及測(cè)試效度的質(zhì)性研究都是PSC效度研究值得關(guān)注的課題。在以后的研究中,可以考察測(cè)試分?jǐn)?shù)與外部語(yǔ)言量表的校標(biāo)關(guān)系,檢驗(yàn)評(píng)分量表的效度;也可使用話語(yǔ)分析、有聲思維、專家判斷等質(zhì)性研究方法考察PSC的構(gòu)想效度,為PSC的效度驗(yàn)證提供多方面的效度證據(jù)。其次,由于篇幅所限,跨組別研究只檢驗(yàn)了構(gòu)想效度在男女考生群體中的公平性。在普通話水平的測(cè)量中,文化背景、學(xué)歷背景、方言背景、語(yǔ)言水平、認(rèn)知特點(diǎn)、年齡等因素都可能使測(cè)試構(gòu)想效度存在偏差。未來(lái)可以使用DIF、多面Rasch分析、SEM多組驗(yàn)證分析等方法全面考察PSC構(gòu)想效度和評(píng)分在不同背景考生群體中的公平性。
參考文獻(xiàn):
[1] HUGHES A,PORTER D,WEIR C J. Validating the ELTS Test:A Critical Review [M]. Cambridge:The British Council and the University of Cambridge Local Examination Syndicate,1988:4.
[2] CRONBACH L J. Test Validation [C]. // R L Thorndike(ed.). Educational Measurement(2nd edition). Washington DC:American Council on Education,1971:443-507.
[3] MESSICK S. Evidence and Ethics in the Evaluation of Tests [J]. Educational Researcher,1981,10(9):9-20.
[4] MESSICK S. Test Validity and the Ethics of Assessment [J]. American Psychologist,1980,35(11):1012-1027.
[5] MESSICK S. The Once and Future Issues of Validity:Assessing the Meaning and Consequences of Measurement [C]. // H Wainer,H I Braun(eds.). Test Validity. Hillsdale,NJ:Lawrence Erlbaum,1988:33-45.
[6] BACHMAN L F. Fundamental Considerations in Language Testing [M]. Oxford:Oxford University Press,1990:241-242,255.
[7] MESSICK S. Validity of Psychological Assessment:Validation of Inferences from Pearson’s Responses and Performances as Scientific Inquiry into Score Meaning [J]. American Psychologist,1995,50(9):741-749.
[8] 張國(guó)華.對(duì)PSC測(cè)試有效度的驗(yàn)察[C].//第四屆全國(guó)語(yǔ)言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集,2005.
[9] 常曉宇.口語(yǔ)測(cè)試中朗讀類題型的效度研究——以普通話水平測(cè)試“朗讀短文”測(cè)試項(xiàng)為例[D].中國(guó)社會(huì)科學(xué)院研究生院博士學(xué)位論文,2017.
[10] 張寵.普通話水平測(cè)試對(duì)留學(xué)生的適用性研究[D].中國(guó)社會(huì)科學(xué)院研究生院碩士學(xué)位論文,2019.
[11] XI,X. How Do We Go About Investigating Test Fairness? [J]. Language Testing,2010,27(2):147-170.
[12] American Educational Research Association,American Psychological Association,National Council on MEASUREMENT in Education. Standards for Educational and Psychological Testing [M]. Washington,D C:Author,1999.
[13] STRICKER L J,ROCK D A,LEE Y W. Factor Structure of the LanguEdge Test across Language Groups [J].Ets Research Report,2005,(1):i-43.
[14] SHIN,S-K. Did They Take The Same Test? Examinee Language Proficiency And The Structure Of Language Tests [J]. Language Testing,2005,22(1):31-57.
[15] YOO H,Manna V F. Measuring English Language Workplace Proficiency across Subgroups:Using Cfa Models to Validate Test Score Interpretation [J]. Language Testing,2017,34(1):101-126.
[16] YAN X,CHENG L,GINTHER A. Factor Analysis for Fairness:Examining the Impact of Task Type and Examinee L1 Background on Scores of an ITA Speaking Test [J]. Language Testing,2019,36(2):207-234.
[17] COATES J. Women,Men and Language(2nd edition)[M]. London:Longman,1993.
[18] LUMLEY T,O' SULLIVAN B. The Effect of Test-taker Gender,Audience and Topic on Task Performance in Tape-mediated Assessment of Speaking [J]. Language Testing,2005,(4):415-437.
[19] MUTH?N B O,SATORRA A. Multilevel Aspects of Varying Parameter in Structural Models [C]. // Bock H(ed.). Multilevel Analysis of Educational Data. San Diego:Academic Press,1989:87-99.
[20] KUNNAN A J. Test Taker Characteristics and Test Performance:A Structural Modelling Approach [M]. Cambridge:Cambridge University Press,1995.
[21] PURPURA J E. Modeling the Relationships between Test Takers’ Reported Cognitive and Metacognitive Strategy Use and Performance on Language Tests [D]. Unpublished Ph.D. Dissertation,University of California,Los Angeles,1996.
[22] GINTHER A,STEVENS J. Language Background,Ethnicity,and the Internal Construct Validity of the Advanced Placement Spanish Language Examination [M]. // A. J. Kunnan(ed). Validation in Language Assessment. Mahwah,NJ:Lawrence Erlbaum,1998:169-194.
[23] HAIR F J,BLACK C W,BABIN J B,ANDERSON F R,TATHAM L R. Multivariate Data Analysis [M]. NJ:Pearson Education,Inc,1987:471-472.
[24] HUCK S. Reading Statistics and Research [M]. Boston:Pearson Education Inc,2012.
[25] Bentler P M,Chou C-P. Practical Issues in SEM [J]. Sociological Methods and Research,1987,16:78-117.
[26] Muthe'n L K,Muthe'n B O. Mplus User's Guide(Sixth Edition)[M].Los Angeles,CA:Muthe'n amp;Muthe'n,2007.
[27] 國(guó)家語(yǔ)委普通話培訓(xùn)測(cè)試中心.普通話水平測(cè)試實(shí)施綱要[M].北京:商務(wù)印書(shū)館,2017:2-5.
[28] 侯杰泰,溫忠麟,成子娟.結(jié)構(gòu)方程模型及其應(yīng)用[M].北京:教育科學(xué)出版社,2004:114-115,190-192.
[29] RAYKOV T,TOMER A,NESSELROADE J R. Reporting Structural Equation Modeling Results in Psychology and Aging:Some Proposed Guidelines [J]. Psychology and Aging,1991,6(4):499-503.
[30] BOOMSMA A. Reporting Analyses of Covariance Structures [J]. Structural Equation Modeling:A Multidisciplinary Journal,2000,7(3):461-483.
[31] 聶丹.普通話水平測(cè)試研究概說(shuō)[M].北京:語(yǔ)文出版社,2012:193-195.
[32] 朱麗紅. PSC中“說(shuō)話”項(xiàng)的題型分析和改進(jìn)建議[C].//第二屆全國(guó)普通話水平測(cè)試學(xué)術(shù)研討會(huì)論文集.北京:商務(wù)印書(shū)館,2004:152-165.
[33] 王暉.普通話水平測(cè)試依據(jù)研究[D].中國(guó)社會(huì)科學(xué)院研究生院博士學(xué)位論文,2016.
[34] MALTZ D,BORKER R. A Cultural Approach to Male–female Mis-communication [C]. // Gumperz J(ed). Language and Social Identity. Cambridge:Cambridge University Press,1982:196-216.
[35] TANNEN D. You Just Don’t Understand:Women And Men In Conversation [M]. New York:William Morrow,1990.
[36] 肖德法,向平.性別與PETS口試成績(jī)研究[J].山東外語(yǔ)教學(xué),2005,(1):54-56.
[37] HYDE J S,LINN M C. Gender Difference in Verbal Ability:A Meta-analysis [J]. Psychological Bulletin,1988,104(1):53-69 .
[38] O'LOUGHLIN K. The Impact of Gender in Oral Proficiency Testing [J]. Language Testing,2002,19(2):169-192.
[39] 范勁松,季佩英,俞明理.語(yǔ)言測(cè)試效度研究的另一視角:考試的因子結(jié)構(gòu)研究[J].外語(yǔ)教學(xué)理論與實(shí)踐,2014,(4):34-40.
[40] American Psychological Association(APA). Technical Recommendations for Psychological Test and Diagnostic Techniques [M]. Washington,D C:APA,1954.
[41] WEIR C J. Language Testing and Validation:An Evidence-based Approach [M]. New York:Palgrave Macmillan,2005.
A Study on the Construct Validity of Putonghua Proficiency Test Based on Structural Equation Model
Yuan Xin
Beijing Chinese Language and Culture College,Beijing,102206
Abstract:Construct validity is the core issue of test validation and a key criterion for test quality. This study examines the construct validity of the Putonghua Proficiency Test by using the testing data. Through confirmatory factor analysis and multi-group confirmatory factor analysis,the construct validity of the test and the consistency of the test construct among male and female candidates are examined. The results of confirmatory factor analysis show that the two factor model of \"Mandarin speaking under the mode with text support + Mandarin speak under the mode without text support\" fits the measured data better. The parameter estimation results show that the convergent validity of the test is good,while the discriminant validity is low. The results of multi-group analysis shows that the parameters of the two factor model performs consistently among male and female candidates,and the test structure shows good stability. The study empirically demonstrates the construct validity of the Putonghua proficiency test. Based on the research findings,some suggestion,such as setting situation,renewing item bank,enhancing the authenticity of the subjects’ expressions,are proposed for test improvement.
Key words:Putonghua Proficiency Test,Construct Validity,Structural Equation Model,F(xiàn)actor Structure
(責(zé)任編輯:吳茳)
作者簡(jiǎn)介 原鑫,講師,北京華文學(xué)院。北京,102206。
基金項(xiàng)目 北京華文學(xué)院2023年度科研課題“普通話水平測(cè)試的效度研究”(HW-23-B08)。
1對(duì)負(fù)偏態(tài)的變量求平方,負(fù)峰度的變量取倒數(shù)。
1方差析出量的算法是:每個(gè)因子各指標(biāo)因子負(fù)荷(標(biāo)準(zhǔn)化)平方的平均數(shù)。一般方差析出量達(dá)到0.5以上表明收斂性較好。
2構(gòu)想信度的計(jì)算方法為,每個(gè)因子各指標(biāo)因子負(fù)荷(標(biāo)準(zhǔn)化)之和的平方,比上各指標(biāo)因子負(fù)荷之和的平方與該因子各指標(biāo)誤差方差之和的和。