劉 慧,李亞男,2
(1.北京語(yǔ)言大學(xué)語(yǔ)言科學(xué)院,北京 100083;2.漢考國(guó)際教育科技(北京) 有限公司,北京 100088)
閱讀能力是人類最重要的能力之一,同時(shí),閱讀能力高度復(fù)雜。盡管在閱讀能力的構(gòu)成上,以往研究者并未能完全達(dá)成一致,但絕大多數(shù)研究者認(rèn)為閱讀能力由不同能力要素構(gòu)成(Lee & Schallert,1997)。在語(yǔ)言測(cè)驗(yàn)領(lǐng)域,很多研究者認(rèn)為閱讀能力是可細(xì)分的(Grabe,2009:39),這些細(xì)分的閱讀能力就稱為閱讀子技能。
在國(guó)際中文教育中,學(xué)習(xí)者閱讀能力的發(fā)展情況,是教學(xué)中師生共同關(guān)心的問(wèn)題。現(xiàn)實(shí)中,由于個(gè)體差異的存在,尤其是國(guó)際中文學(xué)習(xí)者背景(母語(yǔ)、性格、語(yǔ)言學(xué)習(xí)能力、學(xué)習(xí)風(fēng)格、動(dòng)機(jī)、對(duì)語(yǔ)言學(xué)習(xí)的態(tài)度等)差別大,這會(huì)在不同程度上對(duì)國(guó)際中文習(xí)得的不同方面產(chǎn)生影響,其閱讀能力的發(fā)展情況也會(huì)更加分化。然而,對(duì)于各閱讀子技能發(fā)展情況的描述,傳統(tǒng)的測(cè)驗(yàn)分?jǐn)?shù)和偏誤分析都無(wú)法實(shí)現(xiàn),而認(rèn)知診斷分析可以勝任。
認(rèn)知診斷理論通過(guò)運(yùn)用統(tǒng)計(jì)模型識(shí)別技術(shù),能夠從被試在測(cè)驗(yàn)各個(gè)題目上的實(shí)際作答反應(yīng)出發(fā),推斷其內(nèi)在子技能的發(fā)展?fàn)顩r。閱讀領(lǐng)域的認(rèn)知診斷分析可以報(bào)告學(xué)生各閱讀子技能發(fā)展情況,明確其優(yōu)勢(shì)和弱勢(shì);能夠?yàn)橄乱徊降慕虒W(xué)提供更加詳細(xì)的建議,進(jìn)行更加直接的指導(dǎo),為“因材施教”提供基礎(chǔ)。
實(shí)際上,語(yǔ)言測(cè)驗(yàn)都有提供診斷信息的潛力(Bachman,1990:60),以往國(guó)內(nèi)外相關(guān)研究也確實(shí)在閱讀領(lǐng)域成功進(jìn)行了一系列診斷分析(Buck、Tatsuoka&Kostin,1997;Jang,2009)。不過(guò),縱觀以往閱讀測(cè)驗(yàn)領(lǐng)域的診斷研究,尤其是國(guó)際中文閱讀的相關(guān)研究,關(guān)注點(diǎn)多在于認(rèn)知診斷模型的使用,主要考查認(rèn)知診斷模型能否應(yīng)用于相應(yīng)的測(cè)驗(yàn),而對(duì)于如何構(gòu)建Q 矩陣關(guān)注不足。
Q 矩陣反應(yīng)的是子技能水平上的測(cè)驗(yàn)結(jié)構(gòu),其合理構(gòu)建是成功進(jìn)行認(rèn)知診斷分析的先決條件(Tatsuoka,1983)。同時(shí),目前的閱讀測(cè)評(píng)使用的幾乎均為大型標(biāo)準(zhǔn)化測(cè)驗(yàn),這些測(cè)驗(yàn)一般基于非診斷目的開(kāi)發(fā),屬于傳統(tǒng)的非診斷性測(cè)驗(yàn);想要從中獲取診斷信息,更是需要首先分析測(cè)驗(yàn)本身所考查特質(zhì)的構(gòu)成,確定Q矩陣。因此,研究擬以中小學(xué)生漢語(yǔ)考試(以下簡(jiǎn)稱“YCT”)測(cè)驗(yàn)為例,對(duì)國(guó)際中文閱讀測(cè)驗(yàn)Q矩陣的構(gòu)建進(jìn)行專門探討,具體研究?jī)蓚€(gè)問(wèn)題:(1)YCT(四級(jí))閱讀測(cè)驗(yàn)考查了哪些閱讀子技能?(2)國(guó)際中文閱讀測(cè)驗(yàn)的Q 矩陣應(yīng)當(dāng)如何構(gòu)建?期望對(duì)上述問(wèn)題所進(jìn)行的探討,能夠?yàn)楹罄m(xù)研究確定Q 矩陣提供更多參考建議,提升國(guó)際中文閱讀測(cè)驗(yàn)診斷分析的效用。
認(rèn)知診斷理論(Cognitive Diagnostic Theory,CDT)是新一代測(cè)量理論,它不將測(cè)量的特質(zhì)看作意義模糊的統(tǒng)計(jì)結(jié)構(gòu),而是致力于描述個(gè)體不同的認(rèn)知結(jié)構(gòu)。認(rèn)知診斷理論由Q 矩陣和認(rèn)知診斷模型兩部分構(gòu)成。
Q 矩陣定義的是正確作答每道題目所需要掌握的子技能,它從不可觀測(cè)的多個(gè)潛在子技能的角度對(duì)可觀測(cè)的測(cè)驗(yàn)題目的表現(xiàn)進(jìn)行解釋,體現(xiàn)了子技能水平上的測(cè)驗(yàn)認(rèn)知結(jié)構(gòu)。Q 矩陣的行代表題目,列代表子技能;如果Q 矩陣的元素qjk的值為1,就表示第j道題目考查了第k個(gè)子技能;如果為0,就表示第j道題目沒(méi)有考查第k個(gè)子技能。
認(rèn)知診斷模型根據(jù)Q矩陣和實(shí)測(cè)作答反應(yīng)來(lái)推斷被試子技能掌握狀態(tài),目前大多數(shù)認(rèn)知診斷模型都定義了一個(gè)函數(shù),這個(gè)函數(shù)用來(lái)表達(dá)被試對(duì)某道題目正確作答的概率與這道題目所考查的子技能和被試的子技能掌握情況之間的關(guān)系;它們既可以用于專門的診斷性測(cè)驗(yàn),也可以用于傳統(tǒng)的非診斷性測(cè)驗(yàn)(Fu&Li,2007)。
從上世紀(jì)末開(kāi)始,研究者就已經(jīng)開(kāi)始了閱讀領(lǐng)域的認(rèn)知診斷研究,目前已經(jīng)有了一定的積累。以往研究中,絕大多數(shù)都是基于傳統(tǒng)的非診斷性測(cè)驗(yàn)開(kāi)展的。
Buck 等(1997)是閱讀領(lǐng)域首批認(rèn)知診斷研究的代表,研究采用文獻(xiàn)回顧、專家判斷和回歸分析等多種方法確定Q 矩陣,然后使用規(guī)則空間模型對(duì)考生在托業(yè)考試閱讀部分的作答進(jìn)行分析。Jang(2009)是后期研究的代表,研究采用文獻(xiàn)回顧、出聲思維和基于縮減融合模型(The reduced reparametrized unified model,R-RUM) 的量化分析方法確定Q 矩陣,并用R-RUM 對(duì)LanguEdgeTM 閱讀測(cè)驗(yàn)進(jìn)行認(rèn)知診斷分析。蔡艷等(2011)是國(guó)內(nèi)相關(guān)研究的代表,研究采用文獻(xiàn)回顧和專家判斷方法建立Q 矩陣,并采用分層回歸分析等方法對(duì)Q 矩陣進(jìn)行認(rèn)定,然后使用屬性層級(jí)模型對(duì)英語(yǔ)高考閱讀理解進(jìn)行分析。
在國(guó)際中文閱讀領(lǐng)域,也有研究者不斷進(jìn)行探索。黃海峰(2010)采用文獻(xiàn)回顧和因素分析相結(jié)合的方法確定了Q 矩陣,然后使用融合模型對(duì)考生在漢語(yǔ)水平考試(HSK)初、中等閱讀測(cè)驗(yàn)上的作答表現(xiàn)進(jìn)行分析;鹿士義和苗芳馨(2014)采用文獻(xiàn)回顧和問(wèn)卷調(diào)查相結(jié)合的方法確定子技能及其層級(jí)關(guān)系并計(jì)算Q 矩陣,然后使用規(guī)則空間模型對(duì)某大學(xué)入學(xué)分班的閱讀理解測(cè)驗(yàn)進(jìn)行診斷性研究。
由以上研究可知,Q 矩陣的構(gòu)建是進(jìn)行診斷分析的重要基礎(chǔ)。Q 矩陣構(gòu)建通常通過(guò)“定義子技能”和“建立Q 矩陣”這兩個(gè)步驟實(shí)現(xiàn)(Lee & Sawaki,2009)。“定義子技能”時(shí),一般會(huì)對(duì)相關(guān)領(lǐng)域認(rèn)知子技能構(gòu)成的理論進(jìn)行回顧,并結(jié)合目標(biāo)測(cè)驗(yàn)的特點(diǎn)對(duì)測(cè)驗(yàn)所考查的子技能進(jìn)行定義;在條件具備的情況下,出聲思維法和專家判斷法也是定義子技能的比較有效的方法?!敖 矩陣”時(shí),一般會(huì)使用兩類方法,一類是僅基于對(duì)測(cè)驗(yàn)內(nèi)容本身的分析,另一類是將測(cè)驗(yàn)內(nèi)容分析和量化分析相結(jié)合。第一類方法是指由一位或者多位專家對(duì)目標(biāo)測(cè)驗(yàn)的每道題目?jī)?nèi)容進(jìn)行分析并編碼(Douglas、de la Torre、Chang、Henson&Templin,2006),第二類方法是指在測(cè)驗(yàn)內(nèi)容分析的基礎(chǔ)上,再依靠量化分析識(shí)別內(nèi)容分析中專家判斷與實(shí)測(cè)數(shù)據(jù)不匹配之處,進(jìn)而對(duì)依據(jù)測(cè)驗(yàn)內(nèi)容分析所建立的Q 矩陣進(jìn)行優(yōu)化。
以往大多數(shù)閱讀認(rèn)知診斷研究在建立Q 矩陣時(shí),采用了將測(cè)驗(yàn)內(nèi)容分析和量化的實(shí)證數(shù)據(jù)分析相結(jié)合的方法。在量化方法的選擇上,有研究采用了因素分析(Jang,2005;黃海峰,2010)、回歸分析(Buck 等,1997)等方法,也有研究采用了基于認(rèn)知診斷模型的量化分析方法。這些方法中,因素分析方法表現(xiàn)并不太好,尤其是對(duì)于傳統(tǒng)的非診斷性測(cè)驗(yàn)來(lái)說(shuō)(Li & Suen,2014);回歸分析方法也只能對(duì)Q矩陣的合理性進(jìn)行較為粗略的判斷;而不少認(rèn)知診斷模型能夠?qū)蝹€(gè)測(cè)驗(yàn)題目的表現(xiàn)進(jìn)行分析,并能夠?qū)ψ蛹寄芊峙涞木唧w情況進(jìn)行評(píng)估,從而更精確地識(shí)別測(cè)驗(yàn)內(nèi)容分析中可能出現(xiàn)的誤判,在Q 矩陣構(gòu)建中表現(xiàn)良好。R-RUM 模型(DiBello、Stout & Roussos,1995)就是這種認(rèn)知診斷模型的典型代表。
在國(guó)際中文閱讀測(cè)驗(yàn)領(lǐng)域,以往診斷研究在構(gòu)建Q 矩陣時(shí),僅僅通過(guò)測(cè)驗(yàn)內(nèi)容分析直接確定Q 矩陣(鹿士義、苗芳馨,2014),或者在測(cè)驗(yàn)內(nèi)容分析的基礎(chǔ)上,通過(guò)因素分析、回歸分析等量化分析對(duì)Q 矩陣的合理性進(jìn)行總體評(píng)估(黃海峰,2010);少有研究采用基于認(rèn)知診斷模型的方法對(duì)Q 矩陣的合理性進(jìn)行精細(xì)評(píng)估。
本研究所用測(cè)驗(yàn)為YCT(四級(jí))的閱讀分測(cè)驗(yàn)。
YCT 是一項(xiàng)旨在考察漢語(yǔ)非第一語(yǔ)言的中小學(xué)生的漢語(yǔ)應(yīng)用能力的大型國(guó)際漢語(yǔ)能力標(biāo)準(zhǔn)化考試,分為四個(gè)級(jí)別,水平從低到高分別為YCT(一級(jí))、YCT(二級(jí))、YCT(三級(jí))、YCT(四級(jí))。YCT(四級(jí))考查考生的日常中文應(yīng)用能力,共80 題,分聽(tīng)力、閱讀和書(shū)寫三部分,其中閱讀測(cè)驗(yàn)長(zhǎng)度為30 題,包括四種題型,均為四選一的單項(xiàng)選擇題。第一種題型,每題提供一張圖片和3 個(gè)句子選項(xiàng),要求考生選出對(duì)應(yīng)圖片的一項(xiàng);第二個(gè)題型提供20個(gè)句子,每10 個(gè)一組,要求考生找出對(duì)應(yīng)關(guān)系;第三個(gè)題型提供一個(gè)單輪對(duì)話,對(duì)話中有一個(gè)空格,要求考生選詞填空;第四個(gè)題型提供一句或兩句話,之后有一個(gè)問(wèn)題,要求考生從備選項(xiàng)中選出答案。
研究擬綜合采用文獻(xiàn)回顧法、專家判斷法和基于認(rèn)知診斷模型的量化分析方法構(gòu)建Q 矩陣。首先,通過(guò)文獻(xiàn)回顧法初步析出測(cè)驗(yàn)所考查的閱讀子技能;然后,利用專家判斷法,對(duì)初步析出的子技能進(jìn)行考查并構(gòu)建初始Q 矩陣;接下來(lái),采用基于R-RUM 模型的量化方法對(duì)初步構(gòu)建的Q 矩陣進(jìn)行優(yōu)化;最后,對(duì)Q 矩陣的合理性進(jìn)行檢驗(yàn)。
專家判斷法的基本流程為:(1)對(duì)目標(biāo)測(cè)驗(yàn)的目標(biāo)群體、考察目的、測(cè)驗(yàn)構(gòu)成等相關(guān)情況進(jìn)行詳細(xì)介紹,為專家分發(fā)全部題目,并請(qǐng)專家閱讀試題;(2)介紹主要的閱讀能力認(rèn)知結(jié)構(gòu)理論模型,報(bào)告初步析出的閱讀子技能清單;(3)請(qǐng)專家結(jié)合目標(biāo)測(cè)驗(yàn)具體情況,對(duì)初步析出的子技能清單進(jìn)行討論,確定子技能清單;(4)專家對(duì)目標(biāo)測(cè)驗(yàn)的每一道題目獨(dú)立標(biāo)注目標(biāo)群體在作答時(shí)需用到的子技能;(5)全部專家對(duì)題目標(biāo)注完成后,對(duì)各題所考查的子技能進(jìn)行逐題討論;如果專家們?cè)谀愁}目上無(wú)法達(dá)成一致,就采用專家出聲思維法對(duì)該題考查的子技能進(jìn)行討論并做出決定;(6)基于專家組確定的各題所考查的子技能,構(gòu)建初始Q矩陣。
3.3.1 被試構(gòu)成
研究采用的數(shù)據(jù)為2017 年4 月全球施測(cè)的YCT(四級(jí))閱讀分測(cè)驗(yàn)的考生作答結(jié)果和成績(jī),經(jīng)清理后的有效數(shù)據(jù)共1101 條。試卷質(zhì)量分析顯示:以原始分計(jì),考生成績(jī)均值為18.04,測(cè)驗(yàn)的平均通過(guò)率為0.60,試卷難度中等偏易;全卷標(biāo)準(zhǔn)差為6.67,考生成績(jī)變異合理,考生成績(jī)?nèi)酁? 分到滿分30 分,得分分布較廣;試卷α 系數(shù)為0.88,信度較高,較為穩(wěn)定;全卷平均點(diǎn)二列相關(guān)為0.47,題目區(qū)分度很好,試題質(zhì)量不錯(cuò)。
3.3.2 專家構(gòu)成
專家組由5 名成員構(gòu)成,均有三年以上國(guó)際中文教學(xué)經(jīng)驗(yàn),熟悉漢語(yǔ)水平考試,且長(zhǎng)期參與YCT 或HSK 的命題、審題工作。其中,有三位專家為大學(xué)教師,兩位專家為考試機(jī)構(gòu)資深工作人員,另有一位語(yǔ)言學(xué)專業(yè)的碩士生進(jìn)行會(huì)議記錄。
研究過(guò)程中涉及到的數(shù)據(jù)處理有三類:基本測(cè)量學(xué)指標(biāo)的分析采用ITEMAN 軟件完成,基于R-RUM 進(jìn)行的分析采用Arpeggio 軟件完成,其他的數(shù)據(jù)整理和處理采用R 軟件自編程序完成。
研究首先基于YCT(四級(jí))閱讀測(cè)驗(yàn)的基本特點(diǎn),在閱讀認(rèn)知過(guò)程和閱讀能力評(píng)估相關(guān)文獻(xiàn)分析的基礎(chǔ)上,初步析出了YCT(四級(jí))閱讀測(cè)驗(yàn)所考查的閱讀子技能初始清單。
以往研究中,多數(shù)研究者認(rèn)為閱讀是一種高度復(fù)雜的活動(dòng),閱讀能力由不同的能力要素構(gòu)成(LEE&Schallert,1997),并且認(rèn)為閱讀能力可細(xì)分(Grabe,2009:39)。然而,在閱讀能力具體包含哪些子技能上,不同的研究者從不同的視角出發(fā),觀點(diǎn)并未能夠達(dá)成一致(Davis,1968;Grabe,2009:21-58)??紤]到閱讀能力的潛在結(jié)構(gòu)確實(shí)會(huì)隨研究?jī)?nèi)容或研究目的不同而不同(Song, 2008),本研究采用文獻(xiàn)分析法初步析出子技能時(shí),重點(diǎn)依據(jù)在閱讀測(cè)驗(yàn)背景下構(gòu)建的閱讀認(rèn)知過(guò)程模型。
Perfetti(1999)、Grabe(2009)以及Khalifa和Weir(2009)描述了語(yǔ)言測(cè)試領(lǐng)域比較重要的三種閱讀認(rèn)知過(guò)程的模型。三個(gè)模型雖然在包含的具體要素上略有不同,但其大體結(jié)構(gòu)相似,均認(rèn)為閱讀認(rèn)知過(guò)程包括從“詞匯識(shí)別”到“建立命題”直至“建立各種層面的文本表征”,且各層級(jí)的切分框架與以往認(rèn)知診斷研究的結(jié)果(Jang,2009;Li & Suen,2014)也較為一致。因此,我們將這類模型作為本研究析出YCT(四級(jí))所考查閱讀子技能的基礎(chǔ)模型。具體到Y(jié)CT(四級(jí))閱讀測(cè)驗(yàn)來(lái)說(shuō),其涉及的文本均為一句或兩句話,不考查語(yǔ)段和篇章,那么測(cè)驗(yàn)考查的閱讀子技能也就不應(yīng)包括語(yǔ)段及以上層面文本表征構(gòu)建的能力(Khalifa&Weir,2009:34-61)。
基于以上考慮,研究提取了上述三個(gè)模型中建立文本模型之前所涉及的全部五種認(rèn)知技能(具體為“詞匯識(shí)別”“詞義獲取”“句法分析”“意義命題構(gòu)建”和“推理”),作為YCT(四級(jí))閱讀測(cè)驗(yàn)的認(rèn)知子技能的初始清單,并將其提交至專家組。
在對(duì)試題內(nèi)容進(jìn)行逐一考察后,專家組認(rèn)為通過(guò)文獻(xiàn)回顧法析出的子技能初始清單總體合理。不過(guò),結(jié)合YCT(四級(jí))具體情況,專家組提出,作為一項(xiàng)大型標(biāo)準(zhǔn)化測(cè)驗(yàn),測(cè)驗(yàn)中并沒(méi)有題目能夠?qū)Α霸~匯識(shí)別”與“詞義獲取”這兩種能力進(jìn)行單獨(dú)考查,建議將兩子技能合并,統(tǒng)稱為“詞匯識(shí)別”。
通過(guò)以上步驟,研究確定了目標(biāo)測(cè)驗(yàn)所考查的四個(gè)子技能,即:詞匯識(shí)別、句法分析、語(yǔ)義命題構(gòu)建和推理,見(jiàn)表1。
表1:閱讀子技能清單
在確定子技能清單后,專家對(duì)每道題目所考查的子技能進(jìn)行獨(dú)立判斷和標(biāo)注。全部專家均標(biāo)注完成后,專家組對(duì)題目所考查的子技能逐題匯總、討論。討論過(guò)程中,若專家組在某道題目所考查的子技能上無(wú)法達(dá)成一致,采用專家出聲思維法(Afflerbach &Johnston,1984)對(duì)相應(yīng)題目考查的子技能進(jìn)行討論:請(qǐng)專家重新對(duì)相應(yīng)題目進(jìn)行作答,在作答過(guò)程中,作為成熟且可以去自動(dòng)化的閱讀者對(duì)自己的思考過(guò)程進(jìn)行出聲報(bào)告,然后依據(jù)五位專家出聲思維報(bào)告的結(jié)果對(duì)該題目考查的子技能進(jìn)行再次標(biāo)注和分析。多輪討論后,專家組對(duì)測(cè)驗(yàn)在認(rèn)知子技能水平上的結(jié)構(gòu)形成最終的意見(jiàn),進(jìn)而析出初始Q 矩陣(見(jiàn)表2)。
表2:初始Q 矩陣
如前所述,R-RUM 模型可以識(shí)別基于測(cè)驗(yàn)內(nèi)容分析得到的初始Q 矩陣中可能出現(xiàn)的誤判,對(duì)其進(jìn)行優(yōu)化。進(jìn)行優(yōu)化時(shí),主要考查模型的兩個(gè)題目參數(shù)π*和,它們能夠?qū) 矩陣為每道題目所指派每個(gè)子技能的合理性進(jìn)行評(píng)估。
R-RUM 模型如公式(1)所示。
其中P是被試n正確作答題目i的概率;αn=(αn1,...αnk)代表被試n對(duì)所有k個(gè)子技能的掌握狀態(tài),αnk=0/1 表示該被試“未掌握/掌握”相應(yīng)子技能;π*是指被試在掌握某個(gè)題目所考查所有子技能的情況下正確作答題目的概率;是指沒(méi)有掌握題目i所考查的子技能的被試在題目i上的正確作答概率與掌握了子技能的被試在該題目上正確作答概率的比值,定義為,其值越小,表明題目i越能將掌握子技能k的被試和未掌握子技能k的被試區(qū)分開(kāi)來(lái)。
基于初始Q 矩陣,本研究估計(jì)了30 個(gè)π*和42 個(gè)。一般認(rèn)為,若值小于0.6,表示Q 矩陣對(duì)題目所考查子技能的指派不充分,也就是對(duì)于Q 矩陣中指派給第i道題目的子技能來(lái)說(shuō),這道題目過(guò)難,那么應(yīng)給第i道題目指派更多或更難的子技能;若參數(shù)值大于0.9,表示掌握子技能k對(duì)于被試在題目i上的表現(xiàn)影響很小,意味著Q 矩陣對(duì)題目所考查子技能的指派有冗余,應(yīng)將Q 矩陣中相應(yīng)的對(duì)應(yīng)關(guān)系解除(Leighton & Gierl,2007)。本研究初始Q矩陣估計(jì)結(jié)果顯示、、、和共五個(gè)參數(shù)值大于0.9,基于此,研究對(duì)相應(yīng)題目逐題分析,考查此五組對(duì)應(yīng)關(guān)系的指定是否合理。通過(guò)題目分析,專家組認(rèn)為第11、13 和15 題對(duì)第一個(gè)子技能、第24 題對(duì)第二個(gè)子技能以及第3 題對(duì)第三個(gè)子技能并沒(méi)有進(jìn)行考查,這五道題目和相應(yīng)子技能的五組對(duì)應(yīng)關(guān)系不存在,建議將這五組對(duì)應(yīng)關(guān)系刪除,形成優(yōu)化的Q 矩陣。
基于優(yōu)化的Q 矩陣,研究使用R-RUM 模型對(duì)被試作答反應(yīng)進(jìn)行第二輪估計(jì),結(jié)果如表3 所示。
表3:R-RUM 模型基于優(yōu)化Q 矩陣的題目參數(shù)估計(jì)結(jié)果
表3 顯示,全部題目參數(shù)均值為0.88,所有值均大于0.6,且過(guò)半值都大于0.9,也就是說(shuō)優(yōu)化的Q 矩陣對(duì)題目考查的子技能的指派比較充分、無(wú)重要子技能遺漏;全部題目對(duì)所考查全部子技能的值均小于0.9,15 個(gè)值小于0.5,也就是說(shuō)優(yōu)化的Q矩陣對(duì)題目與其所考查子技能關(guān)系的認(rèn)定不存在冗余。
綜上,優(yōu)化的Q 矩陣對(duì)每道題目所考查子技能的認(rèn)定既充分又無(wú)冗余,題目與其所考查子技能對(duì)應(yīng)關(guān)系的認(rèn)定較為合理。
在確認(rèn)估計(jì)出來(lái)的題目參數(shù)的合理性后,研究對(duì)模型與數(shù)據(jù)的擬合情況進(jìn)行了檢驗(yàn)。為了直接評(píng)估數(shù)據(jù)模型的擬合情況,并且充分利用R-RUM 模型估計(jì)的全信息,研究擬合優(yōu)度采用了后驗(yàn)預(yù)測(cè)檢驗(yàn)(Henson、Roussos &Templin,2005)。采用R-RUM 模型進(jìn)行分析時(shí),模型與數(shù)據(jù)的擬合檢驗(yàn)指標(biāo)一般為題目難度、題目對(duì)之間的相關(guān)以及測(cè)驗(yàn)分?jǐn)?shù)分布情況的平均偏差(BIAS)、均方根誤差(The overall Root Mean Squared Error,RMSE)以及平均絕對(duì)離差(The overall Mean Absolute Deviations,MAD);另外,由于分?jǐn)?shù)分布的平均偏差總是會(huì)為0,因此計(jì)算測(cè)驗(yàn)分?jǐn)?shù)分布的擬合情況時(shí),計(jì)算指標(biāo)不是平均偏差,而是最大偏差(maximum deviation,MAXD)。本研究模型與數(shù)據(jù)的擬合情況見(jiàn)表4。
表4:模型與數(shù)據(jù)的擬合優(yōu)度
表4 顯示,在題目難度、題目對(duì)之間的相關(guān)以及測(cè)驗(yàn)分?jǐn)?shù)分布情況這三個(gè)方面,基于實(shí)際觀測(cè)值與基于模型的預(yù)測(cè)值計(jì)算得到的BIAS(MAXD)、RMSE 以及MAD 值均較小(Jang,2009;Henson、Roussos & Templin,2005)。這一結(jié)果表明數(shù)據(jù)與模型擬合較好,優(yōu)化的Q 矩陣得到了模型與數(shù)據(jù)擬合檢驗(yàn)的支持。
確定目標(biāo)測(cè)驗(yàn)所考查的子技能是構(gòu)建Q矩陣的第一步,因此研究首先對(duì)YCT(四級(jí))閱讀分測(cè)驗(yàn)所考查的子技能進(jìn)行了分析。
文獻(xiàn)回顧和專家判斷顯示,YCT(四級(jí))閱讀測(cè)驗(yàn)考查了“詞匯識(shí)別”“句法分析”“語(yǔ)義命題構(gòu)建”和“推理”四種子技能。對(duì)照YCT(四級(jí))大綱中規(guī)定考查的語(yǔ)言能力可知,其閱讀測(cè)驗(yàn)的考查目標(biāo)集中在基礎(chǔ)閱讀能力上,對(duì)于高層級(jí)閱讀能力涉及較少。本文析出的四種閱讀子技能聚焦于詞匯和句子層面的基本語(yǔ)義理解和語(yǔ)義命題構(gòu)建,不涉及高層級(jí)能力,與YCT(四級(jí))閱讀分測(cè)驗(yàn)的考查目標(biāo)比較一致。
細(xì)觀可知,測(cè)驗(yàn)對(duì)四個(gè)子技能的考查強(qiáng)度并不相同:“詞匯識(shí)別”子技能考查了21 次,“句法分析”5 次,“語(yǔ)義命題構(gòu)建”8 次,“推理”3 次?!霸~匯識(shí)別”和“語(yǔ)義命題構(gòu)建”均為低層級(jí)的閱讀技能(Grabe,2009:21-38),YCT(四級(jí))將閱讀考查重點(diǎn)放在這兩種子技能上,與其考試定位一致。雖然“句法分析”也是一種低層級(jí)的閱讀技能,但測(cè)驗(yàn)對(duì)其僅有5 次考查,且考查多嵌套在交際任務(wù)中,而非進(jìn)行單純的語(yǔ)法考查,這應(yīng)與測(cè)驗(yàn)開(kāi)發(fā)的理念相關(guān):重視考生漢語(yǔ)實(shí)際應(yīng)用能力,不強(qiáng)調(diào)對(duì)具體語(yǔ)法點(diǎn)的考查。另外,“推理”是對(duì)文本中沒(méi)有明確提及信息的加工過(guò)程,它是基于“語(yǔ)義命題構(gòu)建”或者考生的背景知識(shí)進(jìn)行的,屬于稍高層級(jí)的閱讀技能,不是YCT(四級(jí))的考查重點(diǎn),僅有3 次考查也符合這一定位。
這四種閱讀子技能的確認(rèn),不但明確了YCT(四級(jí))閱讀測(cè)驗(yàn)所考查能力的基本結(jié)構(gòu),而且為析出Q 矩陣,進(jìn)而進(jìn)行診斷分析奠定了基礎(chǔ)。
合理的Q 矩陣是診斷分析指導(dǎo)教學(xué)實(shí)踐、為教學(xué)提供切實(shí)有效建議的重要基礎(chǔ)。以往研究中,雖有研究單獨(dú)采用質(zhì)性分析方法來(lái)構(gòu)建Q 矩陣,但更多的研究采用的是質(zhì)性與量化相結(jié)合的方法(Lee&Sawaki,2009)。
以往研究所采用的質(zhì)性分析方法主要包括文獻(xiàn)回顧、專家判斷和出聲思維等方法。本研究質(zhì)性分析同樣采用了文獻(xiàn)回顧和專家判斷方法,并基于這兩種方法,確認(rèn)了測(cè)驗(yàn)所考查的子技能、構(gòu)建了初始Q 矩陣。雖然被試的出聲思維報(bào)告可以更直接地獲取其語(yǔ)言處理過(guò)程(Kucan & Beck,1997),但研究未采用此方法,這主要是因?yàn)槟繕?biāo)被試在漢語(yǔ)水平和認(rèn)知能力兩方面都處于不太成熟的階段,在完成試題作答的同時(shí)用漢語(yǔ)進(jìn)行出聲思維報(bào)告存在較大的困難;而如果無(wú)法保證被試在報(bào)告過(guò)程中所述信息的準(zhǔn)確性,出聲思維方法的效果就會(huì)大打折扣。
構(gòu)建Q 矩陣所使用的量化方法,隨著模型開(kāi)發(fā)的進(jìn)展,存在較大的變化。早期研究中的量化方法一般采用較為簡(jiǎn)單的指標(biāo),幫助研究者對(duì)子技能的取舍進(jìn)行粗略判斷,比如Buck 等(1997)采用了多種基礎(chǔ)指標(biāo):均值低于0.98、與總分的相關(guān)大于0.2 和偏回歸系數(shù)(在對(duì)總分的多重線性回歸中)在0.0001水平上顯著不為0 的子技能能夠被保留下來(lái)。后期研究不少都采用了基于認(rèn)知診斷模型的量化方法,能夠利用更為細(xì)致的指標(biāo)對(duì)子技能的作用進(jìn)行具體評(píng)估,基于R-RUM 模型的方法就是其中較為突出的一種。本研究采用了質(zhì)性與量化相結(jié)合的方法,基于多角度證據(jù)來(lái)源構(gòu)建目標(biāo)測(cè)驗(yàn)Q 矩陣。對(duì)實(shí)證數(shù)據(jù)進(jìn)行量化分析時(shí),研究通過(guò)R-RUM 模型的兩個(gè)題目參數(shù)對(duì)子技能指派的必要性和冗余度進(jìn)行判斷,通過(guò)模型與題目的擬合指標(biāo)對(duì)Q 矩陣所構(gòu)建的模型與實(shí)測(cè)數(shù)據(jù)的擬合情況進(jìn)行判斷,并以此為依據(jù)對(duì)初始Q 矩陣進(jìn)行優(yōu)化和檢驗(yàn)。
綜上,本研究采用文獻(xiàn)回顧、專家判斷、基于認(rèn)知診斷模型的數(shù)據(jù)分析等橫跨質(zhì)性和量化兩方面的方法,構(gòu)建出了YCT(四級(jí))閱讀測(cè)驗(yàn)的Q 矩陣。對(duì)于結(jié)構(gòu)復(fù)雜、所包含子技能模糊的國(guó)際中文閱讀測(cè)驗(yàn)來(lái)說(shuō),多角度的證據(jù)來(lái)源能夠進(jìn)行交叉驗(yàn)證,從而在更大程度上保障所構(gòu)建Q 矩陣的合理性。
開(kāi)發(fā)真正的診斷性測(cè)驗(yàn)或者從非診斷性測(cè)驗(yàn)中抽取診斷信息,是當(dāng)下獲取診斷信息的兩種途徑。目前,在閱讀測(cè)驗(yàn)領(lǐng)域,真正的診斷性測(cè)驗(yàn)極少,因?yàn)樵\斷性測(cè)驗(yàn)的開(kāi)發(fā)絕非易事,需要耗費(fèi)大量的人力、物力和時(shí)間(Alderson、Haapakangas、Huhta、Nieminen &Ullakonoja,2015)。因此,從非診斷性測(cè)驗(yàn)中抽取診斷信息,雖然并非獲取診斷信息的最優(yōu)途徑,卻是目前較為可行的方案,尤其是對(duì)于還沒(méi)有真正的診斷性測(cè)驗(yàn)的國(guó)際中文閱讀領(lǐng)域來(lái)說(shuō)。
非診斷性測(cè)驗(yàn)構(gòu)建Q 矩陣需要對(duì)現(xiàn)有測(cè)驗(yàn)進(jìn)行事后分析,合理的Q 矩陣對(duì)于診斷分析的成功實(shí)施具有決定性意義。本研究確認(rèn)的閱讀子技能有4 個(gè),這個(gè)數(shù)量與以往不少研究相當(dāng),比如Li & Suen(2014)和Lee & Sawaki(2009)。實(shí)際上,在構(gòu)建非診斷性測(cè)驗(yàn)Q 矩陣時(shí),子技能粒度大小的設(shè)置尤為關(guān)鍵。子技能粒度是指對(duì)子技能劃分的細(xì)致程度,粒度大則子技能劃分較粗、數(shù)量較少,粒度小則子技能劃分較細(xì)、數(shù)量較多。子技能粒度越小,診斷能力就越強(qiáng),分析結(jié)果對(duì)現(xiàn)實(shí)中教學(xué)實(shí)踐的指導(dǎo)就可能越具針對(duì)性??紤]到診斷需求的滿足,子技能粒度應(yīng)小一些。然而,對(duì)于非診斷性測(cè)驗(yàn)來(lái)說(shuō),測(cè)驗(yàn)開(kāi)發(fā)時(shí)的藍(lán)圖一般并未能考慮到事后進(jìn)行診斷性分析的需求,如果在事后確定Q 矩陣時(shí)子技能劃分過(guò)細(xì),很可能會(huì)導(dǎo)致測(cè)驗(yàn)對(duì)某些重要子技能的考查次數(shù)過(guò)少甚至未能考查某些重要的子技能;而一般來(lái)說(shuō),如果單個(gè)子技能的考察次數(shù)不足三次,認(rèn)知診斷模型中的相關(guān)參數(shù)很難得到準(zhǔn)確估計(jì),也就是說(shuō)子技能的考察次數(shù)不足會(huì)給后面的參數(shù)估計(jì)以及診斷分析的結(jié)果報(bào)告等帶來(lái)一系列的困難。由此可知,因?yàn)榉窃\斷性測(cè)驗(yàn)Q矩陣的構(gòu)建需要在現(xiàn)存測(cè)驗(yàn)的框架下進(jìn)行,就必須綜合、平衡更多方面的要求,從而更加具有挑戰(zhàn)性。
當(dāng)然,我們同樣清楚,即使構(gòu)建Q 矩陣時(shí)考慮得比較全面,基于非診斷性測(cè)驗(yàn)所進(jìn)行的診斷分析,仍然無(wú)法擺脫現(xiàn)存測(cè)驗(yàn)本身固有特征的束縛。開(kāi)發(fā)真正的診斷性測(cè)驗(yàn),能夠在根本上保障診斷信息的獲取,后續(xù)研究可以在這一領(lǐng)域持續(xù)發(fā)力。
研究通過(guò)文獻(xiàn)分析法與專家判斷法,得到了目標(biāo)測(cè)驗(yàn)所考查的閱讀子技能并初步構(gòu)建了Q 矩陣;通過(guò)基于R-RUM 模型的量化分析,對(duì)初始Q 矩陣進(jìn)行了優(yōu)化和檢驗(yàn)。結(jié)果表明,YCT(四級(jí))閱讀測(cè)驗(yàn)考查了“詞匯識(shí)別”“句法分析”“語(yǔ)義命題構(gòu)建”和“推理”四種子技能;對(duì)于所考查能力結(jié)構(gòu)復(fù)雜的現(xiàn)存大型標(biāo)準(zhǔn)化國(guó)際中文閱讀測(cè)驗(yàn)而言,采用質(zhì)性分析與量化分析相結(jié)合的方法,能夠?qū)y(cè)驗(yàn)對(duì)各子技能的考查情況進(jìn)行全面、細(xì)致評(píng)估,并在此基礎(chǔ)上有效構(gòu)建Q 矩陣。