張泉慧 張 穎 馮 攀
全國醫(yī)學(xué)博士外語統(tǒng)一考試是根據(jù)國務(wù)院學(xué)位委員會頒發(fā)的《臨床醫(yī)學(xué)專業(yè)學(xué)位試行辦法》和《口腔醫(yī)學(xué)專業(yè)學(xué)位試行辦法》,為醫(yī)學(xué)博士研究生招生單位提供服務(wù)而設(shè)置的考試??荚嚢ㄓ⒄Z、日語、俄語三個類別,旨在考查考生掌握和運用外語的實際能力,保證醫(yī)學(xué)博士學(xué)位的授予質(zhì)量[1]??荚囎?002 年起實施,2018 年修訂考試大綱,2019 年正式實施新的考試大綱。新大綱更加注重考查學(xué)生的外語應(yīng)用能力和交際能力,要求考生在聽、說、讀、寫的應(yīng)用方面加強訓(xùn)練。因此,本研究試圖通過對考試數(shù)據(jù)的分析,了解大綱修訂后聽力理解題目結(jié)構(gòu)變化對考生作答的影響,分析考生在聽力屬性上的掌握情況變化。
以往,對于考試的研究分析主要集中在經(jīng)典測驗理論的難度、區(qū)分度等指標(biāo)的評價上。這些指標(biāo)較為籠統(tǒng),對于試題開發(fā)和考生個人的指導(dǎo)作用相對有限。相比而言,項目反應(yīng)理論在參數(shù)估計方面表現(xiàn)更穩(wěn)定,能提供更多有價值的題目信息,本研究在對比大綱修訂前后題目參數(shù)變化時,主要采用項目反應(yīng)理論進(jìn)行分析。以往的考試很少探查到考生作答背后所涉及的認(rèn)知心理加工過程及屬性表現(xiàn)。隨著認(rèn)知診斷這一測驗新理論的出現(xiàn),認(rèn)知水平與能力評估建立了更密切的關(guān)系,從題目反應(yīng)獲得更細(xì)致的屬性評價成為可能,向考生個人提供更有效的分?jǐn)?shù)解釋得以實現(xiàn),這使得認(rèn)知診斷研究成為近年來的熱點。本研究試圖通過認(rèn)知診斷模型探討題目考查屬性的變化和考生的屬性掌握情況。
當(dāng)前認(rèn)知診斷應(yīng)用的模型已超過六十種,主要分為兩類:一類是多成分潛在特質(zhì)模型,即通過考生作答反應(yīng)分析其具備的潛在特質(zhì),如線性邏輯斯蒂克特質(zhì)模型、多成分潛在特質(zhì)模型以及多維項目反應(yīng)理論下的一系列模型;另一類是潛在分類模型,即按照考生的得分模式找到潛在特質(zhì)上質(zhì)的差異并據(jù)此分類,如Tatsuoka 等提出的規(guī)則空間模型、新發(fā)展起來的融合模型、統(tǒng)一模型、DINA 模型、G-DINA 模型等。其中,G-DINA 模型是當(dāng)前使用較為廣泛的一種認(rèn)知模型,由de la Torre[2]提出,該模型假設(shè)相對寬松,認(rèn)為試題各認(rèn)知屬性對試題答對概率有著不同的貢獻(xiàn)比例,掌握部分認(rèn)知屬性的被試也有一定的答對概率,具有補償性、飽和性特征。一些國內(nèi)研究者認(rèn)為,G-DINA 模型的補償性特征契合了語言測驗的綜合性和多元性,飽和性特征則比較理想地應(yīng)對了語言屬性的抽象性和難區(qū)分性,因此對語言測驗的多元性和抽象性特征有較高的適應(yīng)度[3,4]。
從近些年的文獻(xiàn)來看,國內(nèi)已有一些研究者對該模型進(jìn)行了探索與研究:吳婷使用G-DINA 模型對九年級學(xué)生進(jìn)行數(shù)學(xué)學(xué)科中“圓認(rèn)識”專題的診斷分析[5];胡泊、泰中華以2019 年英語專八閱讀選擇題為例,應(yīng)用G-DINA 模型進(jìn)行實證研究[6];王磊等基于G-DINA 模型分析高中數(shù)學(xué)測驗[7];董艷云等對比分析了Mixed-CDMs 與G-DINA 模型在英語聽力診斷測評中的應(yīng)用[8];劉歡在小學(xué)五年級閱讀能力測評中采用五種認(rèn)知診斷模型(含G-DINA)進(jìn)行研究[9];肖云南使用G-DINA 模型對大學(xué)英語分級測試聽力理解做了認(rèn)知診斷研究[3];孟亞茹應(yīng)用G-DINA 模型對大學(xué)生聽力能力進(jìn)行診斷[11];陳慧麟、陳勁松分別應(yīng)用G-DINA 模型的補償模型及飽和模型對PISA閱讀測試進(jìn)行了認(rèn)知診斷[4]。但總體來看,G-DINA應(yīng)用于語言測試領(lǐng)域的相關(guān)研究仍較為有限,涉及聽力理解的認(rèn)知診斷數(shù)量較少,研究更多停留在分析探討階段,運用到實際考試反饋中的不多。
基于此,本研究采用IRT 估計試題參數(shù),對比考試大綱修訂前后題目參數(shù)的變化;采用G-DINA 模型進(jìn)行認(rèn)知診斷,分析考生聽力屬性考查點的變化與考生屬性掌握情況的變化,探討具體原因,最后形成考生個性化分?jǐn)?shù)報告模板,嘗試為后續(xù)反饋試題命制、促進(jìn)教學(xué)、幫助考生了解自身潛質(zhì)與不足起到參考作用。
2018 年與2019 年全國醫(yī)學(xué)博士英語統(tǒng)一考試聽力理解測驗,測驗長度30題,作答時間30分鐘,內(nèi)容對比如表1所示:
表1 聽力理解測驗內(nèi)容結(jié)構(gòu)
根據(jù)兩個年度的測驗,描述考生構(gòu)成及成績,采用IRT 估計試題參數(shù),劃分聽力屬性,使用探索性結(jié)構(gòu)方程模型分析數(shù)據(jù)與模型擬合度,最后應(yīng)用G-DINA模型進(jìn)行認(rèn)知診斷。
具體方法如下:應(yīng)用Visual Foxpro9.0 自編程序描述考生構(gòu)成及成績。采用R 軟件包,估計IRT 試題參數(shù)。認(rèn)知診斷時,根據(jù)以往文獻(xiàn)中有關(guān)聽力屬性的劃分,請相關(guān)專家逐題標(biāo)注題目屬性;采用MPLUS.7 軟件中的探索性結(jié)構(gòu)方程模型分析數(shù)據(jù),根據(jù)標(biāo)準(zhǔn)化殘差均方根(Standardized Root Mean square Residual,SRMR)、近似均方根誤差(Root Mean Square Error of Approximation,RMSEA)、相對擬 合 指 數(shù)(Comparative Fit Index,CFI;Tucker-Lewis Index,TLI)等相關(guān)指標(biāo)分析數(shù)據(jù)與模型的擬合程度;最后選擇G-DINA 模型進(jìn)行認(rèn)知診斷,了解考生在不同聽力能力屬性上的掌握情況,模型計算公式如下:
其中,考生完成試題j時被細(xì)分為個潛在類別組,代表題目j所需的屬性;P() 代表考生對試題j的答對概率,δj0是猜測答對概率,即不具備任何認(rèn)知屬性時的答對概率;δjk是掌握單一的認(rèn)知屬性αlk時對答對概率的影響;δjkk′是指認(rèn)知屬性αlk和αlk′的掌握對答對概率的交互性作用;δj2...k*是全部認(rèn)知屬性的掌握對答對概率的交互性作用。
如表2 所示,兩個年度考生年齡集中在30-40歲,比例接近60%;考生男女比例接近,各自約占一半;學(xué)歷構(gòu)成中,碩士研究生比例最高,兩個年度占比都在90%左右。
表2 考生背景構(gòu)成
如表3 所示,2019 年考生人數(shù)增加,平均分和試卷信度均高于2018 年,顯著性檢驗P <0.01,具有統(tǒng)計學(xué)意義。
表3 考生成績描述
IRT 包括單參數(shù)、雙參數(shù)和三參數(shù)模型,三個模型下的參數(shù)估計結(jié)果顯示:題目參數(shù)良好,其中三參數(shù)模型數(shù)據(jù)與模型擬合更優(yōu),擬合度指標(biāo)——殘差均方(Mean-square,MNSQ)為1.005(單參數(shù)模型為1.012,雙參數(shù)模型為1.009),理想擬合情況下的MNSQ 值為1,MNSQ 值在0.5-1.5 之間表示數(shù)據(jù)與模型預(yù)期擬合程度可接受,三參數(shù)擬合度最接近1,擬合更好;參數(shù)估計標(biāo)準(zhǔn)誤數(shù)值為0.03(單參數(shù)模型為0.04,雙參數(shù)模型為0.06),誤差最小。
IRT 理論中,難度b數(shù)值越大,難度越大;區(qū)分度a數(shù)值越大,題目區(qū)分度越大。和2018 年相比,2019年聽力測驗平均難度降低,整體區(qū)分度提高,題目猜測度接近。2019 年試卷總信息量高于2018 年,測量誤差更小,測量精度和穩(wěn)定性更好。具體結(jié)果如表4所示:
表4 兩個年度聽力理解測驗題目參數(shù)
研究參照以往第二語言測試中聽力理解相關(guān)文獻(xiàn)研究的結(jié)果,結(jié)合博士英語聽力理解考試的題型結(jié)構(gòu),并與命題專家討論,初步確定了該考試中涉及的七個認(rèn)知屬性A1~A7(通過與專家的討論,并參考已有文獻(xiàn),假設(shè)屬性之間沒有固定的層級關(guān)系),分別為:
?A1 理解詞語與詞組
?A2 理解句子及結(jié)構(gòu)
?A3 定位事實和細(xì)節(jié)
?A4 識別語境
?A5 總結(jié)與概括
?A6 推理
?A7 選擇性注意
如表5 所示,這些認(rèn)知屬性主要劃分為兩個層面,語言知識和理解策略;兩者之間相互并行,考生作答時可同時使用不同層面的認(rèn)知屬性。
表5 聽力認(rèn)知屬性界定
根據(jù)表5 聽力屬性劃分,研究標(biāo)注并對比了兩個年度中每道聽力試題所涉及的屬性,表6 為題目標(biāo)注情況,考查到的屬性標(biāo)注1,未考查的屬性標(biāo)注為0,一道題目可以只考查一項屬性,也可以同時考查多個屬性。
表6 聽力理解的認(rèn)知屬性Q矩陣
表7 顯示了模型與數(shù)據(jù)的擬合情況。一般來說,相對擬合指數(shù)(CFI、TLI)大于0.90,說明數(shù)據(jù)與模型擬合良好;標(biāo)準(zhǔn)化殘差均方根(SRMR)、近似均方根誤差(RMSEA)的結(jié)果越小,代表模型對參數(shù)的估計越接近真值,兩個年度TLI、CFI 都在0.9 以上,SRMR、RMSEA 數(shù)值小,均低于0.01,可知兩個年度的擬合情況都良好,模型與數(shù)據(jù)是匹配的。
表7 模型擬合情況
表8 顯示了兩個年度聽力題目中屬性考查的頻次,可以看出兩個年度考查的屬性總頻次是接近的,2019年考查的屬性略多;在前三項聽力屬性中,2018年比2019年考查的頻次更多,在后四項聽力屬性中,2019 年比2018 年考查的頻次更多。可以看出,2019年更多地測試了“理解策略”方面的高階聽力屬性。
表8 兩個年度聽力測驗屬性考查頻次
表9 所示為兩個年度考生在各認(rèn)知屬性上的掌握情況,2019 年考生在“語言知識”的掌握情況上略低于2018 年,但在“理解策略”方面的掌握情況明顯好于2018年。
表9 考生掌握各認(rèn)知屬性的掌握概率
根據(jù)考生得分情況,將得分前27%的考生劃分為高分組,得分后27%的考生劃分為低分組。如表9所示,2019 年考生在低階認(rèn)知屬性的掌握率與2018年接近;高階認(rèn)識屬性的掌握率優(yōu)于2018年。
表10 不同分組群體屬性掌握百分比(%)
圖1 2018、2019年度考生在聽力認(rèn)知屬性上的掌握率(%)
與大綱修訂前(2018 年)相比,2019 年的聽力測驗平均難度有所降低,這可能與考生整體水平的提高有關(guān),博士和碩士研究生整體人數(shù)較2018 年增加,博士研究生人數(shù)比例略有升高。2019 年聽力測驗的整體區(qū)分度提高,說明題目能更有效地區(qū)分不同能力水平的考生,同時測驗信度有所上升,測驗的可靠性與穩(wěn)定性更好。
兩個年度聽力認(rèn)知屬性的考查頻次各有不同。2018 年考查各屬性的總頻次為56 次,其中語言知識屬性(涉及A1、A2、A3 三個屬性)考查了18 次,理解策略方面(涉及A4、A5、A6、A7 四個屬性)考查了38次;2019年屬于修訂大綱后的第一次考試,考查各屬性的總頻次為60 次,其中語言知識屬性考查了11次,理解策略考查了49 次??梢钥闯?,修訂大綱后,題目更多地考查了理解策略,即更高階的聽力認(rèn)知屬性,這與大綱修訂的初衷相符,考試更加側(cè)重對語言應(yīng)用的考查,而非單個知識點的識記。
掌握概率描述的是考生掌握某項屬性的可能性。聽力屬性中語言知識方面,2018 年考生的總體掌握情況略好于2019 年;在“理解策略”方面(涉及A4、A5、A6、A7四個屬性),2018年不及2019年,由于2019 年聽力理解部分的平均分高于2018 年,可以推知2019 年的考生在理解策略上的得分更高,也就意味著考生在高階的聽力認(rèn)知屬性掌握情況越好,對分?jǐn)?shù)的貢獻(xiàn)越大。
7 個聽力認(rèn)知屬性中,考生在A2(理解句子及結(jié)構(gòu))、A3(定位事實與細(xì)節(jié))、A7(選擇性注意)的掌握概率在45%以上,高于其他屬性掌握情況,說明這三個屬性的難度相對較小,容易掌握。具體到不同認(rèn)知層面,考生對“語言知識”的掌握概率介于0.4~0.5之間,對“理解策略”的掌握概率在0.3~0.5 之間,可見,考生掌握“理解策略”的難度比“語言知識”更大。在使用“理解策略”時,考生A4、A5、A6 掌握率比A7要低,提示考生在“理解策略”中掌握薄弱的環(huán)節(jié)集中在識別語境、總結(jié)概括及推理;A7 掌握情況最好,意味著考生在聽文段的過程中,對特定詞匯等聽力信息進(jìn)行篩選、抓取的能力尚可,具備一定的有針對性捕捉相關(guān)信息的能力。
對高低水平組聽力屬性掌握情況進(jìn)行單因素方差分析,可知:兩組群體對7 種屬性的掌握概率存在統(tǒng)計學(xué)差異(P<0.01)。其中,低水平組對于理解策略的掌握情況明顯低于語言知識;相比之下,高水平群體對兩個層面的所有屬性掌握較為良好,大致在70%~83%之間浮動,“理解策略”的掌握概率要好于“語言知識”,其包含的四個屬性中,A5、A6、A7 這三個屬性的掌握情況最好,說明考生在總結(jié)概況、推理和選擇性注意方面的能力較強。這也意味著,如果想獲得更好的成績,考生需要加強整體語境、文段大意、文意推理等方面的能力,而這些能力本身需要知識的積累、語感的培養(yǎng)和不斷的練習(xí)才能有所提升。
同時也發(fā)現(xiàn),考生對聽力理解策略的使用與聽力水平高低密切相關(guān),高水平組對各種策略的掌握率更高;而低水平組成功使用各種策略的概率較低,會更多地將精力集中于語音語調(diào)辨認(rèn)、詞組及語法成分識別等低階的聽力屬性,應(yīng)用高階認(rèn)知屬性存在困難,因此建議醫(yī)學(xué)生的英語教學(xué)應(yīng)關(guān)注學(xué)生聽力理解過程中的策略培養(yǎng)與使用,針對學(xué)生的薄弱環(huán)節(jié)有的放矢地練習(xí)。
為了向考生提供更有效的分?jǐn)?shù)反饋,研究編制了考生分?jǐn)?shù)報告,報告中的提示能夠幫助考生在后續(xù)學(xué)習(xí)中針對自身的薄弱環(huán)節(jié)有目的地進(jìn)行改善。
圖2 考生分?jǐn)?shù)報告模板
全國博士英語統(tǒng)一考試在大綱修訂后,考試內(nèi)容結(jié)構(gòu)有所調(diào)整,從內(nèi)容上更側(cè)重交際能力的考查,題目的區(qū)分度更高,對聽力各認(rèn)知屬性的考查頻次更高,尤其是聽力屬性中涉及的高階認(rèn)知屬性,考查更多,體現(xiàn)了以能力為導(dǎo)向的要求,符合實際需求,與目前的教學(xué)評價改革的要求是一致的,這將對后續(xù)的學(xué)校教學(xué)、考生學(xué)習(xí)及考試改革等均起到積極的促進(jìn)作用。