王淑華
(上海大學(xué) 文學(xué)院,上海 200444)
為提高國民語言文字素質(zhì),推進中華文化傳承,教育部、國家語委組織語言學(xué)、教育測量學(xué)等不同領(lǐng)域的專家,在充分調(diào)查和取樣的基礎(chǔ)上,研制了《漢字應(yīng)用水平測試等級及測試大綱》(2006年8月28日發(fā)布),并于2007年正式推出漢字應(yīng)用水平測試。目前已在北京、天津、河北、遼寧、黑龍江、上海、江蘇、江西、山東、河南、湖南、云南、甘肅、寧夏等14個省(自治區(qū)、直轄市)組織開展,已有20萬以上人次獲得成績認(rèn)證。
漢字應(yīng)用水平測試屬于國家級語言類標(biāo)準(zhǔn)化測試,用來檢測中等以上受教育程度人群的漢字應(yīng)用水平,可作為部分與漢字關(guān)系密切的職業(yè)或行業(yè)錄用人才的參考。
信度和效度是評價測試質(zhì)量的兩個重要指標(biāo)。漢字應(yīng)用水平測試作為一項國家級語言類標(biāo)準(zhǔn)化水平測試,理應(yīng)具備較為理想的信度和效度。
漢字應(yīng)用水平測試從首測到現(xiàn)在已經(jīng)超過10年,其間測試范圍、題型、等級劃分、入級標(biāo)準(zhǔn)、受測對象測試成績和入級結(jié)構(gòu)等均發(fā)生了一定程度的變化。[1]比較明顯的分界線是在2014年。在此之前實行的是2006年發(fā)布的大綱,在此之后開始使用的是新大綱(2014年試行,2016年發(fā)布)。
通過對新大綱實施前后漢字應(yīng)用水平測試的信度和效度進行分析,探究十多年來漢字應(yīng)用水平測試的穩(wěn)定性、可靠性和有效性。我們分別以上海市2012和2015年的測試成績作為新大綱實施前后測試成績的代表??紤]上海市參測人數(shù)較多 ,故從2012年和2015年的受測者中隨機抽取400位左右作為樣本,最終抽取結(jié)果是2012年407位,2015年413位。樣本成績概況如下:
表1 漢字應(yīng)用水平測試樣本成績表
下面我們將運用教育測量學(xué)的方法,使用Spss20.0對新大綱實施前后漢字應(yīng)用水平測試的信度和效度進行研究。
(1)信度和漢字應(yīng)用水平測試。信度是指測驗結(jié)果的一致性、穩(wěn)定性及可靠性。信度系數(shù)越高即表示該測驗的結(jié)果越一致、穩(wěn)定與可靠。常見的信度有再測信度、復(fù)本信度、內(nèi)部一致性信度和評分者信度。[2]117
就漢字應(yīng)用水平測試而言,上文提到的4種信度,再測信度不具備現(xiàn)實性,因為測試目前并未大面積開展,所以很難找到適合規(guī)模的受測者在適當(dāng)?shù)臅r間內(nèi)參加兩次漢字應(yīng)用水平測試。復(fù)本信度也較難操作,2007年和2008年測試曾有多種卷面,但2009年以后僅有一種。漢字應(yīng)用水平測試試題的主觀性試題較少,僅占整個卷面的25%左右,故也不宜僅考察評分者信度。因此,本文采用的是較為常用而且相對方便的內(nèi)部一致性信度。
內(nèi)部一致性信度有兩個重要指標(biāo),一個是分半信度,一個是克隆巴赫α系數(shù)。分半系數(shù)是按不同的方法(如前后分半、奇偶分半、隨機分半、人工分半等)將卷面試題分成兩個組成部分,計算這兩部分得分的相關(guān)系數(shù)。目前,國際上對信度的分析,通常采用α系數(shù)進行衡量,它提供的信度可以視為所有分半信度的平均值,α系數(shù)越高時,信度就越高。一般認(rèn)為,對于總量表來說, 0.65~0.69為最小可接受值,0.70~0.79為比較可靠,0.80~0.90為相當(dāng)可靠;0.9以上為非常可靠;對分量表來說,系數(shù)最好在0.70以上,0.60~0.69也可以接受。
(2)2012和2015年漢字應(yīng)用水平測試信度分析。我們計算了2012和2015年測試試卷整體信度和每個部分的信度,具體如下:
表2 漢字應(yīng)用水平測試試卷信度系數(shù)表
從表2可以看出,2012和2015年度漢字應(yīng)用水平測試試卷的α系數(shù)非常接近,整卷信度都超過了0.9,說明這兩份測試試卷的可靠性非常好,有很高的使用價值。曹昭計算了河北省2007年四個批次漢字應(yīng)用水平測試信度,結(jié)果分別為0.934、0.964、0.975、0.973。[3]對比這6份測試試卷的信度可知,漢字應(yīng)用水平測試試卷命題過程經(jīng)過了精心的組織與安排,質(zhì)量相當(dāng)穩(wěn)定,具有較高的可靠性。繼續(xù)觀察2012和2015年度每個部分的信度系數(shù),可以發(fā)現(xiàn)它們都較為接近,4個部分的差值依次為0.032、-0.028、0.022、0.003。2012年第一、三、四部分的系數(shù)略高于2015年的對應(yīng)部分,但2015年的整卷系數(shù)和第二部分的系數(shù)高于2012年??梢?,雖然2012和2015年度的試卷題型發(fā)生了較大的變化 ,但整卷和各組成部分的α系數(shù)并未發(fā)生明顯變化。
就測試試卷4個具體的組成部分而言,漢字書寫部分的信度系數(shù)在兩個年度中均是最高值,字音認(rèn)讀和字形辨誤居中,漢字選用部分在兩個年度均是最低值,不過也居于0.6~0.7之間,屬于可以接受的范圍。我們進一步計算了測試試卷4個組成部分試題的平均難度和區(qū)分度 ,發(fā)現(xiàn)其呈現(xiàn)出的趨勢也與信度系數(shù)基本相同,具體如下:
表3 漢字應(yīng)用水平測試試卷組成部分的難度和區(qū)分度
從表3可以看出,2012年的字音認(rèn)讀部分難度和區(qū)分度均處于合理區(qū)間,但2015年略低于理想水平;字形辨誤部分,兩年的難度和區(qū)分度均略低于理想水平; 漢字選用部分,兩年的難度和區(qū)分度也均低于理想水平,尤其是區(qū)分度,不僅是兩個年度最低水平,而且距理想值相差較大;漢字書寫部分表現(xiàn)最佳,兩年的難度和區(qū)分度均處于合理的區(qū)間。結(jié)合表2和表3,可以發(fā)現(xiàn),相較于其他部分的試題,漢字選用部分應(yīng)該給予更多關(guān)注,以提高其難度和區(qū)分度,進而提高整個組成部分的信度。
(1)效度和漢字應(yīng)用水平測試。效度是測量的有效性,即測量工具的準(zhǔn)確性、有用性,能測出其所要測量特質(zhì)的程度。效度是科學(xué)的測量工具所必須具備的最重要的條件。正常情況下,測量不會“完全有效”或“完全無效”,所以,效度只有程度上的差異。
美國心理學(xué)會編制的《教育與心理測驗標(biāo)準(zhǔn)》第3、4版將效度分為3種類型:內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度和構(gòu)想效度。[2]122這種分類是業(yè)界最常采用的效度分類方法。
漢字應(yīng)用水平測試尚處于試點階段,受測群體主要是學(xué)生和教師,還有部分是編輯、公務(wù)員、廣告從業(yè)人員等。由于目前沒有類似的可以與該測試進行比較或關(guān)聯(lián)的其他指標(biāo)、測試或變量作為效標(biāo),因此,不適合采用效標(biāo)關(guān)聯(lián)效度,故下文對漢字應(yīng)用水平測試效度的驗證,采用內(nèi)容效度和構(gòu)想效度相結(jié)合的方法。
(2)2012和2015年漢字應(yīng)用水平測試效度分析:①內(nèi)容效度。內(nèi)容效度又稱邏輯效度,指測驗項目對應(yīng)測內(nèi)容或行為領(lǐng)域取樣的適當(dāng)程度,即測量內(nèi)容的適當(dāng)性和相符性。其分析常采用邏輯方法,依靠專家對測驗題目與應(yīng)測內(nèi)容范圍的吻合程度做出判斷。常用方法是把所有題目按考試內(nèi)容分布和考察目標(biāo)分布進行雙向分類,形成一份“題目雙向分類表”。以這個表為基礎(chǔ),對測試內(nèi)容效度的滿意程度做出判斷或描述。對漢字應(yīng)用水平測試內(nèi)容效度的分析可以從試題卷對測試字表和測試點的覆蓋程度等兩個角度來進行。
試題卷對測試字表的覆蓋程度。《漢字應(yīng)用水平等級及測試大綱》明確規(guī)定,漢字應(yīng)用水平測試的范圍是《通用規(guī)范漢字表》中的一級字和部分二級字,測試內(nèi)容是“漢字應(yīng)用水平測試字表”(簡稱為“字表”)中全部漢字的字形、字音、字義及用法。字表總字量為5 500字,分甲、乙、丙三個子表,其中甲表4 000字,乙表500字,丙表1 000字。試題卷由四個部分共120道試題構(gòu)成,四個部分的內(nèi)容均按7∶2∶1的比例從甲、乙、丙三表中選取。
我們統(tǒng)計了2012和2015年各部分總體用字和直接測試字的字表屬性,具體如下:
表4 2012年漢字應(yīng)用水平測試組成部分字種和測試字字表屬性n(%)
表5 2015年漢字應(yīng)用水平測試組成部分字種和測試字字表屬性n(%)
從表4和表5可以看出;
第一,兩個年度各部分的總字種和測試字在滿足大綱比例要求方面均有所欠缺??偟膬A向是甲表字使用較多,乙表字、丙表字較少;
第二,兩個年度所用總字種的字表比例較為接近,測試字的比例較總字種更接近大綱的要求。2015年度各部分測試字的字表比例優(yōu)于2012年的對應(yīng)部分,尤其是2015年的第四部分漢字書寫,跟大綱要求完全一致。
第三,2012年度卷面中出現(xiàn)了4個表外字,其中1個為測試字??紤]到在漢字實際應(yīng)用的閱讀和書寫實踐中,會經(jīng)常遇到表外字,因此,在試卷中出現(xiàn)適當(dāng)比例的表外字是較為合理的,尤其是不以直接測試字的形式出現(xiàn)時,能更準(zhǔn)確地衡量受測者的漢字能力。
總的來說,測試研制部門應(yīng)采取相關(guān)措施,以保證試題測試內(nèi)容尤其是測試字的字表比例滿足大綱要求,這是測試內(nèi)容效度的一個重要方面。
試題卷對大綱測試點的覆蓋程度。大綱要求的具體測試點主要包括如下內(nèi)容:能否準(zhǔn)確識別和使用字表中漢字的規(guī)范字形,能否辨析并糾正書寫和使用中的各類錯誤;能否準(zhǔn)確判斷和使用這些漢字的普通話讀音,在使用環(huán)境中,能否識別和使用其中多音字的恰當(dāng)讀音;在使用環(huán)境中,能否掌握和使用這些漢字的常用意義、基本用法和一些特殊用法;是否具備了順暢地閱讀以規(guī)范漢字為媒介的現(xiàn)代文獻資料的漢字基礎(chǔ),能否在廣泛領(lǐng)域或一般領(lǐng)域用漢字進行書面表達。[4]2-3
兩個年度測試試卷均分為4個組成部分,每部分30題。下面我們對照大綱的表述,依次來分析2012和2015年測試試卷每個組成部分的內(nèi)容效度。
表6 漢字應(yīng)用水平測試試卷各組成部分內(nèi)容效度分析 HJ*3
從表6可以看出,大綱的測試點中,除了“能否在廣泛領(lǐng)域或一般領(lǐng)域用漢字進行書面表達”一點在測試試卷中未有涉及,漢字的普通話讀音、規(guī)范字形和常用意義等均在多處進行了考查。其中,辨別形聲字、同音字、形近字和音近字,并在詞語或更大語境中準(zhǔn)確使用這些漢字的能力,規(guī)范書寫漢字字形,是漢字應(yīng)用水平測試的重要測試點。因此,可以認(rèn)為漢字應(yīng)用水平測試在覆蓋大綱測試點方面,表現(xiàn)良好。
2015年的試題有較強的“去語境化”的趨勢:字音認(rèn)讀部分的題干調(diào)整為漢字;字形辨誤部分的題干調(diào)整為詞語,不再出現(xiàn)以句子為題干的試題;漢字書寫部分的題干調(diào)整為詞語和句子,不再出現(xiàn)以語段為題干的試題。因此,2015年試卷,對多音字的讀音、具備順暢地閱讀以規(guī)范漢字為媒介的現(xiàn)代文獻資料的漢字基礎(chǔ)這兩點的考查,均弱于2012年。
②構(gòu)想效度。構(gòu)想效度又稱結(jié)構(gòu)效度。一般認(rèn)為,所謂結(jié)構(gòu),是“心理學(xué)或社會學(xué)上的一種理論構(gòu)想或特質(zhì)。它本身觀察不到,并且也無法直接測量到,但學(xué)術(shù)理論假設(shè)它是存在的,以便能夠來解釋或預(yù)測個人或團體的行為表現(xiàn)。”[5]60-61結(jié)構(gòu)效度就是指一個測驗實際測到所要測量的理論結(jié)構(gòu)或特質(zhì)的程度,或者說它是指測驗分?jǐn)?shù)能夠說明心理學(xué)理論的某種結(jié)構(gòu)或特質(zhì)的程度。一般是先采用因子分析的方法進行公因子的提取,然后通過累計解釋的方差百分比來比較效度高低。
首先,我們要對有效樣本數(shù)據(jù)進行KMO抽樣適當(dāng)性檢驗和Bartlett球形檢驗,然后觀察檢驗結(jié)果。KMO值在0和1之間,越接近于1,說明變量間的相關(guān)性越強,原有變量越適合作因子分析;KMO值越接近于0,說明變量間的相關(guān)性越弱,原有變量越不適合做因子分析。常用的KMO度量標(biāo)準(zhǔn)如下:0.9以上表示非常適合;0.8~0.9表示很適合;0.7~0.8以上表示適合;0.6~0.7表示勉強適合;0.5~0.6表示不太適合,0.5以下表示不適合。Bartlett球形檢驗的p值小于或等于0.01,表示非常適合。
接下來我們采用主成分分析法,進行最大方差法的正交旋轉(zhuǎn),最終提取特征值大于1的因子若干個,假如這些共同因子累計解釋的變異量為大于60%的話 ,說明該部分內(nèi)容的結(jié)構(gòu)效度較好。2012年和2015年漢字應(yīng)用水平測試試卷結(jié)構(gòu)效度如下:
表7 2012和2015年漢字應(yīng)用水平測試試卷結(jié)構(gòu)效度
從上表可以看出,就KMO值而言,2012年和2015年除第三部分,整體和另三個部分的值均在0.7以上,第四部分還超過了0.8;Bartlett球形檢驗p值均小于0.01。就整卷而言,共同因子的解釋變量均達到65%以上,說明2012年和2015年漢字應(yīng)用水平測試試卷的效度都在可以接受的范圍,但也存在繼續(xù)改進的空間。
影響測試信度的主要因素是受測者、施測者、施測情境、測量工具、兩次施測時間間隔等;影響測試效度的主要因素是測量工具、測試實施過程等,其中測量工具是主要因素。
就漢字應(yīng)用水平測試本身來說,測試要求在80分鐘內(nèi)完成120個得分點,時間合適,題量充足;就具體施測過程來說,測試通常在每年11月中旬的非工作日舉行,因未涉聽力與口語,對測試環(huán)境要求不高,各地語委在測前均會組織監(jiān)考人員參加培訓(xùn),并按時巡查,以應(yīng)對意外情況的發(fā)生,管理組織工作到位;因此,提高漢字應(yīng)用水平測試的信度和效度主要可以從受測者、施測者、測試工具等方面入手。
(1)擴大受測范圍,增強受測者之間的異質(zhì)性。受測者就個人而言,其測試成績常受個體身心狀況、注意力集中程度等因素的影響。不過,這些因素較難控制,我們暫不討論。而就受測群體而言,目前漢字應(yīng)用水平測試的受測對象主要集中在學(xué)生與教師兩大群體中,考慮到漢字應(yīng)用能力應(yīng)該是每一個漢語母語者應(yīng)具備的基本能力,未來測試應(yīng)逐漸擴展至其他人群。受測者之間的異質(zhì)程度越高,信度就越高。
(2)提高評分者信度,降低測試人工閱卷部分的主觀性。漢字應(yīng)用水平測試第四部分“漢字書寫”(共30道題)為主觀性試題,由閱卷老師進行評閱。閱卷時,不同評閱教師、同一教師在不同時間對連筆、形近筆畫之間的替代、部分筆畫居于“米”字格外等問題的容忍程度可能有別,對位于不同位置的筆畫變形、筆畫形狀和筆畫之間關(guān)系的準(zhǔn)確程度要求不一,這些都會導(dǎo)致評分者誤差的產(chǎn)生。
國家語委可以組織各地語委同時進行預(yù)閱卷工作 ,擴大預(yù)閱卷的數(shù)量和范圍,了解本次測試所涉漢字評分標(biāo)準(zhǔn)可能存在差異的各種表現(xiàn),制定出相應(yīng)的評分標(biāo)準(zhǔn),再加強對閱卷員的培訓(xùn)工作,可以最大限度地保證評分標(biāo)準(zhǔn)解釋的確定性,減少評分員主觀判斷的成分,以此提高評分者信度。
(3)豐富測試題型,全面覆蓋漢字應(yīng)用水平測試大綱中的測試點。上文已指出,2012和2015年試卷各組成部分的用字情況在滿足大綱要求(甲、乙、丙3表比例為7:2:1)方面均有所欠缺,未考查到受測者“用書面漢字進行表達”的能力,且對漢字字義的考查不夠明確。2015年測試試卷對多音字的考查較少,對現(xiàn)代文獻閱讀能力的考查較少,這些都是可以改進的地方。測試研發(fā)者應(yīng)盡量開發(fā)更多試題類型,以適應(yīng)大綱對漢字能力不同側(cè)面的考核要求。
(4)加強題庫建設(shè),提高試題對大綱不同字表的準(zhǔn)確覆蓋程度。題庫是按照一定的教育測量理論在計算機系統(tǒng)中實現(xiàn)的大量試題的集合。對于任何一項測試來說,題庫都是非常重要的資源。以漢字應(yīng)用水平測試字表中的漢字為核心,建立漢字應(yīng)用水平測試題庫,標(biāo)注題庫中所有漢字的字表屬性,利用計算機程序完成初步的組卷工作,再進行人工干預(yù),可以有效提高試題覆蓋甲、乙、丙三個字表的準(zhǔn)確程度。
(5)對測試結(jié)果進行定量分析,加強對試題難度與區(qū)分度的把握。對測試試卷的分析表明,各組成部分尤其是漢字選用部分,有一些試題總體難度和區(qū)分度均未達到理想?yún)^(qū)間,不符合要求。因此,如何保證漢字應(yīng)用水平測試各組成部分試題的難度和區(qū)分度處于理想?yún)^(qū)間,是測試開發(fā)者需要重視的一個問題。對歷年試卷的用字用詞情況和測試結(jié)果等進行定量分析,逐步豐富題庫中的試題屬性,可促進漢字應(yīng)用水平測試命題工作朝更規(guī)范、科學(xué)的方向發(fā)展。