曲霄紅
山西大同大學(xué)教育科學(xué)與技術(shù)學(xué)院 山西 037009
作為著名的開源科學(xué)計(jì)算軟件之一,科學(xué)計(jì)算自由軟件SCILAB具有運(yùn)行穩(wěn)定,占用計(jì)算機(jī)資源少,運(yùn)行速度快等優(yōu)點(diǎn),已經(jīng)被廣泛地引進(jìn)到教育研究、教學(xué)及產(chǎn)品開發(fā)中。而目前教育研究中一般采用價(jià)格昂貴的SPSS或MATLAB。
教育考試研究中,相關(guān)關(guān)系研究是經(jīng)常要研究的內(nèi)容之一,教育考試及相關(guān)調(diào)查中,一般都可以獲得兩個(gè)或多個(gè)變量的信息,考試研究常常需要探索這些變量之間的關(guān)系。本文在研究試題相關(guān)關(guān)系,利用SCILAB強(qiáng)大的數(shù)值計(jì)算功能,研究試題相關(guān)關(guān)系。
在教育研究中和實(shí)際工作中,當(dāng)以一個(gè)變量作為研究對(duì)象時(shí),只需要通過集中量和差異量來描述一組數(shù)據(jù)內(nèi)部的集中趨勢(shì)和差異程度。但是如果研究?jī)蓚€(gè)變量,那么就可能不僅要關(guān)系每個(gè)變量各自的集中趨勢(shì)和差異程度,還需要關(guān)系變量之間的關(guān)系。變量之間的關(guān)系要通過相關(guān)系數(shù)來描述。
教育統(tǒng)計(jì)學(xué)上有多個(gè)不同類型的相關(guān)系數(shù)。如積差相關(guān)系數(shù)、點(diǎn)二列相關(guān)系數(shù)、等級(jí)相關(guān)系數(shù)等。在相關(guān)分析中,要根據(jù)變量以及搜集的數(shù)據(jù)的具體情況來選用合適的相關(guān)系數(shù),這里選擇教育研究中常用的積差相關(guān)系數(shù)。
積差相關(guān)系數(shù)也稱為 Pearson系數(shù),是英國(guó)著名統(tǒng)計(jì)學(xué)家K Pearson于20世紀(jì)提出的一種計(jì)算相關(guān)關(guān)系的方法,它是兩個(gè)連續(xù)變量相關(guān)關(guān)系的一種參數(shù)測(cè)度。積差相關(guān)系數(shù)的基本公式是:
試題相關(guān)關(guān)系分析研究是希望通過剖析不同試題的相關(guān)關(guān)系,判斷各個(gè)試題對(duì)整個(gè)試卷測(cè)量結(jié)果貢獻(xiàn)方面的作用。
行為變量是指考試測(cè)量的某一行為目標(biāo),將該考試中所有測(cè)量這一目標(biāo)的試題得分相加,得到這一行為變量的取值。換言之,行為變量指某一科目根據(jù)不同的知識(shí)點(diǎn)或者測(cè)量的目標(biāo),把試卷中所有考察該知識(shí)點(diǎn)或者測(cè)量目標(biāo)的分?jǐn)?shù)相加,得到分?jǐn)?shù)之和就是該行為變量的取值。
考試的不同行為變量的相關(guān)關(guān)系研究中,一般考慮以下三個(gè)關(guān)系:
(1) 不同行為變量之間的聯(lián)系;
(2) 不同行為變量與考試總分之間的相關(guān)關(guān)系;
(3) 不同行為變量與考試總分減去相應(yīng)變量分?jǐn)?shù)后的相關(guān)關(guān)系。
不同行為變量的相關(guān)關(guān)系的思想:考試的每一個(gè)行為變量測(cè)量的是同一測(cè)量目標(biāo)的不同方面,它們既有聯(lián)系,又有區(qū)別,它們對(duì)測(cè)量考生的學(xué)科知識(shí)與技能、方法與能力都可以做出貢獻(xiàn)。
以 2009年貴州省貴陽(yáng)市中考物理為例,根據(jù)試卷中考查的6個(gè)不同的知識(shí)點(diǎn),把各個(gè)知識(shí)點(diǎn)得分相加,得到的總分就是6個(gè)不同的行為變量的取值。通過編寫試題間相關(guān)關(guān)系分析算法得到的行為變量與總分及總分減變量自身之間的相關(guān)系數(shù)表。
表1的數(shù)據(jù)是在SCILAB平臺(tái)上,通過編寫試題間相關(guān)關(guān)系分析算法得到的行為變量與總分及總分減變量自身之間的相關(guān)系數(shù)表。
基于不同行為變量的相關(guān)關(guān)系的基本思想,一般認(rèn)為考試不同行為變量的相關(guān)關(guān)系不應(yīng)太高,也不應(yīng)太低,一般應(yīng)該在0.3到0.6或0.7。如果兩個(gè)部分的相關(guān)系數(shù)相當(dāng)高,如0.85或0.9,就可以懷疑這兩部分是否真的在測(cè)量不同的行為目標(biāo),可能它們實(shí)際上測(cè)量了相同的行為目標(biāo)。如果是后一種情況,可能需要?jiǎng)h掉某一部分,或者將兩者部分歸并。
從表1中數(shù)據(jù)得出,行為變量之間的相關(guān)關(guān)系都在0.30到0.70之間,各行為變量間的相關(guān)系數(shù)較為適中,說明各行為變量間沒有明顯的重疊,不需要考慮刪除任何一個(gè)行為變量。這些數(shù)據(jù)也表明,這六個(gè)行為目標(biāo)對(duì)于測(cè)量大綱規(guī)定的物理學(xué)科能力都起到較明顯的作用,但它們各自又不明顯重疊。
按照經(jīng)典測(cè)量理論,某一行為變量與總分間的相關(guān)關(guān)系應(yīng)該比較高,一般應(yīng)在0.7以上。這是因?yàn)榭偡謶?yīng)該是考試的測(cè)量目標(biāo)的更加一般的測(cè)度,每一行為變量都應(yīng)該對(duì)測(cè)量目標(biāo)做出較大的貢獻(xiàn),否則,就有理由懷疑這一行為變量是否真的與考試的測(cè)量目標(biāo)一致。顯然,由于總分中包含了考試測(cè)量的所有行為目標(biāo)的貢獻(xiàn),某一行為變量與總分的相關(guān)關(guān)系實(shí)際上也受到了該行為變量自相關(guān)的影響,獲得的相關(guān)系數(shù)可能偏大。
考慮到這個(gè)因素,通常的做法就是:計(jì)算某一行為變量與總分的相關(guān)系數(shù)時(shí),從總分中減去該行為變量的分?jǐn)?shù),從表1得知,變量1、變量2、變量3和變量4與總分的相關(guān)系數(shù)均超過0.80,表明這四個(gè)變量對(duì)考試的貢獻(xiàn)較大。
教育考試中通常用試題與總分的相關(guān)系數(shù)作為試題的區(qū)分度。從表1得出的各行為目標(biāo)的區(qū)分度分別是0.89、0.80、0.86、0.82、0.77,0.75。根據(jù)試題區(qū)分度的評(píng)價(jià)標(biāo)準(zhǔn)(Eebei R.L),這 6個(gè)試題的區(qū)分度都大于 0.40,表明試題具有良好的鑒別能力。
根據(jù)信度計(jì)算公式克朗巴赫公式,由表1中這6個(gè)行為變量計(jì)算得到的信度系數(shù)為0.90,這已經(jīng)滿足了大規(guī)模教育考試對(duì)考試信度系數(shù)的基本要求。
表1 行為變量相關(guān)系數(shù)矩陣表
考試的目的是為了對(duì)考生進(jìn)行教育決策提供依據(jù),通過對(duì)試題相關(guān)關(guān)系分析可以為教育決策提供科學(xué)的信息。本實(shí)例分析表明,不同的知識(shí)點(diǎn)對(duì)于測(cè)量大綱規(guī)定的物理學(xué)科能力都起到較明顯的作用。而且整套試題滿足了大規(guī)模教育考試對(duì)考試信度系數(shù)的要求,另外試題間相關(guān)關(guān)系分析研究同樣適合于試題層面的研究。
[1]李實(shí).科學(xué)計(jì)算開放源代碼軟件SCILAB研究、開發(fā)與應(yīng)用[M].北京:清華大學(xué)出版社.2006.
[2]劉颋.開源軟件在教育中的應(yīng)用[J].信息技術(shù)教育.2007.
[3]劉美宏.試卷質(zhì)量分析與評(píng)估技術(shù)的研究與實(shí)現(xiàn)[D].沈陽(yáng):沈陽(yáng)工業(yè)大學(xué).2009.
[4]胡寶鋼等.科學(xué)計(jì)算自由軟件:SCILAB 教程[M].北京:清華大學(xué)出版社.2003.
[5]雷新勇.考試數(shù)據(jù)的統(tǒng)計(jì)分析和解釋[M].上海:華東師范大學(xué)出版社.2007.