田 霖 韋小滿 王橋影
自學考試的效度及其證據(jù)來源探析
田 霖 韋小滿 王橋影
效度是衡量考試科學性的重要指標,反映考試在多大程度上實現(xiàn)了測量目的;效度驗證也成為測驗開發(fā)的重要環(huán)節(jié),用以支持分數(shù)解釋及測驗使用。本文簡要介紹了效度概念的內(nèi)涵及效度驗證的發(fā)展歷程,并嘗試將效度整體觀引入自學考試領(lǐng)域,對自學考試的效度驗證及其證據(jù)來源進行初步探索。本文提出,自學考試應從命題管理的各個環(huán)節(jié)系統(tǒng)地收集證據(jù)進行效度驗證,效度證據(jù)的來源包括測驗內(nèi)容、反應過程、測驗內(nèi)部結(jié)構(gòu)、測驗評分、跟外部變量的關(guān)系、測驗后果等多個方面。
自學考試;效度;效度驗證;效度證據(jù)
傳統(tǒng)意義上的效度是指一個測驗對其所欲測量的屬性確能測到的程度[1],《教育與心理測驗標準》(1999年)提出,“效度是指證據(jù)和理論對測驗分數(shù)的特定解釋的支持程度”[2]。隨著效度理論的發(fā)展,效度概念內(nèi)涵從“相關(guān)即有效”到“多種類型的效度”,最終發(fā)展為“一元多維的整體效度概念”[3],效度驗證的方法也從傳統(tǒng)的某種效度類型的檢驗,發(fā)展成為全面的、綜合的檢驗,包含對整個測驗過程及測驗結(jié)果的分析和解釋。由于效度反映了測驗功能的有效性,因此效度驗證成為測驗開發(fā)的重要環(huán)節(jié)。自學考試作為國家大規(guī)模教育考試,效度是衡量其考試科學性的重要指標,現(xiàn)代效度理論的發(fā)展為自學考試的效度研究提供了新的思路,在自學考試領(lǐng)域具有廣闊的應用前景。
效度概念的發(fā)展大致經(jīng)歷三個階段。第一階段為“單一效度觀”時期(20世紀50年代之前),其認為“相關(guān)即有效”,此時效度用“測驗的成績與采用其他客觀方法進行度量所得結(jié)果之間的相關(guān)”表示。第二階段為“分類效度觀”時期(20世紀50年代至70年代),其將效度劃分為內(nèi)容效度、結(jié)構(gòu)效度和效標關(guān)聯(lián)效度[3],內(nèi)容效度是指測驗內(nèi)容對所要測量范圍的代表性程度;結(jié)構(gòu)效度是指測驗對于人的假設屬性或理論概念測量到的程度[1];效標關(guān)聯(lián)效度是指某測驗結(jié)果與另一后來獲得的測驗結(jié)果之間的相關(guān)(預測效度)或大約同時獲得的測驗結(jié)果之間的相關(guān)(同時效度)[3]。有研究者認為,將效度劃分為多種類型的傳統(tǒng)做法得到的效度是支離破碎的、不完整的,而且這種做法缺乏對測驗成績的價值內(nèi)涵和社會后果的考慮[4]。第三階段為“效度整體觀”時期(20世紀70年代至今),其認為效度就是“關(guān)于經(jīng)驗證據(jù)和理論依據(jù)對基于測驗分數(shù)或其他測量模式的推論與活動的合適性與恰當性的支持程度的一種綜合評估判斷”[5],此時效度已經(jīng)成為一個統(tǒng)合各方面效度證據(jù)的綜合性概念,其包括內(nèi)容、實證、結(jié)構(gòu)、概括化、外部和后果六個層面,這六個層面相互關(guān)聯(lián),可以作為教育與心理測驗的一般效度標準[4]。效度整體觀涵蓋了測驗編制、實施、評分、分數(shù)解釋、推廣以及社會影響等各環(huán)節(jié),是一個不斷評價、質(zhì)疑、檢查、解釋和推論的動態(tài)過程[6]。
傳統(tǒng)的效度驗證主要關(guān)注試題、測驗結(jié)構(gòu)和分數(shù),研究者針對不同的效度類型提出了不同的效度驗證方法:①內(nèi)容效度,這是教育考試領(lǐng)域較為關(guān)注的效度內(nèi)容,主要是通過專家的邏輯判斷進行驗證;②結(jié)構(gòu)效度,這是心理測驗領(lǐng)域關(guān)注的效度內(nèi)容,一般通過因素分析、結(jié)構(gòu)方程模型、多元回歸分析等方法進行驗證,最終使得實證數(shù)據(jù)能夠最大限度地擬合理論模型[1];③效標關(guān)聯(lián)效度,主要通過計算本次測驗結(jié)果與其他測驗結(jié)果(效標分數(shù))之間的相關(guān)系數(shù)來進行驗證,而效標分數(shù)的獲得則是效標關(guān)聯(lián)效度驗證的難點。有研究者認為,傳統(tǒng)效度理論將效度劃分為不同類型的做法是不合理的[4],導致其效度驗證過程也是片面的、孤立的。效度整體觀認為,效度作為一個完整的概念,它的驗證過程應該是全面的、綜合的,不僅對測驗結(jié)果進行分析和解釋,還應對測驗過程進行分析和解釋;不僅對此時的測驗結(jié)果進行分析和解釋,還涉及對分數(shù)使用后果和價值的解釋[6]。效度驗證可依據(jù)Messick提出的效度六個層面進行:①內(nèi)容層面,主要涉及測驗的范圍與測驗試題樣本的代表性;②實證層面,指測驗應確保其所引發(fā)的心理加工過程有代表性,能夠提供實驗證據(jù)證明被試在任務完成過程中確實運用了設想的心理加工過程;③結(jié)構(gòu)層面,要求測驗的評分模式與待測構(gòu)念的內(nèi)在結(jié)構(gòu)相一致,應最大限度地反映行為表現(xiàn)背后所隱含的結(jié)構(gòu)關(guān)系;④概括化層面,指測驗分數(shù)意義對總體、環(huán)境和其他測驗題目的推廣程度,即分數(shù)的使用范圍和界限;⑤外部層面,指測驗成績與其他測驗結(jié)果之間的關(guān)系在多大程度上反映了待測構(gòu)念的理論預期;⑥后果層面,指評價分數(shù)解釋和使用所帶來的實際和潛在后果的證據(jù)和理論說明[4]。
效度整體觀的效度概念比傳統(tǒng)效度概念更為豐富,但其效度驗證仍存在諸多問題需要解決,如證據(jù)收集的復雜性、證據(jù)的使用標準及其解釋、效驗過程的可操作化、證據(jù)資料的量化處理等;傳統(tǒng)效度雖然受到效度整體觀的批判,但其效度驗證方面已形成了成熟的檢驗思路和數(shù)據(jù)統(tǒng)計方法,在一定時期內(nèi),傳統(tǒng)的效度驗證方法中仍具有可借鑒性,效度整體觀應批判性繼承其合理成分,提高效度驗證過程的可操作性。
自學考試是個人自學、社會助學和國家考試相結(jié)合的高等教育形式,是高等教育體系的重要組成部分。自學考試的考核標準與普通高等學校(含高職院校)相同層次、相同專業(yè)、相同課程的要求基本一致[7],通過自學考試相關(guān)專業(yè)課程的考生可獲得國家認可的學歷。這就要求自學考試標準化試卷能夠有效測查相關(guān)課程的教學目標,確保通過自學考試的考生真正具備相關(guān)的專業(yè)能力。因此,效度驗證是關(guān)系自學考試教育質(zhì)量的重要問題。
教育考試領(lǐng)域的效度反映的是某課程的標準化試卷是否測量到該課程的考核目標及其在多大程度上測量到了這種考核目標。對于自學考試而言,考試效度是指試卷在多大程度上測量到了自考生的相關(guān)的專業(yè)知識或能力水平,其內(nèi)涵包括:試題考查內(nèi)容能夠有效代表課程知識結(jié)構(gòu)體系;試卷能夠測量考試大綱所規(guī)定的教學目標,并考查其在多大程度上測量到了這種教學目標;作為標準參照測驗,自學考試是否能夠有效地鑒別出達標考生,即考試對及格考生與不及格考生進行了有效區(qū)分。自學考試的效度越高,越能說明考試管理機構(gòu)“基于考試分數(shù)結(jié)果對考生作出判斷決策觀點是有效的[8]?!?/p>
效度整體觀認為效度驗證包含兩個步驟:首先提出效驗觀點,即試圖對測試分數(shù)做哪些解釋和使用,然后收集有關(guān)證據(jù)支持所提議的解釋與使用[9]。自學考試應借鑒效度整體觀的效度驗證思想,結(jié)合其考試目的及標準參照測驗的屬性,從測驗的開發(fā)與實施,到測驗的評分,再到分數(shù)解釋與使用等各個環(huán)節(jié)收集證據(jù),使用多方面的證據(jù)驗證其考試效度。對某個自考課程進行考試效度驗證的一般過程包括:①明確該課程的考試目的。某專業(yè)課程考試是為了判斷考生的專業(yè)知識或技能,其考核目標應嚴格依據(jù)專業(yè)結(jié)構(gòu)設置、課程特點、考試大綱與教材的相關(guān)要求。②基于考試目的提出效驗觀點。該課程的考試分數(shù)能夠代表考生相應的專業(yè)知識或技能水平,可以有效鑒別出不同水平的考生,尤其對自學考試合格標準附近的考生能夠進行最大限度地區(qū)分。③圍繞效驗觀點收集多層面的效度證據(jù)。效度是以證據(jù)為基礎(chǔ)的,效度驗證的過程就是根據(jù)效驗觀點積累和收集各種證據(jù)的過程,證據(jù)收集是效度驗證的主要工作,如何根據(jù)自學考試的特點確定效度證據(jù)來源,是決定效度驗證是否科學的關(guān)鍵。
效度驗證是指研究者多方收集資料和證據(jù)來檢驗測驗效度的過程[10]。《教育與心理測驗標準》(1999年)中提到,效度證據(jù)的來源包括但并不限于:基于測驗內(nèi)容的證據(jù)、基于反應過程的證據(jù)、基于內(nèi)部結(jié)構(gòu)的證據(jù)、基于跟外部變量關(guān)系的證據(jù),基于測驗后果的證據(jù)[2]。Weir提出的社會認知效驗框架對上述效度證據(jù)來源進行了補充和發(fā)展,將評分層面的證據(jù)納入到效度證據(jù)體系中[11]。因此,自學考試的效度驗證可參考上述效度證據(jù)來源框架,從試題開發(fā)到分數(shù)使用各個環(huán)節(jié)系統(tǒng)地收集證據(jù)。
測驗內(nèi)容方面的證據(jù),要求就測驗內(nèi)容領(lǐng)域的代表性與測驗分數(shù)解釋的適當性之間做出邏輯和經(jīng)驗的分析[12]。效度內(nèi)容方面的證據(jù)是考試結(jié)果解釋和使用的基礎(chǔ),如果考試在內(nèi)容方面不能提供足夠的證據(jù),其他方面的證據(jù)已毫無用處[13]。但目前,教育考試領(lǐng)域還沒有成熟的統(tǒng)計模型直接用于評估內(nèi)容取樣的恰當程度,通常由多位學科專家根據(jù)測量目標和測量內(nèi)容范圍的界定,用邏輯分析的方法對考試內(nèi)容取樣代表性進行評定,學科專家在評定過程中要嚴格參照自學考試的考核標準。
自學考試基于內(nèi)容方面的效度證據(jù)包括:全部試題的測試內(nèi)容涉及了教材的哪些內(nèi)容領(lǐng)域及其所占的比重;試卷的內(nèi)容結(jié)構(gòu)是否符合命題藍圖(雙向細目表、考試大綱等)的要求,試卷的內(nèi)容結(jié)構(gòu)主要包括試卷試題考查內(nèi)容的章節(jié)分布情況、重點章節(jié)試題所占的分值比例、試卷的難度分布情況、考核不同認知目標試題的分值比例等??荚嚬芾頇C構(gòu)可依據(jù)不同的測驗內(nèi)容的證據(jù)層面制定評定量表,邀請學科專家依據(jù)評定量表進行逐項判斷,最終基于判斷結(jié)果給出試卷內(nèi)容代表性的整體評定結(jié)果,并計算多位專家判斷結(jié)果的相關(guān),作為評定結(jié)果可靠性的佐證。
教育考試本質(zhì)上是從認知心理學的角度來看待考試結(jié)果反映考生心理結(jié)構(gòu)的程度,即從考生作答問題的認知加工過程的角度來考查考試結(jié)果解釋和分數(shù)使用的有效性[13]。獲取考生反應過程信息的方法包括:問卷法、訪談法、作答過程分析法、計算機模擬法、出聲思維法等。問卷法、訪談法需要依據(jù)考生的主觀自陳信息進行證據(jù)收集,容易受主觀因素的影響;計算機模擬法、出聲思維法的使用容易受到考試環(huán)境的限制;實踐中常常通過命題教師及學科專家對考生作答過程進行邏輯分析,獲取反應過程的信息,作答過程分析法可操作化程度高,但指標的量化過程較為復雜,容易受到評價者的主觀因素影響。
自學考試的試卷包含不同的題型,可采取不同的認知分析策略。對于客觀題,可對試題內(nèi)容、選項設置等進行認知分析,獲取考生反應過程的證據(jù)信息;對于主觀題(證明題、應用題、論述題、材料分析題、實驗設計題等),可對試題考核內(nèi)容、背景材料、設問方式、考生試卷作答記錄進行認知分析,獲取考生反應過程的證據(jù)信息。通過認知分析的方法獲取考生反應過程方面的證據(jù),對評價者的要求較高,其需要熟悉考試目標、命題理論與技術(shù)、認知心理學等相關(guān)知識,并具備一定的命題經(jīng)驗。通過對試卷進行逐題分析并作出評定,最后綜合每道試題的評定結(jié)果完成對全卷的評定[10]。
測驗內(nèi)部結(jié)構(gòu)的分析能反映測驗項目或成分間的關(guān)系與作為分數(shù)解釋基礎(chǔ)結(jié)構(gòu)間的一致性程度[14],心理測驗研究領(lǐng)域?qū)τ跍y驗內(nèi)部結(jié)構(gòu)關(guān)注較多。通常測驗內(nèi)部結(jié)構(gòu)的建立需要經(jīng)過如下步驟:①對所要測量特質(zhì)根據(jù)某理論提出(心理)結(jié)構(gòu)假設;②根據(jù)假設編寫測驗;③尋求測驗分數(shù)與其他測量結(jié)果的相關(guān);④根據(jù)測驗結(jié)果驗證結(jié)構(gòu)假設是否成立;⑤測驗修訂。在教育考試中,專業(yè)課程試卷的考核目標通常涵蓋這門課程涉及的全部知識體系,難以建立結(jié)構(gòu)清晰的心理特質(zhì)結(jié)構(gòu)。
自學考試命題管理規(guī)范要求命題教師首先根據(jù)教材和考試大綱制定雙向細目表,試卷結(jié)構(gòu)安排與試題編寫應嚴格依據(jù)雙向細目表的相關(guān)規(guī)定。對于某些容易劃分學科能力結(jié)構(gòu)的課程(如某些計算機類及外語類課程),可以嘗試結(jié)合考試大綱與雙向細目表,界定該課程所考查的心理模型,提出結(jié)構(gòu)假設。考試后收集考生實測數(shù)據(jù),通過因素分析、多維尺度分析、結(jié)構(gòu)方程模型等方法對結(jié)構(gòu)假設進行驗證,獲取內(nèi)部結(jié)構(gòu)方面的證據(jù)。
效度整體觀認為,信度不再僅僅是衡量測驗穩(wěn)定性的指標,而是被納入到效度體系中作為一項證據(jù)。評分方面的效度證據(jù)反映的是教育評價者能夠在多大程度上相信考試的分數(shù),主要涉及評分者信度和內(nèi)部一致性信度。自學考試可利用閱卷管理系統(tǒng)提供的考生作答數(shù)據(jù),從測驗評分的角度收集評分者信度及內(nèi)部一致性信度的證據(jù),為效度驗證提供支持。
評分者信度主要用于主觀題評分,是指多位評分者對同一組考生作答反應評分的一致性程度。主觀題評分受評分者主觀因素的影響較大,不同的評分者對相同的試題答案可能給出不同的分數(shù),此時評分者的評分差異已成為考試誤差的來源之一。對于多位評分者進行評分時,分連續(xù)性計分和等級計分兩種情況進行評分者信度的估計:①當多位評分者采用連續(xù)性計分法對一組考生的試卷進行評定時,采用Cronbach-α系數(shù);②當多位評分者采用等級計分法對一組考生的試卷進行評定時,采用Kandall和諧系數(shù)(多列等級相關(guān))[1]。
內(nèi)部一致性信度是指試卷內(nèi)部(試題之間)的一致性程度,通常可用分半信度或同質(zhì)性信度表示:①分半信度,將每個考生的試卷按試題分成兩部分(兩個復本),然后用每個考生在兩個副本上的得分求出整個試卷的信度。分半信度的估計可采用Spearman-Brown公式矯正法、Rulon公式估計法、Flanagan公式估計法等;②同質(zhì)性信度,是指試卷內(nèi)各個試題間的一致性程度,即所有試題都測量同一種心理特質(zhì),各是體檢具有較高的相關(guān)性。對同質(zhì)性信度進行估計時,0-1計分的測驗可采用K-R20、K-R21公式等;非0-1計分的測驗可采用Cronbachα系數(shù)[1]。
測驗的外部變量可能包括測驗期望去預測的某些標準的測量、其他假設測量相同結(jié)構(gòu)的測驗,以及測量相關(guān)的或不同的結(jié)構(gòu)的測驗結(jié)果。基于跟外部變量關(guān)系的證據(jù)收集方法包括:求同與求異的方法(如多重特質(zhì)多重方法矩陣設計)、測驗—效標關(guān)系(包括預測性效標與同時性效標)、效度的概化(效度在新測驗情境中的推廣—交叉效度驗證)[14]。外部變量的確定與選擇,是收集測驗分數(shù)與外部變量關(guān)系的證據(jù)時需要解決的首要問題。
在自學考試的效度驗證中,測驗—效標關(guān)系方面的證據(jù)收集相對其他方法而言更具可操作性。效標就是確能顯示或反映所欲測量的屬性的變量,是考查測驗效度的一個參照標準。通常用公認的比較客觀的一次同類標準考試成績來表示,可以是目前已經(jīng)存在的效標分數(shù),也可是未來將要獲得的效標分數(shù)[1]。對于某專業(yè)課程考試而言,可將普通高校同學歷層次、同專業(yè)、同課程的考試分數(shù)作為效標分數(shù)[10],或嘗試將同專業(yè)中相近課程的考試分數(shù)作為效標分數(shù),計算本次考試分數(shù)與效標分數(shù)的相關(guān)系數(shù),相關(guān)程度越高則表明證據(jù)的效力越強。然而如何尋找更為科學、有效的效標分數(shù),仍是使用測驗—效標關(guān)系證據(jù)的難點與關(guān)鍵。
測驗后果指試卷的實測數(shù)據(jù)結(jié)果、分數(shù)的解釋和使用及其所帶來社會后果等,用于評價分數(shù)解釋和使用結(jié)果[3]。測驗后果的證據(jù)可以從考試的區(qū)分效度、反撥作用、對社會的影響等方面進行收集[11]。對于自學考試而言,目前國內(nèi)某些地區(qū)的自學考試已經(jīng)具備成熟的網(wǎng)上閱卷技術(shù),成績管理數(shù)據(jù)庫中能夠存儲考生每個試題的作答信息,為試卷分析提供豐富的數(shù)據(jù)。自學考試作為標準參照測驗,其要求試題在及格線(60分)附近具有最大區(qū)分功能,能夠有效鑒別達標考生與未達標考生,因此可以借鑒“率差”作為評價指標[15],即考查試題的局部區(qū)分功能,檢驗試題是否在及格線附近(如45~60分與60~75分分數(shù)段)對考生進行了有效區(qū)分。另外,還可分析造成考生分數(shù)差異的原因是否真正與測量目的有關(guān)(考生評價結(jié)果的不同是否是由于測量目標所要求的特質(zhì)水平差異所造成)、合格考生是否在實踐中表現(xiàn)出應有的能力水平等。
效度整體觀認為,效度證據(jù)的收集是一個獨立于測驗編制與使用的調(diào)查研究過程,貫穿于整個測驗的各個環(huán)節(jié)?;谛Ф茸C據(jù)作出自學考試的效度驗證結(jié)論時,應注意效度是一個相對概念,是一個“程度問題”[6],效度驗證結(jié)論是效度的“高”或“低”,而并非“有效度”或“無效度”。另外,理想的效度證據(jù)應能充分支持效度觀點,但如果收集的證據(jù)不能有效地支持效驗觀點,則需要基于效度證據(jù)對試題進行調(diào)整,直到所有效驗觀點得到支持或者最終放棄難以論證的效驗觀點。
隨著效度理論的發(fā)展,自學考試的效度概念有了新的內(nèi)涵并形成了基于多層面證據(jù)的效驗方法。效度不再是測量工具本身的屬性,而是收集的證據(jù)對測驗分數(shù)的解釋、推論和決策的支持程度。效度整體觀為自學考試的效度驗證提供了一個理論框架,依據(jù)自學考試的目的及考試管理各環(huán)節(jié)的分析,采用多側(cè)面的效度證據(jù)進行效度驗證是可行的。對效度概念與效驗方法的再認識,有助于考試管理機構(gòu)從一個更為寬闊、全面的角度去認識自學考試的效力和實質(zhì),明確自學考試能夠測量的以及不能測量的方面,不斷改進自學考試的命題管理程序,更好地指導自學考試的試題編制和分數(shù)的使用。
效度證據(jù)涉及整個考試過程的各個環(huán)節(jié),考試管理機構(gòu)應重視效度研究對于自學考試科學性的重要意義,并積極將效度理論用于指導命題管理實踐。結(jié)合自學考試的自身屬性,研究者可從試題編寫、試題審核校對、試卷評分、分數(shù)解釋和使用等環(huán)節(jié)收集不同側(cè)面的效度證據(jù),以充分表明自學考試分數(shù)解釋和使用的恰當性。效度驗證是一個動態(tài)過程,不存在永遠具備高效度的考試[6],即使證據(jù)表明某次課程考試的效度較高,但隨著自學考試的發(fā)展,效度研究仍要持續(xù)進行。當前自學考試的效度研究正處于探索階段,仍存在諸多問題有待解決,如具體課程考試效度證據(jù)框架的設定、效度證據(jù)標準的確定、證據(jù)收集方法的可操作化、證據(jù)資料的量化處理等問題,需要未來研究者的深入探討。
[1]王孝玲.教育測量[M].上海:華東師范大學出版社,2005:23-85.
[2]American Educational Research Association,American Psychological Association&National Council on Measurement in Education.Standards for educational and psychological testing[M].Washington,DC:American Educational Research Association,1999:1-174.
[3]孫曉敏,張厚粲.效度概念演進及其新發(fā)展[J].心理科學,2004,27(1):234-235.
[4]Messick S.Validity of psychological assessment[J].Psychologist,1995(9):941-945.
[5]Messick S.Validity.In R.Linn(Ed.).Educational measurement(3rd ed.)[C].New York:Macmillan,1989:13-103.
[6]關(guān)丹丹,車宏生.現(xiàn)代效度理論與效驗方法述評[J].心理科學,2010,33(3):654-656.
[7]余仁勝.自學考試命題中及格線的校準方法[J].中國考試(研究版),2005(6):37-39.
[8]Kane M.T.Concerns in validity theory[J].Journal of Educational Measurement,2001,38(4):319-342.
[9]Bachman L.F.Statistical Analysis for Language Assessment[M].Cambridge:Cambridge University Press,2004:258.
[10]盧正勇.高等教育自學考試的課程考試效度研究[J].教育與考試,2007(1):17-20.
[11]Weir C.J.Language Testing and Validation[M].Palgrave:Macmillan.2005:43-215.
[12]康春花,曾平飛,田偉.貫穿測驗過程的公平分析思路[J].教育測量與評價(理論版),2010(7):4-7.
[13]雷新勇.大規(guī)模教育考試:命題與評價[M].上海:華東師范大學出版社,2006:281-303.
[14]漆書青.現(xiàn)代測量理論在考試中的應用[M].武漢:華中師范大學出版社,2003:405-442.
[15]趙海燕,臧鐵軍.率差標準的確定和難度常模的建立——對2004~2009年高考北京卷的實證研究[J].中國考試,2010(3):3-15.
(責任編輯 周黎明)
Validity and Its Evidence in Self-taught Examination
TIAN Lin,WEI Xiaoman and WANG Qiaoying
Validity,as a key indicator of test’s scientific nature,reflects the effectiveness of test function and validation has become a significant step of test construction,which in turn supports score explanation and test appliance.This article has briefly introduced development of validity concept and validation approach,tried to bring unified conception of validity into self-taught examination and preliminarily discussed its validation approach and sources of validity evidence.The author proposes that self-taught examination should collect validity evidences systematically,which includes test content,students’cognitive process,test internal construct,test scoring,correlation with external variables as well as test consequence.
Self-taught Examination;Validity;Validation;Validity Evidence
G405
A
1005-8427(2014)06-0018-6
田 霖,男,北京教育考試院,助理研究員,博士(北京 100083)
韋小滿,女,北京師范大學教育學部,教授(北京 100875)
王橋影,男,北京教育考試院,副研究員(北京 100083)