黃躍師 張?chǎng)?楊瑒 黃青梅 成磊 袁長(zhǎng)蓉
(復(fù)旦大學(xué)護(hù)理學(xué)院,上海 200032)
測(cè)驗(yàn),是檢測(cè)被試者能力和知識(shí)掌握程度的手段。目前國(guó)內(nèi)大部分考試還停留在筆試階段。即便是在線考試系統(tǒng),也只是利用計(jì)算機(jī)對(duì)考試過程進(jìn)行管理和實(shí)現(xiàn)自動(dòng)閱卷,無法突破經(jīng)典測(cè)試?yán)碚?Classic test theory,CTT)的瓶頸?,F(xiàn)代測(cè)量理論——項(xiàng)目反應(yīng)理論(Item response theory,IRT)出現(xiàn)后,基于項(xiàng)目反應(yīng)理論的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)(Computerized adaptive testing,CAT)應(yīng)運(yùn)而生,并且開始向醫(yī)學(xué)測(cè)量領(lǐng)域拓展。本文基于文獻(xiàn)回顧,對(duì)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的概念、特點(diǎn)、理論基礎(chǔ)、結(jié)構(gòu)流程和應(yīng)用現(xiàn)狀進(jìn)行總結(jié)回顧,并結(jié)合醫(yī)療領(lǐng)域中計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的應(yīng)用展開論述,現(xiàn)報(bào)告如下。
1.1計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的概念 計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)又叫計(jì)算機(jī)自適應(yīng)測(cè)試、計(jì)算機(jī)自適應(yīng)考試[1],是一種適應(yīng)被試者能力的測(cè)試[2]。它是以IRT為核心和指導(dǎo),通過精心設(shè)計(jì)的計(jì)算機(jī)系統(tǒng),依據(jù)被試者上一道題目的答題情況,主動(dòng)適應(yīng)被試者的能力水平,有針對(duì)性地、適應(yīng)性地給出下一道題,做到因人施測(cè)、“量體裁衣”,直至能夠精確地估算出被試者的能力水平(或潛在特質(zhì))的一種方法。對(duì)CAT的評(píng)價(jià)主要包括屬性判斷的信效度、題庫(kù)安全性、測(cè)試效率等[3]。這主要是針對(duì)能力水平測(cè)試領(lǐng)域,在醫(yī)學(xué)癥狀評(píng)估領(lǐng)域應(yīng)該要有更合適的考量標(biāo)準(zhǔn)。
1.2CAT的實(shí)施過程 (1)根據(jù)對(duì)個(gè)體體驗(yàn)的特質(zhì)水平、或者預(yù)測(cè)試人群等以往被試者的特質(zhì)水平平均值,從題庫(kù)中選擇第一個(gè)項(xiàng)目對(duì)被試者施測(cè),第一個(gè)項(xiàng)目的難度一般是中等。(2)根據(jù)受試者對(duì)前一個(gè)題目的反應(yīng),估計(jì)他的能力范圍。(3)根據(jù)估計(jì)到的反應(yīng)評(píng)估值,按最大測(cè)驗(yàn)信息自動(dòng)選擇下一個(gè)項(xiàng)目。(4)當(dāng)符合終止策略規(guī)則時(shí),終止測(cè)試,給出最終的評(píng)估值[4]。(5)做好測(cè)試結(jié)果的綜合審查、專業(yè)反饋和儲(chǔ)存管理[5]。
1.3計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的特點(diǎn) 計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)相對(duì)于傳統(tǒng)的筆試或非自適應(yīng)測(cè)試有以下優(yōu)點(diǎn):(1)出題更有針對(duì)性,強(qiáng)調(diào)和尊重受試者的個(gè)體性和獨(dú)立性。(2)依托計(jì)算機(jī)和互聯(lián)網(wǎng),施測(cè)不受時(shí)空的過多限制。(3)系統(tǒng)建立以后每次出題、施測(cè)和評(píng)分都比較省時(shí)省力。(4)出題的隨機(jī)性和適應(yīng)性可規(guī)避很多傳統(tǒng)的作弊手段。(5)測(cè)試過程中受試者不會(huì)因題目超過自己的能力水平而感到沮喪、也不會(huì)因?yàn)轭}目過于簡(jiǎn)單而高估自己的能力水平,有利于把控受試者的答題節(jié)奏[5],給予受試者較好的答題體驗(yàn)。(6)不易漏答。(7)測(cè)量精度相對(duì)更有保障。(8)后期可以借助虛擬化技術(shù),使測(cè)驗(yàn)情境更加真實(shí)立體[2]。(9)測(cè)驗(yàn)結(jié)果反饋較及時(shí),方便受試者和干預(yù)者及時(shí)作出調(diào)整。(10)提高隨機(jī)組卷的合理性。(11)方便保存、查詢和分析測(cè)試相關(guān)的信息。
但CAT的建立和完善較為復(fù)雜,如題庫(kù)質(zhì)量要求高、試題參數(shù)計(jì)算復(fù)雜,研究成本高、開發(fā)耗時(shí)長(zhǎng)。被試端主要以計(jì)算機(jī)、iPad或智能手機(jī)等設(shè)備為依托;目前的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)多以封閉式的客觀題為主,不過也慢慢開始出現(xiàn)更多樣化的測(cè)驗(yàn)形式[6];當(dāng)題庫(kù)更新過慢時(shí),可能會(huì)有試題流出;當(dāng)前社會(huì)對(duì)于計(jì)算機(jī)自適應(yīng)測(cè)試用能力值估算代替?zhèn)鹘y(tǒng)分?jǐn)?shù)作為測(cè)試結(jié)果的認(rèn)同度還有待提高。
2.1計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在非醫(yī)學(xué)領(lǐng)域的應(yīng)用 計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)常被應(yīng)用于教育領(lǐng)域,如學(xué)生能力測(cè)驗(yàn)或人員資格測(cè)試,目前相關(guān)的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)項(xiàng)目有美國(guó)研究生入學(xué)考試(GRE)、美國(guó)全國(guó)教育進(jìn)展評(píng)估(NAEP)、美國(guó)(工商)管理類研究生入學(xué)考試(GMAT)、美國(guó)士兵職業(yè)傾向成套測(cè)試(ASVAB)、美國(guó)教師資格考試(Praxis)、美國(guó)建筑師考試、美國(guó)的俄勒岡州還率先將計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)應(yīng)用于視障學(xué)生的考試。很多世界500強(qiáng)公司也都在大量采用計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)來測(cè)試職工或應(yīng)聘者行為能力和邏輯思維水平[7]??梢娔壳霸诮逃I(lǐng)域的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在美國(guó)已經(jīng)相對(duì)成熟。相比之下,國(guó)內(nèi)的應(yīng)用還在起步階段,目前我國(guó)已將計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)應(yīng)用于漢語(yǔ)水平測(cè)試(HSK)[8]及篩查心理缺陷的軍隊(duì)入伍考試[2]。全國(guó)大學(xué)英語(yǔ)四六級(jí)考試也在抓緊準(zhǔn)備應(yīng)用中。江西師范大學(xué)是國(guó)內(nèi)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在教育領(lǐng)域應(yīng)用研究的首要陣營(yíng)[9]。
2.2計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在醫(yī)學(xué)領(lǐng)域的應(yīng)用
2.2.1計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在醫(yī)學(xué)教育中的應(yīng)用 目前美國(guó)已成功將計(jì)算機(jī)自適應(yīng)測(cè)試應(yīng)用于美國(guó)護(hù)士執(zhí)照或資格系列考試(National council licensure examination,NCLEX)。國(guó)內(nèi)也開始有學(xué)者提出在醫(yī)學(xué)教育中引進(jìn)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的具體思路,比如有學(xué)者[7]構(gòu)想了計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在心理咨詢師診斷技能考試中的應(yīng)用,對(duì)題庫(kù)建設(shè)的統(tǒng)計(jì)理論、題庫(kù)內(nèi)容的構(gòu)建、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的心理咨詢師診斷技能考試的功能與應(yīng)用提出了設(shè)想。王佳等[10]從心理測(cè)評(píng)方法的視角對(duì)醫(yī)學(xué)生醫(yī)學(xué)人文素養(yǎng)的各種測(cè)評(píng)方法進(jìn)行系統(tǒng)的評(píng)價(jià)后,認(rèn)為將計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)應(yīng)用于醫(yī)學(xué)人文素養(yǎng)評(píng)價(jià)具有信度高、效度高、針對(duì)性強(qiáng)、靈活性強(qiáng)、形式多樣、反饋及時(shí)等優(yōu)點(diǎn),主要可用于知識(shí)、能力、心理素質(zhì)等一般領(lǐng)域的測(cè)試。龐慧等[11]則探討了將計(jì)算機(jī)自適應(yīng)測(cè)試于大型開放式網(wǎng)絡(luò)課程(MOOC)在高等醫(yī)學(xué)教育中聯(lián)合應(yīng)用的優(yōu)勢(shì)和實(shí)施模式。
2.2.2計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在中醫(yī)學(xué)中的應(yīng)用 廣州中醫(yī)藥大學(xué)有團(tuán)隊(duì)[12-13]正致力于將中醫(yī)的證候量化與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)相結(jié)合,并獲得含國(guó)家自然科學(xué)基金等的有力資助。他們首先對(duì)中醫(yī)證候量化分析與多維計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)結(jié)合的可行性進(jìn)行了探討,提出基于多維計(jì)算機(jī)自適應(yīng)試驗(yàn)的中醫(yī)證候量化的研究思路,認(rèn)為這樣可以很好地利用量表工具及多維潛變量研究方法在定量化、多維度測(cè)量方面的優(yōu)勢(shì),提高中醫(yī)證候測(cè)量的精準(zhǔn)度。且自適應(yīng)的測(cè)量靈活性更高、測(cè)量效率更好,其系統(tǒng)的擴(kuò)展性也使得后續(xù)在臨床應(yīng)用過程中的持續(xù)優(yōu)化成為可能;其中,侯政昆等[14]基于項(xiàng)目反應(yīng)理論、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)及數(shù)據(jù)模擬,研制出15條目的胃痞患者報(bào)告結(jié)局量表(簡(jiǎn)短版),并進(jìn)行了測(cè)評(píng)。結(jié)果顯示量表的單維度性、局部獨(dú)立性和單調(diào)性均較好,有較好的IIC和ICC,難易跨度合理,與受試者交互良好,大多數(shù)條目的閾值順序滿足測(cè)評(píng)要求,認(rèn)為該量表可用于成人胃痞患者癥狀和疾病影響的臨床和科研評(píng)價(jià)。
2.2.3計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在心理學(xué)中的應(yīng)用 目前主要將計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)應(yīng)用于危險(xiǎn)心理癥狀如抑郁、焦慮、自殺傾向、人格障礙等的篩查,以期提前發(fā)現(xiàn)異常心理、防止悲劇發(fā)生。Loe等[15]開發(fā)了一個(gè)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)版本的抑郁量表,并用美國(guó)樣本驗(yàn)證了該系統(tǒng)的效度和準(zhǔn)確性,證明該系統(tǒng)比固定長(zhǎng)度的測(cè)量工具更加準(zhǔn)確和有效。國(guó)內(nèi)同樣有學(xué)者[16]為中國(guó)人群的抑郁癥測(cè)量開發(fā)了計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng),經(jīng)測(cè)試,該系統(tǒng)具有合理的、可接受的邊際信度、效標(biāo)效度、靈敏度和特異度效度。鄧遠(yuǎn)平等[17]對(duì)特質(zhì)焦慮量表模擬使用計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn),結(jié)果表明計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)有效地提高了測(cè)試效率,對(duì)被試的分辨能力更強(qiáng),測(cè)試結(jié)果的展示也更直觀、更有利于使用者解讀。Gibbons等[18]基于在匹茲堡大學(xué)精神科門診病人和社區(qū)衛(wèi)生診所收集到的數(shù)據(jù),開發(fā)了用于測(cè)量潛在自殺維度的計(jì)算機(jī)自適應(yīng)患者自測(cè)系統(tǒng),該系統(tǒng)能夠在大約2 min內(nèi)平均用10個(gè)條目準(zhǔn)確測(cè)量潛在自殺維度。Sunderland等[19]開發(fā)一個(gè)用于測(cè)量社區(qū)樣本患精神疾病風(fēng)險(xiǎn)的廣泛和特定內(nèi)化因素的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng),證實(shí)其測(cè)量具有有效性,且更為高效,答題負(fù)擔(dān)更小。Kavish等[20]采用計(jì)算機(jī)自適應(yīng)人格障礙測(cè)驗(yàn)?zāi)P?,?duì)美國(guó)社區(qū)居民和澳大利亞大學(xué)生進(jìn)行測(cè)試,成功驗(yàn)證了該模型的可用性。
2.2.4計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在生理癥狀或功能測(cè)量中的應(yīng)用 有研究者將重點(diǎn)發(fā)在某特殊疾病人群生理癥狀或功能的測(cè)量,也有研究者專注于總體人群的健康反應(yīng)或生命質(zhì)量的測(cè)量。國(guó)內(nèi)學(xué)者[21]基于計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)技術(shù)構(gòu)建了成人斜視患者報(bào)告結(jié)局測(cè)評(píng)系統(tǒng),并在臨床上與紙質(zhì)版的測(cè)評(píng)工具進(jìn)行隨機(jī)對(duì)照試驗(yàn),結(jié)果發(fā)現(xiàn)系統(tǒng)測(cè)評(píng)組所用的測(cè)評(píng)時(shí)間更短,患者對(duì)測(cè)評(píng)的滿意度和依從性更高,差異具有統(tǒng)計(jì)學(xué)意義。國(guó)外研究者[22]對(duì)某減肥和塑性手術(shù)術(shù)后患者癥狀測(cè)量的常用量表“Body-Q”進(jìn)行了改進(jìn),結(jié)果發(fā)現(xiàn)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)形式的Body-Q平均比原始量表少實(shí)施了36.9%的測(cè)驗(yàn)題量,測(cè)量結(jié)果與原始量表的相關(guān)性平均為0.99,說明計(jì)算機(jī)自適應(yīng)測(cè)試形式的Body-Q同時(shí)兼顧了測(cè)量的準(zhǔn)確性和高效性,可以大大減少患者的答題負(fù)擔(dān)。生理功能的測(cè)量方面,已有用于假肢使用者行動(dòng)能力測(cè)量的CAT[23],還有分別用于評(píng)估嬰幼兒精細(xì)運(yùn)動(dòng)功能[24]和粗大運(yùn)動(dòng)功能[25]的CAT;用于評(píng)估腦卒中患者上下肢活動(dòng)功能、姿勢(shì)控制能力及日常生活活動(dòng)能力的CAT[26]。其適用于6個(gè)月到12歲有發(fā)育障礙患兒家屬報(bào)告患兒自我照顧能力的CAT[27],適用于兒科康復(fù)醫(yī)院患兒康復(fù)期傷殘?jiān)u估的CAT[28],還有用于評(píng)估燒傷患者日常生活受影響情況的CAT[29]。這些計(jì)算機(jī)自適應(yīng)測(cè)試系統(tǒng)都經(jīng)過驗(yàn)證,測(cè)量性能理想,對(duì)特定的人群具有可用性,且大多具有反應(yīng)性和靈敏性高、無上下限效應(yīng)、答題負(fù)擔(dān)小等優(yōu)點(diǎn)。
2.2.5計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在生命質(zhì)量測(cè)量中的應(yīng)用 歐洲的癌癥研究和治療組織(EORTC)開發(fā)了用于癌癥患者報(bào)告生活質(zhì)量的QLQ-C30量表的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)[30],并已經(jīng)進(jìn)行到國(guó)際性獨(dú)立大樣本的驗(yàn)證階段。Michel等[31]開發(fā)了一個(gè)用于測(cè)量精神分裂癥患者生命質(zhì)量的CAT,經(jīng)測(cè)驗(yàn),該系統(tǒng)具有可用性,其測(cè)量的信效度良好,與傳統(tǒng)紙質(zhì)測(cè)量的結(jié)果相關(guān)度高,且答題負(fù)擔(dān)更小。Lai等[32]比較了CAT形式和簡(jiǎn)表形式對(duì)腦腫瘤患者生活質(zhì)量和癥狀的測(cè)量效果,結(jié)果發(fā)現(xiàn)兩種方法測(cè)量出來的相關(guān)度較高,但簡(jiǎn)表具有上限效應(yīng),研究者更推薦用CAT形式進(jìn)行個(gè)性化的縱向監(jiān)測(cè)。另外,還有專門給神經(jīng)系統(tǒng)疾病或功能障礙的患者報(bào)告生活質(zhì)量的Neuro-QoL CATs,以及專門給鐮狀細(xì)胞貧血成年患者報(bào)告生活質(zhì)量ASCQ-Me CATs。
2.2.6計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在患者報(bào)告醫(yī)療結(jié)局中的應(yīng)用 美國(guó)國(guó)立衛(wèi)生研究院資助研發(fā)了較為一套成熟、嚴(yán)謹(jǐn)?shù)幕颊邎?bào)告結(jié)局測(cè)量信息系統(tǒng)(Patient-reported outcomes measurement information system,PROMIS)的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)工具(PROMIS CATs)[33],適用于普通人群和不同病種的患者自我報(bào)告醫(yī)療結(jié)局,目前已被多個(gè)國(guó)家的醫(yī)療機(jī)構(gòu)引進(jìn)和應(yīng)用。PROMIS CATs具有很高的測(cè)量效率,其可行性也在廣泛的實(shí)踐[34-37]中被證實(shí),只需要很少的施測(cè)時(shí)間及更少的施測(cè)條目,就可以實(shí)現(xiàn)更精準(zhǔn)、更敏感的測(cè)量,有利于對(duì)患者的治療結(jié)局實(shí)現(xiàn)標(biāo)準(zhǔn)化、常規(guī)化和個(gè)性化的監(jiān)測(cè)。患者可以在醫(yī)院或家中利用電子界面完成作答并得到及時(shí)的反饋,患者報(bào)告結(jié)局的數(shù)據(jù)也會(huì)被流線化地儲(chǔ)存和管理[38]。
3.1我國(guó)醫(yī)學(xué)領(lǐng)域首先應(yīng)該大膽嘗試計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的實(shí)現(xiàn) 計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)除了在教育領(lǐng)域得到較為成熟的應(yīng)用,該技術(shù)現(xiàn)在也開始向醫(yī)學(xué)領(lǐng)域遷移。國(guó)內(nèi)醫(yī)學(xué)領(lǐng)域?qū)τ?jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的應(yīng)用尚處于探索階段,主要多是理論和思路的探討,多集中在中醫(yī)和心理學(xué)測(cè)量領(lǐng)域。有個(gè)別學(xué)者嘗試用計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)對(duì)醫(yī)學(xué)量表的測(cè)量進(jìn)行模擬改造,如江西師范大學(xué)學(xué)者們對(duì)焦慮特質(zhì)量表的模擬CAT設(shè)計(jì)[17],但這次嘗試并未真正實(shí)現(xiàn)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的適應(yīng)性。卞薇等[21]以患者報(bào)告結(jié)局國(guó)際開發(fā)標(biāo)準(zhǔn)作為指南,形成了118條目的成人斜視自我報(bào)告條目,以Microsoft Visual Studio 2013軟件集成開發(fā)工具作為開發(fā)平臺(tái),使用C語(yǔ)言,設(shè)計(jì)并開發(fā)出“成人斜視患者報(bào)告結(jié)局測(cè)評(píng)系統(tǒng)”。該系統(tǒng)分模塊測(cè)評(píng)并根據(jù)患者做答情況選擇適應(yīng)性最強(qiáng)的題目作為下一道題,從而減少患者的做大負(fù)擔(dān),答題量可減少一半左右,且該系統(tǒng)能對(duì)患者的作答情況進(jìn)行統(tǒng)計(jì)和分析,最終以報(bào)表形式輸出結(jié)果。該系統(tǒng)應(yīng)該是國(guó)內(nèi)第一個(gè)應(yīng)用于醫(yī)療測(cè)量的、開發(fā)過程相對(duì)完整、并真正實(shí)現(xiàn)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)適應(yīng)性的初嘗試。雖然該條目庫(kù)規(guī)模還較小,部分參數(shù)的設(shè)置、臨界值和適用范圍等還需要不斷修訂和驗(yàn)證,但不可否認(rèn)這是一次積極的嘗試。
3.2構(gòu)建計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)的過程應(yīng)該遵循嚴(yán)謹(jǐn)?shù)拈_發(fā)流程 國(guó)內(nèi)不少學(xué)者已經(jīng)意識(shí)到計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在醫(yī)學(xué)領(lǐng)域的應(yīng)用價(jià)值和前景。需要注意的是,構(gòu)建一個(gè)為醫(yī)患所用的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng),是需要嚴(yán)謹(jǐn)?shù)拈_發(fā)流程的。具體包括準(zhǔn)備階段、題庫(kù)建設(shè)、CAT算法確定、信度和效度驗(yàn)證、正式使用與題庫(kù)維護(hù)更新五個(gè)基本階段[39-40]進(jìn)行。其中,在對(duì)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的模擬研究時(shí)應(yīng)該使用真實(shí)的數(shù)據(jù),以免對(duì)項(xiàng)目庫(kù)的效率和精度的估計(jì)過于樂觀[41],從本次文獻(xiàn)回顧來看,現(xiàn)在國(guó)外醫(yī)學(xué)測(cè)量領(lǐng)域大部分系統(tǒng)的開發(fā)都有使用真實(shí)世界數(shù)據(jù)進(jìn)行校準(zhǔn)。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)可以考慮分成五個(gè)模塊:患者在線登錄/管理、患者在線報(bào)告、題庫(kù)/項(xiàng)目管理及算法模塊、后臺(tái)管理員系統(tǒng)、報(bào)告結(jié)果分析反饋。具體在每一個(gè)模塊,都有很多細(xì)節(jié)值得在實(shí)踐中進(jìn)一步嘗試和研究,以期讓醫(yī)學(xué)領(lǐng)域的測(cè)量更加高效的同時(shí)獲得最大測(cè)量信度,并不斷優(yōu)化用戶的使用體驗(yàn)。未來也期待有系統(tǒng)的評(píng)價(jià)指標(biāo)來指導(dǎo)醫(yī)學(xué)測(cè)量領(lǐng)域計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)的研發(fā)、應(yīng)用和完善過程。
3.3對(duì)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)相關(guān)理論的研究還需進(jìn)一步深入 由于多維項(xiàng)目反應(yīng)理論和計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)可以確保測(cè)量的準(zhǔn)確性、有效性和針對(duì)性[42],允許更快速、更完整地收集數(shù)據(jù)[43],推廣性和通用性也較強(qiáng),目前已漸漸被引用于醫(yī)學(xué)教育與測(cè)量領(lǐng)域[41-44]。研究[45]也證實(shí),將計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)應(yīng)用于醫(yī)學(xué)領(lǐng)域的測(cè)量,不僅能提高測(cè)評(píng)的準(zhǔn)確度,還能減少答題負(fù)擔(dān),也更易于整合到電子健康記錄中。目前,國(guó)內(nèi)醫(yī)學(xué)領(lǐng)域?qū)τ?jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的應(yīng)用多停留在理論研究、開發(fā)設(shè)想或項(xiàng)目庫(kù)開發(fā)等早期試驗(yàn)階段,尤其多維計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)方面的研究有待進(jìn)一步提高。構(gòu)建、完善和管理計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)平臺(tái)及其項(xiàng)目庫(kù)需要一定的計(jì)算機(jī)技術(shù)成本,故必須跨學(xué)科團(tuán)隊(duì)合作。
將計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)應(yīng)用于醫(yī)學(xué)測(cè)量與應(yīng)用于教育考核其實(shí)還是存在一些區(qū)別的。比如醫(yī)學(xué)測(cè)試領(lǐng)域?qū)?xiàng)目曝光率也即測(cè)驗(yàn)安全性的要求不高,對(duì)于題庫(kù)的試題量也沒有很高的要求[40]。最初的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)是不允許被試者返回上一題修改答題的,目前已有學(xué)者[40,46]致力于研發(fā)可修改答案的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Revisable CAT,RCAT),這種技術(shù)在應(yīng)用過程中的效果如何以及是否適用于醫(yī)學(xué)測(cè)量也有待進(jìn)一步驗(yàn)證和探討。
隨著5G時(shí)代的到來,基于項(xiàng)目反應(yīng)理論的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)在醫(yī)學(xué)領(lǐng)域的應(yīng)用必將得到更好的發(fā)展。中國(guó)在這一領(lǐng)域的研發(fā)更應(yīng)該加快步伐,大膽嘗試從傳統(tǒng)醫(yī)學(xué)測(cè)量到計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)的轉(zhuǎn)變,借助多學(xué)科交叉團(tuán)隊(duì)的力量,在做中學(xué)、在學(xué)中做,注意開發(fā)流程的改進(jìn)和理論研究的深入。我們期待計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)與醫(yī)學(xué)領(lǐng)域的結(jié)合,能夠碰撞出不一樣的火花,最終改變對(duì)治療結(jié)局的評(píng)估標(biāo)準(zhǔn)、促進(jìn)疾病與健康的監(jiān)測(cè)、提高國(guó)內(nèi)患者的照護(hù)質(zhì)量、改善患者的就醫(yī)體驗(yàn)。