面對全球數(shù)字化浪潮,技術(shù)支撐的數(shù)據(jù)模型和教育評價追求的數(shù)據(jù)化形式構(gòu)成天然組合,技術(shù)賦能教育評價的系統(tǒng)性、準(zhǔn)確性和全面性顯著提升,技術(shù)何以賦能教育評價成為重要的研究課題。中共中央、國務(wù)院在《深化新時代教育評價改革總體方案》(以下簡稱《總體方案》)中特別提到要創(chuàng)新評價工具,利用人工智能、大數(shù)據(jù)等現(xiàn)代信息技術(shù)探索新的評價模式[1,各種有益的探索也隨之展開。為進(jìn)一步推動數(shù)字技術(shù)的實(shí)踐和規(guī)范應(yīng)用,教育政策和理論研究不容忽視。雖然教育政策與教育理論及教育實(shí)踐的主體構(gòu)成存在一定差異,但普遍認(rèn)為,教育政策是連接教育理論與教育實(shí)踐的橋梁[2]。技術(shù)支持的教育評價理論成果已有效地轉(zhuǎn)化為教育政策,各級數(shù)字技術(shù)賦能教育評價的政策文件應(yīng)運(yùn)而生,但對其政策文本的分析討論仍較為鮮見。貝爾曾指出:“如果沒有理解反映了教育機(jī)構(gòu)的多級性和多層性特征的政策,要理解在我們的教育機(jī)構(gòu)內(nèi)發(fā)生了什么是不可能的?!盵3可見,教育政策文本分析十分重要。政策文本分析可看作是從不同理論視角和學(xué)科背景來分析法律、法規(guī)、規(guī)章以及政府公文的多種文本分析方法的集合4,其核心價值在于以政策文本的量化數(shù)據(jù)為基石,走出文本,與實(shí)踐“對話”?;诖?,本研究嘗試構(gòu)建“政策工具-政策主題-政策效力”的三維分析框架,對近5年中央及各地方政府發(fā)布的技術(shù)賦能教育評價政策文本進(jìn)行分析解讀,對當(dāng)前技術(shù)賦能教育評價的“熱”潮流作“冷”思考,以期為技術(shù)賦能教育評價工作提供有益參考。
一研究設(shè)計
1技術(shù)賦能教育評價政策分析的三維框架構(gòu)建
當(dāng)前,“主題-工具-效力”的三維政策分析框架已在數(shù)據(jù)要素、個人信息保護(hù)等方面進(jìn)行了有效的應(yīng)用[[][]。政策主題、政策工具、政策效力之間存在密切的互動關(guān)系:政策工具的選擇需以政策主題為核心內(nèi)容,以政策效力為最終目標(biāo)[7。當(dāng)政策主題與政策工具緊密結(jié)合、精確匹配時,可以顯著提升政策的執(zhí)行效能,進(jìn)而加速政策目標(biāo)與任務(wù)的順利實(shí)現(xiàn);而政策效力作為政策主題和政策工具執(zhí)行效果的直觀體現(xiàn),是衡量政策任務(wù)和目標(biāo)實(shí)施效果的直接標(biāo)準(zhǔn)與核心指標(biāo)。對政策效力的深入剖析,有助于教育工作者更準(zhǔn)確地識別在政策實(shí)施過程中可能出現(xiàn)的問題和不足之處,從而為未來的政策調(diào)整和優(yōu)化提供有力的實(shí)證研究與科學(xué)支撐?;谏鲜龇治?,本研究構(gòu)建了包含政策工具、政策主題、政策效力三個維度的技術(shù)賦能教育評價政策分析的三維框架(如圖1所示),以全面探討我國技術(shù)賦能教育評價政策的外部特征與內(nèi)部語義,為多維度量化分析我國技術(shù)賦能教育評價政策提供理論支撐與實(shí)踐參考。
(1)X維度:政策工具
政策工具是實(shí)現(xiàn)政策目標(biāo)所采用的手段與方法,諸多學(xué)者從不同維度對政策工具的概念進(jìn)行了界定。其中,Rothwell等[8提出的政策工具分類框架與我國技術(shù)賦能教育評價政策高度契合,應(yīng)用最為廣泛。參考此框架,本研究構(gòu)建了供給型、需求型和環(huán)境型三類政策工具分析框架,選取40份政策文本作為研究樣本(按發(fā)布時間編號),并遵循“政策編號-章節(jié)編號-小節(jié)標(biāo)識”的編碼規(guī)范進(jìn)行精確編碼。
(2)Y維度:政策主題
政策主題通常反映政府的關(guān)注焦點(diǎn)和主要目標(biāo),深入分析這些主題有助于把握發(fā)展重點(diǎn),為政策優(yōu)化提供參考。詞頻-逆文檔頻度(TermFrequency-Inverse Document Frequency,TF-IDF)技術(shù)是一種強(qiáng)有力的用于信息檢索與數(shù)據(jù)挖掘的工具,LDA(Latent Dirichlet Allocation)主題建模則能從一篇文章中挖掘出隱含的主題及與之關(guān)聯(lián)的詞語。本研究采用這兩個工具,來精確辨識技術(shù)賦能教育評價政策中的熱門議題。
(3)Z維度:政策效力
政策效力指政策文本的內(nèi)容效度及其影響力。Estrada[1o提出的PMC(PolicyModeling Consistency)指數(shù)模型被認(rèn)為是評估政策文件內(nèi)容效力的可靠手段。參考此模型,本研究構(gòu)建了技術(shù)賦能教育評價政策效力分析的PMC指數(shù)模型,并依據(jù)PMC指數(shù)值和曲面圖,對技術(shù)賦能教育評價政策文本的效力進(jìn)行了多角度的綜合評價。
2政策樣本選取
本研究聚焦2020年《總體方案》出臺后中央及地方政府頒布的技術(shù)賦能教育評價政策,以“數(shù)字化”“教育評價”等為關(guān)鍵詞,分別在“北大法寶”、中華人民共和國教育部和各省市教育廳網(wǎng)站對政策文本進(jìn)行初步檢索,并利用百度、Google等搜索引擎進(jìn)行補(bǔ)充檢索。最終,本研究獲得40項(xiàng)具有代表性和研究價值的技術(shù)賦能教育評價政策作為研究樣本,包括10項(xiàng)中央層面政策文本和30項(xiàng)地方層面政策文本。
二技術(shù)賦能教育評價政策分析
1X維度:政策工具分析
在通過編碼生成的300條政策條目中,供給型政策工具有135條(占 45.2% ),環(huán)境型政策工具有107條(占 35.6% ),需求型政策工具有58條(占 19.2% ),如表1所示。
在供給型政策工具中,“公共服務(wù)”“基礎(chǔ)設(shè)施”的占比較高,可見當(dāng)前供給型政策工具的主要著力點(diǎn)在于通過加強(qiáng)基礎(chǔ)設(shè)施建設(shè)來促進(jìn)技術(shù)賦能教育評價的應(yīng)用。在環(huán)境型政策工具中,“目標(biāo)規(guī)劃”占比最高,但“組織建設(shè)占”比較低,說明技術(shù)賦能教育評價作為一個新興融合領(lǐng)域,其內(nèi)部結(jié)構(gòu)和管理體系還不完善。而在需求型政策工具中,“政府牽引”占比最高,“宣傳引導(dǎo)”占比最低,從政策工具的使用頻次和我國技術(shù)賦能教育評價面臨的挑戰(zhàn)來看,當(dāng)前未能充分運(yùn)用推廣媒介來開展技術(shù)賦能教育評價工作。
2Y維度:政策主題分析
(1)LDA主題建模
在利用NLPIR大數(shù)據(jù)語義智能分析系統(tǒng)對40份政策文本進(jìn)行新詞提取、中文分詞和特征提取的基礎(chǔ)上,本研究采用Python的Gensim庫來實(shí)現(xiàn)LDA主題模型的構(gòu)建,具體步驟如下: ① 構(gòu)建LDA主題模型分析的語料庫,通過計算困惑度并結(jié)合一致性檢驗(yàn),確定最優(yōu)主題數(shù)為6,如圖2所示; ② 調(diào)整LDA模型參數(shù),并利用LDAvis庫對6個主題的識別結(jié)果進(jìn)行可視化; ③ 確定各主題中頻繁出現(xiàn)的特征詞,進(jìn)而通過人工整合,歸納出我國技術(shù)賦能教育評價政策分類的主題與具體內(nèi)容,如表2所示。
(2)LDA主題分析
整體而言,上述6個主題可以歸為三大維度: ① 基礎(chǔ)保障維度。本維度包括基礎(chǔ)設(shè)施和制度規(guī)范,兩者共同構(gòu)成了發(fā)展的基礎(chǔ)?;A(chǔ)設(shè)施主要指智能化測評平臺建設(shè),如浙江大學(xué)于2020年7月正式上線的以人工智能學(xué)習(xí)為主的智能科教平臺;制度規(guī)范主要圍繞數(shù)據(jù)安全管理開展,如國家及行業(yè)主管部門推動《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》等法律在ChatGPT等AI領(lǐng)域的延伸適用。 ② 創(chuàng)新應(yīng)用維度。本維度包括數(shù)字技術(shù)和數(shù)據(jù)要素。數(shù)字技術(shù)主要包括伴隨式采集、數(shù)字畫像和自適應(yīng)推薦等,如上海市徐教院附中利用大數(shù)據(jù)探索基于學(xué)生數(shù)字畫像的綜合素質(zhì)“增值”評價;數(shù)據(jù)要素包括數(shù)據(jù)采集、數(shù)據(jù)追蹤和數(shù)據(jù)治理等方面。 ③ 持續(xù)發(fā)展維度。本維度包括人才培養(yǎng)和合作宣傳。人才培養(yǎng)主要指建立教育評價學(xué)培養(yǎng)專業(yè)的教育評價、測量人才;合作宣傳則有利于政府總結(jié)規(guī)律,實(shí)現(xiàn)大規(guī)模推廣,如2022年11月教育部發(fā)布《開展信息技術(shù)支撐學(xué)生綜合素質(zhì)評價試點(diǎn)工作的通知》,將在全國范圍內(nèi)遴選約30個區(qū)域開展試點(diǎn)工作。分析上述三個維度,可以看出我國技術(shù)賦能教育評價政策主題的涵蓋范圍較廣,并且針對各項(xiàng)主題均制定相關(guān)政策予以保障,切實(shí)推動技術(shù)賦能教育評價發(fā)展。
3Z維度:政策效力分析
(1)搭建PMC指數(shù)模型
① 構(gòu)建量化評價體系。本研究使用Nvivo12軟件對政策文件進(jìn)行詞頻分析,最終確定30個高頻關(guān)鍵詞。基于這些關(guān)鍵詞和相關(guān)文獻(xiàn),本研究構(gòu)建了包含9個一級變量( Xl~X9 )和33個二級變量的技術(shù)賦能教育評價政策量化評價體系:X1政策問題,包括需求性和準(zhǔn)確性[1I;X2政策時效,包括長期、中期和短期[12];X3政策目標(biāo),包括合理性[13];X4政策工具,包括供給型、需求型和環(huán)境型[14];X5政策參與,包括教師、學(xué)生、學(xué)校和社會參與;X6政策保障,包括責(zé)任落實(shí)、專業(yè)建設(shè)、數(shù)字賦能、督導(dǎo)評估、國際合作和宣傳引導(dǎo);X7政策措施,包括伴隨式獲取數(shù)據(jù)、多模態(tài)數(shù)據(jù)、數(shù)字畫像、自適應(yīng)推薦、全數(shù)據(jù)智能化測評平臺、反饋可視化呈現(xiàn)與交互;X8政策可操作性,包括具體實(shí)施方案、細(xì)化政策措施、配套政策和部門任務(wù)分工[15];X9政策評價,包括依據(jù)充分、目標(biāo)明確、方案科學(xué)和規(guī)劃詳實(shí)[16]。
② 制定多投入產(chǎn)出表。鑒于缺乏專項(xiàng)的技術(shù)賦能教育評價政策,本研究從40份教育政策中篩選出6例典型政策(含1例國家級政策和5例省級政策)作為樣本。選取依據(jù)包括政策對技術(shù)賦能教育評價的內(nèi)容覆蓋程度及相關(guān)性,對未出臺專項(xiàng)方案的省份則采用替代性政策文件,如寧夏回族自治區(qū)將《關(guān)于推進(jìn)義務(wù)教育優(yōu)質(zhì)均衡發(fā)展實(shí)施方案》作為其教育評價改革實(shí)施方案的樣例?;诩夹g(shù)賦能教育評價政策指標(biāo),制定相對應(yīng)的多投入產(chǎn)出表,并采用二進(jìn)制設(shè)定二級變量的參數(shù)。
③ 計算PMC指數(shù)。根據(jù)PMC指數(shù)公式計算得出PMC指數(shù)[17],結(jié)果如表3所示。
(2)PMC曲面圖繪制
根據(jù)PMC指數(shù)的計算結(jié)果,本研究對6項(xiàng)技術(shù)賦能教育評價政策樣本進(jìn)行排列得到 3×3 的PMC矩陣,之后借助MATLAB軟件繪制各項(xiàng)政策的曲面圖,結(jié)果如圖3所示。
(3)政策效力分析
由PMC指數(shù)和PMC曲面圖可知,6項(xiàng)政策評價等級均為良好。曲面圖整體較平滑,向底面的凹陷程度較小,表明所選政策具有一定的科學(xué)性,能夠促進(jìn)技術(shù)賦能教育評價發(fā)展,但在政策時效、政策措施、政策可操作性方面仍有改進(jìn)空間。對所選6份政策部分進(jìn)行微觀分析,結(jié)果顯示: ①P4 排名第一,且P4的 PMC 曲面圖在6幅曲面圖中最為平滑,向底面凹陷程度最小,綜合分析認(rèn)為這項(xiàng)政策效果最佳,能夠?yàn)槠渌〖壖夹g(shù)賦能教育評價政策的制定提供借鑒范本。 排名第三,政策效果比較理想。結(jié)合背景知識可知,浙江省早在 2021年《浙江省教育領(lǐng)域數(shù)字化改革工作方案》中就提出建設(shè)“教育魔方”工程,構(gòu)建教育大數(shù)據(jù)倉,為技術(shù)賦能教育評價改革提供了有力支撐。 ③ P5的PMC指數(shù)得分最低,是由于該政策對于政策措施和政策可操作性的重視程度較低,缺乏具體的實(shí)施措施和步驟。
4X-Y-Z維度:三維綜合分析
對我國技術(shù)賦能教育評價政策進(jìn)行三維綜合分析時,可以從三個關(guān)鍵維度展開交叉性解析
① X-Y維度:技術(shù)賦能教育評價政策工具與政策主題展現(xiàn)出了高度的策略性和協(xié)同性。具體而言,政策工具的選擇緊密圍繞政策主題展開,形成了精準(zhǔn)對接、相互支撐的良好格局。例如,在基礎(chǔ)保障維度,政府不僅通過供給型政策工具(如資金投入、基礎(chǔ)設(shè)施建設(shè)等手段)為教育評價體系的數(shù)字化轉(zhuǎn)型奠定堅實(shí)基礎(chǔ),還運(yùn)用環(huán)境型政策工具(如制定完善的制度規(guī)范、營造有利的政策環(huán)境)以確保技術(shù)賦能過程的平穩(wěn)有序。而在創(chuàng)新應(yīng)用維度,針對數(shù)字技術(shù)與數(shù)據(jù)要素的核心需求,政府側(cè)重運(yùn)用公共服務(wù)和數(shù)字技術(shù)兩類供給型政策工具,直接推動技術(shù)創(chuàng)新成果在教育評價領(lǐng)域的廣泛應(yīng)用與深度融合。
② X-Z 維度:在從政策工具到政策效力的轉(zhuǎn)化過程中,不難發(fā)現(xiàn),不同類型的政策工具在提升政策效力方面扮演著不同角色。特別是環(huán)境型政策工具中的策略措施與組織建設(shè)兩類子工具,其占比相對較低,直接反映了當(dāng)前在政策實(shí)施策略與組織保障方面的不足。這種不足進(jìn)而影響到政策措施的具體執(zhí)行效果和政策操作性的提升,限制了政策效力的發(fā)揮。因此,未來在政策優(yōu)化過程中應(yīng)適當(dāng)增加環(huán)境型政策工具的使用比例,特別是加強(qiáng)策略措施的制定與執(zhí)行力度,完善組織建設(shè),以全面提升政策的執(zhí)行力與可操作性。
③ Y-Z 維度:技術(shù)賦能教育評價政策的主題多樣性與豐富性,是其促進(jìn)教育評價體系變革的重要動力。這些主題不僅涵蓋了數(shù)字技術(shù)、數(shù)據(jù)要素等核心技術(shù)層面,還延伸到了制度規(guī)范、人才培養(yǎng)、合作宣傳等關(guān)鍵領(lǐng)域,形成了全方位、多層次的政策支持體系。這種全面的政策覆蓋,不僅為技術(shù)賦能教育評價提供了必要的資源與環(huán)境,還通過制度引領(lǐng)、人才培育、社會動員等方式,綜合提升了政策實(shí)施的整體效力。具體來說,制度規(guī)范的完善為政策執(zhí)行提供了法律保障;人才培養(yǎng)的加強(qiáng)為技術(shù)創(chuàng)新與應(yīng)用提供了智力支持;合作宣傳的深入則增強(qiáng)了社會各界的認(rèn)同和參與,形成了良好的政策執(zhí)行氛圍。這些因素的共同作用,使得技術(shù)賦能教育評價政策在提升教育評價質(zhì)量、促進(jìn)教育公平與效率方面取得了顯著成效。
三研究結(jié)論
本研究構(gòu)建了包含政策工具、政策主題、政策效力三個維度的技術(shù)賦能教育評價政策分析的三維分析框架,并運(yùn)用內(nèi)容分析法、TF-IDF算法、LDA主題建模和PMC指數(shù)模型對技術(shù)賦能教育評價的政策文本進(jìn)行深入剖析,所得結(jié)論主要如下:
1政策主題覆蓋全面,涉及三大主題
在技術(shù)賦能教育評價的政策布局中,其主題范疇不僅囊括了教育評價所需的基礎(chǔ)保障,還深入到創(chuàng)新應(yīng)用并延伸至持續(xù)發(fā)展等多個維度。首先,基礎(chǔ)保障作為技術(shù)賦能教育評價的基礎(chǔ),其完善程度直接關(guān)系到評價體系的穩(wěn)定性和高效性。政府通過加大投入、優(yōu)化資源配置,為教育評價提供了堅實(shí)的物質(zhì)保障。其次,創(chuàng)新應(yīng)用作為引領(lǐng)教育評價創(chuàng)新發(fā)展的關(guān)鍵驅(qū)動力,其研發(fā)、應(yīng)用與推廣在政策中得到了高度重視,有助于提升評價體系的智能化、精準(zhǔn)化水平。最后,持續(xù)發(fā)展的提出不僅提升了社會對于技術(shù)賦能教育評價的認(rèn)可度和參與度,還為技術(shù)賦能教育評價的長遠(yuǎn)發(fā)展奠定了堅實(shí)的人才基礎(chǔ)。
2政策工具應(yīng)用不均衡,呈現(xiàn)重供給、輕需求的狀態(tài)
政策工具運(yùn)用失衡,整體上呈現(xiàn)出重供給、輕需求的狀態(tài)??紤]到我國技術(shù)支持的教育評價正處于發(fā)展的初期階段,政府部門傾向于采用供給型政策工具(如公共服務(wù)、資金投入等)為其提供內(nèi)驅(qū)力。這種策略為技術(shù)賦能教育評價奠定了堅實(shí)的物質(zhì)基礎(chǔ),理論上如同開辟了一條“康莊大道”,應(yīng)能促進(jìn)技術(shù)賦能教育評價的迅速發(fā)展。然而,實(shí)際情況卻是面臨“道路寬敞但車流量少”的尷尬。盡管供給條件得天獨(dú)厚,市場需求和社會參與度卻遠(yuǎn)未達(dá)到預(yù)期,這歸因于需求型政策工具不足及其內(nèi)部的子工具分布不均。
3政策效力整體表現(xiàn)良好,但個別維度仍需完善
盡管技術(shù)賦能教育評價政策在全局層面上展現(xiàn)出了不俗的成效,但在某些維度上仍存在提升空間。首先,一些政策在時效性上缺乏長遠(yuǎn)規(guī)劃和持續(xù)性支持。這種“短視”的做法可能短期內(nèi)帶來積極效果,但長遠(yuǎn)來看,缺乏持續(xù)性的政策支持會導(dǎo)致效果逐漸減弱,甚至可能出現(xiàn)反彈。其次,技術(shù)革新(如大數(shù)據(jù)分析、人工智能等)擁有巨大的潛力,然而當(dāng)前的政策并未清晰闡述這些先進(jìn)技術(shù)如何與教育評價實(shí)踐相結(jié)合,以及如何有效融入傳統(tǒng)的評價方法中。這種模糊的表述和不夠明確的整合策略,使得技術(shù)與實(shí)際應(yīng)用之間產(chǎn)生了明顯的脫節(jié),從而限制了技術(shù)對于教育評價體系的實(shí)際貢獻(xiàn)和推動作用。最后,政策的可操作性尚顯薄弱,缺乏明確的執(zhí)行步驟和衡量標(biāo)準(zhǔn)。執(zhí)行者面對缺乏具體指導(dǎo)的政策,往往難以把握其精髓,導(dǎo)致政策執(zhí)行效果參差不齊。
四對策建議
針對當(dāng)前技術(shù)賦能教育評價政策所面臨的問題與挑戰(zhàn),本研究從政策工具、政策效力兩個維度提出對策建議: ① 在政策工具方面,包括合理配置政策工具,優(yōu)化內(nèi)部結(jié)構(gòu)效能。 ② 在政策效力方面,包括加強(qiáng)過程評價引導(dǎo),提升評價實(shí)踐效力;鼓勵技術(shù)工具研發(fā),解決關(guān)鍵卡脖問題;構(gòu)建交叉課程體系,推動學(xué)科創(chuàng)新發(fā)展;健全技術(shù)應(yīng)用法規(guī),引領(lǐng)評價規(guī)范發(fā)展。需要指出的是,在政策主題方面,鑒于其呈現(xiàn)出的良好態(tài)勢,本研究暫未提出進(jìn)一步的建議,而是計劃在未來觀察其持續(xù)發(fā)展的情況后再作考量。
1合理配置政策工具,優(yōu)化內(nèi)部結(jié)構(gòu)效能
根據(jù)三分法政策工具理論[18],唯有精心配置環(huán)境型、供給型、需求型政策工具的比例,才能確保三者形成合力,協(xié)同發(fā)展。從外在結(jié)構(gòu)看,應(yīng)當(dāng)追求政策工具間的平衡。結(jié)合當(dāng)前技術(shù)賦能教育評價的發(fā)展階段,未來技術(shù)賦能教育評價可以將重心逐步從供給面拓展至需求面和環(huán)境面,充分發(fā)揮供需兩端的“推拉”效應(yīng)。此外,在選擇技術(shù)賦能教育評價政策工具時,我們不僅要考慮工具本身的局限性和效能,更要重視選擇過程的合理性、結(jié)果評價的全面性,以及是否符合社會價值和道德準(zhǔn)則[19]。而內(nèi)在結(jié)構(gòu)方面,首先,供給型政策工具的使用應(yīng)強(qiáng)調(diào)多元化要素的供給,以實(shí)現(xiàn)更高層次的供給水平。我國技術(shù)賦能教育評價政策的主要措施集中在“公共服務(wù)”和“基礎(chǔ)設(shè)施”方面,與政策主題中的“基礎(chǔ)保障”維度相對應(yīng)。例如,2021年我國中小學(xué)互聯(lián)網(wǎng)接入率達(dá)到 100% ,相較于2012年有了顯著提升,多媒體教室的普及率也高達(dá)99.5% 。然而,“數(shù)字公共服務(wù)”的供給在質(zhì)量和水平方面仍有待提升,這可能與我國技術(shù)賦能教育評價發(fā)展起步較晚有關(guān)。其次,不能僅依賴供給政策來推動技術(shù)賦能教育評價的發(fā)展,而應(yīng)充分發(fā)揮需求型政策工具的積極作用,如增強(qiáng)試點(diǎn)推廣和交流合作政策工具的運(yùn)用,即政策主題“持續(xù)發(fā)展”維度。最后,在環(huán)境型政策工具方面,應(yīng)加強(qiáng)目標(biāo)規(guī)劃、策略措施及組織建設(shè)等工具的運(yùn)用,以提升政策的針對性、效率性和可持續(xù)性。同時,數(shù)據(jù)安全保障等管制工具的運(yùn)用也不容忽視,以有效應(yīng)對數(shù)字技術(shù)帶來的風(fēng)險挑戰(zhàn)。
2加強(qiáng)過程評價引導(dǎo),提升評價實(shí)踐效力
《深化新時代教育評價改革總體方案》等文件指出,要進(jìn)一步強(qiáng)化過程性評價和發(fā)展性評價,提高教育評價的科學(xué)性??梢?,過程性評價作為教育評價體系的重要組成部分,已成為技術(shù)賦能評價改革創(chuàng)新的重要突破口。但遺憾的是,當(dāng)前技術(shù)的應(yīng)用依舊受限于標(biāo)準(zhǔn)化測驗(yàn)框架,對教育評價整體發(fā)展的推進(jìn)作用并不明顯。首先,加強(qiáng)數(shù)據(jù)資源創(chuàng)新共享,如多模態(tài)數(shù)據(jù)融合聯(lián)結(jié)技術(shù)、互動式數(shù)字畫像技術(shù)等。具體而言,評價主體基于育人目標(biāo),通過多渠道系統(tǒng)分析評價實(shí)踐的關(guān)鍵特征及其內(nèi)在規(guī)律。在此過程中,通過對多模態(tài)數(shù)據(jù)分析技術(shù)的運(yùn)用,為評價主體在結(jié)果優(yōu)化、決策制定等關(guān)鍵環(huán)節(jié)提供更加科學(xué)、精準(zhǔn)的技術(shù)支持。其次,利用技術(shù)工具對過程性評價標(biāo)準(zhǔn)進(jìn)行具體量化和細(xì)致劃分,以提升政策效力中政策可操作性的得分。例如,在預(yù)習(xí)環(huán)節(jié),可以設(shè)定“預(yù)習(xí)時長”“預(yù)習(xí)任務(wù)完成度”等量化指標(biāo),并結(jié)合學(xué)生的學(xué)習(xí)習(xí)慣與認(rèn)知水平,制定差異化的評價標(biāo)準(zhǔn);在課堂參與環(huán)節(jié),則可以通過分析學(xué)生的發(fā)言次數(shù)、提問質(zhì)量等數(shù)據(jù),評估其課堂參與度與互動效果。然后,加強(qiáng)對過程性評價工具應(yīng)用的培訓(xùn),如加拿大魁北克教育廳與技術(shù)整合教育網(wǎng)絡(luò)、教育框架21和數(shù)字學(xué)校等戰(zhàn)略伙伴聯(lián)合組織數(shù)字教育日,為所有公立或私立教育部門的員工提供一系列免費(fèi)的培訓(xùn)活動和課程。最后,充分運(yùn)用推廣媒介加強(qiáng)宣傳技術(shù)賦能過程性評價工作。借助教育類網(wǎng)站、社交媒體、在線學(xué)習(xí)社區(qū)等新媒體渠道,發(fā)布通俗易懂的科普文章、視頻教程及實(shí)操指南,提高廣大教育工作者、學(xué)生家長及社會公眾對技術(shù)賦能過程性評價的認(rèn)知度與接受度。
3鼓勵技術(shù)工具研發(fā),解決關(guān)鍵卡脖問題
技術(shù)賦能教育評價改革涉及數(shù)據(jù)的采集、處理、分析、建模和應(yīng)用。針對基礎(chǔ)教育評價中人工智能底層技術(shù)和數(shù)據(jù)分析技術(shù)等方面的技術(shù)困境,需要從教育評價的總框架進(jìn)行系統(tǒng)思考。首先,審慎地平衡工具理性與價值理性之間的關(guān)系[20]。從智能技術(shù)與教育評價深度融合的視角出發(fā),對數(shù)據(jù)采集、分析以及可視化技術(shù)進(jìn)行優(yōu)化升級,開發(fā)適用于各種教育場景的智能化評價系統(tǒng)與測評工具,為教育評價提供基本的硬件支撐保障。例如,美國俄亥俄州將 NNAT、Cog AT及 MAP等尖端測量工具納入其大規(guī)模學(xué)業(yè)監(jiān)測,聚焦于展現(xiàn)學(xué)生復(fù)雜思維邏輯與抽象概念理解的能力,顯著提升了識別并精確衡量高水平學(xué)習(xí)者的能力[1]。目前,也有研究者設(shè)計了一個三人協(xié)作的計算機(jī)編程任務(wù),并運(yùn)用視頻記錄和平臺自動記錄兩種方法,綜合采集受測者的面部表情數(shù)據(jù)、語音討論數(shù)據(jù)和計算機(jī)編程界面變化數(shù)據(jù)[22]。其次,構(gòu)建技術(shù)合作聯(lián)通機(jī)制。在數(shù)字化賦能高等教育評價的過程中,技術(shù)瓶頸往往不僅是技術(shù)研發(fā)的問題,更是對教育評價具體情境和應(yīng)用模式認(rèn)知的局限。因此,我們需要積極尋求計算機(jī)科學(xué)、教育技術(shù)學(xué)、心理學(xué)等多學(xué)科領(lǐng)域研究者的合作,共同推進(jìn)智能教育測評技術(shù)的研發(fā)與應(yīng)用研究。最后,完善教育評價數(shù)據(jù)共享機(jī)制?;谖覈鴶?shù)據(jù)標(biāo)準(zhǔn)和技術(shù)標(biāo)準(zhǔn)的研發(fā),精準(zhǔn)化數(shù)據(jù)定義,協(xié)調(diào)統(tǒng)一數(shù)據(jù)獲取、數(shù)據(jù)分析等處理方法,實(shí)現(xiàn)“一數(shù)一源”,確保各項(xiàng)數(shù)據(jù)都能在不同的評價體系中流通,解決不同部門間存在的數(shù)據(jù)孤島、數(shù)據(jù)偏差等問題。
4構(gòu)建交叉課程體系,推動學(xué)科創(chuàng)新發(fā)展
首先,構(gòu)建多學(xué)科交叉的課程體系。正如習(xí)總書記在全國科技大會上的講話:“當(dāng)前,我國人才培養(yǎng)與科技創(chuàng)新供需不匹配的結(jié)構(gòu)性矛盾比較突出。須堅持以科技創(chuàng)新的實(shí)際需求為導(dǎo)向,進(jìn)一步優(yōu)化高等學(xué)校的學(xué)科布局,并推動人才培養(yǎng)模式的革新?!苯逃u價學(xué)學(xué)科的進(jìn)步需要倚重跨領(lǐng)域的理論與技術(shù)的交匯、融合,包括對教育學(xué)、心理學(xué)、數(shù)學(xué)、統(tǒng)計學(xué)、計算機(jī)與數(shù)據(jù)科學(xué)等多個學(xué)科的理論和技術(shù)手段進(jìn)行深入整合,打造基礎(chǔ)教育質(zhì)量監(jiān)測學(xué)科群。此外,在課程設(shè)置上,除了常規(guī)的統(tǒng)計學(xué)與測量學(xué)課程,建議增設(shè)線性代數(shù)、計算機(jī)編程基礎(chǔ)、數(shù)據(jù)科學(xué)等前沿課程,以全方位提升學(xué)生的信息技術(shù)應(yīng)用能力與數(shù)據(jù)處理素養(yǎng)。其次,搭建研究平臺,鼓勵實(shí)踐創(chuàng)新。教育評價學(xué)是一個實(shí)踐性很強(qiáng)的專業(yè),學(xué)生不能只局限在書本和課堂中,可以積極尋求與企業(yè)的合作,共同建立實(shí)習(xí)合作平臺,為學(xué)生提供參與教育質(zhì)量監(jiān)測的視導(dǎo)、預(yù)試、數(shù)據(jù)分析與報告撰寫等工作的機(jī)會。再次,加強(qiáng)師資建設(shè)。借助教育評價學(xué)科建設(shè)的契機(jī),大力引進(jìn)和培養(yǎng)高水平的教育評價學(xué)師資,為培養(yǎng)一流的評價人才奠定堅實(shí)基礎(chǔ)。通過提供專業(yè)的培訓(xùn)和發(fā)展機(jī)會,激勵教師不斷提升自身的專業(yè)素養(yǎng)和教學(xué)能力,從而為學(xué)生提供更優(yōu)質(zhì)的教育服務(wù)。最后,汲取先進(jìn)經(jīng)驗(yàn),拓寬合作渠道。通過與世界各地的科研機(jī)構(gòu)、高校和實(shí)驗(yàn)室開展深入的合作與研究,共同設(shè)立專項(xiàng)創(chuàng)新實(shí)驗(yàn)室,為教育評價學(xué)學(xué)科提供一個國際化、創(chuàng)新性的研究與應(yīng)用環(huán)境。
5健全技術(shù)應(yīng)用法規(guī),引領(lǐng)評價規(guī)范發(fā)展
在推進(jìn)技術(shù)賦能教育評價的過程中,我們同樣需要構(gòu)建堅實(shí)的法律與制度基石,以確保其有序高效發(fā)展。首先,建立健全教育評估法律法規(guī)。國家層面應(yīng)加快立法步伐,針對技術(shù)賦能教育評價的特殊性,制定或修訂相關(guān)法律法規(guī),包括明確數(shù)字技術(shù)在教育評價中的角色、目標(biāo)、原則及操作流程,為不同類型、不同層次的教育評價提供法律依據(jù),如德國從2011年《德國網(wǎng)絡(luò)安全戰(zhàn)略》、2015年《信息技術(shù)安全法》以及戰(zhàn)略中提出創(chuàng)建生產(chǎn)和使用數(shù)字化教育產(chǎn)品的法律框架[23]。同時,通過法律規(guī)范的明確界定,進(jìn)一步闡明數(shù)字技術(shù)如何賦能教育評價改革的指導(dǎo)思想、發(fā)展目標(biāo)以及多元評價主體在其中的角色定位和責(zé)任安排。其次,嚴(yán)格規(guī)范科技倫理。具體而言,應(yīng)制定和完善教育評估領(lǐng)域的科技倫理規(guī)范與標(biāo)準(zhǔn),積極研判并定期梳理教育評估工作中潛在的倫理風(fēng)險,引導(dǎo)教育評估工作人員在數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析等科技工作中嚴(yán)格遵守法律法規(guī),確??萍紤?yīng)用的合法性和合規(guī)性。例如,2023年4月11日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《生成式人工智能服務(wù)管理辦法(征求意見稿)》[24],首次對生成式人工智能服務(wù)的監(jiān)管治理提出了較為詳盡的規(guī)定。最后,提高數(shù)字化教育評估意識。政府、學(xué)校及社會各界應(yīng)共同努力,通過組織專題培訓(xùn)、研討會等,提升教師、學(xué)生及家長的數(shù)字素養(yǎng),縮小數(shù)字鴻溝,在全社會范圍內(nèi)營造技術(shù)賦能教育評價的理念,為教育評價轉(zhuǎn)型發(fā)展提供肥沃的土壤,提高全民對數(shù)字化教育評估的認(rèn)同感。
參考文獻(xiàn)
[1]新華網(wǎng).中共中央國務(wù)院印發(fā)《深化新時代教育評價改革總體方案》[OL].
[2]王金霞,智學(xué).教育政策——教育理論與教育實(shí)踐的橋梁[J].教育理論與實(shí)踐,2005,(12):1-4.
[3]Bell L,Stevenson H.Education policy: Process,themes and impact[M].London,New York: Routledge,2006:9.
[4]涂端午.教育政策文本分析及其應(yīng)用[J].復(fù)旦教育論壇,2009,(5):22-27.
[5]奉國和,彭凱林.我國數(shù)據(jù)要素政策文本的多維分析[J].圖書館論壇,2025,(2):92-100.
[6]王旭,李雨晴.我國個人信息保護(hù)政策文本量化研究及啟示——基于\"工具-效力-主題\"三維框架的探析[J.情報科學(xué),2023,(1):126-133、142.
[7]王文韜,張子一,錢鵬博,等.三維框架下我國數(shù)據(jù)要素政策量化研究[J].情報理論與實(shí)踐,2024,(10):32-40、117.
[8]RothwellR, Zegveld W. Reindusdalization and technology[M]. London: Longman Group Limited,1985:83-104.
[9]董偉,董思遙,王聰,等.基于TF-IDF算法和DTM模型的網(wǎng)絡(luò)學(xué)習(xí)社區(qū)主題分析[J].現(xiàn)代教育技術(shù),2022,(2):90-98.
[10]EstradaMARPolicymodeling: Defition,casificatonandevaluaton[J].JoualofPoicyodelng,21,(4):2-36.[1]蔡旻君,張書琦.推進(jìn)教育數(shù)字化轉(zhuǎn)型的政策保障研究——基于 PMC 指數(shù)模型的量化評估分析[J].電化教育研究,2024,(9):37-44、60.
[12]范柏乃,張茜蓉.公共政策質(zhì)量的概念構(gòu)思、測量指標(biāo)與實(shí)際測量[J].北京行政學(xué)院學(xué)報,2014,(6):1-7.
[13]史鵬飛,明慶忠,韓劍磊,等.基于 PMC 指數(shù)模型的邊境旅游政策綜合量化評價與比較研究——來自廣西和內(nèi)蒙古兩個自治區(qū)的案例[J].地域研究與開發(fā),2020,(6):91-97.
[14]肖遠(yuǎn)軍.教育政策評價的標(biāo)準(zhǔn)探討[J].浙江教育學(xué)院學(xué)報,2002,(3):90-95.
[15]王進(jìn)富,楊青云,張穎穎.基于PMC-AE 指數(shù)模型的軍民融合政策量化評價[J].情報雜志,2019,(4):66-73.
[16]杜寶貴,陳磊.基于PMC指數(shù)模型的科技服務(wù)業(yè)政策量化評價:遼寧及相關(guān)省市比較[J.科技進(jìn)步與對策,2022,(1):132-140.
[17]戚,張鋒.基于內(nèi)容分析的戰(zhàn)略性新興產(chǎn)業(yè)政策評價研究[J].科技進(jìn)步與對策,2020,(17):118-125.
[18]劉葉婷.邁克爾·豪利特、M.拉米什:《公共政策研究——政策循環(huán)與政策子系統(tǒng)》[J].公共管理評論,2008(1):140-144.
[19]王正青,米娜瓦爾·米爾哈力.數(shù)字化轉(zhuǎn)型背景下G7成員國數(shù)字教育政策比較研究——基于政策主體、工具與主題的三維分析[J].中國電化教育,2024,(2):89-99
[20]閆志明,朱友良,劉方媛.新一代信息技術(shù)支撐的教育評價:價值訴求、現(xiàn)實(shí)問題與建設(shè)進(jìn)路[J].現(xiàn)代教育技術(shù),2022,(11):34-41.
[21]Texas Education Agency. Texas state plan for the education of gifted/talented students[OL].[22]鄭勤華,陳麗,柴喚友,等.基于信息技術(shù)的表現(xiàn)性評價:內(nèi)涵、作用點(diǎn)與發(fā)展路向[J].中國電化教育,2023,(3):55-61.[23]龍柯宇.生成式人工智能應(yīng)用失范的法律規(guī)制研究——以ChatGPT和社交機(jī)器人為視角[J].東方法學(xué),2023(4):44-55.[24]中國網(wǎng)信網(wǎng).國家互聯(lián)網(wǎng)信息辦公室關(guān)于《生成式人工智能服務(wù)管理辦法(征求意見稿)》公開征求意見的通知[OL].
How Can Technology Empower Educational Evaluation?
-From the Perspective of Integrated Analysis Based on“Tool-Theme-Effectiveness”
CAI Min-Jun ZHANG Shu-Qi
(School of Educational Technology,Northwest Normal University, Lanzhou, Gansu, China 730070)
Abstract: Technology-empowered educational evaluation is an important topicof educational evaluation reform in the intelligentage,and policysupporthasasignificant impactonthe practiceof technology-empowered education evaluation.In theexistingpolicyresearch,thetree-dmensionalframeworkintegrating“to-teme-ectiveness”isanefectiveanalytical perspective. Based on this,the paper firstconstructed a three-dimensional framework forthepolicyanalysis of technologyempowerededucation evaluation.Ten,themethodssuchascomprehensivecontent analysis,TF-IDFalgorithm,LDAtopic modeling and PMCindex model were adopted to analyzeand interpret policy texts.Theresults showed that thecurrent policy themes of technology-empowered educational evaluation were comprehensive,butthere was animbalance in the useof olicy tools,generally showing the characteristics of emphasizing supply over demand.Theoverall performance of policy effctivenesswas good,butere wasstillroom for improvementinindicators suchaspoicymeasuresandoperabilityBased on this conclusion,the paper suggested strengthening policysupport byrationally alocating policy tool tooptimize internal structural eficiencyenhancing proces evaluation guidance to improvethe practical efectiveness ofevaluation,encouraging the esearchanddevelopment of technical tools tosolve keybotteeck problems,buildinganinterdisciplinary course system to promotetheinnovativedevelopmentofdisciplines,andimprovingtchnicalapplicationregulations toleadthestandardized developmentofevaluation,which was expected toprovideusefulreferences for technology-empowered educational evaluation.
Keywords: educational evaluation; policy analysis; LDA topic model; PMC index model; technology-empowered