李振 周東岱
[摘 ? 要] 自適應(yīng)學(xué)習(xí)系統(tǒng)是實現(xiàn)個性化學(xué)習(xí)的重要突破口,而領(lǐng)域知識建模一直是困擾該系統(tǒng)發(fā)展的一大難題。目前,以深度學(xué)習(xí)、知識圖譜為核心的新一代人工智能技術(shù)的回歸,為其提供了新的發(fā)展契機(jī)。文章首先對已有的教育領(lǐng)域知識建模方法進(jìn)行了梳理與總結(jié),對其現(xiàn)存問題進(jìn)行了對比分析;在此基礎(chǔ)上,針對通用知識圖譜遷移應(yīng)用于教育領(lǐng)域所面臨的知識粒度模糊、領(lǐng)域適應(yīng)性不強(qiáng)兩大問題,構(gòu)建了一種教育知識圖譜概念模型——EKGCM模型,該模型包括知識圖示、認(rèn)知圖式兩個層次,以及知識節(jié)點、知識關(guān)聯(lián)、認(rèn)知狀態(tài)、學(xué)習(xí)路徑四個基本要素;然后,針對圖譜構(gòu)建自動化程度不高的問題,文章提出一種基于智能處理技術(shù)的構(gòu)建方法,具體包括知識元抽取、前驅(qū)后繼關(guān)系挖掘、認(rèn)知狀態(tài)診斷、學(xué)習(xí)路徑生成四個步驟;最后,采用理想智慧教育云平臺中的教學(xué)資源和學(xué)習(xí)行為數(shù)據(jù)驗證了上述方法的可行性。研究對于開展數(shù)據(jù)智能驅(qū)動的個性化自適應(yīng)學(xué)習(xí)具有重要意義。
[關(guān)鍵詞] 教育知識圖譜; 概念模型; 知識元; 前驅(qū)后繼關(guān)系; 認(rèn)知狀態(tài); 學(xué)習(xí)路徑
[中圖分類號] G434 ? ? ? ? ? ?[文獻(xiàn)標(biāo)志碼] A
[作者簡介] 李振(1989—),男,山東濟(jì)寧人。博士研究生,主要從事自適應(yīng)學(xué)習(xí)系統(tǒng)、教育知識圖譜、個性化學(xué)習(xí)路徑推薦等研究。E-mail:liz666@nenu.edu.cn。
一、引 ? 言
個性化學(xué)習(xí)是教育改革與發(fā)展的永恒主題,更是大數(shù)據(jù)和人工智能時代教育創(chuàng)新發(fā)展的重大命題,而自適應(yīng)學(xué)習(xí)系統(tǒng)是促進(jìn)個性化學(xué)習(xí)從理論走向?qū)嵺`的重要抓手和實踐平臺,其核心組件包括學(xué)習(xí)者特征模型、領(lǐng)域知識模型、適應(yīng)性引擎三部分[1]。隨著大數(shù)據(jù)、人工智能等技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)教育邁向智能教育新階段,教育信息化邁入以人工智能技術(shù)為主要特征的2.0時代[2],以深度學(xué)習(xí)、知識圖譜為核心的新一代人工智能技術(shù)的回歸,將對個性化自適應(yīng)學(xué)習(xí)系統(tǒng)進(jìn)行重塑和再造[3]。
知識圖譜作為人工智能從感知智能向認(rèn)知智能變遷的核心和基礎(chǔ),已成為各行各業(yè)從網(wǎng)絡(luò)化向智能化轉(zhuǎn)型升級的關(guān)鍵技術(shù)之一,也為個性化自適應(yīng)學(xué)習(xí)系統(tǒng)中的核心和基礎(chǔ)問題——領(lǐng)域知識建模提供了新的技術(shù)手段[4]?!缎乱淮斯ぶ悄馨l(fā)展規(guī)劃》明確提出,要研究知識圖譜構(gòu)建與學(xué)習(xí)技術(shù),要構(gòu)建覆蓋數(shù)億級知識實體的多元、多學(xué)科、多數(shù)據(jù)源的知識圖譜[5]。在此背景下,構(gòu)建教育領(lǐng)域的知識圖譜成為智能教育發(fā)展的重要研究課題。鑒于此,本研究以通用知識圖譜為基礎(chǔ),構(gòu)建了教育知識圖譜的概念模型,并對其智能化構(gòu)建方法進(jìn)行了研究,為進(jìn)一步開展個性化學(xué)習(xí)、精準(zhǔn)化教學(xué)等智能教育應(yīng)用提供基礎(chǔ)。
二、教育領(lǐng)域知識建模研究現(xiàn)狀
知識建模源于知識工程領(lǐng)域,其本質(zhì)是將知識進(jìn)行語義化和結(jié)構(gòu)化表征,而教育領(lǐng)域的知識建模是將知識因子有序化和知識關(guān)聯(lián)網(wǎng)絡(luò)化的過程,其目標(biāo)是使學(xué)科知識及學(xué)習(xí)資源處于有序化狀態(tài),為人工智能技術(shù)支持下的教育應(yīng)用提供整序的知識服務(wù)。目前,在自適應(yīng)學(xué)習(xí)系統(tǒng)中采用的知識建模方法主要有概念圖、知識地圖、認(rèn)知地圖、知識圖譜等。
概念圖是采用節(jié)點(概念)和連線(概念間關(guān)系)組織知識的圖示化方法,其理論基礎(chǔ)是奧蘇伯爾提出的有意義學(xué)習(xí)理論。概念圖的構(gòu)建過程大致可分為四個步驟:概念抽取、概念分類、定位中心概念、連接交叉概念[6]。在應(yīng)用方面,概念圖既可以用于表達(dá)領(lǐng)域知識,也可以用于評估學(xué)習(xí)者對概念的認(rèn)知狀況,如自適應(yīng)學(xué)習(xí)系統(tǒng)中的LAOS模型就采用了概念圖來對領(lǐng)域知識進(jìn)行建模[7],而Yi-Ting等人將概念圖與多因素模糊推理相結(jié)合來評估學(xué)習(xí)績效[8]。
知識地圖是對知識及其存在方位的圖形化表示,是一種面向知識搜索和導(dǎo)航的建模方法。知識地圖也經(jīng)常被用在自適應(yīng)學(xué)習(xí)系統(tǒng)中來組織和表征學(xué)科知識及其關(guān)聯(lián)的資源,并作為學(xué)習(xí)者認(rèn)知加工的支架。在知識地圖的構(gòu)建過程中,需將概念圖與包含概念的知識資源進(jìn)行鏈接[9],該過程主要由教師和教育專家手工完成[10]。
認(rèn)知地圖是1948年由美國心理學(xué)家托爾曼提出的,其本質(zhì)是一種通過概念及其因果關(guān)系表征個人認(rèn)知結(jié)構(gòu)的圖式方法。在認(rèn)知地圖的教育應(yīng)用方面,余勝泉等人針對在線學(xué)習(xí)存在的“學(xué)習(xí)迷航”問題,提出了“學(xué)習(xí)認(rèn)知地圖”的解決方案,但其構(gòu)建過程主要由學(xué)科專家進(jìn)行手工編制[11]。早期的認(rèn)知地圖缺乏概念及其因果關(guān)系的定量描述,因此,Kosko等人將模糊集理論融入認(rèn)知地圖之中,提出了“模糊認(rèn)知地圖”的概念,使得認(rèn)知地圖能夠從概率角度表示相關(guān)概念的關(guān)聯(lián)程度[12]。在此基礎(chǔ)上,Konstantina等人將其運用于個性化自適應(yīng)學(xué)習(xí)系統(tǒng)中來構(gòu)建領(lǐng)域知識模型,地圖中的節(jié)點表示學(xué)習(xí)資源所包含的領(lǐng)域概念,并采用模糊集理論計算概念間的依賴關(guān)系及“影響強(qiáng)度”[13]。
當(dāng)下學(xué)術(shù)界談及的知識圖譜主要有兩大類:一類是應(yīng)用于文獻(xiàn)分析的“科學(xué)知識圖譜”,屬于信息資源管理領(lǐng)域;另一類是Google公司于2012年提出的“大規(guī)模知識圖譜”,屬于計算機(jī)科學(xué)領(lǐng)域[14]。其中,Google 提出的知識圖譜(以下簡稱“知識圖譜”)作為一種新型的、結(jié)構(gòu)化的語義知識網(wǎng)絡(luò),能夠描述現(xiàn)實世界中的各種實體(概念)及其復(fù)雜的語義關(guān)系,并能夠?qū)崿F(xiàn)自動化或半自動化的構(gòu)建[15],已成為當(dāng)前大數(shù)據(jù)智能時代的前沿研究方向。
目前,公開的通用知識圖譜庫主要有Google Knowledge Graph、Microsoft Concept Graph、DBpedia、Freebase、知立方、知心等。在教育領(lǐng)域,美國的Knewton公司利用知識圖譜構(gòu)建了包含概念及其先決關(guān)系的跨學(xué)科知識體系[16];Wolfram Research公司通過融合Mathematica和各垂直網(wǎng)站的知識,構(gòu)建了面向智能知識檢索的知識庫引擎Wolfram Alpha;可汗學(xué)院也將知識圖譜作為數(shù)學(xué)、科學(xué)與工程、計算機(jī)等學(xué)科課程的基本組織架構(gòu)。在國內(nèi),微軟研究院和清華大學(xué)聯(lián)合發(fā)布了“開放學(xué)術(shù)圖譜”,百度公司提出要構(gòu)建K12教育知識圖譜,北京師范大學(xué)余勝泉教授團(tuán)隊研發(fā)了基于育人知識圖譜的“AI好老師”智能助理系統(tǒng)[17],華中師范大學(xué)的研究團(tuán)隊開展了基于潛在語義分析的學(xué)科知識圖譜構(gòu)建研究[18]。
綜合而言,知識圖譜相比概念圖、知識地圖、認(rèn)知地圖,能夠表達(dá)更加廣泛的知識內(nèi)容以及語義關(guān)聯(lián)關(guān)系[11-14],而且構(gòu)建的自動化程度較高。但經(jīng)過文獻(xiàn)分析發(fā)現(xiàn),當(dāng)前知識圖譜在教育領(lǐng)域的應(yīng)用尚處于初步探索階段,在知識粒度、領(lǐng)域適應(yīng)性、構(gòu)建方法等方面仍存在以下問題:(1)知識粒度方面,現(xiàn)有知識圖譜中的知識節(jié)點多用于表示概念、知識點抑或現(xiàn)實中的實體,其粒度大小模糊,尚未深入到知識的最小獨立單元——知識元;(2)領(lǐng)域適應(yīng)性方面,缺乏教育教學(xué)的針對性和語用情境,尚未體現(xiàn)出學(xué)習(xí)者個體對知識認(rèn)知程度的差異性,未能模擬和反應(yīng)學(xué)習(xí)者個體認(rèn)知所達(dá)成的狀態(tài);(3)構(gòu)建方法方面,構(gòu)建過程過于依賴學(xué)科專家,自動化程度不高,不同專家對同一知識點的認(rèn)知偏差使得科學(xué)性與一致性難以保證[19]。
三、教育知識圖譜的概念模型構(gòu)建
(一)教育知識圖譜的概念界定
目前,對于教育知識圖譜這一概念,學(xué)術(shù)界還沒有形成統(tǒng)一的定義,學(xué)者們從不同的研究視角對其進(jìn)行了闡述,現(xiàn)有研究大致可分為以下三大類:(1)從知識組織視角出發(fā),教育知識圖譜可看作一種由知識點及其語義聯(lián)系形成的知識網(wǎng)絡(luò)圖[20],其表征的教育領(lǐng)域知識既包含個體知識結(jié)構(gòu),也包含群體的智慧[21]。(2)從學(xué)習(xí)者認(rèn)知視角出發(fā),教育知識圖譜旨在表達(dá)教學(xué)過程中涉及的不同元素以及各類具有教育意義的認(rèn)知關(guān)系[22],在知識圖譜的基礎(chǔ)上疊加學(xué)習(xí)者對知識掌握的狀態(tài)信息,能夠形成學(xué)習(xí)者的認(rèn)知圖式[11]。(3)從知識服務(wù)視角出發(fā),教育知識圖譜在表征學(xué)科知識和知識關(guān)系的基礎(chǔ)上,能夠在大數(shù)據(jù)、人工智能等技術(shù)支持下形成面向知識學(xué)習(xí)和能力培養(yǎng)的學(xué)習(xí)路徑[23];教育知識圖譜也能夠?qū)W(xué)科知識與教學(xué)資源實體以規(guī)范化、形式化的方式進(jìn)行語義連接,從而實現(xiàn)在線教育資源的有效組織[24]。
綜合上述觀點,本研究認(rèn)為,教育知識圖譜(Educational Knowledge Graph,簡稱EduKG)是知識圖譜在教育領(lǐng)域的拓展應(yīng)用,是一種以知識元為節(jié)點,根據(jù)其多維語義關(guān)系進(jìn)行關(guān)聯(lián),在知識層面和認(rèn)知層面上表示學(xué)科領(lǐng)域知識和學(xué)習(xí)者認(rèn)知狀態(tài),可用于知識導(dǎo)航、認(rèn)知診斷、資源聚合、路徑推薦的知識組織與認(rèn)知表征工具。
(二)教育知識圖譜的概念模型構(gòu)建
鑒于知識圖譜在教育領(lǐng)域應(yīng)用中存在的知識粒度模糊和領(lǐng)域適應(yīng)性不強(qiáng)兩方面的問題,本研究從結(jié)構(gòu)和要素兩個視角出發(fā),設(shè)計了教育領(lǐng)域知識圖譜的概念模型(Educational Knowledge Graph Concept Model,簡稱EKGCM)。如圖1 所示,EKGCM模型包括兩個層次、四個基本要素。
1. 模型結(jié)構(gòu)視角——兩種圖示
認(rèn)知主義學(xué)習(xí)理論認(rèn)為,學(xué)習(xí)就是形成內(nèi)部認(rèn)知結(jié)構(gòu)的過程,學(xué)習(xí)者通過學(xué)習(xí)會對某一領(lǐng)域知識在頭腦里形成一個內(nèi)部的認(rèn)知狀態(tài)。因此,教育領(lǐng)域的知識建模既要考慮學(xué)科的領(lǐng)域知識,又要考慮個體差異化的認(rèn)知狀態(tài)。余勝泉教授研究團(tuán)隊也指出,教育知識圖譜應(yīng)當(dāng)能夠表征教學(xué)過程中涉及的不同元素以及元素間的各類認(rèn)知關(guān)系[22]?;诖?,本研究采用經(jīng)典的分層設(shè)計理念,將認(rèn)知層置于知識層之下,形成了教育知識圖譜的兩種圖示——知識圖示和認(rèn)知圖式。
(1)知識圖示
知識圖示繼承了通用知識圖譜具有的知識表示、傳遞和共享功能,能夠很好地表征教育領(lǐng)域的學(xué)科知識體系,是教育領(lǐng)域知識結(jié)構(gòu)的語義化、圖示化組織方式。EKGCM模型中的知識圖示由知識節(jié)點和知識關(guān)聯(lián)組成,記為DKG =(N,R),其中N表示知識節(jié)點集合,R表示知識關(guān)聯(lián)集合。
(2)認(rèn)知圖式
皮亞杰的圖式理論認(rèn)為,個體的發(fā)展是在同化和順應(yīng)過程中改變認(rèn)知圖式(結(jié)構(gòu))的動態(tài)過程[25]。安德森認(rèn)為,認(rèn)知結(jié)構(gòu)是主體內(nèi)部的一種動態(tài)的、可變的圖式,并且可以利用知識圖來外顯學(xué)習(xí)者的認(rèn)知結(jié)構(gòu)[26]。EKGCM模型中的認(rèn)知圖式就是對學(xué)習(xí)者個體認(rèn)知結(jié)構(gòu)的可視化表征。認(rèn)知圖式是以知識圖示為基礎(chǔ),通過對學(xué)習(xí)者認(rèn)知狀態(tài)的診斷、評測,以可視化方式進(jìn)行展現(xiàn)。認(rèn)知圖式體現(xiàn)了學(xué)科知識到個體認(rèn)知的生成,是實現(xiàn)基于認(rèn)知差異的個性化資源推薦與學(xué)習(xí)路徑規(guī)劃的基礎(chǔ)。
2. 模型要素視角——四大基本要素
托爾曼提出的認(rèn)知地圖包括五大要素:標(biāo)志、節(jié)點、道路/路徑、區(qū)域、邊界[27]。余勝泉教授提出的學(xué)習(xí)認(rèn)知地圖包括知識點內(nèi)容、知識點關(guān)系、學(xué)習(xí)認(rèn)知狀態(tài)、知識關(guān)系權(quán)重、學(xué)習(xí)路徑和服務(wù)推薦六個方面的內(nèi)容[11]?;诖耍狙芯空J(rèn)為教育知識圖譜主要由知識節(jié)點、知識關(guān)聯(lián)、認(rèn)知狀態(tài)、學(xué)習(xí)路徑四大基本要素構(gòu)成。
(1)知識節(jié)點
根據(jù)聯(lián)通主義理論,學(xué)習(xí)是知識網(wǎng)絡(luò)結(jié)構(gòu)中知識節(jié)點和知識關(guān)系建立和重構(gòu)的過程[28]。因此,可以認(rèn)為知識節(jié)點和知識關(guān)聯(lián)是教育知識圖譜最基本的要素。為細(xì)粒度地表征教育領(lǐng)域知識,本研究引入知識元作為知識節(jié)點的基本單位。知識元是表達(dá)概念、方法、規(guī)則、公理等知識元素的最小獨立單元,是表征教育知識圖譜知識節(jié)點的理想基元。
(2)知識關(guān)聯(lián)
人類知識原本是系統(tǒng)化、結(jié)構(gòu)化的整體,但海量、異質(zhì)、碎片化的數(shù)字化學(xué)習(xí)資源形態(tài)割裂了其內(nèi)在聯(lián)系。知識關(guān)聯(lián)是重建知識內(nèi)在固有邏輯結(jié)構(gòu)的關(guān)鍵,是教育知識圖譜語義化組織的關(guān)鍵要素,也是學(xué)科領(lǐng)域知識和個體認(rèn)知結(jié)構(gòu)可視化展現(xiàn)的基礎(chǔ)。知識之間的關(guān)聯(lián)關(guān)系復(fù)雜多樣,對教學(xué)具有重要作用的關(guān)系有:父子關(guān)系、前驅(qū)后繼關(guān)系、兄弟關(guān)系、平行關(guān)系、參考關(guān)系等[29]。在上述關(guān)聯(lián)關(guān)系中,前驅(qū)后繼關(guān)系是教師制定教學(xué)設(shè)計和教學(xué)策略的依據(jù),也是實現(xiàn)知識導(dǎo)航和學(xué)習(xí)路徑規(guī)劃的前提。
(3)認(rèn)知狀態(tài)
所謂認(rèn)知狀態(tài)就是有關(guān)學(xué)習(xí)者對知識的認(rèn)知水平以及掌握程度。個體的發(fā)展是在同化和順應(yīng)過程中改變認(rèn)知圖式的動態(tài)過程,認(rèn)知圖式作為學(xué)習(xí)者已有知識經(jīng)驗的網(wǎng)絡(luò),是學(xué)科知識結(jié)構(gòu)與學(xué)習(xí)者個體心理結(jié)構(gòu)相作用的產(chǎn)物,由學(xué)科知識結(jié)構(gòu)“內(nèi)化”而來。在知識圖示基礎(chǔ)上,對學(xué)習(xí)者知識節(jié)點的認(rèn)知狀態(tài)進(jìn)行量化分析,形成個體的認(rèn)知圖式。
(4)學(xué)習(xí)路徑
“互聯(lián)網(wǎng)+教育”時代,海量的學(xué)習(xí)資源、碎片化的學(xué)習(xí)時間、復(fù)雜的學(xué)習(xí)情境以及師生分離的教學(xué)空間形態(tài),加劇了學(xué)習(xí)者的“知識迷航”和“知識過載”問題。研究發(fā)現(xiàn),自適應(yīng)學(xué)習(xí)系統(tǒng)中,如果沒有導(dǎo)航性的學(xué)習(xí)路徑支持,學(xué)習(xí)者很難達(dá)成既定的學(xué)習(xí)需求和學(xué)習(xí)目標(biāo)[30]。因此,結(jié)合學(xué)習(xí)者的認(rèn)知狀態(tài)和學(xué)習(xí)目標(biāo),為其智能規(guī)劃和推薦適合的學(xué)習(xí)路徑,是提升自適應(yīng)學(xué)習(xí)系統(tǒng)個性化服務(wù)質(zhì)量的關(guān)鍵所在。EKGCM模型中的學(xué)習(xí)路徑是在學(xué)習(xí)者的認(rèn)知狀態(tài)以及知識圖示的基礎(chǔ)上,通過智能優(yōu)化算法對知識元動態(tài)規(guī)劃與重組而生成的。
四、教育知識圖譜的構(gòu)建方法
在EKGCM模型基礎(chǔ)上,本研究提出一種基于智能處理技術(shù)的教育知識圖譜構(gòu)建方法,具體包括知識元抽取、前驅(qū)后繼關(guān)系挖掘、認(rèn)知狀態(tài)診斷、學(xué)習(xí)路徑生成四個步驟。
(一)知識元抽取
知識元抽取是將教學(xué)資源中的概念、定義、定理、性質(zhì)、公式等領(lǐng)域術(shù)語提煉出來的過程。該問題可以轉(zhuǎn)化為信息抽取領(lǐng)域中的序列化標(biāo)注問題(Sequence Labeling),即對教育資源文本序列中的每個知識元打上一個標(biāo)簽類別。目前,解決該類問題的方法主要有三種:基于詞典的識別方法、基于規(guī)則的識別方法以及機(jī)器學(xué)習(xí)識別方法。其中,前兩種方法需要領(lǐng)域?qū)<液驼Z言學(xué)者手工制定詞典和規(guī)則,存在耗時、耗力、領(lǐng)域遷移性欠佳等問題,而基于機(jī)器學(xué)習(xí)的方法能夠?qū)崿F(xiàn)自動識別。
條件隨機(jī)場模型(Conditional Random Fields,簡稱CRF)是機(jī)器學(xué)習(xí)領(lǐng)域中的一種判別式概率模型,廣泛應(yīng)用于自然語言處理中的分詞、詞性標(biāo)注、命名實體識別等序列標(biāo)注任務(wù),因此,可將其應(yīng)用于知識元抽取中?;跅l件隨機(jī)場模型的知識元抽取過程主要包括知識元特征選擇和知識元序列標(biāo)注兩個步驟。
(1)知識元特征選擇
特征選擇是知識元抽取的關(guān)鍵,通過分析,我們發(fā)現(xiàn)教師在進(jìn)行教學(xué)設(shè)計時通常遵循科學(xué)性、層次性、條理性、思想性的原則,形成的教學(xué)資源具有明顯的詞法、語法特征,比如:教學(xué)設(shè)計中的教學(xué)目標(biāo)通常采用“使學(xué)生掌握……知識”“培養(yǎng)學(xué)生……能力”“通過學(xué)習(xí),能說出……”“通過學(xué)習(xí),能理解……”“通過學(xué)習(xí),能分析歸納……”“通過學(xué)習(xí),將形成……”等語法結(jié)構(gòu)。
(二)前驅(qū)后繼關(guān)系挖掘
如前所述,前驅(qū)后繼關(guān)系是知識之間最重要的關(guān)聯(lián)關(guān)系,也是教育知識圖譜語義化特征的體現(xiàn)。知識空間理論指出,前驅(qū)后繼關(guān)系作為知識間的一種自然依賴而存在,是形成學(xué)習(xí)者認(rèn)知空間的基礎(chǔ)[31]。此外,布盧姆等人提出的掌握學(xué)習(xí)理論也表明:學(xué)習(xí)者在學(xué)習(xí)后續(xù)知識之前,對先決知識的掌握程度必須達(dá)到一定的水平。具體來說,如果知識元b依賴于知識元a(即a是b的前驅(qū)),那么學(xué)習(xí)者在學(xué)習(xí)知識元b之前需要掌握知識元a。例如:“一元二次方程的一般形式”是“一元二次方程求根公式”的前驅(qū)知識元,學(xué)習(xí)知識元“一元二次方程求根公式”之前,應(yīng)掌握其前驅(qū)知識元“一元二次方程的一般形式”。
(三)認(rèn)知狀態(tài)診斷
目前,認(rèn)知狀態(tài)診斷所采用的主要模型包括DINA、DINO、NIDA等,但這些模型在整個評估過程中是靜態(tài)的,并且潛在狀態(tài)是高階的,因此,需要估計大量的參數(shù)也不能動態(tài)變化[32],這導(dǎo)致學(xué)習(xí)者知識與技能的可視化表示、基于診斷結(jié)果的適應(yīng)性支持效果都會降低[33]。而根據(jù)心理學(xué)和教育測量學(xué)的觀點,學(xué)習(xí)者對于知識元的認(rèn)知狀態(tài)或掌握程度通常被視為一種潛在變量,一般需要借助學(xué)習(xí)者測評過程中的外在行為對其進(jìn)行估測。在機(jī)器學(xué)習(xí)領(lǐng)域,隱馬爾可夫模型是一種能夠描述不可觀測變量或隱藏變量的時序概率模型,因此,本研究采用該模型對學(xué)習(xí)者的認(rèn)知狀態(tài)進(jìn)行診斷。
(四)學(xué)習(xí)路徑生成
學(xué)習(xí)路徑生成的本質(zhì)是根據(jù)學(xué)習(xí)者的學(xué)習(xí)目標(biāo)和認(rèn)知狀態(tài)對待學(xué)習(xí)的知識元進(jìn)行排序的過程。按照學(xué)習(xí)路徑生成的方式,可將其分為學(xué)習(xí)者自主控制式學(xué)習(xí)路徑、教師引導(dǎo)式學(xué)習(xí)路徑以及算法生成式學(xué)習(xí)路徑三種類型。隨著大數(shù)據(jù)、人工智能技術(shù)的發(fā)展,算法生成式學(xué)習(xí)路徑正在被越來越多的學(xué)者所關(guān)注,如基于AprioriAll算法來自動生成個性化的學(xué)習(xí)路徑[30]。
目前,在線學(xué)習(xí)系統(tǒng)中已有的算法生成式學(xué)習(xí)路徑主要考慮學(xué)習(xí)風(fēng)格和學(xué)習(xí)情境兩方面的因素,大多忽略了學(xué)習(xí)者的認(rèn)知結(jié)構(gòu)與知識的內(nèi)在依賴關(guān)系,而理想的學(xué)習(xí)路徑生成需要建立在學(xué)習(xí)者已有認(rèn)知狀態(tài)以及知識拓?fù)浣Y(jié)構(gòu)基礎(chǔ)上。Knewton公司在知識圖譜領(lǐng)域的初步嘗試也表明,知識圖譜所承載的在線學(xué)習(xí)路徑更能精準(zhǔn)匹配學(xué)習(xí)者的個性化學(xué)習(xí)需求[16]。
學(xué)習(xí)路徑生成問題可以描述為:在已知學(xué)科知識元及其拓?fù)潢P(guān)系、學(xué)習(xí)者的學(xué)習(xí)目標(biāo)及先驗知識結(jié)構(gòu)前提下,對學(xué)習(xí)者待學(xué)習(xí)的知識元進(jìn)行排序,生成覆蓋目標(biāo)知識元的優(yōu)化序列?;谇懊娴难芯抗ぷ?,本研究提出了基于知識圖譜的學(xué)習(xí)路徑生成機(jī)制,如圖3所示。
該學(xué)習(xí)路徑生成機(jī)制主要包括三個階段:(1)先驗知識子圖生成階段。基于學(xué)習(xí)者觀看視頻、參與社區(qū)互動以及在線測評等行為數(shù)據(jù),采用前文所述的隱馬爾可夫模型對學(xué)習(xí)者的認(rèn)知狀態(tài)進(jìn)行測量,結(jié)合知識圖譜中知識元之間的前驅(qū)后繼關(guān)系,構(gòu)建學(xué)習(xí)者的先驗知識子圖。(2)學(xué)習(xí)目標(biāo)子圖生成階段。學(xué)習(xí)目標(biāo)子圖是由學(xué)習(xí)者待學(xué)習(xí)的知識元及其前驅(qū)后繼關(guān)系組成的子圖,即將知識圖譜所有節(jié)點集合A與學(xué)習(xí)者先驗知識子圖中的節(jié)點集合B進(jìn)行差集運算(集合A減去集合B)。(3)學(xué)習(xí)路徑生成與優(yōu)化階段。對學(xué)習(xí)目標(biāo)子圖進(jìn)行拓?fù)渑判颍瑢W(xué)習(xí)目標(biāo)子圖中所有待學(xué)習(xí)的知識元排成線性序列,形成學(xué)習(xí)路徑候選集;而后,綜合考慮知識元中心度、學(xué)習(xí)難度以及前驅(qū)后繼關(guān)系,采用單源最短路徑算法、蟻群優(yōu)化算法對學(xué)習(xí)路徑進(jìn)行優(yōu)化。
五、實驗設(shè)計與結(jié)果分析
(一)實驗數(shù)據(jù)采集與預(yù)處理
數(shù)據(jù)是知識圖譜構(gòu)建的基礎(chǔ),教育知識圖譜構(gòu)建的數(shù)據(jù)源大致可分為兩類:(1)教育大數(shù)據(jù)中海量的數(shù)字化教學(xué)資源。教學(xué)資源作為知識的載體,是生成教育知識圖譜中知識圖示的重要依據(jù),主要包括電子教材、教學(xué)設(shè)計、網(wǎng)絡(luò)課件、試題試卷等文本資源。(2)教育大數(shù)據(jù)中的學(xué)習(xí)行為數(shù)據(jù),具體包括學(xué)習(xí)者觀看視頻、參與社區(qū)互動以及在線測評的行為數(shù)據(jù),學(xué)習(xí)行為數(shù)據(jù)是認(rèn)知狀態(tài)診斷所依賴的數(shù)據(jù)源。
1. 實驗數(shù)據(jù)采集
本研究采用的數(shù)據(jù)來源于理想智慧教育云平臺(http://www.edusoa.com/),該平臺集教學(xué)、管理、研訓(xùn)等功能于一體,積累了海量的教學(xué)資源以及學(xué)習(xí)行為數(shù)據(jù)。目前,平臺擁有各學(xué)科的電子教材、教學(xué)設(shè)計、網(wǎng)絡(luò)課件、試題試卷等教學(xué)云資源約80TB,基于xAPI規(guī)范采集的在線學(xué)習(xí)行為數(shù)據(jù)約60GB/天。本研究以初中數(shù)學(xué)學(xué)科為例,從云資源中提取該學(xué)科的教學(xué)設(shè)計、試題、試卷等文檔共計5500份,并從平臺采集的學(xué)習(xí)行為數(shù)據(jù)中隨機(jī)抽取了30名初中生作為研究對象。
2. 實驗數(shù)據(jù)預(yù)處理
教育領(lǐng)域大量的教學(xué)設(shè)計、試題試卷等數(shù)字化教學(xué)資源屬于半結(jié)構(gòu)化或非結(jié)構(gòu)化文本,因此,需要對這些文本進(jìn)行中文分詞、詞性判別、去除干擾詞等預(yù)處理工作,采用的工具包括Jieba、ICTCLAS、FudanNLP。而后,由三名學(xué)科專家根據(jù)公認(rèn)的賓州中文樹庫(Penn Chinese Proposition Bank,PCTB)標(biāo)注規(guī)范,采用文本標(biāo)注工具BRAT[34]對教學(xué)資源中的知識元及其語義關(guān)系進(jìn)行部分標(biāo)注,以此作為模型的訓(xùn)練數(shù)據(jù)。
(二)實驗過程與結(jié)果
1. 基于條件隨機(jī)場模型的知識元抽取實驗
在上述預(yù)處理基礎(chǔ)上,將文本以句子為單位進(jìn)行分割,并轉(zhuǎn)換成BIEO標(biāo)注體系。為了充分評價模型的性能,本實驗將數(shù)據(jù)集按照8∶2的比例隨機(jī)分成訓(xùn)練集和測試集。訓(xùn)練時,數(shù)據(jù)集的比例從10%逐漸增加到90%,并選用F1值(F1-Score)作為模型的評價指標(biāo)。
本研究使用CRF++工具進(jìn)行知識元抽取,采用了兩種特征模板:模板1的特征包括前詞Pre、后詞Suf、停用詞Stop、詞性POS、詞長Wordlen、詞距離Distance、語義相似度Simi;模板2在此基礎(chǔ)上增加了領(lǐng)域詞典。在研究樣本中共提取到知識元781個,F(xiàn)1-Score值隨測試數(shù)據(jù)集的變化曲線如圖4所示。從圖中可以看出,隨著訓(xùn)練集的增加,模型的精準(zhǔn)度逐漸上升,表明訓(xùn)練語料的大小對模型具有重要影響。此外,特征模板2相比模板1的效果更好,表明融入領(lǐng)域詞典的預(yù)測效果更佳。
2. 基于Apriori算法的前驅(qū)后繼關(guān)系挖掘?qū)嶒?/p>
對于知識元前驅(qū)后繼關(guān)系的挖掘,采用的實驗數(shù)據(jù)主要是理想智慧教育云平臺中初中數(shù)學(xué)學(xué)科的微測數(shù)據(jù)和總測數(shù)據(jù),微測數(shù)據(jù)由小節(jié)或單元練習(xí)產(chǎn)生,總測數(shù)據(jù)記錄了期中或期末的測評結(jié)果。
為驗證機(jī)器標(biāo)注的效果,本研究聘請了兩位學(xué)科專家對機(jī)器標(biāo)注的關(guān)系進(jìn)行人工確認(rèn),并采用Kappa統(tǒng)計量對機(jī)器標(biāo)注與專家標(biāo)注的結(jié)果進(jìn)行一致性分析,這里的“一致”是指兩位學(xué)科專家對知識元a和知識元b之間關(guān)系的標(biāo)注結(jié)果都與機(jī)器標(biāo)注結(jié)果一致。
Kappa統(tǒng)計量是一種比較兩個或多個觀測者對同一事物的兩次或多次觀測結(jié)果是否一致的方法[35],Kappa值介于0~1之間。一般認(rèn)為,若Kappa值大于0.75,則說明一致性程度較好。本實驗采用SPSS交叉表操作計算出的Kappa值為0.843,因此,可以認(rèn)為本研究提出的關(guān)系挖掘方法與專家標(biāo)注的結(jié)果具有較高的一致性。表1所示為初中數(shù)學(xué)學(xué)科部分知識元關(guān)系挖掘的結(jié)果。
3. 基于隱馬爾可夫模型的認(rèn)知狀態(tài)診斷驗證實驗
本實驗以實數(shù)知識點的測評數(shù)據(jù)作為案例對前文所述的認(rèn)知狀態(tài)診斷方法進(jìn)行驗證,數(shù)據(jù)集包含30名學(xué)生在120個測驗題目上的作答反應(yīng)。表2展示了部分測驗題目與知識元之間的對應(yīng)關(guān)系,以及學(xué)生在相應(yīng)題目上的作答結(jié)果。其中,表格中的1代表題目考察了相應(yīng)的知識元,0代表題目沒有考察相應(yīng)的知識元。
實驗采用Python版本的hmmlearn庫[36],實現(xiàn)了基于隱馬爾可夫模型的認(rèn)知狀態(tài)診斷方法。參數(shù)設(shè)置方面,知識的遺忘概率、學(xué)習(xí)概率、失誤率和猜測率都初始化為0.1,并采用最大期望算法對隱馬爾可夫模型進(jìn)行參數(shù)估計,實驗終止條件為似然值不再變化或達(dá)到迭代上限次數(shù)(1000次)。圖5呈現(xiàn)了某學(xué)生的認(rèn)知狀態(tài)診斷報告單,從診斷報告中能夠清晰地看出該生在各個知識元上的掌握概率以及與全體學(xué)生平均水平的對照情況。根據(jù)該診斷報告,教師或個性化自適應(yīng)學(xué)習(xí)系統(tǒng)能夠開展有針對性的補(bǔ)救教學(xué)。
4. 學(xué)習(xí)路徑生成機(jī)制驗證實驗
為驗證路徑生成機(jī)制的有效性,本實驗以隨機(jī)抽取的30名初中學(xué)習(xí)者為研究對象,對其2個月的學(xué)習(xí)過程數(shù)據(jù)進(jìn)行了分析,具體分析步驟如下:(1)以學(xué)習(xí)者的編號為基礎(chǔ)對其學(xué)習(xí)記錄進(jìn)行分組,并按時間順序?qū)W(xué)習(xí)記錄進(jìn)行排序,從而形成知識元學(xué)習(xí)序列。(2)去除學(xué)習(xí)者在連續(xù)時間內(nèi)重復(fù)學(xué)習(xí)同一個知識元的學(xué)習(xí)記錄,僅保留最后一條學(xué)習(xí)記錄。(3)從去重后的數(shù)據(jù)記錄中提取出學(xué)習(xí)者實際的學(xué)習(xí)路徑Lr。(4)以學(xué)習(xí)路徑Lr中最后一個知識元為學(xué)習(xí)目標(biāo),根據(jù)學(xué)習(xí)者的先驗知識子圖,采用蟻群優(yōu)化算法自動生成學(xué)習(xí)路徑Lp。(5)比較每個學(xué)習(xí)者實際學(xué)習(xí)路徑Lr與自動生成的學(xué)習(xí)路徑Lp上的知識元順序,相同的次數(shù)記為P1,不同的次數(shù)記為P2,則生成路徑的使用頻率可表示為P=P1/(P1+P2)。
依據(jù)上述分析過程,對30名學(xué)習(xí)者使用學(xué)習(xí)路徑的頻率進(jìn)行統(tǒng)計分析,結(jié)果顯示:生成的學(xué)習(xí)路徑平均使用頻率在75%以上,從而驗證了基于知識圖譜的學(xué)習(xí)路徑生成機(jī)制具有一定的實用性。圖6展示了平臺為090號學(xué)生生成的一條個性化學(xué)習(xí)路徑。
六、結(jié) ? 語
領(lǐng)域知識建模是構(gòu)建個性化自適應(yīng)學(xué)習(xí)系統(tǒng)的關(guān)鍵和基礎(chǔ),也是該系統(tǒng)研究和發(fā)展過程中長期面臨的瓶頸問題。本文以知識圖譜為切入點,針對通用知識圖譜遷移應(yīng)用于教育領(lǐng)域所面臨的知識粒度模糊、領(lǐng)域適應(yīng)性不強(qiáng)、構(gòu)建自動化程度不高等問題,從結(jié)構(gòu)和要素兩個視角構(gòu)建了其概念模型,提出了一種基于智能處理技術(shù)的構(gòu)建方法,為基于知識圖譜的自適應(yīng)學(xué)習(xí)系統(tǒng)開發(fā)和實現(xiàn)奠定了基礎(chǔ)。但本文的研究仍存在以下兩個方面的不足之處:(1)從人工智能的發(fā)展趨勢來看,人機(jī)協(xié)同的混合智能將成為新的研究熱點,因此,如何通過人機(jī)協(xié)同,將學(xué)科專家、教育技術(shù)專家等人類智慧與智能處理技術(shù)相融合,構(gòu)建更加適合個性化學(xué)習(xí)、精準(zhǔn)教學(xué)等教育情境的知識圖譜,還有待進(jìn)一步深入研究。(2)現(xiàn)有自適應(yīng)學(xué)習(xí)系統(tǒng)中的領(lǐng)域知識建模主要面向可編碼、可量化的顯性知識,但沒有考慮隱性知識[37],因此,如何利用知識圖譜對學(xué)習(xí)過程中的隱性知識進(jìn)行表示和建模,將成為未來教育知識圖譜研究和發(fā)展的重點內(nèi)容。
[參考文獻(xiàn)]
[1] 高虎子,周東岱. 自適應(yīng)學(xué)習(xí)系統(tǒng)學(xué)習(xí)者學(xué)習(xí)風(fēng)格模型的研究現(xiàn)狀與展望[J]. 電化教育研究,2012(2):32-38.
[2] 李振,周東岱,劉娜,等. 人工智能應(yīng)用背景下的教育人工智能研究[J]. 現(xiàn)代教育技術(shù),2018,28(9):19-25.
[3] 牟智佳. “人工智能+”時代的個性化學(xué)習(xí)理論重思與開解[J]. 遠(yuǎn)程教育雜志,2017,35(3):22-30.
[4] 劉春雷. 基于本體的教育領(lǐng)域?qū)W科知識建模方法研究[D]. 重慶:重慶大學(xué),2008.
[5] 國務(wù)院.國務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[EB/OL].[2018-12-14].http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[6] 趙呈領(lǐng),杜靜,萬力勇,等. 知識組織技術(shù)與方法的研究及其應(yīng)用[J]. 中國電化教育,2014(4):77-86.
[7] 黃伯平,趙蔚,余延冬.自適應(yīng)學(xué)習(xí)系統(tǒng)參考模型比較分析研究[J]. 中國電化教育,2009(8):97-101.
[8] KAO Y T,LIN Y S,CHU C P. A multi-factor fuzzy inference and concept map approach for developing diagnostic and adaptive remedial learning systems[J]. Procedia-social and behavioral sciences,2012,64(1):65-74.
[9] CASTLES R,LOHANI V K,KACHROO P.Knowledge maps and their application to student and faculty assessment[C/OL]//2008 IEEE Frontiers in Education Conference,New York:Saratoga Springs,October 22-25,2008.[2019-06-14].https://doi.ieeecomputersociety.org/10.1109/FIE.2008.4720666.
[10] 高燕,秦志剛. 基于知識地圖實現(xiàn)動態(tài)學(xué)習(xí)流建模[J]. 電化教育研究,2010(1):39-43.
[11] 萬海鵬,余勝泉. 基于學(xué)習(xí)元平臺的學(xué)習(xí)認(rèn)知地圖構(gòu)建[J]. 電化教育研究,2017(9):83-88.
[12] 張凌,喬曉東,朱禮軍. 認(rèn)知地圖分析方法研究[J]. 情報理論與實踐,2014,37(6):34-39.
[13] CHRYSAFIADI K,VIRVOU M. A knowledge representation approach using fuzzy cognitive maps for better navigation support in an adaptive learning system[J]. SpringerPlus,2013,2(1):1-13.
[14] 馮新翎,何勝,熊太純,等. “科學(xué)知識圖譜”與“Google 知識圖譜”比較分析——基于知識管理理論視角[J]. 情報雜志,2017,36(1):149-153.
[15] 徐增林,盛泳潘,賀麗榮,等. 知識圖譜技術(shù)綜述[J]. 電子科技大學(xué)學(xué)報,2016,45(4):589-606.
[16] Knewton. Knewton adaptive learning building the world's most powerful education recommendation engine[DB/OL].(2013-10-04)[2019-02-25].https://www.knewton.com/wp-content/uploads/knewton-adaptive-learning-whitepaper.pdf.
[17] 余勝泉,彭燕,盧宇. 基于人工智能的育人助理系統(tǒng)——“AI好老師”的體系結(jié)構(gòu)與功能[J]. 開放教育研究,2019,25(1):25-36.
[18] 孫小欣. 基于潛在語義分析的學(xué)科知識圖譜構(gòu)建[D]. 武漢:華中師范大學(xué),2013.
[19] 李振,周東岱,董曉曉,等. 我國教育大數(shù)據(jù)的研究現(xiàn)狀、問題與對策——基于CNKI學(xué)術(shù)期刊的內(nèi)容分析[J]. 現(xiàn)代遠(yuǎn)距離教育,2019(1):46-55.
[20] 楊開城. 論課程的易理解性與知識建模技術(shù)[J]. 電化教育研究,2011(6):12-16.
[21] 崔京菁,馬寧,余勝泉.基于知識圖譜的翻轉(zhuǎn)課堂教學(xué)模式及其應(yīng)用——以小學(xué)語文古詩詞教學(xué)為例[J].現(xiàn)代教育技術(shù),2018,28(7):44-50.
[22] 余勝泉,李曉慶. 區(qū)域性教育大數(shù)據(jù)總體架構(gòu)與應(yīng)用模型[J]. 中國電化教育,2019(1):17-27.
[23] 鐘紹春,唐燁偉. 人工智能時代教育創(chuàng)新發(fā)展的方向與路徑研究[J]. 電化教育研究,2018, 39(10):17-22,42.
[24] 張波,金玉鵬,張倩,等. 試論一種新型在線教育資源大數(shù)據(jù)組織框架[J]. 中國電化教育,2018(3):41-46.
[25] 張麗霞. “信息技術(shù)”課程教學(xué)中挑起“認(rèn)知失衡”的策略[J]. 電化教育研究,2009(12):110-112.
[26] 曲兆華. 基于流程圖法的高中生良好數(shù)學(xué)認(rèn)知結(jié)構(gòu)特征研究[D]. 濟(jì)南: 山東師范大學(xué),2018.
[27] 孫時進(jìn),王金麗. 心理學(xué)概論[M] .上海: 復(fù)旦大學(xué)出版社,2012:236-237.
[28] 王佑鎂,祝智庭. 從聯(lián)結(jié)主義到聯(lián)通主義:學(xué)習(xí)理論的新取向[J]. 中國電化教育,2006(3):5-9.
[29] 肖建瓊,高江錦. 適應(yīng)性學(xué)習(xí)系統(tǒng)中知識點本體的研究與構(gòu)建[J]. 智能計算機(jī)與應(yīng)用,2013,3(5):14-19.
[30] 姜強(qiáng),趙蔚,李松,等. 大數(shù)據(jù)背景下的精準(zhǔn)個性化學(xué)習(xí)路徑挖掘研究——基于AprioriAll的群體行為分析[J]. 電化教育研究,2018,39(2):45-52.
[31] DOIGNON J P,F(xiàn)ALMAGNE J C. Spaces for the assessment of knowledge[J]. International journal of man-machine studies,1985, 23(2):175-196.
[32] 李振,周東岱,劉娜,等. 教育大數(shù)據(jù)的平臺構(gòu)建與關(guān)鍵實現(xiàn)技術(shù)[J]. 現(xiàn)代教育技術(shù),2018,28(1):100-106.
[33] 王玨,解月光. 基于前概念體系的學(xué)習(xí)者認(rèn)知診斷方法研究——以初中物理“力與運動”主題為例[J]. 電化教育研究,2017(9):124-130.
[34] Brat Contributors. Brat rapid annotation tool[EB/OL].(2012-11-08)[2019-06-04].http://brat.nlplab.org/.
[35] 李國輝,耿輝,馮靜. 課堂教學(xué)的專家評價與學(xué)生評價一致性分析[J].高等教育研究學(xué)報,2016,39(3):40-44.
[36] Hmmlearn Developers. Hmmlearn user guide [EB/OL].(2015-05-09)[2019-06-04].https://hmmlearn.readthedocs.io/en/latest/.
[37] 佩特·約翰內(nèi)斯,拉里·拉格斯多姆,張永勝. 自適應(yīng)學(xué)習(xí):溯源、前景與誤區(qū)[J]. 中國遠(yuǎn)程教育,2018,522(7):45-55,82.
[Abstract] Adaptive learning system is an important breakthrough to achieve personalized learning, while domain knowledge modeling is a major problem that has been puzzling the development of that system. At present, the new generation of artificial intelligence technology with deep learning and knowledge graph as the core provides a new opportunity for its development. Firstly, this paper summarizes the existing knowledge modeling methods in the field of education and analyzes the existing problems. On this basis, in view of two major problems faced by the application of general knowledge graph in the field of education, namely fuzzy knowledge granularity and weak domain adaptability, ?this paper constructs a conceptual model of educational knowledge graph - EKGCM model. That model includes two levels of knowledge representation and cognitive schema, and four basic elements of knowledge node, knowledge association, cognitive state and learning path. Then, in order to solve the problem of low automation of graph construction, this paper proposes a method based on intelligent processing technology, which includes four steps: knowledge element extraction, pre-and-after relationship mining, cognitive state diagnosis and learning path generation. Finally, the above methods are verified with the teaching resources and learning behavior data in an ideal cloud platform of smart education. The research is of great significance for the development of personalized adaptive learning driven by data intelligence.
[Keywords] Educational Knowledge Graph; Conceptual Model; Knowledge Element; Pre-and-after Relationship; Cognitive State; Learning Path