許睿,毛阿敏,李光泉
(1.格樂大學(xué) 商學(xué)院,泰國 曼谷;2.江西財(cái)經(jīng)大學(xué) 大數(shù)據(jù)中心,江西 南昌;3.江西農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,江西 南昌)
隨著大規(guī)模在線教育的應(yīng)用與普及,學(xué)習(xí)資源的數(shù)量呈爆炸式增長,知識模型是有效管理學(xué)習(xí)資源的重要工具。此外,知識模型能夠幫助人們更好地理解人的學(xué)習(xí)過程[1]。知識模型的構(gòu)建會直接關(guān)系到后續(xù)學(xué)習(xí)資源推送等處理策略的效果,知識模型的構(gòu)建成為智慧教育領(lǐng)域的研究熱點(diǎn)。
知識對象的多維關(guān)聯(lián)關(guān)系廣泛存在,本文以智慧教育領(lǐng)域?yàn)楸尘皩χR對象模型進(jìn)行研究,以構(gòu)建大規(guī)模在線教育環(huán)境下的知識對象之間的多維關(guān)聯(lián)模型。知識模型研究的代表性成果主要包括,文獻(xiàn)[1]基于“皮亞杰發(fā)生認(rèn)識論”分析,用知識對象作為“頂點(diǎn)”和知識對象之間的關(guān)系作為“邊”構(gòu)建圖來描述知識結(jié)構(gòu)。文獻(xiàn)[2-3]對知識對象之間的關(guān)系進(jìn)行了分析,并定義了對象的形式化操作,使得知識對象間的關(guān)系在教學(xué)內(nèi)容發(fā)生變化的情況下保持邏輯結(jié)構(gòu)不變,指導(dǎo)其完成學(xué)習(xí)過程。文獻(xiàn)[4]借助語義網(wǎng)和產(chǎn)生式構(gòu)建了一種知識表示模型,并提出了廣度優(yōu)先的知識對象剪枝算法和深度優(yōu)先的知識對象遍歷算法。文獻(xiàn)[5-6]分析了知識對象的關(guān)系并構(gòu)建了一個知識網(wǎng)絡(luò)模型。文獻(xiàn)[7]對知識對象進(jìn)行了定義和劃分,并詳細(xì)描述了知識對象之間的關(guān)系。文獻(xiàn)[8]定義了一個知識網(wǎng)絡(luò)模型,并給出了基于該模型的正向推理策略和反向推理策略,用于實(shí)現(xiàn)對學(xué)習(xí)的控制。文獻(xiàn)[9-10]深入分析了知識對象內(nèi)部結(jié)構(gòu),給出了一種知識對象通用模型。文獻(xiàn)[11]利用聚類等方法,提出一種個性知識模型,用于跨領(lǐng)域資源推薦。文獻(xiàn)[12]通過研究問題要素進(jìn)行抽象并利用知識工程的信息抽取方法構(gòu)建專題知識模型。文獻(xiàn)[13]通過改進(jìn)和擴(kuò)展現(xiàn)有的單元模型,設(shè)計(jì)一種領(lǐng)域知識模型。為解決在線學(xué)習(xí)系統(tǒng)中知識表述的離散、知識模型適應(yīng)性差等缺陷,文獻(xiàn)[14]提出一種基于知識圖譜的模型構(gòu)建方法。
以上各知識模型從不同的角度均支持知識的關(guān)聯(lián)關(guān)系,然而,知識之間不僅存在包含關(guān)系[15],還存在依賴關(guān)系[16],并且,這些關(guān)系所應(yīng)對的處理各有側(cè)重,關(guān)系本身還要進(jìn)行分類等。為此,本文提出基于一種多維關(guān)聯(lián)的知識對象模型(Multidimensional Relational Knowledge object Model:MRKM),該模型描述了知識對象間的多維關(guān)聯(lián)關(guān)系,并在此基礎(chǔ)上,針對任意相關(guān)文本,通過文本分析技術(shù),自動識別文本中的知識對象,進(jìn)而進(jìn)行知識對象分解和規(guī)約。一個典型的應(yīng)用場景是,利用該模型可以準(zhǔn)確地從學(xué)生的“錯題”或?qū)W習(xí)文本中識別出相關(guān)知識對象,并分解為不同粒度,為后續(xù)學(xué)習(xí)知識對象推送提供支撐,該模型成功運(yùn)用于某智慧教學(xué)平臺,應(yīng)用效果良好。
知識對象是知識活動過程中傳遞信息的基本單元,記為k,由領(lǐng)域?qū)<掖_定,知識對象全集記為K。
定義1(包含關(guān)系CI)對于任意知識對象ki和kj,當(dāng)知識對象kj的內(nèi)涵包含在知識對象ki的內(nèi)涵之中時,表示知識對象ki包含kj,記為。如果同時又滿足條件時,則稱知識對象ki直接包含kj,記為,否則,稱之為間接包含,ki是kj的父知識對象,約定每個知識對象最多只有一個父知識對象。
知識對象的包含關(guān)系具備以下性質(zhì):
性質(zhì)1:知識對象的包含關(guān)系是可傳遞的。
對于任意ki,kj,kp∈K,當(dāng)時,由定義1可知,ki的內(nèi)涵包括了kj的內(nèi)涵,kj的內(nèi)涵包括了kp的內(nèi)涵,因此,ki的內(nèi)涵包括了kp的內(nèi)涵,于是有,知識對象的包含關(guān)系是可傳遞的。
性質(zhì)2:知識對象的包含關(guān)系是自反的。
性質(zhì)3:知識對象的包含關(guān)系是不可逆的。
對于任意ki,kj∈K,當(dāng)時,如果也成立,則一定有ki=kj,所以,知識對象的包含關(guān)系是不可逆的。得證。
定理1-1:給定知識對象集K在其包含關(guān)系集合上構(gòu)成偏序關(guān)系。即<K,CI>為偏序集。
證明:由定義1可知包含關(guān)系在集合K上滿足以下三個條件:
2.反對稱性:即:
3.傳遞性:即滿足以下條件:
故CI關(guān)系在集合K上是偏序的。
直接前序關(guān)系存在如圖1所示三種形式:①單一直接前序:該知識對象只有一個直接前序知識對象;②聯(lián)合直接前序:該知識對象有多個直接前序知識對象,學(xué)習(xí)者必須同時掌握了這些直接前序知識對象才能有效學(xué)習(xí)該知識對象;③多選擇直接前序:該知識對象有多個直接前序知識對象,學(xué)習(xí)者掌握了任何一個直接前序,都能推導(dǎo)出該知識對象。
圖1 知識對象直接前序關(guān)系
知識對象的依賴關(guān)系具備以下性質(zhì)。
性質(zhì)4:知識對象的依賴關(guān)系可傳遞。
成立時,表示ki是kj的前序,kj是kp的前序,因此,ki也是kp的前序,于是有ki→kp,所以,知識對象的前序(后續(xù))關(guān)系是可傳遞的。
性質(zhì)5:知識對象依賴關(guān)系不可逆。
對于任意ki,kj∈K,當(dāng)ki→kj時,如果kj→ki也成立,則一定有ki=kj。
知識對象與知識對象之間的前序/后續(xù)關(guān)系可以將課程知識集提取為一個有向無環(huán)子圖,進(jìn)而可以得到其所有可能的拓?fù)渑判蛐蛄校恳粋€序列對應(yīng)一條學(xué)習(xí)路徑。
定義4(兄弟關(guān)系):
利用上一節(jié)所定義的包含、依賴等多維關(guān)聯(lián)關(guān)系,構(gòu)建一種基于多維關(guān)聯(lián)的知識對象模型MRKM,得到初中數(shù)學(xué)方程(組)部分知識對象模型如圖2所示。
圖2 方程(組)部分知識對象模型
學(xué)習(xí)資源文本中,有些學(xué)習(xí)資源文本具有顯示的知識對象信息,有些并不具備顯示的知識對象信息,我們并不能保證從題目的文本中直觀地看到知識對象詞匯,需要通過人工智能的方法對大量學(xué)習(xí)資源文本進(jìn)行分析和訓(xùn)練,從而得到范本。本團(tuán)隊(duì)針對初中數(shù)學(xué)收集了各類學(xué)習(xí)資源文本1萬題,得到了自己的范本集,此部分內(nèi)容另文闡述,本文基于這個范本集進(jìn)行處理。
首先,采用漢語分詞NLPIR系統(tǒng),將初中數(shù)學(xué)相關(guān)的文本題目(來源于百度文庫)進(jìn)行分詞處理。知識圖譜中的所有節(jié)點(diǎn)詞構(gòu)成詞典WS,每個知識節(jié)點(diǎn)作為一個類,我們要做的是為文本做分類處理,看看它與哪些類的關(guān)聯(lián)度高。
分析學(xué)習(xí)資源文本得到的詞向量集合為Task_Vec(Ti)={w1,w2…wn},某知識對象的詞向量為KnowNode_Vec(Ti)={w1',w2'…wn'},通過計(jì)算詞向量之間的余弦夾角可以評價知識對象詞之間的相似度r(ku,ki)。
設(shè)定相似度閾值δ,則為Ti生成一個相似集:
對于任意新知識對象Ti,該相似集中的成員是其宿主知識對象,記為host(Ti)。宿主知識對象可能不唯一。學(xué)習(xí)者根據(jù)Sim_set(Ti)選擇的知識對象集合記為KS,通常是學(xué)習(xí)者希望學(xué)習(xí)的內(nèi)容。
宿主知識對象是資源文本設(shè)計(jì)的知識對象,也往往是學(xué)生需要加強(qiáng)學(xué)習(xí)的關(guān)鍵知識對象,但是,由此得到的知識對象可能是不同粒度的,在知識圖譜中處于不同的層級,需要進(jìn)行整理,清洗的作用是在統(tǒng)一的粒度上向?qū)W習(xí)者反饋學(xué)習(xí)需求。比如:在葉子節(jié)點(diǎn)上推送更為具體的學(xué)習(xí)內(nèi)容,或者在更大粒度上推送學(xué)習(xí)內(nèi)容。
知識對象獲取需要滿足以下約定:
約定1:當(dāng)某知識對象的所有子知識對象被獲取時,等效于該知識對象被獲??;
約定2:任意知識對象不會與其任一子知識對象同時被獲取。
1.基于包含關(guān)系的分解與規(guī)約處理策略。為了滿足以上約束,需要對給定知識對象集進(jìn)行分解或者規(guī)約處理,策略如下:
(1)基于知識包含關(guān)系的自頂向下分解策略。分解是將復(fù)合知識對象劃分為其包含的更細(xì)粒度的知識對象,直至原子知識對象。
其中,KS+kj-ki表示將kj加入KS,將ki從KS中剔除。
2.基于包含關(guān)系的自底向上規(guī)約策略。歸納是將知識對象展示到更大粒度上,此策略分兩部分:數(shù)據(jù)清理和向上規(guī)約。
2.基于依賴關(guān)系的回溯及延展處理策略。當(dāng)一個知識對象對于學(xué)習(xí)者過于困難時,往往需要回溯到前面的知識對象去學(xué)習(xí),俗稱“打好基礎(chǔ)”,同時,當(dāng)學(xué)習(xí)者掌握了當(dāng)前知識,需要繼續(xù)學(xué)習(xí)時,延展知識對象就顯得非常重要。本文基于知識對象的依賴關(guān)系,通過回溯與延展處理為學(xué)習(xí)者提供此類幫助。
1.基于依賴關(guān)系的回溯策略?;厮菔钦业疆?dāng)前知識對象所需要依賴的前知識對象。
2.基于依賴關(guān)系的延展策略。延展是尋找下一步需要完成的知識對象或知識對象集。
獲取到前序知識對象,有利于向前推送,也許學(xué)生還沒有很好地掌握前序知識對象,導(dǎo)致出現(xiàn)當(dāng)前的“錯題”,便于發(fā)現(xiàn)學(xué)生弱點(diǎn)的關(guān)鍵原因。獲得后續(xù)知識對象則向?qū)W生推送進(jìn)一步的擴(kuò)展學(xué)習(xí)內(nèi)容。
根據(jù)領(lǐng)域知識,結(jié)合百度百科中相關(guān)數(shù)據(jù),對10000個試題文本進(jìn)行訓(xùn)練,得到范本集,進(jìn)行本文分析和知識對象自動識別,最終共識別出初中數(shù)學(xué)所包含的知識對象共515個,在此基礎(chǔ)上,構(gòu)建多維關(guān)聯(lián)知識對象模型。以下僅以試題文本T1為例,詳細(xì)闡述其實(shí)驗(yàn)過程及其應(yīng)用效果。文本T1:小王的家離火車站比較近,中間只有一條筆直的步行小道。小王從學(xué)?;丶?,為了早點(diǎn)見到爸爸,與爸爸約定,小王下火車后就通知爸爸,小王往家走,爸爸從家里出發(fā)來接小王,小王的步行速度是每分鐘30米,爸爸的步行速度是每分鐘40米,他們在15分鐘后終于見面了,請列方程算算火車站離小王家的距離是多少?
通過對文本進(jìn)行語義分析,得到的宿主知識對象是為K1:“方程”和K2:“行程問題”。由于篇幅所限,在此僅給出“方程(組)的應(yīng)用”的效果。通過進(jìn)一步的細(xì)分,得到原知識對象的所有子知識對象,如圖3所示。
圖3 方程(組)的應(yīng)用相關(guān)知識對象
運(yùn)用基于包含關(guān)系的自底向上規(guī)約策略,找到“方程(組)的應(yīng)用”的父知識對象為“方程(組)”,并進(jìn)而發(fā)現(xiàn)“方程(組)的應(yīng)用”的所有兄弟知識節(jié)點(diǎn),如圖4所示,即學(xué)習(xí)者掌握了這些知識對象后,就等價于掌握了其父節(jié)點(diǎn)所表示的知識對象。
圖4 方程(組)知識對象兄弟關(guān)系圖
運(yùn)用基于依賴關(guān)系的向前獲取策略,發(fā)現(xiàn)“方程(組)的應(yīng)用”的前序知識對象和后續(xù)知識對象,如圖5所示。
圖5 方程(組)知識對象依賴關(guān)系圖
學(xué)習(xí)者如果還沒有掌握前序知識對象,那么,直接學(xué)習(xí)“方程(組)的應(yīng)用”就比較困難,推送先學(xué)習(xí)其前序知識對象。同樣,當(dāng)學(xué)習(xí)者掌握了“方程(組)的應(yīng)用”后,推送學(xué)習(xí)后續(xù)知識對象,為學(xué)習(xí)者的學(xué)習(xí)計(jì)劃提供思路。根據(jù)學(xué)習(xí)者選擇的任意學(xué)習(xí)文本資源,系統(tǒng)自動識別宿主知識對象,再通過基于包含關(guān)系的自頂向下分解策略、自底向上規(guī)約策略和基于依賴關(guān)系的向前、向后獲取策略得到發(fā)現(xiàn)關(guān)聯(lián)知識對象,從而可以向?qū)W習(xí)者精確推送學(xué)習(xí)內(nèi)容。
針對大規(guī)模在線教育系統(tǒng)中知識對象的多維關(guān)聯(lián)關(guān)系的廣泛存在,提出一種基于多維關(guān)聯(lián)的知識對象模型MRKM。該模型從統(tǒng)一的視角描述了知識對象及其之間的包含關(guān)系和依賴關(guān)系,并基于文本處理技術(shù),挖掘知識對象,再通過知識的分解策略和規(guī)約等策略,在統(tǒng)一粒度上整理知識對象,最后通過回溯和延展等策略,識別上下游知識對象。應(yīng)用該模型對學(xué)習(xí)者學(xué)習(xí)目標(biāo)中所包含的知識對象進(jìn)行精確分析,為學(xué)習(xí)資源、學(xué)習(xí)路徑的推送打下良好基礎(chǔ)。