薛輝?徐智淵?劉時佐?劉時佑
摘要:智慧教育是將人工智能、大數(shù)據(jù)等技術(shù)應(yīng)用于教育的重要方向。通過知識圖譜可以管理不同的知識點,并基于此進行智能問答、知識搜索、學(xué)習(xí)路徑推薦等。
關(guān)鍵詞:知識圖譜;智慧教育;智能問答
智慧教育是應(yīng)用新一代信息技術(shù),提升教學(xué)系統(tǒng)的效率和智能化程度。隨著信息化在教育中的普及,“互聯(lián)網(wǎng)+教育”逐漸在教育領(lǐng)域得到推廣,未來教育將可以利用信息技術(shù)進行教學(xué),讓學(xué)生能夠個性化學(xué)習(xí)。這將改變教育服務(wù)方式,有助于更好地實現(xiàn)教育的核心目標(biāo)。知識圖譜能夠構(gòu)建不同領(lǐng)域知識要素之間的關(guān)聯(lián)關(guān)系,通過知識圖譜,學(xué)生以及教師能夠提高學(xué)習(xí)的效率。知識圖譜不僅為師生提供知識的快速檢索方式,同時也將各類知識要素進行結(jié)構(gòu)化的組織,能夠幫助師生系統(tǒng)性地掌握相關(guān)學(xué)科的內(nèi)容。
一、知識圖譜的理論基礎(chǔ)
知識圖譜是一種結(jié)構(gòu)化數(shù)據(jù)的形式,用于表達實體、概念以及它們之間的關(guān)系。其構(gòu)建原理基于三個核心要素:實體、屬性和關(guān)系。實體代表現(xiàn)實世界中的個體,可以是人、地點、物品、概念等。每個實體都有一個唯一的標(biāo)識符,并與一些屬性相關(guān)聯(lián)。屬性是描述實體特征或性質(zhì)的信息,如姓名、年齡、性別等。屬性用于描述實體的各個方面。關(guān)系表示實體之間的連接或交互方式,如“工作于”“位于”“擁有”等。知識圖譜通過將這些要素組織成圖形結(jié)構(gòu),構(gòu)建了一個網(wǎng)絡(luò),其中的節(jié)點表示實體,邊表示實體之間的關(guān)系。這種結(jié)構(gòu)有助于提取、理解和推理出有關(guān)實體之間關(guān)系的信息,從而實現(xiàn)更高層次的知識表達和應(yīng)用。
知識圖譜的建立有兩種方法:自上而下和自下而上。自上而下的方法是通過構(gòu)建不同領(lǐng)域知識的系統(tǒng)性結(jié)構(gòu),根據(jù)系統(tǒng)性的知識結(jié)構(gòu)來搜集相關(guān)數(shù)據(jù),并組成知識圖譜。自下而上的方式是直接針對數(shù)據(jù)集合進行處理,通過數(shù)據(jù)集合之間的關(guān)聯(lián)關(guān)系,逐漸建立不同知識要素之間的關(guān)聯(lián),并最終形成知識圖譜。
(一)知識獲取
知識圖譜中的知識獲取通過多種渠道和方法,將信息整合到一個系統(tǒng)化的知識庫中。通常,可以從多個來源收集原始數(shù)據(jù),包括網(wǎng)絡(luò)、數(shù)據(jù)庫、文檔、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)等。采集數(shù)據(jù)后,要進行清理、去重、格式化處理,以確保數(shù)據(jù)的質(zhì)量和一致性。此外,需要識別并抽取出文本中的實體(例如人物、地點、事件等),同時識別實體之間的關(guān)聯(lián)、聯(lián)系或描述它們之間的關(guān)系。
(二)知識表示
知識圖譜中的知識表示指的是如何以結(jié)構(gòu)化的方式表示各種信息和實體,使計算機能夠理解和處理。在知識圖譜中,常用的知識表示方法是采用三元組。三元組是一種基本的知識表示方式,由主體(Subject)、謂詞(Predicate)、客體(Object)組成,形如(實體1,關(guān)系,實體2)。舉例來說,“蘋果是一種水果”可以表示為(蘋果,屬于,水果)。這種表示方式能夠清晰地表達實體之間的關(guān)系,為計算機的理解和處理提供了便利。
(三)知識管理
知識圖譜的存儲方式可以采用多種方法,取決于數(shù)據(jù)的結(jié)構(gòu)、規(guī)模和使用場景。圖數(shù)據(jù)庫是專門用于存儲和處理圖結(jié)構(gòu)數(shù)據(jù)的數(shù)據(jù)庫,它們以圖的形式存儲數(shù)據(jù),利用節(jié)點和邊表示實體和實體之間的關(guān)系。這種存儲方式可以提供高效的圖查詢和圖算法操作。常見的圖數(shù)據(jù)庫包括Neo4j、Amazon Neptune和OrientDB等。資源描述框架(RDF)是一種用于描述資源的語義網(wǎng)數(shù)據(jù)模型,它使用三元組(Subject-Predicate-Object)的形式表示知識。RDF存儲方式采用三元組來組織和存儲數(shù)據(jù),例如將數(shù)據(jù)存儲在三元組數(shù)據(jù)庫中,常見的包括Virtuoso和Stardog等。在某些情況下,知識圖譜可以存儲為文檔型數(shù)據(jù)庫,使用文檔來表示實體和關(guān)系。這種方式適合于部分結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),如JSON或XML格式的數(shù)據(jù)。
RDF(Resource Description Framework)是一種用于描述資源關(guān)系的語義網(wǎng)絡(luò)數(shù)據(jù)模型。SPARQL(SPARQL Protocol and RDF Query Language)是用于查詢RDF數(shù)據(jù)的標(biāo)準(zhǔn)化查詢語言,它類似于SQL對于關(guān)系型數(shù)據(jù)庫的作用。SPARQL提供了靈活和強大的查詢機制,允許用戶對RDF數(shù)據(jù)進行復(fù)雜的查詢操作。SPARQL使用類似于SQL的語法結(jié)構(gòu),包括SELECT、WHERE、FILTER和OPTIONAL等關(guān)鍵字,用于描述查詢的模式和條件。SPARQL允許對三元組模式進行查詢,其中包括主語、謂語和賓語。用戶可以通過這些模式來獲取特定實體的屬性或者實體之間的關(guān)聯(lián)關(guān)系。
二、基于知識圖譜的智慧教育系統(tǒng)構(gòu)建
首先,需要收集不同學(xué)科的教材,如歷史、初中等。收集到數(shù)據(jù)后,運用詞法模型提取概念及其關(guān)系。這些信息經(jīng)過可視化呈現(xiàn)知識圖譜,并應(yīng)用于知識問答、查詢和推薦等方面。數(shù)據(jù)是建立知識圖譜的基礎(chǔ),構(gòu)建學(xué)科知識圖譜需要大量學(xué)科數(shù)據(jù)。因此,獲取數(shù)據(jù)是建立圖譜的首要步驟。獲得數(shù)據(jù)后,需要進行自然語言處理。分詞在自然語言處理中是一項重要的預(yù)處理步驟,尤其是針對中文等字符沒有明顯分隔符的語言。分詞的目的是將連續(xù)的文本序列切分為有意義的詞語或詞組,這是許多NLP任務(wù)的基礎(chǔ),包括文本分類、信息檢索、命名實體識別等。LTP(Language Technology Platform)是一個自然語言處理平臺,其中包含分詞作為其基礎(chǔ)功能之一。它可以執(zhí)行中文文本的分詞處理,將文本切分為詞語或詞組,并標(biāo)注它們的詞性等信息。
識別實體詞是自然語言處理中的一個重要任務(wù),其目的是從文本中識別出具有特定含義的專有名詞、實體或術(shù)語。這些實體可以是人名、地名、組織機構(gòu)、日期、時間、數(shù)字、專業(yè)術(shù)語等,對于文本理解和信息提取非常關(guān)鍵。將文本分解成詞語或短語的序列是實體識別的基礎(chǔ),因為實體通常由多個詞構(gòu)成。對于分詞后的每個詞語,詞性標(biāo)注有助于區(qū)分不同詞語在句子中的功能,從而更好地判斷其是否為實體。命名實體識別是實體識別的核心步驟,利用機器學(xué)習(xí)算法或深度學(xué)習(xí)模型,根據(jù)上下文語境識別出文本中的命名實體。NER包括對文本中的實體進行分類,如人名、地名、機構(gòu)名等,并標(biāo)注它們的邊界。 在識別出實體后,可能會對它們進行更詳細的分類,比如人名可能進一步區(qū)分為政治人物、藝術(shù)家等。
本文采用如公式(1)所示的啟發(fā)性方法進行實體詞識別:A表示形容詞,N表示名詞,P表示介詞,通過公式(1)形成用不同類型詞匯形成的句法類型。
((AA|NN)+|((AA|NN)×(NNP)? )(AA|NN)×)NN? ?(1)
句法分析旨在識別句子中的語法成分,如“主謂賓”“定狀補”等,并分析它們之間的關(guān)系,通常用依存句法樹表示。句子中的實體在依存結(jié)構(gòu)中占據(jù)重要地位,實體之間的語義關(guān)系可以通過語義成分的依存結(jié)構(gòu)推斷得出。
在此基礎(chǔ)上,本文采用Neo4j存儲知識圖譜。Neo4j是一套圖形數(shù)據(jù)庫管理系統(tǒng),專注于圖形數(shù)據(jù)的存儲和處理。它適用于存儲和處理復(fù)雜的關(guān)聯(lián)數(shù)據(jù),特別適用于處理知識圖譜中實體之間存在多重關(guān)系的場景。在Neo4j中,知識圖譜的數(shù)據(jù)以節(jié)點和關(guān)系的形式存儲。節(jié)點表示知識圖譜中的實體,例如人物、地點、概念等,關(guān)系表示這些實體之間的關(guān)聯(lián)和連接。每個節(jié)點和關(guān)系都可以具有屬性,這些屬性可以提供關(guān)于實體和關(guān)系的更多信息。例如,一個人物節(jié)點可以有姓名、年齡等屬性。節(jié)點可以被賦予標(biāo)簽,這樣可以根據(jù)標(biāo)簽對節(jié)點進行分類。標(biāo)簽有助于快速識別節(jié)點所屬的類別。Neo4j使用Cypher查詢語言進行圖形數(shù)據(jù)庫的查詢,這種查詢語言專門針對圖形數(shù)據(jù)模型設(shè)計。Cypher通過指定節(jié)點的標(biāo)簽或?qū)傩裕梢圆樵儩M足特定條件的節(jié)點。 Cypher還能查詢節(jié)點之間的關(guān)系,包括特定類型的關(guān)系、關(guān)系的方向等,以及查找節(jié)點之間的路徑,如查找兩個節(jié)點之間的最短路徑或特定條件下的路徑。在此基礎(chǔ)上,形成了如圖1所示的知識結(jié)構(gòu)模型。
三、基于知識圖譜的智慧教育系統(tǒng)的應(yīng)用
基于知識圖譜的智慧教育系統(tǒng)可以應(yīng)用在不同的方向,主要如下。
(一)智能問答
知識圖譜中的智能問答是指利用知識圖譜的信息結(jié)構(gòu)和關(guān)聯(lián)性來回答用戶提出的問題。這種智能問答系統(tǒng)可以通過對知識圖譜中的實體、關(guān)系和屬性進行搜索和推理,為用戶提供準(zhǔn)確、個性化的答案。系統(tǒng)需要理解用戶提出的問題。這包括分析問題的語義、關(guān)鍵詞提取和語法分析。通過自然語言處理技術(shù),將問題轉(zhuǎn)化為計算機能夠理解的形式。在知識圖譜中進行信息檢索,系統(tǒng)會根據(jù)問題的內(nèi)容在圖譜中尋找相關(guān)的實體、關(guān)系或?qū)傩?。這可以通過圖查詢語言(例如SPARQL)或圖數(shù)據(jù)庫提供的API來實現(xiàn)。從圖譜中檢索到的信息需要進一步分析和推斷,以生成最終的答案。這可能涉及對實體之間的關(guān)系推理、答案的排名或過濾等。最終的答案以易于理解和接受的方式呈現(xiàn)給用戶。這可以是文本形式的答案、圖表甚至是語音回答,取決于系統(tǒng)的設(shè)計和用戶的需求。
(二)知識搜索
知識圖譜中的知識搜索是指通過使用圖數(shù)據(jù)庫或圖形查詢語言等技術(shù),在用戶提出的問題或關(guān)鍵字的基礎(chǔ)上,在知識圖譜中進行信息檢索,并返回與查詢相關(guān)的知識點、實體或關(guān)系。系統(tǒng)需要理解并分析用戶提出的問題或關(guān)鍵字的含義,包括語義、上下文等。在知識圖譜中,信息需要被索引,這樣才能快速地進行搜索。索引可以是實體、屬性、關(guān)系等。搜索引擎會針對查詢在這些索引中查找匹配的內(nèi)容。根據(jù)用戶的查詢,在知識圖譜中進行圖查詢操作。這可能涉及使用圖數(shù)據(jù)庫提供的查詢語言(例如SPARQL)或者利用圖數(shù)據(jù)庫的API進行查詢操作。檢索到的信息將被組織和呈現(xiàn)給用戶。這可以是簡單的文本輸出、圖形展示,或者其他用戶友好的展示形式,以便用戶理解和使用?;谥R圖譜的搜索能夠提供更為準(zhǔn)確、精確的結(jié)果,因為它基于事實和關(guān)系而不是簡單的關(guān)鍵詞匹配。知識圖譜搜索可以展示實體之間的關(guān)聯(lián)關(guān)系,幫助用戶更全面地理解相關(guān)信息的上下文和關(guān)聯(lián)。部分系統(tǒng)可以根據(jù)用戶的歷史查詢、興趣等信息,提供個性化的搜索結(jié)果。某些系統(tǒng)整合了自然語言處理和智能推薦技術(shù),能夠理解語義、解析查詢,并針對查詢進行智能推薦或修正。例如,根據(jù)給定實體s1,可以使用公式(2)來解析與其三度關(guān)聯(lián)的實體。
?xr(s1,x)??xr2(x,s2) and ?x,y r1(s1,x)?r2(x,y)r3(y,s2)
(2)
通過組合不同的條件,最后返回公式(3)表示的三元組。
?x,y r(x,y)? ? ? ? ? ? ? ? ? ?(3)
(三)學(xué)習(xí)路徑推薦
在智慧教育中,發(fā)現(xiàn)知識點之間的相互聯(lián)系對于自動整合知識結(jié)構(gòu)和提供優(yōu)質(zhì)教育服務(wù)至關(guān)重要。這些聯(lián)系多種多樣,例如,先修知識點關(guān)系。學(xué)生在學(xué)習(xí)某個知識點前,通常需要先了解其他相關(guān)知識點。課程大綱內(nèi)的章節(jié)、小節(jié)之間就隱含著知識點的上下級關(guān)系,在智慧教育素材中起著重要作用。首先提取課程大綱中的知識點,再利用通用信息,形成課程大綱的基礎(chǔ)架構(gòu)。然后將提取自課程視頻的每個小節(jié)知識點加入課程大綱的基礎(chǔ)結(jié)構(gòu)中,形成基于課程大綱的知識點上下級關(guān)系。知識點的先后順序決定了學(xué)生在學(xué)習(xí)后續(xù)知識前應(yīng)掌握的先導(dǎo)知識。在智慧教育背景下,有許多特征影響著知識概念的先后順序,這些特征來自多個方面,包括語義、文本和結(jié)構(gòu)等。通過學(xué)習(xí)這些特征來提取知識點的先修關(guān)系,以推薦學(xué)習(xí)路徑。
四、結(jié)束語
知識圖譜在在線教育中扮演著關(guān)鍵的角色,它提供了智能化、個性化的學(xué)習(xí)體驗,從而提升了教學(xué)效果和學(xué)習(xí)體驗。 基于知識圖譜對課程內(nèi)容和知識點的結(jié)構(gòu)化,系統(tǒng)可以為學(xué)習(xí)者創(chuàng)建個性化學(xué)習(xí)路徑,根據(jù)學(xué)習(xí)者的水平、興趣和目標(biāo),提供合適的學(xué)習(xí)路線。基于知識圖譜的智能問答系統(tǒng)可以回答學(xué)生提出的問題,提供實時支持和解答,能夠幫助學(xué)生更快速地理解概念和解決問題。
參考文獻
[1]李振,周東岱.教育知識圖譜的概念模型與構(gòu)建方法研究[J].電化教育研究, 2019, 1(8):78-86,113.
[2]袁榮亮,姬忠田.基于深度學(xué)習(xí)的網(wǎng)絡(luò)信息資源知識圖譜研究[J].情報理論與實踐, 2021, 44(5):173-179.
[3]蔣逸,張偉,王佩等.基于互聯(lián)網(wǎng)群體智能的知識圖譜構(gòu)造方法[J].軟件學(xué)報, 2022, 33(7):21-25.
[4]郭宏偉.基于智能教育的高校在線課程知識圖譜構(gòu)建研究——以中國醫(yī)學(xué)史為例[J].中國電化教育, 2021,1(2):8-11.
[5]高茂,張麗萍.融合多模態(tài)資源的教育知識圖譜的內(nèi)涵,技術(shù)與應(yīng)用研究[J].計算機應(yīng)用研究, 2022, 39(8):11-14.