范 洪,陸宇程
(1.中國地質(zhì)大學(xué)(北京)外國語學(xué)院,北京 100086;2.北京郵電大學(xué) 國際學(xué)院,北京 100876)
在大學(xué)英語教學(xué)中,同一門課程的學(xué)生其基礎(chǔ)知識、認知能力和學(xué)習(xí)興趣等方面各不相同,因此,他們對外語知識結(jié)構(gòu)和學(xué)習(xí)成果的掌握程度存在差異。通常情況下,學(xué)生可以自行發(fā)現(xiàn)不同知識之間的聯(lián)系,并將新舊知識進行整合。但是,有些學(xué)生由于知識結(jié)構(gòu)不完整或缺乏知識的系統(tǒng)性積累,導(dǎo)致他們學(xué)習(xí)能力下降,從而影響個性化教學(xué)的實施效果。因此,傳統(tǒng)大學(xué)課堂教學(xué)和網(wǎng)上數(shù)字化教學(xué)都需要深入分析課程知識點的屬性和關(guān)系。知識圖譜技術(shù)恰好能夠滿足這一需求,它可以展示大學(xué)英語課程中知識點的分布狀態(tài)和相互關(guān)系,幫助學(xué)生系統(tǒng)理解相關(guān)知識點,并建立它們之間的聯(lián)系。除此之外,在互聯(lián)網(wǎng)教育中,知識圖譜技術(shù)還可以為個性化推薦學(xué)習(xí)提供支持。[1]因此,在教育領(lǐng)域,建立知識圖譜具有十分必要的意義。
當(dāng)前互聯(lián)網(wǎng)+教育是時代的潮流,基于知識圖譜的特點它可以為大學(xué)英語教學(xué)提供有力的工具和手段。知識圖譜(Knowledge Graph)是一種基于圖形數(shù)據(jù)結(jié)構(gòu)的語義網(wǎng)絡(luò),由節(jié)點(Point)和邊(Edge)組成。在知識圖譜中,每個節(jié)點代表現(xiàn)實世界中的“實體”,每條邊表示實體之間的“關(guān)系”。[2]知識圖譜可以描述現(xiàn)實世界,也可以具體到大學(xué)英語教學(xué)這樣的行業(yè)領(lǐng)域。利用知識圖譜,我們可以從“關(guān)系”的角度來分析學(xué)生的學(xué)習(xí)方式、學(xué)習(xí)技能、學(xué)習(xí)資源等問題,更好地理解各實體之間的聯(lián)系,進而深入挖掘知識與信息。[2]
知識圖譜的架構(gòu),包括知識圖譜自身的邏輯結(jié)構(gòu)以及構(gòu)建知識圖譜所采用的技術(shù)結(jié)構(gòu)。知識圖譜從邏輯架構(gòu)上可以分為兩個層次:數(shù)據(jù)層和模式層,如圖1所示。
知識圖譜的數(shù)據(jù)層以“實體—屬性—值”三元組作為事實的表達存儲在圖數(shù)據(jù)庫。本體知識庫是知識圖譜的抽象概念框架,具體到大學(xué)英語則可以對相關(guān)知識抽象分類,例如,英語教學(xué)可分為聽力、口語、閱讀、寫作和翻譯。而底層數(shù)據(jù)庫保存實體關(guān)系和實體屬性值。
模式層建立在數(shù)據(jù)層之上,是知識圖譜的核心,在模式層存儲的是經(jīng)過提煉的知識,通常采用本體庫來管理知識圖譜的模式層,借助本體庫對公理、規(guī)則和約束條件的支持能力來規(guī)范實體、關(guān)系以及實體的類型和屬性等對象之間的聯(lián)系。[3]
構(gòu)建知識圖譜就是利用信息化技術(shù)將知識元素從原始數(shù)據(jù)中提取出來,將這些知識元素存儲在知識庫的數(shù)據(jù)層面和模式層面的過程。這是一個持續(xù)迭代更新的過程,根據(jù)知識獲取的邏輯,每個迭代包含三個階段:信息抽取、知識融合和知識處理。
信息抽取階段從原始文本數(shù)據(jù)中識別出實體、關(guān)系和屬性等知識元素。這些元素構(gòu)成知識圖譜的節(jié)點和關(guān)系邊。知識融合階段將來自不同數(shù)據(jù)源的知識元素融合在一起,消除沖突和重復(fù),生成關(guān)聯(lián)起來的知識路徑和圖譜片段。知識加工階段對生成的知識路徑或圖譜片段進行修飾、調(diào)整和修正,使其符合一定的知識表示模型或本體,從而生成結(jié)構(gòu)完善、語義準(zhǔn)確的知識圖譜。
整個過程依賴于自然語言處理、關(guān)系抽取、知識表示、機器學(xué)習(xí)等技術(shù),最終構(gòu)建出一個節(jié)點豐富、關(guān)系完備的知識圖譜。該知識圖譜編碼了特定領(lǐng)域的知識元素及其之間的關(guān)聯(lián)和結(jié)構(gòu),為下一步的知識推理、問答和學(xué)習(xí)等應(yīng)用提供了基礎(chǔ)。
知識圖譜為教學(xué)模式優(yōu)化提供信息基礎(chǔ)。通過分析知識圖譜中的知識結(jié)構(gòu)和學(xué)習(xí)者的數(shù)據(jù),可以發(fā)現(xiàn)學(xué)習(xí)者的知識缺陷與需求,這有助于調(diào)整教學(xué)進度與側(cè)重,實現(xiàn)精準(zhǔn)教學(xué)。同時,知識圖譜還可以根據(jù)學(xué)習(xí)者的知識狀況推薦個性化的學(xué)習(xí)路徑,指導(dǎo)學(xué)習(xí)者進行自主學(xué)習(xí)。
知識圖譜中知識的持續(xù)更新有助于教學(xué)內(nèi)容的及時升級。當(dāng)知識圖譜通過新信息的添加或完善得到擴展時,教學(xué)內(nèi)容也需要相應(yīng)調(diào)整以保證時效性。這需要教師持續(xù)關(guān)注知識圖譜的更新,并在教學(xué)中及時體現(xiàn)。
基于知識圖譜的學(xué)習(xí)分析和推薦可以實現(xiàn)學(xué)習(xí)方式的個性轉(zhuǎn)變。不同的學(xué)習(xí)者會得到不同的知識補充或練習(xí),有的側(cè)重于聽力、有的側(cè)重于口語等,這有助于學(xué)習(xí)者在個人興趣與需求的指引下進行個性化學(xué)習(xí)。
知識圖譜為教育評價提供了更加全面與準(zhǔn)確的依據(jù)。教育評價不應(yīng)局限于幾次測試,更應(yīng)考察學(xué)習(xí)者與知識圖譜間的交互記錄,如學(xué)習(xí)者提出的問題、得到的學(xué)習(xí)推薦以及自主學(xué)習(xí)的足跡等。這可以讓教師從更廣泛的角度理解學(xué)習(xí)者的知識狀況與發(fā)展軌跡。
知識圖譜的構(gòu)建依賴于不同數(shù)據(jù)源的數(shù)據(jù)提取,這是后續(xù)應(yīng)用的基礎(chǔ)。對大學(xué)英語知識圖譜來說,數(shù)據(jù)主要來自兩種渠道:一種是學(xué)校自身的數(shù)據(jù),通常包含學(xué)校購買的電子化數(shù)據(jù)和以圖文形式存儲的非結(jié)構(gòu)化數(shù)據(jù),其中學(xué)生的測試成績以結(jié)構(gòu)化表格形式存儲。另一種是公開的外文文章網(wǎng)絡(luò)數(shù)據(jù),通常以網(wǎng)頁形式存儲的非結(jié)構(gòu)化數(shù)據(jù)。
前者通常只需要簡單預(yù)處理就可以作為后續(xù)系統(tǒng)的輸入,但后者通常需要利用自然語言處理等技術(shù)來提取非結(jié)構(gòu)化的信息。學(xué)校數(shù)據(jù)提供了學(xué)習(xí)者的知識水平和學(xué)習(xí)記錄等結(jié)構(gòu)化信息,這些信息用于構(gòu)建學(xué)習(xí)者畫像,為個性化學(xué)習(xí)和推薦提供基礎(chǔ)。非結(jié)構(gòu)化的網(wǎng)絡(luò)語料存有豐富的知識,要利用技術(shù)工具提取實體、關(guān)系和屬性構(gòu)建知識圖譜。
兩個數(shù)據(jù)源提供的信息有助于構(gòu)建學(xué)習(xí)者畫像和知識圖譜,為基于知識圖譜的大學(xué)外語個性化學(xué)習(xí)系統(tǒng)奠定基礎(chǔ)。系統(tǒng)通過分析學(xué)習(xí)者的數(shù)據(jù)采集學(xué)習(xí)者的知識狀況,結(jié)合知識圖譜為學(xué)習(xí)者推薦個性化學(xué)習(xí)路徑和內(nèi)容。這需要對兩個數(shù)據(jù)源的數(shù)據(jù)進行預(yù)處理、清洗、抽取、融合和標(biāo)注,最終建立起知識圖譜和學(xué)習(xí)者用戶畫像。[4]
知識圖譜構(gòu)建的關(guān)鍵在于理解業(yè)務(wù)和設(shè)計知識圖譜本身?;ヂ?lián)網(wǎng)上的海量資源是系統(tǒng)的重要信息來源。如圖2所示,我們通??梢园凑兆匀徽Z言中的主語、謂語、賓語的語法進行知識的抽取。知識抽取分為實體抽取、關(guān)系抽取、屬性抽取和事件抽取。[5]
圖2 知識圖譜的數(shù)據(jù)庫結(jié)構(gòu)設(shè)計
圖3 本體庫的設(shè)計
信息源中的知識通過以上抽取手段轉(zhuǎn)化為知識圖譜中的實體、關(guān)系和屬性等知識單元。這些單元構(gòu)成初始知識圖譜,隨著新信息的不斷獲得,豐富知識圖譜,使其更加準(zhǔn)確和詳盡。
知識融合是從概念層和數(shù)據(jù)層兩方面,通過知識庫的對齊、關(guān)聯(lián)和合并等方式,將多個知識圖譜或信息源中的本體與實體進行鏈接,形成一個更加統(tǒng)一和稠密的新知識圖譜,這是實現(xiàn)知識共享的重要方法。[5]
在概念層面,不同知識圖譜或信息源的本體可能存在差異,需要對其中的概念、類別和屬性進行匹配、映射或整合,形成一個統(tǒng)一的本體框架,以此指導(dǎo)數(shù)據(jù)層面的知識融合。這通常需要人工完成,但也可以借助本體匹配工具實現(xiàn)半自動化。
在數(shù)據(jù)層面,系統(tǒng)需要檢測不同知識圖譜或信息源中的相同或相關(guān)實體,通過實體消解、實體鏈接等技術(shù)將其鏈接在一起,或者合并為同一個實體,從而豐富實體的數(shù)據(jù)描述和關(guān)系網(wǎng)絡(luò)。此外,系統(tǒng)還需要關(guān)聯(lián)不同源的屬性、關(guān)系與事件等,構(gòu)建更加全面和準(zhǔn)確的知識網(wǎng)絡(luò)。
知識融合需要同時在概念和數(shù)據(jù)兩個層面開展,才能實現(xiàn)真正意義上的知識整合與共享。這有助于緩解信息孤島,豐富單個知識圖譜的知識,提高其準(zhǔn)確性與完備性。采用自動化技術(shù)可以在一定程度上實現(xiàn)知識融合的規(guī)?;?但人工干預(yù)和評估也同樣重要。
知識處理包括本體創(chuàng)建、知識推理和質(zhì)量評估三個部分。本體主要通過人工創(chuàng)建和數(shù)據(jù)驅(qū)動自動創(chuàng)建的方式構(gòu)建,根據(jù)當(dāng)前的大學(xué)英語教學(xué)現(xiàn)狀,核心本體庫從實體、服務(wù)、方式和用戶四個方面開始創(chuàng)建本體庫。知識推理主要使用語義分析的方法,通過對存儲的三元組進行分析,可以獲取新的知識或者結(jié)論。知識推理是獲取新知識的重要手段。質(zhì)量評估是生成正確知識的關(guān)鍵所在,質(zhì)量評估的過程就是對上面產(chǎn)生的知識數(shù)據(jù)進行打分評價的過程,并將符合要求的數(shù)據(jù)存入知識圖譜。[5]
用戶畫像是“千人千面”推薦算法的基礎(chǔ),[6]用戶畫像的構(gòu)建需要多種信息的支持,數(shù)據(jù)采集的具體工作流程如下:
1.用戶屬性采集:如年齡、性別、學(xué)籍、興趣愛好等,可以通過用戶注冊或問卷調(diào)查獲取。這些屬性可以構(gòu)成用戶屬性畫像。
2.用戶行為采集:如用戶的瀏覽歷史、點贊行為、學(xué)習(xí)時間、學(xué)習(xí)習(xí)慣等。這需要通過對用戶的網(wǎng)站、產(chǎn)品或應(yīng)用使用進行跟蹤采集。這些數(shù)據(jù)可以構(gòu)成用戶行為畫像。
3.用戶知識水平評估:例如通過測試的方式對用戶的某些技能或知識進行評定,可以判斷用戶的知識結(jié)構(gòu)和掌握情況,用于構(gòu)建用戶知識能力畫像。
4.用戶學(xué)習(xí)經(jīng)歷采集:通過對用戶在學(xué)校學(xué)習(xí)數(shù)據(jù)、學(xué)習(xí)平臺上的發(fā)帖、評論等進行分析,可以挖掘出用戶的興趣偏好、價值觀、性格特征等,構(gòu)建用戶經(jīng)歷畫像。
5.多源數(shù)據(jù)融合:從不同渠道采集到用戶屬性、行為、知識、經(jīng)歷等多維數(shù)據(jù),對這些數(shù)據(jù)進行融合可以形成較為全面準(zhǔn)確的用戶畫像。
用戶畫像的采集是一項綜合性工作,需要收集用戶屬性、行為、知識、經(jīng)歷等不同類型的數(shù)據(jù),并將這些數(shù)據(jù)進行綜合分析和融合,這樣才能構(gòu)建出較為準(zhǔn)確和全面的用戶畫像。這有助于為用戶提供個性化推薦和服務(wù)。
學(xué)習(xí)路徑推薦往往僅根據(jù)用戶有興趣學(xué)習(xí)的知識實體為出發(fā)點,按知識點進行推薦。個性化學(xué)習(xí)推薦算法需要做好以下幾個方面的工作:
1.分析用戶需求:根據(jù)用戶畫像分析用戶的知識缺口、學(xué)習(xí)習(xí)慣和興趣需求,這有助于精準(zhǔn)推薦用戶需要的學(xué)習(xí)內(nèi)容。
2.構(gòu)建推薦模型:選用與學(xué)習(xí)場景匹配的推薦算法和技術(shù),構(gòu)建可以根據(jù)用戶需求為用戶推薦個性化學(xué)習(xí)內(nèi)容的推薦模型。常用的有協(xié)同過濾、內(nèi)容推薦等。
3.構(gòu)建學(xué)習(xí)資源:提供豐富而全面的學(xué)習(xí)內(nèi)容,包括視頻、文字、音頻、圖片、習(xí)題等多種形式,滿足不同學(xué)習(xí)者的需求。
4.個性化推薦:根據(jù)用戶數(shù)據(jù)和推薦模型,為每個用戶推薦符合其學(xué)習(xí)需求的個性化學(xué)習(xí)內(nèi)容,如推薦Learning Path。
5.優(yōu)化和迭代:分析用戶對推薦結(jié)果的響應(yīng)和評價,不斷優(yōu)化用戶畫像、推薦模型和學(xué)習(xí)資源,實現(xiàn)個性化推薦的持續(xù)優(yōu)化。
6.互動和交互:提供用戶交互界面,可以實現(xiàn)推薦結(jié)果的顯示、用戶管理和互動,以及學(xué)習(xí)記錄跟蹤等功能。
做好個性化推薦學(xué)習(xí)需要全面收集和應(yīng)用用戶數(shù)據(jù),選擇合適算法構(gòu)建推薦模型,提供豐富學(xué)習(xí)資源,并持續(xù)優(yōu)化。在此需要強調(diào)數(shù)據(jù)采集、模型構(gòu)建、資源建設(shè)和不斷迭代四個要素。
知識問答平臺可以根據(jù)用戶的自然語言輸入,基于歷史的學(xué)習(xí)風(fēng)格,依照學(xué)習(xí)路徑推薦算法,給出相應(yīng)的回答結(jié)果。如圖4所示,具體工作流程如下:
圖4 知識問答界面
1.通過超越關(guān)鍵字匹配技術(shù),基于語義理解與知識圖譜實現(xiàn)搜索與互動問答。
2.利用知識圖譜將多模態(tài)的課程(文本,音頻,視頻)與題目,競賽等結(jié)合,自動化生產(chǎn)課件與學(xué)習(xí)計劃。
3.基于知識圖譜化的學(xué)習(xí)內(nèi)容,實現(xiàn)免人工干預(yù)的智能題目生產(chǎn)。
4.對用戶行為進行分析,基于用戶個性化習(xí)慣、學(xué)習(xí)記錄及考核成績等,智能推薦課程學(xué)習(xí)。
本文闡釋了基于知識圖譜的大學(xué)英語個性化智能學(xué)習(xí)系統(tǒng),介紹大學(xué)英語相關(guān)知識圖譜的構(gòu)建過程,該系統(tǒng)可根據(jù)用戶畫像提供個性化的英語學(xué)習(xí)課件和學(xué)習(xí)計劃,并實現(xiàn)免人工干預(yù)的智能題目測試。該系統(tǒng)需要繼續(xù)完善自然語言處理、用戶畫像的準(zhǔn)確度和數(shù)據(jù)質(zhì)量的評價機制,以便為用戶提供更加豐富和準(zhǔn)確的個性化推薦內(nèi)容。