李又玲
(成都師范學(xué)院,四川 成都 611130)
在我國高校加快教育信息化發(fā)展的過程中,建設(shè)數(shù)字化學(xué)習(xí)資源中心是十分重要的改革措施。教育部發(fā)布的《教育信息化十年發(fā)展規(guī)劃(2011-2020年)》第十二章“優(yōu)質(zhì)數(shù)字教育資源建設(shè)與共享行動”中明確提出:“實(shí)施優(yōu)質(zhì)數(shù)字教育資源建設(shè)與共享是推進(jìn)教育信息化的基礎(chǔ)工程和關(guān)鍵環(huán)節(jié)。到2015年,基本建成以網(wǎng)絡(luò)資源為核心的教育資源與公共服務(wù)體系,為學(xué)習(xí)者可享有優(yōu)質(zhì)數(shù)字教育資源提供方便快捷服務(wù)?!?/p>
對于高校數(shù)字化學(xué)習(xí)資源中心的建設(shè),有研究者指出,首先要實(shí)現(xiàn)校園內(nèi)部的教育教學(xué)資源的積累與共享,其次要為教師教學(xué)、科研和學(xué)生學(xué)習(xí)提供良好的資源支撐和環(huán)境支撐,最后要為實(shí)現(xiàn)校際、區(qū)域、全國甚至全球范圍內(nèi)的資源共享打下基礎(chǔ)。[1]
分析我國高校數(shù)字化學(xué)習(xí)資源中心的建設(shè)現(xiàn)狀發(fā)現(xiàn),目前高校已建成了很多學(xué)習(xí)資源庫,例如精品課程網(wǎng)站、課程學(xué)習(xí)網(wǎng)站等,可供用戶瀏覽或下載。然而,從資源共享的角度分析,這些資源庫卻無法互聯(lián)、交流,原因在于:①各高校的資源庫整體架構(gòu)能滿足內(nèi)部的學(xué)習(xí)需求,但未對外提供程序訪問資源庫的專有接口,造成“資源孤島”現(xiàn)象嚴(yán)重;②資源庫中現(xiàn)存的都是非結(jié)構(gòu)化、半結(jié)構(gòu)化的資源,并且元數(shù)據(jù)未標(biāo)準(zhǔn)化,這些資源難以實(shí)現(xiàn)機(jī)器自動化檢索,重用性很差。
對此,有研究者嘗試使用語義網(wǎng)技術(shù)解決上述問題,尋求建設(shè)優(yōu)質(zhì)共享的數(shù)字教育資源的可行途徑。語義網(wǎng)的核心思想是通過使用元數(shù)據(jù)將Web資源以機(jī)器可理解的方式描述和組織,提供數(shù)據(jù)的語義關(guān)系表達(dá)方式,實(shí)現(xiàn)網(wǎng)絡(luò)資源在語義層上的全方位互聯(lián),滿足Web應(yīng)用對數(shù)據(jù)互操作性的要求,從而實(shí)現(xiàn)網(wǎng)絡(luò)資源在最大范圍內(nèi)的共享。[2]例如,位傳海等人就提出了學(xué)習(xí)資源語義檢索系統(tǒng)。[3]
然而,這些基于語義網(wǎng)技術(shù)的學(xué)習(xí)資源檢索系統(tǒng)都不支持對高校已建成的“舊”資源庫的檢索,并且目前也無研究者提出較好的資源對外共享方案。針對這兩點(diǎn),本文提出一種新的高校多媒體學(xué)習(xí)資源查詢系統(tǒng),解決思路如下:
(1)構(gòu)建學(xué)習(xí)資源本體,并對其使用元數(shù)據(jù)標(biāo)準(zhǔn)描述,提高學(xué)習(xí)資源的可重用性和互操作性,實(shí)現(xiàn)資源庫的語義化,為用戶提供語義檢索途徑;
(2)充分利用已有基礎(chǔ),即現(xiàn)存的多源、異構(gòu)的資源庫,例如精品課程網(wǎng)站系統(tǒng)等,學(xué)習(xí)者能方便快捷地通過統(tǒng)一的接口進(jìn)行新、舊資源的查詢;
(3)由于學(xué)習(xí)資源文件存在多種格式(如圖片、視頻、音頻、FLASH動畫、Word文檔、PPT課件等),單純地使用關(guān)鍵字進(jìn)行多媒體資源檢索效率很低,系統(tǒng)還應(yīng)支持對多媒體資源基于內(nèi)容的查詢;
(4)學(xué)習(xí)資源在語義層面上對外開放,方便機(jī)器的檢索,以實(shí)現(xiàn)資源在更大范圍的共享和互操作。
這樣的設(shè)計充分考慮利用高校遺留的資源庫,以期達(dá)到各種類型學(xué)習(xí)資源“新舊并存”、在校內(nèi)外都能便捷地共享,本文的第三部分重點(diǎn)闡述該系統(tǒng)的總體設(shè)計和核心技術(shù)。
目前我國高校普遍已存在的學(xué)習(xí)資源庫一般都以RDBMS管理和存儲資源,用戶查詢資源時需要輸入關(guān)鍵字,由系統(tǒng)根據(jù)關(guān)鍵字構(gòu)造SQL語句在數(shù)據(jù)庫中檢索與之匹配的內(nèi)容。與之相對照,語義檢索則主要是基于概念匹配,將傳統(tǒng)方法中從用戶查詢和文檔抽取出來的關(guān)鍵詞替換為含有語義的概念,其更強(qiáng)調(diào)基于知識的、語義上的匹配,因此有更好的查準(zhǔn)率和查全率。[4]
本系統(tǒng)則針對資源“新舊并存”的情況,為了更好地整合新舊學(xué)習(xí)資源,采取“混合查詢”的解決方案:一方面,為“新”的學(xué)習(xí)資源構(gòu)建學(xué)習(xí)資源本體,在查詢中結(jié)合語義推理機(jī)(如Jena等)實(shí)現(xiàn)概念級的語義檢索;另一方面,通過關(guān)鍵字匹配對關(guān)系數(shù)據(jù)庫進(jìn)行SQL查詢,即可獲得“舊”的學(xué)習(xí)資源。
高校多媒體學(xué)習(xí)資源查詢系統(tǒng)主要由學(xué)習(xí)資源語義化模塊、混合查詢模塊、資源對外開放模塊構(gòu)成,以下三小節(jié)重點(diǎn)闡述這三個模塊的具體設(shè)計。
構(gòu)建學(xué)習(xí)資源本體、語義化學(xué)習(xí)資源是進(jìn)行語義檢索的基礎(chǔ)。DraganGasevic認(rèn)為,學(xué)習(xí)資源是由學(xué)習(xí)資源元數(shù)據(jù)和學(xué)習(xí)資源內(nèi)容構(gòu)成,[5]因此將學(xué)習(xí)資源元數(shù)據(jù)標(biāo)準(zhǔn)IEEELOM[6]與具體學(xué)科的領(lǐng)域本體結(jié)合,即可形成某一具體學(xué)科的學(xué)習(xí)資源本體。然而,如果僅利用LOM標(biāo)準(zhǔn)構(gòu)建學(xué)習(xí)資源本體則面臨一個問題——無法對多媒體學(xué)習(xí)資源進(jìn)行基于內(nèi)容的檢索,例如學(xué)習(xí)者搜索主要顏色為“綠色”的圖片素材,僅依靠IEEELOM就無法描述。
因此,本文采用兩種元數(shù)據(jù)標(biāo)準(zhǔn)構(gòu)建多媒體學(xué)習(xí)資源本體,即多媒體元數(shù)據(jù)標(biāo)準(zhǔn)MPEG-7[7]和學(xué)習(xí)對象元數(shù)據(jù)標(biāo)準(zhǔn)IEEELOM。利用MPEG-7標(biāo)準(zhǔn)中的TextAnnotation對多媒體學(xué)習(xí)資源進(jìn)行內(nèi)容的關(guān)鍵字標(biāo)注,即可將圖片顏色、關(guān)鍵視頻、音調(diào)等多媒體特征以關(guān)鍵字的形式存儲于本體中,從而實(shí)現(xiàn)基于內(nèi)容的查詢。
本模塊(見圖1)的具體設(shè)計分為下列幾部分:
(1)構(gòu)建本體
由于MPEG-7基于XML而非RDF,因此就需通過XSD2OWL將MPEG-7標(biāo)準(zhǔn)的XMLSchema轉(zhuǎn)換成本體,這樣就能與其它本體集成,以增強(qiáng)其互操作性。[8]本文中將MPEG-7本體與LOM本體融合構(gòu)成一個“多媒體學(xué)習(xí)資源本體”。[9]
(2)元數(shù)據(jù)生成
對于多媒體學(xué)習(xí)資源,用戶需要通過各種元數(shù)據(jù)提取工具、元數(shù)據(jù)編輯工具等分別生成符合LOM標(biāo)準(zhǔn)、MPEG-7標(biāo)準(zhǔn)的XML格式的元數(shù)據(jù)。用戶可以使用LOMEditor[10]生成支持LOM標(biāo)準(zhǔn)的元數(shù)據(jù),但由于LOMEditor生成的元數(shù)據(jù)不支持MPEG-7,因此必須通過一些支持MPEG-7的多媒體標(biāo)注工具來實(shí)現(xiàn)元數(shù)據(jù)的生成。例如,使用Caliph[11]、Mpeg-7AudioDB[12]等工具就能將JPEG圖片、音頻中的元數(shù)據(jù)提取并轉(zhuǎn)換成符合MPEG-7標(biāo)準(zhǔn)的RDF輸出。
(3)元數(shù)據(jù)集成
將上一步驟生成的兩種元數(shù)據(jù)通過“元數(shù)據(jù)集成器”集成,“元數(shù)據(jù)集成器”利用一系列自定義的映射規(guī)則將不同的XMLSchema集成。
(4)本體實(shí)例化
需要通過XML2RDF將XML格式的元數(shù)據(jù)實(shí)例轉(zhuǎn)換為RDF格式,并以三元組的形式存儲于關(guān)系數(shù)據(jù)庫中,另外在數(shù)據(jù)庫中設(shè)計資源引用表,用于存儲學(xué)習(xí)資源與其對應(yīng)元數(shù)據(jù)的鏈接。
(5)元數(shù)據(jù)存儲
將元數(shù)據(jù)以三元組的形式存儲于關(guān)系數(shù)據(jù)庫中供混合查詢引擎查詢。為提高系統(tǒng)性能,將多媒體學(xué)習(xí)資源與其元數(shù)據(jù)分別存儲,學(xué)習(xí)資源以鏈接的形式存于數(shù)據(jù)庫中,查詢時通過元數(shù)據(jù)表查詢匹配的資源,然后在資源引用表中找到多媒體資源的引用并查詢到真實(shí)的存儲位置。
例如,下列代碼就使用MPEG-7標(biāo)準(zhǔn)中的鏈接標(biāo)記MediaUri表示了一張JPG圖片的地址,該地址存放于數(shù)據(jù)庫的資源引用表中。
圖1 元數(shù)據(jù)集成與本體融合模塊
該模塊是實(shí)現(xiàn)多源、異構(gòu)學(xué)習(xí)資源查詢的核心,通過在用戶接口處將查詢分解以支持幾種不同方式的查詢。主要流程如下:
(1)查詢解析
查詢在用戶接口處被解析成不同的組件,包括關(guān)鍵字匹配查詢、元數(shù)據(jù)查詢、基于關(guān)鍵字?jǐn)U展的語義查詢以及基于內(nèi)容關(guān)鍵字的查詢。
(2)關(guān)鍵字匹配查詢
利用映射把語義查詢轉(zhuǎn)換為SQL查詢,將SQL語句分配到遺留關(guān)系數(shù)據(jù)庫上查詢。
(3)元數(shù)據(jù)查詢
使用SPARQL語句,在存儲于關(guān)系數(shù)據(jù)庫中的元數(shù)據(jù)三元組上進(jìn)行查詢。
(4)基于關(guān)鍵字?jǐn)U展的語義查詢
將“新”的學(xué)習(xí)資源本體化后以三元組的形式存儲于數(shù)據(jù)庫中,使用SPARQL進(jìn)行查詢——對接口處獲取的查詢請求,查詢轉(zhuǎn)換器按照多媒體學(xué)習(xí)資源本體把查詢請求轉(zhuǎn)換成規(guī)定的格式,在本體的幫助下從元數(shù)據(jù)庫中匹配出符合條件的數(shù)據(jù)集合,將檢索結(jié)果按本體論概念表現(xiàn)形式呈現(xiàn)給用戶,供用戶選擇并查看。
(5)基于內(nèi)容關(guān)鍵字的查詢
首先將多媒體學(xué)習(xí)資源進(jìn)行“內(nèi)容標(biāo)注”,即人為地將能表示該資源內(nèi)容的關(guān)鍵字以標(biāo)注的形式嵌入資源文檔中,查詢時以查詢關(guān)鍵字去匹配內(nèi)容關(guān)鍵字而得到結(jié)果。
例如,下面的代碼是采用MPEG-7標(biāo)準(zhǔn)描述的一幅圖片,其中使用TextAnnotation標(biāo)注了圖片的內(nèi)容,并將圖片分成幾個子結(jié)構(gòu)fflt;Whoffgt;、fflt;WhatObjectffgt;等,便于對圖片進(jìn)行基于內(nèi)容的檢索。
(6)混合查詢的結(jié)果合并、排序和顯示
本系統(tǒng)為支持使用不同學(xué)習(xí)終端設(shè)備(例如平板電腦、智能手機(jī)等移動設(shè)備)的用戶,采用XML文件保存查詢結(jié)果,通過系統(tǒng)與用戶終端交互獲得終端的型號等特征信息,再經(jīng)過XSLT轉(zhuǎn)換成特定終端類型的標(biāo)記語言并顯示查詢結(jié)果,界面具有良好的自適應(yīng)性。
根據(jù)學(xué)習(xí)資源的來源,系統(tǒng)提供兩種不同的資源對外開放方式:
(1)移動Agent方式
對于“新”的學(xué)習(xí)資源,由于這部分資源已標(biāo)準(zhǔn)化、語義化,共享性和可重用性很高,因此采用傳統(tǒng)的分布式搜索技術(shù)與移動Agent技術(shù)進(jìn)行集成,通過移動Agent將用戶提交的查詢動態(tài)地送往參與互操作的數(shù)字資源庫服務(wù)器端執(zhí)行,外部Agent可以搜索到資源并根據(jù)其元數(shù)據(jù)“理解”學(xué)習(xí)資源,從而方便地引用學(xué)習(xí)資源。這種方式可以大大減輕網(wǎng)絡(luò)負(fù)載,消除網(wǎng)絡(luò)延遲。
(2)關(guān)聯(lián)數(shù)據(jù)(Linked Data)方式
由Tim Berners Lee提出的關(guān)聯(lián)數(shù)據(jù),給網(wǎng)絡(luò)信息資源集成提供了一種有效的解決方案。[13]關(guān)聯(lián)數(shù)據(jù)采用RDF數(shù)據(jù)模型,利用URI命名數(shù)據(jù)實(shí)體,來發(fā)布和部署實(shí)例數(shù)據(jù)及其他各類數(shù)據(jù),從而可以通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時強(qiáng)調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián)系以及有益于人機(jī)理解的語境信息。
本系統(tǒng)采用Bizer C等人提到的方法,利用D2R[14]工具將存儲于關(guān)系型數(shù)據(jù)庫中的“舊”資源發(fā)布為關(guān)聯(lián)數(shù)據(jù)。D2R主要包括D2R Server,D2RQ Engine以及D2RQ Mapping語言。D2RQ Engine使用一個可定制的D2RQ Mapping文件將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)映射成虛擬的RDF格式。這樣,外部Agent在訪問關(guān)系型數(shù)據(jù)時將RDF數(shù)據(jù)的查詢語言SPARQL轉(zhuǎn)換為SQL,并將SQL查詢結(jié)果轉(zhuǎn)換為RDF三元組形式的查詢結(jié)果。
在本文中,將語義網(wǎng)技術(shù)應(yīng)用于建設(shè)高校的學(xué)習(xí)資源中心,實(shí)現(xiàn)了學(xué)習(xí)資源在語義層面上的互聯(lián),為學(xué)習(xí)資源庫提供了統(tǒng)一的查詢接口,既方便了新舊資源的檢索,也對外提供了便捷的共享方式。該方案能完善地解決目前面臨的遺留資源問題,也為實(shí)現(xiàn)高校之間甚至更大范圍內(nèi)的優(yōu)質(zhì)數(shù)字教育資源的共建共享提供了一種可行途徑。
[1]楊娟,韓錫斌,何良春.構(gòu)建大學(xué)網(wǎng)絡(luò)教學(xué)資源中心[J].中國遠(yuǎn)程教育,2005(12):52-53.
[2]Berners-Lee T,Hendler J,Lassila O.The semantic web[J].Scientific American,2001,284(5):28-37.
[3]位傳海,范太華.基于本體的學(xué)習(xí)資源語義檢索系統(tǒng)研究與設(shè)計[J].電化教育研究,2012(2):70-74.
[4]李勇,張志剛.基于本體語義檢索技術(shù)研究[J].計算機(jī)工程與科學(xué),2008(4):17-19.
[5]Ga?evi c'D,Hatala M.Ontology mappings to improve learning resourcesearch[J].British JournalofEducational Technology,2006,37(3):375-389.
[6]IEEE LTSC,IEEE Standard for Learning Object M etadata.[EB/OL].http://ltsc.ieee.org/wg12/par1484-12-1.htm l.
[7]MPEG-7[EB/OL].http://mpeg.chiariglione.org/standards/mpeg-7/mpeg-7.htm,2012-12-31.
[8]GarcíaR,Celmaò.Semanticintegrationand retrieval ofmultimediametadata[C].5th InternationalW orkshop on Know ledgeMarkup and Semantic Annotation.2005:69-80.
[9]Choe H.Interoperability between MPEG-7 and LOM using Ontology[J].Asian JournalofComputer Science and Information Technology,2012,2(11).
[10]Sarasa A,Piquer J,Arriola R,et al.LOMEditor:Composition and Classification of Learning Objects[M].Computersand Education.SpringerLondon,2008:241-249.
[11]Lux M.Caliphffamp;Em ir:MPEG-7 photo annotation and retrieval[C].Proceedingsof the17th ACM international conference on Multimedia.ACM,2009:925-926.
[12]G.Tummarello,C.M orbidoni,F.Piazza,MPEG-7 Audio Db[DB/OL].http://www.sourceforge.net/projects/mpeg7audiodb.
[13]T.Berners-Lee,"Linked Data",In TED 2009 Conference,Long Beach,CA.USA,February 2009[DB/OL].http://www.w3.org/2009/Talks/0204-ted-tbl/#(1),2011-1-13.
[14]Bizer C,Cyganiak R.D2r server-publishing relational databaseson the semantic web[C].5th international Semantic W eb conference,2006:26.