摘 要:Internet蘊(yùn)含了大量的教育資源,但因?yàn)槿狈π兄行У臋z索工具,造成了大量Web多媒體教育資源利用率低下的問題。本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)Web多媒體基礎(chǔ)教育資源的檢索系統(tǒng),用于搜索Internet上與基礎(chǔ)教育有關(guān)的多媒體教育資源,并按資源的格式存儲為不同的類型。
關(guān)鍵詞: 多媒體資源;搜索策略;PageRank
中圖分類號: G 434文獻(xiàn)標(biāo)識碼: A文章編號:1673-8454(2008)02-0070-04
隨著Internet的快速發(fā)展,Web中蘊(yùn)含了大量的多媒體教育資源。多媒體資源(包括圖像、聲音、視頻、動畫等)作為Web中信息存在的主要形式,對教育領(lǐng)域有著越來越重要的作用。Web多媒體資源以其信息的開放性、資源的豐富性、時(shí)間空間的靈活性、形式的新穎性成為教育資源的重要組成部分,同時(shí)對建構(gòu)主義學(xué)習(xí)環(huán)境的創(chuàng)建和學(xué)習(xí)者的學(xué)習(xí)具有非常重要的作用。但目前Web多媒體資源存在著資源分布不集中、學(xué)科界限模糊、存儲格式多種多樣、資源利用率低等問題。本文結(jié)合作者開發(fā)的主題搜索引擎系統(tǒng)的實(shí)際應(yīng)用,對搜索條件進(jìn)行限制,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)Web多媒體基礎(chǔ)教育資源檢索系統(tǒng)(EMS,Education Media Searching),介紹了如何檢索和獲取互聯(lián)網(wǎng)上的多媒體基礎(chǔ)教育資源。
一、多媒體資源
按照多媒體的類型可以將多媒體資源分為四大類:圖形/圖像類、音頻類、視頻類、動畫類。[1]這些多媒體資源在Internet上以各種形式嵌入到網(wǎng)頁當(dāng)中,以不同的表現(xiàn)形式反映教育信息,成為教育資源的重要組成部分。Web多媒體教育資源是指以多媒體形式在網(wǎng)頁上呈現(xiàn)的教育資源。在我國基礎(chǔ)教育指:幼兒教育、義務(wù)教育和普通高中教育。[2]通過分析國家基礎(chǔ)教育資源網(wǎng)(http://www.cbern.gov.cn),將四類多媒體資源按格式分類(見表1)。[3]
二、多媒體資源在網(wǎng)頁中的存在形式
多媒體資源在網(wǎng)頁中的存在形式不外乎兩種,一種是可以在線瀏覽的多媒體素材,即網(wǎng)頁嵌入式;另一種是需要通過下載獲得的多媒體素材,即超鏈接形式。[4]不同類型的多媒體素材在網(wǎng)頁中存在的方式也不同,統(tǒng)計(jì)結(jié)果見表2。
網(wǎng)頁作為信息的載體,格式有很多種,包括html, asp, php, jsp, xml等,但現(xiàn)在大多數(shù)采用超文本標(biāo)記語言(HTML)編寫,其內(nèi)部表現(xiàn)為由離散文本條與標(biāo)記組成的字符串序列。其中標(biāo)記控制瀏覽器如何顯示定義的信息、決定了嵌入的多媒體資源的類型以及呈現(xiàn)形式。
HTML文檔標(biāo)簽大致分為兩類:一類是傳輸數(shù)據(jù)的標(biāo)簽,如paragraph,table等,它們顯示W(wǎng)eb站點(diǎn)包含的信息;第二類是基礎(chǔ)結(jié)構(gòu)標(biāo)簽(infrastructuretags),這類標(biāo)簽指示瀏覽器如何從當(dāng)前頁面跳轉(zhuǎn)到其他頁面,常見的有<A>、<Area>和<Form>,這類標(biāo)簽需要提取。
由于最終要提取出包含多媒體素材(音頻、圖像、視頻和動畫)的頁面,因此還需要提取包含這些多媒體素材的標(biāo)簽。在Web頁面中,以超鏈接形式出現(xiàn)的多媒體素材包含在標(biāo)簽<A>中;嵌入到web頁面中的多媒體素材包含在標(biāo)簽<o(jì)bject>和<embed>中,除此之外還要提取標(biāo)簽<Base>和<Frame>;各標(biāo)簽的作用如表3。
通過HTML解析器的分析,可以將多媒體標(biāo)簽中的多媒體信息提取出來,同時(shí)獲取這些多媒的路徑(相對路徑或決定路徑)。通過分析多媒體的擴(kuò)展名,將多媒體按照不同的格式分到相應(yīng)的類別中,如:image.jpg 屬于圖形/圖像類、main.mov屬于視頻、bkpgztp.wmv屬于音頻、physic.swf屬于動畫。
三、多媒體教育資源檢索系統(tǒng)(EMS)的實(shí)現(xiàn)過程
筆者將主題搜索引擎系統(tǒng)進(jìn)行改進(jìn),設(shè)計(jì)并開發(fā)一個(gè)多媒體基礎(chǔ)教育資源系統(tǒng)(EMS),用于提取網(wǎng)頁中嵌入的與教育有關(guān)的多媒體資源。整個(gè)系統(tǒng)包括:搜索器、HTML解析器、素材分類器、存儲器。
EMS系統(tǒng)融合了網(wǎng)絡(luò)搜索引擎和多媒體教育資源網(wǎng)頁的識別與提取技術(shù)。用戶通過用戶界面向搜索引擎發(fā)號搜索指令,搜索引擎以種子網(wǎng)頁為起點(diǎn),根據(jù)寬度優(yōu)先的搜索策略,爬行種子網(wǎng)頁所鏈接的所有網(wǎng)頁;爬行過的網(wǎng)頁通過HTML解析器提取網(wǎng)頁中所嵌入的多媒體素材的路徑信息,同時(shí)獲取描述此網(wǎng)頁的相關(guān)文本。為了確定采集到的多媒體屬于教育資源的范疇,在素材分類器中,加入教育資源詞典,用于分析采集的多媒體資源與教育信息的相關(guān)度;相關(guān)度的計(jì)算主要采用關(guān)鍵詞加權(quán)求值方式進(jìn)行;對于相關(guān)度大于一定閾值的網(wǎng)頁,說明此網(wǎng)頁中嵌入的多媒體屬于教育資源,存儲器按照相關(guān)度的高低將多媒體路徑信息存儲到數(shù)據(jù)庫中。
四、Web多媒體教育資源檢索的關(guān)鍵技術(shù)
EMS系統(tǒng)獲取教學(xué)素材的來源是因特網(wǎng),搜索器(Spider)首先爬行因特網(wǎng)上大量網(wǎng)頁,然后分析網(wǎng)頁、提取多媒體素材、分析多媒體資源與教育資源的相關(guān)性、存儲相關(guān)多媒體教育資源的路徑信息。在這個(gè)系統(tǒng)的實(shí)現(xiàn)過程中,決定其性能的主要關(guān)鍵技術(shù)如下。
1.搜索器(Spider)搜索策略
搜索器(Spider)主要作用是發(fā)現(xiàn)并收集網(wǎng)絡(luò)資源。它通常從一個(gè)“種子集”(如用戶查詢種子鏈接或種子頁面)出發(fā),通過 HTTP 等網(wǎng)絡(luò)協(xié)議請求下載網(wǎng)絡(luò)資源,分析資源并提取鏈接,然后再以一定的搜索策略通過循環(huán)迭代的方式訪問網(wǎng)絡(luò)。Spider搜索策略直接決定了多媒體資源的召回率。
搜索策略需要考慮兩個(gè)因素:一方面,待搜索的網(wǎng)頁要盡可能多的包含多媒體素材;另一方面,此網(wǎng)頁嵌入的多媒體資源要盡可能屬于教育資源的范疇。
為了解決這個(gè)問題,首先“種子集”選擇比較權(quán)威的站點(diǎn),其次對搜索策略進(jìn)行改進(jìn)。EMS系統(tǒng)利用基于內(nèi)容分析和鏈接結(jié)構(gòu)相結(jié)合的主題搜索策略,既保證了搜索網(wǎng)頁與主題相關(guān)性,同時(shí)也解決了網(wǎng)頁搜索的權(quán)威性和覆蓋率的問題?;趦?nèi)容分析的搜索策略,是分析網(wǎng)頁相關(guān)文本和教育資源詞典的主題相關(guān)度。鏈接結(jié)構(gòu)分析策略,采用改進(jìn)的PageRank算法,[5]將網(wǎng)頁點(diǎn)擊的概率和網(wǎng)頁包含多媒體的數(shù)量信息加入PageRank算法計(jì)算過程中。改進(jìn)的PageRank算法如公式(1)。
PR(p)代表網(wǎng)頁p的PageRank值;PR(Ti)代表網(wǎng)頁Ti的PageRank值,其中網(wǎng)頁Ti指向網(wǎng)頁p;d為阻尼系數(shù),實(shí)際取值為0.85;P(Ti,p)為從頁面Ti,到達(dá)頁面p的概率,計(jì)算方法(略);N為已經(jīng)下載到待爬行隊(duì)列中,并與主題相關(guān)的網(wǎng)頁數(shù)量;n為鏈接到P網(wǎng)頁p的網(wǎng)頁數(shù)量。W(Ti)代表網(wǎng)頁Ti嵌入多媒體的數(shù)量。
2.關(guān)鍵詞集及權(quán)值的配置
關(guān)鍵詞集是指教育詞典中對某一教學(xué)主題所有可能出現(xiàn)詞語的集合。它們會引導(dǎo)搜索器按照一定順序搜索整個(gè)網(wǎng)絡(luò),使得搜索引擎可以在最短的時(shí)間里面檢索到課程相關(guān)的全面的信息。EMS系統(tǒng)中建立的教育詞典只是包含與基礎(chǔ)教育的關(guān)鍵詞集,其中詞條為17672條。每一個(gè)網(wǎng)頁其權(quán)值的確定要考慮三個(gè)方面。
網(wǎng)頁的URL地址翻譯后的文本內(nèi)容同關(guān)鍵詞集的相關(guān)度。網(wǎng)頁的URL地址一般是用英文或者拼音表示的,其URL的設(shè)定往往根據(jù)網(wǎng)頁內(nèi)容而確定,所以網(wǎng)頁的URL在一定程度上能代表一個(gè)網(wǎng)頁的內(nèi)容。采用機(jī)械匹配的算法翻譯網(wǎng)頁URL,其中翻譯詞典(172688條目)、拼音詞典(20775條目)。用①URLFanyi來表示網(wǎng)頁URL翻譯后的文本內(nèi)容。
網(wǎng)頁②<title>標(biāo)簽、③Metadata標(biāo)簽、④Anchor錨文本的文本內(nèi)容也能夠標(biāo)識此網(wǎng)頁的主題。<title>標(biāo)簽是對網(wǎng)頁主題的高度概括;Metadata 標(biāo)簽是對網(wǎng)頁內(nèi)容的關(guān)鍵詞描述;Anchor錨文本是父網(wǎng)頁鏈接到此網(wǎng)頁的文本鏈接。這些文本內(nèi)容在一定程度上能夠很好地表示出網(wǎng)頁的內(nèi)容。
對①②③④文本內(nèi)容進(jìn)行中文分詞,分詞方法采用MM(正向最大匹配)和RMM(逆向最大匹配)相結(jié)合的方法。對于詞典中未出現(xiàn)的詞串,將整個(gè)詞串看成專有名詞整體輸出。分詞后的文本字串⑤采用布爾模型判斷其與關(guān)鍵詞集的相關(guān)度。
網(wǎng)頁計(jì)算的PR值。PR值反應(yīng)的是在Web Community中某個(gè)網(wǎng)頁通過超鏈接分析確定的此網(wǎng)頁的重要程度。將網(wǎng)頁點(diǎn)擊的概率和網(wǎng)頁中包含多媒體的數(shù)量信息加入PageRank算法計(jì)算過程中??梢员WC搜索網(wǎng)頁的主題相關(guān)性,同時(shí)在一定程度上避免了網(wǎng)頁爬行的“主題漂移”現(xiàn)象。
基礎(chǔ)教育詞典中的關(guān)鍵詞集及權(quán)值,主要是根據(jù)專家和教育工作者的經(jīng)驗(yàn)來選取和設(shè)置,同時(shí)在保證不產(chǎn)生歧義的基礎(chǔ)上,采用通用語言對教學(xué)主題進(jìn)行描述并賦予不同的權(quán)值。從而保證教學(xué)資源的查全率。這種方法簡單,容易實(shí)現(xiàn)。以查尋初中物理有關(guān)電路的多媒體教育資源為例,其部分關(guān)鍵詞組及權(quán)值的配置如表4。
3.數(shù)據(jù)庫設(shè)計(jì)
系統(tǒng)采用兩個(gè)數(shù)據(jù)庫:InterLink 數(shù)據(jù)庫用于存儲網(wǎng)絡(luò)蜘蛛爬行過的網(wǎng)頁;Media數(shù)據(jù)庫用于存儲包含多媒體素材的網(wǎng)頁。由于本系統(tǒng)建立的目的下載多媒體素材,這里詳細(xì)介紹Media數(shù)據(jù)庫如表5。
主題:每一個(gè)資源都有一個(gè)主題,標(biāo)識了該資源的主體內(nèi)容與涉及領(lǐng)域。我們用嵌套多媒體素材的網(wǎng)頁內(nèi)容來表示此素材的主題內(nèi)容。如網(wǎng)頁的<title>標(biāo)簽文本內(nèi)容為:重力 教案,根據(jù)教育詞典中關(guān)鍵詞集匹配,此多媒體素材屬于“初中物理力學(xué)”的內(nèi)容。
格式:資源的格式,如bmp(圖片)、avi(動畫/視頻)、rmvb(視頻)、mp3(音頻)等。
網(wǎng)頁代碼:素材嵌入網(wǎng)頁的HTML代碼,在EMS系統(tǒng)中,不能將多媒體素材下載到本地磁盤中。EMS系統(tǒng)最后獲取的是與基礎(chǔ)教育有關(guān)、并且包含多媒體素材的網(wǎng)頁。多媒體素材的下載,由本實(shí)驗(yàn)室開發(fā)的MultiMediaSearchAndAnalysis(Web多媒體搜索分析系統(tǒng))完成。
五、實(shí)驗(yàn)結(jié)果
本系統(tǒng)運(yùn)行環(huán)境為: Windows XP操作系統(tǒng),PIII CPU,128M內(nèi)存,系統(tǒng)開啟10個(gè)線程。在此實(shí)驗(yàn)中人工選取20個(gè)基礎(chǔ)教育資源網(wǎng)作為種子網(wǎng)站,提取出這些網(wǎng)站的所有內(nèi)部網(wǎng)頁鏈接,并根據(jù)鏈接的后綴名把其中包含音頻、視頻、Flash動畫的網(wǎng)頁提出來(不包含圖形/圖像類),最后統(tǒng)計(jì)出音頻文件、視頻文件和Flash動畫的總數(shù),實(shí)驗(yàn)結(jié)果表6所示。
在本實(shí)驗(yàn)中,造成查全率較低的原因有以下幾點(diǎn)。
網(wǎng)頁大多以文本、圖像的形式出現(xiàn),包含多媒體(音頻、視頻、動畫)的網(wǎng)頁所占的比重比較小。
基礎(chǔ)教育詞典中關(guān)鍵詞集,還不能囊括基礎(chǔ)教育中某一主題的所有關(guān)鍵詞。
對于網(wǎng)頁中需要注冊以后才能訪問的多媒體教育資源,本系統(tǒng)無能為力。
六、結(jié)束語
本文詳細(xì)介紹了Web多媒體基礎(chǔ)教育資源檢索系統(tǒng)的設(shè)計(jì)方法及關(guān)鍵技術(shù)的實(shí)現(xiàn)。該系統(tǒng)能夠在浩瀚的Internet上搜索與基礎(chǔ)教育有關(guān)的多媒體資源,大大方便了學(xué)生和教育工作者有效利用網(wǎng)絡(luò)收集教育資源,對教育資源庫的建設(shè)也有著重要的作用。
參考文獻(xiàn):
[1]教育部.現(xiàn)代遠(yuǎn)程教育資源建設(shè)技術(shù)規(guī)范[S].http://sf.edude.net/henei/hbgcxy/peixun-/met/zcwj/guifan/xdycjy/,2005.12.10.
[3] 國家基礎(chǔ)教育資源網(wǎng).http://www.cbern.org.cn/index.jsp.
[4] 徐云燕,譚金波,孟祥增.基礎(chǔ)教育網(wǎng)絡(luò)多媒體資源現(xiàn)狀的調(diào)查研究[J].中國教育信息化,2007,(8).
[5]Page L,Brin S,Motwani R,et al.The pagerank citation ranking:Bringing order to the web[R].Standfrd Digital Libraries SIDL-W P-1999-0120,1999.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。