◆姜 雪
?
教學(xué)資源平臺中的圖像檢索策略研究
◆姜 雪
(東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院 吉林 130000)
為了解決教育資源平臺中海量圖片、視頻、Flash動畫等資源的檢索問題,本文提出一種結(jié)合Hadoop技術(shù)和基于內(nèi)容的圖像檢索技術(shù)的教學(xué)圖像檢索方法。利用MapReduce并行化編程模型,提取圖像顏色、紋理、形狀三種底層視覺特征,實(shí)現(xiàn)圖像資源的檢索。實(shí)驗(yàn)表明,使用多特征綜合描述圖像資源的效果優(yōu)于單一特征。在處理大規(guī)模圖像檢索時(shí),與單節(jié)點(diǎn)相比,集群環(huán)境能夠有效地減少特征提取和檢索的時(shí)間,提高檢索速度。
Hadoop;MapReduce;基于內(nèi)容圖像檢索技術(shù);教育圖像檢索;教育資源平臺
近年來,隨著網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的快速發(fā)展,其在教育領(lǐng)域的應(yīng)用逐步深入,成為了現(xiàn)代化教育發(fā)展的強(qiáng)大動力。教學(xué)資源平臺作為現(xiàn)代教育技術(shù)的重要組成部分,包含了多種類型的數(shù)字化資源,如文本、圖像、音頻、視頻等。其為廣大師生提供了知識獲取、交流的平臺,在教學(xué)過程中發(fā)揮著不可替代的作用。尤其是云計(jì)算技術(shù)的出現(xiàn),有效地解決了教學(xué)資源分配不均衡、難以共享、海量數(shù)據(jù)存儲以及數(shù)據(jù)安全等問題[1]?,F(xiàn)階段,教育資源平臺的推進(jìn)過程中還存在一些問題,尤其是海量資源的檢索問題。
目前,基于內(nèi)容的圖像技術(shù)是圖像、視頻檢索領(lǐng)域的主流方法。該技術(shù)根據(jù)媒體內(nèi)容提取信息,解決了基于文本的圖像檢索過程中人工標(biāo)引工作不充分、具有主觀性、費(fèi)時(shí)費(fèi)力等問題,被廣泛應(yīng)用于國防安全、醫(yī)學(xué)圖像管理、衛(wèi)星遙感圖像、地理信息系統(tǒng)、電子商務(wù)等領(lǐng)域[2]。
本文結(jié)合云計(jì)算平臺Hadoop的海量存儲能力和并行計(jì)算能力,探究基于內(nèi)容的圖像檢索技術(shù)在教育資源平臺建設(shè)中的應(yīng)用。旨在解決教育工作者使用資源平臺檢索圖像時(shí)面臨的問題。由于視頻中的每一幀都可以視為一張圖片,因此還可以通過提取視頻、Flash動畫中的關(guān)鍵幀信息形成圖像集合,與師生提供圖像信息進(jìn)行對比,實(shí)現(xiàn)視頻、動畫等資源的檢索[2]。
基于內(nèi)容的圖像檢索技術(shù)是20世紀(jì)90年代被研究者提出,解決了早期基于文本的圖像檢索技術(shù)(Text-Based Image Retrieval, TBIR)存在的需要人工標(biāo)注關(guān)鍵詞以及檢索精度受關(guān)鍵詞質(zhì)量影響等問題[3]。其基本思路是根據(jù)圖像本身的物理內(nèi)容,由計(jì)算機(jī)自動提取出視覺特征,形成描述圖像的特征空間;查詢圖像時(shí),通過特征空間進(jìn)行相似度計(jì)算,返回與檢索圖像在視覺內(nèi)容上最為相似的若干副圖像。面對日益增長的圖像數(shù)據(jù),CBIR技術(shù)區(qū)別于TBIR技術(shù),存在以下特點(diǎn)[4]:
(1)檢索以圖像底層特征為依據(jù)。通過分析、提取圖像的視覺特征。例如顏色、紋理、形狀等, 或?qū)⒍喾N特征進(jìn)行融合,形成表示圖像的綜合特征向量。
(2)以特征向量的相似度為度量準(zhǔn)則。CBIR系統(tǒng)的目標(biāo)是找出與查詢圖像視覺相似的圖像,并不要求準(zhǔn)確匹配。因此,即使用戶提供的查詢內(nèi)容本身是不準(zhǔn)確、不完全的,系統(tǒng)也能夠按照圖像間的相似性返回可能滿足要求的圖像集合。
(3)海量圖像數(shù)據(jù)的快速檢索。特征提取過程由計(jì)算機(jī)完成,替代了關(guān)鍵詞檢索的人工標(biāo)引工作,檢索結(jié)果不再受人工標(biāo)引主觀性的影響,檢索過程更高效,適應(yīng)性更強(qiáng)。
Hadoop是Apache軟件基金會旗下的一個(gè)開源分布式計(jì)算平臺[5],能夠?yàn)橛脩籼峁┛煽?、可擴(kuò)展的、高效、高容錯(cuò)性的分布式基礎(chǔ)架構(gòu),簡化了集群環(huán)境的搭建工作。其核心包括Hadoop分布式文件系統(tǒng)(HDFS)和MapReduce并行化編程模型,分別負(fù)責(zé)大規(guī)模數(shù)據(jù)存儲和處理的工作。
HDFS 是一個(gè)可以運(yùn)行在普通硬件集群上的分布式文件系統(tǒng),可存儲超大文件并使用流對文件進(jìn)行高速讀寫。該文件系統(tǒng)是一個(gè)主從結(jié)構(gòu),包含一個(gè)NameNode和多個(gè)DataNode。NameNode作為主服務(wù)器,是集群環(huán)境的調(diào)度中心,負(fù)責(zé)存放系統(tǒng)元數(shù)據(jù)以及處理客戶端讀寫訪問的工作。集群中的多個(gè)DataNode節(jié)點(diǎn)則用于存放文件數(shù)據(jù)。當(dāng)文件進(jìn)行存儲時(shí),文件會被分割成若干個(gè)數(shù)據(jù)塊,被存放在集群中的各個(gè)DataNode節(jié)點(diǎn),進(jìn)而保證了數(shù)據(jù)的高可用。
MapReduce是一個(gè)可用于大數(shù)據(jù)處理的分布式計(jì)算框架,主要用于解決海量離線數(shù)據(jù)的計(jì)算問題。其基本思想是“分而治之,迭代匯總”。把一個(gè)大的任務(wù)拆解成多個(gè)子任務(wù),并根據(jù)一定的分配策略將子任務(wù)分發(fā)到集群中的機(jī)器節(jié)點(diǎn)上運(yùn)行,結(jié)果返回后再進(jìn)行合并處理,從而實(shí)現(xiàn)Hadoop的并行任務(wù)處理功能。
教育部在《教育信息化十年發(fā)展規(guī)劃(2011-2020年)》中提出了建立國家教育云服務(wù)模式的目標(biāo)[6]:充分整合現(xiàn)有資源,采用云計(jì)算技術(shù),形成資源配置與服務(wù)的集約化發(fā)展途徑,構(gòu)建穩(wěn)定可靠、低成本的國家教育云服務(wù)模式。經(jīng)過幾年的不懈努力,目前全國、各省都已基本完成教學(xué)資源平臺的建設(shè)工作,真正實(shí)現(xiàn)了教育資源共建和共享。教育資源平臺在教學(xué)過程中也發(fā)揮著越來越重要的作用。在教育資源平臺的應(yīng)用中,還存在一些問題,如資源建設(shè)沒有遵循標(biāo)準(zhǔn)規(guī)范、資源審核、管理方面不健全等[7]。其中,隨著資源數(shù)量的飛速增長,如何在海量資源中快速準(zhǔn)確地檢索到所需的資源,成為了師生目前面臨的首要問題,也是教育資源平臺推進(jìn)過程中亟待解決的難題。
在國家教育資源公共服務(wù)平臺、國家精品課程資源網(wǎng)等建設(shè)較為完備的平臺中,圖像資源的檢索均使用基于文本的方式。通過資源名稱或關(guān)鍵詞與待查詢關(guān)鍵詞進(jìn)行精準(zhǔn)匹配,最終將包含資源關(guān)鍵詞的圖像集合進(jìn)行展示。該方法雖然技術(shù)成熟、應(yīng)用廣泛,但由于目前資源的命名沒有統(tǒng)一標(biāo)準(zhǔn),對于同一張圖像,尤其當(dāng)圖像中包含多個(gè)目標(biāo)時(shí),人們對圖像內(nèi)容的理解也不盡相同,導(dǎo)致一些相似資源無法被查詢。此外,有些資源平臺還提供了目錄樹形式管理資源。師生通過定位學(xué)年-學(xué)科-教材-章節(jié)的方式上傳或檢索資源,雖然在一定程度上解決了基于文本檢索不準(zhǔn)確、不全面的問題,但這種方式不但增加了教師管理資源的工作量,還阻斷了學(xué)科、章節(jié)之間資源的互通性,檢索常常無法滿足師生的需求。雖然基于內(nèi)容的圖像檢索技術(shù)還未能在教育資源平臺中發(fā)揮重要作用,但已有一些學(xué)者對此問題進(jìn)行研究探討,為CBIR技術(shù)在教育領(lǐng)域的應(yīng)用奠定了理論基礎(chǔ)。
柳青、魏春燕[8]從圖像的形狀特征出發(fā),使用Hu不變矩算法,設(shè)計(jì)了教育圖像檢索系統(tǒng)。針對蘋果、蝙蝠等5類較為簡單圖像進(jìn)行實(shí)驗(yàn),取得了較好的檢索效果。周勇[9]結(jié)合基于內(nèi)容圖像檢索技術(shù)的原理與特點(diǎn),探討該技術(shù)在教學(xué)資源庫中的應(yīng)用。針對基于文本標(biāo)引的圖像檢索方法更新慢,檢索結(jié)果不全面以及基于圖像底層特征檢索無法解決“語義鴻溝”的問題,提出了綜合文本標(biāo)引和圖像內(nèi)容的檢索方法。兩種檢索方法優(yōu)勢互補(bǔ),有效提高了檢索準(zhǔn)確率。韓立華,王學(xué)軍,王曉芬[10]使用分塊直方圖法,Gabor小波變換法,不變矩法描述了圖像顏色、紋理、形狀特征。使用多特征融合方法進(jìn)行圖像初次檢索,然后利用基于SVM的相關(guān)反饋技術(shù)進(jìn)行多次檢索。通過實(shí)驗(yàn)表明,與單一特征相比,多特征融合方法能夠更加準(zhǔn)確地描述圖像內(nèi)容,提高檢索效果。在此基礎(chǔ)上,相關(guān)反饋技術(shù)的加入使檢索更接近用戶的檢索意圖。該方法有效地提高了教育資源中圖像檢索的查準(zhǔn)率。
由此可見,目前基于內(nèi)容的圖像檢索技術(shù)在教育資源平臺的應(yīng)用仍然處于理論研究階段。隨著云計(jì)算技術(shù)的飛速發(fā)展以及其在教育領(lǐng)域的應(yīng)用逐步深入,教育資源快速增長,基于單一服務(wù)器節(jié)點(diǎn)的圖像檢索技術(shù)不再適用于海量數(shù)據(jù)的處理,無法應(yīng)用在當(dāng)今的教育資源平臺中。因此結(jié)合Hadoop和CBIR技術(shù)處理圖像資源是完善教育資源平臺檢索功能的新策略。
一個(gè)完善的CBIR系統(tǒng),需要包含特征提取、圖片檢索、用戶相關(guān)反饋三個(gè)重要模塊。由于圖像規(guī)模大,圖像特征向量維數(shù)高等原因,特征提取過程和圖像檢索過程計(jì)算量龐大,耗費(fèi)時(shí)間長,這也是圖像檢索效率低的一個(gè)重要原因。因此本文借助Hadoop平臺的并行化計(jì)算模型MapReduce,提出了可應(yīng)用于教育資源平臺的圖像檢索方案。結(jié)合Hadoop和CBIR的圖像檢索系統(tǒng)框架如圖1所示。
圖1 Hadoop和CBIR的圖像檢索系統(tǒng)框架
在特征提取階段,系統(tǒng)調(diào)用MapReduce作業(yè),將存儲于HDFS中的海量圖像資源進(jìn)行處理。分別提取顏色、紋理、形狀三種底層特征,形成表示圖像的特征向量和索引文件。在檢索階段,用戶提交待查詢圖片后,系統(tǒng)使用相同特征提取算法得到待查詢圖片的特征向量,調(diào)用MapReduce作業(yè)實(shí)現(xiàn)特征向量間相似度計(jì)算的并行化。
本文借助LIRe (Lucene Image Retrieval )[11]圖像檢索框架,使用顏色自相關(guān)圖算法、Tamura算法提取圖像的顏色,紋理特征。并且考慮到形狀特征與顏色、紋理特征相比,更接近于目標(biāo)的語義特征,在人們對圖像理解中起到重要作用。因此本文對LIRe框架進(jìn)行擴(kuò)展,使用Hu不變矩對圖像進(jìn)行形狀特征的提取。該算法提取的特征值在圖像的縮放、平移和旋轉(zhuǎn)的情況下具有不變性[12]。
為縮短圖像特征提取的時(shí)間,本文使用MapReduce并行編程模型將任務(wù)分發(fā)至集群中的各個(gè)節(jié)點(diǎn)運(yùn)行,實(shí)現(xiàn)了特征提取的并行化?;玖鞒倘缦拢?/p>
(1)將圖像上傳至分布式文件系統(tǒng)HDFS,使用圖像路徑作為圖像的唯一標(biāo)識imageId;
(2)在Map階段,讀取HDFS中的圖像作為Map函數(shù)的輸入。分別提取顏色、紋理、形狀的三種特征值,并將三種特征融合,形成綜合特征向量imageFeature,以
(3)在Reduce階段,收集所有圖像特征,建立索引文件;
(4)將索引文件存儲在HDFS中。
其中Map函數(shù)和Reduce函數(shù)的定義如圖2、3所示。
圖2 特征提取Map函數(shù)定義
圖3 特征提取Reduce函數(shù)定義
為縮短檢索時(shí)間,在檢索階段同樣基于MapReduce中 Map函數(shù)和 Reduce 函數(shù)實(shí)現(xiàn)檢索的并行化,具體流程如下:
(1)提交待查詢圖像到HDFS中,提取其綜合特征;
(2)Map 階段,比較待查詢圖像的綜合特征和索引文件中存儲的綜合特征,結(jié)合三種特征的權(quán)重,計(jì)算特征之間相似性。并以<相似度,imageId>的鍵值對形式輸出;
(3)Reduce 階段,對 Map 階段輸出結(jié)果進(jìn)行收集,按照相似度從高到底進(jìn)行排序,并將查詢結(jié)果寫入 HDFS;
(4)根據(jù)用戶需求,返回與待檢索圖像最為相似的前M幅圖像。
在該階段,本文使用加權(quán)的相似度計(jì)算方法。將顏色、紋理和形狀三種特征的相似度融合,形成綜合相似度計(jì)算公式:
Sim = wc*Simc+ wt*Simt+ ws*Sims(1)
公式(1)中,wC表示顏色特征相似性權(quán)重值,wt表示紋理特征相似性權(quán)重值,wS表示形狀特征相似性權(quán)重值,且wC+ wt+ wS= 1。
隨著教育圖像越來越豐富,人們很難界定哪種特征在描述教育圖像時(shí)最為合適。但通過多特征融合和加權(quán)相似度計(jì)算方法,師生就可以結(jié)合個(gè)人檢索需求和圖像特點(diǎn),可選擇地增大或降低某一特征對相似度的影響,檢索出更滿意的圖像。
實(shí)驗(yàn)使用的Hadoop集群環(huán)境由4臺計(jì)算機(jī)組成:一個(gè)master節(jié)點(diǎn),三個(gè)slave節(jié)點(diǎn)。集群運(yùn)行使用的Hadoop版本為2.7.0,JDK版本為1.8.0。計(jì)算機(jī)的硬件配置如下:雙核CPU,8GB內(nèi)存,200GB硬盤容量。
本文使用在檢索領(lǐng)域應(yīng)用最廣泛、有效的評價(jià)標(biāo)準(zhǔn):查準(zhǔn)率(P)和查全率(R),衡量系統(tǒng)檢索算法的性能。
其中,N表示檢索相關(guān)圖像個(gè)數(shù),M表示檢索結(jié)果總數(shù),S表示相關(guān)圖像總數(shù)。
此外,檢索耗時(shí)也是評價(jià)系統(tǒng)性能的重要指標(biāo)。一般來說,圖像的特征向量越復(fù)雜,檢索效果就越好,相應(yīng)的檢索時(shí)間就長。檢索時(shí)間和準(zhǔn)確率是相互制約的。因此本文通過查準(zhǔn)率和查全率衡量檢索的正確性,通過單節(jié)點(diǎn)和分布式環(huán)境下檢索時(shí)間的對比,驗(yàn)證并行化檢索的效果。
本文使用Corel 圖像庫作為測試數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。從中選取10類圖像,共1000幅進(jìn)行檢索正確性的檢驗(yàn)。在每一類圖像中隨機(jī)選取5張作為待檢索圖像進(jìn)行實(shí)驗(yàn),取最為相似的30張圖像作為檢索結(jié)果。計(jì)算5次檢索的平均查準(zhǔn)率和查全率,最終的實(shí)驗(yàn)結(jié)果如表1所示。
由實(shí)驗(yàn)數(shù)據(jù)可得,對于同類圖像,以單一特征進(jìn)行檢索時(shí),各個(gè)特征表現(xiàn)出的檢索效果不同。例如,對于建筑類圖像,顏色自相關(guān)圖算法的效果要明顯優(yōu)于Tamura算法。同時(shí),多特征融合的方法在選取適當(dāng)?shù)臋?quán)值分配情況下,在一定程度上提高了檢索的準(zhǔn)確率。因此在教學(xué)資源平臺中,使用單一特征提取算法進(jìn)行檢索是不能保證結(jié)果正確性的。而多特征融合的方法,用戶可依據(jù)自身對圖像的理解分配特征權(quán)值,檢索效果更佳。
此外,本實(shí)驗(yàn)使用了不同規(guī)模的數(shù)據(jù)集對系統(tǒng)性能進(jìn)行測試。將在單節(jié)點(diǎn)圖像檢索耗時(shí)與集群環(huán)境下的檢索耗時(shí)進(jìn)行對比,實(shí)驗(yàn)結(jié)果如圖4所示。
當(dāng)數(shù)據(jù)量較少時(shí),使用單節(jié)點(diǎn)進(jìn)行圖像檢索的速度要快于Hadoop集群環(huán)境中的檢索。其原因主要是Hadoop集群進(jìn)行任務(wù)分配調(diào)度工作需要耗費(fèi)一定時(shí)間。隨著數(shù)據(jù)量的增長,Hadoop集群的海量數(shù)據(jù)處理能力得以發(fā)揮,與單節(jié)點(diǎn)相比,檢索速度有明顯的提升。
本文結(jié)合Hadoop平臺和CBIR技術(shù),提出了一種適用于當(dāng)今教育資源平臺的圖像檢索方法。利用 Hadoop 的MapReduce模型將任務(wù)分配到集群的各個(gè)節(jié)點(diǎn)執(zhí)行,提取圖像顏色、紋理、形狀特征,進(jìn)行特征向量的相似度計(jì)算,最終將查詢結(jié)果記錄在HDFS中,并將圖像返給用戶。實(shí)驗(yàn)結(jié)果證明,該方法有效提高了海量圖像檢索的準(zhǔn)確性以及檢索效率。將其應(yīng)用于教學(xué)資源平臺中,能夠豐富云計(jì)算技術(shù)在教育領(lǐng)域的應(yīng)用,優(yōu)化平臺檢索功能,為師生提供更加便捷、完善的服務(wù)。
圖4 單機(jī)環(huán)境和集群環(huán)境檢索時(shí)間
[1]王鳳領(lǐng).云計(jì)算環(huán)境下的高校數(shù)字化教育資源共享模式研究[J].工業(yè)和信息化教育,2014.
[2]陸文婷.圖像檢索中的特征表示模型和多信息源融合方式的研究[D].北京: 北京郵電大學(xué),2012.
[3]徐曼,韋志輝.基于內(nèi)容的圖像檢索技術(shù)[J].計(jì)算機(jī)應(yīng)用, 2001.
[4]楊樹剛.基于內(nèi)容的圖像檢索算法的研究與實(shí)現(xiàn)[D].遼寧:大連交通大學(xué),2008.
[5]劉剛,侯賓,翟周偉.Hadoop開源云計(jì)算平臺[M].北京: 北京郵電大學(xué)出版社,2011.
[6]余勝泉.推進(jìn)技術(shù)與教育的雙向融合---《教育信息化十年發(fā)展規(guī)劃(2011-2020年)》解讀[J].中國電化教育,2012.
[7]楊光.教育資源平臺建設(shè)中存在的主要問題研究[J].求知導(dǎo)刊,2017.
[8]柳青,魏春燕.基于形狀的圖像檢索系統(tǒng)及其在教育中的應(yīng)用[J].中國現(xiàn)代教育裝備,2007.
[9]周勇,陳林海,黃水清.基于內(nèi)容圖像檢索技術(shù)在教學(xué)資源平臺中的應(yīng)用[J].現(xiàn)代教育技術(shù),2011.
[10]韓立華,王學(xué)軍,王曉芬.多特征融合及SVM相關(guān)反饋技術(shù)在教育資源圖像檢索中的應(yīng)用[J].河北科技大學(xué)學(xué)報(bào),2010.
[11]Lux M, Chatzichristofis S A. Lire: lucene image retrieval:an extensible java CBIR library[C]// ACM International Conference on Multimedia. ACM,2008.
[12]黃勇,王崇駿,王亮等.基于形狀不變矩的圖像檢索算法的研究[J].計(jì)算機(jī)應(yīng)用研究,2004.
[13]郭斌.對教學(xué)資源平臺建設(shè)的思考[J].寧夏教育科研,2011.
[14]朱為盛,王鵬.基于Hadoop云計(jì)算平臺的大規(guī)模圖像檢索方案[J].計(jì)算機(jī)應(yīng)用,2014.
[15]王梅,朱信忠,趙建民等.基于Hadoop的海量圖像檢索系統(tǒng)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013.
[16]譚臺哲, 向云鵬.Hadoop平臺下海量圖像處理實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2017.
[17]張永庫,李云峰,孫勁光.基于多特征融合的圖像檢索[J].計(jì)算機(jī)應(yīng)用,2015.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2018年6期