段湘寧
(葫蘆島市發(fā)展改革委信息中心 125000)
信息技術(shù)快速發(fā)展的當(dāng)下,信息數(shù)據(jù)的數(shù)量和范圍愈加龐大,對于相關(guān)信息數(shù)據(jù)和圖像等的標(biāo)注和處理直接影響信息搜索的全面性和準(zhǔn)確性同時也會影響圖像自動標(biāo)注系統(tǒng)的使用效果等。在計算機(jī)數(shù)據(jù)庫和視覺研究的推動下,圖像標(biāo)注檢索技術(shù)成為計算機(jī)互聯(lián)網(wǎng)技術(shù)研究的重點(diǎn)之一。PASCALpj等技術(shù)在計算機(jī)視覺研究領(lǐng)域已經(jīng)得到了廣泛應(yīng)用。通過圖像和文字的關(guān)聯(lián)性、圖像之間的關(guān)系以及文本之間的關(guān)系等實現(xiàn)對圖像的有效標(biāo)注,并在該種標(biāo)注實現(xiàn)的基礎(chǔ)上使用統(tǒng)計等方式設(shè)計實現(xiàn)對圖像的自動標(biāo)注。
在網(wǎng)頁關(guān)聯(lián)性特征下的文本標(biāo)注的方法,通常是利用互聯(lián)網(wǎng)的圖像在特定的語言或者數(shù)據(jù)信息環(huán)境中的相關(guān)特征,利用圖像和語言內(nèi)容相關(guān)的文本信息的關(guān)系實現(xiàn)對互聯(lián)網(wǎng)圖像的語義信息或者文本信息的自動標(biāo)注。
對于圖像自動標(biāo)注的實現(xiàn),是在網(wǎng)頁關(guān)聯(lián)性的基礎(chǔ)上充分利用圖像所傳達(dá)的內(nèi)容與文字的相關(guān)性,通過信息的匹配及相關(guān)的技術(shù)和標(biāo)注系統(tǒng)和設(shè)計實現(xiàn)對圖像信息的自動標(biāo)注從而實現(xiàn)對數(shù)據(jù)信息的搜索,提高搜索的速度和效率。
利用圖像實現(xiàn)檢索產(chǎn)生于上個世紀(jì)的70年代中期,產(chǎn)生之初采用的主要檢索技術(shù)是基于文本信息的圖像檢索,即把圖像作為數(shù)據(jù)庫中儲存的檢索對象,通過關(guān)鍵字或者自由的文本對儲存于其中的圖像進(jìn)行描述來實現(xiàn)檢索。這種圖像檢索技術(shù)的查詢操作是在對儲存與數(shù)據(jù)庫中的圖像描述的基礎(chǔ)上實現(xiàn)一種精確的匹配或者一種概率性的匹配,有些系統(tǒng)為了實現(xiàn)該種圖像檢索功能還設(shè)有詞典支持。圖像檢索系統(tǒng)的有效運(yùn)作,圖像的數(shù)據(jù)模型、多維索引和查詢的評價等都是在這種數(shù)據(jù)系統(tǒng)的框架下來實現(xiàn)。
當(dāng)下的互聯(lián)網(wǎng)圖像的語義自動標(biāo)注的方式是把所有相關(guān)的關(guān)聯(lián)文本視為整體,或者根據(jù)既有的知識或者啟發(fā)思維預(yù)先估設(shè)既定的語義分布模型和數(shù)據(jù)庫,在此基礎(chǔ)上實現(xiàn)圖像的標(biāo)注。但現(xiàn)有的圖像標(biāo)注技術(shù)大多是在訓(xùn)練集的基礎(chǔ)上實現(xiàn)基于內(nèi)容的圖像的自動標(biāo)注的方式。這種標(biāo)注方式的特點(diǎn)是將訓(xùn)練集作為其圖像信息標(biāo)注的基礎(chǔ),因此,訓(xùn)練集中缺少相關(guān)關(guān)鍵字符時即使圖像的標(biāo)注信息恰當(dāng)無誤其標(biāo)注的結(jié)果也會缺少該關(guān)鍵字符從而無法實現(xiàn)對圖像的有效準(zhǔn)確的標(biāo)注。訓(xùn)練集的數(shù)據(jù)預(yù)先設(shè)定儲存,不可避免的存在數(shù)據(jù)的有限性和收據(jù)時效性的問題,因此數(shù)據(jù)信息無法及時有效的更新和擴(kuò)大會對圖像信息的標(biāo)注產(chǎn)生直接的影響?;诰W(wǎng)頁關(guān)聯(lián)性特征的文本的標(biāo)注方式是限于目標(biāo)圖片位于單一的網(wǎng)頁文本中時并且要利用圖像和文本的關(guān)聯(lián)性假設(shè)來實現(xiàn)圖像的標(biāo)注和檢索,因此,它所能利用的文本信息是極其有限的也會受到當(dāng)前網(wǎng)頁文本信息的一些影響,從而直接影響圖像的標(biāo)注信息的準(zhǔn)確性最終影響檢索的結(jié)果和效率。
就互聯(lián)網(wǎng)圖像的相關(guān)性特征而言具體體現(xiàn)為,圖像名稱對于圖像所具有的特定的提示意義、與圖像所在的HTML的頁面所表達(dá)主題的一致性、圖像所指向連接地名稱或者頁面的主體內(nèi)容與圖像內(nèi)容的對應(yīng)性等、圖像與其上下文環(huán)境下的關(guān)聯(lián)性和密切性以及圖像所出現(xiàn)的位置和次數(shù)的特征等都在一定程度上起到了提示該圖像的功能,所有這些都為我們改進(jìn)圖像自動標(biāo)注系統(tǒng)提供了切入點(diǎn)和有效的利用方式和途徑。當(dāng)我們在改進(jìn)圖像自動標(biāo)注系統(tǒng)的過程中可以通過利用互聯(lián)網(wǎng)圖像信息采集方式的完善來實現(xiàn)系統(tǒng)自身的完善和發(fā)展,在圖像采集時可以根據(jù)互聯(lián)網(wǎng)的特點(diǎn)充分利用不同的圖像所傳達(dá)的文本信息,利用其體現(xiàn)出的關(guān)聯(lián)性特征有區(qū)別的使用圖像采集和標(biāo)注技術(shù),實現(xiàn)對信息的擇優(yōu)選擇。這種有針對性的區(qū)別標(biāo)注在充分利用互聯(lián)網(wǎng)自動標(biāo)注系統(tǒng)的有利條件,能夠保證圖像標(biāo)注信息源的全面性,將網(wǎng)頁文檔中的圖像名稱、注釋及圖像周圍的文本、圖像URL等充分利用,提高了圖像標(biāo)注信息源的全面性。
在該系統(tǒng)中將圖像標(biāo)注作為核心內(nèi)容,該標(biāo)注的實現(xiàn)要提取各種圖像的關(guān)聯(lián)性特征,并且在現(xiàn)有自然語言技術(shù)和網(wǎng)頁分析技術(shù)的基礎(chǔ)上對提取的該種特征間的關(guān)聯(lián)性以及提取特征和圖像之間的關(guān)聯(lián)性進(jìn)行分析。該種標(biāo)注工作完成并將其應(yīng)用于互聯(lián)網(wǎng)信息檢索時,標(biāo)注的結(jié)果直接關(guān)系圖像檢索系統(tǒng)運(yùn)作的效果和功能。
該種檢索系統(tǒng)的設(shè)計由以下幾個方面共同完成。首先通過首先,通過輸入的URL抓取網(wǎng)頁,利用網(wǎng)頁分析器從網(wǎng)頁中抓取圖片文件,與此同時,分析網(wǎng)頁的DOM結(jié)構(gòu)與視覺結(jié)構(gòu),抽取網(wǎng)頁中與圖像相關(guān)的語義關(guān)聯(lián)特征,并存儲于數(shù)據(jù)庫中。其次,在網(wǎng)頁分析器獲得圖像語義特征的基礎(chǔ)上對圖像進(jìn)行相關(guān)的語義標(biāo)注。在完成該種語義標(biāo)注時應(yīng)該對關(guān)聯(lián)性特征所包含的各種信息進(jìn)行充分的篩選和過濾以剔除噪音信息等,最終為每一圖像生成對應(yīng)的標(biāo)注結(jié)果,并且為該種結(jié)果的輸出提供多種接口。
該系統(tǒng)架構(gòu)下的技術(shù)是將整個系統(tǒng)分為數(shù)據(jù)存儲層、數(shù)據(jù)處理層和數(shù)據(jù)表現(xiàn)層三個層次。具體而言,數(shù)據(jù)存儲層主要數(shù)據(jù)存儲層主要用于存儲網(wǎng)頁信息、圖像文件、圖像關(guān)聯(lián)信息及最終的圖像標(biāo)注結(jié)果。數(shù)據(jù)處理層主要處理存儲層中的圖像相關(guān)數(shù)據(jù),并為每符圖像生成圖像的語義標(biāo)注結(jié)果,它們通過數(shù)據(jù)庫訪問接口查詢、操作數(shù)據(jù)庫。數(shù)據(jù)處理層包括網(wǎng)頁分析器和圖像標(biāo)注生成器,通過對標(biāo)注圖像信息和數(shù)據(jù)的后臺處理和網(wǎng)頁相關(guān)內(nèi)容的分析實現(xiàn)對圖像信息的標(biāo)注。數(shù)據(jù)表現(xiàn)層即圖像信息標(biāo)注信息和數(shù)據(jù)的顯示,它主要用于顯示標(biāo)注過程中的相關(guān)信息和數(shù)據(jù),使得圖像標(biāo)注結(jié)果能夠以一種較好的方式呈現(xiàn)。三層結(jié)構(gòu)通過不同的分工和相互作用實現(xiàn)對圖像信息的準(zhǔn)確有效標(biāo)注并且一最佳的方式呈現(xiàn)給使用者。
在互聯(lián)網(wǎng)環(huán)境下,網(wǎng)頁文檔的成為互聯(lián)網(wǎng)圖像的外部信息源和載體,它本身包含了對圖像內(nèi)容等進(jìn)行描述的豐富的文本信息,也便是我們所說的圖像的關(guān)聯(lián)性特征?,F(xiàn)行網(wǎng)絡(luò)技術(shù)環(huán)境下的圖像搜索都是在互聯(lián)網(wǎng)圖像關(guān)聯(lián)性的基礎(chǔ)上通過對圖像關(guān)鍵字標(biāo)注的形式建立相關(guān)的信息索引來實現(xiàn)對特定目標(biāo)的搜索。但是該種凸顯檢索系統(tǒng)對互聯(lián)網(wǎng)圖像的關(guān)聯(lián)性特征的分析和利用不夠深入存在標(biāo)注信息不全面的問題,因而影響標(biāo)注詞的生成等。而對互聯(lián)網(wǎng)圖像關(guān)聯(lián)性信息采集的全面和準(zhǔn)確直接影響圖像標(biāo)注詞義的準(zhǔn)確性和全面性,所以在互聯(lián)網(wǎng)頁面分析器設(shè)計時便要將獲取網(wǎng)頁中符合一定條件的圖像文件作為其主要目標(biāo),同時該種頁面分析器還應(yīng)該能夠?qū)崿F(xiàn)對頁面結(jié)構(gòu)的充分分析,對于頁面中和互聯(lián)網(wǎng)圖像有關(guān)的信息能夠進(jìn)行深入的挖掘和分析,實現(xiàn)自動準(zhǔn)確的獲取互聯(lián)網(wǎng)圖像特征,并自動的完成相關(guān)數(shù)據(jù)的組織與處理,生成圖像標(biāo)注的數(shù)據(jù)源。
圖像關(guān)聯(lián)性特征采集的實現(xiàn),通過對頁面的預(yù)處理,依據(jù)規(guī)定的圖像處理規(guī)則來獲取相應(yīng)的圖像文件,并且從網(wǎng)頁中獲取相同類型的關(guān)聯(lián)信息,同時圍繞每個文件獲取具備一定特定的數(shù)據(jù)信息,并在獲取圖像所在頁面的文字信息,當(dāng)圖像是文字與連接的結(jié)合時獲取鏈接所指向的標(biāo)題和正文信息。為實現(xiàn)該種工作流程,通過對頁面處理器進(jìn)行不同的模塊分工,頁面預(yù)處理模塊實現(xiàn)對頁面圖像內(nèi)容的預(yù)處理,圖像上下文處理模塊則負(fù)責(zé)對圖像所在語言環(huán)境下的上下文信息的深入分析獲取相關(guān)的文本信息,網(wǎng)頁正文提取模塊實現(xiàn)對文本正文的提取,實現(xiàn)圖像標(biāo)注信息源保證圖像標(biāo)注信息的準(zhǔn)確和充分。
[1]歐萍.基于外部數(shù)據(jù)庫的圖像自動標(biāo)注改善模型分析[J].計算機(jī)光盤軟件與應(yīng)用,2012(06)
[2]俞建橙,曹冬林,李紹滋,林達(dá)真.基于互聯(lián)網(wǎng)搜索與反饋驗證的圖像自動標(biāo)注[J].計算機(jī)工程,2012,38(24)
[3]陳濤.基于網(wǎng)頁關(guān)聯(lián)特征的互聯(lián)網(wǎng)圖像自動標(biāo)注系統(tǒng)[J].[學(xué)位論文],2007