• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      圖像自動(dòng)標(biāo)注技術(shù)研究進(jìn)展

      2016-09-29 19:08:54劉夢迪陳燕俐陳蕾
      計(jì)算機(jī)應(yīng)用 2016年8期
      關(guān)鍵詞:圖像檢索

      劉夢迪 陳燕俐 陳蕾

      摘要:現(xiàn)有圖像自動(dòng)標(biāo)注技術(shù)算法可以大致劃分為基于語義的標(biāo)注算法、基于矩陣分解的標(biāo)注算法、基于概率的標(biāo)注算法以及基于圖學(xué)習(xí)的標(biāo)注算法等四大類。介紹了各類別中具有代表性的圖像自動(dòng)標(biāo)注算法,分析了這些算法的問題模型及其功能特點(diǎn),并歸納了圖像自動(dòng)標(biāo)注算法中主要的優(yōu)化求解方法及算法評價(jià)中常用的圖像數(shù)據(jù)集和性能評價(jià)指標(biāo)。最后,指出了圖像自動(dòng)標(biāo)注技術(shù)目前存在的主要問題,并且提出了這些問題的解決思路。分析結(jié)果表明,對于圖像自動(dòng)標(biāo)注技術(shù)的研究,可充分利用現(xiàn)有算法的優(yōu)勢互補(bǔ),或借助多學(xué)科交叉的優(yōu)勢,尋找更有效的算法。

      關(guān)鍵詞:圖像檢索;圖像自動(dòng)標(biāo)注;標(biāo)簽填補(bǔ);標(biāo)簽去噪;標(biāo)簽預(yù)測

      中圖分類號:TN911.73; TP391.413

      文獻(xiàn)標(biāo)志碼:A

      0引言

      隨著數(shù)碼技術(shù)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,出現(xiàn)了大量的社會化多媒體共享平臺,海量的圖像資源被用戶共享到這些平臺上,人類進(jìn)入了大數(shù)據(jù)時(shí)代。在如此大規(guī)模的圖像資源中,為了有效地管理和查詢所需資源,圖像檢索技術(shù)出現(xiàn)在人們的視線中,成為了計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn)之一。計(jì)算機(jī)領(lǐng)域的研究人員從不同角度對其進(jìn)行了大量研究。20世紀(jì)70年代末期,基于文本的圖像檢索(Text-Based Image Retrieval, TBIR)技術(shù)[1]作為最早的圖像檢索技術(shù)出現(xiàn)。TBIR的圖像標(biāo)簽需要手工標(biāo)注,面對圖像數(shù)據(jù)庫的增長,消耗大量人力和物力資源,不適用于圖像數(shù)量巨大的數(shù)據(jù)庫。不過當(dāng)時(shí)獲取圖像設(shè)備比較昂貴,圖像集數(shù)目比較小,早期的TBIR技術(shù)能夠滿足當(dāng)時(shí)的需求。

      20世紀(jì)90年代初,為了克服TBIR技術(shù)的缺陷,出現(xiàn)了基于內(nèi)容的圖像檢索(Content-Based Image Retrieval, CBIR)技術(shù)[2],CBIR可以自動(dòng)提取圖像視覺特性,不需要人工干預(yù),并且使用計(jì)算機(jī)自動(dòng)實(shí)現(xiàn)對顏色、形狀、紋理等低層視覺特征的提取和存儲。低層視覺特征主要是從顏色特征、紋理特征、形狀特征和空間關(guān)系特征這4方面[3]進(jìn)行特征提取。針對不同的應(yīng)用情況,CBIR可以采用任意不同的特征或特征組合來描述圖像的視覺內(nèi)容,但是,CBIR仍然存在一些問題:底層視覺特征多樣性使刻畫較強(qiáng)的視覺特征成為難題,而且在低層視覺特征和高層語義特征之間存在“語義鴻溝”的缺陷。

      進(jìn)入21世紀(jì)以來,互聯(lián)網(wǎng)技術(shù)發(fā)展迅速,網(wǎng)頁數(shù)量成倍增長,圖像資源成倍增加。TBIR技術(shù)的巨大工作量和CBIR技術(shù)的“語義鴻溝”對圖像檢索的影響逐漸變大,它們已經(jīng)不能很好地滿足用戶進(jìn)行圖像檢索的需求。于是,Kulkarni[4]從關(guān)聯(lián)性的思想出發(fā),提出了基于聯(lián)想的圖像檢索(Association-Based Image Retrieval, ABIR)技術(shù)。ABIR技術(shù)采用雙向聯(lián)想記憶模型來存儲圖像的關(guān)聯(lián)關(guān)系[5]。ABIR技術(shù)不夠成熟,不太適用于實(shí)際應(yīng)用。由于用戶習(xí)慣于使用標(biāo)簽進(jìn)行需求查詢,并且現(xiàn)有的互聯(lián)網(wǎng)搜索引擎大都是提供基于文本的圖像檢索;但是人工標(biāo)注的高代價(jià)、主觀性和不完整性影響了圖像標(biāo)注的精確性,使得圖像檢索的效率降低。為了解決這一問題,圖像自動(dòng)標(biāo)注(Automatic Image Annotation, AIA)技術(shù)逐漸發(fā)展起來,并成為了諸多研究者關(guān)注的熱點(diǎn)。AIA技術(shù)[6]可以利用已標(biāo)注的圖像集或其他可獲得的信息自動(dòng)學(xué)習(xí)語義概念空間與視覺特征空間的關(guān)系模型,并用此模型標(biāo)注未知語義的圖像;而且通過在圖像的高層語義特征和底層特征之間建立一種映射關(guān)系,它可以解決一定程度的“語義鴻溝”問題?;ヂ?lián)網(wǎng)圖像自動(dòng)標(biāo)注技術(shù)的難點(diǎn)主要集中在3方面:1)互聯(lián)網(wǎng)標(biāo)注者的復(fù)雜性。圖像標(biāo)簽的標(biāo)注者為互聯(lián)網(wǎng)用戶,他們來自不同的國家、擁有不同的文化背景和不同的性格特點(diǎn),這些差異導(dǎo)致圖像標(biāo)注因人而異,從而決定了圖像和標(biāo)簽之間的復(fù)雜對應(yīng)關(guān)系,增加了圖像標(biāo)注問題的復(fù)雜性。2)互聯(lián)網(wǎng)圖像標(biāo)簽的缺失性和多義性?;ヂ?lián)網(wǎng)用戶往往對圖像標(biāo)注不完整,這大大降低了圖像檢索的精確度。標(biāo)簽也具有一詞多義性和多詞一義性,導(dǎo)致標(biāo)簽語義的豐富性,從而進(jìn)一步加大了圖像標(biāo)注問題的難度。3)互聯(lián)網(wǎng)圖像視覺內(nèi)容的多樣性。不同的互聯(lián)網(wǎng)用戶因各種自身因素和外部因素的影響,使同一標(biāo)簽呈現(xiàn)出不同的圖像視覺內(nèi)容,這使得圖像和標(biāo)簽之間的對應(yīng)關(guān)系更加復(fù)雜。

      本文根據(jù)學(xué)習(xí)方法的不同,將現(xiàn)有算法劃分為基于語義的圖像自動(dòng)標(biāo)注算法、基于矩陣分解的圖像自動(dòng)標(biāo)注算法、基于概率的圖像自動(dòng)標(biāo)注算法以及基于圖學(xué)習(xí)的圖像自動(dòng)標(biāo)注算法等,并分別介紹了各類方法中代表性算法的問題模型及其功能特點(diǎn)。然后給出了圖像自動(dòng)標(biāo)注算法中主要的優(yōu)化求解方法及算法評價(jià)中常用的圖像數(shù)據(jù)集和性能評價(jià)指標(biāo),最后探討了自動(dòng)圖像標(biāo)注技術(shù)目前存在的主要問題及其解決思路。

      1圖像自動(dòng)標(biāo)注問題模型

      假設(shè)I={xi∈Ri=1,2,…,n}表示圖像集合,其中n表示圖像數(shù)目?!蕒0,1}n×m是一個(gè)二值矩陣,表示用戶所提供的初始圖像標(biāo)簽矩陣,如果標(biāo)簽tj標(biāo)注圖像xi,則ij=1,否則為0。T∈Rn×m表示最終修正的圖像標(biāo)簽矩陣,其中m表示圖像集中標(biāo)簽的數(shù)量。V∈Rn×d表示圖像特征矩陣,其中d表示圖像集中特征的數(shù)量。R∈Rm×m表示圖像標(biāo)簽之間語義相似度組成的矩陣,Rij≥0表示標(biāo)簽ti和標(biāo)簽tj之間的語義相似度。S∈Rn×n表示圖像間的視覺相似度組成的矩陣,Sij≥0表示圖像xi和圖像xj之間的視覺相似度。 μ、α、 β和ρ都是可調(diào)參數(shù)。

      1.1基于語義的圖像自動(dòng)標(biāo)注模型

      基于語義的圖像自動(dòng)標(biāo)注,可以利用WordNet[7]的結(jié)構(gòu)化語義信息衡量詞匯之間的關(guān)系,從而更好地選擇適合圖像內(nèi)容的語義詞匯,以及去除冗余的語義詞。

      Jin等[8]提出了一種基于WordNet的圖像自動(dòng)標(biāo)注算法(WordNet Model, WNM)。該算法根據(jù)基于翻譯模型(Translation Model, TM)的方法得到每幅圖像的候選標(biāo)注詞匯,并使用多種基于WordNet的語義度量計(jì)算每個(gè)詞匯與其他所有詞匯之間的語義相關(guān)度,然后根據(jù)標(biāo)注結(jié)果之間的語義一致性來確定最終標(biāo)注結(jié)果。Lee等[9]通過考慮標(biāo)簽分類和標(biāo)簽間的關(guān)聯(lián)性提出了一種模塊化標(biāo)簽修正算法(Modular Approach towards Tag Refinement, TR-MA),該算法先利用WordNet語義詞典技術(shù)依據(jù)標(biāo)簽的性質(zhì)將標(biāo)簽分為“where”“when”“who”“what”和“how”五大類,然后根據(jù)不同性質(zhì)的標(biāo)簽使用不同標(biāo)簽修正方法的思想,對“what”類利用近鄰?fù)镀辈呗杂?jì)算標(biāo)簽之間的關(guān)聯(lián)性,從而區(qū)別出與圖像不相關(guān)標(biāo)簽并找到相關(guān)標(biāo)簽。Liu等[10]提出一種圖像重標(biāo)記方案(Image Retagging, IRetagging),該方案先利用WordNet設(shè)計(jì)有效的視覺辭典過濾掉與視覺內(nèi)容無關(guān)的標(biāo)簽,再利用設(shè)計(jì)的優(yōu)化算法對標(biāo)簽修正,然后利用WordNet的詞匯樹結(jié)構(gòu)得到每個(gè)標(biāo)簽的同義詞和上位詞對其進(jìn)行擴(kuò)充,從而實(shí)現(xiàn)標(biāo)簽的填補(bǔ)與去噪,得到高質(zhì)量圖像標(biāo)簽的集合。標(biāo)簽修正問題建模如式(1)所示:

      其中:θ是數(shù)值收縮因子,用來解決Tjl和jl的不同數(shù)值尺度問題。式(1)中加號前一項(xiàng)保證視覺相似性和語義相似性之間的一致性;加號后一項(xiàng)保證用戶提供的標(biāo)簽有較高的正確性。

      1.2基于矩陣分解的圖像自動(dòng)標(biāo)注模型

      基于矩陣分解的圖像自動(dòng)標(biāo)注的本質(zhì)是利用低秩性恢復(fù)圖像與標(biāo)簽之間的對應(yīng)關(guān)系。Liu等[11]提出一種基于上下文數(shù)據(jù)分解的標(biāo)簽修復(fù)算法(Label Completion by pursuing Contextual Decomposability, LC-CD),該算法考慮了標(biāo)簽內(nèi)部的共性以及差異性、標(biāo)簽之間的差異性、特征和標(biāo)簽之間的一致性以及已標(biāo)注標(biāo)簽的一致性四方面,將標(biāo)簽修正問題轉(zhuǎn)化為非負(fù)數(shù)據(jù)矩陣分解問題進(jìn)行求解,而且它不需要顯式的圖像分解,只需將全局的圖像表達(dá)分解為局部的標(biāo)簽表達(dá)(每個(gè)標(biāo)簽對應(yīng)一部分圖像區(qū)域),并充分利用了人工標(biāo)注信息和多種上下文信息參與分解過程,最終自動(dòng)完成圖像中未標(biāo)注標(biāo)簽的修正。Zhu等[12]提出一種同時(shí)考慮修正的圖像標(biāo)簽矩陣低秩性和噪聲矩陣稀疏性的圖像標(biāo)簽修正算法(Low Rank-Error Sparsity-Content Consistency-Tag Correlation, LR-ES-CC-TC),該算法將圖像標(biāo)簽矩陣分解成低秩矩陣和噪聲稀疏矩陣之和,并利用圖像間語義和視覺特征一致性的約束條件優(yōu)化圖像和標(biāo)簽之間的對應(yīng)關(guān)系,從而完成圖像標(biāo)簽的修正。問題建模如式(2)所示:

      Xia等[13]提出一種正則化優(yōu)化算法(Tag Completion based on Nonnegative Matrix Factorization, TC-NMF),該算法同時(shí)考慮了標(biāo)簽間的語義相關(guān)性和圖像的整體視覺相似性,使用非負(fù)矩陣分解算法找到標(biāo)簽間的相關(guān)關(guān)系來實(shí)現(xiàn)標(biāo)簽的去噪,然后根據(jù)圖像整體視覺離散度(圖像在特征空間中與其類均值的平均距離)加強(qiáng)圖像和標(biāo)簽之間的關(guān)系,得到修正的圖像標(biāo)注結(jié)果。問題建模如式(3)所示:

      其中:H∈Rr×n表示維度為r的潛在低秩空間;W∈Rm×r表示T投影到H上的系數(shù)。V=[vT1;vT2;…;vTn]表示n個(gè)圖像視覺特征向量組成的矩陣;U=[uTi;uTi;…;uTi]表示第i個(gè)標(biāo)簽的視覺特征均值向量的擴(kuò)展矩陣;Tci=[TiTi…Ti]表示權(quán)重系數(shù)矩陣;“·”表示矩陣的點(diǎn)乘運(yùn)算。式(3)中函數(shù)前兩項(xiàng)保證在潛在低秩空間中噪聲標(biāo)簽的消除,從而保證在原有空間中標(biāo)簽與圖像對應(yīng)關(guān)系的準(zhǔn)確性;后兩項(xiàng)的正則化項(xiàng)用來限制優(yōu)化框架的復(fù)雜度。

      Li等[14]提出了一種具有雙重建結(jié)構(gòu)的低秩分解算法(Low-Rank Factorization with Dual Reconstruction Structure, LRF-DRS),該算法同時(shí)考慮了圖像標(biāo)簽矩陣低秩性和噪聲矩陣稀疏性,并通過稀疏編碼將其中的修正標(biāo)注矩陣分解為基矩陣和稀疏系數(shù)矩陣,然后根據(jù)線性重構(gòu)思想分別在壓縮的低維特征空間和標(biāo)簽空間進(jìn)行局部線性重建,從而得到修正的圖像標(biāo)簽矩陣。問題建模如式(4)所示:

      其中:X和Y分別表示在特征空間或標(biāo)簽空間下的局部線性重建系數(shù)矩陣;B∈Rn×k和D∈Rk×m分別表示最終修正的圖像標(biāo)簽矩陣T分解的基矩陣和稀疏系數(shù)矩陣,其中B·i為基矩陣的第i個(gè)列向量。記基矩陣的每個(gè)列向量為一個(gè)基向量,對應(yīng)一個(gè)特定標(biāo)簽;記系數(shù)矩陣的每個(gè)列向量對應(yīng)一幅圖像屬于不同標(biāo)簽的概率,即置信度向量。

      1.3基于概率的圖像自動(dòng)標(biāo)注模型

      基于概率的圖像自動(dòng)標(biāo)注是通過概率統(tǒng)計(jì)分析圖像特征和圖像標(biāo)簽之間的共生概率關(guān)系,并以此進(jìn)行圖像的語義標(biāo)注。Xu等[15]提出一種基于主題模型的標(biāo)簽修正(Tag Refinement using Topic Model, TR-TM)算法,該算法先利用正則化潛在狄利克雷分布(regularized Latent Dirichlet Allocation, rLDA)[16]圖模型以一種迭代的方式聯(lián)合評估標(biāo)簽相似性和標(biāo)簽關(guān)聯(lián)性,然后使用k近鄰算法得到相關(guān)度較高的標(biāo)簽,實(shí)現(xiàn)圖像標(biāo)簽修正。Liu等[17]提出一種基于隨機(jī)游走的標(biāo)簽排序(Tag Ranking based on Random Walk, RWTR)進(jìn)行標(biāo)簽修正,該算法先用一種概率的方法估計(jì)初始圖像標(biāo)簽相關(guān)度;然后在描述標(biāo)簽間關(guān)系的標(biāo)簽圖中進(jìn)行隨機(jī)游走傳播標(biāo)簽之間的相關(guān)度;最后根據(jù)相關(guān)度得分進(jìn)行標(biāo)簽排序,保留得分高的標(biāo)簽并移除得分低的標(biāo)簽。

      Lee等[18]提出一種使用概率估計(jì)方法的標(biāo)簽修正算法(Tag Refinement in an Image Folksonomy, TRIF),該算法先利用k近鄰算法尋找一定相似圖像構(gòu)建每幅圖像的視覺分類(Visual Folksonomy),然后在該圖像的視覺分類中統(tǒng)計(jì)標(biāo)簽的分布規(guī)律和共現(xiàn)關(guān)系,利用統(tǒng)計(jì)信息推導(dǎo)出圖像和標(biāo)簽之間的概率關(guān)系,并根據(jù)它們的概率與設(shè)定閾值之間的關(guān)系來清理與圖像內(nèi)容無關(guān)的標(biāo)簽。Xia等[19]提出一種基于雙層聚類標(biāo)簽優(yōu)化算法(Tag Refinement based on Bi-Layer Clustering, TR-BLC)。該算法先根據(jù)使用歸一化Google距離度量的標(biāo)簽間相關(guān)性將圖像集合分組,再通過使用稀疏近鄰傳播(Affinity Propagation, AP)聚類算法[20]將融合視覺相似性和語義相似性的相似圖像分為更小的分組,然后對每一組圖像使用共現(xiàn)頻率和標(biāo)簽間的相關(guān)性建立標(biāo)簽與圖像子集的概率關(guān)系,最后利用改進(jìn)的Fisher準(zhǔn)則判斷出與圖像內(nèi)容無關(guān)的標(biāo)簽,完成圖像標(biāo)簽的修正。該算法增強(qiáng)了低頻出現(xiàn)的正確標(biāo)簽與圖像的相關(guān)度,從而提高了圖像標(biāo)簽的去噪能力。

      1.4基于圖學(xué)習(xí)的圖像自動(dòng)標(biāo)注模型

      基于圖學(xué)習(xí)的圖像自動(dòng)標(biāo)注屬于半監(jiān)督學(xué)習(xí)算法,即已知標(biāo)注的訓(xùn)練數(shù)據(jù)和未知標(biāo)注的測試數(shù)據(jù)一起參加圖學(xué)習(xí)的算法。盧漢清等[21]提出一種基于圖學(xué)習(xí)的圖像標(biāo)注(Image Annotation based on Graph Learning, IA-GL)算法。該算法同時(shí)考慮了圖像間視覺一致性和語義一致性,它利用圖像間視覺相似性構(gòu)建以圖像為節(jié)點(diǎn)的圖,完成圖像間視覺相似性在已標(biāo)注圖像到未知標(biāo)注圖像的傳播,然后利用標(biāo)注間語義關(guān)聯(lián)性構(gòu)建以詞為節(jié)點(diǎn)的圖完成圖像標(biāo)注的修正,得到最終標(biāo)注結(jié)果。Liu等[22]提出一種基于圖學(xué)習(xí)模型的圖像標(biāo)注(Two-phrases Graph Learning Model, TGLM)算法,該算法利用最近鄰生成鏈(Nearest Spanning Chain, NSC)方法構(gòu)建基于圖像的圖模型,然后和文獻(xiàn)[21]中算法一樣使用兩個(gè)步驟進(jìn)行連續(xù)學(xué)習(xí),即基于圖像的圖學(xué)習(xí)獲得初始圖像標(biāo)注和基于詞匯的圖學(xué)習(xí)獲得圖像最終標(biāo)注結(jié)果。

      Liu等[23]對文獻(xiàn)[17]進(jìn)行改進(jìn),融入標(biāo)簽間的相互關(guān)系,并利用圖學(xué)習(xí)的思想提出一種基于協(xié)同標(biāo)記傳播的標(biāo)簽修正(Tag Refinement based on Collaborative Tag Propagation, TR-CTP)算法。該算法將協(xié)同圖像標(biāo)簽修正問題轉(zhuǎn)化為圖正則化優(yōu)化問題,它先利用特定標(biāo)簽圖像與特定標(biāo)簽的視覺詞匯表建立相對于某一特定標(biāo)簽的圖像相互關(guān)系,然后在多個(gè)特定標(biāo)簽圖之間以協(xié)同的方式傳播進(jìn)行圖像標(biāo)簽修正,進(jìn)一步提高圖像標(biāo)簽的質(zhì)量。問題建模如式(5)所示:

      Feng等[24]提出一種噪聲矩陣恢復(fù)(Tag Completion by Matrix Recovery, TCMR)算法。該算法從一個(gè)未知的圖像標(biāo)簽矩陣中選取觀察標(biāo)簽樣本,并引入圖拉普拉斯統(tǒng)計(jì)圖像特征和標(biāo)簽之間的依賴性,從而得到修正的圖像標(biāo)簽矩陣,它同時(shí)實(shí)現(xiàn)了標(biāo)簽的填補(bǔ)和去噪。問題建模如式(6)所示:

      1.5其他圖像自動(dòng)標(biāo)注模型

      Lin等[25]提出了一種線性稀疏重建(Linear Sparse Reconstructions, LSR)方案。該方案同時(shí)考慮了圖像間相似性、圖像標(biāo)簽間關(guān)聯(lián)性和標(biāo)簽間共現(xiàn)性,并在稀疏性的制約下分別對初始圖像標(biāo)簽矩陣進(jìn)行特定圖像和特定標(biāo)簽線性稀疏重建,然后根據(jù)加權(quán)線性合并策略將得到的兩個(gè)圖像標(biāo)簽矩陣進(jìn)行合并,得到最終修正的圖像標(biāo)注結(jié)果。LSR算法可以進(jìn)行已部分標(biāo)注圖像的補(bǔ)全(直推式方法)和未知標(biāo)注圖像的補(bǔ)全(歸納方法)。之后Lin等[26]又提出了一種提高效率的雙視圖LSR(Dual-view LSR, DLSR)方案。該方案在重建圖像視圖時(shí)引入重建圖像時(shí)的加權(quán)向量和初始標(biāo)記向量之間的差異來增加視覺上相似的圖像,并對得到的兩項(xiàng)重構(gòu)標(biāo)記結(jié)果進(jìn)行有效的標(biāo)準(zhǔn)化和合并,得到最終圖像標(biāo)注結(jié)果。這兩種方案均使用圖像間的視覺相似性和語義相似性重建圖像,使用標(biāo)簽間共現(xiàn)性重建標(biāo)簽,它們均可以被用來預(yù)測缺失的相關(guān)標(biāo)簽,從而填補(bǔ)圖像的標(biāo)簽。

      Wang等[27]提出一種針對圖像標(biāo)簽補(bǔ)全和預(yù)測的哈希(Hashing codes for Tag Completion and Prediction, HashTCP)算法,該算法利用漢明距離對所有觀測圖像和標(biāo)簽構(gòu)建緊湊的哈希編碼,把標(biāo)簽或圖像相似性問題轉(zhuǎn)化為哈希編碼相似性問題進(jìn)行求解,實(shí)現(xiàn)對觀測圖像缺失標(biāo)簽的補(bǔ)全及對新加入圖像的標(biāo)簽預(yù)測。問題建模如式(7)所示:

      Wu等[28]提出了一種標(biāo)簽矩陣補(bǔ)全(Tag Matrix Completion, TMC)算法,該算法同時(shí)考慮圖像間視覺相似性和標(biāo)簽間關(guān)聯(lián)性,并在稀疏性的制約下,通過最小化每幅圖像的標(biāo)簽與圖像視覺內(nèi)容之間的差異進(jìn)行標(biāo)簽的補(bǔ)全。問題建模如式(8)所示:

      Znaidia等[29]提出一種基于近鄰?fù)镀焙虰elief理論[30]的標(biāo)簽補(bǔ)全(Tag Completion based on Belief Theory and Neighbor Voting, TC-BT-NV)算法,該算法先利用k近鄰算法獲取指定圖像的近鄰,然后根據(jù)Belief理論[30]進(jìn)行近鄰?fù)镀保A魳?biāo)簽列表中與該圖像相關(guān)的標(biāo)簽并預(yù)測出更相關(guān)的標(biāo)簽,完成標(biāo)簽的補(bǔ)全。

      除此之外,最近幾年深度學(xué)習(xí)算法作為解決“語義鴻溝”問題的有效方法,逐步被應(yīng)用到圖像領(lǐng)域中。2012年,Krizhevsky等[31]提出一種深層次卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)結(jié)構(gòu),該結(jié)構(gòu)通過使用修正線性單元(Rectified Linear Unit, ReLU)引入非線性、多圖形處理器(Graphics Processing Unit, GPU)訓(xùn)練、局部相應(yīng)正則化及重疊池提高模型訓(xùn)練速度,其在ImageNet評測上取得巨大突破,將結(jié)果錯(cuò)誤率從26%降低到15%。Ciresan等[32]提出一種用于圖像分類的多列深度神經(jīng)網(wǎng)絡(luò)(Multi-column Deep Neural Network, MCDNN)結(jié)構(gòu),該結(jié)構(gòu)先利用GPU對分為多塊的輸入圖像中每塊訓(xùn)練多個(gè)深神經(jīng)列,然后平均所有獨(dú)立DNN輸出得到結(jié)果。Srivastava等[33]提出一種基于深度信念網(wǎng)絡(luò)(Deep Belief Network, DBN)模型的算法,該算法通過探索多模深度信念網(wǎng)絡(luò)來學(xué)習(xí)圖像標(biāo)注中的表示,并通過融合含有共享隱藏表示的多個(gè)數(shù)據(jù)源來完成圖像檢索。Feng等[34]提出一種用于跨模式檢索的通信受限玻爾茲曼機(jī)(Correspondence Restricted Boltzmann Machine, Corr-RBM)結(jié)構(gòu),該結(jié)構(gòu)先將文本和圖像輸入投影到同一表示空間中,然后利用距離度量對待查詢文本或圖像和所有候選圖像或文本之間的相似性進(jìn)行排序,得到最終結(jié)果。楊陽等[35]提出一種深度學(xué)習(xí)的圖像自動(dòng)標(biāo)注算法(Image Auto-annotation based on Deep Learning, IA-DL),該算法先根據(jù)深度神經(jīng)元網(wǎng)絡(luò)構(gòu)建一個(gè)圖像自動(dòng)標(biāo)注專用模型,并利用圖像標(biāo)簽的詞頻信息改進(jìn)深度學(xué)習(xí)模型的監(jiān)督信息,得到基本圖像標(biāo)注結(jié)果,然后利用標(biāo)記詞匯的共生關(guān)系與詞頻先驗(yàn)知識來改善已得到的圖像標(biāo)注結(jié)果。

      1.6各圖像自動(dòng)標(biāo)注模型的對比

      各圖像自動(dòng)標(biāo)注模型的功能特點(diǎn)如表1所示,其中:標(biāo)簽填補(bǔ)指對已部分標(biāo)注圖像進(jìn)行缺失標(biāo)簽補(bǔ)全;標(biāo)簽去噪指去除與圖像對應(yīng)關(guān)系有錯(cuò)誤的標(biāo)簽,即那些無法描述圖像視覺內(nèi)容的標(biāo)簽;標(biāo)簽預(yù)測指對無標(biāo)注圖像進(jìn)行自動(dòng)標(biāo)注。

      2圖像自動(dòng)標(biāo)注問題求解

      分析現(xiàn)有圖像自動(dòng)標(biāo)注問題的求解算法的設(shè)計(jì)技巧不難發(fā)現(xiàn),目前面向圖像自動(dòng)標(biāo)注問題求解的優(yōu)化算法以一階算法居多,具有代表性算法包括:坐標(biāo)下降(Coordinate Descent, CD)算法、梯度下降(Gradient Descent, GD)算法、次梯度下降(Subgradient Descent, SD)算法、加速近鄰梯度(Accelerated Proximal Gradient, APG)算法、交替方向乘子(Alternating Direction Method of Multipliers, ADMM)法等。

      坐標(biāo)下降算法、梯度下降算法、次梯度下降算法和加速近鄰梯度算法求解的優(yōu)化問題均為典型的無約束優(yōu)化問題:

      坐標(biāo)下降算法具有如下特點(diǎn):1)如果函數(shù)是凸光滑的,那么算法保證收斂;2)如果函數(shù)是非光滑的,那么算法不一定收斂;3)如果非光滑部分是可分離的,那么算法也能保證收斂,如

      3圖像自動(dòng)標(biāo)注算法評價(jià)

      3.1常用圖像數(shù)據(jù)集

      為了進(jìn)行算法的性能分析,不同類型的圖像數(shù)據(jù)集被公布出來,這有效降低了研究者的工作難度,使得算法性能分析更易進(jìn)行。常用的圖像數(shù)據(jù)集有COREL數(shù)據(jù)集、LabelMe數(shù)據(jù)集、MSRC數(shù)據(jù)集、MIRFlickr數(shù)據(jù)集、NUS-WIDE數(shù)據(jù)集和IAPR TC-12數(shù)據(jù)集等。表2從圖像數(shù)據(jù)集大小、標(biāo)注類型等幾個(gè)方面進(jìn)行對比。

      COREL數(shù)據(jù)集[36]是由商業(yè)公司COREL發(fā)布的圖像數(shù)據(jù)集。為了適應(yīng)不同的需求,從原始的大量圖像中抽取部分圖像,分別組成了COREL5K(含有5000幅圖像)和COREL30K(含有30000幅圖像)。本數(shù)據(jù)集中圖像的標(biāo)注信息是人工提供的且都是基于整幅圖像的,而且給出的標(biāo)注信息有具體的對象類別、場景、地點(diǎn)等。

      LabelMe數(shù)據(jù)集[37]是由麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室發(fā)布的,主要用來為圖像自動(dòng)標(biāo)注算法提供訓(xùn)練和測試數(shù)據(jù)集。該數(shù)據(jù)集由眾多志愿者進(jìn)行標(biāo)注,并獲得了較為完整的標(biāo)注結(jié)果。LabelMe數(shù)據(jù)集共有4053幅圖像和65017個(gè)對象,分為訓(xùn)練圖像數(shù)據(jù)集(包括2920幅,其中若干圖像標(biāo)注不完整)和測試圖像數(shù)據(jù)集(包括1133幅圖像,這些圖像的標(biāo)注較為完整)。

      MSRC數(shù)據(jù)集[38]是由微軟劍橋研究院發(fā)布的,主要是用來為自動(dòng)對象分割和對象識別算法提供訓(xùn)練和測試數(shù)據(jù)集。為了能為對象分割算法提供支持,該數(shù)據(jù)集中所有圖像都是使用像素級別(Pixel-Wise Level)的人工標(biāo)注信息,即每個(gè)像素點(diǎn)都標(biāo)注了對應(yīng)的對象類別。該數(shù)據(jù)集共發(fā)布了兩個(gè)版本:第一個(gè)版本中包含240幅圖像和9個(gè)對象;第二個(gè)版本中包含591幅圖像和23個(gè)對象,其中有21個(gè)對象比較常用。

      MIRFlickr數(shù)據(jù)集[39]是由荷蘭萊頓大學(xué)LIACS媒體實(shí)驗(yàn)室提供的數(shù)據(jù)庫。該數(shù)據(jù)集中的圖像標(biāo)注信息由人工提供并含有30個(gè)標(biāo)簽,它比較適合于圖像檢索的評價(jià)。在選用該數(shù)據(jù)集時(shí),經(jīng)常選用兩種大小的圖像子集,分別為MIRFlickr25K和MIRFlickr1M。

      NUS-WIDE數(shù)據(jù)集[40]是由新加坡國立大學(xué)的LMS媒體搜索實(shí)驗(yàn)提供的數(shù)據(jù)庫。該數(shù)據(jù)集也是通過收集Flickr圖像而構(gòu)建的大規(guī)模圖像數(shù)據(jù)集。該數(shù)據(jù)集是利用人工進(jìn)行大量的圖像標(biāo)注的,并且提供了81個(gè)標(biāo)簽的圖像標(biāo)注結(jié)果。除此之外,該數(shù)據(jù)集還提供了基于數(shù)據(jù)集圖像的視覺特征,如144維的顏色特征、尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)特征等6種低水平的視覺特征。

      IAPR TC-12數(shù)據(jù)集[41]是由國際模式識別協(xié)會(the International Association for Pattern Recognition, IAPR)TC-12技術(shù)委員會負(fù)責(zé)創(chuàng)建的圖像數(shù)據(jù)集。原始的IAPR TC-12數(shù)據(jù)集包含20000幅自然圖像,這些圖像的內(nèi)容涵蓋了運(yùn)動(dòng)、人物、動(dòng)物、景觀和當(dāng)代生活中很多方面內(nèi)容。該數(shù)據(jù)集最初用作跨語言圖像檢索的測試平臺,其中圖像的初始文本信息是由英語、德語和西班牙語三種語言給定的自由文本語句。為了使IAPR TC-12數(shù)據(jù)集適合于圖像標(biāo)注研究,MAKADIA對原始的數(shù)據(jù)集進(jìn)行改進(jìn),僅保留了英語語言的自由文本描述,并通過自然語言處理技術(shù)從中抽取自由文本中的名詞詞匯作為標(biāo)簽;同時(shí)剔除了兩類圖像,包括灰度圖像和超低頻詞匯關(guān)聯(lián)的圖像[42]。改進(jìn)后的IAPR TC-12數(shù)據(jù)集包括19805幅圖像,分為訓(xùn)練圖像數(shù)據(jù)集(包括17825幅圖像)和測試圖像數(shù)據(jù)集(包括1980幅圖像)。整個(gè)圖像集包括291個(gè)標(biāo)注詞匯,每幅圖像平均包括4.7個(gè)詞匯。

      上述幾種圖像數(shù)據(jù)集各有特色,可以適應(yīng)于不同的應(yīng)用場景。從表2中可以看出,規(guī)模最大的MIRFlickr圖像數(shù)據(jù)集已經(jīng)達(dá)到百萬級別,但是提供的標(biāo)注類別數(shù)并不多。由此可以看出,數(shù)目越大的圖像集越難以提供較豐富的標(biāo)注信息。而像COREL數(shù)據(jù)集這些較小的數(shù)據(jù)集花費(fèi)的標(biāo)注代價(jià)較小,并且能提供較完整的標(biāo)注信息,因此在現(xiàn)有絕大多數(shù)影響較大的標(biāo)注算法中常被用來評價(jià)算法性能。

      3.2算法性能評價(jià)指標(biāo)

      為了評價(jià)圖像自動(dòng)標(biāo)注算法的性能,需要一定的性能評價(jià)準(zhǔn)則。分析現(xiàn)有圖像自動(dòng)標(biāo)注算法的性能評價(jià)指標(biāo)不難發(fā)現(xiàn),目前常用的評價(jià)指標(biāo)有查準(zhǔn)率(Precision)、查全率(Recall)和F1-Score、P@N(Precision@N)、平均查準(zhǔn)率(Average Precision, AP)和平均查準(zhǔn)率的均值(Mean Average Precision, MAP)、AP@N(Average Precision@N)以及歸一化折扣累積增益(Normalized Discounted Cumulative Gain, NDCG)[43]等。

      1)查準(zhǔn)率、查全率和F1-Score。

      查準(zhǔn)率用來衡量標(biāo)簽查詢圖像的準(zhǔn)確度,查全率用來衡量標(biāo)簽查詢圖像的成功度。根據(jù)圖像和標(biāo)簽之間的關(guān)系,圖像標(biāo)注結(jié)果可以分為四種情況,如表3所示。

      4結(jié)語

      本文對現(xiàn)有圖像自動(dòng)標(biāo)注算法進(jìn)行了分析,包括算法的問題模型、問題求解方法以及算法評價(jià)中常用的圖像數(shù)據(jù)集和性能評價(jià)指標(biāo)等??v觀圖像自動(dòng)標(biāo)注的發(fā)展歷程,大都是根據(jù)人們對圖像檢索的需求,合理地在已有的算法的目標(biāo)函數(shù)基礎(chǔ)上進(jìn)行改進(jìn)或直接設(shè)計(jì)出新的算法,大致思想都是從圖像和標(biāo)簽之間的各種關(guān)系出發(fā),最小化圖像自動(dòng)標(biāo)注過程中產(chǎn)生的各種誤差等。

      盡管研究者們已經(jīng)提出了諸多圖像自動(dòng)標(biāo)注算法,并且這些算法在其各自的數(shù)據(jù)集上表現(xiàn)出了良好的性能,但它們?nèi)匀淮嬖谌缦虏蛔悖?/p>

      1)現(xiàn)有圖像標(biāo)注算法往往無法同時(shí)兼顧標(biāo)簽補(bǔ)全和標(biāo)簽預(yù)測,引入機(jī)器學(xué)習(xí)領(lǐng)域流行的遷移學(xué)習(xí)理論或許是一種不錯(cuò)的解決思路。

      2)現(xiàn)有圖像自動(dòng)標(biāo)注算法在圖像標(biāo)注較豐富(或缺失的標(biāo)簽較少)的情形下性能表現(xiàn)良好;但對于那些只有極少量圖像標(biāo)注的情形性能將急劇下降,已有部分學(xué)者開始考慮引入機(jī)器學(xué)習(xí)領(lǐng)域中的主動(dòng)學(xué)習(xí)技術(shù)來豐富部分圖像的標(biāo)簽,通過主動(dòng)地從用戶獲取知識來提高算法性能。

      3)現(xiàn)有圖像自動(dòng)標(biāo)注算法大多只利用了圖像標(biāo)簽矩陣的低秩性,沒有考慮圖像標(biāo)簽矩陣所固有的稀疏性,從而一定程度上影響了算法性能,在對圖像自動(dòng)標(biāo)注問題建模時(shí)如果能同時(shí)考慮圖像標(biāo)簽矩陣的稀疏性與低秩性應(yīng)該是一種不錯(cuò)的選擇。

      4)現(xiàn)有圖像自動(dòng)標(biāo)注技術(shù)處理的問題規(guī)模有限,無法滿足人們對大規(guī)模社交圖像進(jìn)行檢索的實(shí)際需求,為了適應(yīng)更大問題規(guī)模,可以將現(xiàn)有算法在并行環(huán)境下進(jìn)行拓展。在并行實(shí)現(xiàn)環(huán)境的選取上,源于加州伯克利大學(xué)的Spark是近年來大數(shù)據(jù)處理的新銳代表,已經(jīng)在批處理、流計(jì)算、機(jī)器學(xué)習(xí)、圖計(jì)算等一系列領(lǐng)域得到廣泛應(yīng)用,尤其適用于需要多次迭代計(jì)算的圖像自動(dòng)標(biāo)注算法,將極有可能成為圖像自動(dòng)標(biāo)注技術(shù)首選的并行實(shí)現(xiàn)平臺。

      參考文獻(xiàn):

      [1]DATTA R, JOSHI D, LI J, et al. Image retrieval: ideas, influ-ences, and trends of the new age [J]. ACM Computing Surveys, 2008, 40(2): Article No. 5.

      [2]SMEULDERS A W M, WORRING M, SANTINI S, et al. Content-based image retrieval at the end of the early years [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(12): 1349-1380.

      [3]DESELAERS T, KEYSERS D, NEY H. Features for image retrieval: an experimental comparison [J]. Information Retrieval, 2008, 11(2): 77-107.

      [4]KULKARNI A. Association-based image retrieval [C]// Proceedings of the 2010 42nd Southeastern Symposium on System Theory. Piscataway, NJ: IEEE, 2010: 30-34.

      [5]CHEN L, YANG G, ZHANG Y, et al. Asymptotically stable multi-valued many-to-many associative memory neural network and its application in image retrieval [J]. Neural Network World, 2013, 2(13): 169-189.

      [6]鮑泓,徐光美,馮松鶴,等.自動(dòng)圖像標(biāo)注技術(shù)研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2011,38(7):35-40.(BAO H, XU G M, FENG S H, et al. Advances in automatic image annotation [J]. Computer Science, 2011, 38(7): 35-40.)

      [7]MILLER G A. WordNet: a lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39-41.

      [8]JIN Y, KHAN L, WANG L, et al. Image annotations by combining multiple evidence & WordNet [C]// Proceedings of the 13th Annual ACM International Conference on Multimedia. New York: ACM, 2005: 706-715.

      [9]LEE S, DE NEVE W, RO Y M. Image tag refinement along the ‘what dimension using tag categorization and neighbor voting [C]// Proceedings of the 2010 IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE, 2010: 48-53.

      [10]LIU D, HUA X S, YANG L, et al. Tag ranking [C]// Proceedings of the 18th International Conference on World Wide Web. New York: ACM, 2009: 351-360.

      [11]LIU X, YAN S, CHUA T S, et al. Image label completion by pursuing contextual decomposability [J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2012, 8(2): Article No. 21.

      [12]ZHU G, YAN S, MA Y. Image tag refinement towards low-rank, content-tag prior and error sparsity [C]// Proceedings of the 2010 International Conference on Multimedia. New York: ACM, 2010: 461-470.

      [13]XIA Z, FENG X, PENG J, et al. A regularized optimization framework for tag completion and image retrieval [J]. Neurocomputing, 2015, 147: 500-508.

      [14]LI X, ZHANG Y J, SHEN B, et al. Image tag completion by low-rank factorization with dual reconstruction structure preserved [C]// Proceedings of the 2014 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2014: 3062-3066.

      [15]XU H, WANG J, HUA X S, et al. Tag refinement by regularized LDA [C]// Proceedings of the 17th ACM International Conference on Multimedia. New York: ACM, 2009: 573-576.

      [16]JORDAN M I, BLEI D M, NG A Y. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3: 465-473.

      [17]LIU D, HUA X S, WANG M, et al. Image retagging [C]// Proceedings of the 2010 International Conference on Multimedia. New York: ACM, 2010: 491-500.

      [18]LEE S, DE NEVE W, RO Y M. Tag refinement in an image folksonomy using visual similarity and tag co-occurrence statistics [J]. Signal Processing: Image Communication, 2010, 25(10): 761-773.

      [19]XIA Z, FENG X, PENG J, et al. Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation [J]. Journal of Signal Processing Systems, 2014, 81(1): 29-44.

      [20]FREY B J, DUECK D. Clustering by passing messages between data points [J]. Science, 2007, 315(5814): 972-976.

      [21]盧漢清,劉靜.基于圖學(xué)習(xí)的自動(dòng)圖像標(biāo)注[J].計(jì)算機(jī)學(xué)報(bào),2008,31(9):1629-1639.(LU H Q, LIU J. Image annotation based on graph learning [J]. Chinese Journal of Computers, 2008, 31(9): 1629-1639.)

      [22]LIU J, LI M, LIU Q, et al. Image annotation via graph learning [J]. Pattern Recognition, 2009, 42(2): 218-228.

      [23]LIU D, YAN S, HUA X S, et al. Image retagging using collaborative tag propagation [J]. IEEE Transactions on Multimedia, 2011, 13(4): 702-712.

      [24]FENG Z, FENG S, JIN R, et al. Image tag completion by noisy matrix recovery [M]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 424-438.

      [25]LIN Z, DING G, HU M, et al. Image tag completion via image-specific and tag-specific linear sparse reconstructions [C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 1618-1625.

      [26]LIN Z, DING G, HU M, et al. Image tag completion via dual-view linear sparse reconstructions [J]. Computer Vision and Image Understanding, 2014, 124: 42-60.

      [27]WANG Q, RUAN L, ZHANG Z, et al. Learning compact hashing codes for efficient tag completion and prediction [C]// Proceedings of the 22nd ACM International Conference on Conference on Information & Knowledge Management. New York: ACM, 2013: 1789-1794.

      [28]WU L, JIN R, JAIN A K. Tag completion for image retrieval [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3): 716-727.

      [29]ZNAIDIA A, LE BORGNE H, HUDELOT C. Tag completion based on belief theory and neighbor voting [C]// Proceedings of the 3rd ACM Conference on International Conference on Multimedia Retrieval. New York: ACM, 2013: 49-56.

      [30]SHAFER G. A Mathematical Theory of Evidence [M]. Princeton: Princeton University Press, 1976: 35-46.

      [31]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// NIPS 2012: Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2012: 1106-1114.

      [32]CIRESAN D, MEIER U, SCHMIDHUBER J. Multi-column deep neural networks for image classification [C]// Proceedings of the 25th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.

      [33]SRIVASTAVA N, SALAKHUTDINOV R. Learning representations for multimodal data with deep belief nets [C]// Proceedings of the 29th International Conference on Machine Learning Workshop. New York: ACM, 2012: 1-8.

      [34]FENG F X, LI R F, WANG X J. Deep correspondence restricted Boltzmann machine for cross-modal retrieval [J]. Neurocomputing, 2015, 154: 50-60.

      [35]楊陽,張文生.基于深度學(xué)習(xí)的圖像自動(dòng)標(biāo)注算法[J].數(shù)據(jù)采集與處理,2015,30(1):88-98.(YANG Y, ZHANG W S. Image auto-annotation based on deep learning [J]. Journal of Data Acquisition and Processing, 2015, 30(1):88-98.)

      [36]DUYGULU P, BARNARD K, DE FREITAS J F G, et al. Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary [C]// Proceedings of the 2002 European Conference on Computer Vision. Berlin: Springer, 2002: 97-112.

      [37]RUSSELL B C, TORRALBA A, MURPHY K P, et al. LabelMe: a database and Web-based tool for image annotation [J]. International Journal of Computer Vision, 2008, 77(1/2/3): 157-173.

      [38]SHOTTON J, WINN J, ROTHER C, et al. TextonBoost: joint appearance, shape and context modeling for multi-class object recognition and segmentation [C]// ECCV 2006: Proceedings of the 9th European Conference on Computer Vision. Berlin: Springer, 2006: 1-15.

      [39]HUISKES M J, LEW M S. The MIR flickr retrieval evaluation [C]// Proceedings of the 1st ACM International Conference on Multimedia Information Retrieval. New York: ACM, 2008: 39-43.

      [40]CHUA T S, TANG J, HONG R, et al. NUS-WIDE: a real-world Web image database from National University of Singapore [C]// Proceedings of the 2009 ACM International Conference on Image and Video Retrieval. New York: ACM, 2009: Article No. 48.

      [41]GRUBINGER M, CLOUGH P, MLLER H, et al. The IAPR TC-12 benchmark: a new evaluation resource for visual information systems [C]// Proceedings of the 2006 International Workshop OntoImage Language Resources for Content-Based Image Retrieval. Genoa, Italy: [s.n.], 2006: 13-23.

      http://tci.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi?o=dnclret&s=id=%22TCI0002281631%22.&searchmode=basic&tcihsspage=tcisearch_opt2_search

      http://xueshu.baidu.com/s?wd=paperuri%3A%28784279d707a6f51174a70106eeba4d1d%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Bjsessionid%3DDD0E61692B0CFF7C88205F77BDC515B1%3Fdoi%3D10.1.1.175.3994%26rep%3Drep1%26type%3Dpdf&ie=utf-8&sc_us=10831976905929293321

      [42]MAKADIA A, PAVLOVIC V, KUMAR S. Baselines for image annotation [J]. International Journal of Computer Vision, 2010, 90(1): 88-105.

      [43]JRVELIN K, KEKLINEN J. Cumulated gain-based evaluation of IR techniques [J]. ACM Transactions on Information Systems, 2002, 20(4): 422-44.

      猜你喜歡
      圖像檢索
      基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
      圖像特征在區(qū)域范圍內(nèi)提取方法的研究
      基于Hadoop平臺的圖像檢索模型
      基于顏色特征的行李箱檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      基于內(nèi)容的圖像檢索算法技術(shù)研究
      基于SIFT算法的二進(jìn)制圖像檢索技術(shù)研究
      基于Hadoop分布式計(jì)算的圖像檢索方法
      基于分塊顏色核特征的圖像檢索方法
      服裝圖像檢索研究綜述
      基于金字塔梯度方向圖像特征的檢索模型設(shè)計(jì)
      海兴县| 宝兴县| 高尔夫| 固镇县| 阜城县| 阿合奇县| 华安县| 罗江县| 蒲江县| 景宁| 哈尔滨市| 西林县| 高雄县| 同心县| 麻江县| 谷城县| 长治市| 怀远县| 嘉定区| 宝山区| 新和县| 图木舒克市| 盐城市| 封开县| 迁西县| 北海市| 灵武市| 无极县| 嘉荫县| 边坝县| 三江| 连云港市| 张家界市| 临邑县| 千阳县| 镇雄县| 惠来县| 枝江市| 建宁县| 威信县| 治多县|