俞俊 譚敏 張宏源 張海超
摘要近年來(lái),細(xì)粒度圖像識(shí)別逐漸成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn).由于不同類別圖像間的視覺(jué)差異小、語(yǔ)義鴻溝問(wèn)題嚴(yán)重,傳統(tǒng)的基于視覺(jué)特征的細(xì)粒度圖像識(shí)別性能往往不盡人意.針對(duì)這些挑戰(zhàn),目前許多學(xué)者都在研究基于用戶點(diǎn)擊數(shù)據(jù)的圖像識(shí)別.本文圍繞點(diǎn)擊數(shù)據(jù)在圖像識(shí)別中數(shù)據(jù)預(yù)處理、特征提取和模型構(gòu)建3大模塊中的應(yīng)用,總結(jié)了已有的基于點(diǎn)擊數(shù)據(jù)的識(shí)別算法及最新的研究進(jìn)展.關(guān)鍵詞用戶點(diǎn)擊;圖像識(shí)別;度量學(xué)習(xí);深度學(xué)習(xí);語(yǔ)義鴻溝
中圖分類號(hào)TP391.413
文獻(xiàn)標(biāo)志碼A
1 引言
1.1 背景
細(xì)粒度視覺(jué)分類(Fine-Grained Visual Categorization,F(xiàn)GVC)是目標(biāo)分類的一個(gè)子領(lǐng)域.與Pascal VOC競(jìng)賽[1]等對(duì)船、自行車和汽車進(jìn)行分類的任務(wù)不同,細(xì)粒度分類是對(duì)于視覺(jué)上非常相似的目標(biāo)進(jìn)行區(qū)分的過(guò)程,如鳥(niǎo)、狗、花的種類等,這些子類圖像在視覺(jué)上差距甚小.
傳統(tǒng)的圖像識(shí)別技術(shù)大多借助于視覺(jué)特征,如顏色、紋理、形狀、輪廓等.然而,圖像的視覺(jué)特征僅能刻畫視覺(jué)信息,忽略了它們所包含的語(yǔ)義信息,與人類對(duì)圖像的理解存在一定的差異.這種在計(jì)算機(jī)圖像理解與人類圖像理解之間存在著的客觀區(qū)別,即圖像低層視覺(jué)特征與高層語(yǔ)義特征之間存在著的較大距離,被稱為“語(yǔ)義鴻溝”[2-4].
計(jì)算機(jī)視覺(jué)和人類視覺(jué)的“語(yǔ)義鴻溝”使得人們?cè)趫D像識(shí)別領(lǐng)域一直面臨巨大挑戰(zhàn),尤其是對(duì)于細(xì)粒度的圖像識(shí)別而言.近年來(lái),許多從事圖像視覺(jué)研究的人員已經(jīng)逐漸認(rèn)識(shí)到語(yǔ)義信息在圖像理解中的重要性,并在圖像識(shí)別的過(guò)程中引入了用戶點(diǎn)擊數(shù)據(jù)表征圖像的語(yǔ)義特征從而解決“語(yǔ)義鴻溝”問(wèn)題.
1.2 點(diǎn)擊數(shù)據(jù)
點(diǎn)擊數(shù)據(jù)是依托搜索引擎(如Google、百度、Bing等)收集的用戶對(duì)圖像與文本間相關(guān)性的反饋數(shù)據(jù).如圖1所示[5],針對(duì)任意查詢文本,搜索引擎會(huì)檢索到一組可能相關(guān)的圖像集,用戶會(huì)基于查詢文本與候選圖像的相關(guān)性點(diǎn)擊更為“相關(guān)”的圖像,從而產(chǎn)生大量點(diǎn)擊數(shù)據(jù).利用點(diǎn)擊數(shù)據(jù),查詢文本被圖像集表征.類似地,任一圖像也可以被其對(duì)應(yīng)的點(diǎn)擊文本集合表示.
目前,點(diǎn)擊數(shù)據(jù)已被廣泛應(yīng)用在網(wǎng)頁(yè)檢索、商品推薦等領(lǐng)域,它在圖像識(shí)別領(lǐng)域中的應(yīng)用還相對(duì)較少[6-10].如圖2所示,在基于點(diǎn)擊數(shù)據(jù)的圖像識(shí)別中,輸入的樣本除圖像本身x外,還有其對(duì)應(yīng)的在文本q下的點(diǎn)擊次數(shù)向量.圖像識(shí)別大多是通過(guò)融合圖像視覺(jué)與點(diǎn)擊特征實(shí)現(xiàn)的.
近年來(lái),世界各地的研究人員根據(jù)用戶點(diǎn)擊數(shù)據(jù)設(shè)計(jì)模型、計(jì)算新數(shù)據(jù)被點(diǎn)擊的概率,以此更新該網(wǎng)頁(yè)放置在返回結(jié)果中的位置.微軟亞洲研究院[11-12]、谷歌研究院[13]、雅虎研究院[14]等機(jī)構(gòu)在用戶點(diǎn)擊數(shù)據(jù)方面均做了深入的研究.其中典型的代表是微軟亞洲研究院根據(jù)點(diǎn)擊數(shù)據(jù)建立了一個(gè)基于點(diǎn)擊數(shù)據(jù)的數(shù)據(jù)集——Clickture[5],該數(shù)據(jù)集的定義為
每一個(gè)三元組表示在文本q下,圖片x被點(diǎn)擊了c次.本文中提到的相關(guān)方法均是圍繞Clickture數(shù)據(jù)集展開(kāi)的.
本文將總結(jié)現(xiàn)有的基于點(diǎn)擊特征的圖像識(shí)別技術(shù),并詳細(xì)介紹點(diǎn)擊數(shù)據(jù)在數(shù)據(jù)預(yù)處理、特征提取、模型構(gòu)建中的應(yīng)用.
2 數(shù)據(jù)預(yù)處理
盡管點(diǎn)擊數(shù)據(jù)在圖像識(shí)別中能提供豐富的語(yǔ)義信息幫助解決語(yǔ)義鴻溝,但它本身的噪聲信息也會(huì)給識(shí)別帶來(lái)很大的負(fù)作用.因而,在基于點(diǎn)擊數(shù)據(jù)的識(shí)別中,點(diǎn)擊數(shù)據(jù)的預(yù)處理是一個(gè)關(guān)鍵步驟.
點(diǎn)擊數(shù)據(jù)中的噪聲包括3個(gè)方面.一是查詢文本可能存在的拼寫錯(cuò)誤;二是圖片本身質(zhì)量過(guò)低、目標(biāo)不明顯、圖像重復(fù)等;三是文本-圖像點(diǎn)擊的缺失和不一致性.
直接使用這些“臟”的點(diǎn)擊數(shù)據(jù)必然會(huì)影響后續(xù)的圖像識(shí)別.因此,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的重要性不言而喻.針對(duì)這些有噪聲的點(diǎn)擊數(shù)據(jù),處理方法一般分為兩類:一類是通過(guò)數(shù)據(jù)清洗去除一定量的噪聲樣本,另一類是通過(guò)可靠性建模賦予樣本權(quán)重從而達(dá)到對(duì)樣本去噪的目的.
2.1 數(shù)據(jù)清洗
數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理的關(guān)鍵一步,是指通過(guò)一定的手段對(duì)原始數(shù)據(jù)進(jìn)行刪除等處理,從而提高數(shù)據(jù)的有效性,進(jìn)而提高圖像識(shí)別的精度.
用戶點(diǎn)擊數(shù)據(jù)主要包含3個(gè)部分,即:查詢文本、圖片以及對(duì)應(yīng)的圖片-文本點(diǎn)擊次數(shù).利用用戶的點(diǎn)擊數(shù)據(jù)對(duì)圖片數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗一般分為3種方法:基于點(diǎn)擊次數(shù)先驗(yàn)的清洗、基于文本-圖片相似度的清洗以及融合視覺(jué)檢測(cè)器的數(shù)據(jù)清洗,3種方法分別利用了點(diǎn)擊數(shù)據(jù)中的一個(gè)或者多個(gè)部分.
2.1.1 基于點(diǎn)擊次數(shù)先驗(yàn)的清洗
一種最簡(jiǎn)單的數(shù)據(jù)清洗方法就是直接剔除那些點(diǎn)擊次數(shù)少的數(shù)據(jù)[3],然而這種方法過(guò)于啟發(fā)式,并不一定可靠.在一些數(shù)據(jù)中,點(diǎn)擊次數(shù)少的數(shù)據(jù)可能比點(diǎn)擊多的噪聲更加珍貴.例如在一個(gè)被點(diǎn)擊了3次的圖片中,文本“狗(dog)”被點(diǎn)擊了2次,而文本“吉娃娃(chihuahua)”被點(diǎn)擊了1次,很顯然對(duì)于細(xì)粒度分類任務(wù)而言,“吉娃娃(chihuahua)”的重要性大于“狗(dog)”,而若是按照點(diǎn)擊次數(shù)清洗數(shù)據(jù)的方法則很可能只會(huì)留下文本數(shù)據(jù)“狗(dog)”.因此只按照點(diǎn)擊次數(shù)來(lái)清洗數(shù)據(jù)的方法并不是一個(gè)好的解決方案.
2.1.2 基于文本-圖片相似度的清洗
基于文本-圖片相似度的清洗方法的主要思想是利用點(diǎn)擊數(shù)據(jù)先學(xué)習(xí)一個(gè)圖像視覺(jué)與文本特征之間的相關(guān)性模型,然后利用此模型剔除掉點(diǎn)擊數(shù)據(jù)中“圖”-“文”特征相似度過(guò)低的數(shù)據(jù)項(xiàng).目前基于該思想的數(shù)據(jù)清洗方法相對(duì)較少.近年來(lái),Bai等[15]提出了用深度學(xué)習(xí)框架融合詞嵌入的方法學(xué)習(xí)視覺(jué)-文本相似度模型,取得了很好的效果.
2.1.3 融合視覺(jué)檢測(cè)器的數(shù)據(jù)清洗
如前文所述,一些研究人員利用額外的帶標(biāo)簽在圖像訓(xùn)練集學(xué)習(xí)視覺(jué)目標(biāo)檢測(cè)器,然后用圖片檢測(cè)器對(duì)點(diǎn)擊數(shù)據(jù)集進(jìn)行清洗,然而標(biāo)注數(shù)據(jù)往往依賴大量的人力、物力和財(cái)力,因此并不是一個(gè)實(shí)用的方法.本節(jié)介紹的融合視覺(jué)檢測(cè)器的數(shù)據(jù)清洗方法,同時(shí)利用了點(diǎn)擊數(shù)據(jù)中的圖-文點(diǎn)擊次數(shù)和圖片的視覺(jué)特征,在不使用額外的數(shù)據(jù)集的條件下構(gòu)建了圖片的檢測(cè)器.
融合視覺(jué)檢測(cè)器的數(shù)據(jù)清洗主要分為3步:第1步是基于圖片的點(diǎn)擊次數(shù)選擇相對(duì)可靠的圖像構(gòu)成訓(xùn)練集;第2步是使用挑選出來(lái)的圖片集訓(xùn)練出一個(gè)基于視覺(jué)特征的圖片檢測(cè)器;第3步是同時(shí)考慮圖片的可靠性和視覺(jué)特征,篩選出視覺(jué)檢測(cè)器認(rèn)為概率相對(duì)較高且點(diǎn)擊次數(shù)較大的圖片,同時(shí)清洗(剔除)掉剩下的圖片.
2.1.4 小結(jié)
由于點(diǎn)擊數(shù)據(jù)的高噪聲性,目前基于點(diǎn)擊數(shù)據(jù)的圖像識(shí)別很大一部分的工作內(nèi)容都集中在數(shù)據(jù)清洗上.其中基于點(diǎn)擊次數(shù)的篩選最為直接,但它過(guò)于啟發(fā)式容易誤篩選掉正常樣本;基于文本-圖片相似度的清洗方式最為合理,但由于涉及多模態(tài)特征空間的相似度模型的構(gòu)建使得算法復(fù)雜度過(guò)高;同樣,融合視覺(jué)檢測(cè)器的數(shù)據(jù)清洗的方式也涉及繁瑣的模型訓(xùn)練過(guò)程,但與文本-圖片相似度模型相比,由于不涉及跨模態(tài)建模,它訓(xùn)練的視覺(jué)模型復(fù)雜度相對(duì)較低,可是模型的單一性卻影響了它的清洗有效性.
2.2 數(shù)據(jù)可靠性建模
在噪聲數(shù)據(jù)處理中,除了直接將噪聲數(shù)據(jù)剔除外,還有一種常用的策略是對(duì)數(shù)據(jù)進(jìn)行加權(quán),使得噪聲數(shù)據(jù)在識(shí)別模型學(xué)習(xí)和決策中權(quán)重相對(duì)較低.為估計(jì)樣本權(quán)重,一種常見(jiàn)的方法是構(gòu)建樣本可靠性模型,從而用可靠性值來(lái)量化樣本權(quán)重.
已有的樣本可靠性模型大致分為兩類:一是直接利用樣本的質(zhì)量特征(模糊程度、角度、目標(biāo)區(qū)域位置等)來(lái)量化.Zheng等[7]提出圖像的用戶點(diǎn)擊量能在一定程度上反映圖像的質(zhì)量,因此他們利用用戶點(diǎn)擊量來(lái)估計(jì)樣本可靠性.另一類則是利用二類分類模型(如可支持向量機(jī)(Support Vector Machine,SVM)[16]等)訓(xùn)練一個(gè)可靠性模型,再利用可靠性分類器的輸出值給樣本加權(quán).Tan等[17]提出構(gòu)建樣本的“可靠性特征”,并基于此特征用SVM分類模型學(xué)習(xí)可靠性分類器.其中“可靠性特征”由樣本質(zhì)量、樣本分類正確的概率及其分到各類概率的信息熵等構(gòu)成.在訓(xùn)練可靠性分類器時(shí),被分類正確/錯(cuò)誤的樣本被視為正/負(fù)樣本.
在目前的研究中,利用點(diǎn)擊數(shù)據(jù)構(gòu)建樣本可靠性模型的研究還比較稀少.直觀來(lái)講,作為用戶反饋數(shù)據(jù),用戶點(diǎn)擊能很大程度上反映樣本可靠性.因而,利用點(diǎn)擊數(shù)據(jù)構(gòu)建可靠性模型將是一個(gè)很有潛力的解決方案.最近,Zheng 等[7]提出利用點(diǎn)擊次數(shù)數(shù)據(jù)作為樣本權(quán)重先驗(yàn),并基于點(diǎn)擊次數(shù)對(duì)權(quán)重模型進(jìn)行光滑性建模.同時(shí)他們構(gòu)建了如下的深度學(xué)習(xí)框架聯(lián)合優(yōu)化樣本的深度視覺(jué)特征和權(quán)重模型:
3 特征提取
鑒于點(diǎn)擊信息的強(qiáng)語(yǔ)義性,點(diǎn)擊數(shù)據(jù)除了能有效運(yùn)用于數(shù)據(jù)預(yù)處理外,也被廣泛用于圖像特征的提取,包括單一點(diǎn)擊特征的構(gòu)建及其與傳統(tǒng)視覺(jué)特征的融合.
3.1 點(diǎn)擊特征
在現(xiàn)存的利用點(diǎn)擊數(shù)據(jù)構(gòu)建圖像特征的方法中,圖像往往被表征成它在查詢文本空間下的點(diǎn)擊次數(shù)向量.由于點(diǎn)擊數(shù)據(jù)中的文本是由一個(gè)或多個(gè)單詞構(gòu)成的,因此利用點(diǎn)擊數(shù)據(jù)的特征構(gòu)建通常分為兩類,分別是基于查詢文本(即原始的文本空間)和基于查詢關(guān)鍵詞(即查詢文本中的獨(dú)立單詞)的構(gòu)建方法.下面將分別介紹這2種特征構(gòu)建的方法.
3.1.1 基于查詢文本
采用Clickture數(shù)據(jù)集標(biāo)準(zhǔn)的表示方法表征點(diǎn)擊數(shù)據(jù),可知基于查詢文本的點(diǎn)擊次數(shù)向量的核心問(wèn)題在于查詢文本的數(shù)量巨大,使得用戶點(diǎn)擊特征過(guò)于稀疏、維度過(guò)高.針對(duì)這些問(wèn)題,一些研究者致力于查詢文本合并的研究,其核心就是文本聚類.
傳統(tǒng)的文本合并是基于查詢本身的文本特征展開(kāi)的.最近,Wu等[8]提出了基于點(diǎn)擊數(shù)據(jù)的文本合并方法.該方法首先將文本表征為圖像點(diǎn)擊向量(點(diǎn)擊的圖像次數(shù)向量),再利用稀疏編碼的技術(shù)實(shí)現(xiàn)分類.其中,為了解決原始圖像點(diǎn)擊特征稀疏與不光滑的特性,他們提出了利用基于圖的相似度的點(diǎn)擊傳播模型,使得傳播后的點(diǎn)擊特征相對(duì)稠密且具有視覺(jué)相似一致性;在文本被表征為更有效的傳播點(diǎn)擊特征后,由于點(diǎn)擊數(shù)據(jù)的類間極其不均衡的性質(zhì),他們又提出了基于稀疏編碼的聚類.稀疏編碼的字典通過(guò)熱門詞匯“Hot-query”構(gòu)建,模型框架如圖3所示.
實(shí)驗(yàn)表明,基于編碼稀疏的聚類方法在處理這種極度不平衡的點(diǎn)擊數(shù)據(jù)上的結(jié)果優(yōu)于使用傳統(tǒng)的基于K均值的聚類算法的結(jié)果;同時(shí),基于熱門詞匯的字典構(gòu)建也優(yōu)于基于K-SVD(K-Singular Value Decomposition,K-SVD)這種傳統(tǒng)字典學(xué)習(xí)方法.
為了進(jìn)一步提高文本特征的表征能力,筆者正在嘗試?yán)蒙疃葘W(xué)習(xí)模型構(gòu)建深度文本特征,進(jìn)而利用深度文本特征實(shí)現(xiàn)文本聚類.然而,點(diǎn)擊數(shù)據(jù)的過(guò)度稀疏是深度文本模型中亟待解決的一個(gè)問(wèn)題.
3.1.2 基于查詢關(guān)鍵詞
圖片的點(diǎn)擊文本,如“chihuahua with soda”是由一個(gè)一個(gè)單詞構(gòu)成的,在基于查詢關(guān)鍵詞的特征構(gòu)建過(guò)程中,常用的方法是首先對(duì)每一個(gè)詞組進(jìn)行分詞和詞性還原操作,并在得到的單詞集合里去掉標(biāo)準(zhǔn)的停頓詞,進(jìn)而得到處理后的點(diǎn)擊數(shù)據(jù),即單詞、圖片和對(duì)應(yīng)的圖片/單詞點(diǎn)擊次數(shù)(詞頻矩陣).
通過(guò)詞頻矩陣,將圖片集看成一個(gè)文檔,每張圖片作為文檔的一個(gè)段落.利用tf-idf算法,可以將每張圖片表示為一組與詞頻相關(guān)的向量.tf-idf算法是目前最常用的特征權(quán)重算法,該算法由Salton等[18]提出.它由2部分組成:1)基于文檔內(nèi)容的詞語(yǔ)頻率(tf),即詞語(yǔ)在當(dāng)前文檔中出現(xiàn)的次數(shù);2)基于文檔空間的文檔頻率(df),即在文檔空間中出現(xiàn)過(guò)該詞語(yǔ)的文檔數(shù).詞語(yǔ)頻率體現(xiàn)了特征對(duì)當(dāng)前文檔的表現(xiàn)力,詞頻越高,越能表示文檔的內(nèi)容,對(duì)文檔的表現(xiàn)力越強(qiáng).文檔頻率體現(xiàn)了特征對(duì)文檔的區(qū)分力,在越多的文檔中出現(xiàn)的特征,對(duì)文檔的區(qū)分力越弱.特征的區(qū)分力與文檔頻率成反比,因此在計(jì)算時(shí)采用的是逆文檔頻率(idf).tf-idf的經(jīng)典計(jì)算公式為
3.2 融合的點(diǎn)擊與視覺(jué)特征
鑒于卷積神經(jīng)網(wǎng)絡(luò)在視覺(jué)特征提取方面的優(yōu)勢(shì)[19-20],近年來(lái),一些研究人員開(kāi)始使用卷積神經(jīng)網(wǎng)絡(luò)提取出的特征與點(diǎn)擊特征進(jìn)行融合,從而提高圖像檢索的性能[15,21].
類似的,在圖像識(shí)別領(lǐng)域,也可采取同樣的手段,將圖像的點(diǎn)擊特征和視覺(jué)特征融合,以增強(qiáng)圖像特征的區(qū)分能力.如何將圖像的點(diǎn)擊特征和圖像的視覺(jué)特征融合在一起也是一個(gè)新的挑戰(zhàn),本節(jié)將介紹2種將點(diǎn)擊特征和視覺(jué)特征融合的方法:直接融合方法和詞嵌入方法.
3.2.1 直接融合
將由卷積神經(jīng)網(wǎng)絡(luò)特征提取的圖像視覺(jué)特征(一般用的是卷積神經(jīng)網(wǎng)絡(luò)的某一層全連接層)與圖像的點(diǎn)擊特征直接融合指的是將2個(gè)特征向量直接拼在一起作為融合后的特征向量.例如,若圖像的視覺(jué)特征是4 096維的向量,圖像的點(diǎn)擊特征是1 000維的向量,那么融合后的向量為5 096維.即融合圖像特征表示為oi=[zi,μui]
代表特征權(quán)重,同時(shí)為了保證2個(gè)特征的尺度相同,在拼接前應(yīng)該要對(duì)視覺(jué)特征和點(diǎn)擊特征做標(biāo)準(zhǔn)化操作[6].
3.2.2 詞嵌入
由于圖像的視覺(jué)特征和圖像的點(diǎn)擊特征并非在一個(gè)特征空間上,將兩者直接拼接在一起顯然并不是一個(gè)合理的方法,因此將2個(gè)特征轉(zhuǎn)換到同一空間再進(jìn)行拼接是有必要的.
詞嵌入指的是對(duì)于給定的文檔,將文檔中的每一個(gè)單詞轉(zhuǎn)為對(duì)應(yīng)的向量表示.傳統(tǒng)的詞嵌入模型有one-hot模型、向量空間模型、word2vec模型[22]等.融合方法里的詞嵌入,指的是在得到圖像的視覺(jué)特征后,通過(guò)線性或者非線性(如sigmod、relu等)的轉(zhuǎn)換,使得其投影到點(diǎn)擊特征空間中,再將兩者進(jìn)行拼接.因?yàn)橥ㄟ^(guò)變換,兩者已經(jīng)在同一個(gè)特征空間中,拼接的操作也顯得合理而有效.
3.3 小結(jié)
本節(jié)介紹了基于查詢文本和基于查詢關(guān)鍵詞2種構(gòu)建圖像點(diǎn)擊特征的方法.比較而言,基于文本的點(diǎn)擊特征構(gòu)建方式直觀有效,但它涉及復(fù)雜的文本合并過(guò)程,而基于查詢?cè)~構(gòu)建的點(diǎn)擊特征更緊湊,大大提高了算法效率.除了單一點(diǎn)擊特征外,本節(jié)還介紹了它與視覺(jué)特征的2類融合方式,其中以詞嵌入方法融合的結(jié)果較好.
4 分類模型構(gòu)建
特征提取完成后,接下來(lái)就是針對(duì)特征構(gòu)建分類器的過(guò)程.本文總結(jié)的分類模型主要針對(duì)融合視覺(jué)特征與點(diǎn)擊特征的分類模型構(gòu)建.
4.1 度量學(xué)習(xí)
由于視覺(jué)與點(diǎn)擊特征在不同的子空間中,因而需要構(gòu)建深度學(xué)習(xí)模型為融合特征學(xué)習(xí)可靠的度量空間.一個(gè)度量是一個(gè)定義集合中元素之間距離的函數(shù)[23].在度量確定后,則可基于新的距離度量,通過(guò)在訓(xùn)練樣本空間中的KNN搜索實(shí)現(xiàn)分類.
與傳統(tǒng)特征相比,在基于點(diǎn)擊特征的度量學(xué)習(xí)的分類算法中至少存在2大難點(diǎn):一是點(diǎn)擊數(shù)據(jù)中的強(qiáng)大噪聲可能影響度量學(xué)習(xí)的性能;二是點(diǎn)擊特征維度過(guò)高,往往
導(dǎo)致基于樣本空間的搜索效率過(guò)低.
針對(duì)樣本噪聲,譚敏[24]提出的弱監(jiān)督度量學(xué)習(xí)算法可以幫助在帶噪聲的樣本中自動(dòng)篩選相對(duì)“干凈”的數(shù)據(jù)學(xué)習(xí)度量;同時(shí),為了克服點(diǎn)擊特征匹配效率低的缺陷,Tan等[25]還提出了聯(lián)合度量及模板學(xué)習(xí)的算法,通過(guò)學(xué)習(xí)判別性強(qiáng)的模板實(shí)現(xiàn)在模板中的1-NN搜索的分類.
4.2 深度學(xué)習(xí)
深度學(xué)習(xí)[26]的概念最早由多倫多大學(xué)Hinton等于2006年提出,它利用訓(xùn)練樣本通過(guò)一定的訓(xùn)練方法得到包含多層的深度網(wǎng)絡(luò)結(jié)構(gòu),然后學(xué)習(xí)圖像的深度視覺(jué)特征.深度學(xué)習(xí)中的“深度”是相對(duì)SVM、提升方法(boosting)、最大熵方法等淺層學(xué)習(xí)方法而言的,深度學(xué)習(xí)所學(xué)得的模型中,非線性操作更多,學(xué)到的特征表征力、不變性更強(qiáng).淺層學(xué)習(xí)依靠人工經(jīng)驗(yàn)抽取樣本特征,獲得的是沒(méi)有層次結(jié)構(gòu)的單層特征;而深度學(xué)習(xí)通過(guò)對(duì)原始信號(hào)進(jìn)行逐層特征變換,將樣本在原空間的特征表示變換到新的特征空間中,自動(dòng)地學(xué)習(xí)得到層次化的特征表示,從而更有利于分類或特征的可視化[27].
本節(jié)主要介紹用戶點(diǎn)擊數(shù)據(jù)在卷積神經(jīng)網(wǎng)絡(luò)和雙線性差值卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用.
4.2.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元.在圖像識(shí)別任務(wù)中,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)十分突出.其工作原理是對(duì)輸入的圖片,經(jīng)過(guò)卷積層、下采樣、全連接等模型層后得到圖像的深度視覺(jué)特征.如圖4所示.
通過(guò)深度模型提取出的點(diǎn)擊特征可以直接用于圖像分類工作,也可以和其他特征進(jìn)行融合后完成圖像識(shí)別.在構(gòu)建融合用戶點(diǎn)擊數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)時(shí),將最后全連接層提取出來(lái)的圖片視覺(jué)特征,與點(diǎn)擊特征融合(參考第3.2節(jié),融合的點(diǎn)擊與視覺(jué)特征).最后通過(guò)融合后的特征做圖像識(shí)別[6].融合特征如圖5所示.
4.2.2 雙線性插值卷積神經(jīng)網(wǎng)絡(luò)
雙線性插值卷積神經(jīng)網(wǎng)絡(luò)(Bilinear Convolutional Neural Network,BCNN)[28],是將輸入圖片通過(guò)2個(gè)卷積神經(jīng)網(wǎng)絡(luò)提取出2個(gè)視覺(jué)特征,再將2個(gè)視覺(jué)特征向量通過(guò)雙線性插值(Bilinear)的方式組合在一起作為最后的雙線性插值圖像特征,再用該圖像特征進(jìn)行圖像識(shí)別任務(wù)[8].識(shí)別過(guò)程如圖6所示.
鑒于BCNN模型的優(yōu)勢(shì),Zheng等[7]提出了融合點(diǎn)擊特征的BCNN模型,并在細(xì)粒度分類上達(dá)到了很好的性能.如圖7所示(圖7a為傳統(tǒng)的BCNN網(wǎng)絡(luò),圖7b為引入了用戶點(diǎn)擊數(shù)據(jù)的BCNN網(wǎng)絡(luò)),采用用戶點(diǎn)擊數(shù)據(jù)的雙線性插值卷積神經(jīng)網(wǎng)絡(luò)在構(gòu)建時(shí),與傳統(tǒng)的雙線性插值卷積神經(jīng)網(wǎng)絡(luò)最大的區(qū)別是,在得到圖片的雙線性插值特征后,將與用戶的點(diǎn)擊特征融合(參考第3.2節(jié),融合的點(diǎn)擊與視覺(jué)特征)來(lái)作為圖像的最終特征.同時(shí)為了保證雙線性插值特征與用戶點(diǎn)擊特征尺度相同,在雙線性插值特征后加入了L2正則化操作[7].
5 總結(jié)
本文介紹了用戶點(diǎn)擊數(shù)據(jù)在圖像識(shí)別領(lǐng)域的相關(guān)研究和成果.第2章主要介紹了用戶點(diǎn)擊數(shù)據(jù)在數(shù)據(jù)預(yù)處理方面的工作,包括了清洗數(shù)據(jù)的3種方法以及數(shù)據(jù)可靠性建模的相關(guān)知識(shí).第3章以特征提取為主題,詳細(xì)講述了利用點(diǎn)擊數(shù)據(jù),構(gòu)建單一點(diǎn)擊特征和融合點(diǎn)擊與視覺(jué)特征的方法.第4章針對(duì)融合的點(diǎn)擊特征,介紹了基于度量學(xué)習(xí)和深度模型框架的分類方法.
總體而言,現(xiàn)存的基于點(diǎn)擊數(shù)據(jù)的圖像識(shí)別工作相對(duì)較少,點(diǎn)擊數(shù)據(jù)的高噪聲量是影響其發(fā)展的一個(gè)主要因素.在不久的將來(lái),此領(lǐng)域中仍有許多非常值得研究的問(wèn)題,如:
1) 弱監(jiān)督深度學(xué)習(xí).數(shù)據(jù)集的標(biāo)簽是不可靠的,如針對(duì)圖像數(shù)據(jù)x,它的點(diǎn)擊信息(點(diǎn)擊文本集及其對(duì)應(yīng)的點(diǎn)擊次數(shù))很可能是不可靠的;此外,數(shù)據(jù)的類別標(biāo)簽也可能存在大量噪聲,因此弱監(jiān)督的學(xué)習(xí)模型在基于戶點(diǎn)擊數(shù)據(jù)的深度學(xué)習(xí)方面潛力巨大.
2) 遷移學(xué)習(xí).本文中介紹的方法都是針對(duì)數(shù)據(jù)的點(diǎn)擊信息已知的情況.然而,在大多數(shù)分類任務(wù)中,圖像的點(diǎn)擊信息是沒(méi)有標(biāo)注的,因而,利用遷移學(xué)習(xí)實(shí)現(xiàn)對(duì)沒(méi)有點(diǎn)擊標(biāo)注的數(shù)據(jù)集的分類將是很重要的方向.
3) 基于深度學(xué)習(xí)的文本特征構(gòu)建.目前用來(lái)表征文本都是扁平的一維特征向量,如何利用深度模型框架,構(gòu)建結(jié)構(gòu)化的深度文本特征模型也具有重大研究意義.
參考文獻(xiàn)
References
[1] The pascal visual object classes homepage[EB/OL].[2017-07-28].http:∥host.robots.ox.ac.uk/pascal/VOC
[2] 朱蓉.基于語(yǔ)義信息的圖像理解關(guān)鍵問(wèn)題研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(4):1234-1240
ZHU Rong.Research on key problems of image understanding based on semantic information[J].Application Research of Computers,2009,26(4):1234-1240
[3] Yu J,Yang X K,Gao F,et al.Deep multimodal distance metric learning using click constraints for image ranking[J].IEEE Transactions on Cybernetics,2016,PP(99):1-11
[4] Yu J,Tao D C,Wang M,et al.Learning to rank using user clicks and visual features for image retrieval[J].IEEE Transactions on Cybernetics,2015,45(4):767-779
[5] Hua X S,Yang L J,Wang J D,et al.Clickage:Towards bridging semantic and intent gaps via mining click logs of search engines[C]∥ACM International Conference on Multimedia,2013:243-252
[6] Tan M,Yu J,Zheng G J,et al.Deep neural network boosted large scale image recognition using user click data[C]∥International Conference on Internet Multimedia Computing & Service,2016:118-121
[7] Zheng G J,Tan M,Yu J,et al.Fine-grained image recognition via weakly supervised click data guided bilinear CNN model[C]∥IEEE International Conference on Multimedia and Expo,2017,DOI:10.1109/ICME.2017.8019407
[8] Wu W C,Tan M,Yu J.Query modeling for click data based image recognition using graph based propagation and sparse coding[C]∥International Conference on Internet Multimedia Computing and Service,2017(accepted)
[9] Yu J,Rui Y,Tao D C,et al.Click prediction for web image reranking using multimodal sparse coding[J].IEEE Transactions on Image Processing,2014,23(5):2019-2032
[10] Yu J,Rui Y,Chen B,et al.Exploiting click constraints and multi-view features for image re-ranking[J].IEEE Transactions on Multimedia,2014,16(1):159-168
[11] Zhao Q K,Hoi S C H,Liu T Y,et al.Time-dependent semantic similarity measure of queries using historical click-through data[C]∥International Conference on World Wide Web,2006:543-552
[12] Wang T F,Bian J,Liu S S,et al.Psychological advertising:Exploring user psychology for click prediction in sponsored search[C]∥ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2013:563-571
[13] Liu J H,Dolan P,Pedersen E R.Personalized news recommendation based on click behavior[C]∥International Conference on Intelligent User Interfaces,2010:31-40
[14] Chapelle O,Zhang Y.A dynamic Bayesian network click model for web search ranking[C]∥International Conference on World Wide Web,2009:1-10
[15] Bai Y L,Yang K Y,Yu W,et al.Automatic image dataset construction from click-through logs using deep neural network[C]∥ACM Conference on Multimedia Conference,2015:441-450
[16] Chang C C,Lin C J.LIBSVM:A library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):1-27
[17] Tan M,Wang B Y,Wu Z H,et al.Weakly supervised metric learning for traffic sign recognition in a lidar-equipped vehicle[J].IEEE Transactions on Intelligent Transportation Systems,2016,17(5):1415-1427
[18] Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].International Journal of Information Processing & Management,1988,24(5):513-523
[19] Wang W,Yang X Y,Ooi B C,et al.Effective deep learning-based multi-modal retrieval[J].The VLDB Journal,2016,25(1):79-101
[20] Zhang Y T,Sohn K,Villegas R,et al.Improving object detection with deep convolutional networks via Bayesian optimization and structured prediction[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:249-258
[21] Song Q,Yu S X,Leng C,et al.Learning deep features for MSR-bing information retrieval challenge[C]∥ACM International Conference on Multimedia,2015:169-172
[22] 吳稟雅,魏苗.從深度學(xué)習(xí)回顧自然語(yǔ)言處理詞嵌入方法[J].電腦知識(shí)與技術(shù),2016,12(36):184-185
WU Bingya,WEI Miao.A review of natural language processing word embedding from deep learning[J].Computer Knowledge and Technology,2016,12(36):184-185
[23] Nehemiah-Li.度量學(xué)習(xí)(Metric Learning)(一)[EB/OL].(2015-03-12).http:∥blog.csdn.net/nehemiah-li/article/details/44230053
[24] 譚敏.面向智能車的物體檢測(cè)與識(shí)別[D].杭州:浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2015
TAN Min.Visual object detection and recognition for intelligent vehicles[D].Hangzhou:College of Computer Science and Technology,Zhejiang University,2015
[25] Tan M,Hu Z F,Wang B Y,et al.Robust object recognition via weakly supervised metric and template learning[J].Neurocomputing,2016,181:96-107
[26] Bengio Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127
[27] 尹寶才,王文通,王立春.深度學(xué)習(xí)研究綜述[J].北京工業(yè)大學(xué)學(xué)報(bào),2015,41(1):48-59
YIN Baocai,WANG Wentong,WANG Lichun.Review of deep learning[J].Journal of Beijing University of Technology,2015,41(1):48-59
[28] Lin T Y,Roychowdhury A,Maji S.Bilinear CNNs for fine-grained visual recognition[J].arXiv e-print,2015,arXiv:1504.07889