江玉朝,吉立新,高超,李邵梅
(國家數(shù)字交換系統(tǒng)工程技術研究中心,河南 鄭州 450002)
Logo識別是計算機視覺中一項具有挑戰(zhàn)性的任務,在很多領域有著廣泛的應用,如敏感視頻識別[1]、商標識別與產(chǎn)權(quán)保護[2]、智能交通[3]等。對于一般目標的識別,深度學習方法已經(jīng)取得了巨大的成功[4~6]。通常,構(gòu)建一個目標識別的深層神經(jīng)網(wǎng)絡模型需要大量手工標注的訓練數(shù)據(jù),然而,在Logo識別任務中能夠獲取到的公開數(shù)據(jù)集非常小,現(xiàn)有的Logo數(shù)據(jù)集如表 1所示[7~12]。顯然,如此小的訓練數(shù)據(jù)量對于學習具有數(shù)百萬參數(shù)的深層模型是遠遠不夠的,通過增加手工標注來擴充數(shù)據(jù)集是解決這一問題較直接而簡單的思路,但是昂貴的標注成本以及大量的時間開銷往往令人難以承受,同時,相比通用物體,很多情況下很難大量獲取到包含 Logo的真實場景圖像。面對種類龐雜的 Logo對象,試圖通過自動的方式搜集大規(guī)模訓練數(shù)據(jù)也顯得較為困難,諸如網(wǎng)絡爬蟲一類的Web數(shù)據(jù)挖掘方法雖然在一些目標識別任務中起到了一定的作用[13,14],但由于典型的Web圖像及其元數(shù)據(jù)中一般不包含目標定位的相關標注信息,采用此類方法難以獲得Logo對象的精確標注。
表1 現(xiàn)有的Logo識別數(shù)據(jù)集
合成數(shù)據(jù)生成是指在不依賴手工標注的前提下自動生成與真實數(shù)據(jù)近似的合成數(shù)據(jù),從而擴展訓練數(shù)據(jù)集的方法,當沒有充足的訓練數(shù)據(jù)可用于訓練大型深層網(wǎng)絡時,該方法是手工標注海量數(shù)據(jù)的有效替代方案。例如,Gupta等[15]和Jaderberg等[16]通過人工合成自然場景文本數(shù)據(jù)訓練文本識別模型;Georgakis等[17]通過分割出語義級別的“桌子”“柜臺”等可能的支撐平面來指導合成圖像中目標的放置,輔助室內(nèi)場景中的目標檢測;Eggert等[18]使用合成數(shù)據(jù)訓練SVM分類器進行公司 Logo檢測;Su等[12]在文獻[18]的基礎上,考慮了合成Logo圖像上下文的多樣性,進行了利用大規(guī)模合成的 Logo圖像訓練深層模型的首次嘗試,較大地提升了檢測模型應對復雜背景的頑健性。而缺陷方面,文獻[12,18]使用的合成 Logo圖像的方法過于樸素,對于合成圖像與真實場景圖像的擬合考慮嚴重不足,僅通過將變換后的 Logo模板放于任意場景圖像中的隨機位置完成 Logo圖像的合成。這種方式會使合成Logo圖像的上下文真實性嚴重不足,導致模型過多地學習到合成圖像的細節(jié),而無法很好地泛化到真實場景圖像上,圖1給出了文獻[12,18]中合成圖像的示例。
圖1 文獻[12,18]中的Logo圖像合成示例
為解決深度學習框架下 Logo識別任務中標注數(shù)據(jù)缺乏的問題,本文提出了一種新的合成訓練數(shù)據(jù)的算法,算法在充分挖掘和利用 Logo圖像上下文信息的基礎上,通過合成盡可能擬合真實場景的 Logo圖像,在不增加額外標注成本的前提下,實現(xiàn) Logo識別算法性能的提升。雖然這項工作不是合成Logo圖像的首次嘗試[12,18],但是本文改進了以往合成 Logo圖像的簡單思路,充分利用了Logo對象內(nèi)部、Logo周圍鄰域、Logo與其他對象之間以及 Logo所處場景等多種類型的上下文信息,同時考慮Logo對象的自身特點,使借助自動合成的 Logo圖像參與訓練能夠產(chǎn)生更為顯著的算法性能增益。實驗方面,本文基于Faster R-CNN[19]目標檢測框架在 Logo識別的benchmark數(shù)據(jù)集 FlickrLogos-32[9]上進行了詳細的實驗驗證,取得了當前基于合成 Logo圖像輔助 Logo識別任務的最好結(jié)果(mAP 58.9% VS.54.8%[12]),充分驗證了本文合成算法的有效性。此外,本文基于合成數(shù)據(jù)前提下探究的諸多訓練策略與方法具備一定的借鑒和推廣意義。
圖2給出了本文基于合成數(shù)據(jù)進行Logo識別的整體算法框架,其中,生成合成圖像作為本文的算法核心,主要包括Logo模板選取、背景圖像選取、Logo模板變換以及Logo圖像合成4個過程,下文將分別對其進行詳細闡述。在Logo識別模型的訓練方面,本文基本上沿用文獻[12]中的順序?qū)W習策略,該策略源自于課程學習[20]中先易后難的學習思路,首先使用大規(guī)模的合成圖像預訓練深層模型,然后用少量的真實樣本數(shù)據(jù)對模型進行精調(diào)。除此之外,本文通過實驗探究發(fā)現(xiàn),先用合成圖像與真實圖像的混合數(shù)據(jù)進行訓練,再用真實圖像進行精調(diào),將取得更好的訓練效果。
為了進行 Logo圖像的合成,首先需要每類Logo用于合成的模板圖像。文獻[18]中使用像素級別的Logo掩碼(如圖3(a)所示),此類模板的背景是不透明的,因此能夠更多地保留 Logo對象原生的細節(jié),即Logo周圍鄰域的上下文信息;而缺陷也較為明顯,一是像素級別的掩碼需要通過煩瑣的手工標注提取得到,二是合成圖像中Logo鄰域上下文信息的多樣性有所欠缺。相反,文獻[12]中使用背景完全透明的Logo模板(如圖3(b)所示),使任意合成圖像中Logo鄰域的像素完全由背景圖像決定,而不是 Logo模板,這樣一來極大地提升了合成 Logo鄰域上下文的多樣性,增強了識別模型應對復雜背景的頑健性;缺陷方面,一是由于采用隨機放置 Logo模板的做法,不可避免地會出現(xiàn) Logo與復雜背景混雜的情形(如圖3(b)所示),這顯然與Logo本身的設計原則[21]相違背,導致合成圖像與真實場景圖像間的差異增大,二是由于過度地引入上下文信息,模型的誤報率有所增加[12]。
圖3 文獻[12,18]中Logo模板選取對比
可見,以上2種Logo模板的選取做法是各有優(yōu)劣而又相互補充的,考慮到后續(xù)合成數(shù)據(jù)集的構(gòu)建與標注都是自動的,本文選擇在 Logo模板的預處理上花費一定的開銷。因此,在 Logo模板的選取上,本文綜合選用了像素級別的Logo掩碼以及背景完全透明的Logo圖像(本文中兩者合成的數(shù)量比為1:1)。以FlickrLogos-32數(shù)據(jù)集的32類Logo為例,相應的Logo模板如圖4所示。
圖4 選取的Logo模板
在現(xiàn)實場景中,目標一般不可能單獨存在,它往往會與環(huán)境以及周圍其他對象有著千絲萬縷的聯(lián)系,這就是通常所說的上下文信息[22]。多種類型的上下文信息理論上已被證明在計算機視覺、圖像處理領域扮演著非常重要的角色,能夠提升檢測識別算法的精度與速度[23,24]。而作為承載合成 Logo全局上下文信息的背景圖像,文獻[18]和文獻[12]在其選擇上僅考慮了上下文的多樣性,使用FlickrLogos-32數(shù)據(jù)集中不含Logo的6 000張圖片作為合成圖像的背景來源,這樣的簡單處理必然會導致合成的Logo圖像中蘊含很多不真實的上下文信息,進而影響練習得到的深層模型在真實場景中的泛化能力。如圖5所示,Logo十分生硬地出現(xiàn)在毫不相關的場景中,盡管這并不妨礙人類進行識別,但在實際訓練過程中這些上下文信息完全不一致的合成樣本很可能作為噪聲數(shù)據(jù)存在。
因此,在背景圖像選取方面,本文致力于減輕由于 Logo模板與背景圖像語義相關性太弱造成的上下文信息不一致的情況對算法性能的影響。具體來說,本文首先使用爬蟲程序預先為每類Logo在谷歌圖片搜索網(wǎng)站上爬取了300張與之相關的場景圖像,然后結(jié)合現(xiàn)今流行的基于CNN的場景分類模型Places365-VGG對爬取的場景圖像進行批量分類,進而統(tǒng)計出每類 Logo出現(xiàn)頻率最高的5個Top-1場景作為合成圖像的背景來源。其中,Places365-VGG是文獻[25]開源的針對大規(guī)模場景圖像數(shù)據(jù)庫 Places2的子集Places365訓練的 CNN場景分類模型,網(wǎng)絡結(jié)構(gòu)采用的是VGG-16,其在Places365的驗證集和測試集上均取得了目前最高的 Top-1分類精度。圖6以Starbucks為例,給出了其背景圖像選取的算法流程。
傳統(tǒng)的圖像數(shù)據(jù)增強方法已被證明能夠有效地豐富訓練集、提升檢測識別模型的頑健性和泛化能力[26]。本文中不依賴傳統(tǒng)數(shù)據(jù)增強方法對訓練集進行擴充,而是采用圖像合成作為訓練數(shù)據(jù)的主要增強方法。實際上,在合成圖像的基礎上再進行數(shù)據(jù)增強的意義并不大,因此本文將數(shù)據(jù)增強應用于Logo模板的變換上。
圖5 不真實合成Logo圖像示例
由于實際自然場景中 Logo呈現(xiàn)的尺度變化范圍較大[9],同時拍攝角度的不同可能導致Logo出現(xiàn)旋轉(zhuǎn)、扭曲、變形以及部分遮擋等問題[27],此外,成像設備分辨率不同、光照條件變化等因素會顯著增加 Logo識別的難度。因此,為了盡可能擬合實際場景并且豐富合成圖像中 Logo的多樣性,本文對Logo模板嘗試進行了仿射變換、隨機裁剪、顏色變換、高斯模糊等一系列增強變換。需要說明的是,每種變換之間相互獨立且隨機進行。下面以仿射變換為例給出其數(shù)學描述。由于卷積神經(jīng)網(wǎng)絡本身具有平移不變性,所以本文針對 Logo模板并不進行平移變換,由此仿射變換的維度從3維降到2維,在2維平面上對于Logo模板I進行仿射變換的具體數(shù)學形式如下。
圖6 背景圖像選取算法流程
其中,矩陣Rθ定義旋轉(zhuǎn)變換,旋轉(zhuǎn)角度θ本文選擇在的范圍內(nèi)隨機取值,但隨機變換的概率控制在0.1以下,因為實際場景中Logo發(fā)生旋轉(zhuǎn)的情況較少[12]。矩陣P混合定義了尺度變換Scale(a, b)和錯切變換Shear(c, d),對于尺度變換,本文統(tǒng)計了Flickrlogos-32數(shù)據(jù)集整體對象的大小分布情況(如圖7所示),選擇控制Logo模板的長邊變化為40~250 pixel之間的隨機數(shù),短邊則進行等比例縮放;錯切變換的參數(shù)選擇為[0,0.2]之間的隨機數(shù)。圖8給出了本文Logo模板變換示意。
圖7 FlickrLogos-32數(shù)據(jù)集對象大小分布
圖8 本文Logo模板變換示意
鑒于Logo對象具有平面性的特點,本文將隨機變換后的Logo模板覆蓋在語義層面上與其盡可能相關的隨機背景圖片上,從而實現(xiàn)Logo圖像的合成。與文獻[12,18]中將Logo模板隨機放置的做法不同,本文特別關注Logo模板在背景中出現(xiàn)的位置。誠然,試圖在背景中找到最“合理”的位置涉及Logo對象與背景中其他對象之間復雜上下文關聯(lián)關系的分析與處理,即圖像的語義分割以及場景理解。而在本文的語境中,參與合成的對象較為特殊——Logo作為獨立對象進行合成,缺乏其“宿主”上下文信息的參與和指導,因而在語義層面上尋求合理位置的實現(xiàn)難度較高。
因此,現(xiàn)階段本文的合成目標不追求能夠找到語義層面上最“合理”的位置,而是盡可能尋求數(shù)據(jù)層面上較合適的位置。盡管有研究[28]表明,視覺觀察到的一致性效應很可能主要由場景的語義屬性造成,而與一些低級視覺特征(如顏色、形狀等)的關系不大。但依據(jù) Logo的設計原則[21],Logo對象確實應當出現(xiàn)在背景中紋理較簡單、色彩較單調(diào)且與 Logo本身顏色分布明顯不同的區(qū)域。
具體而言,除了少數(shù)一些由純文字符號組成的 Logo(如 Google),絕大多數(shù) Logo在設計時具備其主體色調(diào)[21],同時在形狀輪廓方面,Logo一般都不呈現(xiàn)為規(guī)則的矩形結(jié)構(gòu)(如圖4所示)。因此在數(shù)據(jù)層面上,本文采用主顏色相似性比較算法,通過分別統(tǒng)計變換后的 Logo模板與隨機選取的背景放置區(qū)域在 HSV顏色空間中各顏色出現(xiàn)的頻率,選出最頻繁出現(xiàn)的2種顏色作為各自的主色,如果兩者的主色存在重疊,則更換背景圖片而后重新隨機選取背景放置區(qū)域,直到找到主色不重疊的位置進行合成。算法1給出了本文Logo圖像合成算法流程。
算法1 基于主顏色相似性比較的Logo圖像合成算法
輸入 變換后的Logo模板I*,隨機選取的背景圖像B
輸出 合成的Logo圖像B*
1) 在背景圖像B中隨機選取Logo模板I*的放置區(qū)域ROI,并使
2) 逐像素分別計算I*與ROI在HSV顏色空間中的顏色分布。
3) 分別統(tǒng)計(ROI),得到 I*和 ROI各自的 2個主色。返回類似[black, white]的二維數(shù)組。
4) if I*和ROI的主色存在重疊
5) 重新隨機選取背景圖像B。
6) return 1)
7) else
綜合以上4個過程,本文合成算法不僅可以實現(xiàn)基于上下文的大規(guī)模Logo圖像的自動合成,同時能夠保證毫無遺漏地對合成圖像中的每個Logo對象進行精確標注,圖9給出了本文合成算法的最終效果示例。
圖9 本文合成算法的合成效果示例
本文實驗采用的數(shù)據(jù)集源自奧格斯堡大學多媒體計算和計算機視覺實驗室維護并公開的FlickrLogos-32數(shù)據(jù)集,作為 Logo識別的benchmark數(shù)據(jù)集,其通常用于評估多類Logo檢測/識別以及真實圖像上的 Logo檢索方法。FlickrLogos-32共有8 420張圖像(包含6 000張不含Logo的圖像),分為32類Logo,每類為70張且均具有較為平坦的表面。在實際訓練過程中,本文嚴格按照該數(shù)據(jù)集的官方劃分標準,劃分每類Logo僅有10張圖像作為訓練樣本,剩下的60張則作為測試樣本,給定如此少的訓練樣本,一方面無疑對學習具有數(shù)百萬參數(shù)的深層神經(jīng)網(wǎng)絡提出巨大挑戰(zhàn),另一方面也為驗證訓練樣本缺乏條件下基于本文合成算法輔助 Logo識別任務的有效性提供基礎實驗平臺。
目標識別問題通常需要一定的評價指標來評估算法的性能,Logo識別領域中常用的評價指標是mAP(mean average precision)。mAP綜合表征了查準率(precision)和查全率(recall),其值越大,表明算法識別性能越好,本文中選擇mAP進行算法性能的評估。
表2 本文合成算法實驗結(jié)果及與文獻[12]的對比
首先本文基本復現(xiàn)了文獻[12]在 FlickrLogos-32數(shù)據(jù)集上的實驗結(jié)果,因為只有嚴格控制除了合成算法以外再無其他任何算法優(yōu)化,本文合成算法的有效性驗證及與文獻[12]方法的對比才有意義。具體而言,本文使用Faster R-CNN目標檢測算法作為Logo識別的算法框架,網(wǎng)絡結(jié)構(gòu)采用VGG-16,并將其在PASCAL VOC 2007目標檢測任務上預訓練的模型作為網(wǎng)絡的初始化權(quán)重,其他相關參數(shù)以及訓練策略均保持與文獻[12]相同。在復現(xiàn)結(jié)果的基礎上,利用本文合成算法自動地為每類Logo生成100張合成圖像以及相應的標注數(shù)據(jù),然后依次基于合成圖像和真實圖像進行Logo識別模型的訓練??傮w來說,與文獻[12]的對比實驗主要有以下3個過程。1) RealImg:僅使用320張帶標記的真實圖像進行模型的訓練。2) SynImg-32Cls:僅使用3 200張帶標記的合成圖像進行模型的訓練。3) SynImg-32Cls+RealImg:先使用3 200張合成圖像進行模型的預訓練,再使用320張真實圖像對模型進行精調(diào)。相關實驗結(jié)果如表2所示。需要說明的是,表2中第3大列實驗數(shù)據(jù)分別是每類Logo的AP(average precision)值。
表2中,單純使用真實圖像進行訓練,本文(RealImg(Ours))取得了與 RealImg([12])近似的實驗結(jié)果(50.5% VS 50.4%),雖然50.5%是一次實驗的結(jié)果,但是實際上針對RealImg本文進行了多次實驗,mAP值基本在50.0%上下很小幅度變化,導致實驗結(jié)果不穩(wěn)定的原因主要在于神經(jīng)網(wǎng)絡算法本身的隨機性(如Faster R-CNN使用隨機梯度下降的優(yōu)化算法),因此本文基本復現(xiàn)了文獻[12]在 FlickrLogos-32數(shù)據(jù)集上的實驗結(jié)果。而在此基礎上,采用本文合成算法的SynImg-32Cls(Ours)以及 SynImg-32Cls+RealImg(Ours)均相對于文獻[12]的方法取得明顯優(yōu)勢(32.6% VS 27.6%, 58.5% VS 54.8%),充分驗證了本文合成算法的有效性。更為值得一提的是,取得如此性能的提升既不依賴于額外的手工標注,也不需要像文獻[12]那樣構(gòu)建龐大的(463類)常見Logo模板集。
除此之外,筆者還觀察到以下情況。1) 僅使用10張真實圖像訓練,針對32類Logo的識別 Faster R-CNN就已經(jīng)取得較好的訓練結(jié)果(mAP 50.5%),這得益于遷移學習思想的運用,網(wǎng)絡的初始化權(quán)重本文使用的是在 PASCAL VOC數(shù)據(jù)集上預訓練的模型。2) 雖然SynImg-32Cls(Ours)相對于 SynImg-32Cls([12])有很大的提升,但是僅使用合成圖像進行訓練的效果仍與使用少量真實圖像的方法存在很大的差距,造成該現(xiàn)狀的潛在原因可能是真實圖像與合成圖像之間存在較大的分布差異,模型在合成圖像上學習到的細節(jié)難以泛化到真實圖像中,即通常所說的域漂移問題[29]。從這個角度上看,合成數(shù)據(jù)擴展訓練集方法的關鍵在于如何優(yōu)化合成算法以盡可能縮小合成圖像與真實圖像間的分布差異,而本文算法在本質(zhì)上也是通過利用多種類型的上下文信息在此方面進行嘗試與努力。3) 基于先使用合成與真實的混合數(shù)據(jù)進行訓練,再用真實圖像進行精調(diào)(fusion + RealImg)的訓練策略,模型將取得更好的訓練結(jié)果(mAP 58.9%)。文獻[12]中為了驗證課程學習思想的有效性,僅限于使用混合數(shù)據(jù)進行訓練,沒有再進一步地利用真實數(shù)據(jù)。實際上,筆者認為“先混合再真實”的訓練策略與課程學習“先易后難”的核心思想是一致的,這也啟發(fā)筆者擴展遷移學習的訓練思路,以往在訓練一個深層神經(jīng)網(wǎng)絡之前,筆者通常會在更通用的大數(shù)據(jù)集上進行預訓練以獲得網(wǎng)絡的初始化權(quán)重,而現(xiàn)在筆者可以預先將目標數(shù)據(jù)集與通用大數(shù)據(jù)集混合起來進行訓練,然后在目標數(shù)據(jù)集上進行精調(diào),這應當能取得可預期的更好結(jié)果。
圖10給出了基于本文合成算法在FlickrLogos-32測試集上的部分實例測試結(jié)果,可以發(fā)現(xiàn)算法對于目標的多尺度、多視角、旋轉(zhuǎn)變形以及部分遮擋等情形具備一定的頑健性。
圖10 基于本文算法在FlickrLogos-32測試集上的測試結(jié)果示例
為了定量地探究本文合成算法中每項改進細節(jié)對算法性能的影響,本文針對算法中的每項改進進行了補充實驗。這組實驗的基線方法為表 2中SynImg-32Cls + RealImg(Ours),每次實驗控制忽略合成算法中的一項改進細節(jié),訓練策略均按照先使用3 200張合成圖像進行模型的預訓練,再使用320張真實圖像對模型進行精調(diào),具體有以下5個過程。1) Transparent Only:用于合成的Logo模板僅選擇背景完全透明的 Logo圖像。2) Pixel-level Only:用于合成的Logo模板僅選擇像素級別的Logo掩碼。3) Random Context:用于合成的背景圖像任意選取,不考慮語義相關性。4) No Logo Transformations:合成前不對Logo模板進行任何變換。5) Random Position:合成圖像中 Logo模板的放置位置完全隨機。相關實驗結(jié)果如表3所示。
表3 本文合成算法每項改進對性能影響的定量實驗結(jié)果
表3中,從宏觀上可以看出,與基線方法相比,本文合成算法的每項改進對最終識別模型的性能提升都起到了促進作用,進一步驗證了基于本文合成算法的有效性。更具體地觀察到如下事實。1) 采用像素級別的Logo掩碼進行合成的效果要優(yōu)于采用背景完全透明的情形(58.1% VS 57.8%),這表明 Logo掩碼中包含的局部上下文信息對于相關特征的學習是有所裨益的,但相較而言仍是綜合使用兩者的效果更好。2) 不考慮上下文一致性的隨機背景選取做法會造成一定程度的性能損失(56.7% VS 58.5%),這表明合成圖像中全局上下文信息對于特定對象的識別有著關鍵的輔助作用。3) 針對Logo模板進行的增強變換對于性能提升的效果最顯著(56.3% VS 58.5%),這直接證明了傳統(tǒng)數(shù)據(jù)增強對最終模型的識別性能以及泛化能力有著非常重要的影響。4) 僅在數(shù)據(jù)層面上優(yōu)化合成位置的做法對算法性能會產(chǎn)生微小提升(58.2% VS 58.5%),性能提升受限的可能原因在于神經(jīng)網(wǎng)絡算法對于圖像細節(jié)的感知方式與人類視覺系統(tǒng)存在一定的差異,合成圖像中的一些低級視覺特征對于最終性能的影響較為有限。
最后,本文還探究了基于合成數(shù)據(jù)方法前提下參與訓練的合成樣本數(shù)量對算法性能的影響。
如圖所示,圖11(a)為僅用合成圖像進行訓練的結(jié)果,圖11(b)為先用合成圖像進行訓練、再用真實圖像進行精調(diào)的結(jié)果。從圖中可以看出,適度增加參與訓練的合成樣本數(shù)量能夠在一定程度上提升識別模型的性能。由于從該角度出發(fā)的探究更像是一項具體的調(diào)參工作,因此本文對此并未展開更加深入的研究。
圖11 合成樣本數(shù)量對算法性能的影響
本文針對深度學習框架下 Logo識別任務中標注數(shù)據(jù)缺乏的問題,從自動合成大規(guī)模訓練數(shù)據(jù)的角度,在現(xiàn)有合成思路的基礎上,提出了一種基于上下文的 Logo圖像合成算法。通過在FlickrLogos-32數(shù)據(jù)集上的詳細實驗,表明當只有少量標注數(shù)據(jù)可用時,采用本文的合成算法能夠在不依賴額外手工標注的前提下,實現(xiàn) Logo識別算法性能的較大幅度提升(mAP提升 8.5%,50.4% VS 58.9%,如表2所示),充分驗證了本文合成算法的有效性與優(yōu)越性,同時進一步表明多種類型的上下文信息能夠有效地提升目標識別算法的性能。此外,本文基于合成數(shù)據(jù)前提下探究的諸多訓練策略與方法具備一定的借鑒和推廣意義。由于對于合成圖像中 Logo位置的優(yōu)化本文仍停留在數(shù)據(jù)層面,如何更深層次地利用上下文信息以及進一步縮小合成樣本與真實樣本間的分布差異將是本文下一步的研究方向。
參考文獻:
[1]符亞彬. 基于 Logo標志檢測的暴恐視頻識別系統(tǒng)的設計與實現(xiàn)[D]. 北京: 北京交通大學,2016.FU Y B. Design and implementation of violence and fear video recognition system based on Logo mark detection[D]. Beijing:Beijing Jiaotong University,2016.
[2]GAO Y, WANG F, LUAN H, et al. Brand data gathering from live social media streams[C]//ACM International Conference on Multimedia Retrieval. 2014:169.
[3]PAN C, YAN Z, XU X, et al. Vehicle logo recognition based on deep learning architecture in video surveillance for intelligent traffic system[C]//IET International Conference on Smart and Sustainable City. 2013:123-126.
[4]HE K, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]//IEEE International Conference on Computer Vision. 2017:2980-2988.
[5]WANG X, SHRIVASTAVA A, GUPTA A. A-Fast-RCNN: hard positive generation via adversary for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2017:3039-3048.
[6]LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[M]//Computer Vision-ECCV 2016. Springer International Publishing, 2016:21-37.
[7]JOLY A, BUISSON O. Logo retrieval with a contrario visual query expansion[C]//International Conference on Multimedia 2009.2009:581-584.
[8]KALANTIDIS Y, PUEYO L G, TREVISIOL M, et al. Scalable triangulation-based logo recognition[C]//ACM International Conference on Multimedia Retrieval. 2011:1-7.
[9]ROMBERG S, PUEYO L G, LIENHART R, et al. Scalable logo recognition in real-world images[C]//ACM International Conference on Multimedia Retrieval. 2011:25.
[10]HOI S C H, WU X, LIU H, et al. LOGO-Net: Large-scale deep logo detection and brand recognition with deep region-based convolutional networks[J]. IEEE Transactions on Pattern Analysis &Machine Intelligence, 2015, 46(5):2403-2412.
[11]BIANCO S, BUZZELLI M, MAZZINI D, et al. Deep learning for logo recognition[J]. Neuro Computing, 2017, 245(C):23-30.
[12]SU H, ZHU X, GONG S. Deep learning logo detection with data expansion by synthesising context[C]//IEEE Winter Conference on Applications of Computer Vision. 2017:530-539.
[13]CHEN X, GUPTA A. Webly supervised learning of convolutional networks[C]//IEEE International Conference on Computer Vision.2016:1431-1439.
[14]SHRIVASTAVA A, GUPTA A, GIRSHICK R. Training region-based object detectors with online hard example mining[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2016). 2016:761-769.
[15]GUPTA A, VEDALDI A, ZISSERMAN A. Synthetic data for text localisation in natural images[C]//IEEE Computer Vision and Pattern Recognition. 2016:2315-2324.
[16]JADERBERG M, SIMONYAN K, VEDALDI A, et al. Reading text in the wild with convolutional neural networks[J]. International Journal of Computer Vision, 2016, 116(1):1-20.
[17]GEORGAKIS G, MOUSAVIAN A, BERG A C, et al. Synthesizing training data for object detection in indoor scenes[C]//Robotics:Science and Systems. 2017.
[18]EGGERT C, WINSCHEL A, LIENHART R. On the benefit of synthetic data for company logo detection[C]//ACM International Conference on Multimedia. 2015:1283-1286.
[19]REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. 2015:91-99.
[20]BENGIO Y, COLLOBERT R, WESTON J. Curriculum learning[C]//ACM International Conference on Machine Learning.2009:41-48.
[21]LIU B. Modest proposal for the principle of logo design[J]. Packaging Engineering, 2005, 127(2):222-222.
[22]OLIVA A, TORRALBA A. The role of context in object recognition[J]. Trends in Cognitive Sciences, 2007, 11(12):520.
[23]MOTTAGHI R, CHEN X, LIU X, et al. The role of context for object detection and semantic segmentation in the wild[C]//IEEE Computer Vision and Pattern Recognition. 2014:891-898.
[24]KATTI H, PEELEN M V, ARUN S P. How do targets, nontargets,and scene context influence real-world object detection?[J]. Attention Perception & Psychophysics, 2017(2):1-16.
[25]ZHOU B, LAPEDRIZA A, KHOSLA A, et al. Places: a 10 million image database for scene recognition[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 99: 1-1.
[26]GUO J, GOULD S. Deep CNN ensemble with data augmentation for object detection[J]. Computer Science, 2015.
[27]OLIVEIRA G, FRAZ?O X, PIMENTEL A, et al. Automatic graphic logo detection via fast region-based convolutional networks[C]//IEEE International Joint Conference on Neural Networks. 2016.
[28]MUNNEKE J, BRENTARI V, PEELEN M. The influence of scene context on object recognition is independent of attentional focus[J].Frontiers in Psychology, 2013, 4(8):552.
[29]NGUYEN H V, HO H T, PATEL V M, et al. DASH-N: joint hierarchical domain adaptation and feature learning[J]. IEEE Transactions on Image Processing, 2015, 24(12):5479-5491.