摘要:圖像理解是計算機視覺領域一個非常難的科學問題,傳統(tǒng)的圖像處理方法很難給出比較有效的解決方案。深度學習技術(shù)相比于傳統(tǒng)圖像處理分析技術(shù)具有獨特的優(yōu)勢,因此其在圖像理解任務中獲得了比較好的結(jié)果。本文對基于深度學習的圖像理解技術(shù)的研究現(xiàn)狀進行了分析與對比,并對后續(xù)的發(fā)展進行了展望。
關(guān)鍵詞:圖像理解;深度學習;深度神經(jīng)網(wǎng)絡;計算機視覺
一、概述
圖像視覺信息是人類感知外部世界的重要信息來源,研究表明人類感知信息80%來源于視覺。視覺信息具有多樣、靈活、多變等特點,包含的信息量大而豐富,人類可以通過發(fā)達的大腦快速的處理視覺信息,并給出其語義理解。
然而計算機在圖像理解方面卻很難做到這一點,一方面由于圖像信息量過大,而計算機計算能力有限;另一方面由于早期的視覺信息處理技術(shù)不能夠滿足圖像理解的需求[1]。
二、基于深度學習的圖像理解技術(shù)
傳統(tǒng)的圖像理解技術(shù)只能實現(xiàn)圖像的識別與分類等初級任務,然后利用識別的結(jié)果進行分析處理,并未達到利用計算機對圖像進行直接理解的層面。深度學習提出以后,圖像理解技術(shù)有了一個質(zhì)的飛躍,從傳統(tǒng)的簡單識別圖像到能夠讀懂圖像所表達的內(nèi)容?;谏疃葘W習的圖像理解技術(shù)主要有三類:早期主要是采用基于檢索的方法;隨著技術(shù)的發(fā)展,基于模板技術(shù)的圖像理解方法被提出;近年來更加有效的端到端方法,能夠更加有效的實現(xiàn)對圖像內(nèi)容的理解。
基于檢索的圖像理解方法,通過深度網(wǎng)絡提取圖像的特征信息,然后從已有的圖像信息庫中檢索對應的相似圖像,從而獲得圖像的詞語表達,這就要求圖像數(shù)據(jù)庫要具有豐富的種子信息[2]。
基于模板的圖像理解方法通過圖像目標識別以及語言模型兩個模塊完成圖像的理解。圖像目標識別算法檢測出圖像中所包含的目標關(guān)鍵詞,然后利用語言模板生成完整的句子。這兩部分具有相對的獨立性,目標檢測算法負責圖像內(nèi)目標的識別,可單獨進行訓練;語言模型利用目標識別結(jié)果生成合理的句子,語言模型的訓練同樣可單獨進行。然而在這種方式下,圖像目標的檢測與語言的生成是脫節(jié)的,語言模型無法根據(jù)圖像的背景信息等,對圖像進行綜合的表達。
基于端到端的圖像理解技術(shù),能夠?qū)崿F(xiàn)輸入圖像到語言表達的一體化訓練,從而克服了基于模板的圖像理解技術(shù)的缺陷,利用深度神經(jīng)網(wǎng)絡,建立輸入圖像與目的標注之間的映射,基于端到端的圖像理解模型包括NIC模型、基于注意力的圖像理解模型、稠密圖像標準模型等等。在建立輸入圖像與語言模型之間的映射關(guān)系時,主要還是利用目標檢測技術(shù)實現(xiàn)目標的檢測,并用于語言模型的生成,只是這兩部分被有機的統(tǒng)一在一起,實現(xiàn)網(wǎng)絡的一體化訓練,從而實現(xiàn)網(wǎng)絡對圖像更好的理解。在對圖像進行理解的過程中,圖像內(nèi)的目標固然很重要,而背景信息有時也起決定性作用,因此背景信息的使用也是不可忽視的[3]。如下圖是所示,如果不根據(jù)背景信息判斷所選區(qū)域,計算機算法將認為所選部分為個人臺式電腦,而如果采用背景信息,則可判斷所選區(qū)域為一座現(xiàn)代大樓。
單個句子或是多個短語往往很難將圖像內(nèi)的所有信息進行有效的表達,隨著技術(shù)的發(fā)展,圖像段落化描述技術(shù)被提出,通過該模型能夠?qū)D像內(nèi)所表達的內(nèi)容利用多個句子進行描述,包含了圖像內(nèi)眾多的細節(jié)信息,相比與單個句子、多個短語的表達方式,基于段落的表達能夠更好地表達圖像的信息,如下圖2所示為圖像的段落描述[4]。
一個男人在一條街道上駕駛著一輛馬車,兩個人坐在馬車上,馬車是木質(zhì)的,馬車是黑色的,背景建筑是白色的。
三、發(fā)展前景
盡管深度學習技術(shù)使計算機圖像理解取得了大幅的進步,但與人眼相比差別還是非常大,并且還有很多待解決的問題,如計算機的表達很僵硬,并且經(jīng)常會出現(xiàn)重復性的表達;圖像中的小的細節(jié)容易被忽略掉,而影響了圖片所表達的內(nèi)容等等。因此,學者們也都在不斷的改進和提出新的模型,以改善和解決現(xiàn)有模型所出現(xiàn)的問題,從而實現(xiàn)計算機通過視覺理解場景內(nèi)容。
參考文獻:
[1]鮑泓,徐光美,馮松鶴,等.自動圖像標注技術(shù)研究進展[J].計算機科學,2011,38(7):35-40.
[2]霍華,趙剛.基于改進視覺詞袋模型的圖像標注方法[J].計算機工程,2012,38(22):276-278.
[3]邱澤宇,方全,?;w,等.基于區(qū)域上下文感知的圖像標注[J].計算機學報,2014,37(6):1390-1397.
作者簡介:
張彩霞,機械設計及理論專業(yè)碩士,工程師,威海職業(yè)學院,機械制造與制造專業(yè),教師。