• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      注意力機(jī)制海洋場(chǎng)景圖像理解算法

      2022-05-19 13:30:20文莉莉
      關(guān)鍵詞:分詞注意力卷積

      鄔 滿,文莉莉,孫 苗

      1.廣西壯族自治區(qū)海洋研究院 信息科,南寧 530022 2.自然資源部海洋信息技術(shù)創(chuàng)新中心,天津 300171 3.廣西大學(xué) 電氣工程學(xué)院,南寧530007 4.廣西壯族自治區(qū)藥用植物園 信息產(chǎn)業(yè)辦,南寧 530023

      隨著我國(guó)經(jīng)濟(jì)社會(huì)的高速發(fā)展,沿海地區(qū)對(duì)于海洋資源的開發(fā)力度持續(xù)加大,我國(guó)海洋管理面臨著越來(lái)越嚴(yán)峻的挑戰(zhàn),但是受開發(fā)理念、開發(fā)方式、監(jiān)管困難及利益驅(qū)動(dòng)等多方面的影響,我國(guó)沿海違規(guī)開發(fā)(偷填、超填、閑置)、隨意圍墾種養(yǎng)殖、破壞紅樹林等生態(tài)環(huán)境、盜采海砂、非法挖礦采石、垃圾偷排與傾倒等行為,使海洋資源與生態(tài)環(huán)境受到嚴(yán)重破壞[1]。因此,加強(qiáng)海洋資源監(jiān)測(cè)、海域利用現(xiàn)狀調(diào)查、海洋工程批后監(jiān)管,對(duì)重點(diǎn)區(qū)域進(jìn)行常態(tài)化動(dòng)態(tài)監(jiān)測(cè)顯得尤為必要。

      無(wú)人機(jī)遙感監(jiān)測(cè)具有機(jī)動(dòng)靈活、高分辨率、成本低、風(fēng)險(xiǎn)小等特點(diǎn),彌補(bǔ)了衛(wèi)星遙感監(jiān)測(cè)的不足,已成為重要的測(cè)繪與監(jiān)測(cè)工具,廣泛應(yīng)用于國(guó)土、海洋、規(guī)劃、農(nóng)業(yè)、災(zāi)害、資源、環(huán)境、公安等多個(gè)領(lǐng)域[2]。然而,隨著無(wú)人機(jī)技術(shù)的迅速發(fā)展,無(wú)人機(jī)獲取遙感圖像的規(guī)模呈暴發(fā)式增長(zhǎng),僅僅依靠人工來(lái)對(duì)這些海量的無(wú)人機(jī)圖片進(jìn)行整理、分類、審查與標(biāo)注,工作量將非常巨大,效率也十分低下,難以滿足對(duì)我國(guó)遼闊海域的動(dòng)態(tài)監(jiān)管工作[3]。因此,采用人工智能技術(shù)實(shí)現(xiàn)對(duì)日常海域監(jiān)管中的海量無(wú)人機(jī)圖像進(jìn)行圖像翻譯與智能審查,自動(dòng)生成圖片審查報(bào)告,將極大地提高監(jiān)管效率,節(jié)約大量的人力和時(shí)間成本,為有效地保護(hù)海洋資源和環(huán)境提供有力的技術(shù)保障,促進(jìn)海洋經(jīng)濟(jì)健康可持續(xù)發(fā)展。

      圖像翻譯的主要目的是對(duì)給定的圖片輸出文本描述內(nèi)容,例如圖像的主體、主體之間的關(guān)系、圖像的情景等信息[4]。圖像文本描述最早在2010年提出。近年來(lái)關(guān)于圖像翻譯的研究越來(lái)越多,其中比較經(jīng)典的有監(jiān)督模型包括Pix2Pix、BicycleGAN等,無(wú)監(jiān)督模型包括CycleGAN、MUNIT、StarGAN、DRIT等[5]。由于這些模型無(wú)論是針對(duì)多領(lǐng)域翻譯還是單領(lǐng)域翻譯都是將目標(biāo)域圖像的風(fēng)格、屬性整體遷移到源域圖像上,雖然這些方法可以很好地解決風(fēng)格統(tǒng)一或者內(nèi)容相關(guān)的圖像翻譯問(wèn)題,但對(duì)于有大量復(fù)雜目標(biāo)且目標(biāo)與背景之間的風(fēng)格差異非常大的復(fù)雜結(jié)構(gòu)圖像翻譯來(lái)說(shuō)是很困難的[6]。常用的圖像翻譯方法主要分為三類:基于生成式的描述方法、基于檢索式的描述方法和基于深度學(xué)習(xí)的描述方法。本文主要探討基于深度學(xué)習(xí)的描述方法[7]。

      基于深度學(xué)習(xí)的描述方法一般采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)對(duì)圖像特征進(jìn)行編碼,采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)提取圖像特征并逐步生成文本描述[8]。2014年百度提出的m-RNN模型首次提出用CNN編碼圖像特征,用RNN生成描述文本[9]。該模型也成為眾多基于深度學(xué)習(xí)獲取圖像描述任務(wù)的基準(zhǔn)模型。2018年Zhang等人提出一種基于文本使用注意力機(jī)制的方法,采用tdgLSTM方法對(duì)單詞嵌入取平均,與圖像特征編碼融合后作為注意力機(jī)制的輸入并產(chǎn)生文本描述[10]。近年來(lái),國(guó)內(nèi)研究人員也越來(lái)越關(guān)注圖像翻譯技術(shù)的研究:2018年周治平提出一種結(jié)合自適應(yīng)注意力機(jī)制和殘差連接的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)的圖像翻譯模型[11];2019年朱欣鑫提出一種基于堆疊注意力機(jī)制和多級(jí)監(jiān)督的圖像描述算法[12];同年,常智提出一種基于多模態(tài)融合的圖像描述方法,采用一種時(shí)序卷積結(jié)構(gòu)提取語(yǔ)句特征,將句子特征融合進(jìn)每個(gè)RNN時(shí)間片,從而增強(qiáng)RNN對(duì)歷史單詞的長(zhǎng)距離相關(guān)性建模[13]。

      然而,由于自然資源監(jiān)測(cè)應(yīng)用場(chǎng)景復(fù)雜,監(jiān)測(cè)目標(biāo)有著多樣化、多尺度、時(shí)空關(guān)聯(lián)的復(fù)雜特征,描述比較困難,圖像翻譯技術(shù)在國(guó)土、海洋、測(cè)繪等自然資源領(lǐng)域的應(yīng)用還處在探索階段。因此,探索利用人工智能技術(shù),自動(dòng)對(duì)海量的自然資源監(jiān)測(cè)圖像進(jìn)行篩選與標(biāo)注,對(duì)提高自然資源的綜合監(jiān)管能力和效率有著至關(guān)重要的作用。

      為了解決上述問(wèn)題,本文提出基于LSTM的復(fù)雜海洋場(chǎng)景圖像翻譯方法。主要貢獻(xiàn)如下:

      (1)提出一種基于注意力機(jī)制、面向海域監(jiān)管的復(fù)雜海洋場(chǎng)景圖像有效特征提取方法。復(fù)雜場(chǎng)景圖像中常存在多義和不確定的事物、隱式和顯式的信息,尤其是目標(biāo)多尺度、對(duì)象多樣化、風(fēng)格差異大的復(fù)雜海洋場(chǎng)景圖像,如何充分結(jié)合圖像特征和行業(yè)先驗(yàn)知識(shí),有效進(jìn)行復(fù)雜圖像關(guān)注點(diǎn)與有效特征的提取,是復(fù)雜海洋場(chǎng)景圖像翻譯中待解決的關(guān)鍵問(wèn)題和難點(diǎn)。

      (2)提出一種基于改進(jìn)LSTM的復(fù)雜海洋場(chǎng)景圖像翻譯算法。海域監(jiān)管應(yīng)用場(chǎng)景復(fù)雜,監(jiān)測(cè)目標(biāo)有著多樣化、多尺度、時(shí)空關(guān)聯(lián)的復(fù)雜特征,自動(dòng)生成合適的文本描述與中文分詞比較困難,這既需要復(fù)雜的中文分詞規(guī)則與深度學(xué)習(xí)模型,還需要專業(yè)的海洋管理行業(yè)知識(shí)和豐富的海洋管理行業(yè)經(jīng)驗(yàn)。因此,如何將人工智能技術(shù)與海洋管理知識(shí)充分結(jié)合,構(gòu)建面向海域監(jiān)管的復(fù)雜海洋場(chǎng)景圖像翻譯方法,對(duì)實(shí)現(xiàn)我國(guó)遼闊海域的高效、大范圍、智能化監(jiān)管有著至關(guān)重要的作用。

      (3)以準(zhǔn)確率、時(shí)間消耗和內(nèi)存消耗作為評(píng)價(jià)指標(biāo)對(duì)提出的算法在公共數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),對(duì)算法的有效性和優(yōu)越性進(jìn)行了分析。

      1 相關(guān)技術(shù)

      1.1 視覺(jué)注意力機(jī)制

      視覺(jué)注意力機(jī)制是一種模擬人腦注意力機(jī)制的算法,能夠快速掃描圖像并忽略無(wú)用信息,獲取圖像的關(guān)鍵區(qū)域信息,即注意力焦點(diǎn),然后針對(duì)焦點(diǎn)區(qū)域進(jìn)行細(xì)節(jié)提取與處理[14]。這種方法可以快速、有效地提取復(fù)雜圖像的關(guān)鍵特征,因此被廣泛應(yīng)用于圖像識(shí)別領(lǐng)域,如自動(dòng)駕駛。按注意力的可微性來(lái)分,注意力機(jī)制可以分為強(qiáng)注意力和軟注意力[15]。強(qiáng)注意力是更加關(guān)注點(diǎn),每個(gè)點(diǎn)都有可能延伸出注意力,它是一個(gè)隨機(jī)的預(yù)測(cè)過(guò)程,不可微,用0或1表示哪些點(diǎn)被注意哪些不被注意[16]。軟注意力更關(guān)注區(qū)域或通道,其最重要的特點(diǎn)是可微,用0~1之間的數(shù)值來(lái)表示每個(gè)區(qū)域的被關(guān)注程度,可用于描述[0,1]間連續(xù)分布的問(wèn)題[17]??晌⒎质沟盟梢酝ㄟ^(guò)神經(jīng)網(wǎng)絡(luò)計(jì)算出梯度,并且注意力的權(quán)重可以利用前向傳播和后向反饋學(xué)習(xí)來(lái)得到。因此,它常來(lái)解決目標(biāo)分類問(wèn)題,經(jīng)常用到的視覺(jué)注意力機(jī)制網(wǎng)絡(luò)有SENet、SKNet、CBAM等[18]。

      大多數(shù)的注意力機(jī)制均是基于Encoder-Decoder框架,它是一個(gè)廣泛應(yīng)用于文本處理、圖像識(shí)別、語(yǔ)音識(shí)別等各個(gè)領(lǐng)域的通用框架[19]。通過(guò)對(duì)Encoder和Decoder的各種不同組合,可以得到CNN、RNN、LSTM等不同的網(wǎng)絡(luò)模型[20]。用x表示輸入,y表示輸出,h是Encoder階段的轉(zhuǎn)換函數(shù),H是Decoder階段的轉(zhuǎn)換函數(shù),W表示權(quán)重,c表示不同的注意力集中程度,即分配的概率大小,c i是由h1,h2,…,h n與Wti加權(quán)求和所得,則Encoder-Decoder框架可以表示如圖1所示。

      圖1 引入注意力機(jī)制的Encoder-Decoder框架Fig.1 Encoder-Decoder framework with attention mechanism

      1.2 LSTM網(wǎng)絡(luò)模型

      循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)常用來(lái)解決一個(gè)事件序列的預(yù)測(cè)問(wèn)題,它具有一定的狀態(tài)記憶功能[21]。但當(dāng)時(shí)間較長(zhǎng)、狀態(tài)依賴關(guān)系較復(fù)雜時(shí),由于RNN在時(shí)間上共用權(quán)重,導(dǎo)致網(wǎng)絡(luò)權(quán)重更新緩慢,會(huì)出現(xiàn)梯度爆炸或梯度消失問(wèn)題[22]。因此,需要增加一個(gè)存儲(chǔ)單位來(lái)存儲(chǔ)記憶,解決長(zhǎng)期依賴問(wèn)題,這就是長(zhǎng)短時(shí)記憶模型(LSTM),它是RNN的一個(gè)變形[23]。LSTM的核心是細(xì)胞狀態(tài),也是整個(gè)模型的記憶空間[24]。目前改進(jìn)的LSTM有三個(gè)門:input gate、forget gate、output gate[25]。其中,input gate負(fù)責(zé)記憶現(xiàn)在的狀態(tài)信息,forget gate負(fù)責(zé)忘記過(guò)去某些狀態(tài)信息,output gate輸出最終結(jié)果[26]。forget gate可以控制是否忘記之前的存儲(chǔ)信息,因此可以解決梯度爆炸問(wèn)題。LSTM每個(gè)節(jié)點(diǎn)共有四個(gè)輸入和一個(gè)輸出,四個(gè)輸入包括輸入部分Z、輸入門Zi、輸出門Zo、遺忘門Z f。Zi、Zo、Z f三個(gè)門一般使用sigmoid函數(shù)作為激活函數(shù),激活之后使值在0到1之間,便于控制門的開關(guān),Z i能控制輸入Z走多遠(yuǎn),Z f負(fù)責(zé)刷新或重置記憶單元的值,Zo控制最后的結(jié)果能否被輸出。三個(gè)門的邏輯控制如下:

      (1)設(shè)記憶單元的初始狀態(tài)為c。

      (2)若輸入門關(guān)閉,即f(Zi)=0,則輸入為0;若f(Z i)=1,則輸入不變。

      (3)若遺忘門開啟,即f(Z f)=1,則c直接通過(guò),相當(dāng)于記憶單元保存了c的值;若f(Z f)=0,則忘記保存的值c。

      (4)若輸出門開啟,即f(Zo)=1,則輸出最后結(jié)果;否則若f(Zo)=0,則輸出也是0。

      通過(guò)三個(gè)門的控制,將LSTM內(nèi)部分成了三個(gè)階段:記憶階段、忘記階段和輸出階段。記憶階段由輸入門控制,根據(jù)信息的重要性進(jìn)行選擇性記憶,重要的著重記憶,不重要的則少記;忘記階段由遺忘門控制,選擇性忘記不重要的信息;輸出階段由輸出門控制結(jié)果是否被輸出。如圖2所示。

      圖2 LSTM模型結(jié)構(gòu)圖Fig.2 LSTM model structure diagram

      設(shè)每個(gè)神經(jīng)元的輸入用a表示,輸出用b表示;wij表示神經(jīng)元i到j(luò)的權(quán)重,用I、F、O表示input gate、forget gate、output gate的下標(biāo),c表示cell,wcI、wcF、wcO分別表示cell到各個(gè)門的權(quán)重,S c表示cellc的狀態(tài),NI、NH、NO分別表示輸入層、隱藏層、輸出層神經(jīng)元個(gè)數(shù),f、g、h分別表示控制門、cell的輸入輸出激活函數(shù),則input gate的推導(dǎo)公式如式(1)、(2):

      forget gate的推導(dǎo)公式如式(3)、(4):

      由上式可以看出,當(dāng)前時(shí)刻的狀態(tài)計(jì)算依賴于上一時(shí)間隱藏層的狀態(tài),有遞歸效應(yīng),因此LSTM模型具有較長(zhǎng)時(shí)間的記憶功能。

      2 算法研究

      2.1 基于注意力機(jī)制的復(fù)雜海洋場(chǎng)景圖像特征提取

      海洋場(chǎng)景圖像有著目標(biāo)多尺度(如塑料瓶、塑料袋等小目標(biāo)海洋垃圾,以及紅樹林、養(yǎng)殖池塘等海域利用大目標(biāo))、對(duì)象多樣化(有單純的個(gè)體目標(biāo),如漁船;有復(fù)雜的集群目標(biāo),如蠔排;有不確定的對(duì)象,如挖掘機(jī);也有復(fù)雜的對(duì)象行為分析,如挖掘機(jī)施工、采砂船采砂等)、風(fēng)格差異大(背景可能是海面、灘涂、海堤、碼頭、樹林、圍填海施工現(xiàn)場(chǎng)等,且干擾目標(biāo)多)等復(fù)雜特點(diǎn),如何有效提取圖像中的有效特征,對(duì)圖像描述的準(zhǔn)確生成有著至關(guān)重要的作用。復(fù)雜場(chǎng)景圖像中常存在多義和不確定的事物、隱式和顯式的信息,如何充分利用圖像特征和文本信息的融合特征,有效進(jìn)行圖像關(guān)注點(diǎn)的選取是圖像描述中仍待解決的關(guān)鍵問(wèn)題和難點(diǎn)。

      海洋場(chǎng)景圖像的復(fù)雜性體現(xiàn)在:(1)圖像內(nèi)容的復(fù)雜性,圖像中存在多尺度、多樣化的海洋目標(biāo)及復(fù)雜多變的背景。(2)時(shí)空關(guān)系的復(fù)雜性,如多對(duì)象之間的位置關(guān)系復(fù)雜,多張連續(xù)圖像之間的位置相關(guān)聯(lián)。

      海洋場(chǎng)景圖像的不確定性體現(xiàn)在:(1)對(duì)象的不確定性,如漁船與采砂船外觀相近,須結(jié)合其他特征來(lái)區(qū)分(如船運(yùn)動(dòng)軌跡上是否存在大量泥沙的痕跡)。(2)行為的不確定性,如在海邊發(fā)現(xiàn)有挖掘機(jī)或貨車,不能確定其是否是在進(jìn)行圍填海施工活動(dòng),或者漁船在海上作業(yè)是否違法須結(jié)合禁漁期的時(shí)間設(shè)定。如圖3所示。

      圖3 復(fù)雜海洋場(chǎng)景圖像示例Fig.3 Examples of complex ocean scene images

      復(fù)雜海洋場(chǎng)景圖像中常存在多義和不確定的事物、隱式和顯式的信息,如何充分結(jié)合海洋管理行業(yè)知識(shí),有效進(jìn)行圖像關(guān)鍵特征的提取,是實(shí)現(xiàn)圖像翻譯的關(guān)鍵問(wèn)題之一。圖像翻譯首先需要從圖像中提取特征,這些特征包括圖像中的紋理信息、物體信息、場(chǎng)景信息等。彩色圖像的實(shí)質(zhì)是數(shù)字矩陣,矩陣上每個(gè)位置的數(shù)字代表這個(gè)位置的色彩值。復(fù)雜圖像特征提取一般使用卷積神經(jīng)網(wǎng)絡(luò)。

      卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于它通過(guò)卷積核的權(quán)重共享機(jī)制大大減少了神經(jīng)網(wǎng)絡(luò)中參數(shù)的數(shù)量,由此也帶來(lái)訓(xùn)練速度上的大幅提升[27]。同時(shí)由于其卷積核能自動(dòng)提取區(qū)域特征的特殊結(jié)構(gòu),反而能取得比普通神經(jīng)網(wǎng)絡(luò)更好的表現(xiàn)效果。CNN的這種優(yōu)勢(shì)在數(shù)據(jù)量大且區(qū)域特征明顯的圖像類任務(wù)上顯得更加突出,圖像分類、目標(biāo)檢測(cè)等任務(wù)都基于CNN網(wǎng)絡(luò)取得了非常好的效果。

      卷積網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域已經(jīng)十分流行,經(jīng)典網(wǎng)絡(luò)有AlexNet、VGGNet、GoogLeNet等[28]。GoogLeNet最大的特點(diǎn)就是使用了Inception模塊,它的目的是設(shè)計(jì)一種具有優(yōu)良局部拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò),即對(duì)輸入圖像并行地執(zhí)行多個(gè)卷積運(yùn)算或池化操作,并將所有輸出結(jié)果拼接為一個(gè)非常深的特征圖。因?yàn)?×1、3×3或5×5等不同的卷積運(yùn)算與池化操作可以獲得輸入圖像的不同信息,并行處理這些運(yùn)算并結(jié)合所有結(jié)果將獲得更好的圖像表征。

      通過(guò)谷歌發(fā)表的論文Inception-v4,Inception-ResNet and the Impact of Residual Connections on Learning中的實(shí)驗(yàn)結(jié)果來(lái)看,Inception-v4和Inception-ResNet v2在分類任務(wù)上有著差不多準(zhǔn)確度,且明顯強(qiáng)于其他結(jié)構(gòu)的分類器[29]。Inception-v4網(wǎng)絡(luò),對(duì)于Inception塊的每個(gè)網(wǎng)格大小進(jìn)行了統(tǒng)一。

      Inception-v4可分為六大模塊,分別是Stem、Inception-A、B、C、Reduction-A、B,每個(gè)模塊都有針對(duì)性的設(shè)計(jì),模型總共76層。Stem(9層):3個(gè)3×3卷積堆疊;高效特征圖下降策略;非對(duì)稱分解卷積。Inception-A(3層):標(biāo)準(zhǔn)的Inception module。Reduction-A(3層):采用3個(gè)分支,其中卷積核的參數(shù)K、l、m、n分別為192、224、256、384。Reduction-B(4層):非對(duì)稱卷積操作部分,參考Inception-v3。Inception-C(4層):結(jié)構(gòu)參考自Inceptionv3。Inception-v4總共9+3×4+5×7+4×3+3+4+1=76層。

      圖4是Inception-v4的結(jié)構(gòu):所有圖中沒(méi)有標(biāo)記“V”的卷積使用same的填充原則,即其輸出網(wǎng)格與輸入的尺寸正好匹配。使用“V”標(biāo)記的卷積使用valid的填充原則,意即每個(gè)單元輸入塊全部包含在前幾層中,同時(shí)輸出激活圖(output activation map)的網(wǎng)格尺寸也相應(yīng)會(huì)減少。

      圖4 Inception-v4結(jié)構(gòu)圖Fig.4 Structure diagram of concept-v4

      Inception-v4模型可以很好地用于復(fù)雜圖像特征的提取,如圖5所示。將Inception-v4處理后的特征圖再輸入其他深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí),可以得到較好的圖像分類效果。本文用Inception-v4與VGG16兩種模型進(jìn)行了圖像分類對(duì)比實(shí)驗(yàn)。

      圖5 Inception-v4圖像特征提取Fig.5 Image feature extraction of Inception-v4

      2.2 基于LSTM的復(fù)雜海洋場(chǎng)景圖像描述生成

      目前的圖像描述生成算法主要是針對(duì)人物或動(dòng)物的場(chǎng)景進(jìn)行描述,相對(duì)比較單一;針對(duì)復(fù)雜多變的海洋場(chǎng)景圖像進(jìn)行自動(dòng)描述并生成圖像審查文本報(bào)告,是一項(xiàng)極具挑戰(zhàn)也十分有實(shí)用價(jià)值的研究工作,可以極大地節(jié)省海洋管理工作人員的審圖時(shí)間,提高其工作效率。

      目前使用效果較好的是基于長(zhǎng)短時(shí)記憶模型(LSTM)的深度學(xué)習(xí)圖像描述生成方法。LSTM模型作為每一步生成文本時(shí)使用的編碼單元,是文本生成中的基本結(jié)構(gòu),它是循環(huán)神經(jīng)網(wǎng)絡(luò)的變種之一。本文將CNN與LSTM結(jié)合起來(lái),利用CNN的圖像識(shí)別能力與LSTM的構(gòu)句法,將圖像數(shù)據(jù)和相應(yīng)的描述句子作為輸入,建立具備“看圖說(shuō)話”能力的圖像翻譯模型。具體處理步驟如下(如圖6所示)。

      圖6基于CNN和LSTM的圖像描述生成Fig.6 Image description generation based on CNN and LSTM

      (1)將圖像進(jìn)行縮放、裁剪、歸一化等預(yù)處理;

      (2)利用Inception-v4網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,得到特征圖;

      (3)將特征圖作為輸入,結(jié)合對(duì)應(yīng)的圖像描述語(yǔ)句,每幅圖像對(duì)應(yīng)3句以上描述語(yǔ)句,一起作為輸入傳入LSTM網(wǎng)絡(luò),供其學(xué)習(xí),建立圖像翻譯模型;

      (4)對(duì)模型進(jìn)行評(píng)價(jià)及優(yōu)化。

      圖像中文文本描述使用CNN結(jié)構(gòu)提取圖像特征。CNN結(jié)構(gòu)采用遷移學(xué)習(xí)的方法,將在大規(guī)模分類任務(wù)上訓(xùn)練好參數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)直接遷移到圖像描述任務(wù)的特征提取層。CNN輸出的特征向量作為L(zhǎng)STM解碼器單元的輸入和注意力機(jī)制的關(guān)注區(qū)域,帶有注意力機(jī)制的LSTM單元對(duì)將要生成的文本描述進(jìn)行逐字解碼。訓(xùn)練過(guò)程中開始時(shí)固定CNN的參數(shù)值,訓(xùn)練LSTM的參數(shù);當(dāng)損失值穩(wěn)定后,對(duì)CNN和LSTM的參數(shù)進(jìn)行聯(lián)合訓(xùn)練,使CNN能獲取到不同于分類任務(wù)的特征參數(shù)。針對(duì)中文分詞存在歧義性的問(wèn)題,采用基于字的生成。對(duì)訓(xùn)練中超參數(shù)的選擇,采用控制變量對(duì)比法。評(píng)價(jià)機(jī)制選擇了傳統(tǒng)的交叉熵?fù)p失函數(shù)值和針對(duì)機(jī)器翻譯等問(wèn)題提出的BLEU等方法。主要技術(shù)方法如下:

      (1)提取圖片中的時(shí)間地點(diǎn)信息

      無(wú)人機(jī)拍攝的照片基本都是以JPG格式存儲(chǔ)。通過(guò)編程提取JPG文件中Exif(exchangeable image file format)數(shù)據(jù)結(jié)構(gòu)中的經(jīng)緯度和時(shí)間信息,再通過(guò)阿里的逆地理編碼regeocoding請(qǐng)求或百度地圖api,將經(jīng)緯度轉(zhuǎn)換成對(duì)應(yīng)的地名。

      (2)復(fù)雜海洋場(chǎng)景描述中文分詞

      中文與英文描述最大的區(qū)別就在于分詞處理。英文每個(gè)單詞就是一個(gè)相對(duì)獨(dú)立的單元,用空格分開,程序很好區(qū)分;而中文由漢字組成,一個(gè)詞大多由多個(gè)漢字組成,且沒(méi)有任何標(biāo)記進(jìn)行分隔,一般程序較難實(shí)現(xiàn)準(zhǔn)確的自動(dòng)分詞。因此,需要專門考慮中文的分詞問(wèn)題。目前常用的中文分詞方法有基于詞典的方法和基于統(tǒng)計(jì)的方法。

      基于詞典的方法主要包括正向最大匹配法、逆向最大匹配法、雙向匹配分詞法、N-最短路徑方法等;其優(yōu)點(diǎn)是處理速度快,實(shí)現(xiàn)也很簡(jiǎn)單,缺點(diǎn)是對(duì)有歧義和未登錄的詞處理效果較差?;诮y(tǒng)計(jì)的方法包括隱馬爾科夫模型(hidden Markov model,HMM)、條件隨機(jī)場(chǎng)模型、最大熵模型、N元文法模型N-gram、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方法;其優(yōu)點(diǎn)是可以解決歧義和未登錄詞的問(wèn)題,還可以考慮上下文環(huán)境、詞頻等,但建立訓(xùn)練集需要大量的人工標(biāo)注和整理統(tǒng)計(jì),且速度很慢。在實(shí)際使用中經(jīng)常是將兩種方法結(jié)合起來(lái),這樣既能提高分詞速度,又能解決歧義和識(shí)別未登錄生詞的問(wèn)題。目前中文分詞使用最廣泛的Jieba分詞便是采用這種原理。

      Jieba分詞工具是目前應(yīng)用最廣、效果最穩(wěn)定的中文分詞工具,比基于深度學(xué)習(xí)(如LSTM)的分詞方法速度要快很多,且效果基本差不多。它是基于統(tǒng)計(jì)和詞典方法相結(jié)合的分詞方法,支持自定義詞典。其原理主要包括三部分:對(duì)于待分詞的句子,基于Trie樹詞典查找所有可能的路徑;然后基于動(dòng)態(tài)規(guī)劃查找概率最大的分詞路徑,找出基于詞頻的最大切分組合;對(duì)于未登錄詞,采用了具有漢字成詞能力的HMM和Viterbi算法來(lái)識(shí)別新詞。Jieba分詞工具使用的算法有Trie樹、有向無(wú)環(huán)圖、動(dòng)態(tài)規(guī)劃、隱馬爾科夫及Viterbi(維特比)算法,分詞模式支持精確模式、全模式、搜索引擎模式三種。本文采用Jieba分詞工具進(jìn)行復(fù)雜海洋場(chǎng)景的中文描述分詞,如圖7所示。

      圖7 Jieba分詞效果Fig.7 Jieba word segmentation effect

      (3)基于LSTM的復(fù)雜海洋場(chǎng)景圖像翻譯

      長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)能夠處理長(zhǎng)短不一的序列式數(shù)據(jù),比如語(yǔ)言句子。給定一個(gè)輸入,網(wǎng)絡(luò)能夠給出一個(gè)序列輸出。圖像到文字的問(wèn)題可以看作是一種機(jī)器翻譯,在現(xiàn)在的機(jī)器翻譯模型中,以LSTM為基礎(chǔ)的seq2seq模型成為主流。該模型的基本思想是,對(duì)于一個(gè)數(shù)據(jù)pair(A,B),因?yàn)锳和B表達(dá)的是同一個(gè)意思,所以存在某種隱含狀態(tài)h,使得A和B都對(duì)應(yīng)到h。于是seq2seq模型就先對(duì)A進(jìn)行編碼,得到一個(gè)數(shù)據(jù)表示,再基于這個(gè)數(shù)據(jù)表示去解碼,生成目標(biāo)語(yǔ)言的文字。本文基于此方法建立面向海域監(jiān)管的復(fù)雜海洋場(chǎng)景圖像翻譯模型,并研究自動(dòng)生成海域監(jiān)管報(bào)告的方法。如圖8、圖9所示。

      圖8 LSTM整體結(jié)構(gòu)圖Fig.8 Overall structure of LSTM

      圖9 基于LSTM的海洋場(chǎng)景圖像中文描述生成Fig.9 Generation of Chinese description of ocean scene image based on LSTM

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)集

      利用91衛(wèi)圖助手高清影像、自己制作的無(wú)人機(jī)高清影像、無(wú)人機(jī)航拍照片、外業(yè)調(diào)查照片及網(wǎng)絡(luò)圖片,針對(duì)環(huán)境污染(赤潮、海洋垃圾等)、破壞生態(tài)(盜采海砂、破壞紅樹林)、海洋養(yǎng)殖(網(wǎng)箱、蠔排)、圍填海施工這四類海洋場(chǎng)景,建立樣本圖像庫(kù)與測(cè)試圖像庫(kù)。為了擴(kuò)充數(shù)據(jù)樣本及防止過(guò)擬合,本文對(duì)每類樣本做了數(shù)據(jù)擴(kuò)充處理,包括顏色抖動(dòng)、角度旋轉(zhuǎn)、隨機(jī)裁剪、加噪聲等處理。每類場(chǎng)景圖像為3 000張以上,各抽出100張作為測(cè)試集,并隨機(jī)抽出100張作為交叉驗(yàn)證集。

      3.2 實(shí)驗(yàn)步驟與結(jié)果

      為了驗(yàn)證本文提出的算法,基于LSTM模型與場(chǎng)景先驗(yàn)信息相結(jié)合的方法,實(shí)現(xiàn)對(duì)復(fù)雜海洋場(chǎng)景監(jiān)測(cè)圖像的中文描述自動(dòng)生成。本文實(shí)驗(yàn)環(huán)境采用百度的Paddle-Paddle深度學(xué)習(xí)框架,python語(yǔ)言環(huán)境。具體步驟如下:

      (1)利用各種數(shù)據(jù)源,建立復(fù)雜海域場(chǎng)景樣本庫(kù)。

      (2)制作針對(duì)復(fù)雜海域場(chǎng)景圖像的中文描述數(shù)據(jù)集,每張圖片對(duì)應(yīng)5條描述。

      (3)使用Inception-v4網(wǎng)絡(luò)模型抽取圖像特征。

      (4)使用Jieba分詞工具,構(gòu)建輸入序列嵌入,將圖像描述的單詞轉(zhuǎn)換為其id序列號(hào),制作詞匯表和詞典。

      (5)構(gòu)建語(yǔ)言模型,設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)模型,訓(xùn)練出針對(duì)復(fù)雜海域場(chǎng)景的中文描述生成模型和海洋目標(biāo)識(shí)別模型。

      (6)針對(duì)日常海域調(diào)查及海域批后監(jiān)管工作中海量未標(biāo)注的無(wú)人機(jī)圖片,先解析出JPG文件中Exif數(shù)據(jù)結(jié)構(gòu)中的經(jīng)緯度和時(shí)間信息,再通過(guò)阿里的逆地理編碼regeocoding請(qǐng)求或百度地圖api,將經(jīng)緯度轉(zhuǎn)換成對(duì)應(yīng)的地名;再用訓(xùn)練出的模型自動(dòng)生成圖片描述信息,如“挖掘機(jī)在施工”“海上有大量蠔排”等;最后將時(shí)間、地點(diǎn)、圖片描述信息拼接起來(lái)作為圖片標(biāo)注信息及文件名,便于圖片分類歸檔及關(guān)鍵信息提取,可用于環(huán)境污染、生態(tài)環(huán)境破壞或違法用海行為的圖片篩選及預(yù)警,如“XX市XX區(qū)XX鎮(zhèn)_2020年3月31日_沙灘上有大量垃圾”(環(huán)境污染)、“XX市XX區(qū)XX鎮(zhèn)_2020年1月20日_挖掘機(jī)在施工”(非法圍填海)、“XX市XX縣XX鎮(zhèn)_2020年2月12日_船舶在開采海砂”(破壞生態(tài))。

      (7)使用putText方法將文字疊加到圖像上。如圖10所示。

      圖10 處理效果示例圖Fig.10 Processing effect examples

      (8)對(duì)識(shí)別出的海上目標(biāo)和疑似用海行為,確定其用海類型,并與規(guī)劃數(shù)據(jù)、海域使用權(quán)屬數(shù)據(jù)進(jìn)行疊加分析,判斷是否為非法用海;對(duì)非法用海行為進(jìn)行自動(dòng)記錄、存證,并生成數(shù)據(jù)包提供給管理部門和執(zhí)法部門進(jìn)行調(diào)查處理。

      另外,為了對(duì)比VGG16與Inception-v4模型的圖像特征提取與分類能力,本文從海洋場(chǎng)景樣本庫(kù)隨機(jī)抽取1 000張圖像進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明,Inception-v4的圖像分類能力明顯要高于VGG16網(wǎng)絡(luò)模型。如表1所示。

      表1 對(duì)比測(cè)試結(jié)果Table 1 Comparative test results

      3.3 存在的問(wèn)題及改進(jìn)措施

      由于海洋場(chǎng)景的復(fù)雜性,該模型還存在以下問(wèn)題:

      (1)專有名詞的分詞問(wèn)題。比如紅樹林、養(yǎng)殖網(wǎng)箱、養(yǎng)殖池塘、養(yǎng)殖蠔排等專有名詞需進(jìn)行專門的分詞處理,否則會(huì)分詞失敗,比如將紅樹林分成“紅”和“樹林”兩個(gè)詞。下一步計(jì)劃建立專門的海洋專題詞庫(kù),涵蓋海域海島管理、海洋生物、海洋環(huán)境、海洋防災(zāi)減災(zāi)等多個(gè)專題。

      (2)最佳語(yǔ)句的選擇。一幅海洋場(chǎng)景圖像往往含有多個(gè)目標(biāo)及多重含義,得出的參考句也有多種描述,且往往各種描述的概率均較低,造成很難合理選擇最佳描述語(yǔ)句,如表2所示。下一步將優(yōu)化中文描述樣本庫(kù),研究句子長(zhǎng)度對(duì)描述準(zhǔn)確性的影響,進(jìn)一步提高描述的準(zhǔn)確性。

      表2 數(shù)據(jù)樣例Table 2 Data sample

      4 總結(jié)

      受監(jiān)管手段落后與利益驅(qū)動(dòng)的影響,我國(guó)沿海海域違規(guī)開發(fā)行為屢禁不止,使海洋資源與生態(tài)環(huán)境受到嚴(yán)重破壞。近年來(lái)隨著無(wú)人機(jī)技術(shù)在海洋監(jiān)管中的廣泛應(yīng)用,監(jiān)管效率有了極大提高,但無(wú)人機(jī)獲取監(jiān)測(cè)圖像的規(guī)模呈暴發(fā)式增長(zhǎng),傳統(tǒng)的人工審查方式已越來(lái)越難完成對(duì)海量圖像的審查、標(biāo)注工作,無(wú)法實(shí)現(xiàn)對(duì)我國(guó)遼闊海域的動(dòng)態(tài)監(jiān)管。因此,本文針對(duì)海域監(jiān)管中的復(fù)雜海洋場(chǎng)景(目標(biāo)多尺度、對(duì)象多樣化、風(fēng)格差異大、時(shí)空強(qiáng)關(guān)聯(lián)且存在不確定性目標(biāo))特點(diǎn),研究復(fù)雜海洋場(chǎng)景圖像有效特征的提取方法,以及LSTM模型在海域監(jiān)管圖像翻譯中的應(yīng)用,提出并建立一種基于CNN和LSTM網(wǎng)絡(luò)的復(fù)雜海洋場(chǎng)景圖像中文描述生成模型,結(jié)合Jieba分詞工具,實(shí)現(xiàn)了對(duì)復(fù)雜海洋場(chǎng)景監(jiān)測(cè)圖像的自動(dòng)翻譯。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文方法可行,可以解決批量圖像的自動(dòng)標(biāo)注問(wèn)題。下一步將從海洋領(lǐng)域?qū)S忻~和最佳語(yǔ)句選擇方面繼續(xù)深入研究,進(jìn)一步提高算法的穩(wěn)定性和描述的準(zhǔn)確性。

      猜你喜歡
      分詞注意力卷積
      讓注意力“飛”回來(lái)
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      結(jié)巴分詞在詞云中的應(yīng)用
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      值得重視的分詞的特殊用法
      A Beautiful Way Of Looking At Things
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      青河县| 凌海市| 房产| 鹤峰县| 丰县| 崇州市| 哈密市| 房产| 鲁甸县| 泗阳县| 嘉祥县| 淅川县| 河池市| 高雄县| 三原县| 永泰县| 南涧| 通州市| 阳城县| 天津市| 安平县| 拉孜县| 怀宁县| 夏津县| 宾川县| 阿合奇县| 元氏县| 晋江市| 杭州市| 内丘县| 府谷县| 格尔木市| 汉寿县| 邵阳县| 常宁市| 长治县| 财经| 湖北省| 永州市| 邯郸市| 砀山县|