劉 廈,郝亞峰,仇梓峰,胡 炎
(1.中國電子科技集團公司第五十四研究所,河北 石家莊 050081;2.中國電子科技集團公司航天信息應用技術重點實驗室,河北 石家莊 050081)
隨著神經網絡結構的發(fā)展不斷完善,多種多樣的數據集也使用得越來越廣泛。在目標識別任務上,以數據集為基礎的深度智能學習算法具備較為優(yōu)秀的性能。然而,復雜場景與常規(guī)場景下的目標識別有顯著差異,復雜場景的環(huán)境具有不確定性,而且難以具備覆蓋完整樣本分布的稀缺數據集。已有數據集中的樣本類別通常是長尾分布的,這種分布條件極大地削弱了多數類別的有效數據量,導致復雜環(huán)境下的小樣本目標識別存在困難。
無人機遙感倉儲巡邏可有效避免不必要的人工風險,提高出檢頻率和檢測效率,降低巡邏成本。依靠穩(wěn)定的數據鏈路,可實時回傳無人機數據,還可存儲圖像、視頻以在必要時回看,有著巨大的發(fā)展?jié)摿?。針對此應用,已有相應的研究成果和配套解決方案不斷公布。然而,包括無人機倉儲巡邏在內的遙感目標識別任務普遍面臨識別環(huán)境復雜多樣、不確定性高、目標樣本稀少和質量不精等問題。以倉儲巡邏的安全隱患識別為例,其識別目標包括倉庫火情、違章建筑、違規(guī)車輛、道路、裸露土地、田地和水體等非自然行為導致的險情以及洪水、地震、山體滑坡和地質下陷等自然災害。
對于此類目標,常用的目標識別算法需要大量有效圖像提供足夠豐富的樣本特征進行訓練才能取得良好的性能;另一方面,大型庫區(qū)的識別目標圖像樣本采集難度巨大。受載荷分辨率和拍攝距離等因素限制,大量樣本分辨率低,成像質量不高,無法作為訓練數據。加之部分類別,如自然災害的發(fā)生頻率很低,致使可用于訓練的樣本規(guī)模小,而復雜且不確定的環(huán)境使得神經網絡無法利用開源數據集訓練,且不同任務間難以遷移和共享訓練數據,導致神經網絡算法在大型倉儲識別上的訓練難以收斂,性能十分局限。因此,復雜環(huán)境下的小樣本目標識別技術是推動人工智能在遙感領域落地的關鍵技術。
本文將從機器學習方法、高質量樣本生成和未知目標識別研究3個方面研究倉庫巡邏小樣本目標識別理論和方法。本文對小樣本機器學習方法和理論進行研究和總結;針對高質量樣本生成模型的特點,有機結合了有限示例法;為了克服倉庫巡邏中可訓練數據少的難點,研究零樣本目標識別的目標場景匹配方法。
人類可以對已存在的知識進行有效地利用,從而在少量訓練數據的幫助下,將已有知識在新的領域內進行遷移和泛化,最終學習到新的概念,并且對新情況做出準確的預測及評估[1]?,F(xiàn)有的深度學習方法高度依賴于數據驅動,這些方法的被動學習能力相較于人類的自我學習能力而言,深度學習方法在泛化水平和通用性方面是遠遠落后于人類的。為了將數據缺失條件下的目標識別與檢測進行更好的解決,在模擬了人類的學習過程之后,進行更高效的機器學習方法的設計和實現(xiàn),其所體現(xiàn)的現(xiàn)實意義十分重要[2]。
國內外的學者在研究了樣本稀缺條件下的深度學習研發(fā)方向之后,提出了小樣本學習。此類問題基于僅僅提供有效目標的小批量數據進行設計,之后訓練多種可行性的機器學習模型,從而達到對目標進行有效識別的目的。以訓練樣本的數量等級為依據來對小樣本學習進行3個類別的劃分:① 訓練樣本數量為1,稱為單樣本學習[3];② 訓練樣本數量為0,稱為零樣本學習[4];③ 訓練樣本數量為數十,稱為小樣本學習。在本文中,將第三類問題作為主要研究內容,即樣本數量為數十個量級的機器學習。按照解決小樣本識別問題的技術實現(xiàn)方法,來對其算法進行劃分:① 元學習基類法。通常,在源域上,使用此類方法來學習網絡模型或者完成優(yōu)化器的第一次迭代,使得模型在進行快速迭代并泛化時保持在小數量的測試集目標域上;② 遷移學習基類法。該類方法對之前掌握的知識進行智能化應用來更好地解決新問題,主要方式是通過繼續(xù)訓練來微調預訓練網絡,從而提取知識并應用于目標任務;③ 數據生成基類法。該類方法旨在研究對源域的滿負荷數據進行應用,來進行模型的訓練以及生產,完成源域數據多種類特性至數據稀缺目標領域的遷移,并將充足的數據提供給目標域,使監(jiān)督學習存在實現(xiàn)的可能。目前,遙感領域內多用基于數據生成的方法,下面介紹數據生成的主流技術形式。
原圖像、圖像特征層面的增強數據為當前此類方法的主要組成部分。圖像特征層面的數據增強存在以下3種方法:① 四元組損失函數法,為了進一步豐富目標域的特征信息,去遷移源域中圖像特征中存在方差變化的目標類;② 額外類級別語義信息法,為使圖像特征域的有效數據能夠有效增強,進行圖像—語義—圖像的多重自編碼器的學習,使增加語義空間的擾動得以實現(xiàn);③ 基于生成對抗網絡的源域特征分布學習法,為了增強數據,可對目標域特征空間的新數據進行擴展。基于原始圖像信息的數據增強方式,不但能夠通過對拼圖法以及框架的學習,來更好地融合源域的目標與域以及圖像塊,使目標域的樣本數量有著一定程度的提高;而且對于目標域的小部分樣本以及源域相關的圖像,通過對圖像變形網絡的使用來實現(xiàn)進一步融合,亦可實現(xiàn)樣本的針對性增強。在原圖像層面中對原始數據進行增強,一般可通過生成對抗網絡和圖像塊組合法的方式來對源域中的原始圖像進行增量化創(chuàng)造。以下介紹幾種主要方法來解釋在圖像特征層面和原圖像層面進行數據生成的思路。
四元組增強法:一般而言,源域中的數據都呈現(xiàn)出較好的多樣性;對目標域進行小樣本問題的設定,通常各類數據間只有較小的方差。盡管可獲取目標域中的樣本數據并不是無限的,但源域與目標域中數據的變化模式以及分布有相似的部分。當前研究思路是對一個網絡進行訓練,在目標域數據中進行類別內的變換特征以及源域里方差信息的遷移,以此來實現(xiàn)新訓練數據的生成。為實施此種變換遷移方法,Hariharan等人[5]進行了一種四元組優(yōu)化方案的設計。這種方法對相應的生成網絡進行設計,以前3個元素的輸入特性為依據,而生成第4個元素。設計多元組模態(tài)生成對抗網絡,將圖像語義特征和其他特征映射到一種處于緊連接狀態(tài)下的多元空間,利用多元組損失函數對多元空間里的聯(lián)系進一步加緊,減少孿生跨模態(tài)樣本的特征長度。在目標領域,通過對源域中訓練好的網絡的直接使用,使對應的樣本能夠生成,以增強數據。
語義自編碼器:基于行為有效的先驗信息,類級別的語義信息可在更高層面上進行數據增強,其結構如圖1所示。Chen等人[6]利用了語義自編碼器在源域上訓練一個殘差網絡,該網絡主要是對任務進行分類,利用視覺特征為殘差網絡中選中的神經層提供優(yōu)化信息。此方法基于既有視覺特征,完成了一個從視覺至語義特征的編碼網絡的構造,對于解碼網絡,此方法還能夠進行反語義構造。視覺—語義—視覺的自編碼器就是通過編碼與解碼網絡共同構成的,并在源域上進行優(yōu)化訓練。
圖1 語義自編碼器結構Fig.1 Semantic auto-encoder structure
針對目標域的小數量樣本,在提取網絡與編碼網絡方面,通過源域訓練完備的特征來進行,在語義空間上進行目標域圖像的遷移,然后進行高斯噪聲的增加,最終增強樣本即可在目標域中生成。
生成對抗網絡:具備一種特定的判別器與生成器,且相互的交替博弈以及優(yōu)化能夠在兩種器件中持續(xù)實現(xiàn),生成對抗網絡即可在不斷優(yōu)化中獲得。該網絡可將高斯噪聲轉換為圖片分布,其結構如圖2所示。
圖2 生成對抗網絡結構Fig.2 Generative adversarial networks structure
在現(xiàn)有研究中,一般不直接將生成對抗網絡用于目標域圖片的構造性生產。常見方法是通過條件生成對抗網絡實現(xiàn)數據增強。除需進行高斯噪聲的輸入外,條件生成對抗網絡還需進行特定類別圖片的輸入,然后將對抗損失進行優(yōu)化,使得指定類別圖片在網絡中生成[7]。文獻[8]通過一種對抗損失源域至目標域間轉換關系,進行循環(huán)浮動的學習,此即為循環(huán)一致生成對抗網絡。但該方法因沒有較多的目標域圖片,從而造成源域到目標域轉換的對抗損失監(jiān)督信息出現(xiàn)異常。文獻[8]通過離散化源域至目標域的對抗損失,使其轉換結果等同于目標域至源域的轉換結果,從而對循環(huán)一致生成對抗網絡進行了改進。通過大量的實踐可以看出,針對文本、語音以及小樣本圖片識別,該方法所發(fā)揮的增強作用是較好的。
圖像塊組合法:通過對圖像融合技術的運用,來融合源域和目標域的信息,基于組合及融合來使新的訓練數據持續(xù)生成,并通過設計合理的機制處理大量無標識的樣本。文獻[6]通過對拼圖法以及自學習機制的使用,將無標識的、目標域以及源域數據進行組合而實現(xiàn)新訓練數據的生成。通過對迭代方法的優(yōu)化,對組合后的樣本進行擴充,在最終訓練時進行樣本插入。進行圖像塊的組合時,利用隨機的方式來加入圖像塊。對組合方式的訓練通過卷積形變網絡來優(yōu)化,并對原本的組合方式進行升級,最終完成任務相關性的隨機性升級,這是Chen等人[6]基于上述方法作出的改進。
通過已有的數據點X和數據分布P(X),隨機生成可觀測樣本,此為生成模型的基本問題,在機器學習中,代表一種特定的研究領域。圖像領域中對于生成模型的學習是基于對被捕獲的圖像像素點的關聯(lián)而實現(xiàn)的。學習生成的過程中,所有圖片均為超大數量的像素點,且相近的像素點具有的顏色是基本一樣的。那么,圖像像素點的顏色分布模型可以基于捕獲一致信息的方式來獲得。
生成模型的深度方向性網絡是通過多維變量進行概率分布求解的,分為以下2個領域:第一領域是無向圖模型,通過對隱含位面及顯示位面的有機融合,生成馬爾可夫模型的合并概率;第二領域是有向圖模型,位面派出一個可以隨機進行采樣的隱含層,通過貝葉斯模型進行數據的養(yǎng)成。生成模型的訓練過程是沒有受到監(jiān)督的,輸入不帶標簽數據,可以在生成模型的同時進行半監(jiān)督學習。比如,先利用大量無標簽數據訓練好模型,然后利用模型去提取數據特征,完成從數據層到隱含層的編碼過程,之后用數據特征結合標簽去訓練最終的網絡模型。
基于深度學習思想的生成模型主要有GAN(以及GAN的變種模型)和變分自編碼器(VAE)。表1將介紹對GAN與VAE進行優(yōu)化和衍生的各種不同模型。
表1 生成模型衍生變種的比較與區(qū)別Tab.1 Comparison and difference between the generated model derivatives
基于對抗模式的生成模型GAN[24],不同于其他生成模型中訓練過程涉及難以處理的計算,在實現(xiàn)時往往采取馬爾可夫鏈模特卡洛采樣(MCMC)。而GAN則是通過反向傳播完成整個網絡的訓練,其缺點包括訓練不穩(wěn)定,生成網絡會塌陷到某些數據點(比如,這些數據點目前看最像真實數據,生成網絡會不停生成這些數據點)。在基于深度卷積網絡的生成對抗模型(DCGAN)實現(xiàn)中,提出解決GAN中訓練不穩(wěn)定的措施,并利用對抗生成網絡來做半監(jiān)督學習。相對于其他生成模式,對抗生成模式模型清晰簡單。目前,對抗生成網絡也存在較多問題:① 生成圖片的像素及質量不高;② 復雜圖片的質量較低;③ 整體模型的穩(wěn)定性較差。在實際中,尤其對于復雜圖形,生成器經常很快收斂到某些單個數據集,使得整個模型的訓練陷入僵局。
自動編碼機(Auto Encoder)[23]為前饋神經網絡,同時還是基本生成模型。當前在生成模型中較多地使用自動編碼機,而以前則在特征提取以及數據降維中使用較多。解碼器與編碼器為原始自動編碼機的組成部分,還包括輸出、隱含以及輸入層,壓縮輸入的數據在編碼器中進行,適應性重構完成壓縮的數據在解碼器中進行。其衍生類也很多,在對隱含層增加稀疏約束之后,使隱含層中的多數節(jié)點被抑制,從降維效果來看,更好的是稀疏自動編碼機,進行訓練時,對網絡進行大量噪聲的增加,使模型的抗噪力有效增強。去噪自動編碼機[26]在輸入里直接進行噪音的增加,試著在輸出中重建原生的無噪純凈樣本。當前在使用較多的生成模型中,其中的一個就是差分自動編碼機(VAE)[27],可生成訓練樣本中不存在的樣本。但由于VAE是直接采用均方誤差而非對抗網絡,其神經網絡傾向于生成低等清晰度的圖像。
Luo等[28]提出了一種基于變分VAE和GAN的雙重框架,稱為雙重VAE-GAN,以產生比VAE更清晰的圖像視覺特征,并緩解GAN的模型崩潰問題。VAE-GAN為了避免生成不受約束的視覺特征,可以將特征強制映射回各自的語義空間。同時,使用循環(huán)一致性損失來促進多樣性并保持生成的圖像視覺特征的語義一致性。
Xian等[29]建立了一個統(tǒng)一的特征生成框架來解決小樣本問題,開發(fā)了一個條件生成模型來結合VAE和GAN的強度模式,并通過無條件鑒別器來學習未標記圖像的邊緣特征分布。所學習到的特征在生成框架中是可以被解釋的,通過將特征反轉回像素空間來進行可視化并生成文本參數來解釋特征與標簽的關聯(lián)性。
零樣本條件下的基于語義信息的未知目標識別(又稱為零樣本目標識別),是在不依賴目標識別數據集的圖像標簽對的情況下,對未知目標進行檢測及識別。通過研究零樣本目標識別,可以不需要真實場景數據就可以對訓練數據集中不存在的物體進行識別,在真實數據集難以采集且需要識別的目標樣本量極少的條件下適用。同時,也適用于當前需要解決的無人機倉儲巡邏問題。一方面?zhèn)}庫中需要識別的危險任務、可疑車輛和違章建筑等目標數量少;另一方面,由于數據保密等原因使得可用于訓練的數據稀缺。因此和零樣本目標識別的目標場景匹配,因其廣泛的應用領域,零樣本目標識別具有重要的研究意義。
目前,零樣本目標識別的主要思路是將圖像經過一個預訓練的CNN提取視覺特征向量,同時將圖像的類別標簽用預訓練好的網絡轉化為語義向量,接著用淺層神經網絡學習到的映射,進行零樣本圖片分類的工作,接下來再使用常用目標識別網絡(如Faster RCNN,YOLO和SSD等)對目標進行識別,配合之前的零樣本分類就完成了零樣本目標識別。
Frome等[30]采用上述思路,利用預先訓練好的詞向量轉換模型將深度特征進行適應性變換,得到目標詞向量,并通過判斷這個詞向量和標簽的接近性距離來判斷未見過的物體類別。Morgado等[31]則是將學習到的深度特征使用碼字進行深度編碼,編碼的深度特征可通過已有的類別語義關系映射到異向類別上。
Zhao等人[32]利用元學習模型融合少量標記數據從而快速適應新的目標識別任務。這種基于對抗性魯棒神經網絡的元學習方法,稱為長期交叉學習(LCAT)。LCAT將沿著自然和對抗性樣本分布方向,通過長期更新元學習模型參數,以提高對抗性和位于少數圖像模型的分類精度。
面向倉庫巡邏的小樣本目標識別,其核心是針對小樣本的機器學習的方法和理論,關鍵是要解決小樣本學習中的過擬合問題。將有監(jiān)督以及小樣本圖像分類任務進行比較,在訓練機器學習模型的過程中,過擬合現(xiàn)象較易產生,在實際測試集上,所獲的模型沒有較好的性能,這是因為目標域類別只有在小數量樣本中才有。
為了解決以上問題,一方面需要研究基于有限示例的高質量樣本生成模型,關鍵是要提高整個模型的穩(wěn)定性,避免生成模型快速收斂到某些單個數據集,使生成失效;另一方面,需要研究零樣本條件下基于語義信息的未知目標識別,其核心是不借助目標識別數據集的圖像標簽對的情況下,對未知目標進行目標識別,關鍵是要解決對零樣本目標的語義特征抽取問題,并從判別性角度,將其與源類來加以區(qū)分。
在未來工作中,面向倉儲巡邏背景,將針對無人機視角下的目標識別、火點檢測、人臉識別以及車牌識別等研究方向,致力于解決復雜背景及小樣本難題中無人機視角下的智能感知出現(xiàn)的虛警率高、置信度低等情況。綜合利用語義分割、含義解析和多源探測等技術,對歸宿領域中的原始數據建立先驗知識庫,支持無人機在做目標識別業(yè)務時,同步輸出當前目標所處的語義環(huán)境,完成目標區(qū)域中合作語義的形成,提高無人機智能感知的準確性,在一定程度上可解決小樣本學習中未知目標的檢測及識別難題。