• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    遙感影像智能解譯:從監(jiān)督學習到自監(jiān)督學習

    2021-08-26 01:28:38陰紫薇李海峰
    測繪學報 2021年8期
    關鍵詞:范式語義樣本

    陶 超,陰紫薇,朱 慶,李海峰

    1.中南大學地球科學與信息物理學院,湖南 長沙 410083;2.中南大學有色金屬成礦預測與地質(zhì)環(huán)境監(jiān)測教育部重點實驗室,湖南 長沙 410083; 3.西南交通大學地球科學與環(huán)境工程學院,四川 成都 611756

    近20年來,隨著大量遙感衛(wèi)星相繼成功發(fā)射,標志著地球空間數(shù)據(jù)獲取新紀元的來臨。目前,我國已實現(xiàn)60~70顆遙感衛(wèi)星同時在軌工作,每天獲取的數(shù)據(jù)量達到數(shù)百個TB,數(shù)據(jù)總規(guī)模已接近100 PB[1],這些都表明遙感大數(shù)據(jù)時代已然來臨[2-5]。然而,與遙感影像數(shù)據(jù)獲取能力形成鮮明對比的是,當前遙感信息自動化處理能力依然十分低下,其現(xiàn)狀可描述為:“data-rich but analysis-poor”[6],即“大數(shù)據(jù),小知識”。因此,如何有效利用遙感大數(shù)據(jù)準確獲取所需要的信息,實現(xiàn)從數(shù)據(jù)到地學知識的智能轉(zhuǎn)化是目前亟待解決的問題,其背后關鍵技術與理論瓶頸“遙感影像智能解譯”依然是國內(nèi)外遙感領域共同面臨的開放科學問題。

    針對該問題,目前國內(nèi)外相關領域研究學者開展了大量的研究工作,結(jié)合當前研究進展和狀況,主要體現(xiàn)以下兩個發(fā)展特征:

    (1)在解譯對象方面,早期遙感影像智能解譯主要關注像素[7]和目標[8]這兩類對象。但隨著影像空間分辨率的不斷提高,由于像素或目標只包含較低層次的局部地物信息,通過該類解譯手段無法獲得與人類認知更為吻合的場景級語義信息(如工業(yè)區(qū)、商業(yè)區(qū)、學校等)。為滿足更高層次的遙感地物解譯需求,跨越從低層次圖像特征到高層次場景語義特征之間的“語義鴻溝”,結(jié)合更大解譯單元內(nèi)的上下文信息進行場景級影像分類已成為當前熱點研究問題[9]。

    (2)在模型算法方面,由于傳統(tǒng)手工特征結(jié)合監(jiān)督分類的解譯方式存在依賴啟發(fā)性專業(yè)知識、泛化能力較弱等問題,以深度學習為代表的數(shù)據(jù)驅(qū)動方法[10]憑借其強大的特征學習和多層次表達能力,在遙感影像智能解譯領域已得到廣泛關注,并取得了令人印象深刻的結(jié)果[11-13]。但深度學習方法依賴海量的標注數(shù)據(jù),而數(shù)據(jù)集的收集和人工標注需要耗費大量的人力成本,這一矛盾也使得該類方法在大區(qū)域、復雜場景下的遙感影像解譯任務中(如全球制圖[14])仍然面臨諸多挑戰(zhàn)。

    機器學習范式-自監(jiān)督學習已在機器學習領域漸受關注[15],目前已在自然語言處理[16]、自然圖像分析[17]等領域嶄露頭角,甚至在某些細分任務中的表現(xiàn)性能已超越監(jiān)督學習方法[18-19]。其主要思想是通過人工設計的自監(jiān)督學習信號從海量無標注數(shù)據(jù)中挖掘自身的監(jiān)督信息構成偽標簽,從而替代傳統(tǒng)人工標注數(shù)據(jù)來驅(qū)動模型進行全局特征學習,然后再通過特征遷移或域適配的方式完成具體的目標任務。這種“全局通用特征學習-局部特定任務遷移”的學習機制,可以大大降低對標注數(shù)據(jù)的依賴,具有解決大尺度遙感應用(如全球地表覆蓋,全球環(huán)境監(jiān)測)中由于標注樣本貧乏導致的解譯瓶頸問題的潛力。鑒于此,本文概述了以深度學習為代表的監(jiān)督學習方法在遙感影像智能解譯領域的主要研究進展,并對該類方法存在的問題和背后原因進行了深層次剖析。在此基礎上,介紹了自監(jiān)督學習范式的定義和常用方法,并分析了自監(jiān)督學習范式相對傳統(tǒng)監(jiān)督學習范式在遙感影像智能解譯任務中的優(yōu)勢和應用潛力,最后歸納了建立自監(jiān)督學習驅(qū)動的遙感影像智能解譯框架涉及的主要研究問題,以期推動自監(jiān)督學習技術在遙感影像智能解譯領域的發(fā)展與應用。

    1 有監(jiān)督的遙感影像智能解譯研究進展

    1.1 面向遙感影像智能解譯的監(jiān)督學習范式定義

    對應于人類認知遙感影像時思考“影像中存在哪些地物目標?”“這些地物目標在哪里?”“這些地物目標聯(lián)合起來展現(xiàn)什么樣的場景?”層層遞進的理解方式,也對應于從單一到全面的理解內(nèi)容,遙感影像智能解譯可分為像素級理解、目標級理解和場景級理解3個層次,如圖1所示。

    圖1 遙感影像智能解譯涉及的主要任務

    盡管這3種方式可認為是從不同層次、不同角度來理解遙感影像,但從信息提取的角度來看,它們本質(zhì)上都屬于一個模式識別與分類問題,采用監(jiān)督學習方式是目前解決該問題最主流也最具代表性的研究方向[20]。在監(jiān)督學習過程中,這3種理解方式分別以像素、目標和場景作為最小的學習單元,然后通過大量的標注樣本來進行特征表示和分類器訓練,以此建立從輸入影像數(shù)據(jù)x到其對應標簽y之間的函數(shù)映射關系f(x)用于后續(xù)未知樣本的分類與預測,具體流程可抽象為數(shù)據(jù)集標注、監(jiān)督模型構建、損失函數(shù)定義和最優(yōu)化學習4部分,其形式化數(shù)學描述表述如下

    (1)

    式中,f(x;w)表示監(jiān)督學習模型;w表示模型的參數(shù);f(x;w)本質(zhì)上用于描述本文將采用什么樣的特征和模型來表示并擬合數(shù)據(jù),以建立數(shù)據(jù)到真實標簽的函數(shù)映射關系;L表示損失函數(shù),本質(zhì)上描述監(jiān)督學習模型f(x;w)在什么度量標準下以什么形式逼近真實標簽y,主要解決模型預測值與真實標簽之間差異度量的問題;min表示最優(yōu)化求解器,主要解決在損失函數(shù)L的意義下如何通過調(diào)節(jié)模型參數(shù)w以縮小模型預測值與真實標簽差異的問題,它可以是隨機梯度法、進化算法等;D={(xi,yi)|i=1,2,…,N}表示人工標注數(shù)據(jù)集,其作用是給模型提供可學習的樣本和可驗證的真實標簽。在監(jiān)督學習過程中,真實標簽至關重要,它為模型學習提供了逼近的標準。

    1.2 人工構筑特征階段

    在深度學習方法出現(xiàn)之前,常用的監(jiān)督學習范式將監(jiān)督模型學習分解為遙感地物目標特征描述和分類器學習兩個獨立的模塊,然后分別進行優(yōu)化,如圖2所示。在特征描述方面,該階段常用的特征多為手工特征,包括底層特征和中層特征兩大類。底層特征可進一步細分為光譜特征、紋理特征、形狀特征及局部不變特征4類,代表性方法包括歸一化植被指數(shù)[21]、Gabor紋理[22]、形態(tài)學剖面[23]、形態(tài)學房屋指數(shù)[24]、Harris角點[25]、SIFT特征[26]等。為縮小視覺上的“語義鴻溝”,中層特征表達方法也在遙感影像智能解譯領域得到了快速發(fā)展,其主要思想為,通過對底層特征進行特征編碼以獲得對尺度、旋轉(zhuǎn)、光照等影像變化更為穩(wěn)健的特征表達。常用的中層特征編碼方法包括視覺詞袋模型[27]、狄利克雷多主題模型[28]、概率潛在語義模型[29]、層次貝葉斯模型[30]等。在分類器方面,遙感領域研究學者對此研究并不多,一般直接使用機器學習領域較為成熟的分類器,包括支持向量機[31]、隨機森林[32]、概率圖模型[33]等。

    圖2 手工特征階段的監(jiān)督學習范式

    這一階段采用手工特征結(jié)合監(jiān)督分類進行機器解譯很大程度上緩解了人工目視解譯的壓力,但是仍然存在兩點不足:

    (1)從特征描述的角度來看,手工設計特征費時費力,需要啟發(fā)式專業(yè)知識,且特征可分性依賴于經(jīng)驗上的參數(shù)設置,受主觀因素影響大。

    (2)從模型優(yōu)化的角度來看,該階段將遙感地物目標特征提取和分類器學習視為兩個獨立的模塊,然后分別進行優(yōu)化,容易收斂到局部最優(yōu)解。

    1.3 數(shù)據(jù)驅(qū)動的特征學習階段

    近年來,隨著大規(guī)模標注數(shù)據(jù)的發(fā)布和高性能計算的普及,以深度學習為代表的數(shù)據(jù)驅(qū)動方法憑借其強大的特征學習和多層次表達能力,在遙感影像智能解譯領域已得到廣泛關注,并取得了令人印象深刻的結(jié)果。深度學習以數(shù)據(jù)驅(qū)動的形式來學習特征,并通過“端對端”的方式將特征學習與分類器優(yōu)化嵌入同一個框架下進行聯(lián)合優(yōu)化,是其在遙感影像解譯任務上較傳統(tǒng)方法表現(xiàn)更優(yōu)的關鍵原因,如圖3所示。下面分別從場景分類、語義分割、目標識別3個方面介紹深度學習方法在遙感影像智能解譯領域的主要工作進展。

    圖3 特征學習階段的監(jiān)督學習范式

    1.3.1 場景分類

    遙感影像場景分類側(cè)重于影像內(nèi)容的整體理解,即可理解為一個圖像級分類問題。早期基于深度學習遙感影像場景分類工作的主要思路為:直接使用在大規(guī)模自然圖像數(shù)據(jù)集(如ImageNet[34])預訓練的卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)作為特征提取器,然后對網(wǎng)絡進行微調(diào)以一種遷移學習的思想完成遙感場景分類。這種“拿來主義”思想雖然在一些同樣只包含RGB 3個波段的航空遙感場景分類數(shù)據(jù)集上(如UC Merced、AID等)表現(xiàn)出較好的分類效果[35-36],但因微調(diào)過程中存在的數(shù)據(jù)通道數(shù)與網(wǎng)絡結(jié)構固化等問題,導致無法充分利用遙感數(shù)據(jù)豐富的光譜特征,也無法根據(jù)遙感場景分類任務特點優(yōu)化網(wǎng)絡結(jié)構。針對這一問題,許多研究學者選擇結(jié)合遙感影像及場景分類特點對網(wǎng)絡結(jié)構或目標函數(shù)進行再設計,然后從頭訓練整個網(wǎng)絡。如文獻[37]針對遙感影像場景分類中各類地物尺度差異大的問題,提出了一個包含固定規(guī)模網(wǎng)絡和可變規(guī)模網(wǎng)絡的雙重分支結(jié)構,從而實現(xiàn)在多尺度上對遙感場景進行訓練和學習。針對影像場景中多類地物目標共存的問題,文獻[38]將注意力遞歸卷積網(wǎng)絡用于場景分類,這種循環(huán)注意結(jié)構可以自適應地選擇并關注關鍵區(qū)域的信息并丟棄非關鍵信息,進一步提升了分類性能。文獻[39]研究發(fā)現(xiàn)對于包含豐富光譜信息的哨兵影像,使用所有光譜信息從頭訓練改進的ResNet網(wǎng)絡模型比預訓練模型表現(xiàn)更優(yōu)。另外,為改善遙感場景類內(nèi)差異大和類間差異小帶來的細粒度場景分類精度低的問題,文獻[40]通過引入深度度量學習方法建立新的特征空間,目標是在新的特征空間中聚集同類場景并拉遠不同類場景之間的距離以提升分類精度。

    1.3.2 語義分割

    遙感影像語義分割旨在為影像中每一個像素分配一個土地覆蓋標簽,即可理解為一個像素級分類問題。文獻[41]提出全卷積神經(jīng)網(wǎng)絡(fully convolutional networks,F(xiàn)CN)突破了卷積神經(jīng)網(wǎng)絡應用到語義分割領域的限制。全卷積神經(jīng)網(wǎng)絡一般采用編碼器-解碼器的框架結(jié)構,其中編碼器一般定義為一個下采樣網(wǎng)絡,主要用于學習多層次的語義特征。而解碼器一般定義為一個上采樣網(wǎng)絡,主要用于將編碼器學習到的語義特征映射到原始分辨率的像素空間用于像素級分類。目前在遙感領域,研究學者結(jié)合遙感影像特點對FCN進行了大量改進,如針對遙感地物類別豐富多樣、邊界復雜這一特點,文獻[42]通過設計反卷積和跳躍連接來改進解碼器以改善遙感地物邊緣細節(jié)提取效果;文獻[43]通過減小空洞卷積的擴展因子以聚合局部特征以解決FCN方法提取的地物邊緣細節(jié)模糊的問題。針對復雜遙感場景中地物多尺度問題,文獻[44]提出利用門控卷積結(jié)構(gated convolutional neural network,GCNN)完成不同層次特征圖之間的信息傳播以實現(xiàn)多尺度特征融合;文獻[45]基于分組卷積的設計思想提出一種高效帶空洞的空間金字塔網(wǎng)絡完成遙感地物要素多尺度信息提??;文獻[46]則結(jié)合空洞卷積和通道注意力機制實現(xiàn)自適應多尺度的語義分割。另外針對FCN由于固定感受野而無法自適應捕捉不同地物間長遠程依賴關系的問題,研究學者們利用遞歸神經(jīng)網(wǎng)絡、自注意力機制等方法對遙感地物長遠程上下文關系進行建模以進一步改善語義分割精度[47-49]

    1.3.3 目標識別

    遙感影像目標識別側(cè)重于分析和描述影像中地物目標的類別和其所處的位置,即可理解為一個對象級分類問題。目前基于深度學習的遙感影像自動地物識別方法主要可分為兩大類:

    (1)以R-CNN[50]、Fast-RCNN[51]、Faster-RCNN[52]等為代表的基于建議區(qū)域的目標識別方法。該類方法首先通過選擇性搜索算法或區(qū)域建議網(wǎng)絡(region proposal network,RPN)提取一組建議區(qū)域,然后在建議區(qū)域內(nèi)通過深度神經(jīng)網(wǎng)絡提取目標候選區(qū)域的特征,最后利用這些特征進行目標識別以及目標真實邊界的回歸。由于遙感影像背景復雜,算法給出的建議區(qū)域可能存在大量的噪聲,而過多的噪聲將會混淆物體信息、模糊目標的邊界細節(jié),進而導致漏檢并增加虛景。針對該問題,大量研究[53-54]發(fā)現(xiàn)在Faster-RCNN框架中引入空間注意力和通道注意力模塊能更好地捕捉復雜背景下的物體特征,提高目標識別算法的穩(wěn)健性。

    (2)以文獻[55—56]為代表的基于冋歸的目標識別方法。該類方法丟棄第一類方法中建議區(qū)域生成的思想,而直接通過構造一個回歸網(wǎng)絡來完成目標識別和定位,因此,較第一類方法在速度上有了較大的提升。另外,針對遙感影像目標具有任意角度的特點,文獻[57]提出在回歸預測目標位置的同時,也對目標的角度信息進行估計,可提供更準確的目標位置定位。針對密集小目標檢測問題,文獻[58]通過對YOLO網(wǎng)絡架構進行改進,加密了最后預測輸出的柵格數(shù)量,以改善小目標和密集目標群的檢測。

    1.4 監(jiān)督學習范式在遙感影像解譯應用中的局限性和解決思路

    盡管監(jiān)督學習是目前解決遙感影像解譯問題最為主流的方法,但如何利用遙感影像數(shù)據(jù)完成大區(qū)域、復雜場景下影像智能解譯任務仍然是一個世界性、開放性難題,要想從實質(zhì)上推進遙感智能解譯的發(fā)展,必須要認識到監(jiān)督學習范式存在的不足和局限性,如圖4所示。

    圖4 監(jiān)督學習范式在遙感解譯中存在的瓶頸問題

    (1)從數(shù)據(jù)層面上來看,深度神經(jīng)網(wǎng)絡的成功在于它在擬合大規(guī)模樣本的同時不會大幅犧牲泛化能力,但在遙感影像解譯領域,構建一個大規(guī)模、高質(zhì)量、完備的遙感場景分類數(shù)據(jù)集面臨著諸多挑戰(zhàn):首先從時間上來看,一個訓練樣本只能代表一個時間截面的采樣,而遙感影像解譯對象是全球性、高度動態(tài)變化的,其特征隨氣象,氣候,光照,季節(jié),衛(wèi)星成像條件等變化而變化,這種時間異質(zhì)性對樣本標注的質(zhì)量、規(guī)模和完備性提出了更高的要求。其次從空間上來看,由于氣候光照條件的差異,不同區(qū)域的地物類別分布存在天然的異質(zhì)性(如湖南地區(qū)多耕地而寧夏地區(qū)多草地)。這種空間異質(zhì)性導致在監(jiān)督學習過程中,無論在訓練集內(nèi)部還是訓練集和測試集之間都極易出現(xiàn)樣本類別不平衡現(xiàn)象[59-60],進而引發(fā)“過學習”或“欠學習”問題,最終導致在應用上的失效。

    (2)從學習機制上來看,目前以監(jiān)督學習為主流的深度學習方法在有限樣本上進行訓練學習,由于樣本的封閉性和樣本特征的動態(tài)變化性很容易導致方法性能的崩塌。雖然通過加大標注樣本的數(shù)目可以緩解這一問題,但由于獲取高質(zhì)量數(shù)據(jù)標注成本極高,且難以滿足樣本的時間動態(tài)性,因此,這一矛盾從原理上決定了監(jiān)督學習范式的先天不足。其次,監(jiān)督學習主要依靠人工標注提供的語義支持作為唯一的學習信號進行模型學習,如果將人類的標注作為一種知識先驗,那么在標注的過程中實際上已經(jīng)給機器做了知識的限定。但對于海量遙感數(shù)據(jù)而言,其內(nèi)蘊信息理論上應該比稀疏標簽所提供的語義信息豐富得多,因此過分依賴于人工標注,將使得學習得到的模型存在“歸納偏置”的風險。

    要有效解決上述問題,需要引入一種新的機器學習范式:這種新范式可以高效靈活地利用海量無標簽遙感影像進行自主學習,由于無須引入樣本標簽,使得無限制、全球性、多時態(tài)遙感影像的學習成為可能,也可避免監(jiān)督學習中常見的數(shù)據(jù)類別不平衡問題。同時也希望這種新范式的學習能力能夠優(yōu)于傳統(tǒng)的無監(jiān)督學習,它能夠建立并利用有效的學習信號驅(qū)動模型學習,以保證學習得到的特征和目標任務有很好的關聯(lián)。此外也希望這種新的學習機制能夠利用多樣化的特征學習信號進行學習,從而起到比監(jiān)督學習僅利用真實標簽提供的語義支持作為唯一的學習信號更好的特征學習效果。

    2 自監(jiān)督的遙感影像智能解譯發(fā)展展望

    2.1 自監(jiān)督學習

    自監(jiān)督學習是近年來興起的一種新的機器學習范式[61],它與監(jiān)督學習方法的核心差異在于自監(jiān)督學習通過人工設計的自監(jiān)督學習信號從海量無標注數(shù)據(jù)中挖掘自身的監(jiān)督信息構成偽標簽,從而替代傳統(tǒng)人工標注數(shù)據(jù)來驅(qū)動模型進行特征學習。目前常用的自監(jiān)督學習方法可分為生成型和對比型兩大類。

    2.1.1 生成型自監(jiān)督學習方法

    生成型自監(jiān)督學習方法的基本思想為通過還原人為破壞后的圖像來達到特征學習的目的,其背后的動機為一旦模型能夠完全還原原始圖像,則說明模型已學習到能夠刻畫原始圖像的關鍵特征?;谠撍枷氲淖员O(jiān)督學習信號構建方法包括圖像修復、圖像上色等。

    圖5 圖像修復自監(jiān)督學習信號構建

    圖像上色自監(jiān)督學習信號構建[64-65]的設計動機為不同物體的語義與其顏色間可能有較強的關聯(lián)性,比如天空是藍色,草地是綠色,斑馬是黑白相間的,因此只有模型可以理解圖像中的語義信息才有可能給圖像中的不同區(qū)域上正確的顏色。其一般流程如圖6所示,用輸入灰度圖像對應的彩色圖像作為學習的標簽,通過最小化灰度圖像和對應彩色圖像間的色彩重建損失迫使模型學習建立從“是什么”到“上什么顏色”之間的映射關系。

    圖6 圖像上色自監(jiān)督學習信號構建示意圖

    2.1.2 對比型自監(jiān)督學習方法

    對比型自監(jiān)督學習方法的核心思想為將同一圖像不同視圖表示(正樣本對)拉近并將不同圖像的視圖表示(負樣本對)拉遠,從而達到學習兼具不變性和可區(qū)分性特征表達的目的,其實現(xiàn)流程主要包含兩個步驟,如圖7所示。

    圖7 對比型自監(jiān)督學習方法主要流程

    (1)對于每一個無標簽數(shù)據(jù)x,引入數(shù)據(jù)增強技術構建正樣本對(x,x+),其中x+=T(x)通過對數(shù)據(jù)x施加隨機數(shù)據(jù)變換T(·)得到(如隨機裁剪、縮放、翻轉(zhuǎn)、旋轉(zhuǎn)、隨機噪聲、隨機顏色失真等)。

    (2)構建如式(2)定義的對比損失函數(shù),并通過最小化該損失函數(shù),達到拉近正樣本間的距離同時拉遠負樣本間的距離的目的,以此來強化學習得到特征的不變性和可區(qū)分性。

    L=-Ex·

    (2)

    目前大量研究表明,在對比自監(jiān)督學習過程中構建合理的正樣本對并包含足夠多、足夠難的負樣本對是提升對比學習性能的關鍵。對此,文獻[66]通過維持一個大的負樣本隊列并采用動量對比學習的機制來更新負樣本編碼器,巧妙地將一個學習批次能夠容納的負樣本數(shù)量和模型batch size大小進行解耦。文獻[67]則認為,在對比學習過程僅僅通過增加負樣本對數(shù)目并不能保證性能穩(wěn)定上升,提出通過在特征空間進行特征混合的形式,產(chǎn)生更難的分類樣本來提升對比學習能力。另外,文獻[68]發(fā)現(xiàn),采用多種數(shù)據(jù)變換組合的形式構建正樣本對比實用單一數(shù)據(jù)變換更有益于提升對比學習性能。

    2.2 主要研究問題和研究展望

    自監(jiān)督學習技術已在自然圖像分析任務中取得了階段性成果,甚至在某些細分任務中(如圖片分類,醫(yī)學圖像分割、目標跟蹤)的表現(xiàn)性能已經(jīng)接近甚至超過監(jiān)督學習方法,但目前在遙感領域卻鮮有研究。自監(jiān)督學習技術對遙感影像智能解譯研究有獨到意義:從數(shù)據(jù)層面來看,由于最近全球?qū)Φ赜^測系統(tǒng)的快速發(fā)展,多時相、全球覆蓋的遙感影像變得唾手可得,這為在遙感領域開展自監(jiān)督學習研究提供了強大的數(shù)據(jù)支撐。從理論與方法層面來看,相對于傳統(tǒng)的監(jiān)督學習范式,自監(jiān)督學習既能夠低成本地利用海量無標注遙感數(shù)據(jù)驅(qū)動模型學習,也能夠靈活地利用多樣化的特征學習信號充分挖掘海量遙感數(shù)據(jù)的內(nèi)蘊信息,因此具備解決當前有監(jiān)督的遙感影像解譯方法面臨的瓶頸問題的潛力。但要想真正實現(xiàn)自監(jiān)督學習驅(qū)動的遙感影像智能解譯框架,并突破當前監(jiān)督學習范式在遙感解譯過程中面臨的瓶頸問題,本文認為應圍繞以下3個關鍵問題開展研究工作,如圖8所示。

    圖8 自監(jiān)督學習驅(qū)動的遙感影像智能解譯主要研究內(nèi)容

    2.2.1 面向自監(jiān)督學習的超大規(guī)模遙感樣本數(shù)據(jù)集高效構建問題

    與監(jiān)督學習相比,自監(jiān)督學習的核心優(yōu)勢在于能夠低成本地利用海量無標注數(shù)據(jù)驅(qū)動模型學習,但文獻[69]表明自監(jiān)督學習方法能否學習到有價值的圖像表征與自監(jiān)督學習數(shù)據(jù)集包含樣本類別的豐富性和多樣性有密切關系。因此,期望用于自監(jiān)督學習的遙感數(shù)據(jù)集具有:在內(nèi)容上能夠涵蓋類別豐富、類內(nèi)多樣的遙感場景要素;在時空上能夠涵蓋多季節(jié)、多氣候以及多尺度;在波譜上能夠涵蓋多個遙感成像傳感器。理論上來講,當數(shù)據(jù)集達到千萬甚至更大規(guī)模的時候,上述特性應該都能夠得到較好的滿足,但背后存在的關鍵問題在于如何自動采集大規(guī)模、高質(zhì)量的遙感樣本。盡管傳統(tǒng)格網(wǎng)采樣的辦法簡單直接,但由于遙感地物通常不可能完全按照規(guī)則格網(wǎng)劃分,導致該方法通常會存在采集的樣本沒有包含明顯或完整的地物語義內(nèi)容、甚至多種地物語義混雜等問題。如果在格網(wǎng)采樣的基礎上進行人工過濾無疑又違背了自監(jiān)督學習無須過多人工干預的初衷。因此采用何種策略才能實現(xiàn)高質(zhì)量樣本自動采集和冗余樣本快速清洗,是保證面向遙感智能解譯的自監(jiān)督學習理論與方法研究有效開展的基礎問題。

    針對上述問題,本文認為可綜合以下3個途徑完成超大規(guī)模遙感樣本數(shù)據(jù)集高效構建工作:①充分利用已有豐富的地理國情監(jiān)測、三調(diào)等重大工程積累的樣本數(shù)據(jù)和成果進行引導式采樣。以文獻[70]發(fā)布的全球地表覆蓋制圖為例,其空間分辨率10 m,共包含10個一級類,可用于直接指導林地、草地、河流湖泊、山體等變化較為緩慢的地物樣本采集。②借助OpenStreetMap(OSM)等眾源地理數(shù)據(jù)進行引導采樣。近年來眾源地理數(shù)據(jù)發(fā)展迅速,其數(shù)據(jù)量大、信息豐富、成本低廉以及現(xiàn)勢性強的特點使其相比于傳統(tǒng)地理數(shù)據(jù)有很大的優(yōu)勢,其所提供的路網(wǎng)、建筑物等豐富地物屬性與標記可為自動化采樣提供位置與語義信息,從而可極大程度上提高采樣效率[71]。③利用現(xiàn)有人工標注數(shù)據(jù)集訓練自動采樣模型。盡管當前基于深度學習的目標識別算法還不能做到全目標精準識別,但對于如機場、港口、停車場等人工構筑物已能達到較高的目標檢測識別精度[72],因此可考慮采用機器模型完成上述類別的地物自動采樣。另外,需要注意的是自監(jiān)督學習研究并不需要樣本標簽,其采樣的主要目標是希望采集的樣本能夠包含明顯的地物語義信息,因此采樣過程中存在一些類別錯誤也是可以容忍的。

    2.2.2 自監(jiān)督學習信號與遙感特征表示能力的內(nèi)在關系問題

    自監(jiān)督學習和監(jiān)督學習的核心差異在于,其通過人工設計的自監(jiān)督學習信號從海量無標注數(shù)據(jù)中挖掘關聯(lián)信息構成偽標簽,從而替代人工標注來驅(qū)動模型進行特征學習。因此,一個很自然的問題是,在遙感影像解譯目標任務已知的情況下,什么樣的學習信號提供的偽標簽才能起到替代真實標簽效果。此外,相對于監(jiān)督學習僅利用真實標簽提供的語義支持作為唯一的特征學習信號,自監(jiān)督學習可以通過設計多樣化的學習信號進行特征學習是其優(yōu)勢。但學習信號與特征表示能力的內(nèi)在關系目前并不清楚:設計與遙感解譯目標任務相關的自監(jiān)督學習信號是否對提升特征可分性有幫助?什么樣的自監(jiān)督信號在什么條件下有助于捕捉高維遙感數(shù)據(jù)內(nèi)在不變特征?為回答上述問題,摸清自監(jiān)督學習信號與遙感特征表示能力的內(nèi)在關系,是建立有效自監(jiān)督遙感解譯框架的核心研究問題。

    針對上述問題,本文認為可從特征“可分性”和“不變性”這兩個基本原則入手,結(jié)合先驗知識和遙感數(shù)據(jù)自身特點,開展契合遙感影像解譯任務的自監(jiān)督學習信號構建方法研究,探索自監(jiān)督學習信號在特征“可分性”和“不變性”兩方面對特征學習性能的影響。在特征可分性方面,盡管當前主流的自監(jiān)督對比學習方法特征已經(jīng)能夠提供一個較好的可分性特征學習框架[73-74],但將其應用于遙感領域時還應充分考慮遙感數(shù)據(jù)自身特點,才能充分發(fā)揮海量遙感數(shù)據(jù)驅(qū)動和自監(jiān)督學習技術的雙重優(yōu)勢。比如,遙感時間序列間隱含了很強的時空自相似性,利用這一特點,可以假設相隔距離和時相接近的地物特征應該是相似的,而相隔距離和時相較遠的地物特征是不相似的,然后以此作為依據(jù)構建正負樣本對進行自監(jiān)督對比學習。另外,對于同一區(qū)域可以獲取不同視角、不同波譜、不同模態(tài)的數(shù)據(jù),盡管在視覺上這些數(shù)據(jù)間存在很大差異,但從語義角度來看它們都屬于同一地物對象不同視圖表達[75],其背后隱含的“語義一致性和關聯(lián)性”約束也可從特征不變性角度啟發(fā)相應的自監(jiān)督學習信號設計。此外,對于海量遙感數(shù)據(jù)而言,其內(nèi)蘊信息理論上應該比稀疏標簽所提供的語義信息豐富得多,那么是否可以通過設計多個自監(jiān)督學習信號從不同角度挖掘數(shù)據(jù)內(nèi)蘊特征,從而起到比監(jiān)督學習僅利用真實標簽作為唯一學習信號更好的特征學習效果,也是值得重點關注的研究問題。

    2.2.3 自監(jiān)督學習特征有效遷移問題

    通過使用超大規(guī)模的無標注數(shù)據(jù)集并設計有效的自監(jiān)督學習信號,自監(jiān)督學習理論上可以學習得到一種全局的知識表征,但如何保證這種知識表征能夠有效地遷移到目標任務目前尚不清楚。具體而言,由于不同的自監(jiān)督學習信號設計的出發(fā)點不一樣,導致學習得到的特征與遙感解譯目標任務關聯(lián)度也會不一樣。如果將特征看成一種知識,有的可能與目標任務直接相關,有的可能只是間接相關,這就意味著他們對于指導遙感解譯模型學習的效果也是不一樣的,如果采用統(tǒng)一的特征遷移策略可能會造成無效遷移甚至是負遷移進而損害模型的泛化性能。因此,對于不同類型的特征,采用何種遷移策略才能發(fā)揮其最佳效果,是建立有效自監(jiān)督遙感解譯框架的另一個核心研究問題。

    對于與遙感解譯目標任務強相關的自監(jiān)督學習特征,理論上來講可直接采用傳統(tǒng)微調(diào)的方式實現(xiàn)自監(jiān)督學習特征到目標任務的遷移。但存在的問題是:由于遙感影像解譯是一個開放性任務,自監(jiān)督學習訓練集和目標任務數(shù)據(jù)集可能來自于不同傳感器,但傳統(tǒng)微調(diào)遷移方法是建立在同構網(wǎng)絡框架下的,因此無法根據(jù)數(shù)據(jù)集的變化靈活調(diào)整網(wǎng)絡結(jié)構,這將導致豐富的光譜特征沒有被充分利用(從RGB航空遙感影像遷移到多光譜遙感影像)或反之信息丟失(如從多光譜遙感影像遷移到RGB航空遙感影像)的問題。針對該問題,本文認為可借鑒機器學習中知識蒸餾技術[76]方法,實現(xiàn)強關聯(lián)的自監(jiān)督特征有效遷移,其基本思路為,將已學習得到的自監(jiān)督學習網(wǎng)絡作為老師網(wǎng)絡,然后通過老師網(wǎng)絡提供高置信度的偽標簽來指導學生網(wǎng)絡學習(與目標任務數(shù)據(jù)集適配的網(wǎng)絡結(jié)構),從而達到在不同傳感器條件下自監(jiān)督學習特征有效遷移的目的。但由于自監(jiān)督學習信號的多樣性,某些學習得到的特征可能僅具有一定的“不變性”而不具備很好的“可分性”,這意味著如果仍采用上述遷移方法,可能會由于該類型特征無法提供高質(zhì)量的偽標簽,進而導致無效遷移甚至是負遷移。針對該問題,本文認為可采用特征圖相似性保持的弱關聯(lián)特征遷移方法[77],其設計動機為:如果自監(jiān)督學習得到的特征具有較強的不變性,那么兩個相關數(shù)據(jù)在已訓練的自監(jiān)督學習網(wǎng)絡中應該有高度相似的激活特征圖。因此為保證該類型特征能夠有效遷移,特征遷移的目標可定義為引導目標網(wǎng)絡趨向于對這兩個輸入也同樣產(chǎn)生高度相似的激活特征圖。此外,對于兩種不同類型的自監(jiān)督學習特征,如何充分發(fā)揮各自的互補優(yōu)勢,以實現(xiàn)多類型自監(jiān)督學習特征從已訓練自監(jiān)督學習模型到遙感影像解譯模型的集成遷移也是一個非常值得研究的問題。

    3 結(jié) 論

    雖然近年來遙感對地觀測數(shù)據(jù)呈現(xiàn)爆炸式增長,但這些遙感數(shù)據(jù)大部分都是未經(jīng)標注的,因此無法直接利用這些數(shù)據(jù)以監(jiān)督學習范式來訓練一個高精度的遙感影像解譯模型。雖然本領域已公開發(fā)布了很多帶標注的遙感影像數(shù)據(jù)集[78-80],但由于遙感數(shù)據(jù)自身時空異質(zhì)性的原因,導致無論從體量還是質(zhì)量上來看,現(xiàn)有公開數(shù)據(jù)集都無法支撐學習得到一個具有良好遷移泛化性能的遙感解譯模型。

    在這一背景下,本文分別從數(shù)據(jù)需求和學習機制兩個層面,深入分析了當前監(jiān)督學習范式在遙感影像解譯任務上存在的不足和局限性,并指出相對于傳統(tǒng)的監(jiān)督學習范式,自監(jiān)督學習既能夠低成本地利用海量無標注遙感數(shù)據(jù)驅(qū)動模型學習,也能夠充分利用多樣化的特征學習信號挖掘遙感數(shù)據(jù)豐富的內(nèi)蘊信息,因此在遙感影像智能解譯任務上具有更好的應用潛力。在此基礎上,分別從面向自監(jiān)督學習的超大規(guī)模遙感數(shù)據(jù)集高效構建、自監(jiān)督學習信號與遙感影像表征的內(nèi)在關系、自監(jiān)督學習特征有效遷移機制3個方面,歸納梳理了建立自監(jiān)督的遙感影像智能解譯框架涉及的3個關鍵研究問題,并給出相應的解決思路和方案,以期為數(shù)據(jù)源極大豐富條件下開展遙感影像智能解譯研究提供新的視角。

    猜你喜歡
    范式語義樣本
    以寫促讀:構建群文閱讀教學范式
    甘肅教育(2021年10期)2021-11-02 06:14:08
    范式空白:《莫失莫忘》的否定之維
    用樣本估計總體復習點撥
    孫惠芬鄉(xiāng)土寫作批評的六個范式
    語言與語義
    推動醫(yī)改的“直銷樣本”
    管窺西方“詩辯”發(fā)展史的四次范式轉(zhuǎn)換
    隨機微分方程的樣本Lyapunov二次型估計
    “上”與“下”語義的不對稱性及其認知闡釋
    村企共贏的樣本
    开远市| 玉林市| 贵州省| 建宁县| 凤阳县| 贵阳市| 梓潼县| 长岭县| 日喀则市| 赤峰市| 淮阳县| 余庆县| 兴隆县| 南昌市| 咸阳市| 沈阳市| 肥西县| 宁陵县| 广丰县| 唐河县| 石台县| 汕头市| 万载县| 将乐县| 江津市| 弥渡县| 伊通| 阳春市| 韶山市| 公主岭市| 梨树县| 通许县| 沙坪坝区| 新安县| 同心县| 铜川市| 辉南县| 略阳县| 延津县| 榆中县| 沿河|