• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    視覺Transformer識別任務研究綜述

    2023-10-24 13:57:34周麗娟毛嘉寧
    中國圖象圖形學報 2023年10期
    關鍵詞:特征檢測方法

    周麗娟,毛嘉寧

    鄭州大學計算機與人工智能學院,鄭州 450001

    0 引言

    計算機視覺(computer vision,CV)涉及對圖像或視頻中有用信息的提取和分析。在所有CV任務中,識別任務占有很大的比重。隨著深度學習技術的引入,經典的方法是利用卷積神經網絡(convolutional neural network,CNN)來解決此類問題。CNN 通過局部感知和參數共享,降低了網絡模型的復雜度,并且可以直接將圖像數據作為輸入,避免了人工提取特征的過程。但由于CNN 擅長關注局部特征,難以很好地利用對結果同樣十分重要的全局信息,使得該領域的發(fā)展受到了一定的阻礙。

    Transformer(Vaswani 等,2017)是一個從序列到序列(sequence to sequence)的模型,最大特點是拋棄了傳統(tǒng)的卷積神經網絡和循環(huán)神經網絡(recurrent neural network,RNN),采用注意力機制組成網絡,使模型可以并行化訓練,而且能夠關注全局信息。Transformer 提出后,在自然語言處理(natural language processing,NLP)領域大放異彩,例如,備受關注的基于Transformer 的雙向編碼器表示(bidirectional encoder representations from Transformers,BERT)模型(Devlin 等,2019),以及生成式預訓練Transformer(generative pre-training,GPT)系列模型GPT1(Radford 等,2018)、GPT2(Radford 等,2019)和GPT3(Brown等,2020)。

    這些基于Transformer的模型表現出的強大性能使NLP 研究取得了重大突破,同時吸引了計算機視覺研究人員的目光,他們將Transformer 移植到視覺任務中,并發(fā)現了其中的巨大潛力。如首次使用純Transformer 進行圖像識別的方法ViT(vision Transformer)(Dosovitskiy 等,2021),以及解決目標檢測問題的DETR(detection Transformer)模型(Carion 等,2020)。

    隨著越來越多的視覺Transformer模型被探索出來,關于此研究的綜述論文也逐漸出現。按照分類標準的不同,目前的綜述論文從不同的角度總結現有方法,包括輸入數據(Han 等,2022)、網絡結構(Khan 等,2022)和應用場景(Liu 等,2022b,劉文婷和盧新明,2022,Khan 等,2022)。其中,從應用場景角度進行總結的論文占大多數。Liu等人(2022b)分別從計算機視覺領域的3 個基礎任務(分類、檢測和分割)總結現有方法。除了這3 個基礎任務外,劉文婷和盧新明(2022)、Khan 等人(2022)又增加了在圖像識別、視頻處理、圖像增強和生成應用場景下的方法總結。然而,這些不同的應用都是孤立存在的,不能形成一個系統(tǒng)的各種方法的總結。此外,現有的綜述論文多關注視覺Transformer 模型與傳統(tǒng)CNN模型結果的比較,對不同Transformer 模型間結果的比較分析較少。

    為了解決以上問題,本文從視覺識別的角度出發(fā),總結比較了視覺Transformer 處理多種識別任務的代表性方法。按照識別粒度的不同,可以分為基于全局識別的方法和基于局部識別的方法?;谌肿R別的方法,即對視覺數據(圖像、視頻)整體進行識別,例如圖像分類、視頻分類?;诰植孔R別的方法,即對視覺數據中的部分進行識別,例如目標檢測等??紤]到現有方法在3 種具體識別任務的廣泛流行,本文也總結對比了人臉識別、動作識別和姿態(tài)估計3 種識別任務的方法。在每類任務下,對不同方法的特點和在公共數據集上的表現進行了對比分析,并進一步總結了該類方法的優(yōu)點和不足,以及不同識別任務面臨的問題和挑戰(zhàn)。

    本文與現有的綜述對比,具有以下優(yōu)點:1)本文從識別的角度分類,可以更系統(tǒng)地將現有方法聯系起來;2)雖然一些綜述論文(劉文婷和盧新明,2022;Khan 等,2022)也對識別任務的方法進行了總結,但是涉及的內容不全面,而本文不但對基礎識別任務的方法進行了總結,還總結了3 種具體識別任務的方法,并且對于每類任務方法,在對比分析公共數據集結果的基礎上,總結了其發(fā)展現狀和不足。

    綜上所述,近年來CNN 的局限性以及Transformer 研究的突破性使得視覺Transformer 已廣泛應用于CV領域,而關于視覺Transformer的綜述論文還不夠豐富,特別是對其應用場景的總結存在著較為孤立的現象。又因流行的CV 應用場景大多能夠以視覺識別的角度分析,所以本文系統(tǒng)地對用于識別任務的視覺Transformer進行綜述具有必要性,同時,本文通過每類任務對應的基準數據集上的實驗對比分析,反映各類Transformer 模型間的區(qū)別與聯系也是十分必要的。最后,本綜述帶來了更系統(tǒng)的總結和更全面的內容,將為相關領域讀者快速了解和認識Transformer 在視覺識別任務中的應用提供重要幫助。

    1 基于識別的方法

    本文從識別的角度出發(fā),對現有的視覺Transformer 方法進行分類總結對比。根據識別粒度的不同,現有方法可以分為基于全局識別的方法和基于局部識別的方法。基于全局識別的方法,即對視覺數據整體進行識別。按照輸入視覺數據的不同,基于全局識別的方法分為圖像分類和視頻分類兩種。基于局部識別的方法,即對視覺數據中的部分進行識別?;诰植孔R別的方法,主要包括兩種:1)對視覺數據中出現的物體或人進行定位和分類,這種方法稱為目標檢測;2)對圖像或視頻幀在像素級別進行分類,這類方法稱為視覺分割。另外,為了對基于全局識別和局部識別的方法進一步舉例說明,本文也對3 種流行的具體識別任務下的Transformer 方法進行了總結,包括:人臉識別、動作識別和姿態(tài)估計。最后,本文還總結了適用于全局識別和局部識別的通用方法。本節(jié)整理了上述5 大類方法的最新研究進展并對各類方法在公共數據集上的表現進行了對比分析,整體結構如圖1所示。

    圖1 用于識別任務的視覺Transformer分類Fig.1 Classification of vision Transformer for recognition tasks

    視覺Transformer應用于識別任務的整體處理流程如圖2所示,大致包括以下流程:輸入圖像/視頻數據;切分圖像/視頻幀補丁序列;提取特征和(或)標記化(類別、分塊、位置等標記嵌入);輸入 Transformer 編碼器或CNN 與Transformer 的融合網絡;計算空間/時空注意力或計算空間/時空卷積與注意力;輸入解碼器,如大多數目標檢測、視覺分割,以及部分人臉識別、動作識別和姿態(tài)估計任務需要解碼,則根據不同需求選擇Transformer,CNN 或多層感知機(multi-layer perceptron,MLP)解碼;輸入前饋神經網絡;輸出識別結果。其中,對于視頻的處理與圖像處理相似,只是除空間信息外增加了對時間信息的處理。

    圖2 視覺Transformer應用于識別任務的整體流程圖Fig.2 The overall flow chart of vision Transformer applied to recognition tasks

    1.1 基于全局識別的方法

    基于全局識別的方法,是對視覺數據整體進行識別。根據不同的視覺數據,基于全局識別的方法分為圖像分類和視頻分類兩種。

    1.1.1 圖像分類

    圖像分類,即給輸入的圖像賦予一個類別標簽,如貓、狗等。傳統(tǒng)圖像分類的慣例是將圖像表示為像素數組并采用卷積神經網絡,而視覺Transformer與圖像標記的結合探索出了一條新的道路。Dosovitskiy 等人(2021)首次提出使用純Transformer 進行圖像識別的方法,稱為視覺Transformer(ViT),模型結構如圖3所示。該模型將圖像解釋為補?。╬atch)序列,與原始圖像中的位置信息編碼相加,并向序列中添加額外的可學習的分類標記(token),用標準的Transformer 編碼器對向量序列進行處理,徹底拋棄了CNN,避免引入與圖像相關的歸納偏置(inductive bias)。

    圖3 ViT模型結構(Dosovitskiy等,2021)Fig.3 ViT model architecture(Dosovitskiy et al.,2021)((a)vision Transformer(ViT);(b)Transformer encoder with L layer)

    在ViT 的基礎上,一些方法相繼被提出來解決ViT 的大規(guī)模數據需求、冗余、標記簡單和訓練性能不佳等問題。為了避免像ViT 那樣使用大型數據集進行預訓練,Touvron 等人(2021)提出了數據高效的圖 像Transformer(data-efficient image Transformers,DeiT),它同樣沒有卷積操作,核心是引入一種針對Transformer 的師生訓練策略,提出基于標記的蒸餾方法,確保學生通過注意力從老師那里學習。此外,DeiT 模型指出使用卷積作為教師網絡進行蒸餾能夠比使用Transformer 取得更好的效果。為了解決ViT 的標記數量和不同Transformer 層之間的注意力圖的冗余問題,Chen 等人(2021a)提出一種基于標記池和注意力共享的ViT,減少了冗余度,有效地增強了特征表示能力。為了克服簡單標記和冗余的局限性,Yuan 等人(2021)提出一種標記到標記視覺Transformer(tokens-to-token ViT,T2T-ViT),它通過遞歸地聚合標記,將圖像結構化,從而可以對周圍標記所呈現的局部結構進行建模,減少標記長度和參數量,同時提升了在ImageNet 上從頭開始訓練的性能。Yue 等人(2021)認為ViT 樸素的標記化會將網格分配到不感興趣的區(qū)域,如背景,并引入干擾信號,進而提出迭代漸進的采樣策略來定位識別區(qū)域,實現自適應地關注感興趣的區(qū)域。Chen 等人(2021d)不使用預定義的固定補丁,提出可變形補丁模塊,學習自適應地將圖像分割成不同位置和比例的補丁,保留了補丁中的語義信息,并解決了標記簡單的問題。Wu等人(2021a)使用視覺標記代表圖像中的高級概念,運行Transformer 來密集建模標記關系。Xie 等人(2021c)提出二階ViT,進一步改善視覺標記以解決ViT從頭訓練性能不佳的問題。

    由于計算注意力可能需要較多的時間,一些研究通過修改注意力計算來提高模型的效率,以實現線性復雜度。Chen 等人(2021c)提出一種用于學習多尺度特征的雙分支視覺Transformer,為了有效地結合不同尺度的圖像塊標記,進一步發(fā)展了基于交叉注意力的融合方法(cross-attention multi-scale ViT,CrossViT),在線性時間內有效地交換兩個分支之間的信息,以提高圖像分類的識別精度。

    Xu 等人(2021)提出自激勵慢速—快速標記演化方法(evolution ViT,Evo-ViT),通過全局類注意力來進行非結構化的實例式標記選擇,用不同的計算路徑來更新所選的信息性和非信息性的標記。在保持分類性能的同時,大大降低了計算成本。Song(2021)修改了自注意力中的幾行代碼,通過消除一些非線性來減少自注意力計算,提出單位力操作的視覺Transformer(unit force operated ViT,UFO-ViT),在不降低性能的情況下實現了線性復雜度。除此之外,還有一些研究通過加入卷積模塊,來平衡模型的效率和精度。Chen 等人(2021b)逐步將基于Transformer 的模型轉換為基于卷積的模型,提出了視覺友好Transformer,在計算復雜度相同的情況下,提高了分類精度,且當模型復雜度較低或訓練集較小時,這種優(yōu)勢更加明顯。將卷積方法應用于Transformer的混合神經網絡(LeNet ViT,LeViT)(Graham 等,2021)優(yōu)化了圖像快速推理分類的精度和效率之間的平衡,特別是分辨率降低的激活圖。與LeViT 類似,利用CNN 建模局部特征,利用Transformer 捕獲遠程依賴關系的一種混合網絡,及對其進行縮放獲得的一系列模型(CNNs meet Transformers,CMTs)(Guo等,2022)獲得了更高的精度和效率。

    除了一般的圖像分類外,視覺Transformer 還應用于其他的圖像分類任務,如細粒度圖像分類、多標簽識別和醫(yī)學圖像分類等。細粒度圖像分類需要學習細微而又具有區(qū)分性的特征?;诩僒ransformer的特征融合視覺Transformer(feature fusion vision Transformer,FFVT)(Wang 等,2022a)通過聚合來自各Transformer 層的重要標記來補償局部、低層和中層信息。該模型設計了稱為“互注意力權重選擇”的標記選擇模塊,引導網絡選擇可區(qū)分的標記。細粒度識別Transformer(He 等,2022)將Transformer 的所有原始注意力權重整合到注意力圖中,以指導網絡有效準確地選擇可區(qū)分的圖像塊并計算它們的關系。Zhang 等人(2022)提出自適應注意力多尺度融合Transformer 方法,選擇性注意力收集模塊利用ViT 中的注意力權重,并根據輸入補丁的相對重要性自適應地對其進行過濾。

    Zhao 等人(2021c)提出基于Transformer 的對偶關系圖(Transformer-based dual relation graph,TDRG)框架用于多標簽識別任務,通過對結構關系圖和語義關系圖的探索,構建互補關系。結構關系圖通過開發(fā)一個基于轉換的跨尺度體系結構,從對象上下文中獲取長期關聯。語義關系圖用顯式的語義感知約束動態(tài)地建模圖像對象的語義。Lanchantin 等人(2021)提出一個多標簽圖像分類的通用框架,通過Transformer 來利用視覺特征和標簽之間的復雜依賴關系。該方法的一個關鍵部分是標簽掩膜訓練目標,它使用三元編碼方案來表示標簽在訓練期間的狀態(tài)為正、負或未知。

    用于胃組織病理學圖像分類的多尺度視覺Transformer 模型(Chen 等,2022b)能夠將顯微胃圖像自動分類為異常和正常情況。該模型由兩個關鍵模塊組成:全局信息模塊和局部信息模塊,用于有效提取組織病理學特征。Dai等人(2021a)提出用于多模態(tài)醫(yī)學圖像分類的Transformer(Transformer medical,TransMed)。TransMed 結合了CNN 和Transformer 的優(yōu)點,可以有效地提取圖像的低級特征并建立模態(tài)之間的長程依賴關系。多示例學習(multiple instance learning,MIL)是解決基于全視野數字切片病理診斷中弱監(jiān)督分類問題的有力工具。目前的MIL 方法通常基于獨立且相同的分布假設,從而忽略了不同示例之間的相關性,Shao 等人(2021)提出關聯MIL,并給出了收斂性的證明。在此基礎上設計了基于Transformer 的MIL,能夠有效地處理不平衡/平衡和二元/多重分類,具有很強的可視化和可解釋性。

    總的來說,圖像分類模型大多使用視覺標記和類標記進行特征表示和分類,還可以與語義信息相結合。表1 比較了上述部分圖像分類模型在ImageNet(Deng 等,2009)數據集上的參數量(Params)與準確率(Top-1 Acc)表現并概述模型亮點。從表1中可以看出:

    表1 比較圖像分類模型在ImageNet數據集上的參數量與準確率并概述模型亮點Table 1 Compare the Params and Top-1 Acc of image classification models on the ImageNet dataset and outline the highlights of these models

    1)原始的ViT 模型(Dosovitskiy 等,2021)采用巨型規(guī)模的網絡結構(ViT-H/14)時表現較好,可以實現88.6%的準確率,但同時其參數量非常大(632 M),遠超其他模型。而在基礎規(guī)模的網絡結構(ViT-B/16)上,原始ViT 只達到了77.9%的準確率,DeiT 及其他改進的ViT 系列模型都實現了更好的性能,均超過了80%,只有在小型(-S)甚至極小型(-Ti)網絡結構上會出現低于80%的性能。證明了對圖像標記的改進研究是有效的。

    2)觀察修改注意力計算的模型(CrossViT,EVOViT,UFO-ViT)可以發(fā)現,分類準確率最好時達到83.3%,其參數量為64 M,與ViT 模型相比,參數量降低很多,這說明了通過修改注意力計算部分可以降低計算的復雜度。

    3)對比使用卷積網絡的模型(*標注的模型)的準確率和參數量可以發(fā)現,總體來說,CMT 模型性能比較好。CMT-S 準確率為83.5%(僅次于CMT-B的 84.5%),參數量為25.1 M,比其他6 個模型的參數量少。同時,與ViT 系列模型或修改注意力計算的模型相比,也說明使用卷積網絡可以平衡準確率和計算復雜度。

    綜上,目前用于圖像分類的Transformer 具備以下優(yōu)點和不足:1)完全基于Transformer 的效果可以等同于甚至優(yōu)于以CNN 為主流的傳統(tǒng)方法,此外,修改編碼結構、自注意力計算方式能夠平衡準確率與計算成本。但目前達到最高準確率的方法往往進行了超大數據集預訓練,同時也需要超大的參數量與計算量。2)利用切分補丁使得圖像輸入序列化,為處理視覺數據提供了新思路,并進一步對如何切分圖像補丁和改進圖像標記進行了探索,例如保留圖像補丁的相對結構及語義信息、減少標記傳遞的冗余,提升了訓練性能。但目前的補丁多采用固定的尺寸,這樣雖然統(tǒng)一了序列長度,便于位置編碼等后續(xù)處理,然而當輸入圖像尺寸不同,或提取不同的特征區(qū)域作為補丁時,需要額外進行插值。

    1.1.2 視頻分類

    視頻分類,旨在為輸入的整個視頻賦予一個類別標簽。當視頻中只有人體動作時,視頻分類相當于動作識別。為了保持與引用論文中的說法一致,若引文中提到的是視頻分類任務,本文將其總結在本節(jié);若是動作識別任務,本文將在1.4節(jié)總結。

    圖像分類中Transformer得到了大量的應用與探索,而在視頻理解方面,除了與圖像處理類似地需要關注空間信息外,還需要關注時間信息,完全基于Transformer 的架構被證明同樣有效。首個無卷積的視頻分類方法,即時空Transformer(time-space Transformer,TimeSformer)(Bertasius 等,2021)依次應用時間注意力和空間注意力,通過直接從一系列幀級補丁中學習時空特征,使標準的Transformer 架構適用于視頻分類。幾乎同時,Neimark等人(2021)也拋棄卷積網絡,提出基于Transformer的視頻識別框架,通過一個端到端通道,關注整個視頻序列信息來進行分類。Arnab 等人(2021)同樣提出純Transformer視頻分類模型(video vision Transformer,ViViT),從輸入視頻中提取時空標記,然后由一系列Transformer 層進行編碼。為了處理視頻中遇到的長標記序列,又提出了幾種模型變體,分解輸入的空間和時間維度。Zhang 等人(2021c)提出了標記移位模塊(token shift,TokShift),一種零參數零計算量算子,用于建模Transformer 編碼器內的時序關系。Tok-Shift 幾乎不會在相鄰幀之間來回移動部分標記特征。該模塊可以密集地插入普通視覺Transformer的每個編碼器中,以學習視頻表示。還有一種可分離注意力的視頻Transformer(Zhang等,2021d),能夠通

    過堆疊注意力聚集時空信息,并以更高的效率提供更好的性能,且更擅長預測需要長期時間推理的動作。

    視頻分類模型主要探索了如何使用Transformer建模時序關系以及如何學習時間和空間特征。不同視頻分類模型在Kinetics-400 數據集(Kay 等,2017)上的參數量(Params)、準確率(Top-1 Acc)和視圖(Views)比較以及模型亮點概述如表2 所示,Views中x×y代表x時間裁剪和y空間裁剪。從表2 中可以看出,純Transformer 視頻分類模型ViViT-L 取得最好的分類準確率(81.7%)。另外,采用多個視角數據的分類準確率要高于其他單視角的準確率。在參數量方面,所有模型參數量都高于85 M,與圖像分類模型的參數量相比,視頻分類模型的參數量有待降低。

    表2 不同視頻分類模型在Kinetics-400數據集上的參數量、準確率和視圖比較及模型亮點Table 2 Compare the parameters,accuracy and views of video classification models on the Kinetics-400 dataset and outline the highlights of these models

    目前用于視頻分類的Transformer 模型優(yōu)點包括:1)相較于經典的CNN 模型具備更快的訓練速度和更高的精度,相較于圖像分類減弱了對大數據集預訓練的依賴性;2)除了完整的視頻幀輸入外,也可以選擇切分補丁輸入,并能夠使用線性嵌入,降低了輸入預處理時對CNN 的依賴;3)為了捕捉視頻的時空特征,提出了多種計算注意力的方式,例如同時計算時空注意力或怎樣分解計算空間注意力和時間注意力;4)基于Transformer建模長期依賴的特性,該類模型對于較長的視頻有更好的處理效果。然而,目前這些模型仍存在一些不足,如視頻數據存在大量冗余,空間、時間注意力的分解順序及后續(xù)整合需要更多的解釋和損失估計。

    1.2 基于局部識別的方法

    基于局部識別的方法,旨在對視覺數據中的部分進行識別。基于局部識別的方法,可以分為兩類:1)對視覺數據中出現的物體或人進行定位和分類,這類方法主要解決CV領域的目標檢測任務;2)對圖像或視頻幀在像素級別進行分類,這類方法主要解決CV領域的視覺分割任務。因此,下文將按照這兩個任務對基于局部識別的方法進行總結。

    1.2.1 目標檢測

    目標檢測任務需要從視覺輸入中檢測出感興趣的物體,預測一系列邊界框(bounding box)的坐標以及標簽。Transformer 出現之前,大多數檢測器通過定義一些候選框(proposal)、錨框(anchor)或窗口,將問題構建成一個分類和回歸問題來間接地完成這個任務。在常見的兩階段和單階段目標檢測方法中,分類和回歸通常分別采用全連接和全卷積的方式(曹家樂 等,2022)。而隨著Transformer 的發(fā)展,Carion 等人(2020)將其引入目標檢測領域,提出檢測Transformer(detection Tranformer,DETR),模型結構如圖4 所示。相比基于區(qū)域的卷積(region-CNN,RCNN)等做法,DETR 最大的特點是將目標檢測問題轉化為無序集合預測問題:圖像經過CNN 進行特征提取后變成特征序列輸入到Transformer的編解碼器中,直接輸出指定長度為N的無序集合,集合中每個元素包含物體類別和坐標。

    圖4 DETR模型結構(Carion等,2020)Fig.4 DETR model architecture(Carion et al.,2020)

    1)DETR 改進算法。DETR 開啟了目標檢測新范式,同時也意味著更多的改進空間。基于DETR的無主干檢測器(DETR-based detector without backbone,WB-DETR)(Liu 等,2021a)證明基于Transformer 的檢測器不需要依賴CNN 特征提取。WBDETR 只由1 個編碼器和1 個解碼器組成,直接序列化圖像,并將輸入的局部特征編碼到每個單獨的標記中。其中設計的“局部信息增強—標記到標記”模塊,對每個標記展開后的內部信息進行調制,以彌補Transformer 在局部信息建模方面的不足??勺冃蜠ETR(deformable DETR)(Zhu 等,2021)被提出以解決收斂速度慢和特征空間分辨率有限的問題。其注意力模塊只關注參考周圍的一小組關鍵采樣點,特別是在小物體上可以達到比DETR 更好的性能。DETR 直接將圖像特征圖轉換為目標檢測結果,但由于在某些區(qū)域(如背景)上的冗余計算,翻譯完整的特征圖成本較高,Wang 等人(2021d)將減少空間冗余的想法封裝到一個輪詢和池化(poll and pool,PnP)采樣模塊中,構建了一個端到端PnP-DETR 體系結構,自適應地分配其計算空間,以提高效率。為了降低高分辨率輸入的計算量,Zheng 等人(2021b)提出自適應聚類Transformer(adaptive clustering Transformer,ACT),使用局部敏感哈希自適應地對查詢特征進行聚類,并使用原型鍵交互來近似查詢鍵交互,可作為插入式模塊取代自注意力模塊,降低自注意力的二次方復雜度。為了加快DETR 的收斂速度,Meng 等人(2021)提出了一種條件交叉注意機制,命名為條件DETR(conditional DETR),從解碼器嵌入中學習條件空間查詢,用于解碼器多頭交叉注意力,通過條件空間查詢,每個交叉注意頭能夠關注包含不同區(qū)域的頻帶,這縮小了目標分類和框回歸的不同區(qū)域定位的空間范圍,從而減輕了對內容嵌入的依賴,減輕了訓練。Sun 等人(2021b)提出了基于Transformer 的單階段全卷積集合預測(Transformer-based set prediction with fully convolutional one-stage,TSP-FCOS)和基于Transformer 的RCNN 集合預測這兩種方法來解決匈牙利損失和Transformer 交叉注意機制導致DETR 收斂緩慢的問題。Gao 等人(2021a)提出了空間調制協(xié)同注意力(spatially modulated co-attention,SMCA)機制來改進DETR 框架,通過引入高斯分布權重,將協(xié)同注意力的響應限制在初始估計的邊界框附近,增強DETR中協(xié)同注意力的位置感知力。SMCA 通過替換解碼器中原有的協(xié)同注意力機制來提高DETR 的收斂速度。Dai 等人(2021b)提出了一個名為“隨機查詢補丁檢測”的前置任務(pretext task)來實現無監(jiān)督預訓 練DETR(unsupervised pre-training DETR,UPDETR)。從給定的圖像中隨機地裁剪出補丁,然后將它們作為查詢提供給解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁,能夠取得比DETR 更快的收斂速度。Bar 等人(2021)提出一種使用區(qū)域先驗的Transformer進行檢測的無監(jiān)督預訓練方法。除檢測器主干外,還對目標定位和嵌入組件進行預訓練,期間預測目標定位以匹配來自無監(jiān)督候選區(qū)域生成器的定位,同時將相應的特征嵌入與來自自監(jiān)督圖像編碼器的嵌入對齊。

    對于DETR 的改進主要集中在其特征圖、計算復雜度和收斂速度方面。表3 比較了上述目標檢測模 型在COCO(common objects in context)(Lin 等,2014)驗證集上的參數量(parameters,Params)、浮點運算數(floating point operations,FLOPs)、訓練輪次(epochs)和一系列的平均精準度(average precision,AP)表現。評價預測準確性的指標包括:主要的挑戰(zhàn)指標“平均精準度”(AP)、視覺對象的分類識別和檢測的基準測試PASCAL VOC(pattern analysis,statistical modeling and computational learning visual object classes)挑戰(zhàn)賽指標AP50、嚴格指標AP75以及分別用于小中大型物體的APsmall(APS)、APmedium(APM)和APlarge(APL)。從結果可以看出,相比于DETR,Conditional DETR 和SMCA 實現了所有指標上的較大提升。除此之外,在小物體檢測方面,Deformable DETR 和TSP 取得了更大的進步。在大型物體檢測上,WB-DETR 也實現了更好的精度,但是計算量普遍高于DETR。UP-DETR 同樣實現了所有指標上的提升而保持了相同的計算量?;谥R蒸餾的ACT 在層數為32 時與原始DERT-DC5 相當,但是其計算量比DERT-DC5 更低。在收斂速度方面,多數模型無需像原始DETR 一樣訓練500 個輪次,便能達到與其相當的性能。

    表3 目標檢測模型在COCO驗證集上的參數量、浮點運算數、訓練輪次及平均精準度比較Table 3 Compare the Params,FLOPs,training epochs and a series of AP of the object detection models on the COCO validation set

    除了改進目標檢測算法DETR 外,研究人員還探索了其他的目標檢測任務,如點云三維檢測、少樣本目標檢測等。

    2)點云三維檢測。Pan 等人(2021)為三維點云有效學習特征設計了Pointformer 網絡。局部Transformer 建模局部點之間的交互,在對象級別學習與上下文相關的區(qū)域特征。全局Transformer學習場景級別的上下文感知表示。局部—全局變換進一步捕捉多尺度表示間的依賴關系,從更高的分辨率結合局部和全局特征。Liu等人(2021e)提出一種直接從三維點云中檢測三維對象的方法。不用將局部點分組到每個候選對象,而是借助Transformer 中的注意力機制從點云中的所有點計算對象的特征,其中每個點的貢獻在網絡訓練中自動學習。Sheng 等人(2021)利用高質量的候選區(qū)域網絡和通道級Transformer 提出有助于點云檢測的一個兩階段三維目標檢測框架,同時為每個候選框內的點特征執(zhí)行候選框感知嵌入和通道級上下文聚合?;诙喑叨忍卣鹘鹱炙娜S目標檢測體系結構(multirepresentation,multi-scale,mutual-relation DETR,M3DETR)(Guan 等,2022),結合了不同的點云表示(原始點、體素和鳥瞰圖)以及不同的特征尺度。M3DETR 是第1 種使用Transformer 同時統(tǒng)一多個點云表示、要素比例以及點云之間相互關系模型的方法。用于點云三維檢測的端到端Transformer 模型3DETR(Misra 等,2021)需要很少的3D 特定歸納偏置。使用非參數查詢和傅里葉位置嵌入是良好的三維檢測性能的關鍵。3DETR 可以很容易地合并之前在3D檢測中使用的組件,并可以用來構建更先進的3D檢測器。

    3)少樣本目標檢測。少樣本目標檢測旨在利用少量標注樣本檢測新目標。Meta-DETR(Zhang 等,2021b)將元學習的相關聚合結合到DETR 檢測框架中,Meta-DETR 完全在圖像級別工作,沒有任何候選區(qū)域,這繞過了流行的少樣本檢測框架中不準確候選框的約束。Lin等人(2021b)提出一種通用的交叉注意力Transformer 模塊,利用Transformer 機制全面捕捉查詢像素和目標圖像的雙向對應關系,充分利用其語義特征在單樣本目標檢測中進行準確高效的語義相似度比較。

    4)其他目標檢測。一些模型被提出用于解決跨域對齊、任意方向目標檢測、行人檢測和醫(yī)學領域的目標檢測等問題。Zhang 等人(2023)采用單級檢測器設計了一種域自適應目標檢測網絡(domain adaptive DETR,DA-DETR)執(zhí)行域間對齊。DA-DETR 引入一個混合注意力模塊,明確指出硬對齊特征,以便跨域對齊。

    對于任意方向(arbitrary-oriented)目標檢測問題,Ma 等人(2021)實現了端到端的面向對象Transformer 檢測(oriented object DETR,O2DETR),通過Transformer 直接有效地定位對象,而不像傳統(tǒng)檢測器那樣需要煩瑣的旋轉錨框,還設計了用深度可分卷積代替注意力機制的編碼器,降低了原Transformer中多尺度特征的存儲和計算成本。

    Lin 等人(2021a)探討了端到端檢測器(end-toend detector,ED)在人群行人檢測中的表現,提出了一種新的解碼器。此外,為ED設計了一種利用行人較少遮擋的可見部分的機制,還引入了更快的二分匹配算法,使ED 在人群數據集上的訓練更加實用。外部感知傳感器被部署在自動駕駛車輛上來感知環(huán)境,使用自監(jiān)督熱網絡(self supervised thermal network,SSTN)(Munir 等,2021)來學習特征嵌入,通過對比學習來最大化可見光和紅外光譜域之間的信息,然后使用多尺度編碼器—解碼器Transformer 網絡,將學習到的特征表示用于熱目標檢測。

    使用結腸鏡進行人工篩查的息肉漏檢率很高,受DETR 的啟發(fā),Shen 等人(2021)提出用于端到端息肉檢測的Transformer 卷積(convolution in Transformer,COTR)網絡。COTR 由用于特征提取的CNN、用于特征編碼和重新校準的交織卷積層、用于目標查詢的Transformer解碼器層和用于檢測預測的前饋網絡構成。

    整體來看,目標檢測Transformer 模型具有以下的優(yōu)點:1)改變了使用分類和回歸間接解決該問題的傳統(tǒng)思路,利用特征提取主干網絡以及具備特定先驗知識的檢測器進行端到端的預測;2)多頭注意力機制相對于卷積能夠更好地關注全局信息,對于檢測遮擋目標更具優(yōu)勢,并可以保持相對較低的參數量;3)能夠為多種目標檢測任務提供解決方案。然而,該類模型也存在一些不足之處,例如對于特征圖的處理會產生較大的計算量,包括翻譯特征圖時存在的冗余計算,對于高分辨率特征的計算,單尺度、多尺度特征圖的存儲和計算等。

    1.2.2 視覺分割

    另一類基于局部識別的方法,旨在圖像或視頻幀的像素級別上進行分類,主要解決視覺分割的問題。視覺分割通常包含兩個子問題:語義分割和實例分割。本文將從這兩個方面總結該類方法。

    1)語義分割。語義分割任務需要把圖像中的每一個像素賦予類別標簽,而不是像目標檢測僅預測出物體的矩形邊界框。但是語義分割只能判斷像素的類別,無法區(qū)分同類像素是否屬于不同實例。語義分割在自動駕駛及醫(yī)學圖像等領域有著較為廣泛的應用。

    在醫(yī)學圖像分割問題中,U-Net是最常用的神經網絡之一,它通過在編碼器和解碼器之間添加級聯來保持原始特征,結合Transformer 對U-Net 進行改進吸引了不少的研究目光。Transformer-U-Net(Sha等,2021)算法通過在原始圖像中添加Transformer模塊來代替U-Net 的特征映射。TransUNet(Chen 等,2021e)將Transformer 和U-Net 相結合,通過恢復局部空間信息來增強更精細的細節(jié)。一方面,Transformer 對CNN 特征圖中的標記化圖像塊進行編碼,作為提取全局上下文的輸入序列;另一方面,解碼器對編碼后的特征進行上采樣,然后將其與高分辨率CNN 特征圖結合,以實現精確定位。TransClaw UNet(Chang 等,2021)在編碼部分結合了卷積操作和Transformer 操作。卷積部分用于提取淺層空間特征,便于上采樣后圖像分辨率的恢復。Transformer部分用于對補丁進行編碼,自注意力機制用于獲取序列間的全局信息。解碼部分保留了下采樣結構,以獲得更好的細節(jié)分割性能。Swin-UNet(Cao 等,2021)是一種類似U-Net的純Transformer。標記化的圖像塊被送入基于Transformer的U形編碼器—解碼器架構中,并帶有用于局部全局語義特征學習的跳躍連接。UNET Transformer(Hatamizadeh 等,2022)利用Transformer作為編碼器來學習輸入量的序列表示,有效捕獲全局多尺度信息,并遵循“ U 形”編碼器解碼器網絡設計。Transformer 編碼器通過不同分辨率的跳躍連接直接連接到解碼器,以計算最終的語義分割輸出。U-Transformer(Petit 等,2021)網絡克服了U-Net 無法對長距離上下文交互和空間依賴性進行建模的問題。自注意力模塊利用編碼器特征之間的全局交互,而跳躍連接中的交叉注意力允許通過過濾掉非語義特征,在U-Net 解碼器中進行精細的空間恢復。Chen 等人(2022a)提出醫(yī)學圖像語義分割框架TransAttUNet,聯合設計了多級引導注意力和多尺度跳躍連接,以增強傳統(tǒng)U 形結構的功能和靈活性。該框架可以有效學習編碼器特征之間的非局部交互并聚合不同語義尺度的上采樣特征,增強了多尺度上下文信息的表征能力,從而產生可區(qū)分的特征。

    除了將Transformer 與U-Net 結合外,還有一些做出其他改進的Transformer 模型,如結合金字塔網絡或卷積進行特征編碼、修改自注意力機制以及設計不同的解碼器。Zhang 和Zhang(2022)提出基于金字塔網絡結構的多尺度注意力與CNN 特征提取相結合的新方法,即金字塔醫(yī)學Transformer(pyramid medical Transformer,PMTrans)。PMTrans 通 過處理多分辨率圖像來捕捉多距離關系。實現了自適應劃分方案,以保留信息關系,并有效地訪問不同的感受野。Wu 等人(2021c)提出一種金字塔組Transformer(pyramid group Transformer,PGT)作為逐步學習分層特征的編碼器,同時降低了ViT 的計算復雜度。然后提出特征金字塔Transformer融合來自PGT編碼器多個層次的語義級和空間級信息,以進行語義分割。Ji 等人(2021b)提出多復合Transformer,將豐富的特征學習和語義結構挖掘整合到一個統(tǒng)一的框架中,將多尺度卷積特征嵌入到表征序列中,實現尺度內和尺度間的自注意力。

    Gao 等人(2021b)將自注意力集成到CNN 中,以增強醫(yī)學圖像分割,同時提出一種有效的自注意力機制,并結合相對位置編碼,顯著降低自注意力的復雜度。Segtran(Li 等,2021d)是一種基于Transformer的替代分割框架,核心是一種新穎的擠壓和擴展Transformer。擠壓塊調節(jié)Transformer 的自注意力,擴展塊學習多樣化的表示。Valanarasu 等人(2021)提出一種門控軸向注意力模型,名為醫(yī)學Transformer(medical Transformer,MedT),通過在自注意力模塊中引入額外的控制機制來擴展現有架構。為了在醫(yī)學圖像上有效地訓練模型,還提出了一種局部—全局訓練策略,對整個圖像和補丁進行操作,分別學習全局特征和局部特征。

    SegFormer(Xie 等,2021b)框架將Transformer 與輕量級MLP解碼器相結合。分層結構的Transformer編碼器可以輸出多尺度特征。該模型不需要位置編碼,避免測試分辨率與訓練分辨率不同而采用插值位置編碼時導致的性能下降。此外,避免了復雜的解碼器,用MLP 解碼器聚合不同層的信息,結合局部和全局注意力呈現表示。Wang等人(2022b)引入Swin Transformer(Liu 等,2021d)作為主干來充分提取上下文信息,并設計了密集連接特征聚合模塊解碼器來恢復分辨率并生成分割圖。Zheng 等人(2021c)將語義分割視為一個序列到序列的預測任務,部署了一個純Transformer 來將圖像編碼為補丁序列。通過在Transformer 的每一層建模全局上下文,該編碼器可以與簡單的解碼器結合以提供強大的分割Transformer 模型(segmentation Transformer,SETR),結構如圖5 所示。圖5(a)展示了將圖像分為固定大小的補丁,線性嵌入每個補丁并添加位置嵌入,將生成的向量序列輸入到標準Transformer 編碼器。為了執(zhí)行逐像素分割而引入了不同的解碼器設計,如圖5(b)展示的漸進式上采樣和圖5(c)展示的多級特征聚合,漸進式上采樣產生稱為SETRPUP 的變體,多級特征聚合產生稱為SETR-MLA 的變體。在圖5(b)中,考慮交替卷積層和上采樣操作,為了最大限度地減輕對抗效應,將上采樣限制為2 倍。因此,從尺寸為H/16 ×H/16 的某一變換層的特征達到全分辨率共需要4 次操作,其中,H和W分別指圖像的高和寬的像素值。

    圖5 SETR 模型結構(Zheng 等,2021c)Fig.5 SETR model architecture(Zheng et al.,2021c)((a)feed the resulting sequence of vectors generated by an image to a Transformer encoder and decoder;(b)progressive upsampling;(c)multi-level feature aggregation)

    Transformer 語義分割網絡在其他的分割任務如腫瘤及息肉分割、透明對象分割和少樣本語義分割等方面同樣得到了應用。Wang 等人(2021e)首次將Transformer 融入3D CNN 來進行磁共振成像腦腫瘤分割(brain tumor segmentation,TransBTS)。為了捕獲局部3D 上下文信息,編碼器首先利用3D CNN 來提取體積空間特征圖。同時,針對送入Transformer進行全局特征建模的標記,對特征圖進行改造。解碼器利用Transformer嵌入的特征并執(zhí)行漸進式上采樣來預測詳細的分割圖。PolypPVT(Dong 等,2023)利用金字塔視覺Transformer(pyramid vision Transformer,PVT)學習息肉(Polyp)分割的表示,級聯融合模塊從高層特征中收集息肉的語義和位置信息,偽裝識別模塊捕獲隱藏在低層特征中的信息,相似度聚合模塊將具有高層語義位置信息的息肉區(qū)域的像素特征擴展到整個息肉區(qū)域,從而融合跨層特征,有效抑制了特征中的噪聲,提高了特征的表達能力。Ji 等人(2021a)為視頻息肉分割任務提出漸進歸一化自注意力網絡,完全基于基本的歸一化自注意力塊,完全配備了遞歸和CNN,可以在單個RTX 2 080 GPU 上以實時速度有效地學習息肉視頻的表征,無需后處理。

    Xie等人(2021a)提出一種解決透明對象分割的方法Trans2Seg,其Transformer 編碼器提供了全局感受野。通過將語義分割表述為字典查找問題,設計了一組可學習的原型作為Trans2Seg 的Transformer解碼器的查詢,每個原型學習整個數據集中一個類別的統(tǒng)計信息。Zhang等人(2021e)構建了一個具有雙頭透明Transformer 模型的可穿戴系統(tǒng),該模型能夠分割一般和透明物體并執(zhí)行實時尋路,以幫助人們更安全地獨自行走。

    Lu 等人(2021)提出了一種基于元學習的少樣本語義分割學習方法,只學習復雜分割模型的分類器部分,而凍結預先訓練的編碼器和解碼器部分。為了解決類內變化問題,進一步提出一個分類器權重Transformer 以適應分類器的權重,它先在支持集上初始化以適應每個查詢圖像。Sun 等人(2021a)提出基于Transformer 的少樣本語義分割方法(Transformer-based few-shot semantic segmentation,TRFS)。該模型由全局增強模塊和局部增強模塊組成。前者采用Transformer 塊來利用全局信息,而后者采用傳統(tǒng)卷積來利用局部信息,跨越查詢和支持特征。

    語義分割通常公式化為每個像素的分類任務,但也有一些將使用在實例分割中的掩膜分類用于語義分割的探索。Segmenter(Strudel 等,2021)允許在第一層和整個網絡中對全局上下文進行建模,在ViT 的基礎上將其擴展到語義分割。為此,依賴于與圖像補丁對應的輸出嵌入,并使用逐點線性解碼器或掩膜Transformer解碼器從這些嵌入中獲取類標簽。線性解碼器已經可以獲得很好的結果,但通過產生類掩膜的掩膜Transformer 可以進一步提高性能。Cheng 等人(2021)認為掩膜分類足夠通用,可以用統(tǒng)一的方式解決語義和實例級分割任務,提出一個簡單的掩膜分類模型MaskFormer,它預測一組二進制掩膜,每個掩膜與一個全局類別標簽預測相關聯。

    圖像分割的評價指標通常是像素精度(pixel accuracy,PA)及交并比(intersection over union,IoU)的變種。PA 為標記正確的像素占總像素的比例,IoU 計算真實值和預測值這兩個集合的交集和并集之比,均交并比(mean IoU,mIoU)計算每個類的IoU后累加再平均。醫(yī)學圖像分割還有兩種常用的評價指標,即Dice 相似系數(Dice similarity cofficient,DSC)和豪斯多夫距離(Hausdorff distance,HD)。DSC 計算兩個集合的相似度,值越大兩個集合越相似,HD 計算兩個集合之間的距離,值越小兩個集合相似度越高。表4 比較了4 個醫(yī)學數據集和4個普通數據集上部分語義分割模型的表現??梢钥闯觯琒ynapse multi-organ CT 醫(yī)學圖像數據集上Swin-UNet的分割效果最好,不同于TransUNet 和TransClaw U-Net 結合了CNN 進行特征提取,Swin-UNet 是一種類似U-Net 的純Transformer 模型。此外,MedT 與其他一些模型相比表現不佳,可能是MedT僅引入控制機制來改進Transformer 自注意力模塊,與之相比,TransAttUNet 模型則是將Transformer 自注意力與全局空間注意力相結合,能更好地模擬遠程上下文交互。觀察PASCAL Context(Mottaghi 等,2014)等4 個普通分割數據集內各模型的表現,可以發(fā)現同一模型的表現會隨著規(guī)模的增大而有所提升,不同模型的結果總體來說相差不大,但SegFormer 可能略勝一籌。

    表4 比較語義分割模型在4個醫(yī)學圖像數據集和4個普通分割數據集上的表現Table 4 Compare the performance of the semantic segmentation models on 4 medical image datasets and 4 general segmentation datasets

    顯著目標檢測(salient object detection,SOD)即檢測場景中最顯著的目標區(qū)域,通常分為檢測顯著目標和分割目標的準確區(qū)域兩步。本質上是對人眼注意點的預測和像素級二分類問題。所以雖然名為“目標檢測”,但應屬于目標檢測和語義分割的結合任務。又因其最終結果更類似于分割的形式,且評價指標更接近于語義分割,故本文將其總結在本節(jié)。

    Liu 等人(2021b)為RGB 和RGB-D 顯著目標檢測開發(fā)了一種基于純Transformer 的統(tǒng)一模型,即視覺顯著性Transformer(visual saliency Transformer,VST)。該模型利用多級標記融合并在Transformer框架下提出一種新的標記上采樣方法,以獲得高分辨率的檢測結果。另外,該模型還開發(fā)了一個基于標記的多任務解碼器,通過引入任務相關的標記和一個補丁任務注意力機制,同時執(zhí)行顯著性和邊界檢測。Qiu 等人(2022b)探索了Transformer 和CNN相結合的方法來學習SOD 的全局和局部表示,提出基于Transformer 的非對稱雙邊U 網(asymmetric bilateral U-Net,ABiUNet)。非對稱雙邊編碼器具有Transformer 路徑和輕量級CNN 路徑,其中這兩條路徑在每個編碼階段通信以分別學習互補的全局上下文和局部空間細節(jié)。非對稱雙邊解碼器還包含兩條路徑來處理來自Transformer 和CNN 編碼器路徑的特征,在每個解碼階段進行通信,分別用于解碼粗略的顯著對象位置和查找粒度對象細節(jié)。CoSformer網絡(Tang 和Li,2022)可以捕獲多個圖像中的顯著和常見視覺模式,用于協(xié)同顯著目標檢測(co-salient object detection,CoSOD)任務。Transformer解決了輸入順序的影響,提高了CoSOD 任務的穩(wěn)定性。還構造出一種對比度學習方案來建模圖像間的可分性,并學習更具區(qū)分性的嵌入空間來區(qū)分真實的普通目標和噪聲目標。

    使用Transformer 的語義分割模型的優(yōu)點如下:(1)由于克服了卷積結構應用于該任務的局限性,能夠更好地建模全局上下文信息,因此在提升語義分割的性能方面要普遍優(yōu)于含有卷積的模型;(2)通過結合經典的U 形架構或金字塔網絡,能夠學習多尺度、層次化的特征;(3)可適用于多種分割場景,滿足醫(yī)療、行駛等廣泛的現實應用。雖然使用更大規(guī)模的模型和更小的圖像補丁能夠取得較好的效果,但會增加計算時間和內存占用,此外對于預訓練和大數據集也同樣具有依賴性。

    2)實例分割。實例分割類似于目標檢測和語義分割的結合,相對于目標檢測的邊界框,實例分割輸出的是掩膜,可以分割出物體的邊緣,并能區(qū)分同類物體的不同實例,彌補了語義分割的不足。

    Transformer 的應用使實例分割出現了許多端到端的框架。第一個端到端的實例分割Transformer(instance segmentation Transformer,ISTR)(Hu 等,2021b)預測低維掩膜嵌入,并將其與真實掩膜嵌入進行匹配,以獲得集合損失。此外,ISTR 采用循環(huán)細化策略同時進行檢測和分割,與現有的自上而下和自下而上的框架相比,提供了一種新的實現實例分割的方法。Dong等人(2021)基于DETR 提出端到端的實例分割框架,通過學習統(tǒng)一查詢來分割對象(segmenting objects by learning queries,SOLQ)。學習的對象查詢以統(tǒng)一的向量形式同時執(zhí)行分類、框回歸和掩膜編碼。在訓練階段,通過對原始空間掩膜的壓縮編碼來監(jiān)督編碼后的掩膜向量。推理時,產生的掩膜矢量可以通過壓縮編碼的逆過程直接轉換為空間掩膜。Yu 等人(2022)類比DETR 的思想,將實例分割看做集合預測問題提出端到端框架,使用實例感知Transformer 來分割對象(segments objects with instance-aware Transformers,SOIT),并消除了對許多手工組件的需要,如感興趣區(qū)域(region of interest,RoI)裁剪、一對多標簽分配和非極大值抑制。像素化掩膜由一組參數嵌入,以構建一個輕量級的實例感知Transformer,然后產生全分辨率掩膜,而不涉及任何基于RoI的操作。

    兩階段方法(Mask RCNN 等)以及上述基于查詢的實例分割方法(如ISTR,SOLQ 等)取得了顯著的效果。除此之外,提高掩膜質量和簡化模型方面也產生了新的研究。Mask Transfiner(Ke 等,2021)算法以較低的計算成本預測高度精確的實例掩膜。該方法不是對規(guī)則的密集張量進行操作,而是將圖像區(qū)域分解并表示為四叉樹,只處理檢測到的容易出錯的樹節(jié)點,然后并行地自校正它們的錯誤。這些稀疏像素對最終掩膜質量是至關重要的。Transformer分割對象(segmenting objects with Transformers,SOTR)方法(Guo等,2021)簡化了分割流程,該方法建立在CNN 主干上,并附加了兩個并行子任務:通過Transformer 預測每個實例類別和通過多級上采樣動態(tài)生成分割掩膜。SOTR 分別通過特征金字塔網絡(feature pyramid network,FPN)和雙Transformer 有效地提取底層特征表示,并捕獲遠程上下文依賴關系。

    視頻實例分割需要同時對視頻中感興趣的對象實例進行分類、分割和跟蹤。Wang 等人(2021b)將該任務視為直接的端到端并行序列解碼/預測問題,提出視頻實例分割Transformer 框架(video instance segmentation Transformer,VisTR)。給定一個視頻片段輸入,直接輸出其中每個實例的掩膜序列。核心是一種實例序列匹配和分割策略,它監(jiān)督和分割整個序列級別的實例。VisTR 從相似性學習的相同角度對實例分割和跟蹤進行幀處理,大大簡化了整體流程。幀間通信Transformer(inter-frame communication,IFC)(Hwang 等,2021)是另一種端到端解決方案,它通過有效地編碼輸入片段中的上下文,顯著減少了幀間信息傳遞的開銷。

    實例分割通常會使用到掩膜,評價實例分割模型可以參考掩膜平均精度(mask AP)和框平均精度(box AP),前者用于綜合評價實例分割模型效能,后者用于綜合評價目標檢測模型效能。表5 比較了上述部分實例分割模型在COCO(Lin 等,2014)測試集上基于不同主干網絡(backbone)的掩膜平均精準度(APm)和框平均精度(APb)的表現。COCO 數據集的評價指標AP等在1.2.1節(jié)已有介紹。從表5中可以看出,使用了Swin-L(Liu 等,2021d)作為主干網絡的SOLQ和SOIT模型相比于使用ResNet的其他模型實現了較大的精度提升,表明了利用移動窗口計算分層Transformer表征的方法對分割任務具有較大的益處。另外值得注意的是,SOTR模型雖然在多數指標上不如上述模型,但在中型和大型物體檢測掩膜平均精度上取得了最好的結果。

    表5 實例分割模型在COCO測試集上基于不同主干網絡的掩膜平均精準度(APm)和框平均精度(APb)比較Table 5 Compare the average precisions of mask(APm)and box(APb)based on different backbone networks of the instance segmentation models on the COCO test-dev set /%

    Transformer 用于實例分割的模型不同于以往自頂向下和自底向上的方法,該類模型一般屬于端到端的方法,能夠同時進行檢測和分割。此外,在視頻實例分割方面可以實現幀間物體的關聯和跟蹤。然而,Transformer對底層特征不夠敏感,大多模型需要結合CNN或FPN來提高在小物體預測上的表現。另外,一些端到端的方法使用低維掩膜會造成信息損失,學習更精細的掩膜或許能夠令結果有進一步提升。

    1.3 人臉識別

    人臉識別旨在為圖像或視頻幀中的人臉賦予一個類別標簽,相當于圖像分類的一種特例。人臉識別技術已經較為成熟并廣泛地應用于現實生活。與此同時,Transformer 在NLP 及其他視覺任務上表現出的優(yōu)異性能、其端到端的模型特點、更強的表達能力和對大規(guī)模數據的適用性催生了一些優(yōu)化人臉識別框架的研究。Zhong 和Deng(2021)研究了Transformer 模型應用于人臉識別的性能,證明在參數量和乘加運算量相似的情況下,Transformer 模型可以達到與CNN 相當的性能。Wu等人(2017)在CNN 中引入了遞歸空間Transformer(recursive spatial Transformer,ReST)模塊,允許以端到端的方式將人臉矯正與人臉識別聯合學習,成為一種有效的免矯正人臉識別解決方案。ReST 具有內在的遞歸結構,能夠逐漸將人臉與標準人臉對齊,可以處理較大的人臉變化。為了對非剛性變換建模,將多個ReST模塊組織成層次結構,以考慮人臉的不同部分,所提出的HiReST-9(hierarchical ReST)模型結構如圖6 所示。種族因素已被證明是公平人臉識別的一個難題,因為受試者相關的特定屬性會導致分類偏差,Li 等人(2021e)將人臉身份相關的表征抽象為一個信號去噪問題,并提出漸進交叉Transformer(progressive cross Transformer,PCT)方法,在達到最先進的人臉識別性能的同時,能夠減輕種族偏差??梢暬Y果表明,PCT 中的注意力圖能夠很好地揭示與種族相關或有偏差的面部區(qū)域。Clusformer(Nguyen 等,2021)是一種基于Transformer的自動視覺聚類方法,通過無監(jiān)督的注意力機制來實現大規(guī)模人臉識別和視覺地標識別。該方法能夠很好地處理噪聲或硬樣本,在端到端框架中還可以靈活有效地與多種規(guī)模的不同深度網絡模型進行協(xié)作。

    圖6 HiReST-9模型結構(Wu等,2017)Fig.6 HiReST-9 model architecture(Wu et al.,2017)

    除了人臉識別外,一些研究注重于人臉的表情識別。人臉表情本身極其復雜,情緒重疊,這決定了表情數據集不可避免地帶有錯誤標記或不確定的數據。為了解決這個問題,Zhao等人(2021a)結合貝葉斯理論為人臉表情識別(facial expression recognition,FER)任務提出一種基于Transformer 的架構,并對特征提取模塊和訓練策略進行改進,形成了自適應自愈網絡(adapted self-cure network,Adapted-SCN)來抑制訓練數據的不確定性。Li 等人(2021a)提出一種用于野外FER 的基于純Transformer 的掩膜視覺模型,它由兩個模塊組成:基于Transformer的掩膜生成網絡,用于生成能夠濾除復雜背景和人臉圖像遮擋的掩膜;動態(tài)重新標記模塊,用于糾正野外FER 數據集中的錯誤標簽。Ling 等人(2021)提出一種面向課堂智能學習的人臉表情識別系統(tǒng)。首先使用YOLO(you only look once)從高分辨率視頻中提取多個學生的人臉圖像;然后對人臉圖像進行預處理,使用基于自注意力的ViT 模型來識別人臉表情;最后利用分類后的人臉表情輔助教師分析學生的學習狀況,從而為提高教學效果提供建議。相較于上述先從視頻中提取人臉圖像再進行靜態(tài)識別的方法,陳港等人(2022)采用端到端的學習方式,直接對視頻序列進行表情識別。將視頻序列分為固定幀數的片段,從每幀圖像學習表情特征,從而生成固定維度的視頻片段空間特征,再利用Transformer 模型學習其中的注意力特征,最后通過最大池化一個視頻所有片段的分類數值實現該視頻的表情識別。

    比較上述部分模型在主流基準數據集LFW(labeled faces in the wild)(Huang 等,2008)和FERPlus(Barsoum 等,2016)上的表現,如表6 所示,其中ViT-P8S8和T2T-ViT 模型(Zhong和Deng,2021)引用了ViT(Dosovitskiy 等,2021)和T2T-ViT(Yuan 等,2021)。LFW 人臉數據集是人臉識別的常用數據集,該數據集的圖像主要是從互聯網中搜集來源于生活自然場景的人臉圖像。FERPlus 是人臉表情識別常用的數據集。人臉識別通常是用準確率來評價算法性能。從表6 可以看出,無論是人臉識別還是表情識別,不同模型的結果相差不多。對于人臉識別,所有模型都取得較好的結果,準確率都在99%以上;對于人臉表情識別,不同模型的準確率在90%左右。

    表6 比較LFW數據集上人臉識別模型和FERPlus數據集上人臉表情識別模型的準確率Table 6 The accuracies comparison of the face recognition models on the LFW dataset and the facial expression recognition models on the FERPlus dataset /%

    Transformer 應用于人臉識別同樣能夠取得較好的結果,根據上述模型總結其優(yōu)點如下:1)傳統(tǒng)的人臉識別流程通常包括矯正和識別,即先將人臉對齊到預定義的模板上,再提取特征進行識別。使用Transformer 實現了以端到端的方式同時進行矯正和識別,其中的注意力機制關注面部區(qū)域,還能夠處理豐富多樣的人臉特征,并且為處理數據集中易引起偏見的種族屬性、具有標簽不確定性的人臉表情或其他噪聲提供了更多解決方案。2)為識別任務提供了不同的訓練策略,例如PCT 對人臉識別和種族分類以多任務方式訓練,以及無監(jiān)督訓練、自適應自愈網絡。然而,目前這類模型還存在一些不足之處,例如:在遮擋魯棒性方面的表現并不優(yōu)于CNN,無法在相對較小的數據集上發(fā)揮最佳效果,分層遞歸的中間輸出可能存在冗余等。

    1.4 動作識別

    動作識別任務通常需要對給定圖像或視頻中的人體動作進行分類,是圖像分類或視頻分類的特例。動作識別研究已有幾十年的歷史,之前常用的深度學習網絡,主要包括雙流(two-stream)網絡、三維卷積(convolutional 3D,C3D)和RNN。由于Transformer可以更好地建模長時間的時空依賴關系,最近兩年采用Transformer 進行動作識別的方法也逐漸增多。動作識別的輸入可以是單種模態(tài)如RGB 視頻、骨架視頻、深度圖或是多種模態(tài)的結合。目前,尚無單獨使用深度圖采用Transformer 進行動作識別的方法。因此,本文接下來將分別介紹其他幾種輸入下使用Transformer進行動作識別的研究進展。

    RGB 視頻易于獲得,也是最常用的動作識別模態(tài),網絡模型可以從其中包含的形狀、顏色和紋理等信息提取動作特征。Girdhar 等人(2019)提出Action Transformer 模型用于識別和定位視頻片段中的人體動作,如圖7 所示。通過使用高分辨率、因人而異的以及與類別無關的查詢,該模型可以自發(fā)地學習跟蹤單個人,并從其他人的行為中提取語義上下文。此外,它的注意力機制學習強調手和臉,這往往是區(qū)分動作的關鍵。

    圖7 Action Transformer(Girdhar等,2019)識別人類動作,如“牽手”和“看著一個人”Fig.7 Action Transformer(Girdhar et al.,2019)recognizes human actions such as “holding hands” and “watching a person”

    Jiang 等人(2021)關注視頻動作識別中外觀和運動信息間的關系,提出一種雙路徑Transformer 網絡(two-pathway Transformer network,TTN),使用基于記憶的注意力來探索這種關系。解碼器將一條路徑的特征作為查詢(q),而將另一條路徑的特征作為關鍵字(k)和值(v)。然后根據q 和k 估計的相似度矩陣,從v 中選擇相關信息,對最終的分類任務進行查詢增強。Jin 等人(2021)改進了Transformer,以改善特征之間的依賴關系,減少特征表示的誤差。該改進的模型采用ResNet(2+1)D 卷積來捕獲輸入視頻序列的低層局部時空特征,并作為其輸入以獲得全局注意力。同時,采用類似于通道注意力的方法動態(tài)更新序列數據的潛在時域維權重,從而更好地將特征映射到類別標簽。Cai 等人(2021)提出Action-Transformer,主要由3 個模塊組成:時空變換模塊將分割的短視頻映射成空間和時間特征;混合特征注意力模塊從空間和時間特征中提取細粒度特征并產生混合特征;殘差變換模塊結合注意力、前饋網絡和殘差機制,從混合特征中提取局部和全局特征。Mazzia 等人(2022)提出了一種簡單的、完全自注意力的架構,其性能優(yōu)于混合了卷積、遞歸和注意力層的更復雜的網絡。

    由于未剪輯的視頻中可能包含若干個動作,一些研究者采用Transfomer 進行動作檢測,旨在定位視頻中的動作。Zhao 等人(2022)提出第一個基于Transformer 的端到端動作檢測網絡:邊界框序列Transformer(Tubelet-Transformer,TubeR),其編碼器和解碼器針對建??勺冮L度和縱橫比的動作邊界框序列進行了優(yōu)化。TubeR 不依賴于手工設計的邊界框序列結構,自動學習一組與動作相關的邊界框序列查詢。通過學習動作邊界框序列嵌入,TubeR 以靈活的空間和時間范圍預測更精確的動作邊界框序列。Liu等人(2022a)構建了基于Transformer 的端到端時間動作檢測框架(temporal action detection Transformer,TadTR),它將所有動作實例同時預測為一組標簽和時間位置。TadTR 能夠通過選擇性地關注視頻中的多個片段,自適應地提取進行動作預測所需的時間上下文信息。

    上述方法的動作識別往往是識別單人或雙人的動作,還有一類動作識別旨在識別3 人以上的動作,稱為群體動作識別。一些研究者也采用Transformer模型嘗試進行群體動作識別。Li 等人(2021c)提出了一種群體動作識別網絡GroupFormer,為推理群體動作的時空上下文表示建模。同時,引入了聚類注意力機制來對個體進行分組,并利用群體內和群體間的關系來實現更好的群體信息特征提取。Zhang等人(2021a)采用視頻Transformer,提出了一種視頻和圖像聯合訓練(co-training video Transformer,CoVeR)的方法。該方法一方面可以對不同視頻數據集和標簽空間聯合訓練以獲得語義信息(例如,Kinetics 數據集側重于外觀,而something-something數據集側重于運動);另一方面通過與圖像(如單幀視頻)協(xié)同訓練,更好地學習視頻表示。

    隨著基于RGB 視頻的動作識別準確率不斷提升,一些研究者開始研究基于3D 數據的動作識別。三維骨架數據是運動動力學的有效表示,不容易受到光線、場景變化等因素的影響。Shi等人(2021)提出基于骨架的人體動作識別模型,該模型在空間維度上具有稀疏注意力,在時間維度上具有分段線性注意力。時空Transformer 網絡(spatial temporal Transformer,ST-TR)(Plizzari 等,2021)使 用Transformer 自注意力建模關節(jié)之間的依賴關系。在STTR模型中,空間自注意力(spatial self-attention,SSA)模塊用于理解不同身體部位之間的幀內交互,時間自注意力(temporal self-attention,TSA)模塊用于對幀間相關性進行建模。兩者的建模過程如圖8 所示,自注意力通過為每一對節(jié)點計算一個代表它們之間關聯強度的權重,從而評價每個身體關節(jié)ni的貢獻度。

    圖8 空間自注意力和時間自注意力的建模過程(Plizzari等,2021)Fig.8 Modeling process of SSA and TSA(Plizzari et al.,2021)((a)SSA;(b)TSA)

    時空元組Transformer(spatio-temporal tuples Transformer,STTFormer)方法(Qiu 等,2022a)將骨架序列分成若干部分,并對每個部分中包含的幾個連續(xù)幀進行編碼,同時使用一種時空元組自注意力模塊來捕捉連續(xù)幀中不同關節(jié)之間的關系。此外,在非相鄰幀之間引入特征聚合模塊,以增強區(qū)分相似動作的能力。避免利用單個關節(jié)之間的交互,Wang等人(2021c)提出部件內—部件間的Transformer 網絡(intra-inter-part Transformer,IIP-Transformer),同時合并身體關節(jié)和部件交互,可以高效地捕獲關節(jié)級別(部件內)和部件級別(部件間)的依賴關系。該網絡還引入了一種局部級骨架數據編碼,降低了計算復雜度,對關節(jié)級骨架噪聲具有更強的魯棒性。

    骨架數據其實就是一個動態(tài)的骨架圖序列,每一幀的骨架構成一幅圖。因此,研究者會在Transformer模型中加入圖卷積網絡(graph convolution network,GCN)用來編碼骨架圖。為了克服GCN鄰域約束和糾纏時空特征表示的局限性,Bai等人(2022)設計了一個解糾纏時空Transformer 塊,并提出了層次圖卷積骨架Transformer(hierarchical graph convolutional skeleton Transformer,HGCT),以利用GCN(局部拓撲、時間動態(tài)和層次化)和Transformer(全局上下文和動態(tài)注意力)的互補優(yōu)勢。多尺度時間Transformer(Kong 等,2022)將原始骨架數據嵌入到GCN 塊和多尺度時間嵌入模塊以提取不同時間尺度的特征,并作為Transformer 編碼器的輸入進行動作識別。與前面方法不同的是,Meng 等人(2022)將Transformer 提取的圖像特征作為GCN 的輸入,采用引入自適應圖卷積層的ST-GCN網絡進行動作識別。

    單模態(tài)動作識別得到了廣泛的研究,但單一數據模態(tài)各有優(yōu)勢和局限性;而多模態(tài)的分析可以更好地研究多種模態(tài)的互補特性,例如融合RGB 和深度(depth)數據或其他易獲得的數據,達到更高的性能水平。Li 等人(2022a)提出以自我為中心的動作識別框架(Transformer-based egocentric action recognition,Trear),采用自注意力機制對來自RGB 和depth 兩種模態(tài)的數據的時間結構進行建模。Chen和Ho(2022)提出融合RGB 視頻和音頻的多模態(tài)視頻Transformer(multi-modal video Transformer,MMViT)。與僅使用解碼的RGB 幀的其他方案不同,MM-ViT僅在壓縮視頻域中操作,并利用所有容易獲得的模態(tài),即外觀(I幀)、運動矢量、殘差和音頻波形。

    表7 顯示了基于RGB、骨架及多模態(tài)數據的不同動作識別方法的結果。其中,使用來源于現實生活場景的動作識別數據集UCF 101(Soomro 等,2012)評價基于RGB 或多模態(tài)的模型性能,使用大型人體骨架動作識別數據集NTU 60(Shahroudy 等,2016)及NTU 120(Liu 等,2020)評價基于骨架的模型性能。表7 中X-Sub,X-View 和X-Set 表示不同的實驗設置。從表7 可以看出,基于RGB 的動作識別模型中,3 個結合卷積的模型結果明顯優(yōu)于純Transformer 的模型。同時在基于骨架的動作識別模型中,結合圖卷積的HGCT 基本上在所有指標上取得了最好的結果,純Transformer 模型STTFormer 和IIPTransformer 也實現了與HGCT 相當的性能?;蛟STransformer 與卷積網絡相結合更有利于進行動作識別,但純Transformer 動作識別模型仍有很大的探索空間。另外,融合RGB 視頻和音頻的多模態(tài)動作識別模型(MM-ViT)準確率要比單純使用RGB 模型的最好結果(TTN-I3D)高出1%,這也說明了融合多種模態(tài)在動作識別方面具有優(yōu)勢。

    表7 比較UCF 101數據集以及NTU 60和NTU 120數據集上動作識別模型的準確率Table 7 Comparing the accuracy of action recognition models on UCF 101,NTU 60 and NTU 120 datasets /%

    上述應用于動作識別的Transformer模型的優(yōu)點可以概括為以下幾點:1)Transformer 與卷積或圖卷積相結合可以捕獲低層局部特征和高層全局特征,從而減少特征表示的誤差;2)Transformer 能夠更好地融合不同類型的特征(如外觀和運動特征),并建模兩者間復雜的交互;3)對于包含多個動作的視頻,Transformer 實現了端到端的動作檢測和識別;4)利用一些新的訓練方法(如CoVeR),能夠改進Transformer 依賴預訓練的問題,并為訓練可泛化的通用動作識別模型提供了解決思路;5)多模態(tài)動作識別Transformer 模型利用自注意力建模單種模態(tài)內的特征,并利用互注意力融合多種模態(tài)間的特征,能夠實現比單一RGB數據輸入更好的效果。

    同樣地,該類模型也存在一些缺點。例如:1)Transformer 需要一些其他的輔助才能發(fā)揮更好的效果。例如,Girdhar 等人(2019)表示添加光流作為輸入可能會提高模型性能,Jiang 等人(2021)也表示將運動特征顯式輸入到Transformer中優(yōu)于其本身對時間關系的自學習。2)一次性地處理具有多人動作的長視頻時,模型需要大量查詢,這會導致自注意力層出現記憶問題,影響識別性能。3)卷積主干通常使用到大部分的計算量和內存占用量。

    1.5 姿態(tài)估計

    姿態(tài)估計旨在找出人體關鍵點的位置并確定部位間空間關系。通??梢圆捎米陨隙?,或自下而上的方法進行姿態(tài)估計。自上而下的方法一般涉及兩個任務:人體檢測和關鍵點確定。自下而上的方法一般需要完成身體部位預測和人體模型擬合兩個任務。其中,人體檢測和身體部位預測需要用到目標檢測的技術,因此,姿態(tài)估計可以歸為局部識別任務的一個實例。本節(jié)將對姿態(tài)估計中采用Transformer 的方法進行總結。根據輸入數據的不同,姿態(tài)估計任務可以劃分為:2D 姿態(tài)估計和3D 姿態(tài)估計。前者一般是確定身體部位,如頭、手、膝蓋等的二維坐標,后者在二維坐標的基礎上增加了深度信息。本節(jié)分別介紹在2D 和3D 姿態(tài)估計以及一種特別的手勢姿態(tài)估計中Transformer的應用。

    在2D姿態(tài)估計中,常用的是對關鍵點坐標進行回歸的方法或基于熱圖的方法。基于回歸的方法精度一般,基于熱圖的方法受制于各種啟發(fā)式設計,于是結合Transformer來優(yōu)化模型的研究取得了一定的進展。Li 等人(2021b)提出了一種基于回歸的使用級聯Transformer 的姿態(tài)識別方法(pose regression Transformers,PRTR)。利用Transformer 中的編解碼器結構來執(zhí)行基于回歸的人員和關鍵點檢測,展示了關鍵點假設(查詢)在不同自注意力層次上的細化過程,揭示了Transformer 中自注意力的遞歸機制。如圖9 所示,在解碼過程中,PRTR 通過增加置信度和減少相對真實值的空間偏差來預測關鍵點,從而將圖像無關的查詢轉換為最終的預測。

    圖9 PRTR(Li等,2021b)跨不同Transformer解碼器層逐漸細化關鍵點的圖示Fig.9 Illustration of PRTR(Li et al.,2021b)gradually refining the keypoints across different Transformer decoder layers

    Mao 等人(2021)也提出了基于回歸的Transformer 人體姿態(tài)估計框架(Transformer-based pose estimation,TFPose),將該任務轉化為序列預測問題??蚣芾@過了基于熱圖的缺點,能夠自適應地關注與目標關鍵點最相關的特征,這克服了以往基于回歸方法的特征不匹配問題,大大提高了性能。Stoffl 等人(2021)提出端到端的多實例姿態(tài)估計方法(pose estimation Transformer,POET),結合CNN 和Transformer 結構,能夠利用二部匹配方案直接回歸所有個體的姿態(tài)。使用基于集合的全局損失進行訓練,該損失由關鍵點損失、可見性損失和類別損失組成。POET 推理檢測到的個體與完整圖像上下文之間的關系,可以直接并行預測姿態(tài)。TransPose(Yang 等,2021b)模型中內置的注意力層使其能夠有效地捕獲遠程關系,還可以揭示預測的關鍵點依賴于什么。為了預測關鍵點熱圖,最后一個注意力層充當聚合器,收集圖像線索并形成關鍵點的最大位置。

    本節(jié)在COCO(Lin 等,2014)驗證集和測試集上對比了上述2D 姿態(tài)估計模型采用不同輸入分辨率(input size)的參數量(Params)、浮點運算數(FLOPs)、平均精準度(AP)和平均召回率(average recall,AR),如表8 和表9 所示。COCO 數據集的評價指標AP 等在1.2.1 節(jié)已有介紹,平均召回率(AR)評價找到所有正樣本的能力。綜合來看,以HRNet 作為主干網絡進行姿態(tài)估計的模型(PRTRHRNet-W32,TransPose-H-A4,TransPose-H-A6)要優(yōu)于ResNet 作為主干網絡的模型(PRTR-ResNet50,PRTR-ResNet101,TransPose-R-A4,TransPose-R-S),因為前者可以保持高分辨率表征,這對于關鍵點檢測是十分有利的,但這也帶來了更高的計算復雜度。然而,無論是以HRNet 還是ResNet 作為主干網絡,TransPose 模型在這兩種數據集上都取得了最好的結果,并保持了較低的計算復雜度。

    表8 比較COCO驗證集上不同2D姿態(tài)估計模型采用不同輸入分辨率的參數量、浮點運算數、平均精準度和平均召回率Table 8 Compare the Params,FLOPs,AP and AR of different 2D pose estimation models using different input size on the COCO validation set

    表9 比較COCO測試集上不同2D姿態(tài)估計模型采用不同輸入分辨率的參數量、浮點運算數、平均精準度和平均召回率Table 9 Compare the Params,FLOPs,AP and AR of different 2D pose estimation models using different input size on the COCO test-dev set

    應用于2D 姿態(tài)估計的Transformer 模型具有以下幾個方面的優(yōu)點:1)通過可視化注意力對關鍵點的建模,可以解決特征錯位的問題,也能夠發(fā)現身體關節(jié)間的上下文和結構化關系,如對稱關節(jié)、相鄰關節(jié)更容易相互關注;2)Transformer 中注意力逐層細化特征匹配的優(yōu)勢,能夠提高基于回歸的姿態(tài)估計性能;3)在解碼器配置方面,從寬度上看,使用更多的通道特征圖能獲得更高的精度,從深度上看,性能在前3 層增長并在第4 層達到飽和(Mao 等,2021),平均性能在3~5層后趨于穩(wěn)定(Stoffl等,2021)。

    雖然使用Transformer很大程度上提高了基于回歸的姿態(tài)估計的性能,但完全避免熱圖計算可能會造成速度和精度上的不足,難以達到最優(yōu),正如與基于回歸的模型PRTR、TFPose、POET 相比,僅使用編碼器進行純熱圖預測的TransPose 通過更少的參數和更快的速度,實現了最先進的性能。然而,Yang等人(2021b)的實驗結果顯示即使有較長的訓練周期其性能,也不如微調過的模型,這是目前姿態(tài)估計Transformer的另外一點不足。

    3D 姿態(tài)估計同樣存在使用Transformer 優(yōu)化特征學習和全局關系建模的研究。Lifting Transformer(Li 等,2022c)將一系列2D 關節(jié)位置提升到3D 姿態(tài),應對從冗余序列中學習具有鑒別性的單姿態(tài)表示的挑戰(zhàn)性。Zhao 等人(2021b)提出結合圖卷積的Transformer架構GraFormer,用于3D姿態(tài)估計。Gra-Former 包含兩個重復堆疊的核心模塊:圖注意力和切比雪夫(Chebyshev)圖卷積。圖注意力使所有2D關節(jié)能夠在全局感受野中進行交互,而不會削弱關節(jié)的圖結構信息。切比雪夫圖卷積使二維關節(jié)能夠在高階球面上進行交互,從而表達了關節(jié)之間隱藏的隱式關系。由于三維人體姿態(tài)估計面臨多個可變因素,包括觀看次數、視頻序列長度、是否使用攝像機標定等,因此,Shuai 等人(2022)提出了一個統(tǒng)一的框架,稱為多視圖和時間融合Transformer(multiview and temporal fusing Transformer,MTFTransformer),自適應處理變化的視圖數和視頻長度而無需校準,由特征提取器、多視圖融合Transformer和時間融合Transformer 組成。PoseFormer(Zheng等,2021a)是一種完全基于Transformer 的3D 人體姿態(tài)估計方法,不涉及卷積架構。其中的時空Transformer 結構全面建模每一幀內的人體關節(jié)關系以及幀間的時間關聯,然后輸出中心幀的準確三維人體姿態(tài)。

    Human3.6M(Ionescu 等,2014)是3D 姿態(tài)估計常用的數據集,該數據集包括360 萬幅3D 人體姿態(tài)和相應圖像,由11 名專業(yè)演員模擬了討論、吸煙、拍照等17種情景。表10比較了上述3D姿態(tài)估計模型在Human3.6M 數據集上的表現。其中,Dr、Ds、Ea、Gr、Pn、Pt、Ps、Pu、St、Sd、Sm、Wi、Wd、Wk、Wt 分別代表指示方向、討論、吃、問候、打電話、拍照、擺姿勢、購買、坐在椅子上、坐著活動、吸煙、等待、遛狗、行走、一起行走等訓練動作情景。3D 姿態(tài)估計常用的評價指標有“每個關節(jié)位置誤差均值”(mean per joint position error,MPJPE),通常稱為協(xié)議1,此外還有協(xié)議2(P-MPJPE),先經過旋轉、對齊等變換再計算MPJPE,指標越小,則算法表現越好。從表10 中可以看出,使用協(xié)議1作為評價指標的模型中,MTFTransformer 實現了各個情景下的最佳表現,說明多視圖融合的Transformer模型能更好地適應多變的人體姿態(tài)估計場景。Lifting Transformer 和PoseFormer模型在協(xié)議1的結果不相上下,而后者在協(xié)議2的表現更好,這說明純Transformer 模型對于變換可能更具魯棒性。

    表10 分別使用協(xié)議1和協(xié)議2定量比較3D姿態(tài)估計模型在Human3.6M上的表現Table 10 Use protocol 1 and protocol 2 to quantitatively compare the performance of 3D pose estimation models on Human3.6M /%

    3D 姿態(tài)估計通常是經2D 姿態(tài)估計后再提升到3D 姿態(tài)(2D-to-3D pose lifting)。Transformer 處理長期依賴的能力使其可以更好地利用時間信息,進而減少2D 到3D 映射時產生的深度歧義。在網絡結構方面,注意力與圖卷積結合不僅可以融合所有節(jié)點的信息,還可以對隱式和顯式拓撲結構進行建模,平衡了性能和參數量。Transformer 模型對多變的姿態(tài)估計場景還具有魯棒性,如MTF-Transformer和Pose-Former。

    雖然Transformer在一定程度上減少了二維坐標向深度映射的歧義,但仍存在模糊性,例如生成了多個假設但是沒有建立不同假設特征之間的聯系。另外,將每幀的2D 姿態(tài)視為標記來處理時,如果遇到長幀序列則會產生大量的內存和計算量。

    Transformer 的識別能力也被手勢姿態(tài)估計的研究者所關注。Hampali 等人(2021)提出一種用于從單色圖像中估計密切交互的雙手的3D 姿勢。該方法首先提取雙手關節(jié)的一組潛在2D 位置作為熱圖的極值,使用這些位置的外觀和空間編碼作為Transformer 的輸入,利用注意力機制來整理關節(jié)的正確配置并輸出雙手的3D 姿勢。該方法結合了Transformer 的識別能力與基于熱圖的方法的準確性。Hu 等人(2021a)引入了第一個帶有手部先驗知識的自監(jiān)督預訓練SignBERT 用于手語識別。將手部姿勢視為視覺標記,被嵌入手勢狀態(tài)、時間和手性信息。SignBERT 首先通過掩膜和重構視覺標記進行自我監(jiān)督的預訓練,結合幾種掩膜建模策略,將手部先驗知識加入到模型感知方法中,以更好地建模層次上下文,然后加上預測頭,對SignBERT 微調來執(zhí)行識別。

    1.6 多任務方法

    在NLP領域已經出現了如GPT(Brown等,2020)這種可以處理多個不同類型下游任務的大規(guī)模Transformer 模型,但目前CV 領域提出的視覺Transformer 模型多數是針對單一任務使用,視覺領域同樣期待能夠統(tǒng)一多種任務的Transformer 模型的出現。本節(jié)整理了一些可以用于圖像分類、目標檢測及語義分割等多種視覺任務,或可以用于語言和視覺領域的通用模型。

    Yang 等人(2021a)提出了聚焦自注意力,一種結合細粒度局部交互和粗粒度全局交互的機制。每個標記以細粒度處理周圍最近的標記,以粗粒度處理遠的標記,從而可以高效地捕獲短程和長程視覺依賴?;诖藱C制提出一種視覺Transformer模型變體,稱為聚焦Transformer,可用于圖像分類、目標檢測及語義分割任務。PVT(Wang 等,2021a)是一種用于密集預測任務(如目標檢測和語義分割)的純Transformer 主干網絡。其中提出的漸進收縮金字塔和空間縮減注意力層,使得在有限的計算/內存資源下獲得高分辨率和多尺度的特征地圖。Zhang 等人(2021f)提出了一種新的ViT 結構的多尺度視覺Longformer,以解決普通ViT 模型無法應用于需要高分辨率特征圖的視覺任務的計算和存儲效率問題,并在圖像分類和目標檢測方面優(yōu)于多條基線模型。Heo 等人(2021)研究了空間維度轉換在基于Transformer的架構中的作用及其有效性,并在原ViT模型的基礎上提出了一種合并池化層的模型(poolingbased vision Transformer,PiT)。與ViT相比,PiT實現了改進的模型能力和泛化性能,在圖像分類、目標檢測和魯棒性評價等任務上,PiT優(yōu)于基線模型。從語言到視覺的轉換面臨的挑戰(zhàn)來自于兩個領域之間的差異,例如視覺實體規(guī)模的巨大差異以及圖像中像素相對于文本中單詞的高分辨率,Liu 等人(2021d)提出了一種分層Transformer(Swin Transformer)來解決上述差異,其表示是用移動窗口計算的。移動窗口方案將自注意力計算限制在非重疊的局部窗口上,同時允許跨窗口連接,從而提高了效率。這種分層結構具有在不同尺度下建模的靈活性,并且相對于圖像大小具有線性計算復雜性。Swin Transformer的這些特性使其能夠與廣泛的視覺任務兼容,包括圖像分類、目標檢測及語義分割等任務。Hu 和Singh(2021)提出了一個統(tǒng)一的Transformer模型(unified Transformer,UniT),可以應用于多個領域,在一個統(tǒng)一的編碼器—解碼器模型中共同處理多個任務。UniT 模型同時處理8 個數據集上的7 個任務,在單個訓練步驟中學習它們,并通過一組緊湊的共享參數在每個任務上實現強大的性能。通過領域無關的Transformer 架構,模型能夠處理包括目標檢測、自然語言理解和多模態(tài)推理等任務。

    此類Transformer 模型為多種下游任務提供了Transformer 主干網絡的選擇,改進了模型泛化性能。對于普通ViT 無法直接適用于需要高分辨率和多尺度特征圖的下游任務的問題,探索出了向Transformer 中加入分層結構的解決方案。目前各種視覺任務下的先進模型已廣泛使用到Swin Transformer主干,其移動窗口方案大大提高了建模靈活性和計算效率。同時,一些能夠處理視覺和語言差異的模型也為多模態(tài)任務提供了融合或互相轉化的方法。然而,目前領域主要探索了通用于圖像分類、目標檢測和語義分割任務的模型,對于是否還能加入其他任務的研究較少。另外,這些通用模型需要對特定任務微調,難以在多個任務間共享參數。

    2 挑戰(zhàn)及未來展望

    視覺Transformer 展示出了巨大的潛力,為處理多種視覺任務提供了新的解決思路,可以將Transformer 與CNN 結合使用,也可以使用純Transformer模型。而視覺Transformer的潛力尚未得到充分的開發(fā),還無法完全顛覆CNN 的主導地位,為了促進其發(fā)展,本節(jié)總結了現有的研究挑戰(zhàn),并對未來的研究方向提出了一些建議。

    1)位置編碼是一個尚待研究的問題。Transformer 模型核心是自注意力機制,但該機制本身是沒有位置信息的,而位置信息對于序列來說十分重要,Transformer 的提出者使用位置編碼來彌補這個缺陷。根據編碼方式的不同,可以分為絕對位置編碼和相對位置編碼,現有一些相對位置編碼方法已被證明在NLP 領域普遍有效,而CV 領域還有待研究。例如iRPE(Wu 等,2021b)是現有的一種針對二維圖像的相對位置編碼方法。此外,相對于顯式地設置位置向量,還有一些隱式位置編碼方式值得研究。例如CNN 本身便可以隱式地編碼位置信息(Islam 等,2020),利用卷積獲得像素級注意力來編碼位置(Zhang 和Yang,2021)能更好地適應于輸入序列長度不一的場景。分析位置編碼在視覺Transformer 中應用的優(yōu)缺點,探索有效的編碼方法是一個值得研究的方向。

    2)兼顧性能和成本的研究。視覺Transformer模型不具備CNN 的歸納偏置能力,需要使用足夠多的訓練數據才能表現出高性能,而在數據集較小的情況下,CNN 更為有效,Dosovitskiy 等人(2021)證明了這一點。此外,從第1 節(jié)公開數據集上的實驗結果可以看出,Transformer 模型使用大量參數,自注意力的運算量非常大。大數據訓練需要更嚴格的設備條件,高運算量影響了速度,限制了一些實時應用,如何降低部署Transformer 模型的資源成本,提高速度又能維持精度也是研究的重點。

    3)更多的自監(jiān)督學習方法。由于Transformer模型對大數據的依賴,通常使用大規(guī)模無標簽數據集進行預訓練,然后學習到的表示以監(jiān)督的方式在下游任務上進行微調,提高了性能并減少了人工標注成本。Atito 等人(2021)研究了自監(jiān)督學習對預訓練視覺Transformer 的優(yōu)點,然后將其用于下游分類任務。他們提出了自監(jiān)督視覺Transformer,并討論了幾種自監(jiān)督訓練機制,以獲得一個前置模型。計算機視覺中自監(jiān)督學習的重要問題是使用怎樣的前置任務,使得模型可以學習到更好的數據特征。一些前置任務設計方法如圖像著色、圖像修復、相對位置預測和幀排序,諸如此類的自監(jiān)督學習方法也將吸引更多的研究目光。

    4)處理多模態(tài)數據。Transformer 因其端到端的結構特性和強大的自注意力機制,具備很強的多模態(tài)融合能力,任何模態(tài)的信息都可以轉化為向量序列在輸入端進行融合。多模態(tài)任務主要是挖掘不同模態(tài)之間的互補性,例如預訓練的視覺和語言BERT 模型的目標是學習結合兩種模態(tài)的表征,Frank 等人(2021)提出一種跨模態(tài)輸入消融診斷方法來評估這些模型學習使用跨模態(tài)信息的程度,發(fā)現在去除視覺信息時預測文本的相對難度要比在去除文本時預測視覺信息的相對難度大得多,這表明這些模型的跨模態(tài)不是對稱的。特別地,對于一些零樣本識別任務,單純地利用視覺模態(tài)的方法可能無法獲得較好的結果,未來需要提出更多融合其他模態(tài)(如文本)的方法進行識別。因此,Transformer多模態(tài)模型還有很大的進步空間。

    當視覺Transformer 模型應用于識別任務時,也存在著不同的研究挑戰(zhàn)或問題,基于此類問題本節(jié)也給出了一些未來研究方向。

    1)全局識別任務。諸如圖像分類、視頻分類的全局識別任務面臨以下幾種挑戰(zhàn):(1)對大數據預訓練存在過分依賴的問題,該問題可以通過更多更先進的訓練方式來解決,例如蒸餾學習、自監(jiān)督學習。(2)輸入序列長度不一時,經典的位置編碼難以直接適用,Zhang 和Yang(2021)將位置編碼構造為空間注意力,避免了插值或微調。如何提供更有效的位置編碼是一個亟待解決的研究挑戰(zhàn)。(3)多數研究僅使用Transformer 編碼器來解決此類任務,而解碼器能否在其中發(fā)揮作用也可以作為一種研究方向。例如,Liu 等人(2021c)提出的Query2Label 方法使用Transformer解碼器來解決多標簽圖像分類問題。

    2)局部識別任務。以目標檢測、語義分割和實例分割為代表的局部識別任務面臨的挑戰(zhàn)可以分為以下兩個方面:(1)目標檢測模型通常需要一個任務無關的主干網絡來提取特征,雖然WB-DETR 證明了無主干的可行性,但對于主干網絡的探索仍值得關注。原始的ViT 難以直接作為目標檢測、分割等下游任務的主干,因此Transformer 在目標檢測中更多用來探索特定于任務的檢測器,若要作為下游任務的主干使用,更多是重新設計以引入分層結構,例如PVT(Wang 等,2021a)和Swin Transformer(Liu 等,2021d)。而 Li 等人(2022b)指出傳統(tǒng)卷積主干的多尺度和分層架構會影響檢測器的設計,進而探索了如何使用非層次化的ViT 主干進行目標檢測。諸如此類對上下游任務通用主干的研究是具有挑戰(zhàn)性的。(2)雖然目標檢測、分割任務具有較強的實際應用價值,而目前研究的Transformer 模型大多難以部署到現實場景,例如以FLOPs 和參數量衡量計算效率可能是片面的并且對硬件不敏感,不能反映推理速度或延遲。Xia 等人(2022)直接將特定硬件上的TensorRT延遲作為效率指標,能夠反饋計算能力、內存成本和帶寬,以此指標重新平衡準確率與效率,降低了多種任務的延遲。諸如此類通用且易于部署在實際場景中的解決方案也是一個研究挑戰(zhàn)。

    3)人臉識別。雖然已有一些對于人臉表情識別的研究,但光照、遮蓋物、年齡和拍攝角度等因素會影響識別性能,如何進一步提高Transformer 模型在人臉識別中的性能和效率是未來研究面臨的挑戰(zhàn)。

    4)動作識別。整體上來看,解決動作識別任務主要面臨著3 個挑戰(zhàn),即空間特征表示、時間信息表示以及模型的計算復雜度。此外,盡管已有一些能夠處理長視頻的模型,但還存在一些限制使得無法一次性輸入非常長的視頻。最后,對于多模態(tài)Transformer 模型的研究較少,未來Transformer 可以利用哪些模態(tài)、不同模態(tài)又該如何利用也是具有挑戰(zhàn)性的研究問題。

    5)姿態(tài)估計。不同的CNN 特征提取器對模型的依賴偏好不同,例如HRNet 基于多尺度融合并可以保持高分辨率表征,在獲取遠程依賴關系方面優(yōu)于ResNet,因此未來對于強大的主干網絡以及靈活的結合方式的研究將會是一個挑戰(zhàn)。多實例姿態(tài)估計模型POET 對關鍵點預測做出了貢獻,但沒有達到最先進的性能,這一點也是一個研究難點。將2D姿態(tài)估計提升到3D時,簡單的線性投影難以較強地表達局部關節(jié)坐標間的運動學關系,因而如何優(yōu)化關節(jié)坐標從二維到三維的映射是3D 姿態(tài)估計面臨的一個挑戰(zhàn)。另一方面,人體的自遮擋也會為其關鍵點檢測帶來挑戰(zhàn)。

    6)多任務方法。目前多任務通用的Transformer模型通常從單個領域或特定的多模態(tài)域(如視覺和語言)著手,探索更多類似UniT 能夠聯合學習多領域任務的通用模型,同時減小對特定任務的微調成本具有一定的挑戰(zhàn)性。

    3 結語

    為了將Transformer 應用于視覺領域,探索出了將視覺數據序列化或將原有問題轉化為集合預測問題等方法,例如ViT 和DETR。視覺領域Transformer嘗試的成功激起了更大的研究熱情,不論是基于ViT、DETR 等已有模型進行改進,還是針對不同任務設計適配模型,都取得了可觀的進展。本文從視覺Transformer 處理多種識別任務的角度出發(fā),整理了其在視覺分類、目標檢測和視覺分割3 種基礎的識別任務,以及人臉識別、動作識別和姿態(tài)估計3 種具體的識別任務中的應用,涵蓋了百余種最新模型。其中有些通過改進圖像標記、融合語義信息等優(yōu)化Transformer 特征學習,或是將Transformer 與經典的網絡結構如卷積、U-Net 以及金字塔網絡等相互借鑒,優(yōu)化局部與全局的空間或時間關系建模;有些通過修改注意力機制或編碼器解碼器結構改進了Transformer 計算量大、所需數據量大、收斂速度慢等不足;有些利用Transformer 構建出了新的端到端模型;還有一些適用于多種任務的通用模型。

    對于不同任務中的模型,對比分析了它們的特點和在公共數據集上的表現。整體來看,對這些基于Transformer的模型進行特征表示的改進有利于提升性能。圖像分類中改進標記表示、目標檢測中改進特征圖、語義分割中結合U-Net 結構進行特征編碼、實例分割中利用移動窗口計算表征、動作識別中結合圖卷積表示骨架特征和姿態(tài)估計中高分辨率表征的有效性綜合證明了上述觀點。純Transformer結構的模型在一定程度上實現了不錯的效果但存在很大的挑戰(zhàn),適當地結合卷積結構更容易達到優(yōu)秀的效果,尤其是在動作識別任務方面。

    猜你喜歡
    特征檢測方法
    “不等式”檢測題
    “一元一次不等式”檢測題
    “一元一次不等式組”檢測題
    如何表達“特征”
    不忠誠的四個特征
    當代陜西(2019年10期)2019-06-03 10:12:04
    抓住特征巧觀察
    可能是方法不對
    小波變換在PCB缺陷檢測中的應用
    用對方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    97人妻精品一区二区三区麻豆| 麻豆乱淫一区二区| 免费观看a级毛片全部| 中文亚洲av片在线观看爽| 国内精品一区二区在线观看| 黄色配什么色好看| 欧美+日韩+精品| 波多野结衣巨乳人妻| 国产视频内射| 国产精品一区www在线观看| 能在线免费看毛片的网站| 欧美日韩精品成人综合77777| 男女下面进入的视频免费午夜| 网址你懂的国产日韩在线| 国产探花在线观看一区二区| 午夜免费男女啪啪视频观看| 久久久久久久亚洲中文字幕| 中文字幕人妻熟人妻熟丝袜美| 国产精品久久久久久久久免| 成人亚洲精品av一区二区| 国产精品永久免费网站| 午夜久久久久精精品| 国产在视频线在精品| 中文在线观看免费www的网站| 国产精品熟女久久久久浪| 午夜免费激情av| 欧美性感艳星| 视频中文字幕在线观看| 七月丁香在线播放| 最新中文字幕久久久久| 亚洲18禁久久av| 久久欧美精品欧美久久欧美| 黄片wwwwww| 欧美精品一区二区大全| 久久热精品热| 亚洲欧美精品自产自拍| 亚洲成人av在线免费| 久久欧美精品欧美久久欧美| 久久亚洲精品不卡| 91久久精品电影网| 麻豆久久精品国产亚洲av| 亚洲在久久综合| 不卡视频在线观看欧美| 可以在线观看毛片的网站| 欧美潮喷喷水| 国产色婷婷99| 99热全是精品| 久久精品国产亚洲av天美| 午夜激情福利司机影院| 蜜桃亚洲精品一区二区三区| 乱系列少妇在线播放| 国产精品熟女久久久久浪| 嫩草影院入口| 一区二区三区四区激情视频| 亚洲国产精品成人综合色| 一边亲一边摸免费视频| 91在线精品国自产拍蜜月| 国产av不卡久久| 国产精品日韩av在线免费观看| 热99在线观看视频| 国产成人精品婷婷| 在线免费观看的www视频| 精品人妻视频免费看| 国产精品综合久久久久久久免费| 国产精品乱码一区二三区的特点| 人体艺术视频欧美日本| 亚洲天堂国产精品一区在线| 日韩欧美国产在线观看| 国产精品蜜桃在线观看| 观看免费一级毛片| 18禁动态无遮挡网站| 久久这里有精品视频免费| 中文字幕久久专区| 欧美高清性xxxxhd video| 国产伦精品一区二区三区四那| 国产淫语在线视频| 日本熟妇午夜| 在线天堂最新版资源| 精品国产露脸久久av麻豆 | 69人妻影院| 国产亚洲91精品色在线| 亚洲av男天堂| 日韩制服骚丝袜av| 国产不卡一卡二| 男人舔奶头视频| 成人三级黄色视频| 天天躁夜夜躁狠狠久久av| 啦啦啦观看免费观看视频高清| 欧美激情久久久久久爽电影| 联通29元200g的流量卡| 赤兔流量卡办理| 午夜老司机福利剧场| 男人的好看免费观看在线视频| 少妇猛男粗大的猛烈进出视频 | 国内精品一区二区在线观看| 伦精品一区二区三区| 亚洲成色77777| 国产精品99久久久久久久久| 国产精品1区2区在线观看.| 岛国毛片在线播放| 国产爱豆传媒在线观看| 波多野结衣高清无吗| 久久99蜜桃精品久久| 在线a可以看的网站| 国产亚洲5aaaaa淫片| 婷婷色麻豆天堂久久 | 99久国产av精品| 丝袜喷水一区| 国产精品野战在线观看| 亚洲在久久综合| 欧美三级亚洲精品| 日本黄色视频三级网站网址| 精品久久久久久久久亚洲| 国产 一区精品| 搡女人真爽免费视频火全软件| 欧美最新免费一区二区三区| 我的老师免费观看完整版| 午夜视频国产福利| 熟女电影av网| 成人毛片60女人毛片免费| 精品国产三级普通话版| 三级国产精品欧美在线观看| 亚洲成人精品中文字幕电影| 菩萨蛮人人尽说江南好唐韦庄 | 高清日韩中文字幕在线| 99九九线精品视频在线观看视频| 最近手机中文字幕大全| 国产美女午夜福利| 国产色婷婷99| 日韩国内少妇激情av| 国产精品一区二区在线观看99 | 麻豆一二三区av精品| av天堂中文字幕网| 小蜜桃在线观看免费完整版高清| 熟妇人妻久久中文字幕3abv| 久久久久免费精品人妻一区二区| 国产高潮美女av| 亚洲精品成人久久久久久| 成人国产麻豆网| 成人特级av手机在线观看| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 色播亚洲综合网| 色视频www国产| 99久久无色码亚洲精品果冻| 亚洲av熟女| 日本黄色片子视频| 亚洲在线自拍视频| 日韩,欧美,国产一区二区三区 | 美女内射精品一级片tv| 亚洲四区av| 亚洲av不卡在线观看| 黄色欧美视频在线观看| 九九爱精品视频在线观看| 搞女人的毛片| 在线观看66精品国产| 亚洲成人中文字幕在线播放| 国产一区二区三区av在线| 成人毛片60女人毛片免费| 我的女老师完整版在线观看| 亚州av有码| 听说在线观看完整版免费高清| 亚洲国产精品sss在线观看| 久久久精品94久久精品| 亚洲综合精品二区| 中文乱码字字幕精品一区二区三区 | 精品一区二区三区人妻视频| 一个人看视频在线观看www免费| av播播在线观看一区| 精品久久国产蜜桃| 草草在线视频免费看| 久久精品综合一区二区三区| 日本wwww免费看| 美女xxoo啪啪120秒动态图| 国产精品久久久久久av不卡| 精品无人区乱码1区二区| 亚洲欧美日韩高清专用| 99热这里只有是精品在线观看| 中文字幕免费在线视频6| 老师上课跳d突然被开到最大视频| 欧美人与善性xxx| 免费观看精品视频网站| av天堂中文字幕网| 欧美三级亚洲精品| 美女大奶头视频| 久久久久久久久久黄片| 一二三四中文在线观看免费高清| 最近中文字幕高清免费大全6| 乱系列少妇在线播放| 别揉我奶头 嗯啊视频| 最近最新中文字幕大全电影3| 亚洲图色成人| 伦精品一区二区三区| 少妇人妻一区二区三区视频| 色综合亚洲欧美另类图片| 在线观看一区二区三区| 女人十人毛片免费观看3o分钟| 欧美xxxx黑人xx丫x性爽| 美女高潮的动态| 国产一区有黄有色的免费视频 | av卡一久久| 麻豆成人午夜福利视频| 欧美成人免费av一区二区三区| 国产午夜精品论理片| 欧美日本亚洲视频在线播放| 亚洲av.av天堂| av在线天堂中文字幕| 免费在线观看成人毛片| 99久久人妻综合| 中文字幕av在线有码专区| 亚洲精品亚洲一区二区| 久久婷婷人人爽人人干人人爱| 日本爱情动作片www.在线观看| 搡老妇女老女人老熟妇| 超碰97精品在线观看| 十八禁国产超污无遮挡网站| .国产精品久久| 久久99精品国语久久久| 麻豆国产97在线/欧美| 乱人视频在线观看| 日本黄色片子视频| 欧美成人免费av一区二区三区| 欧美变态另类bdsm刘玥| 久久久午夜欧美精品| 美女脱内裤让男人舔精品视频| 深夜a级毛片| 欧美bdsm另类| 丝袜美腿在线中文| 99热这里只有是精品在线观看| av在线亚洲专区| 亚洲欧美日韩无卡精品| www.色视频.com| 免费看美女性在线毛片视频| 亚州av有码| 亚洲欧美日韩高清专用| 男插女下体视频免费在线播放| 久久久久久久亚洲中文字幕| 我的老师免费观看完整版| 男人舔奶头视频| 成人漫画全彩无遮挡| 一边摸一边抽搐一进一小说| 建设人人有责人人尽责人人享有的 | АⅤ资源中文在线天堂| 18禁在线无遮挡免费观看视频| 日韩欧美国产在线观看| 女人久久www免费人成看片 | 丰满少妇做爰视频| 免费黄网站久久成人精品| 99久久人妻综合| 亚洲欧美精品自产自拍| 国产精品国产三级国产av玫瑰| 亚洲欧洲国产日韩| 黑人高潮一二区| 亚洲欧美一区二区三区国产| 99久久精品一区二区三区| 91久久精品电影网| 久久久久精品久久久久真实原创| 免费看美女性在线毛片视频| 女人被狂操c到高潮| 99久久精品一区二区三区| 中文字幕av成人在线电影| 免费不卡的大黄色大毛片视频在线观看 | 91久久精品电影网| 午夜a级毛片| 国产精品,欧美在线| 老司机影院成人| 最近手机中文字幕大全| 精品国内亚洲2022精品成人| 免费看日本二区| 亚洲色图av天堂| 久久精品夜夜夜夜夜久久蜜豆| 深夜a级毛片| 欧美zozozo另类| 又爽又黄无遮挡网站| 熟妇人妻久久中文字幕3abv| 高清视频免费观看一区二区 | 国产三级中文精品| 久久久精品欧美日韩精品| 综合色丁香网| 久久人人爽人人片av| 成年免费大片在线观看| 黄色配什么色好看| 亚洲综合色惰| 舔av片在线| 欧美极品一区二区三区四区| 亚洲无线观看免费| 亚洲欧美精品专区久久| 久久综合国产亚洲精品| 晚上一个人看的免费电影| 精品酒店卫生间| 一级黄色大片毛片| 亚洲av福利一区| 99在线视频只有这里精品首页| 亚洲久久久久久中文字幕| 国产老妇女一区| 国产爱豆传媒在线观看| 搡老妇女老女人老熟妇| 91久久精品国产一区二区成人| 又黄又爽又刺激的免费视频.| 国语自产精品视频在线第100页| 亚洲怡红院男人天堂| 狠狠狠狠99中文字幕| 日韩国内少妇激情av| 插逼视频在线观看| 草草在线视频免费看| 精品欧美国产一区二区三| 亚洲图色成人| 日本-黄色视频高清免费观看| 欧美日韩精品成人综合77777| 国模一区二区三区四区视频| 熟女人妻精品中文字幕| 少妇的逼水好多| 日韩精品青青久久久久久| 九九久久精品国产亚洲av麻豆| 欧美色视频一区免费| 色5月婷婷丁香| 亚洲中文字幕一区二区三区有码在线看| or卡值多少钱| 视频中文字幕在线观看| 免费黄网站久久成人精品| 欧美潮喷喷水| 亚洲成人中文字幕在线播放| 99九九线精品视频在线观看视频| 内地一区二区视频在线| 全区人妻精品视频| 九九热线精品视视频播放| 国产亚洲一区二区精品| 欧美+日韩+精品| 日韩欧美精品v在线| 欧美激情在线99| 午夜久久久久精精品| 国产三级中文精品| 狂野欧美激情性xxxx在线观看| 乱系列少妇在线播放| 岛国毛片在线播放| 亚洲国产精品sss在线观看| 国产精华一区二区三区| 免费观看精品视频网站| 精品一区二区三区人妻视频| 一级毛片久久久久久久久女| 亚洲国产精品国产精品| 寂寞人妻少妇视频99o| 欧美性猛交╳xxx乱大交人| 热99re8久久精品国产| 成人亚洲欧美一区二区av| 永久免费av网站大全| 超碰av人人做人人爽久久| 干丝袜人妻中文字幕| 在线天堂最新版资源| 男人舔奶头视频| 成人无遮挡网站| 亚洲精品乱码久久久v下载方式| 日韩av在线免费看完整版不卡| 一个人观看的视频www高清免费观看| 国产精品一二三区在线看| 欧美不卡视频在线免费观看| 日韩精品有码人妻一区| 亚洲国产精品成人综合色| 色尼玛亚洲综合影院| 少妇高潮的动态图| 国产成人91sexporn| 亚洲欧美一区二区三区国产| 黄色配什么色好看| 国产亚洲午夜精品一区二区久久 | 哪个播放器可以免费观看大片| 成人漫画全彩无遮挡| 丝袜喷水一区| 亚洲精品aⅴ在线观看| 精品一区二区三区人妻视频| 欧美zozozo另类| 99热这里只有是精品50| 国产精品无大码| 午夜福利在线观看吧| 国产精品电影一区二区三区| 久久欧美精品欧美久久欧美| 狂野欧美激情性xxxx在线观看| 蜜桃亚洲精品一区二区三区| 免费一级毛片在线播放高清视频| 哪个播放器可以免费观看大片| 国产精品女同一区二区软件| 午夜精品在线福利| 伦理电影大哥的女人| 国国产精品蜜臀av免费| 桃色一区二区三区在线观看| 欧美高清成人免费视频www| 日韩制服骚丝袜av| 国产单亲对白刺激| 久久亚洲国产成人精品v| 97人妻精品一区二区三区麻豆| 成人无遮挡网站| 日韩欧美在线乱码| 亚洲精品色激情综合| 亚洲四区av| 国产精品.久久久| 久久精品影院6| 国产乱来视频区| h日本视频在线播放| 亚洲最大成人av| 非洲黑人性xxxx精品又粗又长| 你懂的网址亚洲精品在线观看 | 成人综合一区亚洲| 亚洲伊人久久精品综合 | 国语对白做爰xxxⅹ性视频网站| 欧美变态另类bdsm刘玥| 日产精品乱码卡一卡2卡三| 精品免费久久久久久久清纯| 成人一区二区视频在线观看| 欧美精品一区二区大全| 久久综合国产亚洲精品| 国产成人a区在线观看| 看十八女毛片水多多多| 欧美一区二区亚洲| 国产又黄又爽又无遮挡在线| 日本免费一区二区三区高清不卡| 一个人观看的视频www高清免费观看| 日韩欧美在线乱码| 爱豆传媒免费全集在线观看| 国产精品美女特级片免费视频播放器| 亚洲av二区三区四区| 国产精品一区二区三区四区久久| 亚洲国产精品久久男人天堂| 国产av码专区亚洲av| 少妇猛男粗大的猛烈进出视频 | 有码 亚洲区| 国产一级毛片在线| 国内少妇人妻偷人精品xxx网站| 亚洲熟妇中文字幕五十中出| av在线老鸭窝| 美女大奶头视频| 久久人人爽人人片av| 国产精品99久久久久久久久| 久久人人爽人人爽人人片va| 非洲黑人性xxxx精品又粗又长| .国产精品久久| 国产综合懂色| 欧美日韩在线观看h| 欧美成人a在线观看| 国产探花极品一区二区| 2022亚洲国产成人精品| 国产老妇伦熟女老妇高清| 国产探花极品一区二区| 3wmmmm亚洲av在线观看| 久久99热6这里只有精品| 99久久九九国产精品国产免费| 九色成人免费人妻av| 久久久久久久国产电影| 国内精品美女久久久久久| 日韩欧美三级三区| 直男gayav资源| 国产一区二区三区av在线| 丝袜美腿在线中文| 内地一区二区视频在线| 99视频精品全部免费 在线| 国产精品女同一区二区软件| 激情 狠狠 欧美| 久久精品国产亚洲网站| 中文字幕av在线有码专区| 精品久久久久久久久av| 国产v大片淫在线免费观看| 亚洲中文字幕一区二区三区有码在线看| 青青草视频在线视频观看| 看片在线看免费视频| 日日撸夜夜添| 午夜福利成人在线免费观看| 村上凉子中文字幕在线| 欧美色视频一区免费| 成人高潮视频无遮挡免费网站| 欧美一区二区亚洲| 中文字幕av在线有码专区| 日本猛色少妇xxxxx猛交久久| 国产精品麻豆人妻色哟哟久久 | 国产一区二区在线av高清观看| 啦啦啦观看免费观看视频高清| 国产成年人精品一区二区| 中文在线观看免费www的网站| 99久久精品热视频| 别揉我奶头 嗯啊视频| 婷婷色综合大香蕉| 嘟嘟电影网在线观看| 亚洲自拍偷在线| 国产精品国产三级国产专区5o | 建设人人有责人人尽责人人享有的 | 免费av不卡在线播放| 99国产精品一区二区蜜桃av| 人妻制服诱惑在线中文字幕| 国产高清有码在线观看视频| 国产免费男女视频| 观看美女的网站| 秋霞伦理黄片| 男女边吃奶边做爰视频| 啦啦啦韩国在线观看视频| 亚洲av成人av| 午夜精品一区二区三区免费看| 爱豆传媒免费全集在线观看| 亚洲人成网站高清观看| 黑人高潮一二区| 又黄又爽又刺激的免费视频.| 日韩三级伦理在线观看| 亚洲人成网站高清观看| 日韩欧美三级三区| 国产高清三级在线| 精品午夜福利在线看| 亚洲人成网站高清观看| 亚洲国产精品专区欧美| 精品人妻一区二区三区麻豆| 99久久精品热视频| 别揉我奶头 嗯啊视频| 久久99热这里只有精品18| 日本三级黄在线观看| www.色视频.com| 日韩欧美国产在线观看| 国产伦精品一区二区三区视频9| 别揉我奶头 嗯啊视频| 久久久成人免费电影| 精品久久久久久久久久久久久| 精品一区二区免费观看| 亚洲国产成人一精品久久久| 国产一区二区在线观看日韩| 女的被弄到高潮叫床怎么办| 亚洲欧洲国产日韩| 精品99又大又爽又粗少妇毛片| av免费观看日本| 亚洲国产成人一精品久久久| 国产不卡一卡二| 欧美成人午夜免费资源| 久久99蜜桃精品久久| 如何舔出高潮| 免费播放大片免费观看视频在线观看 | 国产精品麻豆人妻色哟哟久久 | 日本av手机在线免费观看| 久久鲁丝午夜福利片| 久久午夜福利片| 欧美三级亚洲精品| 国产片特级美女逼逼视频| 久久久亚洲精品成人影院| 最近2019中文字幕mv第一页| 国产爱豆传媒在线观看| 久久精品国产亚洲网站| 日韩欧美精品v在线| 一卡2卡三卡四卡精品乱码亚洲| 亚洲av成人精品一二三区| 国产在视频线在精品| 亚洲国产欧洲综合997久久,| 免费人成在线观看视频色| 丰满乱子伦码专区| 欧美人与善性xxx| av卡一久久| 欧美日韩一区二区视频在线观看视频在线 | 日本一本二区三区精品| 又粗又硬又长又爽又黄的视频| 午夜视频国产福利| 美女xxoo啪啪120秒动态图| 国产精品99久久久久久久久| 丝袜美腿在线中文| 国产精品一区二区三区四区免费观看| 久久午夜福利片| 亚洲av日韩在线播放| 51国产日韩欧美| 成人三级黄色视频| 久久精品国产亚洲av天美| 国产一区亚洲一区在线观看| 少妇的逼水好多| 一级毛片电影观看 | 精品久久久久久电影网 | 国产精品人妻久久久影院| 赤兔流量卡办理| 日日干狠狠操夜夜爽| 美女脱内裤让男人舔精品视频| 成人性生交大片免费视频hd| 亚洲精品,欧美精品| 欧美成人免费av一区二区三区| 七月丁香在线播放| 欧美潮喷喷水| 观看美女的网站| 在线观看66精品国产| 男人和女人高潮做爰伦理| 亚洲av中文av极速乱| 欧美极品一区二区三区四区| 日韩欧美三级三区| 久久久久久久久中文| 久久精品久久精品一区二区三区| 99视频精品全部免费 在线| 能在线免费观看的黄片| 亚洲成人精品中文字幕电影| 国产av一区在线观看免费| 少妇的逼好多水| 伊人久久精品亚洲午夜| 18禁裸乳无遮挡免费网站照片| 日韩人妻高清精品专区| 男人狂女人下面高潮的视频| 七月丁香在线播放| 午夜免费男女啪啪视频观看| 一区二区三区四区激情视频| 免费观看在线日韩| 少妇熟女欧美另类| 草草在线视频免费看| 亚洲丝袜综合中文字幕| 69人妻影院| 亚洲中文字幕一区二区三区有码在线看| 国产高清有码在线观看视频| 女人久久www免费人成看片 | 人妻夜夜爽99麻豆av| 亚洲一区高清亚洲精品| 亚洲欧美成人综合另类久久久 | 国产精品一区二区三区四区久久| 日韩在线高清观看一区二区三区| 亚洲aⅴ乱码一区二区在线播放| 成年女人看的毛片在线观看| 99热6这里只有精品| 国产一区二区在线观看日韩| 午夜精品一区二区三区免费看| 免费看美女性在线毛片视频| 精品不卡国产一区二区三区| 国产人妻一区二区三区在| 91av网一区二区| 成人美女网站在线观看视频|