中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)07-001-1921-09
doi:10. 19734/j. issn. 1001-3695.2024.11.0433
Abstract:Inmodernsecuritysurveillancesystems,pedestrianre-identification technologyplaysacrucialrole.Traditionalpedestrianre-identificationsystems face limitations inaccuracyandreliabilityduetochalengessuchaschanges in lighting, diferences inviewingangles,andocclusions inpedestrianimages.Toaddress thesechalenges,researchershaveintroduced multi-modalleaing methodsintotheRE-IDfield,hoping toefectivelyintegratevariousdatamodalities,suchasdepthiages,infraredimage,ndextualinformatio,toimprovetepefoanceofRE-ID.Tispaperviewedthepicationadresearch progressofmulti-modalRE-IDtechnologyinmodernsecuritysurveillancesystems.Itfirstlyintroducedthebasicconcepts of multi-modaltechnologyandthetaskofmulti-modalRE-ID,andthenoutlinedthekeydatasetsandevaluationprotocols inthisfield.Thecorepartofthearticlediscussedindetailthefusionstrategiesinmulti-modalRE-ID,ncludingfeature-level fusion andmodel-levelfusion methods.Finall,thearticlediscussd the aplication scenarios andfutureresearch directionsof multi-modal RE-ID.
KeyWords:RE-ID;multimodal fusion;data fusion;feature fusion;model fusion
0引言
隨著智能監(jiān)控技術的快速發(fā)展,RE-ID技術在實時監(jiān)控以及智能安防等多個領域發(fā)揮著重要作用[1]。它旨在通過分析圖像或視頻數據,提取出行人的衣著、體型、發(fā)型等顯著特征,從而實現(xiàn)在不同攝像頭捕獲的場景中識別特定行人。RE-ID系統(tǒng)流程如圖1所示,給定查詢行人圖像以及行人圖像庫,通過特征提取后進行特征相似度匹配,最后輸出匹配圖像的排序。然而,不同時間、不同攝像頭采集的行人圖像存在視角、姿態(tài)、光照、背景差異等問題,對視覺信息產生嚴重影響,導致模型的識別精度和性能明顯下降。近年來,RE-ID受到研究者的廣泛關注,已成為計算機視覺領域的一個重要研究課題[2]
行人重識別任務的起源最早可以追溯到1997年的攝像頭追蹤問題[3]。2014年,深度學習開始應用于RE-ID任務,形成了端到端的行人重識別系統(tǒng)?;谏疃葘W習的RE-ID方法包括單模態(tài)數據和多模態(tài)數據兩種方式訓練模型[4.5]?,F(xiàn)有的單模態(tài)RE-ID模型在面臨視角變化、光照變化以及背景差異等問題時性能較差。為緩解這些問題帶來的影響,研究人員提出將注意力機制°添加到單模態(tài)學習的模型中,使模型能夠突出圖像中的行人身體部分,同時抑制遮擋物和無關環(huán)境等特征,訓練模型能夠學習具有判別性的特征。注意力的引入有效地緩解了單模態(tài)RE-ID模型,然而,當行人處于夜晚等無光線環(huán)境時或者行人圖像被極度遮擋時,注意力機制可能無法區(qū)分或找到足夠的判別信息來進行識別。從2020年開始,研究者將多模態(tài)學習[7]引人RE-ID任務,提出了許多利用紅外、深度圖像等多模態(tài)數據融合模型。例如,Zheng等人[8提出一種魯棒的多模態(tài)RE-ID框架。針對多模態(tài)數據融合時的模態(tài)差異問題,他們設計了一個新穎的漸進融合網絡模型,用于從單一模態(tài)到多模態(tài)以及從局部到全局視圖學習有效的多模態(tài)特征,以提高行人再識別的準確性和魯棒性,充分利用多種數據的模態(tài)互補信息和模態(tài)多特征信息,緩解單模態(tài)RE-ID任務中信息不足的問題[9]。多模態(tài)融合能夠增強模型對異常情況的魯棒性。例如,當某一模態(tài)的數據缺失或質量較差時,其他模態(tài)仍能提供有效的信息。然而,現(xiàn)有的多模態(tài)學習方法往往難以充分整合不同模態(tài)中的豐富知識。因此,如何設計一個有效的多模態(tài)融合策略,已成為當前RE-ID任務研究的熱點[10]。
收稿日期:2024-11-06;修回日期:2024-12-31 基金項目:內蒙古自然科學基金資助項目(2023MS06009);內蒙古高等學??茖W研究重點資助項目(NJZZ21004)
作者簡介:石瑞鑫(2002—),女,河北邯鄲人,碩士研究生,CCF會員,主要研究方向為行人重識別;智敏(1972—),女(蒙古族)(通信作者),內蒙古赤峰人,教授,碩導,博士,主要研究方向為圖像處理( cieczm@ imnu.edu.cn);殷雁君(1972—),女,內蒙古呼和浩特人,教授,碩士,主要研究方向為圖像處理、文本分析等.
本文綜述了融合多模態(tài)數據的行人重識別方法。文章首先介紹了多模態(tài)技術的概念以及多模態(tài)RE-ID任務,接著介紹了多模態(tài)RE-ID領域的常用公開數據集。然后,文章通過分析特征層次的融合策略和模型級別的融合策略,對多模態(tài)RE-ID進行分類綜述。最后,總結了多模態(tài)RE-ID的未來研究方向以及面臨的研究挑戰(zhàn)。多模態(tài)行人重識別研究框架如圖2所示。
1相關知識
1.1 多模態(tài)技術
多模態(tài)技術是一種機器學習方法,它通過整合多種異構數據模態(tài)來訓練模型,提升模型的跨模態(tài)信息融合能力[\"]。多模態(tài)學習整合和分析不同模態(tài)數據(如自然語言文本、視覺圖像、視頻序列、音頻信號等)的協(xié)同作用,解決了單模態(tài)學習無法充分表達或處理的問題。例如,通過融合文本數據中的高級語義內容和圖像數據中的深層視覺特征,多模態(tài)學習能夠構建出一個多維度的特征表示空間。與單模態(tài)學習相比,多模態(tài)學習在面臨某一數據模態(tài)信息質量下降或數據缺失的情況下,能夠利用其他模態(tài)的數據進行補償,從而顯著提升系統(tǒng)的魯棒性和模型的泛化能力[12]
1.2 多模態(tài)RE-ID
多模態(tài)RE-ID是行人重識別研究的一個前沿方向,該技術在公共安全、預防犯罪和刑偵追查等領域有著重要研究意義[13,14]。現(xiàn)階段,主流的行人重識別研究主要聚焦于單模態(tài)(如可見光圖像)的RE-ID任務或跨模態(tài)(如可見光與紅外圖像)的RE-ID挑戰(zhàn),而對于多模態(tài)信息組合的研究則相對較少。多模態(tài)RE-ID旨在利用多種模態(tài)數據之間互補性和協(xié)同效應,通過融合多模態(tài)數據,提取并整合各模態(tài)所包含的豐富信息,以提升行人重識別系統(tǒng)的性能和準確性。Abed等人[15]開發(fā)了一個基于可見光圖像和深度圖像的多模態(tài)RE-ID系統(tǒng)。該系統(tǒng)利用RGB-D相機捕獲的行人幾何外觀信息,形成點云數據。通過結合點云數據中的人體高度、寬度和體型信息以及可見光圖像中的外觀特征,實現(xiàn)行人重識別。Prakash等人[1提出了一種新穎的多模態(tài)自適應融合策略,通過計算特征的重要性權重來自適應地融合不同特征。此外,該研究還根據個體與攝像頭之間的距離和視角變化,動態(tài)調整面部和步態(tài)特征的融合權重,以實現(xiàn)面部和步態(tài)特征的結合,進而提高人體識別的準確性。如圖3所示,不同模態(tài)數據融合可以解決不同問題,可見光與紅外圖像融合[17\~21]可以彌補不同光照條件下的數據差異;文本與圖像融合[22-25]可以結合視覺和語義信息,提高識別準確性;人體生物信息與可見光圖像融合[26\~29]可以利用生物特征增強識別的魯棒性。除了行人的外觀圖像,其他生物信息如面部特診、步態(tài)、姿態(tài)以及3D骨骼信息,也均可以作為識別行人的重要依據。在復雜場景中,深度圖像能夠提供行人的立體三維形狀信息,這對于識別行人的姿態(tài)與體型等細節(jié)信息尤為有益。
多模態(tài)RE-ID通過多模態(tài)數據信息的補充學習,顯著提高了行人重識別的性能。它能夠學習來自多個模態(tài)的不同行人信息,豐富了行人表示。特別是在復雜場景下,相對于單模態(tài)學習取得了更好的性能表現(xiàn)。但是多模態(tài)學習也同時存在一些問題:a)多模態(tài)數據對齊問題,不同模態(tài)的數據存在位置、視角以及語義等差異,這時模型可能無法有效地從一種模態(tài)學習對另一種模態(tài)有用的特征,從而影響識別的準確性;b)多模態(tài)數據沖突與不一致問題。不同模態(tài)數據在特征分布、數據質量、數據量等方面存在的差異,導致模型在融合不同模態(tài)信息時遇到困難,同時可能會忽略某些模態(tài)的重要信息或過度強調其他模態(tài)的噪聲,影響模型的泛化能力;c)模型整體復雜度較高,多模態(tài)學習需要處理和融合多種類型的數據,模型需要額外的模塊處理特定的數據,這將增加模型的整體復雜度,并引發(fā)更長的訓練和推理時間。
2數據集
2.1 多模態(tài)數據集
本節(jié)將描述行人重識別領域常用的數據集和評估協(xié)議。目前,許多開源數據集已被廣泛應用于行人重識別研究,每個數據集都具有其特定的屬性和它所尋求解決的問題(如圖4所示的數據集)。Occluded-MSMT[30]數據集專注于遮擋場景下的行人重識別任務,SYSU-MM01[31]數據集通常用于探討可見光和紅外圖像之間的跨模態(tài)識別問題。ICFG-PEDES[32]數據集提供了豐富且細致的文本描述與圖像之間的對應關系,為文本到圖像的行人檢索任務帶來了新的研究機遇和挑戰(zhàn)。Celeb-ReID[33]數據集則提供行人深度圖像和可見光圖像,用于深度圖像和可見光圖像的多模態(tài)RE-ID研究。表1詳細列出了這些數據集的特性,以便于研究者進行比較和分析。
a)Occluded-MSMT[30]。該數據集由可見光圖像組成,圖像來源于安放在校園內的15個攝像頭。訓練集包含1041個行人,共32621張圖像,而測試集包括3060個行人,共93820個行人圖像。該數據集提供了實際監(jiān)控環(huán)境中的遮擋樣本,增加了行人識別任務的實際復雜性和挑戰(zhàn)性。
b)SYSU-MM01[31]。該數據集包含了由3臺紅外相機和4臺可見光相機捕獲的兩類行人圖像,總計7臺相機拍攝的491個行人的紅外和可見光圖像,數據集共提供15792張紅外圖像和28762張可見光圖像。這一數據集主要用于跨模態(tài)行人識別任務。
c)ICFG-PEDES[32]。該數據集是一個融合了文本信息的多模態(tài)數據集,其中包含了4102個行人身份的54522張圖像,每個圖像對應著唯一的文本描述。數據集被劃分為訓練集和測試集。訓練集包含3102個行人身份的34674個圖像-文本描述,測試集包含1000個行人身份的19848個圖像-文本描述,這些文本描述的平均長度為37.2個單詞。
d) Celeb-ReID[33]。在數據集中,每個行人的圖像均展示了不同的服裝,包括 1052 個行人身份的4186張圖像。其中,訓練集包括632個行人身份,20208張圖像;而該測試集包含了420個行人身份和13978張圖像。此外,測試集中還包括
2972個查詢圖像和 11 006 個圖庫圖像。
2.2 評估協(xié)議
在多模態(tài)RE-ID的研究中,評估協(xié)議是衡量模型性能的核心環(huán)節(jié),它提供一種標準化的手段來測試和對比不同算法在實際應用場景中的表現(xiàn)。以下將介紹在行人重識別任務常用的三個指標。
a)Rank ?n :Rank -n 是一個圖像檢索和識別領域廣泛應用的性能評價指標。它衡量的是測試集中每個行人的查詢圖像在檢索結果中排名前 n 種正確行人圖像的比例。Rank- ?n 特別適用于需要快速識別或處理緊急情況的應用場景,因為它能夠在第一時間內提供最匹配的結果。計算公式為
其中: N 代表測試集中行人的總數; yi 是一個二進制指標。如果第 i 個查詢的Rank-1位置是正確的,則為1,否則為0。
b)平均精度均值(mAP):在行人重識別任務中, mAP 是一個關鍵的評價指標, mAP 代表了對多個類別上平均精密度(averageprecision,AP)的算術平均值。它能夠全面地評估模型的整體表現(xiàn),因此 mAP 經常被用來作為模型性能的綜合評價指標。mAP的計算公式為
其中: ?Rk 是遞增排序的召回率值; pinterp,k 是召回率為 Rk 時的插值精度。
c)累積匹配特征(cumulativematchingcharacteristic,CMC)曲線:CMC曲線顯示了在不同排名位置的匹配準確率。在行人重識別任務中,系統(tǒng)需要在多個候選者中識別出特定個體。CMC曲線記錄了在每個排名位置上成功檢索到正確匹配項的概率。CMC曲線的計算涉及以下步驟:對于每個查詢,根據特征匹配度對候選者進行排序;計算每個可能的排名位置 k 時的匹配準確性,即在排名前 k 的候選者中是否包含正確的個體;將排名位置 k 和匹配準確性繪制成圖表,形成CMC曲線。
3多模態(tài)融合策略
多模態(tài)數據融合是機器學習和計算機視覺領域中的一個重要概念,它涉及到從多種不同類型的數據源中提取信息,通過整合這些信息以獲得更準確、更魯棒的特征表示。多模態(tài)融合策略可以根據不同的層次劃分為特征層次和模型層次。本章旨在探討多模態(tài)RE-ID研究中特征融合和模型融合的多模態(tài)策略。
3.1多模態(tài)特征級融合
特征融合將不同模態(tài)的數據通過特定的網絡處理轉換成數字向量。例如:圖像數據通過卷積神經網絡來提取特征;文本數據通過編碼器進行編碼;語音數據可以通過聲學特征提取技術來處理。隨后,將這些由不同模型學習到的特征向量融合成一個綜合的特征向量,該向量融合了多個模態(tài)的數據信息,從而增強了多模態(tài)RE-ID在應對遮擋情況時的魯棒性和泛化能力。下面,按照其融合特點將特征融合方法分為特征集成融合、協(xié)同特征對齊融合以及聯(lián)合注意力機制特征融合三類。
3.1.1 特征集成融合
特征集成融合是一種模型融合中的常見特征融合方法,通過將多個不同模態(tài)或數據源的特征向量進行簡單的組合操作實現(xiàn)多模態(tài)融合,例如常見的拼接、加權求和法、哈達瑪積以及池化等方式。
a)拼接是將各模態(tài)的特征向量按順序連接起來,拼接前需確保所有模態(tài)的特征向量在維度上保持一致。拼接不需要復雜的模型,操作簡單,能夠保留每個模態(tài)的所有信息。但這種方法可能引入模態(tài)重復的信息,導致信息冗余,可能會影響模型的學習效率和整體性能。
b)加權求和法通過線性組合對每個模態(tài)的特征向量進行加權并求和,權重的大小直觀地體現(xiàn)了不同模態(tài)對融合結果的重要性,以此實現(xiàn)多個模態(tài)特征信息的融合。假設可見光模態(tài)為 F1 ,紅外模態(tài)為 F2 ,其計算公式如式(5)所示。
F=f(μ1F1+μ2F2)
其中 ?f 為線性函數; F 為融合后向量; u1、u2 分別代表可見光與紅外圖像特征的重要性。
c)哈達瑪積通過對各模態(tài)的特征向量在對應位置上的元素進行相乘,從而突出或削弱特定特征,該方法用于強調或抑制特定維度的特征信息。它可以看作是一種簡單的注意力機制,能夠自動給予重要特征更高的權重。然而,哈達瑪積是一種線性融合,無法捕捉到特征之間的復雜非線性問題。因此這種方法可能會忽略各模態(tài)中特有的信息。
d)池化旨在實現(xiàn)特征降維和信息提取,其中包括全局平均池化(global averagepooling,GAP)和全局最大池化(globalmaxpooling,GMP)。GAP將不同模態(tài)特征圖的所有元素計算平均值輸出,以此縮小模態(tài)的差異。而GMP則輸出特征圖中的最大值,以融合每個模態(tài)的顯著特征。這兩種池化方法可以單獨使用,也可以聯(lián)合使用。
通過對單模態(tài)的特征進行集成融合處理,并未實現(xiàn)特征之間的交互,因此該方法的計算復雜度低。Lu等人[42]利用數據增強將圖像轉換為偽紅外圖像,設計了基于 ResNet-50[43] 的雙流網絡提取可見光圖像和偽紅外圖像特征。模型將淺層特征與深層特征進行通道維度上的拼接,這樣設計在減少深層卷積過程中特征損失的同時,提高了模型對多模態(tài)數據的魯棒性。Zhang等人[44]提出了一種雙流網絡模型,分別對應灰度圖像和可見光圖像。模型通過水平劃分特征圖得到細粒度局部特征,接著通過交替使用最大池化和平均池化將不同模態(tài)中的具有判別性的行人特征拼接融合。實驗結果表明,該方法優(yōu)于目前大多數先進算法。
集成融合方法相對簡單,易于實現(xiàn)。但該方法在面對不同模態(tài)的數據不平衡時,根據數據量大的模態(tài)主導整個特征空間,從而淹沒數量小的模態(tài)信息。未來研究可以采用數據采樣技術或加權融合策略,以實現(xiàn)平衡不同模態(tài)數據。
3.1.2協(xié)同特征對齊融合
協(xié)同特征對齊融合通過特定模態(tài)網絡提取各數據模態(tài)的特征,將這些特征映射到一個共享的特征空間。在此空間中,通過計算相似度值或引入損失函數來約束不同模態(tài)特征在語義上對齊,如圖5所示。
Qin等人[23]提出了一種針對文本和可見光圖像的多模態(tài)RE-ID模型,該模型旨在實現(xiàn)通過文本查詢檢索對應圖像。模型采用預訓練的contrastivelanguage-imagepre-training(CLIP)[45]模型,分別提取文本特征和可見光圖像特征。計算圖像classtoken和文本texttoken在全局特征上的相似度,實現(xiàn)文本與圖像特征的初步對齊。作者進一步提取了編碼器最后一層中全局令牌與局部令牌之間的相關權值,并篩選前topK 個局部令牌,以實現(xiàn)文本與可見光在局部上的細粒度對齊,從而減少不同模態(tài)之間的差異。實驗結果表明,文本與圖像在語義層面進行對齊后的交互,顯著提高了行人識別的性能。
Li等人[46提出了一種創(chuàng)新的多粒度圖像-文本對齊模型。該模型探索不同層次的對齊策略,包括全局與全局、全局與局部和局部與局部的對齊,采用兩個超參數來調整融合三個獨立模塊的相似度比例。模型還引入了關系引導的注意力機制,以實現(xiàn)對圖像和文本中關鍵特征的強調和不重要特征的抑制,增強了模型的區(qū)分能力。通過在多個數據集上的廣泛測試,該方法在多模態(tài)RE-ID任務上取得了可觀的結果。
Niu等人[47]設計了基于行人姿勢引導的特征融合結構,旨在解決行人遮擋問題。該模塊通過姿勢估計精確提取行人的17個身體部位信息,并預測各部位的坐標以及置信度分數,以檢測被遮擋部位。通過對行人全局特征與姿勢引導特征計算相似度度量,以實現(xiàn)圖像和姿勢的對齊。利用相似度作為融合圖像特征和姿勢特征的指導信息,從而對齊圖像和姿勢特征。該方法通過姿勢特征的外部知識輔助,有效緩解了行人識別的遮擋問題。
Wang等人[48]提出了一種新穎的姿勢引導的多級對齊融合網絡,該網絡整合了文本信息、注意力機制和姿勢引導,旨在提高檢索的準確性。模型通過姿勢估計技術來提取圖像中的人物姿態(tài)特征,并引入文本注意力機制挑選與圖像特征高度相關的詞語。模型將提取的局部文本特征與全局文本特征結合,構建成一個融合了高級特征、局部和全局文本特征的文本語義特征表示。此外,通過跨模態(tài)投影匹配損失函數優(yōu)化圖像和文本特征的對齊,模型在CUHK-pedes[35]和ICFG-pedes[39]數據集上實現(xiàn)了較好的結果。
協(xié)同特征對齊融合通過特定的對齊機制,確保在融合過程中不同模態(tài)的特征達到較高的一致性,從而減少不同模態(tài)間的差異,進而提高融合的整體性能。但目前該領域研究相對有限,更多的方法是借助對比學習和相似性約束來實現(xiàn)模態(tài)之間的對齊。未來通過研究開發(fā)更高效的對齊方法,以進一步優(yōu)化多模態(tài)數據之間的對齊融合效果。
3.1.3聯(lián)合注意力機制特征融合
注意力機制核心思想是在于模型能夠識別并專注于辨別行人身份的最重要區(qū)域,它通過對不同模態(tài)的特征添加分配不同的權重,從而實現(xiàn)多模態(tài)數據的動態(tài)融合,如圖6所示。
莊建軍等人[49提出了一種在特征層面使用注意力解決不同模態(tài)數據特征融合的方法,并設計了一種結構化聯(lián)合注意特征融合模塊(structuredjointattentionfeaturefusion,SAFF)。SAFF模塊利用注意力機制分別對可見光圖像和紅外圖像的重要特征進行強調。此外,注意力機制在處理紅外圖像和可見光圖像時,采用單通道和三通道隨機混合增強抽取,以此增強對顏色變化的魯棒性,減少了不同模態(tài)之間的差異,從而提高識別的準確性。與 MCLNet[50] 、 FMCNet[51] 等先進方法相比,SAFF模塊有效提高了多模態(tài)行人重識別上的性能。
Liu等人[52]設計了一個新穎的多級模態(tài)特定和模態(tài)共同特征融合網絡,提高可見光-紅外行人重識別識別性能。模型對ResNet50最后三個階段的不同模態(tài)數據通過通道注意策略來生成通道權重,依靠通道權重信息的選擇從模態(tài)特定和模態(tài)共同特征中提取更豐富、與人相關的信息后,進行多層次融合。實驗結果證明該方法有效減輕了模態(tài)之間的差異,但該模型只考慮了局部互補關系,而未考慮全局互補性。
Yang等人[53]提出了一種姿態(tài)驅動的注意力融合機制(pose-drivenattention fusionmechanism,PAFM)。PAFM采用端到端的框架,引入了姿態(tài)估計和空間注意力[54],以提取判別性特征。通過空間注意力機制,模型能夠關注圖像中未被遮擋且富含識別信息的區(qū)域。此外,通過將姿態(tài)估計提取的行人關鍵點與空間注意力圖相結合,進一步增強模型對模遮擋區(qū)域的魯棒性。實驗結果表明,PAFM在性能上與最先進技術持平,為遮擋行人的再識別提供了一種有效的解決策略。
Zhai等人[55]提出了利用文本和素描作為描述性查詢的DFM模型,旨在多面結合不同模態(tài)信息,充分利用互補信息,提高識別性能。DFM模型的輸入為RGB、素描以及文本,輸出為RGB與描述性模態(tài)(即素描和文本)的相似性。DFM中設計了一個描述性融合組件,該組件通過空間注意力權重調整重要性來融合文本和素描的表示。此外,為了緩解模態(tài)差異,模型提出利用生成對抗模塊嘗試分離風格與內容。實驗結果證明,該方法充分融合了多模態(tài)數據的信息,有效地緩解了模態(tài)差異。
聯(lián)合注意力機制特征融合利用注意力機制動態(tài)地為不同模態(tài)特征分配權重,使模型能夠更加專注于對行人身份識別有利的信息。根據權重決定各模態(tài)的貢獻度來調整其在最終決策中的權重,從而提高識別的準確性。未來的研究將創(chuàng)新融合多模態(tài)的注意力機制,以更好地捕捉不同模態(tài)之間的關系。
3.1.4特征級融合方法比較
特征級融合可以適應不同的數據類型和模態(tài),它直接在特征層面合并信息,簡單高效,能夠保留來自不同模態(tài)的全部特征信息,但可能面臨信息冗余和模態(tài)特有信息忽略,未能充分利用不同模態(tài)之間的互補信息。在本節(jié)中詳細對特征級融合方式的方法模型作性能比較,對其實驗結果、數據集評價指標進行全面介紹,并具體分析了模型的優(yōu)勢和局限性。表2展示了特征級融合策略的綜合評價。
3.2 多模態(tài)模型級融合
多模態(tài)模型級融合策略專注于在模型的更深層次上整合來自不同模態(tài)的信息,并通過設計專門的融合架構來實現(xiàn)更復雜的模態(tài)交互和信息融合。模型融合是在特征融合策略的基礎上進行的優(yōu)化,它涉及將不同模型提取的數據中間特征或者不同模型的預測結果進行融合。模型融合策略如圖7所示。
3.2.1 CNN融合架構
CNN強大的表征學習能力顯著提高了行人重識別的準確率,在多模態(tài)RE-ID任務中發(fā)揮著關鍵作用。研究者們通過設計特定的網絡結構,如多分支卷積神經網絡,使CNN能夠有效地從不同模態(tài)的數據中提取特征,并將不同模態(tài)的底層語義信息在
Tu 等人[56提出了一種針對服裝變化情況下的行人重識別方法,該方法結合可見光特征和步態(tài)特征來識別更換衣物的行人。模型采用了雙分支網絡結構,其中一個分支使用ResNet-50[44] 網絡和服裝感知損失函數提取可見光圖像中的身份特征,忽略服裝的影響。另一個分支則通過步態(tài)預測模塊和GaitSet[57]網絡來提取步態(tài)特征。兩個分支分別得到與服裝無關的身份特征和步態(tài)特征,將兩種特征融合,形成輔助特征。通過損失函數對網絡進行訓練,最終在多個數據集上實驗驗證了所提方法的有效性。
Han等人[58]提出了一種新穎的3D骨架和雙流網絡模型,模型第一個流利用OpenPose算法提取的3D骨架信息,對行人圖像進行智能分割,以實現(xiàn)背景篩選和區(qū)域分割,從而獲得行人身體部分特征。第二個流使用孿生網絡(Siamesenet)[59]來提取行人圖像的全局描述符。通過雙流網絡的特征融合,將行人身體部分特征和全局特征相結合,不僅增強了模型對行人的理解能力,而且顯著提高了行人重識別任務的整體性能。多個標準數據集上的實驗結果驗證了該方法在行人重識別任務中的有效性和優(yōu)越性。
Zhang等人[8提出了一種創(chuàng)新的漸進融合網絡模型,該模型包括多模態(tài)特征提取和融合模塊,使用獨立的三分支
ResNet-50分別提取可見光、近紅外、熱紅外模態(tài)特征。將近紅外和熱紅外特征劃分為多個部分,分別與可見光進行部分融合。隨后將所有部分特征進行全局融合,逐步整合從局部到全局的多模態(tài)信息,有效地利用了三種模態(tài)的互補性。在文章所創(chuàng)建的數據集上,實驗取得了較高的精度。
Lejbolle等人[]提出了一種多模態(tài)神經網絡,該網絡利用可見光和深度圖像進行訓練,以生成融合特征。Zhang等人[61]在此基礎上進行了改進,提出了基于可見光和深度圖像的多模態(tài)注意力網絡(multi-modalattentionnetwork,MAT)。將CNN與注意力模塊結合,以提取多模態(tài)數據的局部判別特征,并將這些局部特征與全局提取的特征融合,從而得到更加全面的行人特征表示。
Josi等人[提出一種針對損壞多模態(tài)數據的行人重識別研究模型,旨在解決可見光-紅外多模態(tài)中的模態(tài)損壞問題。該模型包括兩個獨立的CNN流,分別處理可見光和紅外,以及一個中間流,用來提取模態(tài)共享特征。作者引入了注意力機制來動態(tài)平衡不同模態(tài)的重要性。模型創(chuàng)建了損壞數據集,并用軟隨機擦除來增強數據,從而提高了模型處理損壞數據時的魯棒性和準確性。
CNN融合架構借助卷積強大的特征提取能力,實現(xiàn)了不同模態(tài)數據的有效融合。然而,這種架構導致模型復雜度和訓練難度的增加,同時對于數據對齊和模態(tài)間差異的處理提出了更高的要求。未來的研究工作可以考慮利用剪枝或量化操作實現(xiàn)更為輕量級的卷積網絡結構,以優(yōu)化模型復雜度。
3.2.2 ViT融合架構
Transformer最初是為了解決自然語言處理中的序列到序列問題而提出的。隨著深度學習技術的發(fā)展,Transformer也被擴展應用于計算機視覺領域。通過將圖像patch劃分,將二維圖像轉換成一維序列,從而使Transformer能夠處理二維的圖像數據,進而形成了vision Transformer(ViT)[63]結構。ViT的自注意力機制能夠長距離上下文建模,解決了CNN因其局部感受野限制而無法捕捉圖像中長距離依賴關系的問題。通過調整自注意力機制中的參數,可以控制模型對不同區(qū)域或模態(tài)的關注程度。
Liang等人[64]提出一種創(chuàng)新的多模態(tài)Transformer方法(圖8),用于可見光和紅外圖像的行人重識別任務,這是ViT首次應用于多模態(tài)RE-ID任務。模型通過將多個模態(tài)特征組合成patch,從而形成了多模態(tài)數據。模型還引入了模態(tài)感知增強損失,有效地減小了兩種模態(tài)之間的差異。該方法在SYSU-MM01[32] 和 RegDB[36] 數據集上取得了顯著的性能提升,展示了ViT結構在多模態(tài)RE-ID領域的應用潛力。
Yang等人[]為無監(jiān)督可見光-紅外行人重識別設計了一個雙路徑Transformer架構,并結合了雙重對比學習策略。該架構采用兩個淺層的模態(tài)特定patch嵌入層和共享Transformer結構,分別處理可見光和紅外模態(tài)的特征。此外,模型提出了CNL(collaborativeneighborlearning)模塊,從而尋找可靠的內模態(tài)和跨模態(tài)鄰居學習。模塊計算淺層特征和深層特征的相似性,利用相似性設計了損失函數來優(yōu)化兩者的融合過程。實驗結果驗證了該架構在處理模態(tài)差異和提高檢索性能方面的有效性,為無監(jiān)督行人重識別領域提供了新的研究視角。
Zhou等人[]利用姿態(tài)估計網絡生成的人體姿態(tài)熱圖指導 ViT[53] 提取更具有判別力的特征,這一設計能夠處理遮擋和姿態(tài)變化問題。同時,作者將注意力機制引入ViT塊中,增強了不同模態(tài)特征之間的關系,同時強化行人身體各部分之間的關系,抑制了背景信息。將增強后的特征融合形成綜合行人表示。在多個數據集上的實驗結果表明,該方法在Rank-1和mAP等評價指標上均取得了出色的表現(xiàn),超越了其他先進方法。
Sarker等人[]提出了一種基于ViT的多模態(tài)RE-ID框架。該框架利用ViT對可見光圖像和紅外圖像進行編碼,以提取判別性和魯棒性。模型引入灰度圖像來減少兩種模態(tài)之間的差異。同時,其模型利用基于對立的鴿群優(yōu)化算法來確定融合所得三個特征的最佳權重,將加權后的融合特征輸入解碼器中,以感知每種模態(tài)特征的重要性。經實驗證明,在SYSU-MM01[32]和 RegDB[36] 數據集上的全局探索取得了較先進的性能。
ViT在多模態(tài)RE-ID中展現(xiàn)了強大的特征提取和融合能力,它能夠有效地融合和對齊來自不同模態(tài)的信息,并利用自注意力機制捕捉圖像的全局上下文信息,從而更好地理解整體外觀和上下文環(huán)境,但這需要大量的數據和計算資源。未來的研究將開發(fā)多任務學習框架或開發(fā)輕量級ViT結構,從而提升模型的計算效率以及多模態(tài)數據的處理能力,以便將ViT部署到實際應用中。
3.2.3 LLM融合架構
LLM融合架構結合了大型語言模型的處理能力,適用于文本和其他模態(tài)數據的處理與融合,從而提供豐富的語義信息,如行人的描述性特征。如圖9所示,CLIP模型通過編碼器分別對圖像特征和文本特征編碼,將視覺和文本特征映射到一個共享的潛在空間中。在此空間中,通過對比損失來約束圖像和文本特征之間的緊密關聯(lián)。
張紅穎等人[68]利用預訓練的CLIP模型來處理圖像與文本對,其中img表示圖像特征的嵌入向量,text表示與之對應的文本特征的嵌入向量。通過計算img和text之間的相似度,評估兩者之間的語義相關性。兩模態(tài)融合生成對行人整體不同模態(tài)的統(tǒng)一描述。這個統(tǒng)一描述作為交叉模態(tài)的知識,有效指導行人識別模型的訓練,該方法在定位單個準確匹配時表現(xiàn)出色。實驗結果表明,引人CLIP模型提供的輔助知識顯著提升了行人識別準確率。
Qi等人[]提出了一種基于圖像-文本雙通道聯(lián)合網絡的新方法,該方法結合了視覺信息和文本描述,以提高識別的準確性。圖像的局部與全局特征通過CNN提取,文本特征由簡單循環(huán)單元網絡[70](simple recurrent unit network,SRU)提取。利用文本特征作為視覺特征的輔助信息,增強了模型對遮擋和視點變化的魯棒性,從而實現(xiàn)更準確的圖像特征表達。實驗結果證實,共享機制有效地減少了模態(tài)融合帶來的差異,并在多個行人數據集上取得了良好的效果。
Cui等人[71]提出利用預訓練好的CLIP生成行人身體特定部位的提示信息,用于過濾圖像中不可見的身體部位。通過對文本信息和圖像信息的點乘,使文本具有空間感知能力,并強化了行人可見身體部位特征,同時抑制了不可見部位。此外,模型還采用了可靠的行人分割圖作為文字提示的外部監(jiān)督,以產生可靠的文本提示。實驗結果證明基于CLIP的提示緩解了多模態(tài)RE-ID中的遮擋問題。
模型級融合通過深層次的模型整合信息,能夠實現(xiàn)復雜的模態(tài)交互,但模型復雜度高,計算成本大;CNN架構擅長特征提取,但難以處理模態(tài)間的語義關系;ViT架構利用自注意力機制捕捉全局信息,適合多模態(tài)對齊,但需要大量數據和計算資源;LLM架構利用預訓練模型的強大特征表達能力,但模型復雜度高,需要針對特定任務進行微調。未來的研究方向一方面可以研究特征轉換技術,設計輕量級網絡;另一方面可以建立通用的多模態(tài)處理框架,整合大模型的優(yōu)勢,提升模型性能。本節(jié)介紹了不同模型結構在多模態(tài)融合RE-ID任務中的表現(xiàn),下面通過其模型的結構特點以及優(yōu)勢和局限性分析其在多模態(tài)RE-ID任務中的性能以及適用性。表3展示了不同模型結構的特點分析。
4多模態(tài)融合在RE-ID中的發(fā)展趨勢
在多模態(tài)RE-ID領域,盡管多模態(tài)數據融合技術已經取得了顯著的進展,不同的融合策略展現(xiàn)了多模態(tài)學習在各個領域顯著的優(yōu)勢,但仍存在一系列技術挑戰(zhàn)和限制,需要深入探討和解決。為了促進多模態(tài)學習的發(fā)展與進步,將從以下方面對多模態(tài)RE-ID研究中面臨的主要挑戰(zhàn)以及未來研究方向作出建議:
a)多模態(tài)數據的對齊問題。多模態(tài)數據對齊是多模態(tài)RE-ID中的一個核心挑戰(zhàn)。不同模態(tài)數據(如圖像、文本、深度信息)可能在空間和時間上存在差異。例如,不同攝像頭捕獲的圖像可能存在視角和位置差異,導致同一行人在不同模態(tài)中的表示不一致,視頻監(jiān)控中不同模態(tài)數據的采集可能存在時間延遲,需要同步技術以確保時間上的一致性,不同模態(tài)的特征可能在維度和分布上有所不同。一方面,未來研究特征轉換技術,將不同模態(tài)數據映射到共同特征空間,從而實現(xiàn)模態(tài)特征對齊。另一方面,未來可以嘗試利用其他模態(tài)信息來補償缺失的數據,緩解模態(tài)數據缺失造成的對齊問題。
b)模態(tài)間的沖突和不一致性。多模態(tài)數據可能包含相互矛盾或不一致的信息,這對模型的魯棒性和準確性提出了挑戰(zhàn)。不同模態(tài)可能包含重復的信息,同時也可能包含互補的信息,如何平衡這些信息,提取最有用的特征,是一個技術難題。不同模態(tài)的數據質量可能存在差異,如圖像的清晰度、深度信息的準確性等,這些差異可能導致模型性能下降。未來研究可以引入對抗訓練技術來,從而增強模型對多模態(tài)數據的額魯棒性,提高模型泛化能力。嘗試開發(fā)一種能夠將一種模態(tài)數據轉換成另一種模態(tài)數據的技術,以緩解模態(tài)的沖突。
c)模型復雜度和計算成本。多模態(tài)模型需要處理和融合來自不同模態(tài)的數據,這使模型結構變得復雜,增加了模型訓練和推理的難度。通過設計剪枝、量化等操作實現(xiàn)簡化模型,或者利用知識蒸餾來減少模型訓練難度。
d)模態(tài)差異消減。不同模態(tài)間存在語義沖突,多模態(tài)需要學會處理這些沖突,可以通過自監(jiān)督學習和對抗性訓練[72]這兩種方式來處理。引入自監(jiān)督學習可以幫助模型減輕對數據標注的依賴,應用對抗性訓練的方式可以幫助模型識別和消解模態(tài)間的語義沖突。在不同模態(tài)之間尋找共同的、沒有沖突的表示,從而確保生成的結果更加一致。
e)基于多模態(tài)融合的研究。隨著圖像、文本、視頻、傳感器數據等多模態(tài)信息的增長,跨模態(tài)統(tǒng)一建模將成為關鍵。未來的多模態(tài)融合中,建立一個通用的、可擴展的框架來處理不同模態(tài)的數據是一個重要的研究課題。一方面要考慮模態(tài)間相似性,考慮模態(tài)間的互補性,研究模態(tài)間轉換器,使不同模態(tài)的數據可以被轉換為共享的表示,實現(xiàn)高效且一致的跨模態(tài)生成與理解。另一方面要考慮每個模態(tài)內部的信息貢獻度,動態(tài)地選擇融合最有用的模態(tài)特征,也可以考慮設計自適應機制,自動分配模態(tài)內部的信息權重,使模態(tài)融合過程更加高效和智能[7]
f)多模態(tài)與大模型。近年來,預訓練的大規(guī)模模型(如BERT[73]、GPT系列等)在自然語言處理和計算機視覺領域都取得了突破性進展。這些模型具備強大的特征表達能力,并且能夠通過微調應用于各種下游任務。未來的研究可以通過預訓練技術整合多模態(tài)與大模型的優(yōu)勢,為多模態(tài)領域開拓出新的研究方向。
g)多任務與多模態(tài)學習。多任務學習通過多種任務同時學習促進了任務之間的知識遷移,幫助模型學習更加豐富和魯棒的特征。不同模態(tài)執(zhí)行各自任務,訓練模型提取不同模態(tài)的重要信息。未來將研究任務與模態(tài)之間的交互來提升模型性能,使模型能夠根據當前任務需求選擇最有用的模態(tài)。
5結束語
多模態(tài)數據融合技術已成為RE-ID領域的熱點研究課題,多模態(tài)技術在多個實際應用方向取得了引人注目的成果與突破,展現(xiàn)出強大的研究潛力。本文首先介紹了多模態(tài)學習在RE-ID任務中的應用潛力,并詳細闡述了多模態(tài)RE-ID的重要概念。接著介紹目前多模態(tài)RE-ID融合策略的主要分類方法和代表模型。最后從多模態(tài)融合挑戰(zhàn)、對抗訓練以及視覺大模型的結合等多方面系統(tǒng)梳理了未來研究目標,希望進一步推動多模態(tài)RE-ID的創(chuàng)新與發(fā)展。
參考文獻:
[1]LiangPP,ZadehA,MorencyLP.Foundations amp; trends in multimodal machine learning:principles,challenges,and open questions[J]. ACMComputingSurveys,2024,56(10):1-42.
[2]Sun Zhaojie,Wang Xuan,Zhang Youlei,et al.A comprehensive review ofpedestrianre-identificationbased ondeeplearning[J].Complexamp; Intelligent Systems,2024,10(2):1733-1768.
[3]Wei Wenyu,Yang Wenzhong,Zuo Enguang,et al. Person reidentification based on deep learning—an overview[J].Journal of Visual Communication and Image Representation,2022,82: 103418.
[4]Xiang Suncheng,Chen Hao,Ran Wei,et al. Deep multimodal representation learning for generalizable person re-identification[J]. Machine Learning,2024,113(4):1921-1939.
[5]Liu Hao,F(xiàn)eng Jiashi,Qi Meibin,et al. End-to-end comparative attention networks for person re-identification[J].IEEE Trans on Image Processing,2017,26(7):3492-3506.
[6]Vaswani A.Attentionisall you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY :Curran Associates Inc.,2017:6000-6010.
[7]張國慶,楊珊,汪海蕊,等.基于深度學習的多模態(tài)行人重識別綜 述[J].南京信息工程大學,2024,16(4):437-450.(Zhang Guoqing,Yang Shan, Wang Hairui,et al.A review of multi-modal person re-identification based on deep learning[J].Journal of Nanjing University of Information Science and Technology,2024,16(4): 437-450.)
[8]Zheng Aihua,Wang Zi,Chen Zihan,et al. Robust multi-modality personre-identification[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2021:3529-3537.
[9]Sarker P K,Zhao Qingjie,Uddin M K. Transformer-based person reidentification:a comprehensive review[J].IEEETrans on InteligentVehicles,2024,9(7) :5222-5239.
[10] Zhang Xin,Ling Yunan,Li Kaige,et al. Multimodality adaptive Transformer and mutual learning for unsupervised domain adaptation vehicle re-identification[J]. IEEE Trans on Intelligent Transportation Systems,2024,25(12) :20215-20226.
[11]Zhang Yunzuo,Lian Weiqi.Areview ofresearch onperson reidentification in surveillance video[J].Mechanical Engineering Science,2024,5(2) :1-7.
[12]Uddin M K,Bhuiyan A,Bappee FK,et al. Person re-identification with RGB-D and RGB-IR sensors: a comprehensive survey[J]. Sensors,2023,23(3) :1504.
[13]Huang Nianchang,Liu Kunlong,Liu Yang,et al. Cross-modalityperson re-identification via multi-task learning[J].Pattern Recognition,2022,128:108653.
[14]Ye Mang,Chen Shuoyi,Li Chenyue,et al. Transformer for object reidentification:a survey[EB/OL].(2024-10-22). htps://arxiv.org/ abs/2401.06960.
[15]Abed A,Akrout B,Amous I. Deep learning-based few-shot person reidentification from top-view RGB and depth images[J]. Neural Computing and Applications,2024,36(31) :19365-19382.
[16]PrakashA,ThejaswinS,NambiarA,etal.Multimodal adaptivefusion offaceand gait features using keylessattention based deep neural networks for humanidentification[EB/OL].(2023-03-24).https:// arxiv. org/abs/2303.13814.
[17]沈英,黃春紅,黃峰,等.紅外與可見光圖像融合技術的研究進展 [J].紅外與激光工程,2021,50(9):152-169.(Shen Ying,Huang Chunhong,Huang Feng,et al. Research progressof infrared and visible image fusion technology[J].Infrared and Laser Engineering, 2021,50(9):152-169.)
[18]Qi Jia,Liang Tengfei,Liu Wu,et al.A generative-based image fusion strategy for visible-infrared person re-identification[J].IEEE Trans on Circuits and Systems for Video Technology,2024,34(1): 518-533.
[19] Zheng Huantao,Zhong Xian,Huang Wenxin,et al. Visible-infrared person re-identification: a comprehensive survey and a new setting [J].Electronics,2022,11(3) :454.
[20]Cui Zhenyu,Zhou Jiahuan,Peng Yuxin.DMA: dualmodality-aware alignmentforvisible-infraredpersonre-identification[J].IEEE Trans on Information Forensics and Security,2024,19: 2696-2708.
[21]Huang Nianchang,Liu Jianan,Miao Yunqi,et al. Deep learning for visible-infrared cros-modality personre-identification;a comprehensive review[J]. Information Fusion,2023,91:396-411.
[22]Han Guang,Lin Min,Li Ziyang,etal.Text-to-imagepersonreidentification based on multimodal graph convolutional network[J]. IEEE Tran on Multimedia,2023,26:6025-6036.
[23]Qin Yang,Chen Yingke,Peng Dezhong,et al.Noisy-correspondence learning for text-to-image person re-identification[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattrn Recognition.Piscataway,NJ:IEEE Press,2024:27197-27206.
[24]Li W,Tan L,Dai P,etal. Prompt decoupling for text-to-image person re-identification[EB/OL].(2024-01-04).https://arxiv.org/abs/ 2401. 02173.
[25]Yu Xiaoyan,Dong Neng,Zhu Liehuang,et al. CLIP-driven semantic discovery network for visible-infrared person re-identification[J/OL]. IEEETrans on Multimedia.2025.http://doi.org/10.1109/tmm. 2025.3535353.
[26]Poongothai E,Deepthi K R,Jahnavi Y. Analysis of pose estimation based GLOGT feature extraction for person re-identification in surveillance area network [J].Wireless Personal Communications, 2024,138(1) :245-268.
[27]Boujou M,Iguernaisi R,NicodL,etal. GAF-net:video-basedson re-identification via appearance and gait recognitions[C]//Proc of the 19th International Joint Conference on Computer Vision,Imaging and Computer Graphics Theory and Applications.[S.1.] : Science and Technology Publications,2024:493-500.
[28]Nguyen V,Mirza S,Mantini P,et al. Attention-based shape and gait representations learning for video-based cloth-changing person reidentification[C]//Proc of the19th International Joint Conference on Computer Vision,Imaging and Computer Graphics Theory and Applications.[S.l.]:Science and Technology Publications,2024.
[29]Rao Haocong,Miao Chunyan .A survey on 3D skeleton based person re-identification:approaches ,designs,challenges,and future directions [EB/OL].(2024-01-27).https://arxiv.org/html/2401.15296v1.
[30]Wei Longhui,Zhang Shiliang,Gao Wen,et al. Person transfer GAN to bridge domain gap for person re-identification[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:79-88.
[31]Wu Ancong,Zheng Weishi,Yu Hongxing,et al.RGB-infrared crossmodalityperson re-identification[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017: 5380-5389.
[32]Ding Zefeng,Ding Changxing,Shao Zhivin,etal.Semanticalyselfalignednetwork for text-to-image part-aware personre-identification [EB/OL].(2021-08-09).https://arxiv.org/abs/2107.12666.
[33]Barbosa IB,Cristani M,Del Bue A,et al.Re-identification with RGBD sensors[M]//Proc of Workshops and Demonstrations on Computer Vision. Berlin:Springer,2012:433-442.
[34]Li Wei,Zhao Rui,Xiao Tong,et al. DeepReID:deep filter pairing neural network for person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2014:152-159.
[35]Wang Liang,Tan Tieniu,Ning Huazhong,et al. Silhouetteanalysisbased gait recognition for human identification[J].IEEE Trans on Patern Analysisand Machine Inteligence,2003,25(12): 1505-1518.
[36] Zhu Aichun,Wang Zijie,Li Yifeng,et al. DSSL: deep surroundingsperson separation learning for text-based person retrieval[C]//Proc of the 29th ACM International Conference on Multimedia.NewYork :ACM Press,2021:209-217.
[37]Zheng Liang,Shen Liue,TanLu,et al.Scalablepersonre-dentito a benchmark[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2015:1116-1124.
[38]Zhong Zhun,Zheng Liang,Cao Donglin,et al. Re-ranking person reidentification with k-reciprocal encoding[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press .2017 :3652-3661.
[39]Munaro M,F(xiàn)ossati A,Bas A,et al. One-shot person re-identification with a consumer depth camera[M]//Person Re-Identification.London:Springer,2014:161-181.
[40]Nguyen D T,Hong H G,Kim K W,et al. Person recognition system basedona combinationof body imagesfromvisible lightand thermal cameras[J].Sensors,2017,17(3) :605.
[41]Paolanti M,Pietrini R,Mancini A,et al. Deep understanding of shopper behaviours and interactions using RGB-D vision[J]. Machine Vision and Applications,2020,31(7) :66.
[42]Lu Lihui,Wang Rifan,Chen Zhencong,et al. Cross-modal person reidentification using fused local effective features and multi-scale features[J/OL].Transactions of the Institute of Measurement and Control.2024.https://journals.sagepub.com/doi/10.1177/ 01423312241266275.
[43]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[ C]//Proc of IEEE Conference on Computer Vision andPaternRecognition.Piscataway,NJ:IEEE Press,2016: 770-778.
[44]Zhang Wenbin,Li Zhaoyang,Du Haishun,et al. Dual-stream feature fusion network for person re-identification[J].Engineering Applicationsof Artifial Intellgence,204,131:88.
[45]Radford A,Kim JW,Hallacy C,et al.Learning transferablevisual models from natural language supervision[C]//Proc of International Conference on Machine Learning.[S.1.]:PMLR,2021:8748-8763.
[46]Li Diangang,Wei Xing,Hong Xiaopeng,etal.Infrared-visible crossmodal person re-identification with an X modality[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press, 2020:4610-4617.
[47]Niu Kai,Huang Yan,Ouyang Wanli,et al. Improving description-based personre-identification by multi-granularityimage-text alignments[J]. IEEETranson ImageProcessing,2020,29:5542-5556.
[48]Wang Xi,Zhang Canlong,Li Zhixin,et al. Multi-level network based on text attention and pose-guided for person re-ID[C]//Proc of International Conference on Neural Information Processing. Singapore : Springer,2023:100-112.
[49]莊建軍,莊宇辰.一種結構化雙注意力混合通道增強的跨模態(tài)行 人重識別方法[J].電子與信息學報,2024,46(2):518-526. (Zhuang Jianjun,Zhuang Yuchen.A cross-modal person re-identification method based on hybrid channel augmentation with structured dual attention[J]. Joumal of Electronics amp; Information Technology, 2024,46(2) :518-526.)
[50]Hao Xin,Zhao Sanyuan,Ye Mang,et al. Cross-modality person reidentification viamodality confusionand center aggregation[C]//Proc ofIEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:16383-16392.
[51]Zhang Qiang,Lai Changzhou,Liu Jianan,et al.FMCNet:feature-level modality compensation for visible-infrared person re-identification [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:7339-7348.
[52]Liu Jianan,ZhangQiang.Multi-levelmodaliyspecificandmodality common features fusion network for RGB-IR person re-identification [J].Neurocomputing,2024,600:128183.
[53]Yang Jing,Zhang Canlong,Tang Yanping,et al.PAFM: pose-drive attention fusion mechanism for occluded person re-identification[J]. Neural Computing and Applications,2022,34(10) :8241-8252.
[54]Zhu Xizhou,Cheng Dazhi,Zhang Zheng,etal.Anempirical stdyof spatial atention mechanisms in deep networks[C]//Proc of IEEE/ CVF International Conferenceon Computer Vision.Piscataway,NJ: IEEE Press,2019:687-6696.
[55]Zhai Yajing,Zeng Yawen,Cao Da,et al.TriRelD:towards multi-modal person re-identification via descriptive fusion model[ C]//Proc of International ConferenceonMultimedia Retrieval.New York:ACM Press,2022:63-71.
[56]Tu Hongbin,Liu Chao,Peng Yuanyuan,et al. Clothing-change person re-identification based on fusionof RGB modalityand gait features[J]. Signal,Imageand Video Processing,2024,18(3):2367-2376.
[57] Chao Hanqing,He Yiwei,Zhang Junping,et al. GaitSet:regarding gait as a set for cross-view gait recognition[C]//Proc of AAAI Conference on Artificial Intellgence.Palo Alto,CA:AAAI Press,2019:8126-8133.
[58] Han Qing,Liu Huiting,Min Weidong,et al.3D skeleton and two streams approach to person re-identification using optimized region matching[J]. ACM Trans on Multimedia Computing,Communications,and Applications,2022,18(2s) :1-17.
[59] Chopra S,Hadsell R,LeCun Y.Learning a similarity metric discriminatively,with application to face verification[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEEPress,20O5:539-546.
[60]Lejbolle AR,KroghB,Nasrollahi K,et al.Attentin inmultimodal neural networks for person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway,NJ:IEEE Press,2018.
[61] Zhang Ziyue,Jiang Shuai,Huang C,et al. RGB-IR cross-modality person ReID based on teacher-student GAN model[J]. Pattern Recognition Letters,2021,150:155-161.
[62]Josi A,Alehdaghi M,Cruz RMO,et al.Fusion for visual-infrared person ReID in real-world surveillance using corrupted multimodal data [EB/OL].(2023-04-29). https://arxiv.org/abs/2305.00320.
[63]DosoViTskiy A.An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL].(2021-06-03)). https://arxiv. org/abs/2010.11929.
[64]Liang Tengfei,Jin Yi,Liu Wu,etal.Cross-modality Transformer with modality mining for visible-infrared person re-identification[J]. IEEE Trans on Multimedia,2023,25:8432-8444.
[65]Yang Bin,Chen Jun,Ye Mang. Shallow-deep collaborative learning for unsupervised visible-infrared person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2024:16870-16879.
[66] Zhou Shuren,Zou Wenmin.Fusion pose guidance and Transformer feature enhancement for person re-identification[J].Multimedia Tools and Applications,2024,83(7):21745-21763.
[67]Sarker PK,Zhao Qingjie.Enhancedvisible-infrared person reidentification based on cross-attention multiscale residual vision Transformer[J].Pattern Recognition,2024,149:110288.
[68]張紅穎,樊世鈺,羅謙,等.結合視覺文本匹配和圖嵌入的可見光- 紅外行人重識別[J].電子與信息學報,2024,46(9):3662-3671. (Zhang Hongying,F(xiàn)an Shiyu,Luo Qian,et al. Visible-infrared person re-identificationcombiningvisual-textual matchingand graph embedding[J]. Journal of Electronics amp; Information Technology,2024, 46(9) :3662-3671. )
[69]Qi Baoguang,Chen Yi,Liu Qiang,et al.Animage-text dual-channel union network for person re-identification[J].IEEE Trans on Instrumentationand Measurement,2023,72:2513216.
[70]Lei Tao,Zhang Yu,Wang SI,et al. Simple recurrent units for highly parallelizable recurrence[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2018:4470-4481.
[71] Cui Can,Huang Siteng,Song Wenxuan,et al. ProFD: prompt-guided feature disentangling for occluded person re-identification[C]//Proc of the 32nd ACM International Conference on Multimedia.New York: ACM Press,2024:1583-1592.
[72]Han Xingshuo,Wu Yutong,Zhang Qingjie,et al.Backdooring multimodal learning[C]//Proc of IEEE Symposium on Security and Privacy.Piscataway,NJ:IEEE Press,2024:3385-3403.
[73]Ye Mang,Shen Wei, Zhang Junwu,et al. SecureReID:privacypreserving anonymization for person re-identification[J].IEEE Trans onInformation Forensicsand Security,2024,19:2840-2853.
[74]Tlili A,Shehata B,Adarkwah MA,et al.Whatif the devil is my guardian angel:ChatGPT as a case study of using chatbots in education[J].Smart Learning Environments,2023,10(1):15.
[75]Devlin J,Chang Mingwei,Lee K,et al. BERT: pre-training of deep bidirectional Transformers for language understanding[EB/OL]. (2018- 10-11).htps://arxiv.org/abs/1810.04805.