高富洪
(西南交通大學計算機與人工智能學院,成都 611756)
現(xiàn)實世界的個體分為人和物,人和物在各個場景下都存在錯綜復雜的交互關系,對人和物之間的關系進行建模,有助于我們了解人類的行為。檢測便利店收銀臺場景下收銀員和顧客在整個收銀過程中的交互行為,既有助于保證收銀過程的規(guī)范性和商品、資金的安全性,也對便利店的管理發(fā)展和服務質量提升起著積極的作用。顧客在收銀臺進行結賬時,收銀員會使用掃碼槍對商品上的條形碼進行掃描識別,會與顧客之間接遞收銀小票、銀行卡,會操作pos 機,會拿手機、簽字筆等等?;谏疃葘W習的方式來檢測收銀員和顧客各自在收銀臺下的交互行為,無論是在科研價值還是實際應用方面,都有著積極的作用。
深度學習中的計算機視覺領域近年來發(fā)展迅猛、備受關注,而其中的人-物交互(HOI)檢測也成為了近兩年的研究熱題。在人-物交互檢測方向,two-stage 是相對傳統(tǒng)的方法,onestage 是近期流行起來的方法,它們都有各自的優(yōu)缺點,其中two-stage 主要受限于如何定位有關系的人-物對,而one-stage主要受限于如何權衡實體檢測和關系分類的多任務學習。Gao等在2018 年提出的HOI 檢測網絡iCAN,是一種端到端的以實例為中心的注意力模型,通過獲取人-物之間的上下文特征,來提升網絡檢測性能。Liao等在2020年提出的PPDM 網絡是一種one-stage 方法,包括點檢測和點匹配兩個并行分支,交互點隱含地為人、物檢測提供上下文和正則化信息,抑制了無意義的HOI 檢測框,提高了HOI 檢測的精度。因此,如何整合這兩種方法的優(yōu)點和抑制其缺點,成為一個核心問題。
本文中提到的CDN(cascade disentangling network)網絡是一種特殊的one-stage 方法,通過級聯(lián)的方式來解耦人-物對檢測和關系分類,同時采用了基于Transformer的HOI檢測器來實現(xiàn)該網絡。針對便利店收銀臺場景,不同于傳統(tǒng)的HOI 檢測,本文對不同的收銀員和顧客進行了細分類。為了提高人-物關系分類的準確性,本文在CDN 網絡的特征提取模塊加入了基于HRNet 模型的人體關鍵點信息,最終取得了更好的效果。
隨著監(jiān)控攝像頭的技術發(fā)展與普及,人們在公共場所下的大多數(shù)行為都會被記錄下來,尤其是在涉及到人們生命財產的地方。本文選取多個加油站便利店的監(jiān)控記錄作為原始視頻數(shù)據(jù),為了保證數(shù)據(jù)的有效性,將正對收銀臺的監(jiān)控視頻單獨提取出來,因為它能完整地記錄收銀員和顧客的交易細節(jié),并適用于HOI 研究;同時共選取了14 座加油站不同時段的收銀臺監(jiān)控視頻,確保了數(shù)據(jù)的多樣性,也使最后的模型具有更高的通用性。由于本文是在圖片級別的數(shù)據(jù)集上進行研究,所以還需要對視頻數(shù)據(jù)抽幀操作,避免大量的相似圖片,每間隔20幀抽取一幀作為數(shù)據(jù)集,同時對大部分無人-物交互的圖片進行過濾,總共得到17295張有效圖片,并選取12970 張圖片作為訓練集,4325張圖片作為測試集。
對于處理完成的圖片數(shù)據(jù)集,本文將劃分收銀員和顧客常見的交互行為標簽,總體以HICO-DET 數(shù)據(jù)集的處理方式為依據(jù)。HICODET 是一個用于檢測圖像中人-物交互的數(shù)據(jù)集,它包含47776 張圖片(訓練集38118 張,測試集9658張),由80個對象類和117個動詞類構成600 個HOI 類。不同于HICO-DET 中的person對象類,本文加入了兩個不同的收銀員類和一個顧客類,總共10 個對象類,5 個動詞類,23個HOI類,具體類別如表1所示。
表1 便利店收銀臺人-物交互數(shù)據(jù)集標簽
按照劃分好的標簽,需要對17295 張便利店收銀臺場景的圖片進行標注,本文用Python開發(fā)完成HOI 的標注軟件,以<人,物,交互動作>三元組的形式進行標注,并將標注結果以JSON 的形式保存,主要包括對象目標框的坐標和目標之間的動作關系,具體的標注界面如圖1所示。
圖1 便利店收銀臺人-物交互數(shù)據(jù)標注界面
本文主要對CDN 網絡進行改進,以提升在便利店收銀臺場景下人-物交互檢測的準確性。CDN 網絡主要包括三個級聯(lián)的模塊,分別是特征提取模塊、人-物對匹配模塊、動作關系分類模塊。特征提取模塊包含卷積神經網絡和Transformer 編碼器,其中提取卷積特征的主干網絡為ResNet。人-物對匹配模塊包含一個人-物對解碼器,輸入信息為上一模塊的輸出向量和人-物對查詢器,輸出信息為人的檢測框、物的檢測框和類別以及是否有關系的置信度預測。動作關系分類模塊包含一個動作關系解碼器,輸入信息為上一模塊的輸出信息和動作查詢器,輸出信息為具體的動作關系類別。為了增強人-物關系的匹配置信度的準確性,本文在特征提取模塊中加入了基于HRNet的人體姿勢關鍵點信息,并將其與視覺特征融合輸入到Transformer 編碼器。此外,在人-物對匹配模塊加入了人的類別。改進的CDN網絡結構如圖2所示。
圖2 改進的CDN網絡結構
輸入高度為、寬度為、通道數(shù)為的原始圖片,利用主干網絡ResNet 生成特征圖,然后使用1×1 的卷積核將特征圖從多維壓縮到一維,位置信息編碼用于區(qū)分輸出的全局信息中相關的位置。為了得到更全面的特征信息,讓人-物之間的動作交互更準確,本文利用HRNet提取原始圖片中的人體姿勢關鍵點,并將其與扁平特征一起作為Transformer 編碼器的輸入。HRNet的主干網絡包含4個并行的子網絡,其分辨率逐漸衰減一半,對應的通道數(shù)增加一倍,其網絡結構如圖3 所示。由于Transformer 編碼器采用了多頭注意力機制,它能從包含豐富上下文信息的特征圖中匯總到全局的信息。
圖3 HRNet網絡結構[5]
在得到有序的視覺特征向量后,可以以此來預測、匹配人-物對。首先隨機初始化一個可學習的查詢器Q作為人-物對查詢器,然后構造一個基于Transformer 的解碼器,把人-物對查詢器Q和上一模塊的全局信息作為輸入,因此可以得到人的檢測框、人的類別、物的檢測框和物的類別,并將其組成一個或多個人-物對。同時,利用具體的得分以二分類的形式來判斷人-物對是否存在交互關系。因此,匹配的人-物對向量P可以表示為
式中,X為特征提取模塊輸出的全局信息,為特征提取模塊的位置編碼信息。此外,把人-物對匹配模塊最后一層的輸出信息用表示,并用于下一模塊。
類似于人-物對匹配解碼器,在動作關系模塊同樣構建了一個獨立的動作關系解碼器,它能對人-物對匹配模塊輸出的每個表征人-物對的向量分配一個或多個關系類別。關系解碼器采用的輸入向量不再是隨機初始化的向量,而是人-物對匹配模塊的輸出向量,這樣可以利用其訓練得到的先驗知識對表征的每一個人-物對進行關系類別解碼,通過關系分類訓練任務,解碼得到的輸出向量可以表征關系類別P,并且它同樣和X、有關,可以表示為:
為了驗證算法改進后的可行性與效果,本文設計了多個實驗進行對比分析,變量包括是否加入基于HRNet 的人體姿勢關鍵點、不同層數(shù)的Transformer 編碼器以及不同的主干網絡。本實驗的軟硬件環(huán)境如表2所示。
表2 實驗軟硬件環(huán)境
本文設置了評價指標來判斷檢測結果的正確性,即當目標檢測結果中人和物的檢測框與真實框的重疊部分超過了設置的閾值,并且檢測到的人-物交互行為分類正確,則結果正確,若不滿足一項,則錯誤。人-物交互檢測任務的評價方式與多標簽分類的評價方式類似,采用所有交互行為類別在整個數(shù)據(jù)集的平均精度來表示模型的檢測效果,具體表示為:
式中的AP表示如下:
本文采用ResNet50 和ResNet101 兩種主干網絡用于提取圖片特征,并且分別加入3 層Transformer編碼器和6層Transformer編碼器。為了研究人體姿勢關鍵點對人-物對匹配的效果,同時加入了基于HRNet 的人體姿勢關鍵點信息,逐一對比分析檢測結果。實驗結果如表3所示。
表3 對比實驗結果
通過對比實驗結果,可以看出增加Transformer 編碼器內部的層數(shù)和更復雜的ResNet 主干網絡都對人-物交互檢測結果有提升,在加入基于HRNet 的人體姿勢關鍵點后,檢測結果提升更多,對應的值依次提高8.7%、9.7%、10.3%。
本文對原有的人-物交互檢測方法CDN進行改進,使之滿足便利店收銀臺場景下收銀員和顧客各自的交互行為檢測。在目標檢測過程中,不僅檢測了不同的物,對人也進行了細分類,實際的應用價值更高。為了在圖像中獲取更多的信息,加入了基于HRNet 的人體姿勢關鍵點,可以讓匹配的人-物對是否存在交互關系的得分更加準確。此外,本文通過多組對比實驗證實了加入人體姿勢關鍵點對檢測結果的準確性有較大的提升。在實際應用方面,通過實時檢測收銀過程中收銀員和顧客的行為,不僅節(jié)省了人力監(jiān)管的成本,也為企業(yè)的智能化管理做出了貢獻。