摘" 要:近年來(lái),基于外觀的注視估計(jì)取得了顯著進(jìn)展。然而,現(xiàn)有方法多以龐大的網(wǎng)絡(luò)參數(shù)量為代價(jià)來(lái)提高精度,使得模型的開(kāi)發(fā)部署成本昂貴。針對(duì)此問(wèn)題,提出一種基于多級(jí)特征提煉的輕量化注視估計(jì)網(wǎng)絡(luò)(Lightweight Network with Multi-level Feature Refining, LMLFR-Net)。其包含一種輕量級(jí)特征提取模塊(SECA)和一種輕量級(jí)多級(jí)特征提煉模塊(FRM)。SECA融合了擠壓激勵(lì)和協(xié)調(diào)注意力,以提高模型對(duì)特征的精化能力;FRM將主干網(wǎng)絡(luò)的多級(jí)特征進(jìn)行融合提煉,通過(guò)同時(shí)利用低層與高層特征,提升了模型對(duì)細(xì)節(jié)的捕獲能力,在不顯著增加參數(shù)量的同時(shí),改善輕量級(jí)網(wǎng)絡(luò)的估計(jì)精度。實(shí)驗(yàn)表明,所提出的網(wǎng)絡(luò)在MPIIFaceGaze數(shù)據(jù)集上的估計(jì)精度相比FAR-Net提升了2.14%,參數(shù)量減少了85.35%,表現(xiàn)出了良好的輕量化性能。
關(guān)鍵詞:注視估計(jì);輕量化網(wǎng)絡(luò);注意力機(jī)制;特征提煉
中圖分類號(hào):TP391.4" 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2024)23-0028-05
Lightweight Gaze Estimation Method Based on Multi-level Feature Refining
ZHOU Guang'ao, TAO Zhanpeng
(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan" 232001, China)
Abstract: Appearance-based gaze estimation has made significant progress in recent years. However, existing methods mostly improve accuracy at the expense of a huge amount of network parameters. This makes the development and deployment cost of the model expensive. In view of this problem, a lightweight gaze estimation network based on multi-level feature refining (Lightweight Network with Multi-level Feature Refining, LMLFR-Net) is proposed. It includes a lightweight feature extraction module (SECA) and a lightweight multi-level Feature Refining Module (FRM). SECA combines Squeeze-and-Excitation and Coordinate Attention to improve the model's ability to refine features. FRM integrates and refines the multi-level features of the backbone network, and improves the model's ability to capture details by simultaneously utilizing low-level and high-level features. It improves the estimation accuracy of lightweight networks without significantly increasing the number of parameters. Experiments show that the estimation accuracy of the proposed network on the MPIIFaceGaze data set is improved by 2.14% compared to FAR-Net, and the number of parameters is reduced by 85.35%, showing good lightweight performance.
Keywords: gaze estimation; lightweight network; Attention Mechanism; feature refining
0" 引" 言
視覺(jué)信息在人類獲取的外界信息中所占比例高達(dá)80%,眼睛通常被認(rèn)為是心靈的窗口,在非語(yǔ)言交際中起著至關(guān)重要的作用。眼睛注視的方向?yàn)槔斫馊祟愓J(rèn)知和行為提供了至關(guān)重要的線索。注視估計(jì)是一種融合了計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)等多學(xué)科前沿技術(shù),通過(guò)分析眼部特征和眼睛運(yùn)動(dòng)規(guī)律來(lái)對(duì)人的注意力進(jìn)行預(yù)測(cè)的技術(shù)。目前,注視估計(jì)已被廣泛應(yīng)用于人機(jī)交互[1]、增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)[2]、自動(dòng)駕駛[3]等領(lǐng)域,為這些領(lǐng)域的發(fā)展和創(chuàng)新提供了有力支撐。
人們對(duì)注視估計(jì)方法的研究可分為兩類:基于模型和基于外觀。傳統(tǒng)的基于模型的方法需借助特定的儀器(例如紅外相機(jī))來(lái)獲取特征,其成本較高,因此通常僅適用于實(shí)驗(yàn)室環(huán)境。相反,基于外觀的注視估計(jì)方法則直接從面部圖像中提取特征,一般僅需使用普通相機(jī),并表現(xiàn)出更好的魯棒性。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的興起,研究者開(kāi)始探索將卷積神經(jīng)網(wǎng)絡(luò)(CNN)引入基于外觀的注視估計(jì)。例如,Zhang等人[4]首次提出利用CNN進(jìn)行基于全臉圖像的注視估計(jì)模型Full-Face。該模型設(shè)計(jì)了一種空間加權(quán)機(jī)制,對(duì)人臉各個(gè)區(qū)域的信息進(jìn)行加權(quán),以增強(qiáng)特征表征。最近,OH等人[5]在提出的基于面部圖像的注視估計(jì)網(wǎng)絡(luò)中融合了卷積、自注意力和反卷積等技術(shù)。此外,當(dāng)前的研究還涉及基于弱監(jiān)督學(xué)習(xí)[6]和基于對(duì)比學(xué)習(xí)[7]等方法的注視估計(jì)。受益于大量相關(guān)數(shù)據(jù)集的公開(kāi),基于CNN的注視估計(jì)方法取得了較高的準(zhǔn)確度。然而,隨著模型準(zhǔn)確度的提高,網(wǎng)絡(luò)參數(shù)量也在劇增。當(dāng)前提出的注視估計(jì)模型參數(shù)龐大,這給模型的訓(xùn)練和實(shí)際部署帶來(lái)了挑戰(zhàn)。因此,如何進(jìn)行模型輕量化,已成為該領(lǐng)域急需解決的問(wèn)題。
針對(duì)輕量化問(wèn)題,目前主要有兩個(gè)研究方向:一是對(duì)訓(xùn)練好的復(fù)雜網(wǎng)絡(luò)進(jìn)行壓縮(模型剪枝、知識(shí)蒸餾等)得到輕量化網(wǎng)絡(luò),二是直接設(shè)計(jì)輕量化網(wǎng)絡(luò)進(jìn)行訓(xùn)練。本文針對(duì)注視估計(jì)任務(wù)提出了一種新型的輕量化注視估計(jì)模型LMLFR-Net。LMLFR-Net由一個(gè)用于特征提取的輕量級(jí)注意力特征提取模塊(Squeeze-and-Excitation and Coordinated Attention Feature Extraction Module, SECA)和一種輕量級(jí)多階段特征提煉模塊(Multi-level Feature Refining Module, FRM)組成。其中SECA通過(guò)將擠壓激勵(lì)(Squeeze-and-Excitation, SE)模塊和協(xié)調(diào)注意力(Coordinate Attention, CA)模塊相結(jié)合,增強(qiáng)了模型對(duì)全局特征的細(xì)化能力,顯著降低了模型參數(shù)以及計(jì)算復(fù)雜度。FRM通過(guò)捕獲主干網(wǎng)絡(luò)的多級(jí)特征信息,提高模型對(duì)細(xì)節(jié)的捕獲能力,在保證參數(shù)量不顯著升高的前提下,改善了輕量級(jí)網(wǎng)絡(luò)的注視估計(jì)精度。
1" 模型設(shè)計(jì)
1.1" 整體架構(gòu)
本文提出的LMLFR-Net總體架構(gòu)如圖1所示。在網(wǎng)絡(luò)最初階段,首先采用7×7卷積和最大池化操作來(lái)對(duì)特征圖進(jìn)行維度調(diào)節(jié)。在提取出基礎(chǔ)特征的基礎(chǔ)上減小了特征圖的維度,有利于參數(shù)量的減少和后續(xù)的處理。在此基礎(chǔ)上,設(shè)計(jì)了一個(gè)由三個(gè)階段組成的主干網(wǎng)絡(luò),分別使用SECA特征提取模塊進(jìn)行特征提取。之后,各階段生成的特征圖通過(guò)平均池化進(jìn)行維度對(duì)齊后,統(tǒng)一輸入FRM模塊中,實(shí)現(xiàn)對(duì)多級(jí)特征信息的提煉,有效利用低層和高層特征,進(jìn)一步提升模型的精度。最后,通過(guò)1×1的卷積以及池化來(lái)調(diào)整特征圖的維度,并將特征圖轉(zhuǎn)換為一維向量輸入全連接層進(jìn)行注視估計(jì)回歸預(yù)測(cè)。
1.2" SECA輕量級(jí)特征提取模塊
如圖2所示,SECA輕量級(jí)特征提取模塊的設(shè)計(jì)借鑒了ShuffleNetV2[8]的Shuffle結(jié)構(gòu)??紤]到并行使用SE和CA兩種注意力機(jī)制(如圖2)會(huì)產(chǎn)生重疊或冗余信息,導(dǎo)致算法的訓(xùn)練和部署開(kāi)銷增加。本文采用新的思路,串行使用兩者。SE模塊會(huì)先通過(guò)訓(xùn)練學(xué)習(xí)到多個(gè)通道之間的關(guān)聯(lián)關(guān)系,然后通過(guò)對(duì)通道特征進(jìn)行加權(quán),除去無(wú)關(guān)信息,增強(qiáng)對(duì)有效信息的表征能力。緊接著將結(jié)果傳遞給CA模塊進(jìn)行空間注意力加權(quán)。這種串行設(shè)計(jì)使得通道與空間的關(guān)聯(lián)更加明確,降低了模型的重復(fù)計(jì)算,提升了模型的估計(jì)精度。與此同時(shí),本文將利用一個(gè)膨脹率為2的3×3空洞卷積(Dilated Convolution, D-Conv)代替深度可分離卷積(DWConv)。該方法可以在不明顯增大運(yùn)算量的前提下,獲得更大的感知野,從而加快了網(wǎng)絡(luò)的學(xué)習(xí)與推理。
在SECA模塊的Block1中,先利用通道分割(Channel Split)方法對(duì)特征進(jìn)行通道劃分。這一操作是為了減少隨后各層的計(jì)算負(fù)擔(dān)。然后,通過(guò)1×1卷積進(jìn)行特征融合。其次,使用批歸一化(Batch Normalization, BN)和ReLU激活函數(shù)對(duì)特征進(jìn)行標(biāo)準(zhǔn)化處理的同時(shí)引入非線性特征,增強(qiáng)模型的表達(dá)能力。接下來(lái),通過(guò)3×3的空洞卷積增加感受野,在不額外增加參數(shù)量的情況下,獲取更大范圍的上下文信息。后續(xù)SE模塊通過(guò)學(xué)習(xí)特征圖通道間的相互依賴性,實(shí)現(xiàn)對(duì)通道響應(yīng)的動(dòng)態(tài)調(diào)整,凸顯有利特征。接著,一組1×1卷積被用來(lái)對(duì)特征進(jìn)行后續(xù)的變換與融合,再通過(guò)通道合并將處理過(guò)的兩個(gè)特征子集進(jìn)行合并,輸入到最后一層進(jìn)行通道洗牌(Channel Shuffle),實(shí)現(xiàn)特征重構(gòu)。實(shí)現(xiàn)了不同組之間的信息的高效交互,提高模型對(duì)多元特征的捕獲與融合能力以及泛化性能。擠壓和激勵(lì)模塊、協(xié)調(diào)注意力模塊如圖3所示。
Block2類似Block1,但由于Block1已經(jīng)進(jìn)行了通道劃分,Block2采用分組卷積實(shí)現(xiàn)特征信息的抽取,并使用協(xié)調(diào)注意力CA來(lái)對(duì)進(jìn)行加權(quán)。這一步驟旨在深入挖掘提煉圖像中的特征,提高網(wǎng)絡(luò)對(duì)有益特征的學(xué)習(xí)能力。在此基礎(chǔ)上,將兩組特征進(jìn)行合并,使用通道洗牌交互重組,確保模型能夠?qū)W習(xí)到更為復(fù)雜和有效的特征表示,為后續(xù)的預(yù)測(cè)提供更多特異性信息。
1.3" FRM特征提煉模塊
為提煉出更豐富注視相關(guān)特征信息,本文提出了特征提煉模塊FRM,如圖4所示。與僅使用輕量化骨干網(wǎng)絡(luò)的最后一級(jí)特征不同,F(xiàn)RM將所有3個(gè)階段的特征進(jìn)行融合,從而更好地挖掘輕量級(jí)主干各個(gè)階段的優(yōu)勢(shì)信息。
具體地,F(xiàn)RM采用平均池化方法進(jìn)行多尺度特征的對(duì)齊,然后將它們拼接在一起。過(guò)程如下:
(1)
其中,Cat()表示拼接操作;avgpool()表示平均池化操作;F1、F2、F3分別表示來(lái)自三個(gè)階段的輸出特征。FRM模塊利用解耦非局部塊(Disentangled Non-local Block, DNL)來(lái)增強(qiáng)各區(qū)域間的相關(guān)性,從而獲得全局的上下文信息。在此基礎(chǔ)上,根據(jù)各像素點(diǎn)之間的相關(guān)性,DNL塊自適應(yīng)地對(duì)各區(qū)域進(jìn)行加權(quán)處理,提煉優(yōu)勢(shì)信息。具體來(lái)說(shuō),每個(gè)像素的上下文是通過(guò)計(jì)算拼接的特征Fc中所有像素的加權(quán)和來(lái)評(píng)估的。用xi表示位置i處的值,DNL的輸出yi計(jì)算為:
(2)
其中,w(xi,xj)表示xi、xj的相似度;g(xj)表示xj的一元變換。Ω表示所有像素的集合。權(quán)重函數(shù)w(xi,xj)定義為:
(3)
其中,σ()表示Softmax函數(shù)。將嵌入qi、kj矩陣使用1×1卷積分別計(jì)算為Wq xi和Wk xj。Wq、Wk為待學(xué)習(xí)的權(quán)值矩陣。之后對(duì)qi和kj進(jìn)行歸一化,減去其均值μq和μk。在歸一化后進(jìn)行矩陣相乘,然后,使用Softmax函數(shù)進(jìn)行歸一化,再通過(guò)元素加法與矩陣乘法運(yùn)算,就可以獲得后續(xù)需要的精煉特征。
FRM模塊利用前饋網(wǎng)絡(luò)FFN以期提升網(wǎng)絡(luò)表征能力。FFN由兩個(gè)1×1卷積、一個(gè)3×3卷積組成。其中,F(xiàn)FN使用1×1卷積對(duì)輸入圖像特征進(jìn)行線性變換,擴(kuò)展通道的維數(shù),使其能夠捕獲更多維度的信息。隨后通過(guò)3×3卷積和BN、ReLU,實(shí)現(xiàn)更大范圍的空間特征抽取,增強(qiáng)其對(duì)復(fù)雜場(chǎng)景的處理能力。最后,再次利用1×1卷積進(jìn)行線性變換,調(diào)整特征通道的維數(shù),減少后續(xù)層的計(jì)算量。FRM模塊充分使用到了所有階段的特征信息,使得不同層級(jí)上的特征得到了有效的整合,增強(qiáng)了特征的豐富性和表征能力。提高了輕量級(jí)網(wǎng)絡(luò)特征提取精煉能力,極大提升了模型的注視估計(jì)準(zhǔn)確性。
2" 實(shí)驗(yàn)結(jié)果與分析
2.1" 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
本文實(shí)驗(yàn)在主流數(shù)據(jù)集MPIIFaceGaze[4]上進(jìn)行。MPIIFaceGaze數(shù)據(jù)集是一個(gè)廣泛用于注視估計(jì)研究的公開(kāi)數(shù)據(jù)集。該數(shù)據(jù)集由德國(guó)馬普學(xué)會(huì)計(jì)算機(jī)科學(xué)研究所的研究人員創(chuàng)建,并提供了大量的面部圖像和相應(yīng)的注視位置標(biāo)注。這些注視位置標(biāo)注指示了被拍攝者在圖像中所看的方向,為研究者提供了理想的資源來(lái)訓(xùn)練和評(píng)估注視估計(jì)算法。MPIIFaceGaze數(shù)據(jù)集包含15個(gè)參與者的45 000張圖像,這些圖像是通過(guò)在筆記本電腦屏幕上向參與者顯示隨機(jī)點(diǎn)來(lái)收集的,包含了來(lái)自不同場(chǎng)景和不同人群的圖像,這些圖像涵蓋了不同的頭部姿勢(shì)、光照條件和背景環(huán)境。為了評(píng)估模型的性能,在該數(shù)據(jù)集上采用留一策略。
注視估計(jì)領(lǐng)域通常采用角度誤差來(lái)評(píng)估模型性能,也就是真實(shí)注視方向g和預(yù)測(cè)注視向量之間的角度誤差,角度誤差越小,模型精度越高。計(jì)算式為:
(4)
2.2" 實(shí)驗(yàn)環(huán)境及參數(shù)配置
LMLFR-Net采用PyTorch框架構(gòu)建,并使用NVIDIA-A4000 GPU進(jìn)行訓(xùn)練與測(cè)試。在MPIIFaceGaze數(shù)據(jù)集上,采用了留一法交叉驗(yàn)證策略。模型訓(xùn)練時(shí)初始學(xué)習(xí)率設(shè)置為0.000 1,并通過(guò)動(dòng)態(tài)調(diào)整來(lái)優(yōu)化模型的訓(xùn)練過(guò)程。每個(gè)訓(xùn)練批次的batch_size設(shè)置為16,共進(jìn)行了300輪訓(xùn)練,每10輪保存一次模型用于測(cè)試。損失函數(shù)采用L1損失函數(shù)。模型采用式(4)進(jìn)行注視估計(jì)精度的評(píng)估。圖5顯示了模型在訓(xùn)練過(guò)程中的損失和估計(jì)精度變化情況。模型訓(xùn)練損失收斂速度較快,大約在第50輪左右時(shí)穩(wěn)定下來(lái)。同時(shí),模型測(cè)試精度也在第50輪時(shí)趨于穩(wěn)定。
2.3" 實(shí)驗(yàn)結(jié)果與分析
為驗(yàn)證所提出網(wǎng)絡(luò)LMLFR-Net的性能,本文基于MPIIFaceGaze數(shù)據(jù)集從估計(jì)誤差(Error)、模型參數(shù)量(Para)和計(jì)算量(FLOPS)3個(gè)方面進(jìn)行評(píng)估。結(jié)果如表1所示。相比其他4種先進(jìn)的注視估計(jì)方法(Dilated-Net[9]、RT-Gene[10]、FAR-Net[11]、CA-Net[12]),所提出的模型達(dá)到了更低的角度誤差(4.11°),并且模型僅有1.67M的參數(shù)量。對(duì)比結(jié)果顯示出所提出的模型在實(shí)現(xiàn)輕量化方面有著明顯的優(yōu)勢(shì)。另外,該模型計(jì)算高效(FLOPS僅為124.13M),在保證高效率和高精度的前提下,LMLFR-Net表現(xiàn)出了良好的性能。
2.4" 消融實(shí)驗(yàn)
2.4.1" SECA消融實(shí)驗(yàn)
為了檢驗(yàn)SECA模塊對(duì)LMLFR-Net性能的影響,本文分別將其與當(dāng)前流行的輕量級(jí)特征提取網(wǎng)絡(luò)進(jìn)行替換比較。從表2可以看出,SECA模塊對(duì)注視估計(jì)精度有著積極的貢獻(xiàn)。相較ShufflenetV1和V2在MPIIFaceGaze數(shù)據(jù)集上注視精度分別增加了1.3°和1.1°,且模型參數(shù)量有效減少。SECA在提高注視估計(jì)精度的同時(shí),顯著降低了參數(shù)量。
2.4.2" SECA內(nèi)部消融實(shí)驗(yàn)
針對(duì)SECA模塊的內(nèi)部結(jié)構(gòu)進(jìn)行了相應(yīng)的消融實(shí)驗(yàn)。消融實(shí)驗(yàn)設(shè)計(jì)包括:1)SECA是否使用SE模塊;2)是否使用CA模塊;3)是否用空洞卷積代替深度可分離卷積。結(jié)果如表3所示,單一加入不同的功能模塊,對(duì)模型精度的提升不顯著,而將兩種功能組合起來(lái),則能顯著改善模型性能,且參數(shù)的數(shù)量基本保持不變。在參數(shù)數(shù)量變化很小的情況下,模型的訓(xùn)練速度和訓(xùn)練后的測(cè)試速度沒(méi)有發(fā)生很大的變化,并且具有較高的精度。
2.4.3" FRM消融實(shí)驗(yàn)
對(duì)于FRM模塊,本文將其與現(xiàn)有的金字塔池模塊PPM[15]、深度聚合金字塔池模塊DAPPM[16]進(jìn)行對(duì)比。實(shí)驗(yàn)將主干網(wǎng)絡(luò)的多級(jí)段特征拼接起來(lái)作為PPM和DAPPM的輸入。表4顯示了在 MPIIFaceGaze數(shù)據(jù)集上的對(duì)比結(jié)果。相比于PPM和DAPPM,F(xiàn)RM模塊將注視誤差降低了約0.2°,并且大幅減少了計(jì)算量。
3" 結(jié)" 論
針對(duì)當(dāng)前注視估計(jì)模型參數(shù)量較大,開(kāi)發(fā)部署較為困難這一問(wèn)題,本文提出一種基于多級(jí)特征提煉的輕量化注視估計(jì)網(wǎng)絡(luò)LMLFR-Net。包含了用于特征提取的輕量級(jí)特征提取模塊SECA和一種輕量級(jí)多級(jí)特征提煉模塊FRM。實(shí)驗(yàn)結(jié)果表明,所提出的模型各模塊均有效,整體上具有良好的輕量化性能。但輕量化網(wǎng)絡(luò)的特征提取能力有限,導(dǎo)致模型精度提升不夠顯著,因此在后續(xù)的研究中將會(huì)嘗試將知識(shí)蒸餾引入,進(jìn)一步增強(qiáng)輕量化網(wǎng)絡(luò)的特征提取能力。
參考文獻(xiàn):
[1] LOMBARDI M,MAIETTINI E,DETOMMASO D,et al. Toward an Attentive Robotic Architecture: Learning-Based Mutual Gaze Estimation in Human-Robot Interaction [J/OL].Frontiers in Robotics and AI,2022,9:770165[2024-05-10].https://doi.org/10.3389/frobt.2022.770165.
[2] LEMLEY J,KAR A,CORCORAN P. Eye Tracking in Augmented Spaces: A Deep Learning Approach [C]//2018 IEEE Games, Entertainment. Media Conference (GEM).Galway:IEEE,2018:1-6.
[3] URAMUNE R,SAWAMURA K,IKEDA S,et al. Gaze Depth Estimation for In-vehicle AR Displays [C]//AHs'23: Proceedings of the Augmented Humans International Conference.Glasgow:Association for Computing Machinery,2023:323–325.
[4] ZHANG X C,SUGANO Y,F(xiàn)RITZ M,et al. It's Written All Over Your Face: Full-Face Appearance-Based Gaze Estimation [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).Honolulu:IEEE,2017:2299-2308.
[5] OH J O,CHANG H J,CHOI S L. Self-Attention with Convolution and Deconvolution for Efficient Eye Gaze Estimation from a Full Face Image [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New Orleans:IEEE,2022:4988-4996.
[6] KOTHARI R,MELLO S D,IQBAL U,et al. Weakly-Supervised Physically Unconstrained Gaze Estimation [C]//In Proceedings of the Conference on Computer Vision and Pattern Recognition.Nashville:IEEE,2021:9975-9984.
[7] WANG Y M,JIANG Y Z,LI J,et al. Contrastive Regression for Domain Adaptation on Gaze Estimation [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE,2022:19354-19363.
[8] MA N,ZHANG X Y,ZHENG H T,et al. ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design [C]//Computer Vision-ECCV 2018.Munich:Springer,2018:122-138.
[9] CHEN Z K,SHI B E. Appearance-Based Gaze Estimation Using Dilated-Convolutions [J/OL].arXiv:1903.07296 [cs.CV].[2024-05-13].https://doi.org/10.48550/arXiv.1903.07296.
[10] FISCHER T,CHANG H J,DEMIRIS Y. RT-GENE: Real-Time Eye Gaze Estimation in Natural Environments [C]//Computer Vision-ECCV 2018.Munich:Springer,2018:339-357.
[11] YIHUA CHENG,ZHANG X C,F(xiàn)ENG LU,et al. Gaze Estimation by Exploring Two-Eye Asymmetry [J]. IEEE Transactions on Image Processing,2020:29:5259–5272.
[12] CHENG Y H,HUANG S Y,WANG F,et al. A Coarse-to-Fine Adaptive Network for Appearance-Based Gaze Estimation [C]//Proceedings of the AAAI Conference on Artificial Intelligence.Vancouver:AAAI Press,2020,34(7):10623-10630.
[13] LIU C X,ZOPH B,NEUMANN M,et al. Progressive Neural Architecture Search [C]//Proceedings of the European Conference on Computer Vision.Munich:Springer,2018:19-35.
[14] HOWARD A,SANDLER M,CHEN B,et al. Searching for MobileNetV3 [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul:IEEE,2019: 1314-1324.
[15] ZHAO H S,SHI J P,QI X J,et al. Pyramid Scene Parsing Network [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:6230-6239.
[16] PAN H H,HONG Y D,SUN W C,et al. Deep Dual-Resolution Networks for Real-Time and Accurate Semantic Segmentation of Traffic Scenes [J].IEEE Transactions on Intelligent Transportation Systems,2023,24(3):3448-3460.
作者簡(jiǎn)介:周廣澳(1999—),男,漢族,安徽蚌埠人,碩士研究生在讀,研究方向:計(jì)算機(jī)視覺(jué)、注視估計(jì);陶展鵬(1997—),男,漢族,安徽淮南人,碩士研究生在讀,研究方向:計(jì)算機(jī)視覺(jué)、注視估計(jì)。