• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    VR環(huán)境下基于多觀測角度人眼成像特性的注視估計研究

    2024-11-30 00:00:00牛銳房豐洲任仲賀侯高峰李子豪
    現(xiàn)代電子技術(shù) 2024年23期
    關(guān)鍵詞:特征融合卷積神經(jīng)網(wǎng)絡(luò)虛擬現(xiàn)實

    摘" 要: 在虛擬現(xiàn)實(VR)的沉浸式場景中,基于先進的注視估計技術(shù)實現(xiàn)精確的注視點渲染,能夠優(yōu)化計算資源分配效率、緩解用戶體驗過程中可能產(chǎn)生的眩暈感。目前,可用的VR環(huán)境下的注視估計數(shù)據(jù)集只有單觀測角度眼睛圖像,缺乏不同觀測角度的眼部圖像數(shù)據(jù)集。文中構(gòu)建了一個包含23 040張多觀測角度眼睛圖像的注視估計數(shù)據(jù)集與一個包含15 824張帶有瞳孔標(biāo)注的多觀測角度眼睛圖像的瞳孔檢測數(shù)據(jù)集,并提出了一種結(jié)合多觀測角度眼睛圖像特征以相互補償?shù)亩喾种ЬW(wǎng)絡(luò)模型。將注視估計數(shù)據(jù)集樣本用于模型的訓(xùn)練過程,預(yù)測歐氏距離損失可以達到7.68像素。進一步,將包含瞳孔位置信息的權(quán)重地圖與圖像融合,瞳孔位置信息的融合輸入增強了模型的性能,歐氏距離損失降低到7.45像素。這項研究表明,所開發(fā)的模型能夠提升VR環(huán)境下的注視估計精度,從而推動注視估計技術(shù)在VR產(chǎn)品中的廣泛應(yīng)用。

    關(guān)鍵詞: 注視估計; 虛擬現(xiàn)實; 卷積神經(jīng)網(wǎng)絡(luò); 多分支網(wǎng)絡(luò); 特征融合; 瞳孔檢測

    中圖分類號: TN911.73?34; TP391.4" " " " " " " " " "文獻標(biāo)識碼: A" " " " " " " " 文章編號: 1004?373X(2024)23?0001?07

    Study on gaze estimation based on multi?angle eye imaging

    characteristics for VR environment

    NIU Rui, FANG Fengzhou, REN Zhonghe, HOU Gaofeng, LI Zihao

    (State Key Laboratory of Precision Measuring Technology and Instruments, Laboratory of Micro/Nano Manufacturing Technology,

    Tianjin University, Tianjin 300072, China)

    Abstract: In immersive virtual reality (VR) scenes, accurate gaze point rendering based on advanced gaze estimation technology can optimize computational resource allocation efficiency and alleviate possible dizziness during user experience. Currently, the available VR gaze estimation datasets only have eye images from a single observation angle, and lack eye image datasets from different observation angles. In this paper, a gaze estimation dataset containing 23 040 eye images with multiple observation angles and a pupil detection dataset including 15 824 pupil annotation images with multiple observation angles are constructed, and a multi?branch network model combining features of eye images with multiple observation angles compensating for each other is proposed. The samples of the gaze estimation dataset are used in the training process of the model and the predicted Euclidean distance loss can reach 7.68 pixels. Furthermore, the weight map containing pupil position information is fused with the image. The fusion and input of pupil position information enhances the performance of the model, and the Euclidean distance loss is reduced to 7.45 pixels. This study demonstrates that the developed model can improve the accuracy of gaze estimation in VR environments, so as to promote the widespread application of gaze estimation technology in VR products.

    Keywords: gaze estimation; virtual reality; convolutional neural network; multi?branch network; feature fusion; pupil detection

    0" 引" 言

    VR技術(shù)是一種能夠創(chuàng)造三維虛擬世界的計算機仿真技術(shù),利用輔助硬件設(shè)備和軟件系統(tǒng),生成一個高度沉浸的虛擬環(huán)境,為用戶帶來多種感官體驗。然而,要實現(xiàn)真正意義上的沉浸自然交互,VR技術(shù)仍面臨若干挑戰(zhàn),其中計算資源分配與用戶體驗中的眩暈問題尤為突出。

    在VR應(yīng)用中,計算資源的有效分配是VR設(shè)備流暢運行的基礎(chǔ)。高質(zhì)量的交互體驗依賴于實時的高分辨率圖像渲染,這對計算能力提出了極高的要求[1]。同時,用戶在長時間使用VR設(shè)備后常會遭遇“虛擬現(xiàn)實眩暈”現(xiàn)象,視覺和前庭感覺在描述運動狀態(tài)時的不一致成為暈動病的催化劑[2]。眩暈感極大地降低了VR交互的舒適度,成為制約VR技術(shù)發(fā)展的重要障礙。

    為應(yīng)對上述挑戰(zhàn),研究人員引入了注視點渲染技術(shù),該技術(shù)能夠在減少總體計算工作量的同時,確保感知層面的高水平圖像質(zhì)量,有效分配計算資源并減少眩暈感。通過用戶的實際注視點動態(tài)調(diào)整圖像的渲染質(zhì)量,確保用戶主要注視區(qū)域的畫面保真度最高,而邊緣區(qū)域則適當(dāng)降低渲染精度,以此高效利用計算資源并減輕因視覺與運動感知不匹配導(dǎo)致的不適感。

    實現(xiàn)注視點渲染的關(guān)鍵在于精確且實時地估計用戶的注視位置。注視估計技術(shù)可以通過記錄眼睛注視特定位置時的相關(guān)物理參數(shù)來測量和估計注視區(qū)域。該技術(shù)已在VR [3?5]領(lǐng)域得到廣泛應(yīng)用,有助于增強人們對吸引注意力的事物的理解。此外,先進的注視估計對現(xiàn)代工業(yè)的發(fā)展也起到了促進作用[6?7]。注視估計方法一般分為基于二維映射的方法、基于三維模型的方法和基于外觀的方法。通過采用注視估計技術(shù),針對人眼注視區(qū)域分配更高的渲染分辨率,同時減少外圍非注視區(qū)域的視覺復(fù)雜度,能有效提升VR設(shè)備的資源利用效率。

    文獻[8]開發(fā)了一種頭戴式設(shè)備來估計用戶視覺平面上的注視點,進一步開發(fā)了3D眼睛模型,可以從眼睛圖像中有效定位眼睛注視點,所提出系統(tǒng)的平均準確率、查準率和召回率均可以達到97%以上。文獻[9]提出了一種應(yīng)用于VR環(huán)境的輕量級的基于神經(jīng)網(wǎng)絡(luò)的方法,僅利用過去的凝視數(shù)據(jù)來預(yù)測未來的凝視位置,在采用OpenNEEDs這一標(biāo)準數(shù)據(jù)集進行嚴格評估時,相較于已有基線模型提高了3%~22%。

    本文研究的目標(biāo)在于通過VR環(huán)境中多觀測角度的眼睛圖像全面分析眼睛特征,進一步開發(fā)注視估計模型。該模型旨在融合來自不同觀測角度的眼睛圖像信息,利用深度學(xué)習(xí)算法實現(xiàn)對用戶注視點的高精度預(yù)測。目前公開的大型數(shù)據(jù)集主要為單個觀測角度的眼睛圖像數(shù)據(jù),僅基于單一觀測角度的眼睛圖像進行注視估計,對于眼睛特征信息的捕捉不夠全面?;谝陨蠁栴},本文構(gòu)建了一個多觀測角度注視估計(MAG)數(shù)據(jù)集和一個多觀測角度瞳孔檢測(MAP)數(shù)據(jù)集,包括高低兩個觀測角度的眼睛圖像。本文進一步提出了一種結(jié)合多個觀測角度眼睛圖像的注視估計模型,并融合權(quán)重地圖,引導(dǎo)模型聚焦于關(guān)鍵區(qū)域的信息,進一步提高注視估計精度。

    1" 多觀測角度眼睛圖像采集

    本文提出了一種采集多觀測角度眼睛圖像數(shù)據(jù)的圖像采集裝置。通過該裝置,可以同時捕獲左眼和右眼的高低角度的四種圖像。圖像采集裝置包括兩個紅外雙目攝像頭、紅外光源、頭部承托裝置、標(biāo)定屏和采集圖像數(shù)據(jù)的計算機。

    對于紅外光源的選擇,本文采用波長為940 nm的3×3紅外LED陣列來提供環(huán)境照明。如圖1所示,兩個雙目紅外相機位于受試者眼睛的上下兩側(cè),標(biāo)定屏幕位于受試者的對側(cè),頭部承托裝置幫助受試者固定頭部位置,紅外光源安裝在低角度紅外雙目攝像機的中部,標(biāo)定屏幕用于顯示標(biāo)定點。在圖像采集裝置中,采集相機由兩個垂直放置并通過光學(xué)平臺固定的雙目紅外相機組成。雙目相機的分辨率為1 280×480,將雙目相機的圖像分為相同尺寸的左右相機圖像,每張圖像分辨率為640×480。

    每個受試者需要依次注視36個標(biāo)定點,每個點之間[x]方向的間隔為250像素,[y]方向的間隔為150像素。每個注視點的半徑為10個像素單位,實際測量約為0.25 cm。本次實驗的受試者共12人,其中部分受試者采集了多組數(shù)據(jù),實驗共采集16組數(shù)據(jù)。每組數(shù)據(jù)包括左右眼睛的高低觀測角度的圖像與對應(yīng)的注視點二維坐標(biāo)。

    MAG數(shù)據(jù)集是通過將不同角度的眼睛圖像與受試者注視校準點時的校準點坐標(biāo)相關(guān)聯(lián)來創(chuàng)建的。樣本數(shù)量為23 040張,標(biāo)簽為[2D(x,y)]格式的標(biāo)定點坐標(biāo)。

    本文進一步提供了一個帶有瞳孔區(qū)域標(biāo)注的MAP數(shù)據(jù)集,數(shù)據(jù)集包含15 824張多觀測角度眼睛圖像,覆蓋了高低兩個觀測角度的左右眼睛圖像,并且使用labelme對每張圖像中的瞳孔區(qū)域進行了標(biāo)注。

    2" 多觀測角度注視估計模型

    2.1" 卷積神經(jīng)網(wǎng)絡(luò)

    在深度學(xué)習(xí)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(CNN)以其獨特的結(jié)構(gòu)和高效的特征提取能力成為圖像識別、目標(biāo)檢測等任務(wù)的首選模型之一。CNN的基本操作是對圖像的局部區(qū)域進行卷積提取,建立一個窗口在輸入圖像上滑動,計算輸入圖像與卷積核的點積和,在每層的卷積操作中使用相同的卷積核來減少參數(shù)的數(shù)量,并結(jié)合池化操作基于局部區(qū)域特征來實現(xiàn)位移不變性。

    然而,由于內(nèi)存空間和運算能力的限制,神經(jīng)網(wǎng)絡(luò)模型在嵌入式設(shè)備上的運行仍然是一個巨大的挑戰(zhàn)。在模型部署上,本文采用輕量化卷積神經(jīng)網(wǎng)絡(luò)作為特征提取主干網(wǎng)絡(luò)。輕量化卷積神經(jīng)網(wǎng)絡(luò)的主要思想在于設(shè)計更加高效的模型,可以在資源受限的環(huán)境下實現(xiàn)足夠的性能,即通過人工設(shè)計神經(jīng)網(wǎng)絡(luò)架構(gòu)、模型壓縮、特征圖重用等技術(shù)將網(wǎng)絡(luò)參數(shù)減少,并且不損失網(wǎng)絡(luò)的性能。常用的輕量化卷積網(wǎng)絡(luò)包括SqueezeNet、ShuffleNet、MobileNet系列等。

    經(jīng)過實際測試與調(diào)研,本文起始階段選用ShuffleNetV2[10]作為注視估計模型的特征提取網(wǎng)絡(luò)。為進一步探索不同網(wǎng)絡(luò)架構(gòu)對此任務(wù)的適用性與效能,后續(xù)實驗中將ShuffleNetV2替換為SqueezeNet、ResNet以及MobileNetV2等其他高效神經(jīng)網(wǎng)絡(luò)模型,通過對比分析與評估,選出在注視估計任務(wù)中表現(xiàn)最優(yōu)的特征提取網(wǎng)絡(luò)。

    2.2" 模型構(gòu)造

    由于觀測角度的不同,眼睛圖像的特征分布也會有很大的區(qū)別,現(xiàn)有的方法對于不同觀測角度的圖像特征沒有充分地研究。針對于不同觀測角度圖像信息對于模型預(yù)測的影響,本文提出了高觀測角度注視估計(HAGE)模型、低觀測角度注視估計(LAGE)模型,并在此基礎(chǔ)上,融合兩個觀測角度眼睛圖像特征提出了多觀測角度注視估計(MAGE)模型。HAGE模型和LAGE模型均為雙分支網(wǎng)絡(luò),不同的是,HAGE模型的輸入層接收的是高觀測角度眼睛圖像,而LAGE模型的輸入層接收的是低觀測角度眼睛圖像;MAGE模型為4個分支的多分支網(wǎng)絡(luò),通過融合不同觀測角度的眼睛圖像特征,MAGE模型可以接收到更加豐富的眼睛特征信息,顯著增強了模型的魯棒性與準確性。三個模型均選用ShuffleNetV2 0.5×作為特征提取的主干網(wǎng)絡(luò)。

    1) 如圖2所示,HAGE模型的結(jié)構(gòu)為輸入層接收高觀測角度的左眼和右眼圖像,圖像分別輸入兩個獨立的ShuffleNetV2 結(jié)構(gòu)的分支網(wǎng)絡(luò),并且通過兩個分支網(wǎng)絡(luò)得到高觀測角度的左眼圖像特征[Fhl]和高觀測角度的右眼圖像特征[Fhr]。通過全連接層將兩張?zhí)卣鲌D降維輸出,在特征維度上進行拼接來融合兩個不同的特征,得到高觀測角度的眼睛總特征[Fh],輸入全連接層得到預(yù)測注視點坐標(biāo)。

    2) LAGE模型的結(jié)構(gòu)與HAGE模型的結(jié)構(gòu)相似,不同的是輸入層接收的圖像為低觀測角度的左眼和右眼圖像數(shù)據(jù)。將得到的低觀測角度的眼睛總特征輸入全連接層,經(jīng)過與HAGE模型相同的操作,得到輸出的注視點二維預(yù)測坐標(biāo)。相比于細節(jié)更加明顯的高觀測角度的眼睛圖像,低觀測角度的眼睛圖像沒有睫毛遮擋的問題,因此兩個觀測角度的眼睛圖像的訓(xùn)練結(jié)果往往不同。

    3) MAGE模型的結(jié)構(gòu)為4個分支的多分支網(wǎng)絡(luò)模型,輸入層接收的圖像為高、低兩個觀測角度的左眼和右眼圖像數(shù)據(jù)。在MAGE模型中4個分支保持獨立,采用晚期融合的方式先融合相同觀測角度提取的眼睛特征。如圖3所示,提取高觀測角度眼睛圖像特征的2個分支在得到高觀測角度的眼睛特征[Fhl]、[Fhr]后,將兩個特征降維,減少融合的特征參數(shù)量。通過拼接的特征融合方式得到高觀測角度的眼睛總特征[Fh]。通過相同方式,提取低觀測角度眼睛圖像特征的2個分支在經(jīng)過降維融合后得到低觀測角度的眼睛總特征[Fl]。將高觀測角度的眼睛總特征[Fh]與低觀測角度的眼睛總特征[Fl]進行拼接,得到眼睛總特征[Fall]。將眼睛總特征[Fall]輸入全連接層,得到輸出的注視點二維預(yù)測坐標(biāo)。

    2.3" 模型訓(xùn)練

    2.3.1" 數(shù)據(jù)預(yù)處理

    由于紅外光源和觀測角度的影響,不同組的圖像特征差異較大。低觀測角度由于紅外攝像頭更靠近紅外光源,導(dǎo)致低觀測角度所捕獲圖像的灰度值普遍較高,而高觀測角度的紅外攝像頭距離紅外光源較遠,所拍攝到的圖像灰度值較低。同時,由于觀測角度不同,低觀測角度的眼睛圖像中,面部區(qū)域和眼睛區(qū)域的占比相比于高觀測角度的眼睛圖像數(shù)據(jù)更高。因此,本文針對收集到的四種眼睛圖像數(shù)據(jù),采取分組歸一化與標(biāo)準化的方法進行預(yù)處理。

    在預(yù)處理時,通常使用均值(mean)和標(biāo)準差(std)對圖像按通道進行標(biāo)準化,即圖像的每個像素值減去均值,再除以標(biāo)準差。將圖像像素值標(biāo)準化為均值為0、標(biāo)準差為1的值,有助于提高訓(xùn)練模型的效果,加快模型的收斂速度。

    其中,參數(shù)均值和標(biāo)準差分別表示圖像每個通道的均值和標(biāo)準差序列,計算公式如式(1)、式(2)所示:

    [mean=1Ni=1Nxi] (1)

    [std=1Ni=1Nxi-mean2] (2)

    2.3.2" 實驗結(jié)果分析

    本文使用Adam優(yōu)化器和余弦退火策略的組合進行訓(xùn)練。對于優(yōu)化器,本文選擇Adam[11]優(yōu)化器,它通過維持模型梯度的一階動量和二階動量以及梯度的平方來調(diào)整模型的參數(shù)。Adam優(yōu)化器可以自適應(yīng)調(diào)整學(xué)習(xí)率,但結(jié)果與調(diào)整超參數(shù)的效果有關(guān)。實際測試中,單獨使用Adam優(yōu)化器的效果很差,學(xué)習(xí)率更新不及時。因此,本文采用Adam作為優(yōu)化器,并且將余弦退火算法[12]作為調(diào)度器。設(shè)置相同的[Tmax]與epoch可以使學(xué)習(xí)率在中前期保持在較高的水平,保證模型收斂的速度,同時在后期再逐漸降低,使得模型的搜索更加細致,避免陷入局部最優(yōu)解問題。

    本文的訓(xùn)練參數(shù)設(shè)置:學(xué)習(xí)率為0.001,[Tmax]為50,batch size為16。所有訓(xùn)練和測試實驗均在單個GeForce RTX 3090 GPU、Ubuntu 20.04系統(tǒng)和PyTorch 1.12.0平臺上進行。

    當(dāng)前主流的評價注視估計效果主要有兩種方式:一種是計算注視角度的誤差來量化估計;另一種是計算預(yù)測點與真實注視點之間的歐氏距離來評價。如在GazeCapture[13]數(shù)據(jù)集中,在屏幕上建立多個注視點,并將其在屏幕上的二維坐標(biāo)作為標(biāo)注,使用歐氏距離(ED)來評價注視估計效果。本文使用歐氏距離作為損失函數(shù)和評價指標(biāo)。

    在數(shù)學(xué)中,歐幾里得距離或歐幾里得度量指在歐幾里得空間中,兩個點之間的直線距離。使用這個距離,歐氏空間成為度量空間。在二維平面上,兩點[P1x1,y1]、[P2x2,y2]之間的歐氏距離可以通過式(3)計算:

    [ED=x2-x12+y2-y12] (3)

    用MAG數(shù)據(jù)集測試三個模型,采用注視估計真實注視點與預(yù)測注視點的歐氏距離ED作為每個模型的loss指標(biāo)。實驗過程中采用隨機分割以保證其可靠性。每個實驗組的訓(xùn)練與驗證樣本比例設(shè)置為4∶1,對實驗結(jié)果進行分析,比較三種模型的性能。

    如圖4a)所示,MAGE模型開始訓(xùn)練時的初始損失比HAGE模型和LAGE模型更低,與其他兩個模型相比,MAGE模型收斂速度更快,其訓(xùn)練損失可以迅速減少到較低的水平。相比于HAGE模型和LAGE模型,MAGE模型的損失曲線更加平滑,魯棒性較高。HAGE模型的訓(xùn)練損失最低達到8.357 0像素,而LAGE模型的訓(xùn)練損失最低可以達到7.147 5像素,MAGE模型的訓(xùn)練損失最低,最低可以達到5.805 0像素。

    在模型訓(xùn)練過程中,每完成兩個epoch的學(xué)習(xí),就會進行一次驗證,以評估模型的表現(xiàn)。如圖4b)所示,HAGE模型和LAGE模型在驗證時的曲線震蕩幅度較大,而MAGE模型損失曲線較為平滑。HAGE模型的驗證損失最小為11.101 0像素,LAGE模型的驗證損失最小為9.696 4像素,MAGE模型的驗證損失最小為7.677 0像素,與訓(xùn)練損失的差距最小。與HAGE模型和LAGE模型相比,MAGE模型在整個訓(xùn)練過程中都保持了較低的驗證損失,表明采用多觀測角度的眼睛圖像特征對于提高注視預(yù)測精度,以及提升模型魯棒性展現(xiàn)出了顯著的正面效應(yīng)。

    如表1所示,對MAGE模型的眼睛特征提取網(wǎng)絡(luò)進行測試,使用SqueezeNet、MobileNetV2、ResNet、ShuffleNetV2四種網(wǎng)絡(luò)進行對比。發(fā)現(xiàn)使用ShuffleNetV2作為眼睛特征提取網(wǎng)絡(luò)相比于使用其他網(wǎng)絡(luò)模型,實時性以及參數(shù)量等方面的綜合性能最佳,同時模型的歐氏距離誤差為7.68像素,精度最高。在實時性表現(xiàn)上,該模型部署于GeForce RTX 3060 GPU平臺上,實現(xiàn)了34.38 f/s的推理速度,表明其具有良好的實時處理能力。

    3" 結(jié)合瞳孔位置信息的注視估計模型

    3.1" 瞳孔檢測

    在MAGE模型取得不錯的效果后,本文做出了進一步的引申。在原有的多觀測角度眼睛圖像基礎(chǔ)上,本文進一步增加了一個瞳孔區(qū)域提取模塊。將眼睛圖像輸入瞳孔區(qū)域提取模塊,得到一個瞳孔區(qū)域的mask,通過權(quán)重地圖融合策略,將mask與眼睛原始圖像進行融合,豐富模型的輸入特征信息,進一步總結(jié)設(shè)計出了多信息注視估計模型(MIGE)。通過將瞳孔區(qū)域位置信息與眼睛圖像特征信息融合,可以增強模型的有效特征捕捉能力,提高模型的預(yù)測性能。

    3.1.1" 目標(biāo)檢測算法

    傳統(tǒng)的目標(biāo)檢測方法需要大量人工標(biāo)注,并且復(fù)雜度高,容易產(chǎn)生大量無用標(biāo)注。研究人員通常使用深度學(xué)習(xí)的方法進行目標(biāo)檢測,通過大量數(shù)據(jù)的訓(xùn)練以及模型參數(shù)設(shè)計,深度學(xué)習(xí)模型往往可以達到很高精度的檢測效果。常用的用于實時目標(biāo)檢測的深度學(xué)習(xí)算法有YOLO、SSD、R?CNN、Faster R?CNN等。其中,R?CNN、Faster R?CNN模型通過兩個步驟實現(xiàn)樣本分類。即先由算法生成一系列樣本的感興趣區(qū)域,再通過卷積神經(jīng)網(wǎng)絡(luò)進行樣本分類。而YOLO與SSD則不用產(chǎn)生候選框,直接輸出物體的分類概率和坐標(biāo)值,在處理圖像的同時預(yù)測邊界框和樣本分類。兩種方法的區(qū)別在于,通過兩個步驟實現(xiàn)樣本分類的準確度較高,而直接進行分類的方法模型運行速度更快。SSD相比于YOLO需要在多個不同尺度特征圖上進行預(yù)測,在實時性上稍有不足。結(jié)合本文的使用場景,對于實時性要求較高,因此選用YOLO算法用于本文的目標(biāo)檢測任務(wù)。

    3.1.2" 模塊訓(xùn)練

    在本文的研究工作中,選取最新的YOLOv8 Nano[14]目標(biāo)檢測模型作為瞳孔檢測任務(wù)的主干網(wǎng)絡(luò)。本文將MAP數(shù)據(jù)集劃分為訓(xùn)練集和驗證集,由于MAP數(shù)據(jù)集的每個角度的左右眼睛圖像的特征不會有很大變化,樣本間的差異較小,并且MAP數(shù)據(jù)集的樣本數(shù)量較大,選取小比例的驗證集也可以很好地反映訓(xùn)練效果。因此將訓(xùn)練集和驗證集的比例設(shè)置為9∶1。經(jīng)過100次epoch訓(xùn)練后,YOLOv8 Nano模型在驗證集的分類精確率可以達到1.0。取最佳驗證模型結(jié)果,mAP@0.5可以達到0.995,mAP@0.5:0.95可以達到0.811。模型在IoU閾值為0.5時,精度可以達到0.995,識別能力較為出色,對于目標(biāo)的檢測能力較強。模型在更嚴格的IoU閾值上的平均精度為0.811,體現(xiàn)出模型在定位任務(wù)上也有較好的準確性。

    利用YOLOv8 Nano檢測模塊可以很好地檢測出瞳孔區(qū)域,并且對于瞳孔區(qū)域的邊界定位也有較好的準確性,為下一步瞳孔區(qū)域信息的融合提供了精確的瞳孔定位基礎(chǔ)。

    3.2" 權(quán)重地圖加權(quán)

    在權(quán)重地圖加權(quán)中,首先從瞳孔檢測模型中獲得瞳孔的檢測識別結(jié)果,將瞳孔區(qū)域設(shè)置為1,背景區(qū)域設(shè)置為0,制作分辨瞳孔的mask;然后,對這個mask進行處理,生成包含兩種權(quán)重系數(shù)的權(quán)重地圖。其中,高權(quán)重系數(shù)用于指示瞳孔區(qū)域,低權(quán)重系數(shù)用于指示背景區(qū)域。

    在實際實驗中,通過對不同像素位置的權(quán)重進行精細調(diào)整,本文采用了三種權(quán)重對比:背景區(qū)域權(quán)重為0.3,瞳孔區(qū)域權(quán)重為1;背景區(qū)域權(quán)重為0.4,瞳孔區(qū)域權(quán)重為1;背景區(qū)域權(quán)重為0.5,瞳孔區(qū)域權(quán)重為1。

    如圖5所示,為三種權(quán)重對比在原圖像上的實際效果圖。

    如圖6所示,將生成的權(quán)重地圖的權(quán)重分布與眼睛圖像進行元素相乘,得到帶有區(qū)域權(quán)重的眼睛圖像。這樣做可以抑制圖像的非瞳孔區(qū)域,從而突出眼睛圖像區(qū)域的分布特征。在這個過程中,瞳孔區(qū)域的像素保持不變,以便模型更加關(guān)注目標(biāo)區(qū)域。而背景區(qū)域的像素則沒有被mask直接遮擋,而是乘以一個較低的權(quán)重系數(shù),以便在保留圖像的整體結(jié)構(gòu)和信息的同時,減弱背景的影響。之后將得到的特征信息輸入眼睛特征提取網(wǎng)絡(luò),進一步融合多觀測角度眼睛特征,最后輸出得到預(yù)測注視坐標(biāo)。

    3.3" 模型對比

    如圖7所示,實驗分為三組采用了三種權(quán)重對比。每組的批量大小和學(xué)習(xí)率設(shè)置相同,訓(xùn)練與驗證樣本比均設(shè)置為4∶1。將三種權(quán)重地圖與眼睛圖像進行元素相乘,得到帶有瞳孔區(qū)域權(quán)重的眼睛圖像。

    對實驗結(jié)果進行分析,比較接收三種權(quán)重地圖的結(jié)果差異。三種權(quán)重設(shè)置的模型的訓(xùn)練曲線基本保持相同,訓(xùn)練曲線較為平緩。背景區(qū)域權(quán)重設(shè)置為0.3的模型的訓(xùn)練損失最低達到6.651 4像素;背景區(qū)域權(quán)重設(shè)置為0.5的模型的訓(xùn)練損失最低可以達到6.301 8像素;背景區(qū)域權(quán)重設(shè)置為0.4的模型的訓(xùn)練損失最低,最低可以達到5.428 7像素。

    通過圖7b)可以看到:背景區(qū)域權(quán)重設(shè)置為0.3和0.5的模型的驗證曲線在前期訓(xùn)練階段波動較為明顯;背景區(qū)域權(quán)重設(shè)置為0.4的模型的驗證曲線一直保持在較為平緩的狀態(tài)。背景區(qū)域權(quán)重設(shè)置為0.3的模型的驗證損失最小為8.178 4像素;背景區(qū)域權(quán)重設(shè)置為0.5的模型的驗證損失最小為8.480 9像素;背景區(qū)域權(quán)重設(shè)置為0.4的模型的驗證損失最小為7.448 9像素,與訓(xùn)練損失的差距最小。通過對比發(fā)現(xiàn),將背景區(qū)域權(quán)重設(shè)置為0.4,瞳孔區(qū)域權(quán)重設(shè)置為1時,模型可以學(xué)習(xí)到結(jié)合瞳孔區(qū)域的有效特征,同時對于背景區(qū)域的有效特征信息也可以做到很好的捕捉,不會過度抑制背景區(qū)域的有效特征,此時模型的效果最好。

    4" 結(jié)" 語

    本文研究了VR環(huán)境下的注視估計技術(shù),提出了一種結(jié)合多觀測角度眼睛圖像信息的注視估計方法,構(gòu)建了MAG數(shù)據(jù)集和MAP數(shù)據(jù)集,用于提供模擬VR環(huán)境下的多觀測角度眼睛圖像數(shù)據(jù)。本文進一步開發(fā)了多分支模型MAGE來提取不同角度的眼睛特征,模型歐氏距離誤差可以達到7.68像素,當(dāng)模型部署在GeForce RTX 3060 GPU上時,其推理性能達到了34.38 f/s。與單觀測角度注視估計相比,多觀測角度注視估計可以捕獲更多的有效信息。

    本文結(jié)合瞳孔位置信息,提出了MIGE模型,使用YOLOv8 Nano算法在MAP數(shù)據(jù)集上訓(xùn)練封裝一個瞳孔檢測模塊。

    采用瞳孔檢測模塊來制作包含瞳孔區(qū)域信息的mask,通過權(quán)重地圖融合策略,將融合信息輸入MIGE模型進行訓(xùn)練,模型的預(yù)測效果進一步提升,在驗證集上的歐氏距離誤差從7.68像素降低到7.45像素。

    注:本文通訊作者為房豐洲。

    參考文獻

    [1] JABBIREDDY S, SUN X, MENG X, et al. Foveated rendering: Motivation, taxonomy, and research directions [EB/OL]. [2022?05?09]. https://arxiv.org/abs/2205.04529v1.

    [2] AHARONI M M H, LUBETZKY A V, WANG Z, et al. A virtual reality four?square step test for quantifying dynamic balance performance in people with persistent postural perceptual dizziness [C]// 2019 International Conference on Virtual Rehabilitation (ICVR). New York: IEEE, 2019: 1?6.

    [3] CHEN D L, GIORDANO M, BENKO H, et al. GazeRayCursor: Facilitating virtual reality target selection by blending gaze and controller raycasting [C]// Proceedings of the 29th ACM Symposium on Virtual Reality Software and Technology. New York: ACM, 2023: 1?11.

    [4] GIUNCHI D, BOVO R, BHATIA N, et al. Fovea prediction model in VR [C]// 2024 IEEE Conference on Virtual Reality and 3D User Interface Abstracts and Workshops. New York: IEEE, 2024: 867?868.

    [5] SATRIAWAN A, HERMAWAN A A, LUCKYARNO Y F, et al. Predicting future eye gaze using inertial sensors [J]. IEEE access, 2023, 11: 67482?67497.

    [6] FANG F Z. On the three paradigms of manufacturing advancement [J]. Nanomanufacturing and metrology, 2023, 6(1): 35.

    [7] MA Q Y, YU H Y. Artificial intelligence?enabled mode?locked fiber laser: A review [J]. Nanomanufacturing and metrology, 2023, 6(1): 36.

    [8] LEE K F, CHEN Y L, YU C W, et al. Gaze tracking and point estimation using low?cost head?mounted devices [J]. Sensors, 2020, 20(7): 1917.

    [9] ILLAHI G K, SIEKKINEN M, K?M?R?INEN T, et al. Real?time gaze prediction in virtual reality [C]// Proceedings of the 14th International Workshop on Immersive Mixed and Virtual Environment Systems. New York: ACM, 2022: 12?18.

    [10] MA N, ZHANG X, ZHENG H T, et al. ShuffleNet V2: Practical guidelines for efficient CNN architecture design [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 122?138.

    [11] REDDI S J, KALE S, KUMAR S. On the convergence of adam and beyond [EB/OL]. [2019?04?26]. http://arxiv.org/abs/1904.09237.

    [12] CAZENAVE T, SENTUC J, VIDEAU M. Cosine annealing, mixnet and swish activation for computer Go [C]// 17th International Conference on Advances in Computer Games. Heidelberg: Springer, 2021: 53?60.

    [13] KRAFKA K, KHOSLA A, KELLNHOFER P, et al. Eye tracking for everyone [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 2176?2184.

    [14] HUSSAIN M. YOLO?v1 to YOLO?v8, the rise of YOLO and its complementary nature toward digital manufacturing and industrial defect detection [J]. Machines, 2023, 11(7): 677.

    作者簡介:牛" 銳(1999—),男,河南安陽人,在讀碩士研究生,研究方向為注視估計、圖像處理。

    房豐洲(1963—),男,博士研究生,博士生導(dǎo)師,研究方向為超精密制造、微納制造、光學(xué)設(shè)計制造與檢測。

    任仲賀(1993—),男,山東濟寧人,在讀博士研究生,研究方向為視線追蹤、機器視覺。

    侯高峰(1994—),男,河北保定人,在讀博士研究生,研究方向為醫(yī)學(xué)圖像處理、深度學(xué)習(xí)。

    李子豪(1998—),男,河北滄州人,在讀博士研究生,研究方向為工業(yè)領(lǐng)域的目標(biāo)識別和機器視覺。

    猜你喜歡
    特征融合卷積神經(jīng)網(wǎng)絡(luò)虛擬現(xiàn)實
    基于移動端的樹木葉片識別方法的研究
    科技資訊(2017年11期)2017-06-09 18:28:13
    基于SIFT特征的港口內(nèi)艦船檢測方法
    融合整體與局部特征的車輛型號識別方法
    風(fēng)口上的虛擬現(xiàn)實
    商周刊(2017年24期)2017-02-02 01:42:55
    基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
    虛擬現(xiàn)實技術(shù)向科幻小說借靈感
    海外星云(2016年7期)2016-12-01 04:18:00
    深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
    基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
    軟件工程(2016年8期)2016-10-25 15:47:34
    基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究
    基于MATLAB的道路交通標(biāo)志識別
    县级市| 金堂县| 公主岭市| 大渡口区| 滦南县| 凉山| 乡宁县| 兴化市| 治县。| 湖南省| 宁陕县| 禹城市| 宁乡县| 修武县| 钟山县| 苍山县| 东乡族自治县| 五大连池市| 大兴区| 长白| 岚皋县| 黄石市| 香港 | 长治县| 将乐县| 高阳县| 镇雄县| 琼中| 嘉兴市| 舒兰市| 全州县| 会同县| 乌兰浩特市| 锦州市| 玛多县| 卫辉市| 鹿泉市| 老河口市| 贡觉县| 桃园市| 左权县|