• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)YOLO-v3的眼機(jī)交互模型研究及實(shí)現(xiàn)

      2021-02-24 02:20:18陳亞晨白雪劍陳友華趙俊奇
      科學(xué)技術(shù)與工程 2021年3期
      關(guān)鍵詞:人眼準(zhǔn)確率聚類

      陳亞晨, 韓 偉, 白雪劍, 陳友華,3*, 趙俊奇, 閻 潔

      (1.中北大學(xué)信息與通信工程學(xué)院, 太原 030051; 2.山西省視光學(xué)生物診療設(shè)備工程研究中心, 太原 030051;3.生物醫(yī)學(xué)成像與影像大數(shù)據(jù)山西省重點(diǎn)實(shí)驗(yàn)室, 太原 030051)

      隨著計(jì)算機(jī)、人工智能的發(fā)展,人機(jī)交互(human-computer interaction, HCI)技術(shù)在軍事、工業(yè)等領(lǐng)域應(yīng)用愈加廣泛[1]。人機(jī)交互的方式從打字、觸屏、語音到視覺,交互方式的發(fā)展給人們的操作帶來了便利,其中,視覺是獲取信息、感知外部世界最重要的途徑之一,這種交互方式具有直接性、自然性與雙向性的特點(diǎn)[2],可以在特定場合中解放雙手。因此,基于眼動信息的人機(jī)交互成為近些年人機(jī)交互領(lǐng)域的研究熱點(diǎn)。按硬件結(jié)構(gòu)不同,可以將眼機(jī)交互系統(tǒng)分為桌面式和穿戴式兩類[3]。桌面式眼機(jī)交互系統(tǒng)對頭部轉(zhuǎn)動較為敏感,輕微的偏移都會導(dǎo)致系統(tǒng)精度顯著下降,需要復(fù)雜的補(bǔ)償算法進(jìn)行頭動修正;穿戴式眼機(jī)交互系統(tǒng)[4]具有便攜性,系統(tǒng)與頭部相對位置固定,允許頭部自由運(yùn)動,降低了對用戶的約束,更適合室外等環(huán)境。隨著應(yīng)用場景的不斷變化及嵌入式技術(shù)的發(fā)展,智能化、嵌入式、可穿戴的眼機(jī)交互系統(tǒng)在實(shí)際應(yīng)用領(lǐng)域受到越來越多研究者關(guān)注。

      在眼機(jī)交互技術(shù)中,人眼定位精度對眼行為識別的結(jié)果有顯著的影響。傳統(tǒng)的人眼定位的方法有基于幾何特征、基于模板匹配、基于Hough變換等。文獻(xiàn)[5]提出了一種基于改進(jìn)Hough變換的人眼定位方法,其定位精度達(dá)到92.5%,平均耗時為178.8 ms;文獻(xiàn)[6]提出了一種基于積分投影和模板匹配的人眼定位方法,其定位平均精度達(dá)95%,平均耗時55.78 ms;文獻(xiàn)[7]提出了一種灰度積分投影和圓形標(biāo)記法結(jié)合的人眼定位方法,其定位精度達(dá)90%,平均耗時4.05 s。以上方法在準(zhǔn)確率方面取得了較好的結(jié)果,但要滿足穿戴式眼行為的實(shí)時識別要求,定位速度和準(zhǔn)確率都需要進(jìn)一步提高。除此之外,傳統(tǒng)的人眼定位方法描述特征過程十分煩瑣,很難挖掘更深維度的圖像信息,導(dǎo)致傳統(tǒng)的人眼定位方法泛化性差,很難達(dá)到實(shí)時檢測的目的。

      隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)已經(jīng)具有較強(qiáng)的魯棒性,能夠較強(qiáng)地學(xué)習(xí)圖像的深層特征。文獻(xiàn)[8]中,將R-CNN算法應(yīng)用于人臉的檢測,該算法的網(wǎng)絡(luò)復(fù)雜度過高,即使使用運(yùn)算速度較高的GPU也仍然運(yùn)行緩慢;而以YOLO-v2、YOLO-v3為代表的YOLO(you only look once)[9]系列的算法,它是通過回歸預(yù)測目標(biāo)區(qū)域。該算法解決了網(wǎng)絡(luò)復(fù)雜度過高的問題。其中,YOLO-v3是在YOLO-v2[10]的基礎(chǔ)上提出的,是目前較為優(yōu)秀的目標(biāo)檢測算法,在檢測實(shí)時性方面表現(xiàn)突出。YOLO-v2已經(jīng)成功應(yīng)用于行人檢測[11]、皮膚診斷[12]等領(lǐng)域,作為YOLO-v2的改進(jìn)版,YOLO-v3的檢測速度更快、檢測精度更高。

      現(xiàn)通過對YOLO-v3網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),并采用K-means聚類算法計(jì)算該模型的初始先驗(yàn)框參數(shù),提高模型的特征提取細(xì)粒度,以及模型檢測的速度,再結(jié)合人眼特征參數(shù)提取方法和眼行為識別算法構(gòu)建了眼機(jī)交互模型并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。

      1 眼機(jī)交互模型

      由于穿戴式眼機(jī)交互系統(tǒng)需要具備實(shí)時性、高效等特點(diǎn),現(xiàn)提出一種基于改進(jìn)YOLO-v3的眼機(jī)交互模型,實(shí)現(xiàn)實(shí)時的眼行為識別。該方法的總體流程如圖1所示,其包括訓(xùn)練和檢測兩個模塊,檢測模塊包括人眼檢測和眼行為識別兩部分。其中,訓(xùn)練模塊是改進(jìn)的YOLO-v3網(wǎng)絡(luò)在自制數(shù)據(jù)集上的訓(xùn)練過程;檢測模塊是實(shí)現(xiàn)眼行為識別的過程。該模塊首先采用紅外攝像頭采集人眼區(qū)域圖像;之后將采集的圖像輸入到訓(xùn)練好的模型中進(jìn)行檢測,獲得人眼坐標(biāo)參數(shù)及人眼圖像;然后通過人眼特征參數(shù)提取獲得人眼的寬和高,最后計(jì)算人眼開合度并與相對應(yīng)的閾值進(jìn)行判別,從而實(shí)現(xiàn)眼行為的識別。

      圖1 模型總體流程圖Fig.1 Overall flow chart of the model

      1.1 改進(jìn)的YOLO-v3人眼檢測模型

      1.1.1 網(wǎng)絡(luò)結(jié)構(gòu)

      網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。其骨干模型框架使用由一系列3×3和1×1的卷積層組成的Darnet-53結(jié)構(gòu)。該網(wǎng)絡(luò)結(jié)構(gòu)劃分了大小為104×104、52×52、26×26的特征圖,刪減了大型尺度特征。其中包括20個殘差模塊,分別為4×、4×、4×、8×殘差塊的4組網(wǎng)絡(luò),與原YOLO-v3中1×,2×,8×,8×,4×殘差塊的5組網(wǎng)絡(luò)相比,增加了殘差連接結(jié)構(gòu)的數(shù)量,提升了深層網(wǎng)絡(luò)的細(xì)粒度,通過深層網(wǎng)絡(luò)通道向上采樣,豐富淺層的特征信息,提升人眼目標(biāo)檢測的精度。

      圖2 改進(jìn)YOLO-v3網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The improved network structure of YOLO-v3

      1.1.2 優(yōu)化初始先驗(yàn)框

      YOLO-v3在目標(biāo)檢測過程中引入初始先驗(yàn)框(anchor box),其性能優(yōu)劣直接影響到目標(biāo)框位置的精度。為了得到最優(yōu)的初始先驗(yàn)框參數(shù),采用K-means聚類算法在自制數(shù)據(jù)集上計(jì)算初始先驗(yàn)框。K-means 聚類算法是以距離作為數(shù)據(jù)對象間相似性度量的標(biāo)準(zhǔn), 從而實(shí)現(xiàn)數(shù)據(jù)劃分的聚類算法。其中,典型的是以歐式距離作為相似度測度。該算法首先在數(shù)據(jù)集中隨機(jī)選取k個聚類中心;之后遍歷數(shù)據(jù)集中所有數(shù)據(jù)與每個聚類中心點(diǎn)的距離,將每個數(shù)據(jù)分別劃分到距離最近的中心點(diǎn)所在的集合中[13];然后求每個聚類集合的所有數(shù)據(jù)各個維度[14],求得的值為新的聚類中心;重復(fù)上述過程直到聚類中心位置不再發(fā)生改變或者到達(dá)設(shè)定的迭代次數(shù)。

      而在YOLO-v3算法中,從數(shù)據(jù)集的標(biāo)注框中聚類出的初始候選框并不是使用歐式距離獲得,而是通過交并比(intersection over union,IOU)計(jì)算標(biāo)注框之間的距離,IOU越大代表標(biāo)注框之間的距離越小。計(jì)算公式為

      d(box,centroid)=1-IOU(box,centroid) (1)

      由K-means聚類算法得到平均IOU與錨點(diǎn)框(anchor)個數(shù)的關(guān)系,如圖3所示。

      圖3 平均交并比與錨點(diǎn)個數(shù)的關(guān)系Fig.3 The relationship between the average IOU and the number of anchor points

      由圖3可見,平均交并比隨錨點(diǎn)個數(shù)(k)增大而增大。在錨點(diǎn)框個數(shù)大于9之后,曲線增長趨勢相對平緩,考慮網(wǎng)絡(luò)的計(jì)算成本,將初始先驗(yàn)框個數(shù)設(shè)置為9。經(jīng)計(jì)算,初始候選框分別為(247,102)、(247,110)、(249,125)、(253,118)、(258,134)、(259,112)、(264,124)、(275,115)、(277,128)。

      1.1.3 模型訓(xùn)練

      1)訓(xùn)練環(huán)境配置及數(shù)據(jù)集制作

      本文模型訓(xùn)練環(huán)境配置如表1所示。制作數(shù)據(jù)集的具體步驟如下:①使用外接USB紅外攝像頭實(shí)時拍攝,獲得基礎(chǔ)圖象,共1 600張。②對其中采集的1 200張基礎(chǔ)圖象采用翻轉(zhuǎn)、縮放、亮度變換等方法進(jìn)行數(shù)據(jù)增強(qiáng)[13],生成1 800張圖像。③使用LabelImg工具按VOC格式對基礎(chǔ)圖像進(jìn)行標(biāo)記,生成XML文件。④讀取XML文件,計(jì)算經(jīng)過數(shù)據(jù)增強(qiáng)的圖像的標(biāo)注數(shù)據(jù)。⑤將生成的所有的數(shù)據(jù)按照90%、10%的比例分割為訓(xùn)練集和驗(yàn)證集;將剩余的400張基礎(chǔ)圖像作為測試集。人眼數(shù)據(jù)集如表2所示。

      表1 模型訓(xùn)練實(shí)驗(yàn)環(huán)境配置Table 1 Configuration of model training experimental environment

      表2 人眼目標(biāo)檢測數(shù)據(jù)集

      2)訓(xùn)練過程

      由于目前公開的不同眼行為數(shù)據(jù)集較少,故在數(shù)據(jù)增強(qiáng)的基礎(chǔ)上使用遷移學(xué)習(xí)提高算法的泛化性。現(xiàn)將YOLO-v3在COCO數(shù)據(jù)集上訓(xùn)練獲得的預(yù)訓(xùn)練權(quán)重模型加載到改進(jìn)的YOLO-v3網(wǎng)絡(luò)中并在自制數(shù)據(jù)集上進(jìn)行訓(xùn)練。在訓(xùn)練過程中,以416×416的圖像作為輸入,經(jīng)多次實(shí)驗(yàn)分析,設(shè)置batch size為4,初始學(xué)習(xí)率為0.001,權(quán)重衰減正則項(xiàng)為0.005,最優(yōu)化動量參數(shù)為0.9。首先凍結(jié)前228層進(jìn)行訓(xùn)練,迭代500次。經(jīng)過一段時間訓(xùn)練后,損失值降到15附近。然后在此基礎(chǔ)上解凍所有層繼續(xù)訓(xùn)練,進(jìn)行微調(diào),再迭代50次。當(dāng)?shù)?20次時,如圖4所示,Loss曲線降到7附近并趨于平緩。

      圖4 網(wǎng)絡(luò)訓(xùn)練損失曲線Fig.4 Network training loss curve

      1.2 人眼特征參數(shù)提取

      在上述訓(xùn)練好的模型的基礎(chǔ)上,將采集的圖像作為模型的輸入進(jìn)行檢測,獲得人眼圖像?;趫D像灰度特征的特點(diǎn),采用矩陣遍歷法提取人眼特征參數(shù)。該方法通過掃描二值圖像的每個像素點(diǎn)獲取人眼邊界點(diǎn),并利用邊界點(diǎn)計(jì)算人眼的寬和高。其中,二值圖像是對上述人眼圖像采用最大類間方差和腐蝕運(yùn)算的預(yù)處理方法獲得[15]。

      如圖5所示,具體步驟如下。

      圖5 提取人眼特征參數(shù)流程圖Fig.5 Flowchart for extracting eye feature parameters

      (1)將所述圖像矩陣設(shè)為A(m,n)。遍歷圖像矩陣A(m,n)的行時,計(jì)算行和,組成新的列矩陣H(h);遍歷圖像矩陣A(m,n)的列時,計(jì)算列和,組成新的行矩陣V(w)。

      (2)根據(jù)列矩陣H(h)得到其逆矩陣q(h),根據(jù)行矩陣V(w)得到其逆矩陣p(w),分別遍歷矩陣H(h)、q(h)、V(w)和p(w)。

      (3)遍歷過程中,作如下判斷:

      當(dāng)H(h)≠0,則Ymin=h;

      當(dāng)q(h)≠0,則Ymax=m-h+1;

      當(dāng)V(w)≠0,則Xmin=w;

      當(dāng)p(w)≠0,則Xmax=n-w+1。

      此時,可以獲得人眼的邊界坐標(biāo)Ymin、Ymax、Xmin、Xmax。

      根據(jù)上述坐標(biāo)及式(2)計(jì)算人眼寬和高,即

      式(2)中:H為人眼上下眼瞼垂直距離,即為人眼的高;W為人眼兩個眼角間的水平距離,即人眼的寬。

      1.3 眼行為識別

      將人眼行為分為睜眼、瞇眼和閉眼三種,并將其特征抽象成開合度(RHW),以便進(jìn)行量化處理。采用眼行為識別算法對不同眼行為特征進(jìn)行識別,具體過程如下。

      (1)閾值T1、T2的選取。通過系統(tǒng)剛打開時采集連續(xù)若干幀圖像,統(tǒng)計(jì)所有的睜眼的開合度和閉眼的開合度,計(jì)算其最小值與最大值,T1、T2的計(jì)算方法為

      式(3)中:L1為睜眼的開合度的最小值;L2和L3為瞇眼的開合度的最小值和最大值;L4為閉眼狀態(tài)的開合度的極大值。

      (2)開合度的計(jì)算。根據(jù)上述所獲得的人眼的寬(W)和高(H)計(jì)算人眼的寬高比,即開合度(RHW),計(jì)算方法如式(4)所示。

      (3)不同眼特征行為的判別。根據(jù)(1)、(2)獲得的閾值及人眼開合度,做如下判斷:

      ①當(dāng)RHW

      ②當(dāng)T1

      ③當(dāng)RHW

      另外,判別眼特征行為過程中,人眼的自然眨眼行為也會產(chǎn)生開合度的變化,從而對人眼特征產(chǎn)生干擾和誤判。因此,在人眼識別過程中,需要對眨眼行為進(jìn)行檢測與剔除。眨眼被定義為上眼瞼的快速閉合和打開,在這個過程中人眼的開合度會發(fā)生明顯的變化。因此,通過相鄰3~4幀左右圖像的對比,即可進(jìn)行剔除,最終實(shí)現(xiàn)眼行為的識別。

      2 實(shí)驗(yàn)結(jié)果及分析

      2.1 模型檢測結(jié)果及分析

      2.1.1 評價(jià)指標(biāo)

      在實(shí)驗(yàn)中,采用平均檢測準(zhǔn)確率(mean average precision,mAP)和檢測速度評判模型的檢測效果。

      FPS是評估模型檢測速度的常用指標(biāo),F(xiàn)PS越大代表模型檢測速度越快,計(jì)算方法如式(5)所示。mAP是目標(biāo)檢測中衡量檢測精度的常用指標(biāo)[16],指多個類別的平均精確度的平均值,該值越大代表模型的總體檢測準(zhǔn)確率越高,計(jì)算方法如式(6)所示。其中,AP指單個類別的平均精度。同時,AP是P-R(precision-recall)曲線圍成的面積,P-R曲線是以準(zhǔn)確率(precision)和召回率(recall) 作為橫、縱坐標(biāo)的二維曲線,計(jì)算方法如式(7)所示。

      式中:c為分類個數(shù);當(dāng)c=1時,mAP=AP。

      2.1.2 測試結(jié)果

      為了測試改進(jìn)YOLO-v3模型人眼檢測的效果,將原YOLO-v3模型作為對比模型,分別使用原YOLO-v3模型和改進(jìn)YOLO-v3模型在自制人眼數(shù)據(jù)集上進(jìn)行測試,測試結(jié)果如表3所示,在自制人眼數(shù)據(jù)集上的P-R曲線如圖6所示。其中,設(shè)置IOU閾值為0.5,置信度閾值為0.45。

      表3 檢測對比結(jié)果

      圖6 在數(shù)據(jù)集上的P-R曲線Fig.6 P-R curve on datasets

      由表3可知,改進(jìn)YOLO-v3在單目標(biāo)檢測速度上提高了2.6 f/s,同時獲得99.9%的mAP,比YOLO-v3提高了7.19%??梢钥闯龈倪M(jìn)YOLO-v3模型在平均精度上和檢測速度上均有所提高,滿足實(shí)時性的要求。

      隨后,輸入300幀640×480的視頻數(shù)據(jù)到本文模型中,對每幀圖像進(jìn)行人眼檢測,部分檢測結(jié)果如圖7所示。

      圖7 模型測試效果圖Fig.7 Model test effect diagram

      2.2 眼機(jī)交互模型檢測結(jié)果

      完成上述模型性能評估,獲得性能較好的模型之后,穿戴式眼機(jī)交互設(shè)備采用基于RK3399嵌入式平臺的Linux操作系統(tǒng),選用60°無畸變的外置USB紅外攝像機(jī)采集不同情況(是否佩戴眼鏡)的視頻數(shù)據(jù),之后將圖像輸入訓(xùn)練好的模型進(jìn)行人眼檢測獲得人眼位置坐標(biāo)以及人眼圖像,然后對人眼圖像進(jìn)行眼行為特征識別。

      識別眼特征行為過程中,由于人眼的自然眨眼行為也會產(chǎn)生開合度的變化,因此實(shí)驗(yàn)過程中對眨眼行為進(jìn)行檢測。圖8為其中連續(xù)100幀圖像的人眼開合度變化曲線,黃色的框表示發(fā)生了眨眼行為;開合度大于0.25的區(qū)域?yàn)楸犙蹱顟B(tài);開合度小于0.09的區(qū)域?yàn)殚]眼狀態(tài);當(dāng)相鄰3~4幀圖像的開合度突然發(fā)生變化時,則發(fā)生了眨眼。圖8中發(fā)生了3次眨眼行為。

      圖8 眨眼檢測結(jié)果Fig.8 Blink detection result

      在上述實(shí)現(xiàn)眨眼檢測與剔除的基礎(chǔ)上,分別對正常人眼圖像和配戴眼鏡的人眼圖像進(jìn)行識別。識別結(jié)果如表4所示。部分識別結(jié)果如圖9、圖10所示。圖9(a)、圖9(b)和圖9(c)分別代表睜眼、瞇眼、閉眼三種不同狀態(tài)下的眼行為的識別結(jié)果;圖10為被測者配戴眼鏡的情況下,對不同狀態(tài)的眼行為(睜眼、瞇眼、閉眼)的識別結(jié)果。藍(lán)色的方框表示識別到人眼區(qū)域。圖9、圖10體現(xiàn)了該眼機(jī)交互模型可以實(shí)現(xiàn)對佩戴眼鏡的人眼圖像和正常人眼圖像的不同的狀態(tài)的眼行為的識別。

      表4 不同情況下識別準(zhǔn)確率結(jié)果

      圖9 不同狀態(tài)正常人眼的識別結(jié)果Fig.9 Recognition result of normal eye in different states

      圖10 不同狀態(tài)佩戴眼鏡的識別結(jié)果Fig.10 Recognition results of glasses-wearing eye in different states

      由表4可知,本文模型檢測不同情況下的睜眼狀態(tài)的識別準(zhǔn)確率為96.93%;瞇眼狀態(tài)的識別準(zhǔn)確率為87.09%;閉眼狀態(tài)的識別準(zhǔn)確率為89.83%;總體識別準(zhǔn)確率達(dá)到91.30%。綜上,該模型可以較好地識別不同眼行為。

      3 結(jié)論

      研究了YOLO-v3網(wǎng)絡(luò)的特點(diǎn),根據(jù)所檢測圖像特點(diǎn),通過對其進(jìn)行改進(jìn)并進(jìn)行訓(xùn)練獲得改進(jìn)YOLO-v3模型,再將其與人眼特征參數(shù)提取方法和眼行為識別算法結(jié)合,構(gòu)建一種眼機(jī)交互模型并進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)YOLO-v3模型的mAP為98.6%,識別速度達(dá)22.8 f/s,相比原YOLO-v3方法訓(xùn)練時間縮短了11.4%。同時,該模型的總體識別準(zhǔn)確率達(dá)到91.30%。本文模型為嵌入式眼-機(jī)交互設(shè)備提供了必要的算法保證。

      猜你喜歡
      人眼準(zhǔn)確率聚類
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      人眼X光
      快樂語文(2019年9期)2019-06-22 10:00:38
      人眼為什么能看到虛像
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      閃瞎人眼的,還有唇
      優(yōu)雅(2016年12期)2017-02-28 21:32:58
      看人,星光璀璨繚人眼
      電影故事(2016年5期)2016-06-15 20:27:30
      基于改進(jìn)的遺傳算法的模糊聚類算法
      齐河县| 芮城县| 浮梁县| 安庆市| 南部县| 息烽县| 酉阳| 通城县| 天津市| 新龙县| 西和县| 贵南县| 西盟| 九龙城区| 通州市| 古交市| 彰化县| 桓仁| 施秉县| 富民县| 松潘县| 东阳市| 河北区| 布拖县| 诏安县| 陆丰市| 郁南县| 长顺县| 顺平县| 双柏县| 福建省| 二手房| 四川省| 双辽市| 图木舒克市| 岳西县| 洱源县| 泰顺县| 宣威市| 安塞县| 闽清县|