• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于四元數(shù)局部編碼和卷積網(wǎng)絡(luò)的表情識(shí)別

    2020-03-07 13:12:00薛志毅邵珠宏趙曉旭尚媛園
    關(guān)鍵詞:彩色圖像二值識(shí)別率

    薛志毅,邵珠宏,2+,江 筱,趙曉旭,尚媛園,2,3

    (1.首都師范大學(xué) 信息工程學(xué)院,北京 100048;2.北京成像理論與技術(shù)高精尖創(chuàng)新中心, 北京 100048;3.高可靠嵌入式系統(tǒng)北京市工程研究中心,北京 100048)

    0 引 言

    為了避免對(duì)彩色人臉表情圖像進(jìn)行灰度化預(yù)處理的過(guò)程中丟失顏色信息,近年來(lái)基于四元數(shù)矩陣表示的彩色圖像處理與分析成為圖像處理領(lǐng)域的研究熱點(diǎn)。比如,Shao等[1]提出四元數(shù)正交Bessel-Fourier矩并應(yīng)用于彩色圖像重建與識(shí)別。Lan等[2]提出基于四元數(shù)矩陣表示的彩色圖像局部二值描述子,通過(guò)借助參考四元數(shù)對(duì)原始像素進(jìn)行等距映射,但是該方法僅對(duì)相位信息進(jìn)行編碼,沒(méi)有充分利用四元數(shù)矩陣的信息。卷積神經(jīng)網(wǎng)絡(luò)(CNN)在表情識(shí)別領(lǐng)域已經(jīng)被廣泛的應(yīng)用,比如Lu等[3]使用CNN進(jìn)行表情識(shí)別,但是其仍然使用灰度圖像。Zhang等[4]將深度網(wǎng)絡(luò)應(yīng)用于自然環(huán)境中的表情識(shí)別,也取得了不錯(cuò)的效果。

    本文結(jié)合四元數(shù)的相關(guān)理論,將彩色人臉表情圖像用四元數(shù)矩陣表示,并使用Clifford平移運(yùn)算對(duì)矩陣進(jìn)行變換,分別計(jì)算其加權(quán)L1相位以及幅值并使用LBP算法得到對(duì)應(yīng)的相位圖譜和幅值圖譜。將融合的相位特征和幅值特征與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合進(jìn)行訓(xùn)練和識(shí)別。采用四元數(shù)表示方法能夠減少顏色信息的丟失,提取的混合特征可以有效表征面部特征,使得算法具有更高更穩(wěn)定的識(shí)別率。

    1 四元數(shù)及彩色圖像表示

    1.1 四元數(shù)基礎(chǔ)

    作為傳統(tǒng)復(fù)數(shù)的推廣,四元數(shù)包含一個(gè)實(shí)部分量和3個(gè)虛部分量[5],一般可以表示為

    q=a+bi+cj+dk

    (1)

    其中,a、b、c、d∈R,i、j、k為虛數(shù)單位且滿足

    i2=j2=k2=-1,ij=-ji=k,jk=-kj=i,ki=-ik=j

    (2)

    a稱為四元數(shù)q的實(shí)部,bi+cj+dk稱為虛部;當(dāng)a=0時(shí),稱q為純四元數(shù)。

    根據(jù)四元數(shù)的實(shí)部分量和虛部分量,可以定義四元數(shù)的相位。其中,基于L1范數(shù)的四元數(shù)加權(quán)L1相位定義為

    (3)

    ω=(α1,α2,α3)T表示權(quán)重系數(shù),β=(|b|,|c|,|d|)T, 當(dāng)ω=(1,1,1)T時(shí),ωTβ是 (b,c,d) 的L1范數(shù)。通過(guò)選擇適當(dāng)?shù)臋?quán)重值不僅能夠凸顯某個(gè)虛部分量,而且不同的權(quán)重選擇可以得到不同的δ值。

    假設(shè)q是一個(gè)四元數(shù),通過(guò)引入一個(gè)單位純四元數(shù)p可以對(duì)其進(jìn)行平移變換。由于四元數(shù)的乘法不滿足交換律,則定義式(4)、式(5)分別為q的右邊型Clifford平移、左邊型Clifford平移[2]

    CTQr(q,p)=qp

    (4)

    CTQl(q,p)=pq

    (5)

    四元數(shù)Clifford平移是一種等距映射,即平移前后四元數(shù)的模相等。同時(shí),兩種平移類型的加權(quán)相位也相等。

    1.2 彩色圖像四元數(shù)表示

    通常將彩色圖像的像素值作為四元數(shù)的虛部分量進(jìn)行編碼,可以表示為

    fq(x,y)=fR(x,y)i+fG(x,y)j+fB(x,y)k

    (6)

    其中,fR(x,y)、fG(x,y)、fB(x,y) 分別代表彩色圖像每一像素點(diǎn)的紅、綠、藍(lán)分量。

    使用式(6)這種純四元數(shù)的方法可以實(shí)現(xiàn)一幅RGB彩色圖像的整體處理,有效考慮了顏色通道之間的關(guān)聯(lián)性和整體性。

    2 結(jié)合卷積網(wǎng)絡(luò)與四元數(shù)局部編碼的表情識(shí)別

    本文使用基于四元數(shù)相位信息和幅值信息的局部二值模式編碼提取人臉圖像的紋理特征,然后將特征融合輸入CNN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,算法的流程如圖1所示。

    圖1 算法流程

    2.1 四元數(shù)局部編碼特征

    使用式(6)將一幅彩色圖像表示成四元數(shù)矩陣,基于彩色圖像的四元數(shù)矩陣表示,文獻(xiàn)[2]提出一種通過(guò)引入?yún)⒖妓脑獢?shù)構(gòu)建彩色圖像局部特征描述子的方法。令彩色圖像的像素點(diǎn)表示為:qs=ir+jg+kb, 參考四元數(shù)為:qr=ir′+jg′+kb′。 首先對(duì)像素點(diǎn)進(jìn)行四元數(shù)Clifford平移(CTQ)運(yùn)算

    CTQr(qs,qr)=(ir+jg+kb)(ir′+jg′+kb′)= -(rr′+gg′+bb′)+i(gb′-bg′)+j(br′-rb′)+k(rg′-gr′)

    (7)

    然后使用式(3)計(jì)算四元數(shù)矩陣的加權(quán)的L1相位得到相位圖。假設(shè)Sm是加權(quán)L1相位圖中的3×3像素塊,δm為中心像素值,則編碼方法為

    (8)

    考慮到彩色圖像包含3個(gè)顏色通道,選擇3個(gè)適當(dāng)?shù)募兯脑獢?shù)分別對(duì)相應(yīng)的相位信息矩陣進(jìn)行LBP編碼,從而可以提取四元數(shù)矩陣表示的相位局部二值模式(QPLBP)特征。同時(shí),彩色圖像的灰度值能夠反映色彩強(qiáng)度信息,計(jì)算四元數(shù)矩陣的模并進(jìn)行二值編碼即可得到幅值局部二值模式(QALBP)特征,將兩者結(jié)合起來(lái)可以進(jìn)一步提高表征能力。

    2.2 卷積神經(jīng)網(wǎng)絡(luò)

    表1為本文使用的CNN結(jié)構(gòu)及網(wǎng)絡(luò)參數(shù)。

    表1 CNN網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)設(shè)置

    最大池化(Max-pooling)是CNN模型中最常見的一種池化方法,即最大子采樣函數(shù)取區(qū)域內(nèi)所有單元的最大值。使用Max-pooling操作,一方面可以保證表情特征的位置與旋轉(zhuǎn)不變性,不用考慮其出現(xiàn)位置而能把它提出來(lái)。對(duì)于圖像處理來(lái)說(shuō)這種位置與旋轉(zhuǎn)不變性是很好的特性;另一方面,能減少模型參數(shù)數(shù)量,在一定程度上可以防止模型過(guò)擬合。因此選擇最大池化保留圖像中明顯的特征。

    Dropout層是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,對(duì)于神經(jīng)元,按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄,但在測(cè)試時(shí)仍然有效。它是一種有效防止訓(xùn)練過(guò)擬合的方法,通過(guò)在反向傳播誤差更新權(quán)值時(shí)隨機(jī)選擇一部分權(quán)值不更新,相當(dāng)于訓(xùn)練出多個(gè)更為簡(jiǎn)單的模型,這些模型組合在一起,提高了整個(gè)網(wǎng)絡(luò)的泛化能力,并且能夠加快訓(xùn)練的速度。Dropout可以使用在各層之后,本文使用兩層Dropout層。經(jīng)過(guò)交叉驗(yàn)證,隱含節(jié)點(diǎn)Dropout率為0.5的時(shí)候效果最好,Dropout隨機(jī)生成的網(wǎng)絡(luò)結(jié)構(gòu)最多[6]。

    CNN使用前向傳播(Feedforward Pass)來(lái)得到每個(gè)樣本的預(yù)測(cè)輸出,定義第L層的神經(jīng)元輸出為

    xL=f(uL), 其中uL=WLxL-1+bL

    (9)

    其中,f是激活函數(shù),本文選用的激活函數(shù)為ReLU函數(shù),xL-1是L-1層的輸出,W和b分別是L層的權(quán)值和偏置。通過(guò)式(9)實(shí)現(xiàn)樣本信息逐層傳遞,直至得到最終輸出層結(jié)果即表情類別。定義平方誤差代價(jià)函數(shù)

    (10)

    CNN權(quán)值W和偏置b的更新依靠BP算法來(lái)完成,BP算法反饋過(guò)程本質(zhì)即為梯度從后向前傳播,因此梯度下降法是BP算法的核心,由此可以得到參數(shù)W和b的更新規(guī)則

    (11)

    式中:η為學(xué)習(xí)率,為了保證網(wǎng)絡(luò)的穩(wěn)定性,在此η=0.01。 由式(11)可以看出,梯度下降法更新權(quán)值主要是利用誤差代價(jià)函數(shù)對(duì)參數(shù)的梯度,所以權(quán)值更新的目標(biāo)就是讓每一層得到這樣的梯度,然后更新。

    3 實(shí)驗(yàn)結(jié)果與分析

    為了驗(yàn)證本文算法的有效性,使用Radboud Faces Database(RafD)表情庫(kù)和MMI表情庫(kù)進(jìn)行識(shí)別實(shí)驗(yàn)。RaFD表情庫(kù)是一組包含67個(gè)模型的高質(zhì)量的臉部數(shù)據(jù)庫(kù),根據(jù)面部動(dòng)作編碼系統(tǒng),每個(gè)模型都經(jīng)過(guò)訓(xùn)練以表達(dá)以下表情:憤怒,厭惡,恐懼,快樂(lè),悲傷,驚奇,蔑視和中立。用3種不同的注視方向顯示每種情緒,并且所有照片都是從5個(gè)相機(jī)角度同時(shí)拍攝的。本文選取RafD表情庫(kù)中67個(gè)人的正面樣本圖像,每人包含7種表情(中性、生氣、高興、厭惡、恐懼、驚訝、悲傷),共1407張。MMI表情庫(kù)包含2900多個(gè)視頻和75個(gè)高分辨率的靜態(tài)圖像,標(biāo)簽主要是面部動(dòng)作單元的標(biāo)簽,選取MMI表情庫(kù)中自發(fā)表情庫(kù)的17個(gè)人的樣本圖像,每人有6種表情(喜悅、憤怒、哀傷、恐懼、厭惡、驚奇),共306張。

    3.1 人臉圖像檢測(cè)

    SeetaFace Engine[7]是一個(gè)開源的C++人臉識(shí)別引擎,包含3個(gè)關(guān)鍵部分,即:人臉檢測(cè)(detection)、面部特征點(diǎn)定位(alignment)、人臉特征提取與比對(duì)(identification)。SeetaFace Detection基于一種結(jié)合經(jīng)典級(jí)聯(lián)結(jié)構(gòu)和多層神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)方法實(shí)現(xiàn)。首先,使用SeetaFace Detection對(duì)RafD表情庫(kù)和MMI表情庫(kù)進(jìn)行統(tǒng)一處理(人臉區(qū)域檢測(cè)、對(duì)齊),然后將裁剪后的圖像尺寸歸一化為96×96像素,原樣本圖像和裁剪后的結(jié)果如圖2所示,其中圖2(a)和圖2(c)為原圖,圖2(b)和圖2(d)為人臉定位裁剪處理的結(jié)果。

    圖2 RafD庫(kù)和MMI庫(kù)的人臉圖像預(yù)處理示例

    3.2 實(shí)驗(yàn)參數(shù)選擇

    3.2.1 權(quán)重系數(shù)的選擇

    式(3)中選取不同的權(quán)重系數(shù)也將會(huì)影響最終的分類效果,為了討論如何選取合適的權(quán)重,在RafD表情庫(kù)上進(jìn)行了以下實(shí)驗(yàn):按照 {0.1,0.2,0.3}, {0.2,0.3,0.4}…{1.0,1.1,1.2} 的規(guī)則設(shè)置10組不同的權(quán)重測(cè)得分類準(zhǔn)確率,結(jié)果如圖3所示。

    圖3 選擇不同權(quán)重時(shí)所取得的識(shí)別率

    圖3可以看出,第六組即權(quán)重為 {0.6,0.7,0.8} 時(shí),分類準(zhǔn)確率達(dá)到最大,在MMI數(shù)據(jù)庫(kù)上測(cè)試能夠得到相同的結(jié)論,該組權(quán)重即為本文實(shí)驗(yàn)時(shí)選用的權(quán)重。

    3.2.2 參考四元數(shù)的選擇

    實(shí)驗(yàn)結(jié)果表明,特征提取過(guò)程中使用的參考四元數(shù)對(duì)識(shí)別率有一定的影響。為了保證選取的參考四元數(shù)經(jīng)過(guò)CTQ運(yùn)算后能夠突出各個(gè)通道的特征,又不至于信息冗余,本文實(shí)驗(yàn)時(shí)選取3個(gè)參考四元數(shù),參考四元數(shù)的選取可以使用基于學(xué)習(xí)的方法和手工選取的方法,為了計(jì)算的效率,本文選用手工選取的方法,3個(gè)參考四元數(shù)的選取規(guī)則如下

    (12)

    其中,隨機(jī)數(shù)αmn∈[0,0.1](m=1,2,3;n=1,2,3)。 本文選取的參考四元數(shù)分別為:p1=0.9922i+0.0857j+0.0907k,p2=0.912i+0.9908j+0.0999k,p3=0.0852i+0.0855+0.9927k。 圖4中給出了一幅彩色樣本圖像及相應(yīng)的四元數(shù)相位局部二值模式(QPLBP)編碼、幅值局部二值模式(QALBP)編碼,其中圖4(a)為原圖像,圖4(b)~圖4(d)分別為使用p1、p2、p3提取的QPLBP編碼,圖4(e)為QALBP編碼,可以看出通過(guò)QPLBP和QALBP能夠提取豐富的紋理特征,將兩種特征融合可以增強(qiáng)圖像紋理特征的描述能力。

    圖4 樣本圖像及相應(yīng)的QPLBP編碼、QALBP編碼

    3.3 實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)中每次選取一個(gè)樣本作為測(cè)試集樣本,剩下兩個(gè)樣本作為訓(xùn)練集樣本,進(jìn)行交叉驗(yàn)證,表2和表3給出了使用兩個(gè)表情庫(kù)進(jìn)行多次實(shí)驗(yàn)的結(jié)果。

    表2 RafD庫(kù)表情識(shí)別的實(shí)驗(yàn)結(jié)果

    表3 MMI庫(kù)表情識(shí)別的實(shí)驗(yàn)結(jié)果

    每種表情均獲得了很好的識(shí)別率,可以看出本文算法能夠有效識(shí)別分類表情,對(duì)快樂(lè)、驚訝、生氣3種表情具有較高的識(shí)別率,而對(duì)恐懼、厭惡表情容易出現(xiàn)誤識(shí)別。

    針對(duì)上述誤識(shí)別的情況進(jìn)一步做了實(shí)驗(yàn),為了更為直觀的表現(xiàn)分類結(jié)果,將多次實(shí)驗(yàn)分類得到的表情分布做成混淆矩陣,表4和表5給出了在兩個(gè)庫(kù)上實(shí)驗(yàn)得到的混淆矩陣,從表中可以看出恐懼、厭惡在分類時(shí)更多的發(fā)生混淆現(xiàn)象,甚至誤分類為生氣、悲傷。根據(jù)表中數(shù)據(jù)以及面部動(dòng)作單元(action unit,AU)[8]的研究,可以知道恐懼、厭惡表情在一定程度上能夠具有極高的相似性,例如這些表情眼睛、鼻子等局部細(xì)節(jié)的變換上比較相似。對(duì)于同種表情,不同的人表情幅度也會(huì)不同,因此存在恐懼、厭惡、悲傷等相似表情相互轉(zhuǎn)化的可能性。

    表4 使用RafD庫(kù)識(shí)別的混淆矩陣(識(shí)別率/%)

    表5 使用MMI庫(kù)識(shí)別的混淆矩陣(識(shí)別率/%)

    表6給出了不同算法的平均識(shí)別率,與僅用傳統(tǒng)方法進(jìn)行識(shí)別的分類方法相比,本文算法極大提高了識(shí)別精度,驗(yàn)證使用深度網(wǎng)絡(luò)的有效性,與其它使用深度網(wǎng)絡(luò)的算法進(jìn)行比較,在RafD彩色表情庫(kù)的平均識(shí)別率達(dá)到93.28%,在MMI彩色表情庫(kù)的平均識(shí)別率達(dá)到79.41%,均優(yōu)于其它算法,驗(yàn)證了人工方法結(jié)合深度學(xué)習(xí)的方法能夠更好的提取可供表情識(shí)別使用的圖像特征。

    表6 不同算法的實(shí)驗(yàn)結(jié)果

    4 結(jié)束語(yǔ)

    為了能夠充分利用彩色人臉表情圖像的顏色信息和實(shí)現(xiàn)不同顏色通道的整體處理,本文基于四元數(shù)的表示方法對(duì)表情圖像的相位信息和幅值信息使用局部二值編碼提取特征,把兩種特征結(jié)合起來(lái)輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練識(shí)別。與基于傳統(tǒng)局部二值編碼的算法相比,采用四元數(shù)的表示方法避免了圖像灰度化過(guò)程中顏色信息的丟失,從而提取出比灰度圖像更為豐富的特征信息。將人工特征與深度網(wǎng)絡(luò)結(jié)合起來(lái)提高了識(shí)別精度的同時(shí)也能夠獲得穩(wěn)定的識(shí)別效果。

    猜你喜歡
    彩色圖像二值識(shí)別率
    混沌偽隨機(jī)二值序列的性能分析方法研究綜述
    支持CNN與LSTM的二值權(quán)重神經(jīng)網(wǎng)絡(luò)芯片
    基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
    基于FPGA的實(shí)時(shí)彩色圖像邊緣檢測(cè)
    電子制作(2019年16期)2019-09-27 09:34:46
    基于真耳分析的助聽器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
    基于二值形態(tài)學(xué)算子的軌道圖像分割新算法
    提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
    視頻圖像文字的二值化
    基于最大加權(quán)投影求解的彩色圖像灰度化對(duì)比度保留算法
    高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
    依安县| 庐江县| 奈曼旗| 镶黄旗| 遵义县| 梁平县| 通山县| 综艺| 苏尼特右旗| 惠安县| 中江县| 大方县| 太白县| 三江| 株洲市| 梁河县| 遵义市| 庆元县| 武胜县| 长垣县| 田林县| 垫江县| 阿尔山市| 富源县| 余干县| 五常市| 白河县| 景宁| 陆河县| 三门县| 遵义市| 通道| 怀远县| 军事| 文化| 乐东| 肇州县| 寿阳县| 法库县| 利辛县| 张家口市|