崔景霞
(長春工業(yè)大學(xué) 軟件職業(yè)技術(shù)學(xué)院,長春 130022)
隨著現(xiàn)代科技發(fā)展的日新月異,人們對(duì)于人工智能的研究無論從深度與廣度上都達(dá)到了相當(dāng)高的水平。盡管如此,研究者們?cè)诖蠖鄶?shù)情況下仍然過于關(guān)注于研究以及模擬人類的智能,如判斷、推理、證明等思維活動(dòng)。而在更能表現(xiàn)人工智能特點(diǎn)的人工心理方面的研究則稍顯欠缺。作為實(shí)現(xiàn)人工心理研究的重要組成部分,人臉表情識(shí)別成為必須研究解決的關(guān)鍵性課題。
人臉表情表述所關(guān)注的問題在于對(duì)表情向量的建模與面部特征得提取。當(dāng)代研究中的FACS面部行為編碼系統(tǒng)[1]即為表述與理解人臉表情的一個(gè)典型樣例。該系統(tǒng)將人類面部表情與面部肌肉結(jié)構(gòu)緊密關(guān)聯(lián),并總結(jié)與定義了人類的六種最基本的表情:驚奇、恐懼、厭惡、憤怒、高興、悲傷。這一定義現(xiàn)已成為學(xué)術(shù)界對(duì)于人臉表情分類的共識(shí)。
本文采用業(yè)界普遍認(rèn)同的日本標(biāo)準(zhǔn)表情數(shù)據(jù)庫JAFFE作為實(shí)驗(yàn)表情圖片數(shù)據(jù)庫。該數(shù)據(jù)庫包括了10個(gè)實(shí)驗(yàn)對(duì)象的自然、悲傷、厭惡、高興、生氣、驚奇、恐懼各七種標(biāo)準(zhǔn)表情。其中每一對(duì)象的每種表情平均三幅圖片,均為256×256像素大小的bmp灰度圖片共213幅。圖片樣本如圖1所示。
圖1 JAFFE數(shù)據(jù)庫圖片樣本Fig.1 Samples of JAFFE database
同時(shí)為擴(kuò)展本研究的適應(yīng)多樣性,在實(shí)驗(yàn)中采用一些自采集表情彩色圖像,同樣包含上述七種標(biāo)準(zhǔn)表情。圖片樣本如圖2所示。
圖2 自采集樣本縮略圖Fig.2 Miniature samples of self-collected images
對(duì)獲得表情圖像進(jìn)行預(yù)處理操作以便于研究,包括表情ROI(Region Of Interest)區(qū)域的截取與圖像尺度歸一化:
1.表情ROI區(qū)域的截取
設(shè)圖像中左右雙眼的中心分別為El、Er,取此兩點(diǎn)中心位置Ec并嘴的中心為M。設(shè)定Ec、M點(diǎn)位置坐標(biāo)為常數(shù)并以此兩點(diǎn)為中心截取表情相關(guān)ROI區(qū)域以排除非表情相關(guān)區(qū)域的噪音干擾并起到糾正由于樣本獲取對(duì)象姿態(tài)偏離所導(dǎo)致的表情ROI區(qū)域的角度偏離。
2.表情圖像尺度歸一化
對(duì)截取后的表情ROI區(qū)域進(jìn)行尺度歸一化:其中JAFFE數(shù)據(jù)庫圖片ROI區(qū)域歸一化尺度為108×108像素,自采集樣本ROI區(qū)域歸一化尺度為256×256像素并對(duì)彩色圖像進(jìn)行灰度化處理以減少由于膚色以及光照強(qiáng)度不同所導(dǎo)致的分辨差異。
經(jīng)上述兩種預(yù)處理操作后的圖像樣本如圖3所示:
圖3 預(yù)處理后圖片樣本Fig.3 Pre-processed image samples
如前所述:表情是人臉為傳達(dá)某種感受所做出的一種容貌表述。FACS面部行為編碼系統(tǒng)及其之后的研究者們揭示出了表情表述與運(yùn)動(dòng)單元及肌肉運(yùn)動(dòng)之間的關(guān)系:面部神經(jīng)牽動(dòng)面部肌肉從而引起運(yùn)動(dòng)單元的運(yùn)動(dòng)導(dǎo)致面部表情呈現(xiàn)。從另外一個(gè)視角闡述即當(dāng)人類表現(xiàn)不同的表情時(shí)包括眼、眉、嘴在內(nèi)的各面部器官均呈現(xiàn)不同的形貌與形狀,如圖4所示。
圖4 不同表情下面部器官形貌Fig.4 Facial organs’appearances of different expressions
小波是一種用于多層次分解函數(shù)的數(shù)學(xué)工具。信號(hào)經(jīng)過小波變換后可以用小波系數(shù)來描述,小波系數(shù)體現(xiàn)了信號(hào)的性質(zhì)。因此,小波變換用于圖像處理是小波變換應(yīng)用效果比較突出的領(lǐng)域之一。它在圖像處理中的基本思想是把圖像進(jìn)行多分辨率分解成不同的空間和獨(dú)立的頻率帶的子圖像,然后對(duì)子圖像的系數(shù)進(jìn)行處理,例如圖像壓縮、圖像增強(qiáng)、圖像的分解和重構(gòu)等。
離散小波變換(DWT)包含各種獨(dú)特但相關(guān)的變換,業(yè)界利用變換核對(duì)或定義該核對(duì)的一組參數(shù)來表征每個(gè)DWT。核可用三個(gè)可分的二維小波來表示:
其中,ψH(x,y),ψV(x,y),ψD(x,y)分別稱為水平、垂直和對(duì)角小波,并且一個(gè)二維可分的尺度函數(shù)是
每個(gè)二維函數(shù)是兩個(gè)一維實(shí)平方可積的尺度和小波函數(shù)的乘積:
其中,k為平移參數(shù)決定小波核函數(shù)沿x軸的位置,j為尺度參數(shù)決定小波核函數(shù)的寬度。
當(dāng) f(x,y)表示一幅圖像信號(hào)時(shí),其二維小波變換相當(dāng)于 f(x,y)分別沿x軸方向和y軸方向經(jīng)不同的一維濾波器濾波,得到低頻和高頻子帶圖像,圖 5(a)為一級(jí)小波分解示意圖。
圖5 小波分解示意圖Fig.5 Wavelet Ccomposing configuration
其中,LL表示圖像的水平和垂直方向的低頻信息,HL表示圖像的水平高頻信息及垂直低頻信息,LH表示圖像的水平低頻信息及垂直高頻信息,HH則表示圖像的水平和垂直高頻信息。通過小波變換,當(dāng)圖像在某一頻率和方向上具有較明顯的特征時(shí),與之對(duì)應(yīng)的子帶圖像的輸出就具有較大的能量,因此圖像信息集中在相應(yīng)的少數(shù)小波系數(shù)上。圖 5(b)為二級(jí)小波分解示意圖,同理,多級(jí)小波分解每次都在低頻子帶上進(jìn)行。
在二維情況下,得到三組細(xì)節(jié)系數(shù)——水平、垂直、和對(duì)角線細(xì)節(jié)。如圖6所示為經(jīng)二維小波分解與降維后的圖片。
圖6 二維小波分解降維后的實(shí)驗(yàn)表情圖片F(xiàn)ig.6 Experimental expression images reduced dimension by 2D-wavelet
隨著小波理論的逐漸成熟,各類小波族也已被逐步嘗試運(yùn)用到圖像識(shí)別應(yīng)用當(dāng)中。因而從眾多的小波族中選取最為適合本文表情識(shí)別方法的小波族群成為實(shí)驗(yàn)中必不可少的一個(gè)步驟。
表1 小波族群名稱一覽表Tab.1 List of wavelet families’names
由圖7所示,由各種不同小波族小波對(duì)實(shí)驗(yàn)表情圖片進(jìn)行變換后所得效果對(duì)比顯示,基于Haar小波族的小波變換效果最為明顯,將表情圖片中人臉器官以及肌肉線條所呈形貌完整清晰表達(dá)。因而在本文后續(xù)的實(shí)驗(yàn)中選用Haar小波作為小波變換核函數(shù)
分別對(duì)經(jīng)Haar小波變換后的水平與垂直高頻分量做水平與垂直方向上的投影分別得到一組63維向量。并將所得水平投影向量與轉(zhuǎn)置后的垂直投影向量結(jié)合組成一126維向量自此得出本文用于表情識(shí)別的特征向量,而后將所得向量經(jīng)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類識(shí)別[3]。所得實(shí)驗(yàn)結(jié)果如表-2表-3所示。
圖7 基于不同小波族的小波變換效果圖Fig.7 Transformed effects by different wavelet families
表2 基于JEFFE數(shù)據(jù)庫的表情識(shí)別結(jié)果Tab.2 Results of expression recognition based on JEFFE database
表3 基于自采集圖像的表情識(shí)別結(jié)果Tab.3 Results of expression recognition based on self-collected images
圖8 基于Haar小波族的典型表情小波變換效果圖Fig.8 Transformed effects of typical expressions by haar wavelet
本文從理論分析與實(shí)驗(yàn)實(shí)踐兩個(gè)方面對(duì)小波變換在人臉表情識(shí)別應(yīng)用研究中的的可行性與適用性進(jìn)行了研究。得出了小波變換完全適用于人臉表情識(shí)別應(yīng)用研究。并依據(jù)實(shí)驗(yàn)結(jié)果從眾多的小波變換核函數(shù)中選取了最能表現(xiàn)人類人臉表情形貌的Haar小波核函數(shù)。而后基于Haar小波核函數(shù)對(duì)獲取實(shí)驗(yàn)圖片進(jìn)行小波變換,最終由投影獲取向量并經(jīng)BP神經(jīng)網(wǎng)絡(luò)分類識(shí)別其平均正確識(shí)別率可達(dá)90%以上。如何提高識(shí)別方法的擴(kuò)展能力與實(shí)用性能成為本文后期的研究發(fā)展方向。
[1]王志良.人工心理學(xué)—關(guān)于更接近人腦工作模式的科學(xué)[J].北京科技大學(xué)學(xué)報(bào),2000,22(5):478-483.
[2]岡薩雷斯.數(shù)字圖像處理(MATLAB版)[M].阮秋琦,等,譯.電子工業(yè)出版社,2005.
[3]I.Essa.A Vision System For Observing and Extracting Facial Action Parameters[A].In Proceedings of the Computer Vision and Pattern Recognition Conference[C].IEEE Computer Society,1994:76-83.