王 遙 金 玲 林紫雯 韓慧娜
(吉林工商學院,吉林 長春130062)
卷積神經(jīng)網(wǎng)絡在本質(zhì)上是一種從輸入到輸出的映射關系,并且不需要任何的數(shù)學表達式來表達其輸入到輸出之間的關系,而只需要利用已知的數(shù)據(jù)對卷積網(wǎng)絡模型進行訓練,從而能使得網(wǎng)絡具有了輸入輸出之間的映射關系。并且再卷積神經(jīng)網(wǎng)絡進行有監(jiān)督學習之前, 需要采用不同的隨機數(shù)對網(wǎng)絡中的各項權值進行初始化操作。本文設計的用于人臉情緒識別的改進后的卷積神經(jīng)網(wǎng)絡,結構如圖1 所示。
圖中所示的模型有著20 個卷積層,以此來形成人臉表情的特征提取。此模型中含有8 個殘差深度可分離卷積層,在每個卷積層后都是一個批歸一化操作和Relu 激活函數(shù)。接著是一個全局平均池化層,在將最后的結果輸入Softmax 分類器當中從而生成表情識別的預測值。最后的Softmax 分類器對全局平均池化層的輸出結果進行分類處理,將人臉情緒分類憤怒、沮喪、恐懼、高興、悲傷、驚訝、中性七類。
卷積神經(jīng)網(wǎng)絡是一種前饋神經(jīng)網(wǎng)絡,它的人工神經(jīng)元可以響應一部分覆蓋范圍內(nèi)的周圍單元, 對于大型圖像處理有出色表現(xiàn)。卷積神經(jīng)網(wǎng)絡中每層卷積層由若干卷積單元組成,第一層卷積層可能只能提取一些低級的特征如邊緣、線條和角等層級,更多層的網(wǎng)絡能從低級特征中迭代提取更復雜的特征。一般情況下,設輸入圖像矩陣A,B,其行列數(shù)分別為ma、na、mb、nb,則卷積層的計算公式如下:
圖1 表情識別模型
當我們選擇激活函數(shù)為Relu 函數(shù)時, 卷積層的計算公式如下:
卷積層作為實現(xiàn)起到特征提取的功能, 每一層的每個神經(jīng)元輸入需要與前一層的局部感受相連, 從而提取出該局部的特征。本文模型中的卷積層1 采用3×3×8 的卷積核對輸入圖像進行卷積求和操作,最后輸出得到8 個46×46 的特征圖,同理經(jīng)過卷積層2 得到16 個44×44 的特征圖。深度可分離卷積層1、深度可分離卷積層2 以及深度可分離卷積層3 均分別得到32個44×44、64 個11×11、128 個6×6 的特征圖。卷積層4 等得到7 個3×3 的特征圖。
本文模型中采用了兩類池化層,一類是最大池化層,另一類是平均池化層。為了防止直接將學習到的特征直接進行Softmax訓練從而帶來的參數(shù)維度過高的問題, 最大池化層的目的就是將特征圖大小減小, 并且在減小的同時是特征圖的輸出具有平移不變性。全局平均池化層與最大池化層不同,它不改變輸入特征圖的大小,而是會將每個特征圖形成一個值。相對與使用全連接層減少了參數(shù)并且提高了訓練時間,減少了過擬合。
采用的數(shù)據(jù)集是來自kaggle 競賽中的數(shù)據(jù)Fer2013, 數(shù)據(jù)集由35886 張人臉表情圖片組成,其中,測試圖28708 張,公共驗證圖和私有驗證圖各3589 張, 每張圖片是由大小固定為48×48的灰度圖像組成,共有7 種表情分別對應于數(shù)字標簽0-6,具體表情對應的標簽和中英文如下:0 anger 生氣;1disgust 厭惡;2fear 恐懼;3happy 開心;4sad 傷心;5surprised 驚訝;6normal 中性。但是,數(shù)據(jù)集并沒有直接給出圖片,而是將表情、圖片數(shù)據(jù)、用途的數(shù)據(jù)保存到csv 文件中。經(jīng)過10000 次的迭代訓練,本文的表情識別模型在fer2013 數(shù)據(jù)集上的訓練效果達到了67.2%的準確率,結果如下表(表1)。圖2 與圖3 分別描述了本文模型在訓練過程中的訓練損失值及訓練準確值。
表1 本文模型在fer2013 數(shù)據(jù)集上的識別結果
從表1 中可以看出,本表情識別模型對高興與驚訝的識別準確率最高,準確率分別為86%和88%,但是對于恐懼和悲傷這兩種表情的識別準確較低,分別為57%及49%,根據(jù)模型猜想是對特征圖的提取參數(shù)過少,忽略了部分表情特征使分類效果降低。
與傳統(tǒng)的深度學習模型在fer2013 數(shù)據(jù)集上的準確率對比結果如表2 所示,其中LBP 由Rivera 設計提出,采用人工特征提取篩選進行表情識別, 但其識別準確度略低于常用深度學習算法。CNNs 模型采用并行卷積神經(jīng)網(wǎng)絡模型,使fer2013 的最終識別準確率達到了65.6%。本文中設計的表情識別模型,比LBP 模型提高了1.7%,比CNNs 模型提高了1.6%,證明了本文設計的模型在人臉識別上具有較好的識別功能。
表2 不同模型在fer2013 數(shù)據(jù)集上識別率對比
本文以CNN 卷積神經(jīng)網(wǎng)絡為基礎,建立人臉情緒識別模型,實驗證明建立的模型預測效果優(yōu)秀,正確率較高,并且以改進的卷積神經(jīng)網(wǎng)絡提高了傳統(tǒng)識別模型對于fer2013 數(shù)據(jù)集上的識別了吧, 但分析識別結果在對于恐懼和悲傷表情的識別上該模型仍具有進步空間, 需要對與臉部特征再進行細分提取從而提高分類準確率。本模型為人臉情緒識別提供了可靠的技術分析支持,可以將該模型應用于病理研究、公共安全預警系統(tǒng)、機器人仿真等方面。