于浩文
(英國南安普頓大學(xué),英格蘭,So173sh)
人臉表情識別技術(shù)其實是一種將計算機技術(shù)與生物學(xué)聯(lián)系在一起的技術(shù)。這項技術(shù)的出現(xiàn)與創(chuàng)新,標(biāo)志著人類未來的生活將會出現(xiàn)多種多樣的交叉型學(xué)科研究,這也意味著人類未來的計算機技術(shù)發(fā)展會有更多的可能性,但需要注意的是,想要使得人臉表情識別技術(shù)變得更加智能化、更加精準(zhǔn),仍然需要進(jìn)行更加貼合實際人類需求趨向的技術(shù)改進(jìn),文章將從卷積神經(jīng)網(wǎng)絡(luò)的角度出發(fā),進(jìn)行人臉表情識別技術(shù)的研究。
想要對基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識別進(jìn)行深入的研究與探討,就需要對神經(jīng)網(wǎng)絡(luò)理論以及人臉表情識別技術(shù)有一個更加深入的認(rèn)知。
所謂的神經(jīng)網(wǎng)絡(luò)理論中,神經(jīng)網(wǎng)絡(luò)模型是較為重要的組成部分,該模型能夠?qū)θ四X的結(jié)構(gòu)以及功能進(jìn)行一個數(shù)據(jù)化的模擬反應(yīng)。而神經(jīng)網(wǎng)絡(luò)中最基本的單位是神經(jīng)元,因此要進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建,必須要對神經(jīng)元的信息傳遞方式以及連接方式有一個深刻的認(rèn)知。相關(guān)技術(shù)研究人員發(fā)現(xiàn),使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中要進(jìn)行前向傳播以及反向傳播的訓(xùn)練。相關(guān)技術(shù)研究人員通過對人體神經(jīng)網(wǎng)絡(luò)日常信息反饋和分析的方式與方法研究,進(jìn)行數(shù)字化模擬的神經(jīng)網(wǎng)絡(luò)模型搭建。
卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的重要組成部分,它是一種十分高效的網(wǎng)絡(luò),需要通過多層的神經(jīng)網(wǎng)絡(luò)組合起來才能夠進(jìn)行運用。卷積神經(jīng)網(wǎng)絡(luò)有較為漫長的發(fā)展歷史,隨著人工智能技術(shù)的逐漸發(fā)展和創(chuàng)新,卷積神經(jīng)網(wǎng)絡(luò)的技術(shù)也逐漸達(dá)到了新的高度。在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)工作原理中,僅僅只能夠滿足兩層神經(jīng)元之間的相互連接,但是在日常的計算機運算過程中,全鏈接層上的參數(shù)過多,因此這種傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的工作方式可能會導(dǎo)致整體的網(wǎng)絡(luò)訓(xùn)練速度變得十分緩慢,甚至出現(xiàn)過擬合問題。而卷積神經(jīng)網(wǎng)絡(luò)則完美的規(guī)避了這些缺點,能夠使得全鏈接層上的參數(shù)在計算機運行過程中有明顯的減少,這樣一來整個網(wǎng)絡(luò)訓(xùn)練的速度就能夠得到提升與穩(wěn)定[1-2]。在使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像認(rèn)知識別的過程中,每個神經(jīng)元只需要對圖像的局部特征進(jìn)行辨識,而不需要每個神經(jīng)元都對整個圖像的特征進(jìn)行辨識,這不僅能夠使得圖像識別的精準(zhǔn)程度得到提升,還能夠使得圖像識別的速度得到提升。因此相比較傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)在人臉表情識別方面的使用,卷積神經(jīng)網(wǎng)絡(luò)的使用會變得更加方便、快捷。
想要成功地進(jìn)行人臉表情識別,要經(jīng)歷3個階段,第1個階段是人臉檢測階段,第2個階段是人臉表情特征的提取階段,第3個階段是人臉表情的識別階段。這3個階段缺一不可,共同完成一次人臉表情的精準(zhǔn)識別。所謂的人臉檢測指的是在圖像中精準(zhǔn)的找出人臉的位置,因此不論是第二階段還是第三階段的應(yīng)用,都需要經(jīng)歷第一階段,如果相關(guān)神經(jīng)網(wǎng)絡(luò)技術(shù)的應(yīng)用,無法在圖像中進(jìn)行人臉位置的準(zhǔn)確提取,那么第二階段與第三階段也就無從談起。能夠用來進(jìn)行人臉檢測的方式有很多。在第一階段完成之后,到了第二階段,就需要進(jìn)行人臉表情的特征提取,所謂人臉表情的特征,指的是面部肌肉以及紋理變化的相關(guān)特征數(shù)據(jù)化,通過數(shù)據(jù)化的呈現(xiàn)來進(jìn)行準(zhǔn)確地提取和分析。相關(guān)人臉表情識別技術(shù)不僅要運用到靜態(tài)圖像上,而且需要運用到動態(tài)圖像上。而運用到靜態(tài)圖像上的技術(shù)與運用到動態(tài)圖像上的技術(shù)有些微小的差別,因此相關(guān)技術(shù)人員必須要對不同圖像類型的人臉表情特征提取進(jìn)行不同的基礎(chǔ)研究。到了第三階段之后,由于已經(jīng)有了提取出的人臉表情特征信息,因此該步驟只需要判斷提取出來的特征屬于哪一類別,便算是完成了整體的人臉表情識別。這一步驟的完成也可以通過幾種不同的算法來進(jìn)行??偠灾?,人臉表情識別方式以及技術(shù)手段仍然有不斷改進(jìn)的可能,在卷積網(wǎng)絡(luò)神經(jīng)技術(shù)使用基礎(chǔ)上進(jìn)行人臉識別技術(shù)的使用,更能夠保證其準(zhǔn)確性。
為了使未來的人臉精準(zhǔn)識別能夠變得更加高效準(zhǔn)確,許多技術(shù)研究人員開始通過數(shù)據(jù)庫的建立來進(jìn)行人臉表情的搜索與整理?,F(xiàn)有的人臉表情數(shù)據(jù)庫在數(shù)據(jù)存儲量上并不符合使用軍機神經(jīng)網(wǎng)絡(luò)來幫助進(jìn)行高效表情識別的期待,因此為了使得研究變得更加精準(zhǔn)合理,應(yīng)當(dāng)建立能夠使用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行人臉表情識別研究的人臉表情圖像數(shù)據(jù)集。下文將對數(shù)據(jù)庫集的建立進(jìn)行深入的分析與研究。
想要使得相關(guān)人臉精準(zhǔn)識別數(shù)據(jù)庫更具典型性與代表性,在相關(guān)數(shù)據(jù)的收集過程中,就應(yīng)當(dāng)以認(rèn)真負(fù)責(zé)的態(tài)度來確保相關(guān)數(shù)據(jù)的真實性。具體到人臉精準(zhǔn)識別數(shù)據(jù)庫的建立上,則表現(xiàn)為相關(guān)技術(shù)研究人員需要對人臉最具代表性的5大類表情:面無表情、微笑、哭泣、驚訝以及生氣進(jìn)行最為精準(zhǔn)性的收集。其中微笑表情的面部特征是面部肌肉強有力的收縮,面頰向上,眼角下的皮膚略微有些松弛,眼角的魚尾紋會皺起。而哭泣表情則是嘴巴張大,整個面部表情向下,眼睛緊閉或是上下眼皮靠攏。而到了生氣這一表情,相關(guān)技術(shù)人員所需要進(jìn)行關(guān)注的面部特征是眼睛睜大,瞳孔變小,以及上下牙齒咬合在一起。而所謂的面無表情就是從表情分析上看不出人類想要表達(dá)的情緒[1]。驚訝表情則是嘴唇張大,眼睛張大,瞳孔放大,擁有這一類表情特征的圖片則會被標(biāo)記為驚訝。當(dāng)然技術(shù)研究在進(jìn)行相關(guān)面部圖像表情采集的過程中,所需要運用到的采集技術(shù)有兩種:一種是爬蟲采集,另一種是手動采集。手工采集是一種較為原始和傳統(tǒng)的信息采集方式,需要靠技術(shù)人員在互聯(lián)網(wǎng)上進(jìn)行手動的信息獲取。在進(jìn)行人臉表情數(shù)據(jù)庫建立過程中所需要使用到的爬蟲技術(shù)是圖像數(shù)據(jù)爬取。準(zhǔn)確無誤的使用該技術(shù),可以更加真實的進(jìn)行相關(guān)人員數(shù)據(jù)的獲取和整理,這對進(jìn)行相應(yīng)數(shù)據(jù)庫的建立是能夠起到助力的。
倘若相關(guān)人臉表情識別的數(shù)據(jù)收集較為真實且高質(zhì)量,那么在進(jìn)行下一步的相應(yīng)人臉表情數(shù)據(jù)識別過程中,相關(guān)識別效率就能夠得到有效的提升。因此在進(jìn)行數(shù)據(jù)庫的建立過程中,進(jìn)行人臉表情識別準(zhǔn)確性的提升是很有必要的。在數(shù)據(jù)的預(yù)處理工作完成后,還要對已經(jīng)處理過的數(shù)據(jù)信息進(jìn)行統(tǒng)一的尺寸修改以及格式修改和命名修改,通常情況下,人臉表情數(shù)據(jù)信息采集在進(jìn)行了預(yù)處理過程后,都需要統(tǒng)一為JPG格式,并且相關(guān)的分辨率,通常情況下分辨率需要統(tǒng)一為227×27的模式,才能夠被當(dāng)作原始的參照圖像資料存入庫中[2]。在這一流程完畢后,相關(guān)的數(shù)據(jù)庫建立便宣告完成。
雖然相比較傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型而言,AlexNet具有無可比擬的優(yōu)勢,并且能夠使得相關(guān)的人臉表情識別效率質(zhì)量大大提升,但是在人工智能技術(shù)不斷發(fā)展與改進(jìn)的過程中,相關(guān)技術(shù)人員仍然發(fā)現(xiàn)AlexNet網(wǎng)絡(luò)結(jié)構(gòu)存在著一定的缺陷。例如使用該網(wǎng)絡(luò)結(jié)構(gòu)對人臉表情進(jìn)行識別實驗,最終的精準(zhǔn)程度是74.91%。就是說它能夠識別大部分的人類面部表情,但仍然存在誤差,這意味著相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)在卷積操作的特征提取過程中所使用的卷積操作卷積核尺寸并不具備多樣性[3]。想要在未來的卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行人類面部表情識別,并且使得相關(guān)面部表情識別變得更加精準(zhǔn)和高質(zhì)量,就需要對現(xiàn)階段所使用的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行進(jìn)一步的改進(jìn)與完善。
總而言之,在人工智能技術(shù)不斷發(fā)展與完善的過程中,想要使用卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行面部表情的識別與抓取,并且使得相關(guān)識別質(zhì)量與速率能夠得到明顯的改進(jìn),就需要不斷結(jié)合人工智能技術(shù)的發(fā)展趨向來進(jìn)行相關(guān)識別技術(shù)的完善,這項技術(shù)的改進(jìn)能夠?qū)θ祟惖拿娌勘砬檫M(jìn)行更好地解讀,也會在一定程度上促進(jìn)人與人之間的良好溝通,使得人類日常的生活和工作變得更加方便快捷。