陳保國(guó)
(南京鐵道職業(yè)技術(shù)學(xué)院,江蘇南京,210031)
最近幾年,隨著物聯(lián)網(wǎng)技術(shù)、圖像處理技術(shù)以及數(shù)據(jù)傳輸技術(shù)的快速發(fā)展,視頻網(wǎng)絡(luò)技術(shù)應(yīng)運(yùn)而生并取得了長(zhǎng)足的發(fā)展。當(dāng)前,視頻網(wǎng)絡(luò)系統(tǒng)作為一種模擬數(shù)字控制系統(tǒng),其具有非常成熟和穩(wěn)定的性能,已廣泛應(yīng)用于實(shí)際工程中。雖然數(shù)字系統(tǒng)發(fā)展迅速,但尚未完全形成相應(yīng)的體系,因此,混合數(shù)字和模擬應(yīng)用程序逐漸遷移到數(shù)字系統(tǒng)將成為未來發(fā)展的主要趨勢(shì)之一。當(dāng)前,國(guó)內(nèi)外市場(chǎng)上主流的產(chǎn)品主要有兩種,即模擬視頻數(shù)字網(wǎng)絡(luò)系統(tǒng)、數(shù)字視頻網(wǎng)絡(luò)系統(tǒng)。前者技術(shù)先進(jìn),性能穩(wěn)定,被廣泛應(yīng)用于實(shí)際工程應(yīng)用中,特別是大中型視頻網(wǎng)絡(luò)項(xiàng)目。后者作為一種新興技術(shù),是一種通過以計(jì)算機(jī)技術(shù)和視頻壓縮為核心的新型視頻網(wǎng)絡(luò)系統(tǒng),其有效的避免了模擬系統(tǒng)所存在的一些弊端,但未來仍需要進(jìn)行不斷的改進(jìn)和發(fā)展。外部集成、視頻數(shù)字化、視頻網(wǎng)絡(luò)連接、系統(tǒng)集成是未來視頻網(wǎng)絡(luò)系統(tǒng)發(fā)展的重要研究方向。數(shù)字化是網(wǎng)絡(luò)的前提,而網(wǎng)絡(luò)是系統(tǒng)集成的基礎(chǔ)。因此,視頻網(wǎng)絡(luò)領(lǐng)域的兩個(gè)最大發(fā)展特征是:數(shù)字化和網(wǎng)絡(luò)化。
人臉識(shí)別技術(shù)作為模式識(shí)別領(lǐng)域中的一項(xiàng)前沿課題,截止目前,已有三十多年的研究歷史。人臉識(shí)別目前是模式識(shí)別和人工智能的研究熱點(diǎn),目前主要采用AdaBoost分類器進(jìn)行人臉區(qū)域的檢測(cè),人臉識(shí)別研究的內(nèi)容大致分為以下內(nèi)容:
(1)人臉檢測(cè):其指的是在不同場(chǎng)景下的人臉檢測(cè)及其位置。人臉檢測(cè)是通過在整個(gè)輸入的圖像中找到一個(gè)合適的人臉區(qū)域?yàn)槟康?,并將該圖像分為人臉區(qū)域和非人臉區(qū)域兩部分。在實(shí)際的某些理想情況下,由于可以人為手動(dòng)控制拍攝環(huán)境,因此,可以輕松確定人臉的位置;但是在大多數(shù)情況下,由于場(chǎng)景更加復(fù)雜,因此,人臉的位置是未知的。因而在實(shí)際的人臉識(shí)別視頻網(wǎng)絡(luò)過程中,首先必須確定識(shí)別場(chǎng)景中是否有人臉的存在,如果存在人臉,再進(jìn)一步確定圖像中人臉的具體區(qū)域。
(2)人臉識(shí)別:將系統(tǒng)檢測(cè)到的人臉特征信息與系統(tǒng)數(shù)據(jù)庫(kù)中存在的已知人臉信息進(jìn)行充分識(shí)別與匹配,以此獲取相關(guān)信息,該過程的本質(zhì)是選擇正確的人臉模型和匹配策略。在實(shí)際生活的應(yīng)用當(dāng)中,由于成人的面部模型處于不斷變化當(dāng)中,且容易受到時(shí)間、光線、相機(jī)角度等方面的差異,因而很難用一張圖紙表達(dá)同一個(gè)人的面部圖像,這使得提取特征變得困難,由于大量的原始灰度圖像數(shù)據(jù),神經(jīng)元的數(shù)量通常很大并且訓(xùn)練時(shí)間很長(zhǎng)。除此之外,完全依賴于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法具有當(dāng)前計(jì)算機(jī)系統(tǒng)固有的局限性,盡管神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的感應(yīng)能力,但是隨著樣本數(shù)量的增加,其性能可能會(huì)大大降低。簡(jiǎn)而言之,由于年齡,表情,傾斜度和其他表征對(duì)象的因素的多樣性,很難進(jìn)行人臉識(shí)別,因此,識(shí)別該對(duì)象的效果仍遠(yuǎn)未達(dá)到現(xiàn)實(shí)。目前,普遍采用AdaBoost算法來對(duì)出現(xiàn)在視頻中的人臉區(qū)域進(jìn)行檢測(cè),以此達(dá)到實(shí)時(shí)獲取人臉圖像的目的,AdaBoost算法的原理是通過訓(xùn)練得到多個(gè)不同的弱分類器并將這些弱分類器通過疊加、級(jí)聯(lián)得到強(qiáng)分類器,AdaBoost算法流程如圖1所示。
圖1 AdaBoost算法流程圖
(3)表情分析:即對(duì)面部表情信息(幸福,悲傷,恐懼,驚奇等)進(jìn)行分析和分類。當(dāng)前,由于問題的復(fù)雜性,正在對(duì)面部表情的分析進(jìn)行研究,它仍處于起步階段。心理學(xué)表明,至少有六種與不同面部表情相關(guān)的情緒:幸福,悲傷,驚奇,恐懼,憤怒和惡心。即與沒有表情的面部特征相比,這六個(gè)表情的面部特征具有相對(duì)獨(dú)特的運(yùn)動(dòng)規(guī)則。
(4)生理分類:分析已知面孔的生理特征,并獲得相關(guān)信息,例如種族、年齡、性別和職業(yè)。顯然,此過程需要大量知識(shí),通常非常困難和復(fù)雜。
卷積神經(jīng)網(wǎng)絡(luò)是專門設(shè)計(jì)用于識(shí)別二維形狀的多層感知器。通常,可以使用梯度下降和反向傳播算法來訓(xùn)練網(wǎng)絡(luò)。從結(jié)構(gòu)上講,卷積神經(jīng)網(wǎng)絡(luò)包含三個(gè)概念:局部感受野、權(quán)重共享和下采樣,使其在平移,縮放,傾斜或其他形式的變形中相當(dāng)穩(wěn)定。當(dāng)前,卷積神經(jīng)網(wǎng)絡(luò)被廣泛用于模式識(shí)別,圖像處理和其他領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于提取目標(biāo)人臉圖像的特征。訓(xùn)練網(wǎng)絡(luò)后,將先前測(cè)試的模型用作面部分類器,微調(diào)可以縮短網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間。
卷積神經(jīng)網(wǎng)絡(luò)的基本體系結(jié)構(gòu)是輸入層,卷積層(conv),歸約層(字符串),完全連接層和輸出層(分類器)。通常有多個(gè)卷積層+速記層,此程序?qū)崿F(xiàn) 的CNN模 型 是LeNet5,并且有兩個(gè)“卷積+下采樣層”LeNetConvPoolLayer。完全連接的層等效于MLP(多層感知器)中的HiddenLayer。輸出層是一個(gè)分類器,通常使用softmax回歸(有些人稱為直接邏輯回歸,它實(shí)際上是多類邏輯回歸)。LogisticRegression也直接提供了該軟件。人臉圖像在視頻監(jiān)控中實(shí)時(shí)發(fā)送到計(jì)算機(jī),并且面部區(qū)域部分由AdaBoost算法確定。在預(yù)處理之后,將臉部圖像注入到新訓(xùn)練的預(yù)訓(xùn)練模型中進(jìn)行識(shí)別。該過程如圖2所示。
圖2 測(cè)試流程
多目標(biāo)優(yōu)化問題的實(shí)質(zhì)是協(xié)調(diào)并在各個(gè)子目標(biāo)之間達(dá)成折衷,以便使不同的子目標(biāo)功能盡可能地最佳。工程優(yōu)化的大多數(shù)實(shí)際問題都是多用途優(yōu)化問題,目標(biāo)通常相互沖突。長(zhǎng)期以來,多目標(biāo)優(yōu)化一直受到人們的廣泛關(guān)注,現(xiàn)在已經(jīng)開發(fā)出更多的方法來解決多目標(biāo)優(yōu)化問題。
如果多標(biāo)準(zhǔn)優(yōu)化沒有最差的解決方案,那么通常會(huì)有無限多的解決方案,這并不是最差的解決方案。解決面部強(qiáng)調(diào)時(shí),人們不能直接應(yīng)用許多次等解決方案。作為最后的決定,我們只能選擇質(zhì)量不是最低,最能滿足我們要求的解決方案。找到最終解決方案的方法主要有三種。因此,只有通過找到大量有缺陷的解決方案以形成有缺陷的解決方案的子集,然后根據(jù)我們的意圖找到最終的解決方案?;诖耍嗄繕?biāo)算法是通過將多準(zhǔn)則問題轉(zhuǎn)變?yōu)橐粋€(gè)關(guān)鍵問題,這種方法也可以視為輔助手段。這種方法的棘手部分是如何獲取實(shí)際體重信息,至于面部特征,我們將建議一種基于權(quán)重的多功能優(yōu)化算法,該算法可以更好地反映臉部的特征。
我們將人臉的每個(gè)特征都視為多個(gè)目標(biāo),并且在提取面部特征時(shí),面部特征會(huì)受到外界的強(qiáng)烈影響,例如位置,光照條件和強(qiáng)度的變化,并且所有部位和每個(gè)部位都會(huì)受到影響。因此,我們可以使用加權(quán)方法從每個(gè)受影響的分?jǐn)?shù)中提取不同的權(quán)重。
圖3 物聯(lián)網(wǎng)人臉識(shí)別視頻網(wǎng)絡(luò)多目標(biāo)算法的優(yōu)化前后的比較
通過開展試驗(yàn)測(cè)試,結(jié)果表明,在有多目標(biāo)優(yōu)化的算法的作用下,比在沒有多目標(biāo)優(yōu)化的算法作用下人臉識(shí)別效果有所提高,大約提高了5—10個(gè)百分點(diǎn)。
鑒于多準(zhǔn)則優(yōu)化算法在科學(xué)研究的各個(gè)領(lǐng)域中的廣泛使用,本文提出了一種多準(zhǔn)則優(yōu)化算法來對(duì)復(fù)雜的多準(zhǔn)則人臉圖像上的各種面部特征進(jìn)行特征提取的多準(zhǔn)則優(yōu)化,以達(dá)到提高人臉識(shí)別率的目標(biāo)、提高整個(gè)人臉識(shí)別視頻網(wǎng)絡(luò)系統(tǒng)的性能。