王 珅 張杰良 張洪英
(1.清華大學電子工程系,北京 100084; 2.中國人民解放軍61416部隊,北京 100036; 3.中國人民解放軍31006部隊,北京 100036)
視頻會議畫面的特點是側(cè)重于人物的特寫,即主要拍攝人物的正面畫面,針對這一應(yīng)用特點,視頻會議畫面質(zhì)量的評價主要側(cè)重于人物臉部畫面質(zhì)量的評價,主要包括臉部畫面是否居中對稱、光照是否對稱均勻、對比度和清晰度是否合理.在視頻會議保障過程中,為了使臉部畫面更為清晰可見,視頻會議室的光照通常采用人工光源進行補光,在補光過程中需要保證光照既不能過量,也不能過低,而且光照強度適中,同時還要均勻,以免影響畫面質(zhì)量.本文針對視頻會議參與人員的近景特寫圖像,提出并實現(xiàn)了一種基于深度學習的人臉光照對稱性評價方法.該方法基本思想在于采用目前流行的深度學習模型:首先大量收集會議室相關(guān)圖片及視頻樣本,使數(shù)據(jù)有足夠的代表性,能涵蓋在視頻會議畫面中人臉光照對稱性出現(xiàn)的各種情況;其次使用有經(jīng)驗的人對這些樣本的質(zhì)量進行主觀評價,使模型可以反映人的主觀評價;最后建立模仿人類的神經(jīng)網(wǎng)絡(luò)的深度學習模型,使得最終的模型與人的評價大致符合,其基本框架如圖1所示.
圖1 深度學習基本框架
深度學習(deep learning)用來解決抽象認知的難題,將人工智能這一領(lǐng)域帶上了一個新的臺階.區(qū)別于傳統(tǒng)的淺層學習,深度學習的不同在于:
1)強調(diào)了模型結(jié)構(gòu)的深度,通常有5層、6層,甚至10多層的隱層節(jié)點;
2)明確突出了特征學習的重要性,也就是說,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預(yù)測更加容易.
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,簡稱CNN)是一種基于多層神經(jīng)網(wǎng)絡(luò)的深度學習模型,采用反向傳播算法BP(back propagation)設(shè)計并進行訓練.相對于其他深度學習模型,在處理多維數(shù)據(jù)時CNN效果更加顯著,識別錯誤率低,可應(yīng)用于圖像、視頻的檢測、識別和評價領(lǐng)域[1-3].
卷積神經(jīng)網(wǎng)絡(luò)通常至少有2個非線性可訓練的卷積層,2個非線性的固定卷積層(又叫pooling layer)和1個全連接層,一共至少5個隱含層.CNN的結(jié)構(gòu)受到著名的Hubel-Wiesel生物視覺模型的啟發(fā),尤其是模擬視覺皮層V1和V2層中simple cell和complex cell的行為.Hinton和他的學生在著名的ImageNet問題[4]上通過采用更深的CNN,使得圖像識別大踏步前進.在Hinton的模型里,輸入圖像的像素,沒有用到任何的人工特征,特征都是學習出來的.與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學習特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息.Hinton深度學習CNN模型如圖2所示.
圖2 Hinton深度學習CNN模型
一般來說,在理想狀況下,人臉基本是左右對稱的,但由于某些外界因素的出現(xiàn),如人臉區(qū)域出現(xiàn)非均勻光照以及非正面的人臉姿態(tài),往往會影響人臉的左右對稱性.因此,人臉的左右對稱性可以用來當作評估人臉圖像失真中的非均勻光照失真和非正面姿態(tài)失真的評價指標.人臉圖像左右部分的差異越小,則人臉越對稱,失真程度越??;反之,左右部分的差異越大,則左右半臉越不對稱,失真程度就越大.
由于人臉的五官與膚色有明顯的差異,為了避免五官對亮度分布的影響,需要提取臉部、眼睛、鼻孔和嘴等.從算法角度出發(fā),首先檢測到畫面中的人臉,之后提取人臉中的關(guān)鍵點,如五官的位置,人臉的輪廓等,最后在剔除五官之后,評價剩余人臉圖像的整體對稱性.
本文主要展開討論人臉檢測算法和眼睛檢測算法,鼻孔、嘴巴等其他五官的檢測算法類似于眼睛檢測算法.
為了實現(xiàn)對會場人臉圖像的質(zhì)量評價,首先我們必須檢測定位到人臉的具體位置,因此,首先我們需要實現(xiàn)人臉檢測功能.
我們采用了基于多視角多通道boosting的人臉檢測方案.在人臉檢測模塊中,首先將一幅輸入圖像分解成許多不同位置、不同尺度的子窗口圖像;然后由分類器判斷每一個子窗口圖片是不是人臉;最后,合并所有被判定為人臉的窗口和其附近的窗口以形成最終檢測結(jié)果,如圖3所示.
圖3 多視角多通道boosting人臉檢測方案
人臉級聯(lián)分類器的正樣本訓練集是178 000張尺寸為20×20像素的各種類型人臉圖像.候選的弱分類器通過在多尺度Haar特征上的閥值調(diào)整來構(gòu)造.每次迭代過程中,AdaBoost學習算法首先計算出每一個候選特征的最優(yōu)閥值,這個閥值使特征所代表的弱分類器在訓練集上加權(quán)分類錯誤率最小,然后在這些最優(yōu)加權(quán)分類錯誤率中選擇最小的那個弱分類器作為最優(yōu)分類器.當訓練好一個強分類器后,后續(xù)級聯(lián)分類器中的強分類器使用重采樣的負樣本,它們來自于已經(jīng)訓練好的級聯(lián)強分類器.
我們采用排序?qū)W習的方法實現(xiàn)眼睛定位和特征點對齊.眼睛定位也可以稱作眼睛檢測,實現(xiàn)方法類似于人臉檢測,并使用基于擴展Haar特征的級聯(lián)AdaBoost分類器進行學習,但是被檢測的區(qū)域位于檢測到的人臉上半部分,并需要輸出眼睛位置.
不戴眼鏡的眼睛檢測是一個相對容易的工作.而在人臉圖像中,在正面可見光情況下,戴眼鏡的眼睛檢測更加困難.這是因為眼鏡對光線的鏡面反射引起眼睛區(qū)域的變化比可見光圖像更加劇烈.這導致直接使用Haar特征加AdaBoost的級聯(lián)解決方案不能滿足眼睛檢測的精度和速度要求.
因此,我們使用從粗到精、分而治之的方法克服這個問題,人臉和眼睛檢測的設(shè)計結(jié)構(gòu)如圖4所示.
該結(jié)構(gòu)包括一系列的遞增使用特殊眼睛數(shù)據(jù)訓練的復(fù)雜眼睛檢測器.當檢測到人臉圖像后,通過一個粗糙眼睛檢測器來分別檢測左、右眼睛,這個檢測器使用所有左眼或右眼的樣本來訓練.這樣可以檢測到幾乎所有的眼睛子窗口并且拒絕掉95%的非眼睛子窗口.接下來,一個精細的不帶眼睛的檢測器將會檢查每一個粗糙的眼睛子窗口,并檢驗它是否屬于不戴眼鏡的模式.假如檢測成功,將會返回一個眼睛區(qū)域;如果失敗,所有子窗口將會通過一個精細的戴眼鏡的檢測器,并檢驗它是否是一個戴眼鏡的模式.通過合并這些檢測結(jié)果將會得到最終決策.這種設(shè)計結(jié)構(gòu)使快速、準確的戴眼鏡(不戴眼鏡)人臉和眼睛檢測變?yōu)榭赡?,如圖5所示.
圖4 人臉檢測流程
圖5 眼睛檢測
這種設(shè)計主要考慮以下幾個方面:通過對戴眼鏡近紅外圖像特征的觀察,我們可以看到(1)戴眼鏡和不戴眼鏡的圖像顯示出巨大差異;(2)因為鏡面反射影響更趨近于人臉的內(nèi)側(cè)部分而不是眼睛的中心,所以戴眼鏡的兩只眼睛圖像不是左右對稱的.混合使用戴眼鏡、不戴眼鏡和左、右眼圖像將會增加樣本的變化程度.然而,由于不戴眼鏡的檢測器已經(jīng)十分準確、高效,并且我們已經(jīng)大體知道左、右眼睛的先驗位置,所以我們手動把眼睛圖像分為三個子集:不戴眼鏡的眼睛圖像、戴眼鏡的左眼圖像和戴眼鏡的右眼圖像,并且為每一類訓練一個有效的眼睛檢測器.因為每一個子集樣本的變化相應(yīng)減少,顯著提高了最終檢測器的性能.
基于深度學習的視頻會議畫面人臉光照對稱性評價方法的流程如圖6所示,包括以下具體步驟:
1)輸入一張圖片,檢測到圖像中的人臉位置;
2)對檢測到的人臉進行關(guān)鍵點定位、姿態(tài)校正和光照預(yù)處理,得到歸一化后人臉圖像;
3)根據(jù)人臉關(guān)鍵點,切取不同尺度,包含不同區(qū)域的人臉圖像塊,目前主要采取眼睛下方區(qū)域,額頭區(qū)域,因為這些區(qū)域相對平坦,而且不受毛發(fā)的影響,整體亮度平均;
4)采用馬爾科夫隨機場方法計算不同人臉圖像特征判別向量間的一致性,得到對稱性分數(shù).
圖6 評價方法流程
參考國際上通用的研究人臉識別的數(shù)據(jù)庫YaleBExt[5],按照其建設(shè)標準,我們考慮了人臉的5種常見姿勢(包括仰視、俯視、平視、左視、右視),組織20個人分別按照戴眼鏡和不戴眼鏡,在10種光照模式下共收集了2 000幅人臉畫面圖像.
在人臉畫面圖像主觀評價過程中,采取相關(guān)專業(yè)人員按照5分制標準進行評價.人工評價員根據(jù)參考圖像,結(jié)合自己的主觀判斷,針對收集到的人臉畫面圖像,給出每個人針對畫面的評價結(jié)果.為了避免單個人的主觀錯誤對整體識別效果的影響,采用多人同時評價同一畫面.綜合同一畫面不同人的評價得分,得出該畫面的最終得分.
視頻質(zhì)量專家組(video quality expert group,簡稱VQEG)[6]定義了四個指標,即SROCC、KROCC、PLCC和RMSE,可用來檢驗客觀結(jié)果和主觀結(jié)果之間的一致性.其中,SROCC指標為斯皮爾曼等級次序相關(guān)系數(shù),KROCC指標為肯德爾等級次序相關(guān)系數(shù),這兩個指標代表評價方法的單調(diào)性,單調(diào)性強表明評價方法性能好,因此這兩個指標的值需要接近于1;PLCC指標為皮爾遜線性相關(guān)系數(shù),該指標代表評價方法的準確性,準確性高表明評價方法優(yōu),因此該指標的值同樣需要接近于1;RMSE指標為均方根誤差,該指標代表評價方法的誤差,誤差小表明評價方法性能準,因此該指標的值相對于客觀評價值要盡量小.
實驗過程中需要首先訓練CNN深度學習模型,從2 000幅人臉畫面圖像中取出1 800幅圖像對模型進行訓練,然后對剩余的200幅圖像進行評價,將獲取的客觀評價結(jié)果與主觀標記分數(shù)進行數(shù)學分析對比,驗證本文所實現(xiàn)方法的準確性、一致性.一致性指標測試結(jié)果如表1所示.
表1 一致性指標測試結(jié)果
從表1中測試結(jié)果可以看出,指標SROCC、KROCC和PLCC都非常接近于1,表明本文基于深度學習的評價方法具有相當高的準確性和單調(diào)性,同時RMSE值也比較小,說明該評價方法的誤差也相對較小,證明本文實現(xiàn)的基于深度學習的評價方法與人工主觀標記結(jié)果具有較高的一致性.
圖7 主客觀評價測試結(jié)果散點圖
客觀評價結(jié)果與主觀標記分數(shù)之間的散點關(guān)系圖如圖7所示,其中縱坐標表示人工主觀標記的分數(shù).在散點圖中,通過擬合曲線可以查看評價方法的一致性,如果擬合曲線平滑,而且各散點距離擬合曲線的距離緊湊,則表明評價方法的一致性高.從圖中可以看出,本文所實現(xiàn)的基于深度學習的評價方法的測試結(jié)果與人工主觀標記分數(shù)具有較好的線性關(guān)系,一致性較高.
本文提出并實現(xiàn)了一種基于深度學習的視頻會議畫面人臉光照對稱性評價方法,綜合考慮了視頻會議室人物特寫畫面時的各種因素,通過實驗表明訓練后的模型與主觀評價方法一致,可用于自動高效地評價視頻會議的人物圖像質(zhì)量.