方冠男 胡騫鶴 方書(shū)雅 劉守印
(華中師范大學(xué)物理科學(xué)與技術(shù)學(xué)院 湖北 武漢 430079)
大學(xué)生課堂考勤制度作為校園制度文化建設(shè)的重要環(huán)節(jié),其所實(shí)施的效果將直接影響著學(xué)校的規(guī)范管理和人才培養(yǎng)質(zhì)量[1]。上課點(diǎn)名的目的是統(tǒng)計(jì)學(xué)生人數(shù),督促學(xué)生按時(shí)上課,進(jìn)而提高教學(xué)質(zhì)量[2]。傳統(tǒng)的課堂考勤由任課教師通過(guò)花名冊(cè)進(jìn)行點(diǎn)名實(shí)現(xiàn)[3],但這種傳統(tǒng)的課堂考勤方式通常會(huì)占用很多課堂時(shí)間,降低了課堂教學(xué)質(zhì)量[4]。
當(dāng)然,近年來(lái)指紋簽到、虹膜識(shí)別等手段也相繼出現(xiàn)并被應(yīng)用,但是考慮到人臉信息特征相比于指紋、虹膜等生物特征,更具有易于獲得、直觀友好、易于區(qū)分等優(yōu)點(diǎn),因此本文選用人臉特征作為識(shí)別對(duì)象。
目前,人臉檢測(cè)的主流方式包含兩大類(lèi)別:基于統(tǒng)計(jì)模型的方法與基于深度學(xué)習(xí)的方法?;诮y(tǒng)計(jì)的人臉檢測(cè)方法有:支持向量機(jī)、haar[5-6]分類(lèi)器、隱馬爾可夫模型HMM(Hidden Markov Models)[7];支持向量機(jī)SVM(Support Vector Machine)的方法[8-9]由于它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,因而表現(xiàn)出很多優(yōu)良的性能。但使用SVM方法訓(xùn)練需要大量的存儲(chǔ)空間,并且訓(xùn)練速度很慢。Nefian等[10]利用隱馬爾可夫模型,這種方法魯棒性較好,適用于對(duì)不同角度和不同光照條件的人臉識(shí)別。haar分類(lèi)器,實(shí)現(xiàn)了實(shí)時(shí)人臉檢測(cè)。缺點(diǎn)是當(dāng)人臉在非約束環(huán)境下,該算法檢測(cè)效果極差?;谏疃葘W(xué)習(xí)的人臉檢測(cè)在非約束環(huán)境下性能遠(yuǎn)勝于上述檢測(cè)方法,目前常用的有Cascade-CNN[11]與MTCNN級(jí)聯(lián)式神經(jīng)網(wǎng)絡(luò)的方法[12]等。
人臉識(shí)別技術(shù)的主要工作是分析人臉圖像并提取特征信息,將特征信息與存儲(chǔ)在人臉庫(kù)中的信息進(jìn)行比較,得到最終的識(shí)別結(jié)果。早期由Turk和Pentland首次提出“特征臉”方法[13-14]是人臉識(shí)別的里程碑,但這種方法的識(shí)別效果過(guò)度依賴(lài)特征定位算法的準(zhǔn)確性,實(shí)用難度較大。隨后Brunelli和Poggio[15]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)模板匹配的方法優(yōu)于基于特征的方法,其優(yōu)點(diǎn)在于光照不變性,但其算法不能摒除人臉面部表情變化的影響。Belhumeur等[16]提出的Fisherface人臉識(shí)別方法首先采用主成分分析PCA對(duì)圖像表觀特征進(jìn)行降維,然后根據(jù)降維特征計(jì)算與目標(biāo)特征的歐氏距離以辨別身份。另一種彈性圖匹配技術(shù)提取人臉Jet特征[17](Gabor變換12特征),得到輸入圖像的屬性圖。然而,這些方法對(duì)光線、年齡、表情等條件變化較為敏感,當(dāng)某些條件發(fā)生變化時(shí),識(shí)別效果并不理想。深度學(xué)習(xí)[19]在人臉特征提取方面取得了巨大成就,減弱了外部因素的影響,提高了人臉識(shí)別的可靠性,從而促進(jìn)了人臉識(shí)別技術(shù)的實(shí)用化。
針對(duì)人臉識(shí)別在課堂點(diǎn)名的應(yīng)用,文獻(xiàn)[2]提出了基于Android移動(dòng)平臺(tái)的課堂人臉識(shí)別系統(tǒng),通過(guò)haar人臉檢測(cè)方法與VGG人臉特征提取網(wǎng)絡(luò)方法對(duì)手機(jī)攝像機(jī)采集到的學(xué)生人臉進(jìn)行身份識(shí)別。但由于該系統(tǒng)拍攝區(qū)域有限,并未起到教室點(diǎn)名的作用。文獻(xiàn)[19]提出了一種結(jié)合AdaBoost的人臉檢測(cè)算法和主成分分析PCA算法的課堂人臉識(shí)別系統(tǒng),但PCA算法對(duì)光線、年齡、表情等條件較為敏感,不能保證提取到的人臉特征信息的一致性,識(shí)別效果不佳。
從已有文獻(xiàn)資料看,大部分論文雖然能在實(shí)驗(yàn)環(huán)境下取得較好的效果,但并未考慮到實(shí)際課堂環(huán)境中的問(wèn)題:1)由于攝像機(jī)設(shè)置在教室前方,因?yàn)椴煌慌c攝像機(jī)的相對(duì)位置不同,造成課堂后排人臉尺寸過(guò)小,人臉圖像質(zhì)量不能滿足識(shí)別的要求。2)在攝像機(jī)所獲取的視頻中,被采集的人臉大多處于非約束狀態(tài),人臉區(qū)域圖像常常呈現(xiàn)像素低、運(yùn)動(dòng)模糊不清和姿態(tài)偏差較大的問(wèn)題。
針對(duì)上述的第一個(gè)問(wèn)題,本文通過(guò)PTZ(平移(Pan)、傾斜(Tilt)、變焦(Zoom)的縮寫(xiě))攝像機(jī)預(yù)置巡航功能對(duì)教室中的每一個(gè)座位設(shè)置巡航點(diǎn),通過(guò)此方式完成了對(duì)單個(gè)學(xué)生目標(biāo)圖像的采集,保證了人臉尺寸的一致性。
本文在基于人臉識(shí)別的課堂點(diǎn)名系統(tǒng)中融合了圖像質(zhì)量評(píng)估方法解決了上述的第二個(gè)問(wèn)題。圖像質(zhì)量客觀評(píng)價(jià)方法可分為全參考FR、部分參考RR和無(wú)參考NR。
全參考評(píng)價(jià)需要選擇一副理想圖像作為參考對(duì)象,與待評(píng)價(jià)圖像進(jìn)行對(duì)比得出待參考圖像的圖像質(zhì)量,由于該理想圖像難以選擇,不適用于本文的應(yīng)用場(chǎng)景。半?yún)⒖荚u(píng)價(jià)依賴(lài)于理想圖像的部分特征,同全參考評(píng)價(jià)圖像一樣需提供一幅“理想圖像”的部分信息做參考,同樣不適用于本文的應(yīng)用場(chǎng)景。因此,完全脫離對(duì)理想?yún)⒖紙D像依賴(lài)的無(wú)參考質(zhì)量評(píng)價(jià)方法是本文解決問(wèn)題的關(guān)鍵。
傳統(tǒng)的無(wú)參考評(píng)價(jià)方法一般都是基于圖像的統(tǒng)計(jì)特性(均值、標(biāo)準(zhǔn)差、平均梯度等)進(jìn)行圖像評(píng)價(jià),然而影像圖像失真的因素往往不止一個(gè),圖像的統(tǒng)計(jì)特性可能無(wú)法系統(tǒng)地表達(dá)多種失真因素。所以本文使用的圖像質(zhì)量評(píng)估方法采用深度卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像的失真特征提取,并在文獻(xiàn)[20]的基礎(chǔ)上進(jìn)一步改進(jìn),經(jīng)測(cè)試,模型性能得到了進(jìn)一步提升,能有效地檢測(cè)并舍棄圖像質(zhì)量較差的人臉區(qū)域圖像。
通過(guò)在基于視頻流人臉識(shí)別的課堂點(diǎn)名系統(tǒng)應(yīng)用人臉圖像質(zhì)量評(píng)估方法,不僅提升了人臉識(shí)別的準(zhǔn)確率,同時(shí)也提升了點(diǎn)名效率,為實(shí)現(xiàn)好的課堂質(zhì)量奠定了基礎(chǔ)。
本文是一種基于視頻流的人臉識(shí)別課堂點(diǎn)名系統(tǒng)。系統(tǒng)整體設(shè)計(jì)框圖如圖1所示,其主要由攝像機(jī)與服務(wù)端兩部分組成。
圖1 系統(tǒng)整體設(shè)計(jì)框圖
攝像機(jī)的主要功能是收集課堂上的實(shí)時(shí)視頻流,將視頻流通過(guò)RTSP協(xié)議傳給服務(wù)端。
服務(wù)端主要由人臉檢測(cè)系統(tǒng)、人臉質(zhì)量評(píng)估系統(tǒng)、人臉識(shí)別系統(tǒng)和MySQL數(shù)據(jù)庫(kù)四部分組成。本文采用MTCNN級(jí)聯(lián)式神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉檢測(cè),然后將檢測(cè)的單人臉區(qū)域圖像輸入到人臉質(zhì)量評(píng)估方法中進(jìn)行分類(lèi),把圖像質(zhì)量符合識(shí)別要求的人臉區(qū)域圖像通過(guò)FaceNet[21]人臉特征提取網(wǎng)絡(luò)進(jìn)行高維特征提??;最后通過(guò)SVC分類(lèi)器[22]對(duì)學(xué)生人臉進(jìn)行識(shí)別。對(duì)圖像質(zhì)量達(dá)不到要求的人臉圖像進(jìn)行舍棄,直到獲取合格的人臉圖像,從而完成教室全部學(xué)生的識(shí)別。人臉識(shí)別完成后,對(duì)學(xué)生出勤狀況進(jìn)行登記,并將信息存入數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)中存儲(chǔ)有根據(jù)各班級(jí)學(xué)生人臉預(yù)訓(xùn)練完成的SVC分類(lèi)器、學(xué)生信息及學(xué)生簽到情況。
文獻(xiàn)[23]使用Viola jones級(jí)聯(lián)式人臉檢測(cè)器,而MTCNN是該級(jí)聯(lián)式結(jié)構(gòu)與深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)合。Viola jones級(jí)聯(lián)式人臉檢測(cè)器主要通過(guò)Haar特征作為分類(lèi)依據(jù),但其特征對(duì)角度極為敏感,當(dāng)人臉角度偏移較大時(shí),將無(wú)法檢測(cè)到人臉。而基于深度學(xué)習(xí)的MTCNN人臉檢測(cè)器是通過(guò)WiderFace數(shù)據(jù)集和FDDB數(shù)據(jù)集訓(xùn)練而來(lái),并在其驗(yàn)證集模型上達(dá)到了95%的準(zhǔn)確率。MTCNN通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)提取的特征對(duì)自然環(huán)境中的光線、角度和人臉表情都具有較好的魯棒性,因此本文選擇采用基于深度學(xué)習(xí)的MTCNN級(jí)聯(lián)式神經(jīng)網(wǎng)絡(luò)人臉檢測(cè)方法。MTCNN采用三級(jí)網(wǎng)絡(luò)結(jié)構(gòu)組成(P-Net,R-Net,O-Net),如圖2所示。P-Net網(wǎng)絡(luò)主要獲得人臉區(qū)域的候選窗口和邊界框的回歸向量,并用該邊界框做回歸,對(duì)候選窗口進(jìn)行校準(zhǔn),然后通過(guò)非極大值抑制(NMS)來(lái)合并高度重疊的候選框。R-Net網(wǎng)絡(luò)依然通過(guò)邊界框回歸和NMS來(lái)進(jìn)一步篩選false-positive區(qū)域。最后使用O-Net輸出最終的人臉框和特征點(diǎn)位置。
圖2 MTCNN的級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)圖
文獻(xiàn)[23]中使用了基于稀疏表示的人臉特征提取方法,但其方法提取的人臉特征對(duì)于人臉表情變化、姿態(tài)角度變化較為敏感,將其應(yīng)用于課堂環(huán)境下,提取的人臉特征一致性較差。同時(shí)該方法也會(huì)給后續(xù)基于學(xué)生社交關(guān)系推理的人臉識(shí)別工作帶來(lái)一定影響。
最近深度學(xué)習(xí)在人臉識(shí)別領(lǐng)域逐漸嶄露頭角,其方法大多已經(jīng)克服了自然客觀因素的影響,其中FaceNet[20]模型在人臉識(shí)別方面中取得了優(yōu)秀效果,因此本文借用了FaceNet網(wǎng)絡(luò)模型結(jié)構(gòu)進(jìn)行人臉特征的提取。原始的FaceNet模型結(jié)構(gòu)主要由inception深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與tripleLet loss損失函數(shù)組成。但在2016年,Szegedy等[24]結(jié)合了resnet以及inception,提出了inception-resnet模型,該模型進(jìn)一步降低了在ImageNet分類(lèi)任務(wù)中top-1以及top-5的錯(cuò)誤率,因此本文選擇inception-resnet-v1模型作為深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其模型結(jié)構(gòu)如圖3所示。
圖3 inception-resnet-v1模型結(jié)構(gòu)圖
在模型訓(xùn)練方面,Wen等[25]提出使用softmax loss和central loss作為損失函數(shù)和訓(xùn)練模型,其方法可以得到更好的人臉特征提取模型。其中,softmax loss定義如下:
(1)
式中:xi∈d為提取的表征屬于yi類(lèi)的第i維特征,特征維度為d;W∈d×n表示最后的全連層的網(wǎng)絡(luò)參數(shù),WJ∈d則表示參數(shù)的第j列;b∈n為偏置項(xiàng)。m為每批次里訓(xùn)練樣本的個(gè)數(shù);n為分類(lèi)中類(lèi)的個(gè)數(shù)。
Central loss可以減小被提取的特征在類(lèi)間的距離,Central loss的定義如下:
(2)
式中:cyi∈d表示屬于yi類(lèi)的特征的中心。cyi在每批訓(xùn)練需要使用整個(gè)數(shù)據(jù)集時(shí)更新計(jì)算,計(jì)算量過(guò)大。在訓(xùn)練時(shí),只更新當(dāng)前用于訓(xùn)練的該批數(shù)據(jù)所涉及的類(lèi)中心。最后損失函數(shù)為:
(3)
因子λ用以平衡Ls和Lc。本文通過(guò)式(3)作為損失函數(shù)進(jìn)行訓(xùn)練,由此可得更為一致的人臉特征。而更改后的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示。
圖4 更改后的FaceNet網(wǎng)絡(luò)模型結(jié)構(gòu)圖
在本文中,首先將使用inception-Resnet-v1模型結(jié)構(gòu)與softmax loss和center loss作為損失函數(shù)相結(jié)合的方法在LFW數(shù)據(jù)集[26]上訓(xùn)練得到的預(yù)訓(xùn)練模型對(duì)單張人臉進(jìn)行特征提取。然后將提取的128維特征作為輸入,將其作為SVC分類(lèi)器的訓(xùn)練集,對(duì)SVC分類(lèi)器進(jìn)行有監(jiān)督訓(xùn)練。最后將SVC分類(lèi)器模型存入數(shù)據(jù)庫(kù)。當(dāng)進(jìn)行班級(jí)點(diǎn)名時(shí),本文通過(guò)預(yù)訓(xùn)練模型提取人臉圖像的128維特征,然后將特征矩陣輸入至預(yù)訓(xùn)練的SVC分類(lèi)器,即可得到最終的識(shí)別結(jié)果。
文獻(xiàn)[23]中提到在課堂環(huán)境下拍攝的面部照片大小不一、分辨率不同,甚至還會(huì)嚴(yán)重扭曲。因此,為了避免惡劣環(huán)境對(duì)人臉圖像的影響,其提出了基于地理位置推理式的人臉識(shí)別方法。該方法有較強(qiáng)的創(chuàng)新意識(shí),但仍舊不能完全擺脫因圖像失真造成準(zhǔn)確率下降的問(wèn)題。
因此本文采用PTZ攝像機(jī)的預(yù)置位方式,解決了課堂后排人臉圖像尺寸過(guò)小的問(wèn)題。實(shí)驗(yàn)結(jié)果如圖5所示。
(a) 全景幀
(b) 調(diào)整至預(yù)置位后的區(qū)域幀圖5 實(shí)驗(yàn)結(jié)果
圖5(a)為覆蓋了課堂全場(chǎng)景視頻幀,可見(jiàn)后排人臉尺寸偏小,人臉辨識(shí)度極低。(b)為攝像機(jī)調(diào)整至預(yù)置位,變焦放大后的圖像結(jié)果,由圖中可看出人臉細(xì)節(jié)豐滿,辨識(shí)度較高。
雖然基于深度學(xué)習(xí)的人臉特征提取網(wǎng)絡(luò)解決了光照、表情、姿態(tài)等大部分難題,但在實(shí)際的課堂環(huán)境下,仍有如下問(wèn)題:在攝像機(jī)所獲取的視頻流中,被采集的單人臉大多處于非約束狀態(tài),單人臉區(qū)域圖像常常呈現(xiàn)像素低、模糊不清和姿態(tài)偏差較大的特點(diǎn)。如圖6所示為視頻中通過(guò)人臉檢測(cè)方法提取的人臉區(qū)域圖像。若直接使用這些提取的人臉圖像進(jìn)行人臉識(shí)別,會(huì)對(duì)人臉識(shí)別系統(tǒng)的準(zhǔn)確率造成較大影響,無(wú)法保證系統(tǒng)的正確性和魯棒性。
圖6 非約束狀態(tài)人臉圖
我們將以上這類(lèi)問(wèn)題歸結(jié)為人臉區(qū)域圖像質(zhì)量評(píng)估問(wèn)題,那么如何對(duì)視頻關(guān)鍵幀中的人臉區(qū)域圖像質(zhì)量進(jìn)行量化評(píng)估,便成為了本文主要研究?jī)?nèi)容之一。本文借鑒了圖像質(zhì)量評(píng)估領(lǐng)域的無(wú)參考圖像質(zhì)量評(píng)估方法,根據(jù)失真圖像的自身特征來(lái)估計(jì)圖像質(zhì)量。
本文選擇了VGG19網(wǎng)絡(luò)體系結(jié)構(gòu)[27]作為圖像特征提取器,但在實(shí)踐中,由于訓(xùn)練CNN神經(jīng)網(wǎng)絡(luò)需要足夠大的數(shù)據(jù)集,而通常這些數(shù)據(jù)很難得到,完整訓(xùn)練大數(shù)據(jù)集對(duì)硬件要求也頗高,因此很少有人從零開(kāi)始訓(xùn)練整個(gè)CNN神經(jīng)網(wǎng)絡(luò)。相反,采用在不同的開(kāi)源大型數(shù)據(jù)集(例如ImageNet[28])上的預(yù)訓(xùn)練模型,并將其作為特征提取器或用作進(jìn)一步學(xué)習(xí)過(guò)程的初始化(即轉(zhuǎn)移學(xué)習(xí),也稱(chēng)為微調(diào)[29])是常見(jiàn)的。因此我們將在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練后得到的VGG19模型的最后一個(gè)全連接層用隨機(jī)值初始化的方法進(jìn)行了權(quán)值替換,新的全連接層是從零開(kāi)始訓(xùn)練的,其他層的權(quán)重是通過(guò)反向傳播算法[30]和可用的LFW-IQA圖像質(zhì)量評(píng)估數(shù)據(jù)集來(lái)進(jìn)行更新的,以此方法完成了對(duì)圖像質(zhì)量評(píng)估模型的微調(diào)。在這個(gè)體系之上,最后從CNN提取出的圖像特征到MOS(平均主觀質(zhì)量分?jǐn)?shù))的映射函數(shù)將由帶有線性內(nèi)核的SVR(支持向量機(jī)回歸算法)學(xué)習(xí)得到。
人臉圖像質(zhì)量評(píng)估結(jié)構(gòu)如圖7所示。圖像將通過(guò)以上預(yù)訓(xùn)練的CNN模型與SVR模型,得到平均主觀質(zhì)量分?jǐn)?shù)(即MOS)。根據(jù)5個(gè)MOS分?jǐn)?shù)段落,可將人臉圖像質(zhì)量分為5個(gè)等級(jí):差、較差、一般、好、優(yōu)質(zhì)。
圖7 人臉圖像質(zhì)量評(píng)估結(jié)構(gòu)圖
通過(guò)該評(píng)估方法得到MOS分?jǐn)?shù),本文將MOS分?jǐn)?shù)小于60的人臉區(qū)域舍棄,即合理地從視頻流中選取符合識(shí)別質(zhì)量要求的人臉區(qū)域圖像。
由圖8所示結(jié)果可明顯看出,從左至右圖像質(zhì)量依次對(duì)應(yīng)上述的5個(gè)等級(jí),差[0~20]、較差[20~40]、一般[40~60]、好[60~80]、優(yōu)質(zhì)[80~100]。
圖8 人臉質(zhì)量評(píng)估結(jié)果
本文的學(xué)生人臉數(shù)據(jù)集是通過(guò)攝像機(jī)獲取2個(gè)班的學(xué)生(分別為15人和21人)個(gè)體圖像,并對(duì)圖像進(jìn)行人臉檢測(cè)和人臉對(duì)齊以獲取單人臉區(qū)域圖像。一共采集了36名學(xué)生的3 600張單人臉區(qū)域圖像(每名學(xué)生100張)作為SVC分類(lèi)器的數(shù)據(jù)集,部分?jǐn)?shù)據(jù)集如圖9所示。將數(shù)據(jù)集隨機(jī)分為80%訓(xùn)練集和20%測(cè)試集。為了檢驗(yàn)訓(xùn)練集樣本數(shù)量對(duì)訓(xùn)練出的SVC分類(lèi)器性能的影響,依次增大訓(xùn)練集的圖像數(shù)量(從5~80,每次增加5張圖像)訓(xùn)練出不同的SVC分類(lèi)器并在同一測(cè)試集上驗(yàn)證準(zhǔn)確度。
圖9 部分?jǐn)?shù)據(jù)集示例
實(shí)驗(yàn)結(jié)果如圖10所示,橫坐標(biāo)代表訓(xùn)練SVC分類(lèi)器所使用的圖像樣本數(shù)量,縱坐標(biāo)代表SVC分類(lèi)器在測(cè)試集上的平均準(zhǔn)確率。(例:通過(guò)每人5張圖像作為訓(xùn)練集訓(xùn)練的分類(lèi)器在測(cè)試集上的平均準(zhǔn)確率在0.86左右。通過(guò)每人80張圖像作為訓(xùn)練集訓(xùn)練的分類(lèi)器在測(cè)試集上的平均準(zhǔn)確率在0.98左右)。因此本文系統(tǒng)中使用的預(yù)訓(xùn)練SVC分類(lèi)器是通過(guò)每名學(xué)生80張圖像訓(xùn)練完成的。
圖10 分類(lèi)器在同一測(cè)試集上的測(cè)試結(jié)果
為了驗(yàn)證不同的人臉圖像質(zhì)量對(duì)人臉識(shí)別系統(tǒng)準(zhǔn)確率的影響。本文選擇了36個(gè)學(xué)生在視頻流中出現(xiàn)的歸一化后的單人臉區(qū)域圖像作為測(cè)試集,并將此測(cè)試集通過(guò)本文的人臉質(zhì)量評(píng)估系統(tǒng)評(píng)價(jià)得出MOS(平均主觀質(zhì)量分?jǐn)?shù))。本文將MOS分?jǐn)?shù)大于60的作為人臉圖像質(zhì)量較高的一類(lèi),即測(cè)試集H;其余的作為人臉圖像質(zhì)量較差的一類(lèi),即測(cè)試集L。每個(gè)測(cè)試集中都含有36個(gè)學(xué)生個(gè)體的20張單人臉區(qū)域圖像,測(cè)試結(jié)果如圖11所示。
圖11 不同質(zhì)量圖像的準(zhǔn)確度
由圖11的測(cè)試結(jié)果可以看出,人臉識(shí)別系統(tǒng)對(duì)于單人臉區(qū)域圖像質(zhì)量高的圖像的準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于人臉圖像質(zhì)量低的準(zhǔn)確率。由此可以得出,人臉圖像的質(zhì)量對(duì)整個(gè)人臉識(shí)別系統(tǒng)有較大影響。
通過(guò)文獻(xiàn)[31-32]的數(shù)據(jù)集對(duì)本文提出的圖像質(zhì)量評(píng)估模型進(jìn)行評(píng)估。其包含1 162張500×500像素的圖像,這些圖像受到各種真實(shí)失真和真實(shí)人為因素的影響,如低光噪聲和模糊、運(yùn)動(dòng)引起的模糊、曝光過(guò)度和曝光不足、壓縮錯(cuò)誤等。該圖像數(shù)據(jù)庫(kù)已經(jīng)收集了8 100位專(zhuān)業(yè)人士的超過(guò)350 000的意見(jiàn)分?jǐn)?shù)。每幅圖像的主觀意見(jiàn)分?jǐn)?shù)(MOS)是通過(guò)平均各科目的個(gè)體評(píng)分計(jì)算得到的,并將其作為真實(shí)的圖像質(zhì)量分?jǐn)?shù)。本文比較了一些領(lǐng)先的無(wú)參考圖像質(zhì)量評(píng)估方法,由于大多數(shù)算法都是基于機(jī)器學(xué)習(xí)的訓(xùn)練過(guò)程,因此在所有實(shí)驗(yàn)中,我們將數(shù)據(jù)集隨機(jī)分為80%訓(xùn)練集和20%測(cè)試集,使用訓(xùn)練數(shù)據(jù)對(duì)上述在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練完成的模型進(jìn)行微調(diào),并在測(cè)試集上驗(yàn)證它的性能。為了降低由于數(shù)據(jù)分割造成的偏差,數(shù)據(jù)集將隨機(jī)分割重復(fù)10次,對(duì)于每次重復(fù),計(jì)算預(yù)測(cè)和實(shí)際質(zhì)量得分之間的皮爾遜線性相關(guān)系數(shù)(LCC)和斯皮爾曼秩相關(guān)系數(shù)(SROCC),選擇10次重復(fù)試驗(yàn)的中位數(shù)作為最終結(jié)果。測(cè)試結(jié)果如表1所示,可以看出通過(guò)微調(diào)后的預(yù)訓(xùn)練模型(BIQVGG)能夠?qū)CC和SROCC分別提高0.05和0.09。
表1 各算法在LFW IQ Chall.DB.數(shù)據(jù)集中10次隨機(jī)分組的LCC和SROCC中位數(shù)
通過(guò)本模型預(yù)測(cè)的MOS圖像質(zhì)量分?jǐn)?shù)與真實(shí)的MOS圖像質(zhì)量分?jǐn)?shù)存在11%的均方根誤差(RMSE)。
本文分別在兩個(gè)班級(jí)(班級(jí)A和班級(jí)B)進(jìn)行了實(shí)驗(yàn),對(duì)比了通過(guò)人臉質(zhì)量評(píng)估與未通過(guò)人臉質(zhì)量評(píng)估情況下的人臉識(shí)別準(zhǔn)確率,結(jié)果分別如表2、表3所示。
表2 未通過(guò)人臉質(zhì)量評(píng)估情況下人臉識(shí)別準(zhǔn)確率
表3 通過(guò)人臉質(zhì)量評(píng)估情況下人臉識(shí)別準(zhǔn)確率
從上述分析可知,在課堂環(huán)境下,如未通過(guò)人臉質(zhì)量評(píng)估進(jìn)行人臉識(shí)別,準(zhǔn)確率大多在70%左右,準(zhǔn)確率較低,不能滿足實(shí)用級(jí)別要求。在引入了人臉質(zhì)量評(píng)估環(huán)節(jié)后,準(zhǔn)確率可以達(dá)到90%左右。
本文提出一種基于視頻流的人臉自動(dòng)識(shí)別課堂點(diǎn)名系統(tǒng),結(jié)合機(jī)器視覺(jué)與人工智能技術(shù)改善了傳統(tǒng)課堂點(diǎn)名方式,保證了上課時(shí)間,提升了上課效率,為學(xué)校未來(lái)智慧課堂建設(shè)提供了新的思路。通過(guò)引入人臉質(zhì)量評(píng)估方法解決了實(shí)際課堂環(huán)境下所出現(xiàn)的問(wèn)題。通過(guò)在實(shí)際課堂環(huán)境下的實(shí)驗(yàn)表明本系統(tǒng)在課堂環(huán)境下有較高的實(shí)用價(jià)值與魯棒性。
該系統(tǒng)不僅為課堂考勤管理提供了一種智能化手段,同時(shí)可以將學(xué)生課堂的考勤情況與該課的學(xué)業(yè)成績(jī)聯(lián)系起來(lái),有效地分析學(xué)生的課堂考勤情況與學(xué)業(yè)成績(jī)的關(guān)系。