劉佶鑫,韓光,楊海根,孫寧
(南京郵電大學(xué) 寬帶無(wú)線通信技術(shù)教育部工程研究中心,南京 210003)
新冠大流行的產(chǎn)生與持續(xù)導(dǎo)致中國(guó)學(xué)校教學(xué)的授課形式發(fā)生了根本改變,過(guò)去作為輔助手段的在線教學(xué)(也可稱為在線課堂)已經(jīng)逐漸成為一種常態(tài)化的主要教學(xué)方式,特別是在各地區(qū)疫情嚴(yán)重的階段幾乎是不可替代的選擇。因此,認(rèn)識(shí)和研究在線教學(xué)過(guò)程的新矛盾、新問(wèn)題是必要且緊迫的。在傳統(tǒng)課堂上,教師講授的同時(shí)可以通過(guò)觀察學(xué)生群體的專注程度,達(dá)到評(píng)估教學(xué)方法是否得當(dāng)?shù)哪康模M(jìn)而實(shí)時(shí)調(diào)整教育技術(shù)來(lái)提高整體授課質(zhì)量。無(wú)疑,這種師生雙向的教學(xué)狀況實(shí)時(shí)交互是重要且必須的,但是該過(guò)程在向在線課堂遷移的過(guò)程中卻產(chǎn)生了新的困難和挑戰(zhàn)。當(dāng)前主流在線教學(xué)的本質(zhì)是視頻會(huì)議[1],其實(shí)施過(guò)程天然地將教與學(xué)分為了2條途徑:一方面,相比于傳統(tǒng)課堂,在線教學(xué)中從教師到學(xué)生方向的講授過(guò)程無(wú)疑是有效且通透的,能夠基本達(dá)到傳統(tǒng)課堂的功能替代;但是,另一方面,在線教學(xué)過(guò)程中從學(xué)生到教師方向的學(xué)習(xí)狀態(tài)實(shí)時(shí)反饋則存在明顯的不足、甚至缺失,而這對(duì)于教學(xué)質(zhì)量的負(fù)面影響可能很大。對(duì)此,本研究嘗試運(yùn)用團(tuán)隊(duì)前期面向居家場(chǎng)景提出的視覺隱私保護(hù)模型,設(shè)計(jì)一套適于視覺隱私保護(hù)視頻數(shù)據(jù)的學(xué)生專注度監(jiān)測(cè)系統(tǒng),通過(guò)兼顧解決學(xué)生隱私安全、教師監(jiān)管智能化、以及網(wǎng)絡(luò)傳輸應(yīng)用效率等現(xiàn)有模式的應(yīng)用痛點(diǎn),達(dá)到在線課堂的教學(xué)質(zhì)量提升目的。
在線教學(xué)的技術(shù)本質(zhì)源于視頻會(huì)議,但是其對(duì)于學(xué)生專注度的監(jiān)管方式則相當(dāng)于視頻監(jiān)控的一種應(yīng)用拓展。理論上,視頻會(huì)議的主體雙方都有各自的任務(wù),演講者側(cè)重于發(fā)言,參與者側(cè)重于聆聽;而在視頻監(jiān)控中,主體任務(wù)則偏重于監(jiān)視者這邊,被監(jiān)視者相對(duì)沒有任務(wù)要求。但是,對(duì)于在線教學(xué)的教師,除了要完成教學(xué)發(fā)言(即視頻會(huì)議的任務(wù))之外,還需關(guān)注學(xué)生狀態(tài)(即視頻監(jiān)控的任務(wù)),這相比于傳統(tǒng)課堂而言是較為難以兼顧的。
事實(shí)上,在線教學(xué)的學(xué)生專注度研究已經(jīng)成為國(guó)內(nèi)外相關(guān)領(lǐng)域的關(guān)注熱點(diǎn)。近年來(lái),國(guó)際上的代表研究主要有:Monkaresi 等人[2]通過(guò)表情和心率的視頻人臉評(píng)估嘗試解決在線教學(xué)學(xué)生專注度監(jiān)測(cè)。Bhardwaj 等人[3]針對(duì)電子學(xué)習(xí)環(huán)境下學(xué)生專注度運(yùn)用深度學(xué)習(xí)進(jìn)行了相關(guān)研究。Hasnine 等人[4]以學(xué)生情緒提取與可視化來(lái)實(shí)施在線學(xué)習(xí)的專注度檢測(cè)。Liu 等人[5]將情緒與認(rèn)知專注度檢測(cè)用于慕課的教學(xué)目標(biāo)達(dá)成預(yù)判。國(guó)內(nèi)同類研究的代表成果包括:李振華等人[6]引入模型集成的思路來(lái)處理在線學(xué)習(xí)投入度評(píng)測(cè)。付長(zhǎng)鳳[7]基于“課堂在線”微課平臺(tái)開展了學(xué)習(xí)投入度的相關(guān)研究。左國(guó)才等人[8]選擇了深度學(xué)習(xí)模型進(jìn)行學(xué)生課題參與行為研究。
綜上可見,現(xiàn)有在線教學(xué)的專注度監(jiān)測(cè)實(shí)際就是視頻監(jiān)控和視頻會(huì)議的綜合應(yīng)用。但是,這種典型的實(shí)時(shí)視頻流交互監(jiān)管模式與傳統(tǒng)教學(xué)模式之間是存在矛盾的,概括講有3 個(gè)主要方面:
(1)不符合學(xué)生的居家聽課形式。在線課堂能夠替代教師向?qū)W生講授的過(guò)程,但是并不能替代傳統(tǒng)課堂環(huán)境,特別是疫情期間多名學(xué)生同在宿舍或與家人共處一室等情況普遍存在,讓學(xué)生全程開啟語(yǔ)音視頻有時(shí)并不適宜可行。
(2)不符合教師的在線教學(xué)形式。即便學(xué)生能夠全程語(yǔ)音視頻,但是教師講授課程的同時(shí)也很難像傳統(tǒng)課堂一樣通過(guò)視覺直觀地兼顧大規(guī)模學(xué)生的聽課狀況,有必要提供能夠替代人眼監(jiān)測(cè)的輔助手段。
(3)不符合國(guó)內(nèi)現(xiàn)有常規(guī)網(wǎng)絡(luò)環(huán)境。在線課堂中教師與學(xué)生如果想模擬正常情況的視覺交互,其數(shù)十或上百人的實(shí)時(shí)視頻碼流傳輸對(duì)帶寬資源消耗很大,這對(duì)于目前手機(jī)或電腦設(shè)備動(dòng)輒1 080 p、甚至4 k的攝像頭配置也是不小的挑戰(zhàn),尤需指出的是教師人眼監(jiān)測(cè)的低效執(zhí)行難以匹配這種數(shù)據(jù)開銷的高昂代價(jià)。
針對(duì)上述問(wèn)題,本研究通過(guò)引入多層壓縮感知視覺隱私保護(hù)機(jī)制用以實(shí)現(xiàn)學(xué)生居家隱私保護(hù)和視頻數(shù)據(jù)降維保真的平衡,進(jìn)而輔助教師達(dá)到視覺隱私保護(hù)數(shù)據(jù)態(tài)下在線教學(xué)過(guò)程學(xué)生專注度的高效智能監(jiān)測(cè),系統(tǒng)架構(gòu)如圖1 所示。
圖1 本文系統(tǒng)的總體架構(gòu)Fig.1 General architecture of the proposed system in this paper
針對(duì)在線教學(xué)的視覺隱私保護(hù)學(xué)生專注度監(jiān)測(cè)需求,系統(tǒng)的宏觀架構(gòu)上劃分為視覺隱私保護(hù)編碼、人臉提取表征和專注度監(jiān)測(cè)共3 個(gè)模塊。具體來(lái)講,視覺隱私保護(hù)編碼模塊的任務(wù)在于實(shí)現(xiàn)在線教學(xué)視頻幀層面的視覺隱私保護(hù)編碼;人臉提取表征模塊是針對(duì)視覺隱私保護(hù)視頻幀進(jìn)行人臉提取和特征融合兩方面任務(wù);專注度監(jiān)測(cè)模塊則側(cè)重于面向?qū)W生人臉視覺隱私保護(hù)特征實(shí)施智能化專注度監(jiān)測(cè)。
視覺隱私保護(hù)[9]是本團(tuán)隊(duì)前期提出的一種針對(duì)圖像或視頻數(shù)據(jù)的隱私保護(hù)新概念,而多層壓縮感知模型是自主研究形成的一種實(shí)現(xiàn)視覺隱私保護(hù)編碼的理想工具。以此為基礎(chǔ),本次研究不僅解決了該理論從定性到定量的成熟優(yōu)化[10],而且已將其用于居家老人跌倒檢測(cè)等應(yīng)用問(wèn)題[11],最新工作獲得了相關(guān)領(lǐng)域較高的學(xué)術(shù)認(rèn)可[12]。因此,多層壓縮感知模型對(duì)于解決視覺隱私保護(hù)編碼的應(yīng)用需求具有天然的匹配優(yōu)勢(shì)。
相比于傳統(tǒng)壓縮感知采樣,其多層化擴(kuò)展能夠在繼承數(shù)據(jù)高保真的同時(shí)大幅降低數(shù)據(jù)規(guī)模。經(jīng)典的壓縮感知采樣過(guò)程是類似如下的一套降維投影運(yùn)算:
其中,x∈?N表示源信號(hào);y表示感知數(shù)據(jù);觀測(cè)矩陣Φ為投影軸集合這里通過(guò)降維條件M <<N實(shí)現(xiàn)采樣壓縮集成。
雖然經(jīng)典壓縮感知采樣已具備了視覺隱私保護(hù)的可能,但是由于全局化的處理思路,使得數(shù)據(jù)狀態(tài)過(guò)于緊湊,從而缺乏應(yīng)對(duì)不同智能應(yīng)用的靈活性。為此,采取了一種寬松化程度更高的分塊壓縮感知編碼,即:
依托上式就形成了分塊壓縮感知采樣的單層模型,這就在理論上具備了傳統(tǒng)壓縮感知采樣的一系列同等屬性,并且能夠保障多層化擴(kuò)展的智能化靈活度大幅提高。以壓縮感知中最為重要的有限等距約束為例,一種具現(xiàn)化的多層化擴(kuò)展模型為:
此時(shí)原始的有限等距約束屬性將逐層繼承,可以保證多層擴(kuò)展后的數(shù)據(jù)保真度幾乎等同于初始層采樣效果。圖2 給出了多層壓縮感知模型的機(jī)制示意,同時(shí)從人臉圖像的編碼實(shí)例可看出處理后的視覺隱私保護(hù)效果。
圖2 多層壓縮感知機(jī)制及視覺隱私保護(hù)效果示例Fig.2 Multilayer compressed sensing(MCS)mechanism and visual privacy protection(VPP)via MCS
本團(tuán)隊(duì)的前期工作[9-10]表明,多層機(jī)制中3 層及以后的數(shù)據(jù)形態(tài)在主流主客觀視覺評(píng)價(jià)指標(biāo)下都能達(dá)到較高的隱私保護(hù)等級(jí),這意味著可將其作為一種優(yōu)質(zhì)經(jīng)驗(yàn)?zāi)P陀糜陔[私需求迫切的智能應(yīng)用場(chǎng)景,事實(shí)上在居家跌倒檢測(cè)等問(wèn)題上該思路已取得了良好驗(yàn)證[11-12]。因此,本文將在延續(xù)上述思路的基礎(chǔ)上用其實(shí)現(xiàn)在線教學(xué)的視頻幀視覺隱私保護(hù)編碼。
視頻形態(tài)下人臉無(wú)疑是學(xué)生專注度的關(guān)鍵信息載體,對(duì)此相關(guān)研究[2]已經(jīng)給出了明確的論證和探討。事實(shí)上,相比于人臉整體,主流思路對(duì)于局部五官所蘊(yùn)含的信息往往更加重視,這在情緒識(shí)別等關(guān)聯(lián)領(lǐng)域已經(jīng)形成了一定的共識(shí)[13-16]。因此,本環(huán)節(jié)的處理重點(diǎn)不僅要解決全局人臉的實(shí)時(shí)檢測(cè),還需兼顧到局部五官的有效提取。
人臉檢測(cè)的本質(zhì)可以理解為目標(biāo)檢測(cè)的一種特例,其中公認(rèn)的經(jīng)典方法是Viola 等人[17]提出的VJ(Viola-Jones)檢測(cè)算法。該算法運(yùn)用類Haar 特征結(jié)合級(jí)聯(lián)Adaboost 機(jī)制實(shí)現(xiàn)了快速高效的人臉檢測(cè),憑借其優(yōu)異性能被廣泛應(yīng)用于手機(jī)等智能設(shè)備上。但是,VJ 為代表的傳統(tǒng)目標(biāo)檢測(cè)大多依賴于手工設(shè)計(jì)特征,這對(duì)于自然場(chǎng)景等復(fù)雜情況明顯是存在缺陷的,因此深度學(xué)習(xí)等魯棒性更高的方法逐漸占據(jù)主流。在深度學(xué)習(xí)思路下,目前已形成了單階段和雙階段兩種代表思路。簡(jiǎn)單講,單階段算法對(duì)目標(biāo)的定位和分類一步完成,而雙階段則多了一個(gè)候選框生成的步驟。
一方面,考慮到本文的核心任務(wù)是專注度監(jiān)測(cè),這就意味著對(duì)于人臉檢測(cè)的精確性要求是相對(duì)更重要的,因此選取深度學(xué)習(xí)的雙階段目標(biāo)檢測(cè)算法更為契合。另一方面,視覺隱私保護(hù)編碼對(duì)視頻數(shù)據(jù)的視覺形態(tài)存在一定影響,對(duì)此傳統(tǒng)算法中弱分類器級(jí)聯(lián)強(qiáng)化的機(jī)制優(yōu)勢(shì)非常值得借鑒。綜合兩方面因素,Cascade RCNN[18]成為了能夠兼顧二者的理想方案。圖3 給出了Cascade RCNN 的架構(gòu)示意。圖3中,“I”表示輸入圖;“conv”表示主干網(wǎng)絡(luò);“pool”表示分區(qū)特征提??;“H”表示網(wǎng)絡(luò)頭;“B”表示邊界框;“C”表示分類器。由此架構(gòu)可見,Cascade RCNN在繼承典型雙階段目標(biāo)檢測(cè)架構(gòu)的基礎(chǔ)上以級(jí)聯(lián)形式進(jìn)行了拓展創(chuàng)新。
圖3 Cascade R-CNN 與典型雙階段目標(biāo)檢測(cè)算法的架構(gòu)對(duì)比[18]Fig.3 Comparison between Cascade R-CNN and typical twostage target detection algorithm [18]
現(xiàn)有深度學(xué)習(xí)架構(gòu)(包括Cascade RCNN)在人臉提取中的有效性基本都是經(jīng)過(guò)實(shí)踐檢驗(yàn)的,但是這些方法的成立大多存在一個(gè)潛在前提,即輸入的視頻幀序列應(yīng)當(dāng)具備正常、甚至高清的視覺水平。然而,視覺隱私保護(hù)編碼在視覺層面產(chǎn)生的影響,會(huì)產(chǎn)生一個(gè)新的問(wèn)題:視覺隱私保護(hù)視頻還能使用常規(guī)人臉提取工具嗎?事實(shí)上,多層壓縮感知的高保真優(yōu)勢(shì),確保了視覺隱私保護(hù)人臉提取的天然可行性。在多層壓縮感知模型中,各層的編碼過(guò)程依然遵循了壓縮感知的所有基本特性,其中數(shù)據(jù)保真的關(guān)鍵依賴于觀測(cè)矩陣的有限等距屬性。針對(duì)公式(2),所謂有限等距約束是指各分塊觀測(cè)矩陣均滿足如下關(guān)系:
其中,δ為有限等距參數(shù)。
壓縮感知理論規(guī)定:觀測(cè)矩陣構(gòu)造方式是影響壓縮感知數(shù)據(jù)處理質(zhì)量的決定性要素,而觀測(cè)矩陣的優(yōu)劣主要通過(guò)有限等距屬性來(lái)反映。由于本團(tuán)隊(duì)的分塊壓縮感知編碼機(jī)制[9-10]天然繼承了觀測(cè)矩陣的理論特性,因此視覺隱私保護(hù)視頻可視為原始視頻數(shù)據(jù)的一種高保真變體。換言之,面向原始視頻的目標(biāo)提取算法同樣可適用于視覺隱私保護(hù)視頻幀形態(tài)。圖4 展示了Cascade RCNN 在原始態(tài)和視覺隱私保護(hù)編碼(3 層壓縮感知)下提取的全局和局部人臉效果。圖4(a)~(d)中,左邊圖像為原始態(tài),右邊圖像為視覺隱私保護(hù)。圖4中,圖4(a)和圖4(b)是單人情況,人臉全局保持一致,而局部五官即便在戴墨鏡的情況下也絕大部分一致;圖4(c)和圖4(d)是多人情況,在視覺隱私保護(hù)下畫面主目標(biāo)的提取依然有效,其人臉全局和局部也均保持一致。
圖4 人臉目標(biāo)提取示例Fig.4 Face object extraction examples
在獲得視覺隱私保護(hù)全局-局部人臉的基礎(chǔ)上,即可進(jìn)入到智能數(shù)據(jù)處理階段。本質(zhì)上,該階段的學(xué)術(shù)內(nèi)核是典型的模式識(shí)別問(wèn)題,因此特征描述和分類器設(shè)計(jì)是本階段難以回避的2 項(xiàng)重點(diǎn)任務(wù)。前一項(xiàng)任務(wù)中,關(guān)于視覺隱私保護(hù)人臉的特征描述,LBP(Local Binary Pattern)算子[19]是非常理想的選擇。無(wú)論是全局人臉、還是各個(gè)五官,相比于整個(gè)視頻幀來(lái)講都可以算作“局部”的范疇,因此采用LBP機(jī)制可獲得如下特征描述形式:
其中,gc為L(zhǎng)BP 算子的窗口中心;gp為窗口中心的鄰居像素、即p=0,…,P -1;s()為二值化函數(shù)。對(duì)于單個(gè)圖像塊窗口半徑為R的P個(gè)鄰居點(diǎn),LBP 算子的模式水平可達(dá)2P。顯然,對(duì)于多圖像塊融合的情況,特別是串聯(lián)融合的形式,經(jīng)典LBP 的特征維度將大幅增加,這還會(huì)導(dǎo)致數(shù)據(jù)的冗余度過(guò)高,從而影響智能監(jiān)測(cè)的性能。對(duì)此,本團(tuán)隊(duì)前期工作[9-10]中已經(jīng)針對(duì)視覺隱私保護(hù)人臉引入了基于等價(jià)模式(Uniform Pattern)的LBP 改進(jìn)。簡(jiǎn)單講,針對(duì)經(jīng)典LBP 模式中0-1 或1-0 的跳變規(guī)律,將最多2 次跳變的情況定義為等價(jià)模式,從而形成特征維度的極大約減。新的特征描述形式如下:
這里函數(shù)U()滿足:
由此可將模式水平從2P降低至P(P -1)+1,從而在保持表征質(zhì)量的前提下達(dá)到維度約減的效果。
作為智能數(shù)據(jù)處理階段的另一個(gè)重要任務(wù),分類器設(shè)計(jì)也使得本研究進(jìn)入到專注度智能監(jiān)測(cè)的后一項(xiàng)、數(shù)據(jù)處理關(guān)鍵環(huán)節(jié)。面向視覺降質(zhì)數(shù)據(jù)的分類任務(wù),稀疏識(shí)別方法具有獨(dú)特優(yōu)勢(shì)。視覺隱私保護(hù)人臉在隱私保護(hù)的同時(shí),其典型的視覺特征往往存在不同程度的損失,如角點(diǎn)或邊緣等幾何特征。因此,不僅是特征提取需要采用紋理等魯棒性高的描述形式,分類器設(shè)計(jì)也應(yīng)以魯棒性優(yōu)勢(shì)為重點(diǎn)選取依據(jù)。在諸多分類器方案中,稀疏識(shí)別在人臉應(yīng)用中的高魯棒性特點(diǎn)是學(xué)術(shù)界較為公認(rèn)的[20]。在相關(guān)領(lǐng)域,本團(tuán)隊(duì)前期也有一定的積累[21-23],特別是針對(duì)特征融合的情況提出了魯棒性能較好的類字典學(xué)習(xí)方法。在本文研究的相關(guān)領(lǐng)域,目前可公開獲得的數(shù)據(jù)集中最符合需求的是由Kamath 等人[24]構(gòu)建的慕課學(xué)習(xí)者數(shù)據(jù)集,其數(shù)據(jù)標(biāo)注可理解為“專注”、“松懈”和“走神”共3 類。因此,本研究涉及的專注度監(jiān)測(cè)即可等價(jià)為模式識(shí)別的經(jīng)典多分類問(wèn)題,相應(yīng)地,本團(tuán)隊(duì)的前期研究[21]已歸納出可選的稀疏分類機(jī)制,主要有如下3 種代表形式。
(1)基于稀疏表示的分類器。假設(shè)類別數(shù)為k的訓(xùn)練樣本集T=則稀疏識(shí)別的分類計(jì)算過(guò)程如下:
其中,α為特征F在訓(xùn)練集T上的稀疏表示,為上述優(yōu)化問(wèn)題的最優(yōu)解。由此,分類器的判定依據(jù)如下:
其中,δi為第i類的稀疏取值。
(2)基于字典學(xué)習(xí)的分類器。字典學(xué)習(xí)的稀疏分類則將訓(xùn)練集按類拆分后進(jìn)行逐個(gè)訓(xùn)練,其過(guò)程如下:
其中,D為第i類的稀疏字典,Γ為Ti在該字典下的稀疏表示。在此基礎(chǔ)上,分類器判據(jù)調(diào)整如下:
其中,D′Ti為DTi的轉(zhuǎn)置。
(3)自主提出的類字典學(xué)習(xí)分類器。類字典學(xué)習(xí)是本團(tuán)隊(duì)自主提出的一種新型稀疏分類方法,其有效性已經(jīng)在人臉識(shí)別[21,23]和場(chǎng)景識(shí)別[22]等智能領(lǐng)域得到了一定驗(yàn)證。本質(zhì)上,該方法相當(dāng)于稀疏表示和字典學(xué)習(xí)的一種綜合創(chuàng)新,其核心分類機(jī)制如下:
這里,公式(8)的訓(xùn)練集T被替換為相應(yīng)的學(xué)習(xí)字典。而字典DT=的學(xué)習(xí)可參照公式(10)的相關(guān)過(guò)程,由此分類器的判據(jù)調(diào)整為:
根據(jù)分類器判據(jù)的結(jié)果,可形成當(dāng)前視頻幀內(nèi)視覺隱私保護(hù)人臉的專注度等級(jí)歸類,從而實(shí)現(xiàn)在線教學(xué)視覺隱私保護(hù)條件下學(xué)生學(xué)習(xí)專注程度的實(shí)時(shí)監(jiān)測(cè)和量化評(píng)估。
本研究討論的重點(diǎn)聚焦在3 個(gè)問(wèn)題,即:視覺隱私保護(hù)的處理效果、視覺隱私保護(hù)人臉目標(biāo)的提取效果、以及視覺隱私保護(hù)專注度的監(jiān)測(cè)效果。因此,實(shí)驗(yàn)的設(shè)計(jì)和數(shù)據(jù)集的選擇都是圍繞上述問(wèn)題進(jìn)行的:針對(duì)視覺隱私保護(hù)方法,選取面向視覺質(zhì)量研究的代表性數(shù)據(jù)集LIVE(Laboratory for Image & Video Engineering)[25],包含29 幅參考圖、5 種失真,共779幅圖像;針對(duì)視覺隱私保護(hù)人臉提取,選擇非受限人臉識(shí)別研究的代表性數(shù)據(jù)集LFW(Labeled Faces in the Wild)[26],共有13 233 張人臉圖像,每張尺寸為250×250,共5 749 人;針對(duì)視覺隱私保護(hù)專注度監(jiān)測(cè),選擇的Kamath 等人[24]構(gòu)建的慕課學(xué)習(xí)者數(shù)據(jù)集,包含23人,其專注度等級(jí)“Very engaged”、“Nominally engaged”和“Not engaged”,分別對(duì)應(yīng)于本文的“專注”、“松懈”和“走神”三類。圖5 展示了上述數(shù)據(jù)集的一些樣本情況。實(shí)驗(yàn)的軟硬件條件為:處理器Intel i9-11900K,內(nèi)存64 G,顯卡NVIDIA RTX3090,操作系統(tǒng) Ubuntu 和深度學(xué)習(xí)架構(gòu)PyTorch。
圖5 不同數(shù)據(jù)集的樣本示例Fig.5 Some samples of different datasets
3.2.1 視覺隱私保護(hù)效果的驗(yàn)證與分析
為驗(yàn)證多層壓縮感知模型的視覺隱私保護(hù)效果,本環(huán)節(jié)選取4 種經(jīng)典視覺降質(zhì)方法和本研究方案進(jìn)行對(duì)比實(shí)驗(yàn),具體包括:離焦模糊、運(yùn)動(dòng)模糊、高斯噪聲、椒鹽噪聲和壓縮感知(本文方案)。相關(guān)方法的詳細(xì)內(nèi)容參見本團(tuán)隊(duì)前期工作[9]。以人臉數(shù)據(jù)為例,圖6 展示了上述方法的視覺隱私保護(hù)的直觀效果。
圖6 本研究所用視覺隱私保護(hù)方法的直觀示例Fig.6 Visual effect examples of the proposed VPP method
本團(tuán)隊(duì)前期研究[9]表明,無(wú)參考圖像質(zhì)量評(píng)價(jià)方法中的SFA(semantic feature aggregation)、視覺安全性評(píng)估方法中的LE(Local Entropy)、以及本團(tuán)隊(duì)針對(duì)多層壓縮感知模型自主提出的VPLE(Visual Privacy-preserving Level Evaluation)是當(dāng)前相關(guān)技術(shù)中較為適合視覺隱私保護(hù)編碼的質(zhì)量評(píng)價(jià)工具。依據(jù)前期研究經(jīng)驗(yàn),關(guān)于這些數(shù)值的有效性和可信度等主要從單調(diào)性、一致性和準(zhǔn)確性三方面衡量,對(duì)應(yīng)的指標(biāo)有:SROCC(Spearman Rank Order Correlation Coefficient)、RMSE(Root Mean Square Error )和PLCC(Pearson Linear Correlation Coefficient)。其中,針對(duì)單調(diào)性還有另一個(gè)指標(biāo)KROCC(Kendall Rank Order Correlation Coefficient)可選,但其作用與SROCC基本等效,因此這里只用其一即可。
表1~3 給出了所提出的5 種視覺隱私保護(hù)方法在3 種視覺隱私保護(hù)評(píng)價(jià)方法下的SROCC、RMSE和PLCC結(jié)果。單調(diào)性方面,SROCC的取值在圖像質(zhì)量評(píng)價(jià)時(shí)通常在0-1 之間,越大表示一致性越好,而在視覺隱私保護(hù)中則越小越好;一致性方面,RMSE的取值在圖像質(zhì)量評(píng)價(jià)時(shí)越接近0 越好,在視覺隱私保護(hù)中也遵循同樣規(guī)律;準(zhǔn)確性方面,PLCC的取值在圖像質(zhì)量評(píng)價(jià)時(shí)從-1 到1,無(wú)論正負(fù)越遠(yuǎn)離0 越好,而視覺隱私保護(hù)中則相反。結(jié)果表明,本研究采用的壓縮感知方案在單調(diào)性和一致性方面有著顯著優(yōu)勢(shì),而準(zhǔn)確性方面除SFA 外也同樣具有較好的性能,即便在SFA的PLCC中也是能達(dá)到最接近最優(yōu)水平的次優(yōu)結(jié)果。因此,針對(duì)自然場(chǎng)景隨機(jī)成像的條件下,可以認(rèn)為多層壓縮感知能夠較好地滿足在線課堂的視覺隱私保護(hù)需求。
表1 不同方法評(píng)價(jià)的SROCC 結(jié)果Tab.1 SROCC results of different VPP methods
表2 不同方法評(píng)價(jià)的RMSE 結(jié)果Tab.2 RMSE results of different VPP methods
表3 不同方法評(píng)價(jià)的PLCC 結(jié)果Tab.3 PLCC results of different VPP methods
3.2.2 視覺隱私保護(hù)人臉目標(biāo)提取的驗(yàn)證與分析
為驗(yàn)證視覺隱私保護(hù)數(shù)據(jù)的人臉目標(biāo)提取效果,本環(huán)節(jié)選取一些最具代表性的人臉檢測(cè)算法和Cascade R-CNN 進(jìn)行對(duì)比實(shí)驗(yàn),主要借鑒文獻(xiàn)[18]的思路,選取了單階段代表算法YOLO 和雙階段代表算法Faster R-CNN,而算法對(duì)比的衡量指標(biāo)主要選擇了平均精度和提取時(shí)間兩項(xiàng)。考慮到對(duì)比的公平性,以Cascade RCNN 提出的時(shí)間階段為參照,YOLO 并非最新的v5 版、而是同時(shí)期的v3版,F(xiàn)aster R-CNN 也采用的是同時(shí)期基于FPN(Feature Pyramid Network)的版本。數(shù)據(jù)選取策略參照文獻(xiàn)[21],從LFW 中樣本個(gè)數(shù)超25 的類別中隨機(jī)選取30個(gè),并進(jìn)行壓縮感知編碼。同時(shí),結(jié)合LFW 的特點(diǎn),以各樣本中心點(diǎn)在橫縱坐標(biāo)約70%范圍內(nèi)的VJ人臉提取的同尺寸下采樣為基準(zhǔn)。
表4 展示了幾種代表性人臉檢測(cè)算法在視覺隱私保護(hù)LFW 數(shù)據(jù)上的提取效果,具體來(lái)看:就深度學(xué)習(xí)架構(gòu)的對(duì)比,雙階段思路基本優(yōu)于單階段思路;就主干網(wǎng)絡(luò)的對(duì)比,ResNet 系列的性能也大多好于Darknet;就參數(shù)選擇的對(duì)比,Batchsize的增大有利于精度方面的性能提升,但提取速度(這里即指測(cè)試速度)的差異并不明顯。因此,實(shí)驗(yàn)結(jié)果表明本研究所提以Cascade R-CNN 為基礎(chǔ)實(shí)施視覺隱私保護(hù)人臉目標(biāo)提取的方案在可行性和實(shí)用性等方面得到了一定支撐。
表4 幾種代表性算法的視覺隱私保護(hù)人臉提取結(jié)果Tab.4 VPP face object extraction results via some representative algorithms
3.2.3 視覺隱私保護(hù)專注度監(jiān)測(cè)的驗(yàn)證與分析
為驗(yàn)證視覺隱私保護(hù)改進(jìn)LBP 特征下不同分類器的專注度監(jiān)測(cè)效果,本環(huán)節(jié)選取幾種代表性算法進(jìn)行對(duì)比實(shí)驗(yàn),具體包括:最近鄰(Nearest Neighbor,NN)、支持向量機(jī)(Support Vector Machines,SVM)、稀疏表示、字典學(xué)習(xí)、以及本團(tuán)隊(duì)提出的類字典學(xué)習(xí)。由于在線課堂專注度研究的特殊性,Kamath 數(shù)據(jù)集的規(guī)模相對(duì)較?。ㄒ曈X隱私保護(hù)編碼的數(shù)據(jù)就更少),這導(dǎo)致深度學(xué)習(xí)相關(guān)的分類器性能難以發(fā)揮,因此本實(shí)驗(yàn)主要采用了非深度學(xué)習(xí)方法。為保證實(shí)驗(yàn)公平性,訓(xùn)練和測(cè)試樣本在交叉驗(yàn)證過(guò)程的隨機(jī)選取規(guī)模借鑒了文獻(xiàn)[24],并且每次實(shí)驗(yàn)中各類別采用one-vs-all 的統(tǒng)計(jì)形式,分別記錄并計(jì)算原始態(tài)和視覺隱私保護(hù)的500 次平均。
表5 作為幾種算法的監(jiān)測(cè)統(tǒng)計(jì)結(jié)果,可以提供3 方面的解讀:從代表性方法看,稀疏類3 種方法普遍優(yōu)于經(jīng)典思路、即NN 和SVM,而類字典方法由于集成了稀疏表示和字典學(xué)習(xí)的優(yōu)勢(shì),其正確率在稀疏類方法中為最佳;從數(shù)據(jù)集類別劃分看,“專注”和“走神”類相對(duì)較容易監(jiān)測(cè),而“松懈”類可能由于數(shù)據(jù)標(biāo)簽的主觀標(biāo)定方式,其監(jiān)測(cè)效果還有一定的提升空間;從數(shù)據(jù)形態(tài)看,視覺隱私保護(hù)的監(jiān)測(cè)結(jié)果略低于原始視頻,但其微弱損失相對(duì)于隱私保護(hù)的增強(qiáng)來(lái)講是能夠接受的。概括起來(lái),類字典學(xué)習(xí)對(duì)于視覺隱私保護(hù)的專注度監(jiān)測(cè)具有較好的效果,而針對(duì)“松懈”類或者是類別標(biāo)定方式的改進(jìn)可能會(huì)有利于系統(tǒng)整體性能的進(jìn)一步提高。
表5 幾種代表性算法的視覺隱私保護(hù)專注度監(jiān)測(cè)正確率Tab.5 VPP engagement monitoring accuracy via some representative algorithms %
專注度監(jiān)測(cè)技術(shù)有利于幫助老師掌握在線教學(xué)的學(xué)生學(xué)習(xí)質(zhì)量,而視覺隱私保護(hù)處理則可有效平衡學(xué)生的隱私保護(hù)訴求和視頻流的數(shù)據(jù)冗余困境。因此,本研究能夠較好契合疫情條件下線上教學(xué)的技術(shù)發(fā)展需求。從實(shí)驗(yàn)結(jié)果看,多層壓縮感知編碼、Cascade R-CNN、改進(jìn)LBP 以及類字典學(xué)習(xí)等自研為主的數(shù)據(jù)處理技術(shù),能夠有效滿足宏觀和局部層面等各方面的系統(tǒng)構(gòu)建具體需要,從而為在線課堂的視覺隱私保護(hù)專注度監(jiān)測(cè)提供了一種較為可行的方案探索。當(dāng)然,由于相關(guān)研究及應(yīng)用領(lǐng)域較為前沿,目前國(guó)內(nèi)外在數(shù)據(jù)儲(chǔ)備及研發(fā)經(jīng)驗(yàn)等方面普遍存在一定的不足或欠缺,后續(xù)將針對(duì)數(shù)據(jù)集、評(píng)價(jià)體系以及驗(yàn)證標(biāo)準(zhǔn)等方面開展更多的攻關(guān)和突破,以便該技術(shù)能夠盡早應(yīng)用于實(shí)際的線上教學(xué)場(chǎng)景。