劉惠
摘要:提出了一種基于哈希的考場(chǎng)視頻和高考網(wǎng)上評(píng)卷教室視頻快速檢索方法。該方法將哈希檢索技術(shù)應(yīng)用到視頻數(shù)據(jù)中,通過深度網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力來獲取考場(chǎng)視頻和高考網(wǎng)上評(píng)卷現(xiàn)場(chǎng)視頻的特征表示,在深度網(wǎng)絡(luò)中設(shè)計(jì)一個(gè)哈希層來學(xué)習(xí)哈希函數(shù),將原始高維的數(shù)據(jù)映射到特定長(zhǎng)度的哈希碼,同時(shí)保持原始數(shù)據(jù)的語義信息,實(shí)現(xiàn)視頻的快速檢索。為實(shí)現(xiàn)考場(chǎng)行為觀測(cè)和考試期間的考生行為分析以及評(píng)卷教師的行為分析等提供便利,保障考試公平公正。
關(guān)鍵詞:視頻檢索;哈希;考生行為;評(píng)卷老師行為
中圖分類號(hào):TP37? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)18-0199-03
1 背景
隨著多媒體技術(shù)的發(fā)展,文本、圖像、視頻等信息以大規(guī)模的形式呈現(xiàn)在網(wǎng)絡(luò)上,如何在海量的多媒體數(shù)據(jù)中快速準(zhǔn)確地檢索到所期望的數(shù)據(jù),是我們面臨的一個(gè)重要問題。哈希近鄰檢索技術(shù)以其較低的內(nèi)存消耗和快速檢索的優(yōu)勢(shì),成功地應(yīng)用到了信息檢索、數(shù)據(jù)挖掘、多媒體分析等多個(gè)領(lǐng)域,并且取得了較高的檢索準(zhǔn)確率。目前,深度網(wǎng)絡(luò)強(qiáng)大的特征提取能力進(jìn)一步地促進(jìn)了哈希檢索技術(shù)的發(fā)展。不論是只利用深度網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)特征提取的非端到端的哈希方法,還是直接利用深度網(wǎng)絡(luò)來學(xué)習(xí)哈希函數(shù)的端到端的哈希技術(shù),都取得了很好的效果。
在教育領(lǐng)域中,考場(chǎng)監(jiān)控和評(píng)卷教室監(jiān)控視頻的數(shù)據(jù)量都是十分龐大的,在如此大規(guī)模的視頻數(shù)據(jù)中搜索到我們需要的相關(guān)數(shù)據(jù),將是一個(gè)很大的難題。如果直接使用原始數(shù)據(jù)在數(shù)據(jù)庫中進(jìn)行檢索,那所需要的檢索時(shí)間和內(nèi)存消耗是不可想象的,相對(duì)于所付出的代價(jià),這樣的技術(shù)應(yīng)用是沒有實(shí)際意義的,一個(gè)可行的解決方案是將視頻哈希檢索技術(shù)應(yīng)用到教育領(lǐng)域視頻數(shù)據(jù)檢索過程中。
2 基于哈希的視頻檢索技術(shù)
視頻哈希檢索技術(shù)是指利用哈希技術(shù)來獲取到關(guān)于原始數(shù)據(jù)壓縮后的二值哈希碼,將高維的原始視頻數(shù)據(jù)通過特定的哈希函數(shù)映射到低維的海明空間中,在這個(gè)映射過程中保持原始數(shù)據(jù)的語義信息,然后基于映射后的哈希碼和哈希函數(shù)在數(shù)據(jù)庫中進(jìn)行相關(guān)檢索項(xiàng)的快速檢索。
在視頻檢索過程中,首先,要提取視頻中的關(guān)鍵幀,并使用關(guān)鍵幀表示原始數(shù)據(jù);其次,對(duì)視頻中的關(guān)鍵幀進(jìn)行特征的提取,既可以使用傳統(tǒng)的手工特征提取方法,也可利用深度網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力來獲取視頻的特征表示。深度網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的成就驗(yàn)證了其有效的特征提取能力,在實(shí)際的實(shí)現(xiàn)過程中,我們選擇利用深度網(wǎng)絡(luò)進(jìn)行特征提取。
深度網(wǎng)絡(luò)采用多個(gè)卷積層和全連接層,在全連接層的后面設(shè)計(jì)一個(gè)哈希層來學(xué)習(xí)哈希函數(shù),用來生成關(guān)于原始視頻數(shù)據(jù)的緊湊的二值哈希碼。通過學(xué)到的哈希函數(shù)生成所有視頻數(shù)據(jù)的哈希碼,完成將原始高維的數(shù)據(jù)映射到特定長(zhǎng)度的哈希碼,同時(shí)保持原始數(shù)據(jù)的語義信息?;趯W(xué)到的緊湊的哈希碼進(jìn)行檢索項(xiàng)與被檢索項(xiàng)的海明距離計(jì)算,最終返回檢索到的相關(guān)數(shù)據(jù)。
3 教室視頻哈希檢索技術(shù)實(shí)現(xiàn)
3.1 視頻關(guān)鍵幀的提取
在提取視頻的關(guān)鍵幀時(shí),通常是選擇視頻內(nèi)容變化較大的幾個(gè)幀;而對(duì)于內(nèi)容比較平緩、變化幅度較小的視頻,可以選取幾個(gè)特定位置的幀作為關(guān)鍵幀,比如開始幀、結(jié)束幀和幾個(gè)中間位置的視頻幀。選取的關(guān)鍵幀要具有一定的差異性,同時(shí)特征鮮明,避免幀數(shù)據(jù)的冗余。選取幾個(gè)有代表性的數(shù)據(jù)幀來表示整個(gè)視頻數(shù)據(jù)內(nèi)容,對(duì)于后期提取視頻的特征、理解整個(gè)視頻的語義含義具有重要的意義。
3.2 基于深度網(wǎng)絡(luò)的視頻哈希學(xué)習(xí)
在哈希函數(shù)的具體學(xué)習(xí)過程中,可以充分利用深度網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力來提取視頻數(shù)據(jù)的特征,并進(jìn)行哈希函數(shù)的學(xué)習(xí),同時(shí)設(shè)計(jì)一個(gè)關(guān)于語義相似性保持和量化誤差控制的損失函數(shù),來達(dá)到使用學(xué)到的哈希碼保持原始數(shù)據(jù)語義相似性的目標(biāo)。
深度網(wǎng)絡(luò)使用基本的CNN結(jié)構(gòu),網(wǎng)絡(luò)的輸入是上一步所獲得的視頻的關(guān)鍵幀,通過多個(gè)卷積層和全連接層來獲取視頻幀中的數(shù)據(jù)特征,降低了原始數(shù)據(jù)的維度,并且原始數(shù)據(jù)的語義信息在提取的特征中也能夠得以保持。在深度網(wǎng)絡(luò)獲取視頻數(shù)據(jù)特征的基礎(chǔ)上,采用以下方法來生成視頻數(shù)據(jù)的緊湊二值哈希碼,同時(shí)學(xué)習(xí)相關(guān)的哈希函數(shù)。
1)非端到端的深度哈希方法
此方法主要是利用深度網(wǎng)絡(luò)提取視頻數(shù)據(jù)的特征,將網(wǎng)絡(luò)中最后一個(gè)全連接層的輸出作為哈希學(xué)習(xí)的輸入來學(xué)習(xí)低維的哈希碼和哈希函數(shù)。
在具體的學(xué)習(xí)過程中,為了避免量化誤差影響哈希碼的質(zhì)量,可以引入一個(gè)中間語義態(tài)來表示數(shù)據(jù)特征。首先,將深度網(wǎng)絡(luò)提取的數(shù)據(jù)特征映射到一個(gè)低維的實(shí)值空間,同時(shí)通過數(shù)據(jù)的語義相似性約束來保持視頻樣本間的相似性關(guān)系,保證了檢索過程中的準(zhǔn)確率。其次,進(jìn)一步將中間語義通過旋轉(zhuǎn)矩陣生成最后的哈希碼,在哈希碼生成的過程中同時(shí)學(xué)習(xí)到哈希函數(shù),哈希碼和哈希函數(shù)都是基于視頻數(shù)據(jù)的特征獲得,提高了哈希碼的魯棒性。在優(yōu)化的過程中,利用迭代算法一步一步地生成高質(zhì)量的哈希碼、更新哈希函數(shù)的參數(shù),直到收斂或者達(dá)到最大迭代次數(shù)。
2)端到端的深度哈希方法
與非端到端的深度哈希方法相比,端到端的方法是在深度網(wǎng)絡(luò)提取深度特征后,直接學(xué)習(xí)哈希函數(shù)生成哈希碼。具體的實(shí)現(xiàn)是:在深度網(wǎng)絡(luò)特征提取層后面加一個(gè)哈希映射層。哈希映射層的主要功能是將視頻特征從高維的數(shù)據(jù)空間映射到低維的海明空間,海明空間的維度即為最后生成的哈希碼的位數(shù)。哈希學(xué)習(xí)的整個(gè)學(xué)習(xí)過程都是在一個(gè)完整的深度網(wǎng)絡(luò)中完成,從輸入關(guān)鍵幀,到輸出哈希碼,獲得哈希函數(shù)都是基于深度哈希網(wǎng)絡(luò)實(shí)現(xiàn)的。
端到端的深度哈??蚣苤饕▋蓚€(gè)部分:
一是特征提取層,主要由卷積層、池化層、激活函數(shù)和全連接層組成,采用VGG網(wǎng)絡(luò)結(jié)構(gòu)。這一部分主要是針對(duì)視頻中的關(guān)鍵幀進(jìn)行視頻語義特征的提取,捕捉視頻中內(nèi)容信息。
二是哈希層的設(shè)計(jì),在特征提取后即全連接層的后面加上一個(gè)哈希映射層,將高維的數(shù)據(jù)特征映射到低維的實(shí)值空間,其中哈希層的神經(jīng)元個(gè)數(shù)即為哈希碼的位數(shù),每一個(gè)神經(jīng)元的輸出對(duì)應(yīng)哈希碼的一個(gè)位,哈希層每一個(gè)神經(jīng)元的輸出應(yīng)該盡可能地具有較小的相關(guān)性,避免哈希位的冗余,從而使哈希碼能夠充分表示原始數(shù)據(jù)的內(nèi)容信息。最后利用閾值函數(shù)對(duì)哈希層的輸出進(jìn)行閾值化處理,將連續(xù)的實(shí)值哈希碼映射到取值為1或-1的二值哈希碼。在哈希層的末端設(shè)計(jì)一個(gè)交叉熵?fù)p失函數(shù),用來進(jìn)行語義相似性以及量化誤差的控制,從而獲得高質(zhì)量的哈希碼和較高判別性的哈希函數(shù)。
深度哈希網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:
通常來說,各種類型考試的考場(chǎng)視頻數(shù)據(jù)集和網(wǎng)評(píng)教室視頻數(shù)據(jù)集,不同于一般的視頻數(shù)據(jù)集。由于考試紀(jì)律的要求,除了考生進(jìn)場(chǎng)、試卷下發(fā)、監(jiān)考巡場(chǎng)、考生交卷等行為,考場(chǎng)視頻中的內(nèi)容變化不明顯,網(wǎng)評(píng)教室的情況也類似;視頻內(nèi)容中也主要以學(xué)生、老師、課桌、窗臺(tái)等為主,視頻對(duì)象相對(duì)穩(wěn)定,這些都大大增加了考場(chǎng)視頻檢索的難度。
考場(chǎng)和網(wǎng)評(píng)視頻哈希檢索基本上屬于細(xì)粒度的視頻檢索,對(duì)于檢索的對(duì)象更加關(guān)注于細(xì)節(jié)的變化。對(duì)于考場(chǎng)和網(wǎng)評(píng)視頻數(shù)據(jù),如果使用基于一般的視頻數(shù)據(jù)集預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行檢索,一般不能取得較好的檢索結(jié)果。所以,在實(shí)際的深度哈希網(wǎng)絡(luò)學(xué)習(xí)中,要求使用考場(chǎng)和網(wǎng)評(píng)視頻數(shù)據(jù)集從頭開始訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),以適應(yīng)考試視頻的數(shù)據(jù)分布。
而對(duì)于內(nèi)容變化較大的藝術(shù)考試視頻數(shù)據(jù)集來說,視頻中的內(nèi)容稍微接近于一般的視頻數(shù)據(jù),如果數(shù)據(jù)集相對(duì)較小的話,可以采用預(yù)先訓(xùn)練加微調(diào)的方式對(duì)哈希網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練,提高訓(xùn)練效率。
3.3 視頻哈希檢索
利用訓(xùn)練好的哈希函數(shù),可以將數(shù)據(jù)庫中的所有視頻數(shù)據(jù)轉(zhuǎn)換為對(duì)應(yīng)的哈希碼,大規(guī)模的考場(chǎng)視頻數(shù)據(jù)以哈希碼的形式存儲(chǔ)在數(shù)據(jù)庫中將極大地降低存儲(chǔ)消耗。
對(duì)于一個(gè)需要檢索的考場(chǎng)視頻,例如,利用一個(gè)存在考生作弊的視頻或評(píng)卷老師違規(guī)行為視頻去檢索數(shù)據(jù)庫中相似的視頻時(shí),首先將此視頻利用哈希函數(shù)生成其對(duì)應(yīng)的哈希碼,然后去和數(shù)據(jù)庫中的每一個(gè)視頻所對(duì)應(yīng)的哈希碼進(jìn)行距離計(jì)算,最后按照距離的大小,即視頻內(nèi)容的相似性程度生成一個(gè)排序列表,并按照我們的要求返回所需要的相關(guān)視頻。
在檢索的過程中,視頻樣本之間的距離計(jì)算是非常關(guān)鍵的步驟,距離計(jì)算的時(shí)間消耗將嚴(yán)重地影響檢索的速度,而利用視頻的哈希碼進(jìn)行距離的計(jì)算所采用的是哈希位之間的異或操作,時(shí)間消耗相較于實(shí)值之間的計(jì)算消耗要小得多,這也是哈希方法可以實(shí)現(xiàn)大規(guī)??焖贆z索的原因。
考場(chǎng)和網(wǎng)評(píng)視頻哈希檢索的主要步驟:
1)針對(duì)考場(chǎng)視頻或網(wǎng)評(píng)視頻特定數(shù)據(jù)集訓(xùn)練一個(gè)合適的哈希函數(shù)。
2)利用訓(xùn)練好的哈希函數(shù)將數(shù)據(jù)庫中的視頻數(shù)據(jù)生成其對(duì)應(yīng)的哈希碼。
3)對(duì)于需要檢索的視頻數(shù)據(jù)首先將其映射成其高質(zhì)量的二值哈希碼。
4)相似度測(cè)量:將第3步生成的哈希碼與數(shù)據(jù)庫中的視頻哈希碼進(jìn)行異或操作計(jì)算海明距離。
5)生成距離排序列表,返回檢索到的視頻。
4 總結(jié)
基于哈希的考場(chǎng)和網(wǎng)評(píng)視頻檢索技術(shù)可以解決視頻數(shù)據(jù)規(guī)模較大、內(nèi)存消耗高、檢索速度慢等問題,實(shí)現(xiàn)了在降低數(shù)據(jù)維度的同時(shí)保持原始數(shù)據(jù)信息的高效檢索性能。將哈希檢索技術(shù)用于考試領(lǐng)域的視頻檢索中,可以對(duì)考場(chǎng)中存在的考生作弊、左顧右盼、考試期間離場(chǎng)等異常行為以及網(wǎng)評(píng)教師的違規(guī)行為進(jìn)行檢索,同時(shí)能夠?qū)Σ煌愋偷目荚嚕ㄈ缙胀ǜ呖?、藝術(shù)考試、無紙化考試等)中進(jìn)場(chǎng)、發(fā)卷、考試、交卷、離場(chǎng)等不同考試階段的視頻進(jìn)行檢索,對(duì)于實(shí)現(xiàn)后期考場(chǎng)行為的觀測(cè)、考試期間的考生行為分析具有重要的意義。
參考文獻(xiàn):
[1]? 王戊林. 面向視頻檢索的高效哈希技術(shù)研究[D].濟(jì)南: 山東大學(xué), 2016.
[2]? 周佺. 基于深度哈希學(xué)習(xí)的大規(guī)模圖像檢索技術(shù)研究[D].哈爾濱: 哈爾濱工業(yè)大學(xué), 2018.
[3] 路程. 視頻內(nèi)容檢索技術(shù)概述[J]. 山西科技, 2018, 33(2): 56-58.
[4] 孫瑤. 深度學(xué)習(xí)哈希研究與發(fā)展[J]. 數(shù)據(jù)通信, 2018(2): 49-54.
[5]? 丁苗苗. 基于考場(chǎng)監(jiān)控視頻的智能監(jiān)考方法研究[D]. 合肥: 中國科學(xué)技術(shù)大學(xué), 2017.
[6]? 歐陽杰, 高金花, 文振焜, 等. 融合HVS計(jì)算模型的視頻感知哈希算法研究[J]. 中國圖象圖形學(xué)報(bào), 2018, 16(10): 1883-1889.
【通聯(lián)編輯:謝媛媛】