劉田田
(江蘇開放大學(xué)信息工程學(xué)院,江蘇 南京210017)
現(xiàn)代社會,安全隱私是每個人甚至每個企業(yè)不得不面對的問題,安全隱私涉及到的問題,在生活中隨處可見,如教育、醫(yī)療、交通等領(lǐng)域。近年來,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,視頻作為信息傳遞載體具有諸多優(yōu)勢,而視頻來源的重要設(shè)備——攝像頭則備受關(guān)注。如何安全、可控的采集視頻成為使用者不得不面對的問題?,F(xiàn)有技術(shù)的重點僅僅為了保護視頻的安全,然而內(nèi)容的安全卻少有關(guān)注。2010 年新一代信息技術(shù)變革,深度學(xué)習(xí)技術(shù)也隨之迅猛發(fā)展,因此利用深度學(xué)習(xí)來進行研究探索視頻內(nèi)容的安全與可控問題,不失為一種有效的方法。
1956 年美國漢諾斯小鎮(zhèn)的達特茅斯“用機器來模仿人類學(xué)習(xí)以及其他方面的智能”的會議上,“人工智能”首次被提出,經(jīng)歷了繁榮、低谷的輪回期,于2010 年新一代信息技術(shù)引發(fā)的海量信息與數(shù)據(jù)的變革中迎來了增長爆發(fā)期。深度學(xué)習(xí)是機器學(xué)習(xí)研究領(lǐng)域目前發(fā)展勢頭最好的一個新的領(lǐng)域,由Hinton 等人于2006 年,在頂級期刊《科學(xué)》上的一篇論文中提出[1],核心是模擬人腦的機制來解釋數(shù)據(jù),例如圖像、聲音和文本。對人工神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí)訓(xùn)練,試圖尋找最優(yōu)解。語義分割,是計算機視覺中的基本任務(wù),在語義分割中我們需要將視覺輸入分為不同的語義可解釋類別,也就是像素級圖像分類任務(wù)[2]。視頻動作識別也是深度學(xué)習(xí)領(lǐng)域一個較新的研究方向,潘陳聽等人研究了復(fù)雜背景下的視頻動作識別[3]。
U-Net[4]是Olaf Ronneberger 等人參加ISBI Challenge 提出的一種分割網(wǎng)絡(luò),能夠適應(yīng)很小的訓(xùn)練集(大約30 張圖)。U-Net 是很小的分割網(wǎng)絡(luò),既沒有使用空洞卷積,也沒有后接CRF(隨機場),結(jié)構(gòu)簡單。整個U-Net 網(wǎng)絡(luò)結(jié)類似于一個大大的U 字母:首先進行Conv+Pooling 下采樣;然后Deconv 反卷積進行上采樣,crop 之前的低層feature map,進行融合;然后再次上采樣。重復(fù)這個過程,直到獲得輸出388x388x2 的feature map,最后經(jīng)過softmax 獲得分割圖??傮w來說與FCN 思路非常類似。U-Net 采用將特征在通道維度拼接在一起,形成更“厚”的特征。
MTCNN 網(wǎng)絡(luò)是Kaipeng Zhang 等人于2016 年發(fā)表的“基于多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測和對齊”一文中提出[5],主要作用主要可以實現(xiàn)特定目標(biāo)檢測與對齊,其網(wǎng)絡(luò)結(jié)構(gòu)為三層網(wǎng)絡(luò)。第一層PNet 網(wǎng)絡(luò)的結(jié)果經(jīng)過bounding boxes regression 和NMS 處理之后變?yōu)?4*24 的圖像大小放入第二層處理;第二層RNet 處理后的結(jié)果同樣經(jīng)過bounding boxes regression 和NMS處理變成48*48 大小圖像放入第三層處理;結(jié)果同樣經(jīng)過bounding boxes regression 和NMS 處理輸出目標(biāo)框與類別信息。
本方案所應(yīng)用的語義分割深度網(wǎng)絡(luò)U-NET 是一種經(jīng)典網(wǎng)絡(luò),最初用來處理醫(yī)學(xué)影像問題,經(jīng)過改進后用來處理分割人體前景與背景的問題。基于深度學(xué)習(xí)的圖像分類技術(shù),是輸入圖像對該圖像內(nèi)容分類的描述的問題。本方案所應(yīng)用的手勢分類深度網(wǎng)絡(luò)MTCNN-P 為較淺網(wǎng)絡(luò),最初用來處理人臉識別定位問題,經(jīng)過改進后用來處理手勢識別的問題?;谏疃葘W(xué)習(xí)的人臉識別技術(shù),是當(dāng)下人臉識別的主要方向,以數(shù)據(jù)作為驅(qū)動引擎,解決諸多傳統(tǒng)算法的弊端。本方案所應(yīng)用的人臉識別網(wǎng)絡(luò)為IsightFace 網(wǎng)絡(luò),用來解決視頻中人臉識別的問題。
本方案采用改進MTCNN 網(wǎng)絡(luò),即MTCNN-P 網(wǎng)絡(luò)。MTCNN網(wǎng)絡(luò)模型尺寸足夠小,使得其可以應(yīng)用于嵌入式,滿足系統(tǒng)性能要求。MTCNN 網(wǎng)絡(luò)主要作用主要可以實現(xiàn)特定目標(biāo)檢測與對齊,其網(wǎng)絡(luò)結(jié)構(gòu)為三層網(wǎng)絡(luò)。微調(diào)后MTCNN-P 其基本的構(gòu)造是一個簡單分類網(wǎng)絡(luò),去除原有的框回歸,輸出二值信息,判斷類別。基于MTCNN-P 的手勢分類采用的是基于深度學(xué)習(xí)的普通分類算法,該網(wǎng)絡(luò)用來檢測人臉,可以勝任簡單的分類任務(wù)。
IsightFace 網(wǎng)絡(luò)核心部分損失函數(shù)(Centre loss)主要懲罰了深層特征與其相應(yīng)的歐幾里得空間類中心之間的距離,以實現(xiàn)類內(nèi)緊湊性。假設(shè)在最后一個完全連接的層中的線性變換矩陣可以用角空間中的類中心來表示,并且以乘法方式懲罰深度特征與其相應(yīng)的權(quán)重之間的角度。特征和最后一個完全連接的層之間的點積等于特征和權(quán)重歸一化之后的余弦距離。利用余弦函數(shù)(arc-cosine function)計算人臉特征和目標(biāo)權(quán)重之間的夾角。然后,在目標(biāo)角度上增加一個附加的角余量,通過余弦函數(shù)再次得到目標(biāo)logit。最后,用一個固定的特征范數(shù)重新縮放所有l(wèi)ogits,并且后續(xù)步驟與softmax loss 中的步驟完全相同。傳統(tǒng)的softmax loss 損失函數(shù)為:
也就是向量內(nèi)積的結(jié)果是向量各自的模相乘,在乘上向量夾角的余弦值。那么向量相乘得到的結(jié)果其實就是xi對應(yīng)在第j 類的夾角。然后使用L2 正則化處理Wj使得,L2 正則化就是將Wj向量中的每個值都分別除以Wj的模,從而得到新的Wj,新的Wj的模就是1,實際上是個方向向量進而獲得概率。
集成三種深度神經(jīng)網(wǎng)絡(luò),分別實現(xiàn)人體輪廓分割、手勢識別、人臉識別三大功能。人體輪廓分割為主要處理任務(wù),手勢識別與人臉識別相當(dāng)于外層邏輯,實現(xiàn)“隱私”控制。整套系統(tǒng)架構(gòu)如圖1 系統(tǒng)架構(gòu)圖所示。
圖l 系統(tǒng)架構(gòu)圖
整體代碼為C++程序,便于后續(xù)集成宿主程序。深度學(xué)習(xí)模型代碼文件經(jīng)過特定平臺編譯器,生成.SO 算法動態(tài)庫,這個動態(tài)庫與宿主程序經(jīng)過Hisiv100 交叉編譯工具生成.o 可執(zhí)行程序,燒錄進攝像頭,實現(xiàn)最終軟硬件結(jié)合。
集成到攝像頭終端的三個深度學(xué)習(xí)模型,為提前訓(xùn)練好的模型。為了滿足在嵌入式設(shè)備上運行深度學(xué)習(xí)模型,需要進一步優(yōu)化。本方案使用了常見的int8 量化方法,進一步壓縮模型,提升性能。原始圖像經(jīng)過預(yù)處理模塊簡單進行噪聲過濾處理,消除常見噪聲對圖像質(zhì)量的影響。圖像在進入U-NET 網(wǎng)絡(luò)之前,會進行手勢判斷,檢測手部區(qū)域并定位手部關(guān)節(jié)點,根據(jù)手部關(guān)鍵節(jié)點的形狀判斷屬于哪種手勢。這個手勢為人的手掌“OK”造型時,表示驗證通過,視頻流可以進入U-NET 網(wǎng)絡(luò)。這樣做的目的就是錄像的自主可控,在不想要錄制的時候可以“示意”攝像頭“拳頭”造型,表示終止視頻流。視頻流進入U-NET 網(wǎng)絡(luò),實現(xiàn)人體輪廓分割,得到輪廓坐標(biāo),進一步提取人體前景與背景信息,并對背景部分進行遮擋,實現(xiàn)視頻流隱私的保護。在進行最終結(jié)果輸出的時候,會進行人臉識別判斷,如果非設(shè)定人員,則不會輸出最終結(jié)果,實現(xiàn)視頻流的自主控制。
本方案組合新穎,核心部分均采用以數(shù)據(jù)為驅(qū)動的深度學(xué)習(xí)網(wǎng)絡(luò),對原創(chuàng)視頻(直播)數(shù)據(jù)進行多層防加密護,真正做到數(shù)據(jù)的安全自主可控。系統(tǒng)架構(gòu)清晰,可輕松移植到嵌入式、服務(wù)器中,而且不需要過多代碼。整個架構(gòu)魯棒性較強,應(yīng)對人為破壞能力較強,安全性和穩(wěn)定性較高。
本方案為了解決視頻內(nèi)容的安全與可控問題,提出集成三種深度神經(jīng)網(wǎng)絡(luò)。通過人體輪廓分割處理視頻內(nèi)容任務(wù),通過手勢識別與人臉識別,實現(xiàn)“隱私”控制。本方案中集成到攝像頭終端的三個深度學(xué)習(xí)模型,是提前訓(xùn)練好的模型,若將該模型應(yīng)用到嵌入式設(shè)備上,后續(xù)需要進一步優(yōu)化。