劉安強(qiáng),張碧川,郭 棟,甘 梅,劉 航,李 幸,陳 婕
(1. 陜西陜煤曹家灘礦業(yè)有限公司,陜西 榆林 719000;2. 中煤科工集團(tuán)重慶研究院有限公司,重慶 400039;3. 重慶梅安森科技股份有限公司,重慶 400050;4. 重慶郵電大學(xué),重慶 400065)
在科技的發(fā)展和國家相關(guān)政策的推動下,以產(chǎn)業(yè)聚焦為手段的各類園區(qū)發(fā)展迅速。目前,各大傳統(tǒng)園區(qū)及企業(yè)逐漸向新領(lǐng)域、新技術(shù)、新局面蓬勃發(fā)展。產(chǎn)業(yè)園區(qū)作為多方向多領(lǐng)域集群發(fā)展的有效途徑,是區(qū)域經(jīng)濟(jì)與多維產(chǎn)業(yè)聯(lián)動的橋梁,各類園區(qū)作為對外開放、招商引資、管理創(chuàng)新的主要載體,為各個產(chǎn)業(yè)之間的聯(lián)動、共享和協(xié)作提供了可靠的發(fā)展平臺[1]。目前,以大數(shù)據(jù)、機(jī)器學(xué)習(xí)及物聯(lián)網(wǎng)等技術(shù)為核心的新一代智慧園區(qū)已成為各類工業(yè)園區(qū)、商業(yè)園區(qū)和文化產(chǎn)業(yè)園區(qū)的建設(shè)和發(fā)展目標(biāo)[2]。人臉識別技術(shù)對于園區(qū)的環(huán)境監(jiān)控、日常監(jiān)控、安防監(jiān)控等領(lǐng)域提供便捷又智能的身份識別服務(wù)[3]。
人臉識別(face recognition)技術(shù)[4]是指通過獲取的圖像、視頻或者是紅外攝像獲取的人像,通過面部信息的挖掘建模確定本人在先驗數(shù)據(jù)庫中的身份。人臉識別因其廣泛應(yīng)用性受到學(xué)者們的廣泛研究,并在長期研究中產(chǎn)生了多樣化的方法,具有較高的研究熱度[5,6]。人臉識別技術(shù)更貼合智慧園區(qū)的應(yīng)用,同時現(xiàn)有的研究已經(jīng)證明多模態(tài)技術(shù)能夠大大提升人臉識別的準(zhǔn)確性[7-9]。人臉作為固有的生物特征之一,不同個體之間具有很強(qiáng)的辨識性,為身份識別的挖掘建模過程中提供了一個有效特征。然而傳統(tǒng)的人臉識別對于圖像采集大部分是在光線充裕的環(huán)境下進(jìn)行,忽略了人臉因角度或是人為因素而無法有效采集的問題。因此傳統(tǒng)的人臉識別算法在真實環(huán)境下難以達(dá)到一個穩(wěn)定的表現(xiàn)。
由于不同模態(tài)信息存在多源異構(gòu)性(圖像、音頻、文本等),而且存在不同的空間中,導(dǎo)致不同模態(tài)之間的信息難以處理。目前的多模態(tài)融合算法主要是圖像合成的方法,即將圖像作為基礎(chǔ),將其他模態(tài)轉(zhuǎn)化為圖像的形式并與原圖像建立關(guān)系,利用這種關(guān)系解決多模態(tài)的匹配問題。常用的算法包括馬爾可夫隨機(jī)場,本征變化[10,11],耦合字典等。文獻(xiàn)[12]針對相同圖像不同分辨率之間存在著相同的稀疏系數(shù),提出利用耦合字典作為中間工具、低分辨率的圖像作為輸入進(jìn)行高分辨率圖像的合成。雖然圖像合成的方法能夠通過多模態(tài)之間的聯(lián)合學(xué)習(xí)保證特征的可靠性,但由于合成算法的特性融合,使其在多模態(tài)下的合成與識別缺乏普適性[13]。
在本文中,通過引入了間隔約束擴(kuò)展MKL的方法并引入維度規(guī)范化核函數(shù)對多模態(tài)學(xué)習(xí)進(jìn)行間隔維度約束與特征融合約束,并加入決策融合算法,提出了融合多模態(tài)的身份識別新框架,通過多核學(xué)習(xí)算法提升算法的適用性,并使融合后的特征發(fā)揮出最大的判別能力。
園區(qū)智慧管理建設(shè)作為曹家灘智慧礦山建設(shè)的重要組成部分,有力推動著全區(qū)的全方位發(fā)展。目前,曹家灘辦公園區(qū)約占地20.3萬m2(井口以上地面部分),園區(qū)內(nèi)現(xiàn)有應(yīng)用領(lǐng)域包括:智慧辦公、智慧服務(wù)、智慧管理,新建業(yè)務(wù)應(yīng)用系統(tǒng)16套,集成現(xiàn)有系統(tǒng)7套(消防系統(tǒng)、安防系統(tǒng)、人員定位系統(tǒng)、培訓(xùn)系統(tǒng)、停車系統(tǒng)、智慧餐廳、人力資源系統(tǒng))。
而人臉識別技術(shù)作為人工智能現(xiàn)實應(yīng)用中的一部分,在近年來得到了飛速的發(fā)展。人臉識別技術(shù)所具有的安全、便捷、可靠等特性,促進(jìn)其在各行業(yè)的應(yīng)用與推廣,它能夠?qū)μ囟ㄉ矸葸M(jìn)行生物特征識別[14]。通過對人臉面部數(shù)據(jù)的提取、特征數(shù)據(jù)轉(zhuǎn)化處理和對比分析來準(zhǔn)確識別個人的身份信息,相較于傳統(tǒng)密碼類非生物識別技術(shù)而言,人臉識別技術(shù)更加準(zhǔn)確、便利和經(jīng)濟(jì),既能迎合管理方和企業(yè)追求高效的目的,又能滿足員工對低時延、便利的需求。將人臉識別技術(shù)應(yīng)用于園區(qū)的智慧化管理當(dāng)中,能夠為智慧化寫字樓、智慧化生活區(qū)等提供安全便捷的人員出入識別核查管理,提升園區(qū)內(nèi)使用人員的舒適感。在園區(qū)的生活區(qū)域中,人臉識別技術(shù)與員工日常生活所采用的生物特征識別模式基本相同,具有良好的自然性和便捷性[15]。將人臉識別技術(shù)運用于曹家灘園區(qū)的智慧管理建設(shè)方案當(dāng)中,通過建立人臉識別系統(tǒng),完成對園區(qū)員工的身份識別等功能,其邏輯結(jié)構(gòu)如下圖1所示。
圖1 園區(qū)人臉識別技術(shù)設(shè)計方案Fig. 1 Scheme of face recognition technology in the park
首先,根據(jù)人臉識別系統(tǒng)數(shù)據(jù)庫中已有數(shù)據(jù)來分析員工身份,若識別成功,則進(jìn)行圖像輸入、面部表情數(shù)據(jù)特征預(yù)處理、特征提取、特征分類等步驟,并輸出最終的人臉圖像供平臺調(diào)用;若識別失敗,則用戶可以再次請求系統(tǒng)交互操作,并對數(shù)據(jù)進(jìn)行融合、清洗等操作,獲取更多的數(shù)據(jù)特征,供系統(tǒng)再次進(jìn)行判定。
此外,在園區(qū)內(nèi)所設(shè)立的人臉識別設(shè)備無需攜帶卡片或擺出特定動作或指示,即可完成身份識別,其用戶體驗及操作難度優(yōu)于虹膜、指紋等識別方式。在如今疫情常態(tài)化的情況下,人臉識別技術(shù)無需接觸識別設(shè)備,即可完成對用戶的識別,提高了園區(qū)內(nèi)安全衛(wèi)生管理,保障園區(qū)疫情防控措施落實。此外,人臉識別技術(shù)具有并發(fā)性,在人員基數(shù)大、分布相對集中的園區(qū)環(huán)境下,利用人臉識別技術(shù)可以同時進(jìn)行多個人員的面部特征識別,提高用戶工作效率,優(yōu)化用戶體驗。
目前,園區(qū)的建設(shè)和發(fā)展主要以AI、物聯(lián)網(wǎng)及大數(shù)據(jù)等新興技術(shù)構(gòu)建智能園區(qū)為重點,實現(xiàn)園區(qū)場景智能化、管理精細(xì)化、運營可視化等智慧管理,通過智能化場景提升用戶體驗,以精細(xì)化管理提升園區(qū)管理效率,采用數(shù)字化運行增加園區(qū)效能。曹家灘園區(qū)智慧管理總體架構(gòu)設(shè)計如下圖2所示,其中主要由IoT(the Internet of Things)應(yīng)用、WEB應(yīng)用、數(shù)據(jù)服務(wù)、設(shè)備模擬、數(shù)據(jù)分析、設(shè)備開發(fā)等模塊組成。
圖2 曹家灘園區(qū)管理平臺架構(gòu)圖Fig. 2 Caojiatan Park management platform architecture diagram
在該架構(gòu)模式下,曹家灘園區(qū)智慧管理以技術(shù)服務(wù)、內(nèi)容服務(wù)集成以及LP-IoT基礎(chǔ)PaaS平臺為支撐,提供集成服務(wù)、運維監(jiān)控、數(shù)據(jù)接入及使能服務(wù)等功能,實現(xiàn)智能城市、智能制造、智能生活等IoT功能應(yīng)用。此外,應(yīng)用IoT技術(shù)實現(xiàn)無感、便捷、高效的智慧應(yīng)用以及用餐、購物、通行、體檢等高效的用戶體驗,通過物聯(lián)網(wǎng)、云計算以及人工智能打造“云工作臺+聚合共享應(yīng)用”的智慧園區(qū)管理辦公平臺,聚焦智能化場景應(yīng)用,構(gòu)建園區(qū)智慧管理新模式。
內(nèi)核機(jī)器學(xué)習(xí)領(lǐng)域的一個最近發(fā)展方向就是采用多核學(xué)習(xí)(MKL),通過多個內(nèi)核在同一個框架中進(jìn)行優(yōu)化,能使在其監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)中發(fā)揮更好的作用。它不需要關(guān)心特征空間的數(shù)據(jù)異構(gòu)性、數(shù)據(jù)無規(guī)律性、數(shù)據(jù)分布不均勻、數(shù)據(jù)量大等問題。MKL具有自動調(diào)節(jié)內(nèi)核參數(shù)、描述數(shù)據(jù)表示的各種特征,并能夠并行處理各種多源異構(gòu)數(shù)據(jù)的特點。同時,還能提升分類器的泛化能力增加模型的可解釋性。
根據(jù)最新研究表明,MKL方法能夠在有效對具有鑒別性的基本特征進(jìn)行有效融合的同時,忽略掉不具有鑒別性的特征。MKL中包含了高斯RBF核,它具有將基本特征通過核函數(shù)轉(zhuǎn)換到高維空間的作用。一般來說,為找到一個能夠?qū)Σ煌卣鞫伎梢允褂玫膬?nèi)核參數(shù)是十分困難的,主要是由于不同參數(shù)對于不同特征的影響效果大不相同。因此,MKL難以在多個模態(tài)中獲取所有基本特征的鑒別能力。
為此通過引入間隔約束,提出了基于間隔維度約束的多核學(xué)習(xí)(MDMKL)方法,將數(shù)據(jù)維度通過高斯RBF核歸一化到同一空間中,并在該空間中利用多模態(tài)特征融合算法,結(jié)合使用間隔約束擴(kuò)展MKL保證特征融合的有效性。MDMKL方法會通過給予不同模態(tài)特征以不同的關(guān)注度來辨別不同模態(tài)特征的識別能力。相較于傳統(tǒng)的MKL,MDMKL在構(gòu)造最優(yōu)組合核參數(shù)時,會將不重要的特征分配較低的權(quán)值而將具有鑒別能力的權(quán)值分配更大的權(quán)值,以保證不同模態(tài)之間能夠充分利用相互之間的關(guān)系保證特征融合的準(zhǔn)確性。
2.1.1 間隔約束
MKL構(gòu)建了一個良好的框架,能夠通過給最具有鑒別性的基本特征賦予一個較大的權(quán)值,來保證特征融合的穩(wěn)定性。不同于直接串聯(lián)方法,MKL方法可以有效地避免特征維度很大的鑒別性差的基本特征帶來的污染。
MKL方法存在選擇的基本特征特別少的缺點,MKL在進(jìn)行樣本區(qū)分中僅會選擇一個或兩個在高維空間中有區(qū)別的基本特征。由于不同模態(tài)的特征在最優(yōu)高維空間中的核參數(shù)必然會顯著不同,就會導(dǎo)致傳統(tǒng)MKL無法充分利用基本特征的最大鑒別能力。
為了解決傳統(tǒng)MKL無法很好地區(qū)分不同特征的缺點,借助于SVM算法的間隔約束理論將間隔維度約束引入到多核學(xué)習(xí)之中,提出了間隔維度約束多核學(xué)習(xí)(MDMKL)。圖3即表示了不同特征的間隔圖,在圖3(a)中,分離間隔距離較大時就能有效地區(qū)分基本特征,而圖3(b)中,用于區(qū)分特征的超平面間隔距離相對較小,代表了在該特征空間下兩個類別的類間相似度小,不易區(qū)分。
圖3 間隔約束圖Fig. 3 Margin constraint
利用分離的間隔作為評價多個類別之間的基本特征的鑒別能力的指標(biāo)。而這種判別指標(biāo)在MKL算法中能夠有效地尋找最優(yōu)的特征組合形式。在模型中損失函數(shù)定義為式(1),判別指標(biāo)可以用式(2)表示,即對損失函數(shù)倒數(shù)的開平方根的形式。
(1)
(2)
(3)
(4)
(5)
2.1.2 引入間隔約束的多核學(xué)習(xí)
高斯核函數(shù)(RBF)由于其在圖像領(lǐng)域的出色的表現(xiàn),使其被大量推廣到其他領(lǐng)域。高斯核函數(shù)RBF可用式(6)表示。
(6)
式中:D為樣本特征維數(shù);xi和xj分別表示第i個樣本和第j個樣本;xi,q和xj,q是特征向量中的第q個元素;γ是RBF核參數(shù),它能夠確定從低維特征空間到高維空間的映射的維度大小。
為便于空間維度的轉(zhuǎn)換,特征向量首先會進(jìn)行歸一化到[0,1)之間,當(dāng)γ值在其他參數(shù)不變的情況下以一個固定值增加時,式(6)的值將會減小。
根據(jù)MKL算法融合的依據(jù),對于不同模態(tài)而言其特征存在于不同的樣本空間之中,因此對于不同模態(tài)必定會有不同的參數(shù)。因此,MKL算法在不同模態(tài)的融合之中無法發(fā)揮最優(yōu)的作用,也無法對于不同模態(tài)之間的特征做出很好的判別。
歸納來說,在MKL中,無法將所有的基本特征作為判別特征,只能選擇那些最具辨識能力的基本特征。因此,MKL對于不同模態(tài)的所有類型特征無法充分利用。
由于無法滿足多模態(tài)的需求,因此,提出將維度參數(shù)γ進(jìn)行RBF核函數(shù)標(biāo)準(zhǔn)化,維度標(biāo)準(zhǔn)化的RBF核函數(shù)可表示為:
(7)
通過除以特征維度D進(jìn)行標(biāo)準(zhǔn)化,該步驟能夠消除特征維度D對γ選擇的影響,使不同模態(tài)的所有基本特征獲得類似的特征維度參數(shù)值,且MDMKL算法能夠發(fā)揮出不同模態(tài)在基本特征上的判別能力。
對于特征向量xi在高維空間的組合特征為φ(xi),其核函數(shù)組合如式(8)所示。
(8)
式中:dk一般設(shè)定為0.5,Kk代表第k個核函數(shù),損失函數(shù)f為計算方便常常采用極大極小對偶化進(jìn)行解決,如式(9)所示。
(9)
計算出特征的最終權(quán)重后,采用最優(yōu)核對支持向量機(jī)分類器進(jìn)行訓(xùn)練,分類器如式(10)所示。
(10)
式中:si是支持向量,利用一對一的方式進(jìn)行多分類實現(xiàn)身份識別。
對于決策融合而言,不會在特征層面上采用特征融合的方式融合,而是對于不同模態(tài)分配不同的分類器,將分類的輸出結(jié)果作為評分。具體而言,分類器的輸出結(jié)果將會轉(zhuǎn)化為一個樣本的可能概率值,通過對每個分類器結(jié)果分配不同權(quán)值后再進(jìn)行加權(quán),最終將選擇概率最大的標(biāo)簽值作為分類的結(jié)果輸出。
(11)
由于MDMKL時間復(fù)雜度較高,僅單獨使用特征融合會導(dǎo)致模型的整體時間表現(xiàn)比較差。因此提出一個采用特征融合與決策融合的集成新框架MMMKL,如圖4所示。其中M1,M2,M3表示不同模態(tài),其中模態(tài)M1和M2采用MDMKL算法進(jìn)行特征融合,并將結(jié)果利用決策融合算法與模態(tài)M3進(jìn)行融合。
圖4 多模態(tài)混合融合框架MMMKLFig. 4 Hybrid multi-mode fusion framework
MMMKL的流程如圖5所示,該模型通過引入SVM思想中的間隔約束條件提不同模態(tài)特征的身份信息,解決了傳統(tǒng)的MKL算法對于不同模態(tài)的特征提取算法沒有較強(qiáng)鑒別能力的問題,同時解決了模型過于復(fù)雜難以直接求解的問題。采用將問題轉(zhuǎn)化為對偶問題來簡化求解過程,在對偶問題求解過程中,為獲取一個固定的特征權(quán)重值,利用梯度下降法獲取最優(yōu)值。為避免模態(tài)間的特征過多導(dǎo)致難以進(jìn)行區(qū)分,為判別能力差的特征分配一個較小的權(quán)值,并合并權(quán)值較小的權(quán)值達(dá)到模態(tài)鑒別能力最大化。
圖5 MMMKL模型實現(xiàn)流程圖Fig. 5 The flow diagram of model MMMKL
w1和w2對應(yīng)著融合后的特征M12與待融合特征M3的權(quán)值,其中w1+w2=1。w1的值會根據(jù)迭代計算由0.1開始每次增加0.1,直到達(dá)到0.9,對應(yīng)的w2值由0.9減小到0.1,通過訓(xùn)練可以達(dá)到最佳參數(shù)結(jié)果。
為了檢測基于多模態(tài)的身份識別技術(shù)在智慧園區(qū)中應(yīng)用的效率以及普遍性,首先選取了在中國模式識別與計算機(jī)視覺大會(PRCV2018)中,愛奇藝公開最大的明星視頻數(shù)據(jù)集(IQY-VID)。該數(shù)據(jù)集被廣泛用于“多模態(tài)視頻任務(wù)識別挑戰(zhàn)賽”,其中包含了4 934個人物,視頻共有565 372條片段,并且被隨機(jī)分為訓(xùn)練集219 677條,驗證集172 860條,測試集172 835條,數(shù)據(jù)示例圖如圖6所示。同時也選擇了真實智慧園區(qū)中曹家灘視頻數(shù)據(jù)集,該數(shù)據(jù)集存儲于智能監(jiān)控系統(tǒng)之中,通過專業(yè)設(shè)備采集,其中包含個體的視頻數(shù)據(jù)。采集的視頻數(shù)據(jù)共有80 000條片段,其中隨機(jī)選取了50%作為訓(xùn)練集,30%作為驗證集,其余的為測試集。
圖6 數(shù)據(jù)示例圖Fig. 6 Data sample graph
在MDMKL模型實驗中,采用IQY-VID數(shù)據(jù)集以及視頻中的文本信息。對于視頻,獲取圖像模型并進(jìn)行灰度變化獲取圖像模態(tài)矩陣,同時獲取音頻,采用重采樣獲取音頻文件的關(guān)鍵特征;對于文本信息,通過計算詞頻獲取特征向量。將身份識別的準(zhǔn)確率作為實驗的評價指標(biāo)。在經(jīng)過特征工程相關(guān)處理之后,使用MDMKL模型對圖像、文本、音頻特征進(jìn)行特征融合。圖7為不同融合算法進(jìn)行多模態(tài)數(shù)據(jù)特征融合,并進(jìn)行身份識別的實驗結(jié)果對比。
圖7 不同融合算法的實驗對比圖Fig. 7 Experimental comparison of different fusion algorithms
從圖7中可以看出,隨著數(shù)據(jù)量的增加,所有的模型在融合之后都有準(zhǔn)確率的提升,在數(shù)據(jù)量增長的初始階段分類結(jié)果準(zhǔn)確率提升幅度較大。對比傳統(tǒng)的SVM和MKL融合算法,引入間隔的多核學(xué)習(xí)算法無論是最后的表現(xiàn)效果還是其準(zhǔn)確率的增長效果都有更好的表現(xiàn)。具體而言,MDMKL算法由于融合了多個模態(tài)而且能夠提供區(qū)分性強(qiáng)的特征使得模型的準(zhǔn)確率最高能達(dá)到97.25%,而SVM和MKL融合算法表現(xiàn)最好的準(zhǔn)確率分別為88.90%和94.34%。因此MDMKL模型要優(yōu)于其他對比模型。
對IQY-VID數(shù)據(jù)集進(jìn)行實驗時,同時進(jìn)行了算法的收斂性實驗,即驗證迭代次數(shù)的增加對損失函數(shù)f值下降的影響。在圖8中,比較了傳統(tǒng)的MKL方法與引入間隔約束后的收斂性能,其中紅色線代表的MDMKL能夠迅速達(dá)到收斂,而傳統(tǒng)的MKL算法需要經(jīng)過7~8次迭代才能達(dá)到收斂,說明MDMKL模型的收斂速度更快。
圖8 目標(biāo)收斂性與迭代次數(shù)對比圖Fig. 8 Comparison of target convergence and iteration times
為了對比不同模態(tài)融合對最終結(jié)果的影響,表1展示了實驗結(jié)果。對于單獨一個模態(tài)的識別,采用MDMKL方法在不同單模態(tài)中提取特征之后得出的結(jié)果再做識別能夠取得較好效果。在進(jìn)行模態(tài)融合之后,識別的效果也都有了顯著提高,其中表現(xiàn)最好的是3種模態(tài)進(jìn)行特征組合之后的結(jié)果,能達(dá)到97.25%的準(zhǔn)確率。而基于圖像與文本模態(tài)的融合也能達(dá)到較好的效果,這反映了圖像與文本提供的特征對于一個人身份的識別產(chǎn)生的作用較大??梢?,MDMKL能夠有效地提取不同模態(tài)的特征,并進(jìn)行融合識別。
表1 單模態(tài)和多模特征級融合對比(曹家灘)
為驗證MDMKL模型的可移植性,采用曹家灘數(shù)據(jù)集進(jìn)行實驗驗證,同樣對于視頻數(shù)據(jù)進(jìn)行處理,對于文本數(shù)據(jù)采用員工登錄系統(tǒng)的文本數(shù)據(jù)。將所有的特征向量進(jìn)行特征維度上的合并,并使用MDMKL模型進(jìn)行特征融合。表2為單模態(tài)與多模態(tài)特征融合對比的實驗結(jié)果,同樣也顯示了在單一模態(tài)之中,圖像模態(tài)由于能夠區(qū)分身份的特征較多,能夠有較高的準(zhǔn)確率。而多模態(tài)融合識別結(jié)果表明圖像模態(tài)與其他模態(tài)進(jìn)行特征融合之后的結(jié)果能取得較好的效果。當(dāng)同時使用圖像、音頻和文本的三種模態(tài)的特征并進(jìn)行特征融合之后,能夠達(dá)到較好的表現(xiàn)效果。在這個實驗中,模型的表現(xiàn)效果比愛奇異視頻提供的數(shù)據(jù)表現(xiàn)得更好,這可能是由于愛奇藝數(shù)據(jù)中的文本信息無法提供穩(wěn)定的特征,同時圖像數(shù)據(jù)受到視頻的分辨率與是否有干擾等影響。
表2 單模態(tài)和多模特征級融合對比(愛奇藝)
曹家灘樣本數(shù)據(jù)包括圖像P、音頻A與T文本3種模態(tài),采用特征融合與決策融合,3種模態(tài)的融合方式包括PT+A,PA+T以及AT+P。實驗結(jié)果如圖9所示。其中橫坐標(biāo)代表了在進(jìn)行特征融合之后在進(jìn)行決策融合的權(quán)重,其表示為wM12+(1-w)M3。可見,隨著w的逐漸增大,模型識別準(zhǔn)確率逐漸提升,并在權(quán)重值w=0.6附近時,各個模態(tài)融合的表現(xiàn)效果達(dá)到較好的效果。從圖9中可以看出圖像與音頻信息進(jìn)行特征融合之后,再與文本特征進(jìn)行決策融合達(dá)到的識別準(zhǔn)確度是最高的,在w=0.6時達(dá)到97.37%的準(zhǔn)確率。這體現(xiàn)了圖像信息中無法識別的信息,可以通過音頻信息補(bǔ)全,并通過文本特征進(jìn)一步確認(rèn)。
在視頻與文本進(jìn)行特征融合識別之后,再進(jìn)行音頻特征識別結(jié)果[19]的決策融合中,其表現(xiàn)效果在w=0.7時達(dá)到最好,準(zhǔn)確率為92.5%。這可能是由于決策融合對于整體框架中無法達(dá)到較好的效果,獲取的音頻特征存在噪聲數(shù)據(jù),影響了整體表現(xiàn)效果。
圖9 曹家灘視頻數(shù)據(jù)集的多模態(tài)實驗結(jié)果Fig. 9 Multimodal experiment results based on Caojiatan dataset
在對本文所提出的模型框架的實驗中,表3顯示了曹家灘智慧園區(qū)歷史視頻數(shù)據(jù)的多模態(tài)特征融合與決策融合實驗結(jié)果,在該數(shù)據(jù)下首先對圖像特征與音頻特征進(jìn)行特征融合,再對文本信息進(jìn)行決策融合達(dá)到了最好的表現(xiàn)效果。表4顯示了愛奇藝視頻數(shù)據(jù)集的特征融合與決策融合實驗結(jié)果,與曹家灘視頻數(shù)據(jù)集實驗結(jié)果類似,當(dāng)使用圖像與音頻模態(tài)作為特征融合時,模型的準(zhǔn)確率能到達(dá)最高水平。
表3 基于曹家灘視頻集數(shù)據(jù)的多模態(tài)融合
表4 基于愛奇藝數(shù)據(jù)的多模態(tài)融合
智慧園區(qū)離不開新型技術(shù)的支持,針對于曹家灘智慧園區(qū)的技術(shù)發(fā)展,提出了一種基于多模態(tài)的身份識別技術(shù),能有效地解決智慧園區(qū)中對于不同園區(qū)的分級管理問題。由于現(xiàn)有的人臉識別只是單純考慮到圖像這一種模態(tài)對于身份識別的影響,基于圖像、音頻、文本3種模態(tài)提出了一種MDMKL模型,有效地提升了身份識別的效率與準(zhǔn)確性,提高了受監(jiān)控區(qū)域的安全性。同時由于采用的是非接觸的信息采集方式,設(shè)備本身安裝方便、性能可靠,能夠顯著提升園區(qū)的管控水平和事件處理速度。在園區(qū)的智慧管理建設(shè)過程中,做出針對性的技術(shù)升級和創(chuàng)新,提高園區(qū)信息化技術(shù)水平,也充分利用技術(shù)創(chuàng)新帶動產(chǎn)業(yè)創(chuàng)新,打開了園區(qū)智慧化管理新局面。