常鈺坤,楊海燕,陳瀟杰,周萍
(1.桂林電子科技大學 信息與通信學院,廣西桂林,541004;2.桂林信息科技學院 電子工程學院,廣西桂林,541004)
隨著人們對高質量生活的不斷追求,傳統(tǒng)鎖具式門禁逐漸失去主導地位,新一代智能門禁成為市場新寵。對比傳統(tǒng)鎖具式門禁,智能門禁系統(tǒng)在使用更方便的同時其安全性和用戶體驗均有極大的提升。目前指紋識別、人臉識別等生物識別技術已經廣泛應用于市場上的門禁系統(tǒng),不足之處在于同時也導致了更多的私人信息被迫暴露,比如人臉識別的門禁系統(tǒng)對身份信息的泄漏。密切接觸的指紋識別門禁類別,因其采集信息需要密切接觸使得應用受到限制。相比于指紋信息和人臉信息,聲紋信息的獲取更容易得到人們的許可,且不易泄漏身份信息,因此聲紋識別技術結合動態(tài)指令控制在智能門禁系統(tǒng)的應用有其市場應用需求。聲紋識別的智能門禁系統(tǒng)利用不同說話人聲紋信息差異來識別開鎖人身份,無需接觸,使用方便,安全性高。
基于聲紋識別的智能門禁系統(tǒng),通常考慮結合聲紋識別技術和動態(tài)指令作為智能門禁開啟的鑰匙,客戶端采集用戶聲紋信息,可進行用戶的聲紋注冊,以及提供隨機的八位動態(tài)數(shù)字密碼進行聲紋驗證。服務器端輸出給定的隨機數(shù)字提醒用戶采集聲紋信息,并上傳至云服務器,并進行聲紋認證和信息記錄,判別后通過網絡發(fā)送控制指令來控制門禁狀態(tài),并將判別結果同步返回客戶端,實現(xiàn)近程控制;管理后臺可實時查詢門鎖狀態(tài)信息和用戶信息;同時允許同一網絡下的客戶端與門禁系統(tǒng)配對,配對成功則允許客戶端實現(xiàn)遠程開鎖。同時采用Web 網頁形式展示給服務端后臺,方便管理員對系統(tǒng)的遠程管理和監(jiān)控,對出入信息進行管理,以保證安全度。
智能語音門禁系統(tǒng)的客戶端基本架構包括主控制器模塊、繼電器模塊、電源模塊、OLED 顯示模塊和語音識別模塊等。在此基礎上,也可結合云平臺,增加手機無線遠程解鎖功能,通過云服務器將智能門禁系統(tǒng)與手機APP 進行連接,并在同一局域網下通過一鍵配置實現(xiàn)互通,增加系統(tǒng)的實用性,安全性、可靠性。
考慮到個人情緒以及身體狀況的變化對聲紋信息的影響,本文基于聲紋識別的智能門禁系統(tǒng)設計結合動態(tài)指令和聲紋識別技術共同作為門鎖開啟的鑰匙。系統(tǒng)設計框圖如圖1 所示,其中客戶端、服務器端和門禁端在同一網絡中,以增加系統(tǒng)的安全性;客戶端和服務器通過WiFi 進行通信,控制模塊不僅適用本智能門禁系統(tǒng),也可嵌入到不同的電控鎖中,具備通用性設計。
圖1 聲紋門禁系統(tǒng)框圖
智能門禁系統(tǒng)的硬件部分以STM32F103RET6 單片機作為核心控制器,協(xié)調各部分電路工作;采用一體式WiFi透傳模塊進行收發(fā)控制指令;最終由繼電器開關電路控制門禁鎖。主要模塊設計如下。
2.1.1 核心控制模塊
考慮到門禁系統(tǒng)連續(xù)工作的要求,ARM 內核的STM32系列單片機具有優(yōu)異的運算速度和擴展能力,外設資源豐富。經過調研,系統(tǒng)的核心控制電路采用STM32 系列的STM32F103RET6 單片機作為主控制芯片,通過串口和上層的WiFi 模塊進行通訊,再將控制信號作用于下層繼電器控制模塊。
2.1.2 語音識別模塊
考慮到門禁系統(tǒng)對聲紋信息的采集與響應速度有著極高的要求,經過調研,選擇了智能離線語音識別模塊HLK-V20。該模塊使用32 位基于RSIC 硬件架構的音頻內核,并加入了DSP 運算指令集,專門負責語音信號的傳輸、數(shù)字化音頻處理,符合本設計需要進行離線語音識別監(jiān)測的應用場景。
2.1.3 WiFi 通訊電路
考慮到門禁系統(tǒng)的便捷性和實時性,本系統(tǒng)特意設置將門鎖連接到WiFi 網絡上,利用ESP8266-12FWiFi 構成無線傳輸模塊,從而實現(xiàn)遠程控制與管理。WiFi 模塊集成了MAC、基頻芯片、射頻收發(fā)單元以及功率放大器,有兩種無線組網方式:無線接入點AP 和無線站點STA,運行頻率達80MHz??紤]AP 模式下WiFi 模塊不需要連接外圍設備,即可實現(xiàn)無線終端到設備的連接,故首先在AP 模式下通過網頁配置模塊參數(shù),接入門禁系統(tǒng)所在的無線網絡,然后選取STA 方式,完成WiFi 模塊初始化。WiFi 模塊通訊電路框圖如圖2 所示。
圖2 WiFi 通訊電路框圖
2.1.4 繼電器控制電路
繼電器控制模塊基本功能是通過小能量電流信號來自動控制大能量電流。本系統(tǒng)設計中,繼電器模塊驅動電路采用ULN2003A,主要由模塊驅動集成電路和控制繼電器兩個部分組成,如圖3 所示。
圖3 繼電器電路模塊
智能聲紋門禁系統(tǒng)的軟件設計根據功能區(qū)分采用分塊設計,主要考慮兩部分,設計方案如圖4 所示。第一部分包括對語音數(shù)據的預處理和基于深度學習完成用戶聲學模型的訓練與建立;第二部分則針對實時語音進行采集、預處理以及聲紋識別等過程。2.2.1 聲紋模型主干網絡選擇針對智能語音門禁系統(tǒng)的應用場景,僅需要對所采集的語音信息中的關鍵詞進行識別,因此設計中不考慮語言模型。
圖4 軟件系統(tǒng)總體方案框圖
殘差神經網絡(ResNet)屬于深度學習領域問題中的基礎特征分類網絡。其獨特之處在于將網絡劃分成一個個殘差子單元,將元素的相乘操作變成了相加操作,網絡在反向傳播避免了梯度消失,使得層數(shù)很深的網絡時淺層參數(shù)也能得到更新,減少了信息丟失問題。本文選用ResNet50 作為聲紋識別聲學模型主干網絡,同時加入正則化和Dropout 層以減緩過擬合現(xiàn)象,通過池化層降維,全連接層進行特征重組。ResNet50 結構如圖5 所示,聲紋模型如圖6 所示。
圖5 Res Net 中殘差單元結構圖
圖6 聲紋模型建立
2.2.2 可視化界面設計
為了服務器端使用方便友好,設計了可視化界面??梢暬缑娼Y構圖如圖7 所示,可視化設計結果如圖8 所示。
圖7 可視化界面結果圖
圖8 主交互界面效果圖
軟件部分調試運行在Google Colab 平臺進行,平臺服務器GPU 型號為Tesla T4,Python 軟件版本為V3.7。調試流程如圖9 所示。其中ResNet50 網絡的輸入為(128,None,1),經過ResNet50 網絡的殘差單元運算,其參數(shù)為23558528 個,Output Shape 為(None,4,None,2048)。經過activity_regularization 層和dropout 層,其Output Shape 不發(fā)生變化,沒有新增參數(shù)。池化層,也稱為下采樣層,其主要作用是“降維”,將Output Shape“降維”變?yōu)?None,2048),不需要新增參數(shù)。Dense 層是基本神經網絡,其參數(shù)等于輸入數(shù)據維度加“1”再乘以神經元個數(shù),為40980,Output Shape 為(None,20)。
圖9 系統(tǒng)調試流圖
訓練和測試循環(huán)中插入損失值和準確率,訓練過程和訓練結束后部分輸出顯示分別如圖10,圖11 所示,測試損失如圖12 所示。分析以上圖可以發(fā)現(xiàn),通過每一批輸出的損失值和準確率的變化可以看出,通過訓練,數(shù)據送入模型參數(shù)進行測試時其損失值在波動中逐漸減小,其準確率在波動中不斷增大,模型參數(shù)在不斷整合數(shù)據的特征。經過長時間的訓練之后,其訓練損失值趨于“0”,準確率趨于“1”。用測試集進行測試可以觀察到最后損失值基本穩(wěn)定在0.56左右,準確率基本穩(wěn)定在0.92 左右。
圖10 訓練中部分損失值與準確率輸出截圖
圖11 訓練結束損失值和準確率輸出截圖
圖12 測試損失值變化圖
圖13 服務器端門禁的狀態(tài)
(1)近程開門功能測試
近程的語音開門功能,主要依靠HLK-V20 模塊完成,設置的關鍵命令詞為“打開開關”,HLK-V20 模塊接收到語音數(shù)據后,觸發(fā)控制繼電器模塊,完成電控鎖開關操作。服務器端門鎖狀態(tài)顯示為“1”,即處于開鎖狀態(tài)。
(2)遠程開門功能測試
遠程開門功能測試步驟如下:
①手機APP 與WiFi 模塊均連接上機智云平臺才能實現(xiàn)遠程控制。手機APP 首先通過網絡一鍵配置連接上設備,如圖14 所示。
圖14 APP 連接設備
②將APP 與設備及門禁系統(tǒng)配對后,再將APP 與云端相連接,如圖15 所示。
圖15 設備連接機智云
③上述兩個步驟完成后,將APP 中的門禁開關打開,如圖16 所示。
圖16 APP門禁開關
可以看到將APP 上的開關打開,門禁系統(tǒng)中的電控鎖打開,同時在服務器端接收到門禁狀態(tài)的數(shù)據為“1”,表示門禁已經打開。服務器端狀態(tài)如圖17 所示,客戶端狀態(tài)如圖18 所示。
圖17 服務器端門禁狀態(tài)顯示
圖18 客戶端門禁系統(tǒng)狀態(tài)變化
本文設計完成了聲紋識別系統(tǒng)聲學模型的建立與訓練,并設計實現(xiàn)了以STM32 為主控模塊,結合繼電器模塊、OLED 顯示模塊、WiFi 電路等模塊組成的門禁系統(tǒng),實現(xiàn)了具有實時顯示功能的非接觸式的智能語音控制門禁系統(tǒng)。設計過程從實用性出發(fā),提供了兩種開鎖方式:一是利用語音識別模塊實現(xiàn)本地語音開鎖;二是利用WiFi 模塊作為手機APP 與門禁系統(tǒng)之間通信橋梁,通過機智云平臺作為中轉服務器端,實現(xiàn)對門禁系統(tǒng)進行遠程控制和開鎖,并實時顯示門鎖狀態(tài)。通過軟件仿真、遠程/近程測試,驗證了智能語音控制門禁系統(tǒng)的有效性,實現(xiàn)了對門禁系統(tǒng)的控制和管理。所設計的系統(tǒng)特色之處在于軟件部分基于先進的深度學習算法進行仿真實現(xiàn),同時硬件電路+云平臺提供兩種開鎖方式--本地輸入開鎖和云平臺遠程控制開鎖,具有很好的安全保證。同時為了提升用戶的友好使用感,設置了多種方式的門禁控制,使用方便簡潔,具有一定的實用價值和推廣價值。