◆連耿雄 丘恵軍 陳昊
行業(yè)與應用安全
網(wǎng)絡安全領域智能語音識別安全技術研究
◆連耿雄 丘恵軍 陳昊
(深圳供電局有限公司 廣東 518000)
人類獲取信息的方式主要通過語言、圖像、文字三種方式。語音識別技術也稱之為自動語音識別技術Automatic Speech Recognition(ASR),通俗地講,這是一項可以讓機器聽懂人類自然語言及意圖并執(zhí)行相關指令或操作的技術。人類對語音識別技術的研究可追溯到20世紀50年代,但技術的落地并快速嵌入產(chǎn)品應用的時間卻在21世紀的第一個十年的尾聲,在自動語音識別飛速發(fā)展的今天,所帶來的網(wǎng)絡安全風險與暴露的技術缺陷問題也日益凸顯,對企業(yè)或個人造成的影響不可小覷。本文簡單論述了自動語音識別技術的運用分析,通過研究,闡述了在網(wǎng)絡安全領域中的風險以及利用自動語音識別技術的主要攻擊手段。
自動語音識別技術;網(wǎng)絡安全;攻擊
人類對未知領域的探索從未停止,且腳步愈發(fā)加快。在自動語音識別技術領域的探索研究始于1952年AT&T貝爾實驗室的Audry系統(tǒng),該系統(tǒng)可識別0~9十個數(shù)字發(fā)音,從此,人類打開了自動語音識別技術的大門,并在21世紀開始了爆發(fā)式技術躍進,時至今日,自動化語音識別技術應用場景已開始實現(xiàn)到家居、車載、客服、教育、金融、網(wǎng)絡安全等等各個方面,搭載有自動語音識別技術的產(chǎn)品數(shù)不勝數(shù)。其中在網(wǎng)絡安全領域也得到廣泛普及,例如利用自動語音識別技術監(jiān)測網(wǎng)絡語音數(shù)據(jù)及輿情監(jiān)控。自動語音識別技術發(fā)展迅速,同時對國家經(jīng)濟發(fā)展和國家安全都有著很重要的作用。
自動語音識別系統(tǒng)本質(zhì)上是一套模擬識別系統(tǒng),須有硬件設備與操作系統(tǒng)作為支撐,同時需要海量語音樣本數(shù)據(jù)作為基礎,通過識別特征信息進行樣本匹配,進而達到語義識別的目的。由上圖可看出,自動語音識別技術的核心要點主要為:(1)訓練;(2)識別。兩者為自動語音識別技術的核心要點。
“訓練”或稱之為“學習”所形成的“知識庫”是自動語音識別技術的基礎,是自動語音識別準確率的核心要素之一,該階段采用語音分析方法分析出語音特征參數(shù)作為標準知識儲存在計算機內(nèi),形成標準“知識庫”,或者稱為“模板”,建立識別基本單元的聲學模型以及進行句法分析的語言模型等。
“識別”或者稱之為“匹配”是語音數(shù)據(jù)輸入后對該數(shù)據(jù)進行分析處理,匹配“知識庫”的階段,該階段同樣是自動語音識別準確率的核心要素之一,提取語音數(shù)據(jù)中的特征參數(shù),按照一定的準則和測度與系統(tǒng)模型進行比較,通過匹配判決得出識別結果。
自動語音識別技術發(fā)展至今日,市場上尚未出現(xiàn)一款很成熟的應用,準確識別一段語言,相關因素很多,除了不同語種的差別,即使是漢語,在加入方言、口音、同音字詞等這些因素后也會產(chǎn)生海量的語音數(shù)據(jù)要識別。目前自動語音識別主要有四類應用方向,一是簡單指令或有限字詞的識別,二是智能語音問答,三是智能語音分析,四是實時語音監(jiān)控分析。在網(wǎng)絡安全監(jiān)管領域,自動語音識別技術可對網(wǎng)絡中的大量語音信息進行監(jiān)聽管理,防止網(wǎng)絡風險和垃圾信息由語音形式進行傳播。
隨著海量數(shù)據(jù)的積累、硬件核心計算能力的發(fā)展、語音識別技術的訓練與識別手段的持續(xù)創(chuàng)新與演進,自動語音識別技術得到普遍部署和廣泛應用,在諸多應用方面中最大兩個應用落地點就是語音導航與智能音箱,語音導航與智能音箱為使用者提供極大便利,解放了雙手,但在使用過程中獲取了大量個人隱私數(shù)據(jù),主要包含性別、年齡、環(huán)境、健康、想法、情緒、地理位置等多重信息,同時由于網(wǎng)絡發(fā)展的速度遠遠比人們安全使用網(wǎng)絡的意識和操作更新速度快,由此為不法分子的侵入提供了溫床,這些信息一旦被惡意利用,將對企業(yè)或個人造成嚴重危害。
自動語音識別技術作為戰(zhàn)略性與變革性信息技術之一,給網(wǎng)絡空間安全增加了諸多新的不確定性,自動語音識別技術應用目前所面臨的安全風險主要包括:(1)軟硬件的風險;(2)數(shù)據(jù)完整性風險;(3)個人數(shù)據(jù)隱私風險。
在軟件及硬件層面,包括應用、模型、系統(tǒng)和處理器以及編碼都存在漏洞或后門的可能性;攻擊者能夠利用這些漏洞或后門實施高級攻擊。在自動語音識別技術訓練模型層面上,攻擊者同樣可能在模型中植入后門并實施高級攻擊;由于訓練模型的不可解釋性,在模型中植入的惡意后門難以被檢測。
為了語音識別的精準性,則需要采集大量語音數(shù)據(jù)進行建模訓練,因此在數(shù)據(jù)層面,攻擊者能夠在訓練階段摻入惡意數(shù)據(jù),影響語音識別模型的識別能力;攻擊者同樣可以在判斷階段對需要判斷的樣本加入少量噪音,刻意改變判斷結果,破壞數(shù)據(jù)完整性,以此達到惡意攻擊目的。
在用戶提供訓練數(shù)據(jù)的場景下以及用戶正常使用過程中均會產(chǎn)生大量跟個人及周邊環(huán)境相關數(shù)據(jù)信息,攻擊者能夠通過反復查詢訓練好的模型或者直接攻擊服務商數(shù)據(jù)中心獲得用戶的隱私信息。
毋庸置疑,在今天看來,自動語音識別技術是一項很強大的技術,然而,與其他所有技術一樣,自動語音識別技術也容易受到漏洞威脅。如果將這項技術與指紋識別等其他生物技術進行對比,我們就會發(fā)現(xiàn),自動語音識別同樣也會遭到黑客的攻擊,被黑客盜取并利用,自動語音識別技術應用目前所面臨的攻擊手段主要包括:(1)偽造聲紋攻擊;(2)內(nèi)容安全攻擊;(3)個人終端偽造攻擊;(4)超聲波攻擊。
通過克隆演說命令的方法或者直接盜取目標個體的聲音樣本,從而模擬出目標個體的聲音,冒充目標的身份來繞過安全保護機制,對目標發(fā)起網(wǎng)絡攻擊,最終達到攻擊目的,一旦拿到這些認證信息,就能訪問目標的重要私密文件,盜取目標的個人信息。目前對聲紋采取的攻擊手段主要包括拼接合成攻擊(通過對語音數(shù)據(jù)截切與拼接最終合成可識別的仿冒語音數(shù)據(jù))、樣本攻擊(對聲紋庫樣本進行攻擊,篡改樣本數(shù)據(jù))、錄音攻擊(提前錄制目標個體的語音樣本進行攻擊回放)、端到端攻擊(直接攻擊自動語音識別系統(tǒng)所搭載的終端)等。
內(nèi)容攻擊也是自動語音識別技術的主要脆弱點之一,我們可輸入非法敏感詞匯數(shù)據(jù),而一般自動語音識別系統(tǒng)不具備判斷輸入數(shù)據(jù)是否安全的能力,從而造成惡意音頻播放或者敏感信息回顯,以此達到攻擊的目的。
目前尚無絕對安全的個人終端安全保護措施,攻擊者通過劫持合法終端,從而獲取通信憑證信息,達到偽造個人終端的目的,進而可執(zhí)行惡意命令。
普通人的耳朵可聽到的頻率為20Hz~20kHz,頻率大于20kHz為超聲波,正常人無法聽到,但搭載自動語音識別的電子產(chǎn)品可輕松抓取并識別,例如通過向與設備連接的耳機發(fā)送一個簡單的超聲波信號,之后就能激活設備自動語音識別系統(tǒng),從而控制你的設備并達到攻擊的目的,而在這個攻擊過程中目標個體根本不會有任何察覺。目前電子產(chǎn)品的喇叭性能提升使得攻擊者無須額外硬件即可發(fā)送超聲波信號,這為超聲波攻擊提供了極大便利性與攻擊條件。
隨著網(wǎng)絡技術的快速發(fā)展,網(wǎng)絡安全問題也變得十分重要。在網(wǎng)絡安全監(jiān)管中,要充分利用語音識別技術的優(yōu)勢,對網(wǎng)絡中的語音信息進行監(jiān)聽管理,避免網(wǎng)絡風險和垃圾信息由語音形式進行傳播。同時,充分利用自動語音識別技術的高效性和便捷性對網(wǎng)絡用戶的使用問題反饋進行相應的技術處理。
但是任何技術都是一把雙刃劍,自動語音識別技術給不法分子帶來可乘之機,這是所有人都不能忽視的,如何規(guī)避目前自動語音識別技術所存在的風險與攻擊利用手段,我們還在進一步研究中,在未來,需要進一步發(fā)展和完善自動語音識別技術的安全性,杜絕語音技術使用時的不安全因素,為消費群體提供更加堅實可靠的保障。
[1]羅巖.語音自動識別技術及其在電信彩鈴業(yè)務中的應用研究[D].西安電子科技大學,2014.