周穎慧,劉亞麗
(中國傳媒大學 傳播聲學研究所,北京 100024)
說話人識別是一種不需直接接觸,可遠程操作的生物識別技術(shù),因此受到關(guān)注與應用,如電話銀行身份確認、司法案件偵破等[1-2]。說話人識別也面臨被偽造的安全問題。目前主要的偽造手段有模擬說話人、語音合成、語音轉(zhuǎn)換和錄音回放。因為錄音回放設(shè)備的不斷發(fā)展,高質(zhì)量偽造語音的獲取變得不再復雜難操作。所以,在進行說話人識別系統(tǒng)設(shè)計的時候,防錄音回放功能就成為一個重要的考慮因素[3]。關(guān)于該課題,國內(nèi)外均以展開了一系列的相關(guān)研究。
在國外,1999年,Lindberg等人[4]首次評估了回放攻擊的易破壞性,實驗說話人只包含兩人;2008年,Shang等[5]指出了基于語譜圖相似度的檢測算法,為評估系統(tǒng)性能,建立了一個由四個發(fā)音人、三種錄音設(shè)備、三種回放設(shè)備組成的數(shù)據(jù)集;2017年,Kinnunen等人[6]為對不同錄音回放環(huán)境下文本相關(guān)說話人識別系統(tǒng)進行保護,建立了一套進行錄音回放檢測的數(shù)據(jù)集。該開放錄音回放數(shù)據(jù)集源自RedDots集。在The ASV spoof 2017 Challenge,該數(shù)據(jù)集被選為基礎(chǔ)評估數(shù)據(jù)集。
國內(nèi)針對漢語語音數(shù)據(jù)集的建立也在逐步完善中。2007年,清華大學張利鵬等人[7]從回放前后信道變化的角度出發(fā),提出了一種基于靜音段MFCC特征檢測待測語音方法,該實驗在安靜的環(huán)境下,用高保真錄音設(shè)備和普通錄音設(shè)備同時錄制發(fā)音人的語音,然后在相同的環(huán)境下回放高保真錄音設(shè)備錄制語音,用錄音設(shè)備采集,得到數(shù)據(jù)集。2011年,王志鋒等人[8]在華南理工大學多媒體與信息處理實驗室設(shè)計并錄制的“多設(shè)備錄音回放語音數(shù)據(jù)集”已由中文語言資源聯(lián)盟(Chinese Linguistic Data Con-sortium,CLDC)收錄并發(fā)布,該數(shù)據(jù)集以發(fā)音人語音子庫為基礎(chǔ),采用多個錄音設(shè)備錄音建成多錄音設(shè)備語音子集,采用高保真回放設(shè)備將所錄語音進行回放擴展成錄音回放語音子集。該數(shù)據(jù)集在安靜辦公室和實驗室環(huán)境下錄制。2017年,陳亞楠等人[9]在一較為安靜的辦公室錄制了包含31名發(fā)音人、兩種采集設(shè)備、五種入侵設(shè)備和三種回放設(shè)備的錄音回放語音數(shù)據(jù)集。
以上為錄音回放攻擊檢測建立的數(shù)據(jù)集大部分針對具體研究目標和具體團隊需求,因此存在環(huán)境單一、發(fā)音人覆蓋面小、語料類型不足、設(shè)備不全面等問題。且針對中文的、成熟公認的語音數(shù)據(jù)集并未形成。
鑒于此,本文根據(jù)錄音回放檢測技術(shù)實際需求,建立一套多設(shè)備、多環(huán)境、多語料的針對中文的錄音回放語音數(shù)據(jù)集,并通過聽音實驗與時域波形、語譜圖和共振峰圖的聲學參數(shù)初步分析,對數(shù)據(jù)集質(zhì)量進行綜合評價,為錄音回放數(shù)據(jù)集的進一步完善與錄音回放檢測技術(shù)的更好發(fā)展提供參考。
語料文本按照漢語普通話音節(jié)組成規(guī)則進行設(shè)計,基本遍歷了所有的單音節(jié)結(jié)構(gòu),并且四聲齊全。詳細文本如下:
1.單語料
本部分語料以實際應用需求為指導,錄制固定短語多次,如重復錄制AI音箱喚醒詞 “小愛同學”20遍。
2.多語料
?102個單音節(jié):MHK一級詞匯表中單音節(jié)60個,漢語中頻率出現(xiàn)最多的前42個單字。
?140個多音節(jié):其中包括指令詞5個,四個聲調(diào)的16種組合,音素音節(jié)分布均勻平穩(wěn)。
?10個數(shù)字串:每個數(shù)字串包含8個數(shù)字,數(shù)字隨機排列,數(shù)字0-9出現(xiàn)頻率相等。
?10個短句:以一年級教材所學句子為主,有陳述句、疑問句、感嘆句等類型。
?20首古詩詞:常見的中國古詩詞。
?自由文本:從給定話題(但不限于給定話題)中選取一兩個,一分鐘自由發(fā)揮。
選取209名發(fā)音人,男女比例基本平衡,普通話發(fā)音較好。具體情況如下:
?年齡分布:10-20歲140人,20-30歲58人,30-40歲10人,40-50歲1人。
?性別分布:男生87人,女生122人。
?地域分布:發(fā)音人籍貫共覆蓋26省、自治區(qū)和直轄市,地域分布情況如表1所示。
表1 發(fā)音人地域分布情況
錄音回放過程主要由三部分構(gòu)成,分別是錄音環(huán)境、錄音設(shè)備和回放設(shè)備。
錄音環(huán)境有語言錄音室(面積30m2,全封閉隔音設(shè)計,本底噪聲為PNC 15),會議室(約25m2)、辦公室(約20m2)以及實驗室(約50m2)。
錄音設(shè)備包括采集設(shè)備和入侵設(shè)備。采集設(shè)備的選取必須可以保證語音原始音質(zhì)盡可能的保留。入侵設(shè)備必須具有易隱藏、便于攜帶的特點。錄音設(shè)備選取如表2所示。
表2 錄音設(shè)備信息
注:因為商業(yè)因素,隱去設(shè)備品牌型號,用編號標注。
結(jié)合實際場景需求,回放設(shè)備需具有易隱藏、便于攜帶的特點,所以本文回放設(shè)備選取手機1、手機7和手機8。
以現(xiàn)場發(fā)音人或者已有發(fā)音人語音集為原始素材,采用多錄音設(shè)備進行采錄(如圖1所示),選取回放設(shè)備將所錄語音進行回放(如圖2所示),形成由發(fā)音人語音子集、多錄音設(shè)備語音子集和錄音回放語音子集構(gòu)成的語音數(shù)據(jù)集。發(fā)音人口齒清晰、情緒正常,發(fā)音語速、語調(diào)、發(fā)聲響度正常。錄音回放包括以下三個步驟:
(1)發(fā)音人語音子集:發(fā)音人發(fā)音或用高保真揚聲器播放已有發(fā)音人語音,用采集設(shè)備采錄,采集設(shè)備距發(fā)音人(或高保真揚聲器)0.3m左右。
(2)多錄音設(shè)備語音子集:采錄發(fā)音人語音子集同時,用不同入侵設(shè)備進行多角度入侵,入侵設(shè)備距錄音人員(或高保真揚聲器)0.7m左右。
(3)錄音回放語音子集:同一環(huán)境,用回放設(shè)備對各個入侵設(shè)備錄制得到語音進行回放,同時用采集設(shè)備進行采錄,采集設(shè)備與回放設(shè)備間距離0.3m左右。
圖1 錄音過程現(xiàn)場圖
圖2 回放過程現(xiàn)場圖
語音文件為 wav 格式,16bit 采樣。對已錄數(shù)據(jù)集進行分類,存儲于各級文件夾下。一級文件夾根據(jù)錄制環(huán)境分別命名為語言錄音室、會議室、辦公室以及實驗室。二級文件夾根據(jù)設(shè)備類型分別命名為采集設(shè)備、入侵設(shè)備和回放設(shè)備。每個二級文件夾內(nèi)包含該類設(shè)備對應所有語音文件。文件夾命名規(guī)則如圖3所示。
語音文件的命名規(guī)則如圖4所,例如OHF0119BJ.wav表示的是編號01的19歲來自北京的女生的用華為手機采集的信號;RHMRM0126TJ.wav表示的是編號01的26歲來自天津的男生用小米入侵用華為回放并通過錄音筆進行采集的語音信號。
圖4 語音文件的命名規(guī)則
對已錄數(shù)據(jù)集內(nèi)容進行人工聽辨校對,去除偏差較大及具有明顯錯誤的語音。采用Praat軟件進行語音標注,標注分為三個級別,分別是聲韻母級、單字級、詞級,如圖5所示。在進一步研究中,可依據(jù)需求對語音文本進行音素標注。
圖5 語音文本標注示意圖
本文通過聽音實驗,一方面對錄制語音的質(zhì)量做主觀聽感評價,另一方面從聽覺感知角度為錄音回放檢測技術(shù)提供參考。
實驗在中國傳媒大學全封閉隔音設(shè)計的聲學實驗室內(nèi)進行,基本尺度7×6×4 米,本底和空調(diào)噪音低于N1。聽音人共12名,5男7女,年齡分布在22-25歲之間,無聽音障礙,有一定聽音經(jīng)驗。
從錄音回放語音子集中選取12組(6男6女)發(fā)音人發(fā)音數(shù)據(jù)“今天的太陽多么大啊 我們家有三十六只羊”。錄音回放環(huán)境為辦公室;采集設(shè)備為手機2;入侵設(shè)備為錄音筆1和手機1;回放設(shè)備選取手機1和手機7。
為了進行細致聽辨,確保實驗的準確性,本實驗采用對偶比較法進行聽音評價。聽音者只需就某個給定的信號,按要求進行判斷選擇。首先通過預實驗讓聽音者掌握實驗過程。正式實驗包括三部分:能否辨別出原始語音和回放語音;能否聽出不同入侵設(shè)備之間區(qū)別;能否聽出不同回放設(shè)備之間的區(qū)別。除了判斷信號是否具有區(qū)別以外,三部分實驗都需要根據(jù)給出選項對判斷依據(jù)進行選擇(如:空間感、噪聲、音色、清晰度、明亮感、音調(diào)、遠近、感情、親切感、高低頻成分、通透感),同時也可添加選項中沒有的判斷依據(jù)(如:溫暖感、磁性、真實感等)。
對三組實驗獲取到的數(shù)據(jù)進行計算分析,同時對判斷依據(jù)進行順序統(tǒng)計,得到表3-表4。
表3 能否辨別出原始語音和回放語音
表4 不同設(shè)備之間區(qū)別
由表3可以看出,回放語音與原始語音的聽辨準確率為99.5%,準確率非常高。聽辨判斷依據(jù)主要有清晰度、通透感、噪聲和音色。
由表4可知,1)不同入侵設(shè)備之間整體準確度為82.1%,不同回放設(shè)備之間整體準確度為76.6%。相比較而言,入侵設(shè)備之間的差距大于回放設(shè)備之間的差距,原因可能是入侵過程中不僅存在設(shè)備之間的差距,還存在入侵位置不同;2)同類型設(shè)備比較分析,對于入侵設(shè)備,相同設(shè)備被誤為不同設(shè)備的概率為1.0%,不同設(shè)備被誤認為相同設(shè)備的概率為13.6%。對于回放設(shè)備,相同設(shè)備被誤為不同設(shè)備的概率4.0%小于不同設(shè)備被誤認為相同設(shè)備的概率42.9%。由此可知,不同設(shè)備之間的聽感辨別還是有一定困難;3)在進行不同設(shè)備區(qū)別判斷時,主要用來進行判斷的依據(jù)有:清晰度、通透感、噪聲和音色。該判斷依據(jù)可為回放檢測技術(shù)中的參數(shù)提取過程提供依據(jù)。
本文將采集設(shè)備和入侵設(shè)備錄制的用戶語音定義為原始語音;將回放設(shè)備重放已采錄語音得到的語音定義為回放語音。
以1名女性發(fā)音人發(fā)音數(shù)據(jù)“中午的太陽多么大啊”為例,從時域波形、語譜圖、共振峰對比分析原始語音與回放語音。錄音回放環(huán)境為語言錄音室;采集設(shè)備為錄音筆1;入侵設(shè)備為手機4、錄音筆1和手機5;回放設(shè)備選取手機1和手機7。
圖6-圖7分別表示回放設(shè)備為手機1和手機7時對應回放語音與原始語音的波形圖。
(a)原始采集語音 (b)手機4入侵
(c)錄音筆1入侵 (d)手機5入侵圖6 原始語音與回放錄音波形圖(手機7回放)
(a)原始采集語音 (b)手機4入侵
(c)錄音筆1入侵 (d)手機5入侵圖7 原始語音與回放錄音波形圖(手機1回放)
由圖6和圖7可知,經(jīng)同一入侵設(shè)備不同回放設(shè)備錄制語音,衰減程度有區(qū)別。經(jīng)同一回放設(shè)備不同入侵設(shè)備錄制語音波形圖間差異較小。整體來看,不同回放設(shè)備、不同入侵設(shè)備對應的回放語音相較原始語音波形圖整體趨勢相近,差別較小。
圖8-圖9分別表示回放設(shè)備為手機1和手機7時對應回放語音與原始語音的語譜圖。
(a)原始采集語音 (b)手機4入侵
(c)錄音筆1入侵 (d)手機5入侵圖8 原始語音與回放錄音語譜圖(手機7回放)
(a)原始采集語音 (b)手機4入侵
(c)錄音筆1入侵 (d)手機5入侵圖9 原始語音與回放錄音語譜圖(手機1回放)
由圖8和圖9可知,1)不同入侵設(shè)備、不同回放設(shè)備產(chǎn)生的回放語音語譜圖變化趨勢與原始語音基本相同,但回放語音能量有衰減,且在靜音區(qū)有較多噪聲出現(xiàn),其高頻部分能量有增加;2)同一回放設(shè)備不同入侵設(shè)備,錄音筆1產(chǎn)生的能量衰減較為明顯,手機4和手機5能量衰減基本相同;3)同一入侵設(shè)備不同回放設(shè)備產(chǎn)生語音,能量變化趨勢基本一致。
綜上所述,從語譜圖直接觀察可得到,回放語音與原始語音差異主要存在于能量及噪聲分布上。
圖10-圖11分別表示回放設(shè)備為手機1和手機7時對應回放語音與原始語音的共振峰圖。圖中紅點表示共振峰的中心頻率。
(a)原始采集語音 (b)手機4入侵
(c)錄音筆1入侵 (d)手機5入侵圖10 原始語音與回放錄音共振峰圖(手機7回放)
(a)原始采集語音 (b)手機4入侵
(c)錄音筆1入侵 (d)手機5入侵圖11 原始語音與回放錄音共振峰圖(手機1回放)
從圖10和圖11可知,原始語音共振峰中心頻率位置相較于回放語音更加規(guī)律?;胤耪Z音共振峰中心頻率分布增加了很多的不確定性,分布更加分散,這部分引起原因可能是設(shè)備引起的噪聲。但變化趨勢一致,即錄音回放沒有改變共振峰整體走向。
從時域波形、語譜圖、共振峰對比分析發(fā)現(xiàn),原始語音與回放語音在時頻域的相似度很高,因此直接通過波形、語譜圖或者共振峰相似度進行二者識別,則難度較大。所以,尋求更具有區(qū)別度的深度特征進行模式匹配,對防錄音回放攻擊而言是非常有必要的。
本文建立了具有豐富發(fā)音人信息、信道信息以及環(huán)境信息的針對中文的多場景下錄音回放語音數(shù)據(jù)集,包含209個發(fā)音人,4種采集設(shè)備、6種偷錄設(shè)備和3種回放設(shè)備,涉及4種不同應用場景。通過聽音實驗對錄制語音質(zhì)量進行主觀聽感評價,同時從時域波形、語譜圖、共振峰角度進行聲學參數(shù)初步分析,為錄音回放檢測技術(shù)的發(fā)展提供參考。