吳彥鵬,陳明輝,曹榮鑫,孫 奕
(廈門(mén)市美亞柏科信息股份有限公司,福建 廈門(mén) 361008)
信息隱藏是一種通過(guò)各種信息載體進(jìn)行隱蔽通信的安全技術(shù),常見(jiàn)的信息載體有圖像[1]、語(yǔ)音[2]以及視頻[3]等。近年來(lái),隨著移動(dòng)網(wǎng)絡(luò)和終端的不斷發(fā)展,網(wǎng)絡(luò)語(yǔ)音通信(Voice over IP,VoIP)已經(jīng)廣泛應(yīng)用于網(wǎng)絡(luò)電話(huà)和即時(shí)通信領(lǐng)域。相較于傳統(tǒng)的隱寫(xiě)載體,它具備較高的隱藏容量和較強(qiáng)的實(shí)時(shí)性,能夠輕易實(shí)現(xiàn)高速且實(shí)時(shí)的隱蔽通信,因此涌現(xiàn)了一批基于VoIP 的信息隱藏方法。
總的來(lái)說(shuō),基于VoIP 的信息隱藏可以分為兩類(lèi):一類(lèi)是通過(guò)修改VoIP 的網(wǎng)絡(luò)協(xié)議來(lái)實(shí)現(xiàn)信息隱藏[4-5];另一類(lèi)則是通過(guò)修改語(yǔ)音載體中的參數(shù)來(lái)達(dá)到信息嵌入的目的[6-10]。由于壓縮語(yǔ)音本身具有一定的冗余性,對(duì)參數(shù)細(xì)微的修改并不會(huì)引起語(yǔ)音質(zhì)量的大幅下降,因此基于載體參數(shù)的修改是比較常見(jiàn)的信息隱藏方法。
基于量化索引調(diào)制(Quantization Index Modulation,QIM)的方法是壓縮語(yǔ)音編碼中最常見(jiàn)的信息隱藏方法。通過(guò)將搜索碼本劃分為兩個(gè)子空間,可根據(jù)不同的嵌入信息,在搜索碼字時(shí)選擇不同的子空間進(jìn)行搜索,以達(dá)到嵌入隱秘信息的目的。例如,Xiao 等人[6]設(shè)計(jì)了一種名為互補(bǔ)鄰居頂點(diǎn)(Complementary Neighbor Vertices,CNV)的算法,將碼本空間分為兩個(gè)部分實(shí)現(xiàn)了用于線(xiàn)性預(yù)測(cè)參數(shù)(Liner Prediction Coefficient,LPC)的信息隱藏方法。為了加強(qiáng)CNV-QIM 算法的安全性,Tian 等人[7]提出了一種基于隨機(jī)位置選擇和矩陣編碼的信息隱藏方法。實(shí)驗(yàn)表明,該方法相較于Xiao 等人[6]的方法對(duì)隱寫(xiě)分析有更強(qiáng)的抵抗能力。Liu 等人[8]則通過(guò)引入矩陣嵌入的方法進(jìn)一步提升了QIM 算法的隱蔽性和安全性。之后,Huang 等人[9]通過(guò)使用秘鑰控制碼本的劃分,再次加強(qiáng)了QIM 算法的魯棒性和安全性。
作為一種重要的語(yǔ)音壓縮編碼,自適應(yīng)多速率寬帶語(yǔ)音編碼(Adaptive Multi-Rate Wideband,AMR-WB)被廣泛應(yīng)用于多種移動(dòng)通信系統(tǒng)。針對(duì)AMR-WB 編碼,He 等人[10]設(shè)計(jì)了一種名為直徑-近鄰法(Diameter-Neighbor,DN)的碼本劃分方法。該方法通過(guò)設(shè)定一定的規(guī)則,在不斷的迭代中將多個(gè)近鄰的碼字合并為簇,實(shí)現(xiàn)了碼本空間的劃分。實(shí)驗(yàn)表明,通過(guò)對(duì)AMR-WB 中導(dǎo)譜頻率(Immittance Spectral Frequencies,ISF)量化索引的修改,該方法相較現(xiàn)有方法具有更強(qiáng)的靈活性和明顯的抗檢測(cè)能力。
信息隱藏方法在提供安全通信的同時(shí),也可能被不法分子利用,用于各種犯罪活動(dòng)。因此,針對(duì)信息隱藏技術(shù)的對(duì)抗技術(shù)——隱寫(xiě)分析技術(shù)在近年也受到多方關(guān)注。為了檢測(cè)基于QIM 的信息隱藏,Li 等人[11]基于索引序列分析提出了一種基于機(jī)器學(xué)習(xí)的隱寫(xiě)分析方法。通過(guò)索引分布特性(Index Distribution Characteristics,IDC)特征,該方法可以在某些情況下檢測(cè)基于CNV-QIM算法的信息隱藏。Tian 等人[7]和Liu 等人[8]分別對(duì)CNV-QIM 進(jìn)行修改,使基于IDC 特征的隱寫(xiě)分析方法難以對(duì)其進(jìn)行檢測(cè)。后來(lái),Li 等人[12]又提出了一種基于碼書(shū)關(guān)聯(lián)網(wǎng)絡(luò)(Quantization Codeword Correlation Network,QCCN)的檢測(cè)方法。即使在隱寫(xiě)的過(guò)程中采用矩陣編碼,該方法也能較為準(zhǔn)確地檢測(cè)出基于CNVQIM 算法的信息隱藏。但是,He 等人[10]指出,該方法在使用了DN-QIM 的AMR-WB 上表現(xiàn)不佳。
此外,Lin 等人[13]首次在VoIP 的隱寫(xiě)分析上使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)設(shè)計(jì)了一種基于RNN 的隱寫(xiě)分析模型(RNN-based Steganalysis Model,RNN-SM)。該模型包含兩層長(zhǎng)短期記憶模型(Long-Short Term Memory,LSTM),通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行訓(xùn)練和迭代,可以在極短的時(shí)間內(nèi)以較高的正確率檢測(cè)出載密語(yǔ)音的存在。
由于He 等人[10]提出的DN-QIM 方法具有較強(qiáng)的抗檢測(cè)能力,因此本文利用LSTM 進(jìn)行特征提取,并使用支持向量機(jī)(Support Vector Machine,SVM)對(duì)特征進(jìn)行訓(xùn)練,設(shè)計(jì)了一種基于混合分類(lèi)器的隱寫(xiě)分析方法,能夠在多種條件下對(duì)AMRWB 上的DN-QIM 方法進(jìn)行有效檢測(cè)。
AMR-WB 是由3GPP 制定的壓縮語(yǔ)音標(biāo)準(zhǔn)。在2002 年,ITU 也將其選為寬帶語(yǔ)音編碼標(biāo)準(zhǔn)G.722.2[14]。AMR-WB 支持從6.6 kb/s 到23.85 kb/s的9 種速率。相較于自適應(yīng)多速率窄帶語(yǔ)音編碼(Adaptive Multi-Rate Narrow Band,AMR-NB),AMR-WB 擁有更高的帶寬和采樣率,因此可獲得更高的語(yǔ)音質(zhì)量,能更廣泛地應(yīng)用于網(wǎng)絡(luò)電話(huà)、電視會(huì)議以及無(wú)線(xiàn)通信系統(tǒng)等領(lǐng)域。
AMR-WB 語(yǔ)音使用16 kHz 的語(yǔ)音作為輸入,以20 ms 作為幀長(zhǎng),在每幀內(nèi)執(zhí)行一次線(xiàn)性預(yù)測(cè)。在線(xiàn)性預(yù)測(cè)過(guò)程中,編碼器對(duì)16 維ISF 參數(shù)進(jìn)行了二級(jí)分裂矢量量化(Split-Multistage Vector Quantization,S-MSVQ),獲得了7 個(gè)量化索引。
圖1 展示了AMR-WB 編碼器在除6.6 kb/s 速率以外的8 種速率中進(jìn)行S-MSVQ 的流程。在第一級(jí)量化中,編碼器將16 維輸入矢量的殘差矢量分裂為9 維和7 維矢量分別量化,得到了兩個(gè)均為8 bit的量化索引Q11和Q12。在第二級(jí)量化中,編碼器又將第一級(jí)量化后的兩個(gè)殘差矢量分別分裂為3 個(gè)和2 個(gè)矢量進(jìn)行量化,得到了5 個(gè)量化索引Q21、Q22、Q23、Q24、Q25。表1 展示了23.85 kb/s 速率下各量化索引的大小,其中Q22和Q23均為7 bit 的量化索引。由于這兩個(gè)索引在幀間和幀內(nèi)的關(guān)聯(lián)性均不強(qiáng),因此He 等人[10]選用了這兩個(gè)量化索引進(jìn)行QIM 隱寫(xiě)。實(shí)驗(yàn)結(jié)果表明,Li 等人[12]提出的QCCN算法無(wú)法有效對(duì)He 等人[10]的方法進(jìn)行檢測(cè)。
圖1 S-MSVQ 原理
表1 23.85 kb/s 速率下各級(jí)矢量索引及其大小
通過(guò)分析語(yǔ)音的相關(guān)特性,本文有兩類(lèi)特征被選作訓(xùn)練特征:第一類(lèi)特征為索引長(zhǎng)時(shí)分布特征;第二類(lèi)特征則是借助LSTM 模型提取的ISF 參數(shù)關(guān)聯(lián)性特征。通過(guò)校準(zhǔn)技術(shù)處理,這兩類(lèi)特征能夠更好地表征ISF 在信息隱藏前后的變化。
音素是語(yǔ)音的最小單位。各種類(lèi)型的語(yǔ)言在發(fā)音時(shí),其音素通常具備一定的分布特性[11]。這樣的特性導(dǎo)致壓縮語(yǔ)音的相關(guān)參數(shù)在較長(zhǎng)的一段時(shí)間內(nèi)也具備類(lèi)似的分布?;谶@個(gè)原理,Li 等人[11]設(shè)計(jì)了一種基于碼字直方分布的隱寫(xiě)分析特征。以Q22為例,假設(shè)在一段長(zhǎng)度為T(mén)幀的語(yǔ)音中,量化索引Q22在第i幀中的索引值為Q22,i,則可計(jì)算Q22的任一索引值q在這段語(yǔ)音中的分布概率P22,q:
其中,δ(Q22,i,q)根據(jù)輸入索引值的不同輸出0或者1,即:
通過(guò)式(1)可得,Q22的碼字直方分布特征為{P22,0,P22,1,…,P22,127}共128 維。圖2 展示了量化索引Q22在大量樣本統(tǒng)計(jì)下獲得的概率分布,不難看出,信息隱藏確實(shí)改變了量化索引的統(tǒng)計(jì)概率分布,但差距并不明顯,因此本文還引入了校準(zhǔn)技術(shù)進(jìn)一步提升該類(lèi)特征的分類(lèi)性能。
圖2 Q22 的量化索引分布概率
校準(zhǔn)技術(shù)在隱寫(xiě)分析中常被用于估計(jì)原始樣本的特征[15]。在不同的載體和隱藏方法中,具體的使用方法也有所不同[16]。例如,本文中發(fā)現(xiàn),將待檢語(yǔ)音解壓到PCM 后再次進(jìn)行AMR-WB 壓縮,無(wú)論是載密語(yǔ)音還是原始語(yǔ)音,其ISF 的量化索引分布均出現(xiàn)了一定程度上的相似性。圖3 展示了原始語(yǔ)音和載密語(yǔ)音的量化索引Q22在進(jìn)行重壓縮后的分布概率??梢钥闯?,可以使用重壓縮后的量化索引分布概率作為校準(zhǔn)來(lái)估計(jì)原始語(yǔ)音的統(tǒng)計(jì)分布,從而進(jìn)一步提升特征的分類(lèi)性能。
圖3 重壓縮后Q22 的量化索引分布概率
如前文所述,假設(shè)量化索引Q22的任一索引值q在一段語(yǔ)音中的分布概率為P22,q,將這段語(yǔ)音進(jìn)行重壓縮后的分布概率為P′22,q,則可以利用P′22,q作為校準(zhǔn)構(gòu)建校準(zhǔn)值C22,q:
其中,C22,q為分布概率P22,q和P′22,q的差值。
通過(guò)對(duì)大量樣本進(jìn)行統(tǒng)計(jì)計(jì)算,圖4 展示了Q22在不同索引值下的平均校準(zhǔn)值分布。不難看出,原始語(yǔ)音的校準(zhǔn)值普遍接近于0,而載密語(yǔ)音的校準(zhǔn)值則明顯偏離于0。可見(jiàn),將再壓縮語(yǔ)音的量化索引分布概率作為校準(zhǔn)可以明顯提升該特征的分類(lèi)性能。
圖4 Q22 的平均校準(zhǔn)值分布
實(shí)驗(yàn)表明,校準(zhǔn)技術(shù)對(duì)特征分類(lèi)能力的提升有很大作用,本文選擇C22=[C22,0,C22,1,…,C22,127]作為索引分布特征用于分類(lèi)器的訓(xùn)練和測(cè)試。由于Q23與Q22具備類(lèi)似的分布特性,因此最終送入分類(lèi)器的索引分布特征為C22和C23的合集共計(jì)256 維。
LSTM 是RNN 的一種特殊形式,能夠在較長(zhǎng)的時(shí)間序列中學(xué)習(xí)到長(zhǎng)期依賴(lài)關(guān)系[17],因此Lin等人[13]使用雙層LSTM 設(shè)計(jì)了一種隱寫(xiě)分析模型,并將其命名為RNN-SM。
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),簡(jiǎn)單地將AMR-WB 中的幾個(gè)量化索引序列送入到RNN-SM 中進(jìn)行訓(xùn)練并不能很好地發(fā)揮LSTM 的優(yōu)勢(shì),主要原因在于Q22和Q23這兩個(gè)量化索引序列的關(guān)聯(lián)性較弱,導(dǎo)致Li 等人[12]提出的QCCN 隱寫(xiě)分析方法并不能很好地對(duì)其進(jìn)行檢測(cè)。這在He 等人[10]的文章中做過(guò)詳細(xì)說(shuō)明,也是這兩個(gè)量化索引被他們選作隱藏載體的原因。
通過(guò)壓縮語(yǔ)音的原理可知,ISF 參數(shù)在時(shí)序上應(yīng)當(dāng)具備較強(qiáng)的關(guān)聯(lián)性。Q22和Q23這兩個(gè)量化索引未能表現(xiàn)出明顯的關(guān)聯(lián)性的原因主要在于它們都只含有ISF 參數(shù)分裂出來(lái)的一小部分信息,因此將量化索引重構(gòu)為ISF 參數(shù)后能更明顯地表現(xiàn)出其在時(shí)序上的關(guān)聯(lián)特性。從前文可知,Q22和Q23這兩個(gè)量化索引是在前9 維的ISF 參數(shù)下進(jìn)行量化的,因此在本文構(gòu)建的LSTM 模型中也僅使用前9 維的重構(gòu)ISF 參數(shù)序列進(jìn)行分類(lèi)器訓(xùn)練。需要指出的是,在AMR-WB 編碼器中,解碼端重構(gòu)16 維ISF 參數(shù)時(shí)采用的也是索引加偏移的方式存儲(chǔ)ISF 參數(shù),因此本文中也只選取前9維ISF參數(shù)的前9比特(即索引)作為特征提取模型的輸入?yún)?shù)來(lái)對(duì)LSTM 網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
圖5 展示了在本文中利用LSTM 網(wǎng)絡(luò)構(gòu)建特征提取模型的方法。為了能夠更好地在高層抽象表達(dá)特征,提高分類(lèi)效果,選用三層LSTM 網(wǎng)絡(luò)和Sigmoid 激活函數(shù)對(duì)9 維重構(gòu)ISF 參數(shù)序列進(jìn)行訓(xùn)練,并將最后一層神經(jīng)層輸出的矩陣作為輸出特征用于后續(xù)的訓(xùn)練和測(cè)試。
圖5 三層LSTM 特征提取模型
假設(shè)送入LSTM 特征提取模型的AMR-WB 語(yǔ)音長(zhǎng)度為T(mén)幀,則其第1 層神經(jīng)層中的輸入?yún)?shù)為9×T維的矩陣I1:
假設(shè)模型各層中LSTM 單元的個(gè)數(shù)分別為n1、n2、n3,第k層神經(jīng)層的輸出為nk×T的矩陣Ok,除第一層的輸入為I1以外,第k層神經(jīng)層的輸入即為上一層神經(jīng)層的輸出:
LSTM 單元在計(jì)算某一時(shí)序的輸出時(shí),輸入包含了過(guò)去時(shí)序中的信息。以第t幀為例,假設(shè)第k層第j個(gè)LSTM 單元的輸出為,其輸出結(jié)果受前t幀的輸入影響:
其中,y=f(x)是LSTM 單元的輸出函數(shù),x為輸入的向量,y為輸出值。表示取矩陣Ik中第n行中第1 至第t列組成的向量。為輸入權(quán)重,當(dāng)k=1 時(shí),n0=9。
由此可得,第k層的輸出矩陣O k為:
與量化索引分布特征類(lèi)似,通過(guò)LSTM 網(wǎng)絡(luò)模型提取的特征在經(jīng)過(guò)校準(zhǔn)技術(shù)處理后,也能夠提高其分類(lèi)性能。本文中,第三層LSTM 的輸出矩陣在經(jīng)過(guò)校準(zhǔn)處理后被當(dāng)做提取特征用于后續(xù)的訓(xùn)練和測(cè)試。從這里看出,整個(gè)特征提取模型最終輸出的矩陣大小為n3×T。因此,輸出的特征維度與輸入語(yǔ)音的長(zhǎng)度成正比。特征維度的不穩(wěn)定性會(huì)導(dǎo)致分類(lèi)器的復(fù)雜化,不僅會(huì)增加模型訓(xùn)練的計(jì)算量和工作量,也會(huì)影響實(shí)際應(yīng)用中的檢測(cè)效率。
為解決特征維度的不穩(wěn)定性,本文采用變長(zhǎng)窗口來(lái)統(tǒng)一特征維度。檢測(cè)前對(duì)分類(lèi)器設(shè)置最小檢測(cè)窗口長(zhǎng)度W,對(duì)幀數(shù)為W整數(shù)倍的語(yǔ)音進(jìn)行檢測(cè)。圖6 展示了如何對(duì)一段長(zhǎng)度為NW幀的語(yǔ)音進(jìn)行特征提取。在進(jìn)行特征提取的過(guò)程中,語(yǔ)音被分為N段分別提取特征。假設(shè)第k段語(yǔ)音中提取出的索引分布特征和LSTM 網(wǎng)絡(luò)模型中提取的特征合集為Fk,則Fk的維度為256+n3×W維。為使每次輸入分類(lèi)器中的特征維度一致,在各段語(yǔ)音的特征輸出后,對(duì)每段語(yǔ)音的特征進(jìn)行算術(shù)平均計(jì)算,則可得到維度相同的平均特征F用于后續(xù)的訓(xùn)練和分類(lèi)。
圖6 基于變長(zhǎng)窗口的特征提取方法
圖7 展示了基于混合分類(lèi)器的隱寫(xiě)分析方法流程。本方法分為訓(xùn)練和測(cè)試兩個(gè)部分。訓(xùn)練又分為L(zhǎng)STM 網(wǎng)絡(luò)的訓(xùn)練和SVM 的訓(xùn)練。
圖7 基于混合分類(lèi)器的隱寫(xiě)分析方法
LSTM 網(wǎng)絡(luò)的訓(xùn)練過(guò)程如下。
(1)收集大量的訓(xùn)練樣本,通過(guò)He 等人[10]提出的算法以100%嵌入率對(duì)語(yǔ)音進(jìn)行信息隱藏處理。
(2)確定最小檢測(cè)窗口長(zhǎng)度W,將所有的語(yǔ)音裁剪成W幀的語(yǔ)音片段,并對(duì)原始語(yǔ)音和載密語(yǔ)音分別進(jìn)行標(biāo)注,隨后送入LSTM 網(wǎng)絡(luò)特征提取模型中進(jìn)行訓(xùn)練,獲得特征提取模塊。
SVM 分類(lèi)器的訓(xùn)練過(guò)程如下。
(1)根據(jù)實(shí)驗(yàn)設(shè)置的目標(biāo)語(yǔ)音長(zhǎng)度,將訓(xùn)練樣本庫(kù)中的語(yǔ)音均剪裁為NW幀的語(yǔ)音片段,并進(jìn)行信息隱藏處理,之后對(duì)原始語(yǔ)音和載密語(yǔ)音分別進(jìn)行重壓縮,因此最終送入SVM 分類(lèi)器的每個(gè)樣本的長(zhǎng)度均為NW幀。
(2)根據(jù)最短檢測(cè)窗口長(zhǎng)度W將待訓(xùn)練的原始語(yǔ)音、載密語(yǔ)音、重壓縮后的原始語(yǔ)音以及重壓縮后的載密語(yǔ)音4 類(lèi)語(yǔ)音分別裁剪為N段。
(3)分別提取各段長(zhǎng)度為W幀的語(yǔ)音的索引分布特征,并將各段語(yǔ)音中對(duì)應(yīng)的ISF 參數(shù)序列送入已經(jīng)訓(xùn)練好的LSTM 特征提取模型進(jìn)行特征提取,獲得ISF 參數(shù)的關(guān)聯(lián)性特征。
(4)對(duì)同一個(gè)樣本中各小分段提取的特征進(jìn)行算術(shù)平均計(jì)算,即可得到每個(gè)樣本最終的輸出特征,共計(jì)256+n3×W維。
(5)通過(guò)重壓縮語(yǔ)音中提取的特征對(duì)未重壓縮語(yǔ)音中提取的特征進(jìn)行校準(zhǔn)。
(6)根據(jù)語(yǔ)音是否進(jìn)行隱寫(xiě)對(duì)每段語(yǔ)音的特征進(jìn)行標(biāo)注,送入SVM 中進(jìn)行訓(xùn)練。
測(cè)試過(guò)程中無(wú)需再重新訓(xùn)練LSTM 特征提取模型,直接對(duì)待檢語(yǔ)音進(jìn)行特征提取即可。
(1)確定待檢語(yǔ)音的長(zhǎng)度,對(duì)待檢語(yǔ)音進(jìn)行重壓縮;
(2)根據(jù)變長(zhǎng)窗口提取待檢語(yǔ)音及其重壓縮語(yǔ)音的量化索引分布特征,并利用LSTM 特征提取模型提取對(duì)應(yīng)的關(guān)聯(lián)性特征;
(3)對(duì)提取的特征集合進(jìn)行校準(zhǔn)處理;
(4)將特征送入SVM 中進(jìn)行計(jì)算,獲得判定結(jié)果。
為了驗(yàn)證本文提出的方法在不同嵌入率和樣本長(zhǎng)度下的檢測(cè)效果,實(shí)驗(yàn)中收集了大量樣本進(jìn)行訓(xùn)練和測(cè)試,并和Lin 等人[13]提出的RNN-SM 以及Li 等人[11]提出的IDC 特征進(jìn)行了比較。He 等人[10]的文章中已通過(guò)實(shí)驗(yàn)證明了QCCN 隱寫(xiě)分析方法[12]難以正確地檢測(cè)Q22和Q23這兩個(gè)量化索引的修改,因此本文中未選擇QCCN 方法作為參照方法進(jìn)行對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)樣本庫(kù)中共計(jì)3 000段語(yǔ)音,每段語(yǔ)音10 s,包含中英兩種語(yǔ)言。在不同的實(shí)驗(yàn)設(shè)置中,這些語(yǔ)音還會(huì)被裁剪成不同長(zhǎng)度的樣本。實(shí)驗(yàn)中隨機(jī)抽取其中1 500 段語(yǔ)音作為訓(xùn)練集,剩下的1 500 段語(yǔ)音作為測(cè)試集。在編碼過(guò)程中,選用23.85 kb/s 模式下的AMR-WB 編碼器對(duì)樣本集進(jìn)行編碼和重壓縮。在信息隱藏過(guò)程中使用隨機(jī)數(shù),根據(jù)DN-QIM的方法[10]對(duì)所有語(yǔ)音中的Q22及Q23索引進(jìn)行不同嵌入率的修改。
通常來(lái)說(shuō),針對(duì)VoIP 的隱寫(xiě)分析需要在實(shí)時(shí)的環(huán)境下對(duì)通信進(jìn)行檢測(cè),檢測(cè)窗口越短,越能在短時(shí)間內(nèi)發(fā)現(xiàn)隱蔽通信的存在。因此,本次實(shí)驗(yàn)中將最小檢測(cè)窗口長(zhǎng)度W 設(shè)置為1 s,即50 幀。對(duì)基于LSTM 網(wǎng)絡(luò)的特征提取模型進(jìn)行訓(xùn)練時(shí),訓(xùn)練集中的1 500 段語(yǔ)音被裁剪為15 000 段1 s 的語(yǔ)音用于訓(xùn)練。模型各層LSTM 單元的個(gè)數(shù)分別為50、25和10,因此LSTM 網(wǎng)絡(luò)特征提取模型最終輸出的特征維度為50×10=500 維。由于迭代250 次后分類(lèi)的測(cè)試結(jié)果就不再有明顯提升,因此在訓(xùn)練過(guò)程中,LSTM 網(wǎng)絡(luò)迭代次數(shù)被設(shè)定為250 次。分類(lèi)器的其他參數(shù)均設(shè)定為默認(rèn)參數(shù)。
表2 記錄了針對(duì)10 s 的語(yǔ)音,多種方法在不同嵌入率下的檢測(cè)正確率??梢钥闯觯靡嬗诙喾N分類(lèi)器和多種特征混合,本方法在低嵌入率下的表現(xiàn)明顯優(yōu)于IDC[11]和RNN-SM[13]。當(dāng)嵌入率為20%時(shí),本方法的檢測(cè)正確率相較IDC 高11%以上,相較RNN-SM 高30%以上,展現(xiàn)了較強(qiáng)的檢測(cè)能力。
表2 針對(duì)10 s 語(yǔ)音在不同嵌入率下的檢測(cè)正確率
表3 記錄了在100%嵌入率下,多種方法對(duì)不同長(zhǎng)度語(yǔ)音的檢測(cè)正確率。在待檢語(yǔ)音的長(zhǎng)度為1 s時(shí),本方法達(dá)到了95%以上的檢測(cè)正確率,相較IDC[11]和RNN-SM[13]分別提升1.47%和30.8%??梢?jiàn),本方法在短樣本長(zhǎng)度下依舊能夠有效地對(duì)信息隱藏行為進(jìn)行檢測(cè),在實(shí)際使用中能夠在較短的時(shí)間內(nèi)以較高的正確率對(duì)網(wǎng)絡(luò)語(yǔ)音進(jìn)行檢測(cè)。
表3 在100%嵌入率下不同長(zhǎng)度語(yǔ)音的檢測(cè)正確率
本文通過(guò)研究AMR-WB 上的DN-QIM 信息隱藏方法[10],設(shè)計(jì)了一種基于混合分類(lèi)器的隱寫(xiě)分析方法。該方法中,有一套基于三層LSTM 網(wǎng)絡(luò)的特征提取模型用于提取ISF 參數(shù)在時(shí)序上的關(guān)聯(lián)性特征,同時(shí)量化索引序列的概率分布也被作為特征之一。在對(duì)特征進(jìn)行校準(zhǔn)后,特征被送入SVM 中訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有方法,本文提出的方法在低嵌入率下具有明顯優(yōu)勢(shì)。校準(zhǔn)技術(shù)不僅能夠提升分類(lèi)器的分類(lèi)正確率,還能夠作為未隱寫(xiě)語(yǔ)音的特征估計(jì)。后續(xù)工作將繼續(xù)研究如何利用校準(zhǔn)技術(shù)進(jìn)行隱寫(xiě)嵌入率的估計(jì)和計(jì)算,進(jìn)一步提升隱寫(xiě)分析的檢測(cè)效果。