鄭 威,凌 霞
(中國信息通信研究院,北京 100083)
深度偽造信息造成的影響日益凸顯[1],表現(xiàn)為攻擊性損害、信任風(fēng)險加劇等[2]。隨著生成模型在文本[3]、圖像[4]、音頻[5]及多模態(tài)[6]中的深入研究,音頻編輯、視頻編輯、文本生成等應(yīng)用得到了廣泛使用。傳統(tǒng)的偽造信息檢測方法注重對單一模態(tài)的鑒偽[7],此類方法雖然能在某個數(shù)據(jù)集上取得較好的檢測效果,但無法應(yīng)對新的偽造手段與技術(shù),即魯棒性不足。本研究提出基于多模態(tài)生成模型的內(nèi)嵌偽造機理,構(gòu)建主動數(shù)據(jù)增強方法,以增強檢測模型的魯棒性,利用transformer、圖神經(jīng)網(wǎng)絡(luò)等深度神經(jīng)網(wǎng)絡(luò)對不同模態(tài)進行建模并融合,實現(xiàn)多模態(tài)協(xié)同魯棒偽造信息檢測。
研究了一種能夠提升偽造檢測魯棒性且具有良好可解釋性的多模態(tài)融合偽造檢測方法,即基于內(nèi)嵌偽造機理的多模態(tài)協(xié)同魯棒偽造信息檢測方法,主要包括:①研究內(nèi)嵌偽造機理的理論基礎(chǔ)。分析各個模態(tài)生成模型的結(jié)構(gòu),探索各個結(jié)構(gòu)在生成內(nèi)容中留下的特征。②設(shè)計與實現(xiàn)基于內(nèi)嵌偽造機理的多模態(tài)協(xié)同魯棒偽造信息檢測模型。綜合利用語音、圖像、文本模態(tài)的生成機理,使用深度神經(jīng)網(wǎng)絡(luò),提取數(shù)據(jù)中的內(nèi)嵌偽造機理特征并進行多模態(tài)特征融合,使用分類器對真?zhèn)涡畔⑦M行檢測。③開展實驗評估并分析結(jié)果。使用包含真?zhèn)蝺煞N信息的數(shù)據(jù)集進行訓(xùn)練及測試實驗評估,與其他方法進行性能比對。
內(nèi)嵌偽造機理是指各個模態(tài)偽造方法留下的特征[8]。音頻模態(tài)包括但不限于音頻經(jīng)過合成過程的聲學(xué)特征重建痕跡,圖像模態(tài)包括但不限于圖像對于照度圖像與反射圖像的還原程度。為實現(xiàn)多模態(tài)協(xié)同鑒偽,使用負面數(shù)據(jù)增強方法來模擬各個模態(tài)的偽造過程,設(shè)計了一種對文本、圖像、音頻3種不同模態(tài)提取內(nèi)嵌偽造機理特征的方法,通過特征融合方式,將神經(jīng)網(wǎng)絡(luò)綜合學(xué)習(xí)多模態(tài)的內(nèi)嵌偽造機理特征用于判斷輸入數(shù)據(jù)是否偽造信息。
負面數(shù)據(jù)增強方法通過擴充數(shù)據(jù)集、增加數(shù)據(jù)多樣性等方法有效提升了模型的穩(wěn)定性及檢測的魯棒性。針對音頻模態(tài),將音頻輸入預(yù)訓(xùn)練好的語音轉(zhuǎn)換模型中,得到對應(yīng)的轉(zhuǎn)換語音并將其標記為偽造。針對圖像模態(tài),將圖像輸入預(yù)訓(xùn)練好的變分自編碼器模型中,獲得對應(yīng)重構(gòu)圖像并將其標記為偽造。針對文本模態(tài),使用通用的預(yù)訓(xùn)練語言模型對文本段落進行較小的擾動,將所得文本輸出標記為偽造。
提出一種基于內(nèi)嵌偽造機理的多模態(tài)協(xié)同魯棒偽造信息檢測方法,由負面數(shù)據(jù)增強、單模態(tài)特征提取、音頻-圖片模態(tài)融合及分類權(quán)重結(jié)果融合4個階段組成。
圖1 模型結(jié)構(gòu)Fig.1 Model structure
2.3.1 負面數(shù)據(jù)增強
留下各個模態(tài)數(shù)據(jù)內(nèi)嵌偽造機理的痕跡,圖像模態(tài)采用預(yù)先用圖片數(shù)據(jù)集訓(xùn)練好的VAE架構(gòu)模型。音頻模態(tài)采用語音轉(zhuǎn)換方式,而so-vits模型更為穩(wěn)定且速度,相較于soft-vc[9]相差無幾。文本模態(tài)采用語音識別的方式補充文本模態(tài)數(shù)據(jù),采用T5模型對文本進行小幅度修改。
2.3.2 單模態(tài)特征提取
圖像模態(tài)采用自注意力機制對輸入進行編碼操作,使圖片轉(zhuǎn)換為具有表征能力的向量表示。音頻模態(tài)對時域特征進行提取,使用asvspoof2019訓(xùn)練集預(yù)先訓(xùn)練過的Rawnet2網(wǎng)絡(luò)結(jié)構(gòu)直接對音頻波形圖進行特征提取。
2.3.3 音頻-圖片模態(tài)融合
多模態(tài)融合器(multi-modalaggregator)對原音頻與負面增強后的音頻、原圖像與負面增強后的圖像進行融合,再將音頻與圖像模態(tài)表征進行融合,融合器由cross-attention和feed for ward neural net work組成,特征融合完成后連接二分類分類器對真?zhèn)芜M行softmax分類。
2.3.4 分類權(quán)重結(jié)果融合
基于detectGPT輸出的值與多模態(tài)融合器softmax分類值,對文本真?zhèn)晤A(yù)測進行加權(quán)聯(lián)合判斷,將文本預(yù)測結(jié)果的權(quán)重設(shè)為0.1。
收集了大量視頻數(shù)據(jù),借助ASR模型補全了部分視頻缺失的文本模態(tài)數(shù)據(jù),將其作為實驗數(shù)據(jù)集,對每個模態(tài)都進行真?zhèn)螛撕灅俗?。為保證實驗的可靠性及可比性,對數(shù)據(jù)各個模態(tài)進行與對比方法相同的數(shù)據(jù)預(yù)處理操作,確保模型效果比對不會受到其他變量的影響。將數(shù)據(jù)集按照7∶2∶1的比例隨機劃分為訓(xùn)練集、驗證集及測試集,用于模型訓(xùn)練、參數(shù)調(diào)整及最終評測。
為評估所提方法的性能,選用EER、Precision及F1值幾個常見指標對模型性能進行評估,進行對比實驗和消融實驗,使用音頻單一模態(tài)的偽造檢測模型rawnet2作為比對模型,消融實驗則將模型遞進消融為完整模型(ours)、剔除文本模態(tài)(oursw/o text)、剔除文本及圖像模態(tài)(oursw/o text&image)。
表1 實驗結(jié)果
純音頻單模態(tài)的偽造檢測使用ours w/o text&image,對比rawnet2效果,其在EER、precision及F1的表現(xiàn)上均比rawnet2模型好。在消融實驗上遞進地將文本模態(tài)、文本及圖像模態(tài)剔除,對模型進行評測,結(jié)果顯示,每剔除一個模態(tài),各項指標的表現(xiàn)都會有所下降,說明此方法的多模態(tài)融合提升了偽造檢測能力。
文本模態(tài)剔除對各項指標的影響并不大,造成這一現(xiàn)象的原因是此方法對文本模態(tài)的融合方式及文本語義方面的考慮不夠,導(dǎo)致文本特征對整體偽造檢測效果的提升不如另外兩個模態(tài)。
實驗驗證了此方法的有效性,說明此模型架構(gòu)能較好地捕捉到數(shù)據(jù)的偽造依據(jù)并進行偽造檢測。
提出了一種偽造檢測方法并在自建數(shù)據(jù)集上進行實驗,證明此方法具有有效性,與常用的單模態(tài)偽造信息檢測模型相比具有優(yōu)越性。此方法在多個指標上表現(xiàn)良好,但還有提升空間。未來,可著重研究文本模態(tài)的語義,著眼于多模態(tài)之間的融合策略及融合階段,更好地識別偽造數(shù)據(jù),完成偽造信息檢測任務(wù)。