林洋平,劉 佳*,陳 培,張明書,2,楊曉元,2
(1.武警工程大學(xué) 密碼工程學(xué)院,西安 710086;2.網(wǎng)絡(luò)與信息安全武警部隊(duì)重點(diǎn)實(shí)驗(yàn)室(武警工程大學(xué)),西安 710086)
互聯(lián)網(wǎng)的迅速發(fā)展產(chǎn)生了海量的數(shù)據(jù),如何保證這些數(shù)據(jù)的保密性、完整性和可用性等成為學(xué)界所關(guān)注的問題。密碼學(xué)和隱寫術(shù)都提供了維護(hù)公共信道上機(jī)密數(shù)據(jù)安全的方法。相較于傳統(tǒng)的加密技術(shù),信息隱藏技術(shù)更加注重秘密通信而不是加密信息,適用于軍事通信、金融交易等涉及敏感信息傳輸交互的領(lǐng)域,具有廣闊的應(yīng)用前景[1]。
當(dāng)前的視頻信息隱藏方案主要利用某種修改策略進(jìn)行信息嵌入,以最小的代價(jià)來達(dá)到隱寫目的。最低有效位(Least Significant Bit,LSB)隱寫術(shù)是一種常見的隱寫方法[2],主要通過將秘密信息隱藏在載體圖像的最低有效位來實(shí)現(xiàn)信息嵌入。還有許多研究學(xué)者從視頻壓縮編碼標(biāo)準(zhǔn)入手,實(shí)現(xiàn)對秘密信息的嵌入[3-5]。這些方案的隱寫視頻質(zhì)量雖沒有明顯下降,但仍改變了載體視頻的底層統(tǒng)計(jì)數(shù)據(jù),容易受到針對特定嵌入域的隱寫分析算法[6]的攻擊。針對傳統(tǒng)載體修改式隱寫方案存在的問題,許多學(xué)者將生成對抗網(wǎng)絡(luò)(Generative Adversarial Net,GAN)[7]引入信息隱藏中,提出了基于GAN 的隱寫方法。該方法主要可分為3 類:載體選擇、載體修改和載體合成[8]。
目前在視頻隱寫中,王婷婷等[9]利用短視頻資源的分類與時(shí)長,提出了一種基于載體選擇的視頻信息隱藏方法,但該方法的嵌入率較低?;谏窠?jīng)網(wǎng)絡(luò)的視頻隱寫算法大都屬于載體修改式方案,Weng 等[10]提出一種基于深度卷積網(wǎng)絡(luò)的視頻隱寫方法,利用連續(xù)視頻數(shù)據(jù)之間的時(shí)間冗余將視頻幀圖像分為殘差幀與參考幀,并分別利用兩種嵌入與提取網(wǎng)絡(luò)實(shí)現(xiàn)對秘密視頻中的殘差幀與參考幀的分類與提取;該方案是一種將秘密視頻隱藏在載體視頻的隱寫方法。Jaiswal 等[11]與Abdolmohammadi 等[12]利用三維卷積神經(jīng)網(wǎng)絡(luò)(3D-Convolutional Neural Network,3D-CNN)具有增強(qiáng)特征學(xué)習(xí)的特點(diǎn),提出了基于3D-CNN 的隱寫模型架構(gòu),對載體視頻樣本進(jìn)行信息嵌入。為了解決傳統(tǒng)方法不能同時(shí)處理多種惡意攻擊的問題,Luo 等[13]提出了一種基于深度學(xué)習(xí)的魯棒視頻水?。―eep multiscale framework for Video waterMarking,DVMark)方案,DVMark 在編碼器與解碼器網(wǎng)絡(luò)中結(jié)合了一種多尺度設(shè)計(jì),將消息的嵌入跨越多個(gè)時(shí)空尺度;與前兩種方案相比,DVMark 通過使用不同的可微失真層,提高了水印視頻的魯棒性。上述三種方法都是采用了神經(jīng)網(wǎng)絡(luò)的載體修改式隱寫方案,經(jīng)過大量訓(xùn)練,逐漸縮小載密視頻與原始視頻之間的差異;但實(shí)際上仍會對載體信息進(jìn)行一定的修改,易受隱寫分析算法的攻擊,并且無法將秘密消息無損地提取出來。而在視頻隱寫中,基于GAN 的載體合成式隱寫方法還處于探索階段。
結(jié)合載體修改式與載體合成式的特點(diǎn),本文提出了一種基于深度卷積生成對抗網(wǎng)絡(luò)(Deep Convolutional Generative Adversarial Net,DCGAN)[14]的半生成式視頻隱寫方案。本文的主要工作如下:
1)半生成式方案使用基于DCGAN 的雙流視頻生成模型,并不是直接構(gòu)造出完整的含密視頻,而是將含密視頻的生成分為前景信息、后景信息與時(shí)空掩模三部分;通過設(shè)定一定的概率閾值,在時(shí)空掩模中自適應(yīng)地生成數(shù)字化卡登格,在視頻前景中對信息有選擇地進(jìn)行嵌入,通過三者的組合生成含密視頻。
2)在原有判別器的基礎(chǔ)上,增加了一個(gè)隱寫判別器來對含密視頻與原始視頻進(jìn)行判定。通過博弈論的思想,利用大量視頻數(shù)據(jù)進(jìn)行對抗性訓(xùn)練,使得生成的含密視頻在視覺上更加符合自然語義。
生成對抗網(wǎng)絡(luò)(GAN)是Goodfellow 等[7]于2014 年提出的基于零和博弈思想的神經(jīng)網(wǎng)絡(luò)模型,其結(jié)構(gòu)如圖1 所示。
圖1 GAN的結(jié)構(gòu)Fig.1 Structure of GAN
GAN 從某種分布中采樣得到隨機(jī)噪聲,然后輸入到生成器中,輸出一個(gè)“偽”樣本,將其與“真”樣本一同傳給判別器,給出判別結(jié)果。理想情況下,生成器能完全學(xué)習(xí)到真實(shí)數(shù)據(jù)分布,使判別器無法準(zhǔn)確識別數(shù)據(jù)來源[15]。因此在GAN 的訓(xùn)練過程中優(yōu)化目標(biāo)函數(shù)為:
其中:D(x)是判別x為真實(shí)樣本的概率;G(z)是從輸入噪聲z產(chǎn)生的生成樣本。
深度卷積生成對抗網(wǎng)絡(luò)(DCGAN)參考原始GAN 的原理,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為其結(jié)構(gòu)主體。網(wǎng)絡(luò)模型中使用全卷積結(jié)構(gòu)代替了全連接層與池化層,批量標(biāo)準(zhǔn)歸一化層的使用解決了模型的訓(xùn)練問題,這樣生成樣本的質(zhì)量和收斂速度都得到很大的提升。
生成式信息隱藏指在沒有預(yù)先指定原始載體的條件下,含密載體由秘密信息按照一定規(guī)則直接生成,而含密載體可以不表示真實(shí)的客觀世界,但與正常內(nèi)容相比應(yīng)具有不可區(qū)分性。生成式方案往往不會預(yù)先指定原始載體;而半生成式信息隱藏方案會事先設(shè)定載體構(gòu)造的預(yù)設(shè)條件,然后根據(jù)秘密消息并遵循相應(yīng)的生成規(guī)則生成含密載體。所生成的含密載體屬于特定類型[16],如圖2 所示。
圖2 半生成式隱寫Fig.2 Semi-generative steganography
與載體修改式隱寫方案不同,視頻半生成式隱寫方案以秘密信息為驅(qū)動,利用生成器直接生成含密視頻樣本,避免了對原始載體的修改。該方案適用于某種特定的視頻載體類型,擁有自身特有的信息隱藏理論基礎(chǔ)與方法,同時(shí)也結(jié)合了目前載體修改式隱寫方案中的一些成果。視頻半生成隱寫方案可應(yīng)用于社交軟件、流媒體平臺與網(wǎng)上存儲工具,利用視頻媒介作為秘密信息的偽裝,達(dá)到隱蔽通信或隱蔽存儲的目的。
本文提出的基于DCGAN 的半生成式視頻隱寫方案主要由視頻生成、數(shù)字化卡登格生成與信息嵌入三部分組成。視頻的生成需要包括生成器網(wǎng)絡(luò)與兩種判別器網(wǎng)絡(luò)的參與,數(shù)字化卡登格的生成與信息嵌入以掩模與前景的生成為基礎(chǔ)。
其中:g為樣本;m為時(shí)空掩模;f與b分別為前景(foreground)信息和后景(background)信息;⊙為Hadamard 乘積[17]。
本文含密視頻的生成過程如圖3 所示,信息隱藏的過程符合傳統(tǒng)卡登格的基本思想。發(fā)送方通過設(shè)定隱寫閾值自適應(yīng)地定義了一個(gè)被稱為數(shù)字化卡登格的掩碼,以確定消息隱藏在前景信息的具體位置;而秘密消息將直接嵌入到這些位置的像素點(diǎn)的最低有效位,實(shí)現(xiàn)了從傳統(tǒng)卡登格到數(shù)字化卡登格的轉(zhuǎn)換。然后采用Hadamard 乘積[17]通過式(2)進(jìn)行樣本g合成。含密視頻將通過公共通道傳輸給接收方,接收方利用事先從秘密信道中獲取的卡登格提取秘密信息。這樣既保證了秘密信息的安全性,又保證了在視頻合成前后的邏輯合理性。
圖3 含密視頻的生成過程Fig.3 Generation process of video with secret
基于卡登格的信息隱藏方法中,卡登格作為秘密信息嵌入與提取的密鑰,但傳統(tǒng)卡登格對秘密信息處理比較簡單。針對雙流視頻生成模型的特點(diǎn),提出了一種數(shù)字化卡登格隱寫方案。
本文通過分析掩模中對應(yīng)每個(gè)像素運(yùn)動與位置信息的數(shù)字特性,設(shè)定具體的隱寫閾值對掩模進(jìn)行修改,以生成數(shù)字化卡登格。由于生成網(wǎng)絡(luò)的最后一層采用了Sigmoid 函數(shù),掩模對應(yīng)的像素運(yùn)動信息對應(yīng)的數(shù)值處于0 到1 之間。由式(2)可知,運(yùn)動信息數(shù)值與對應(yīng)前景中的像素運(yùn)動幅度成正比,從嵌入合理性與嵌入容量兩方面考慮,對掩模的修改方式如式(3)所示。
因?yàn)樵谇度脒^程中只對視頻幀圖像的第一個(gè)通道進(jìn)行嵌入,所以對前景與掩模的處理也只在其最后一個(gè)維度中進(jìn)行。假如前景與掩模的大小為32×64×64×3,則要對二者進(jìn)行數(shù)據(jù)處理的部分的大小為32×64×64×1。每次生成的掩模是根據(jù)隨機(jī)噪聲驅(qū)動生成的,通過設(shè)定閾值?對嵌入位置進(jìn)行選擇,將大于概率閾值的置于1,自適應(yīng)生成數(shù)字化卡登格,再對應(yīng)前景的具體位置進(jìn)行LSB 嵌入。為了減小修改前景像素信息帶來的特征變化,采用隨機(jī)加減1 的方式進(jìn)行嵌入,從而達(dá)到最優(yōu)化嵌入的目的。具體嵌入方式與流程如式(4)和圖4 所示:
圖4 數(shù)字化卡登格的生成與嵌入流程Fig.4 Flow of digital Cardan grille generation and embedding
當(dāng)前景所需修改位置的值為0 或255 時(shí),修改時(shí)跳過該點(diǎn),在下一個(gè)位置進(jìn)行嵌入。傳輸時(shí)消息發(fā)送方無需將網(wǎng)絡(luò)訓(xùn)練模型傳輸給接收方,只需將生成的數(shù)字化卡登格通過秘密信道傳輸給接收方;待消息接收方收到公共信道傳輸?shù)碾[寫視頻時(shí),利用數(shù)字化卡登格對視頻中的每一幀進(jìn)行覆蓋,即可將秘密信息無損地從視頻幀中提取出來。
生成器網(wǎng)絡(luò)的輸入是一個(gè)低維噪聲z,該噪聲可以從一個(gè)分布(如高斯分布)中采樣。本文生成器網(wǎng)絡(luò)的架構(gòu)在設(shè)計(jì)時(shí)考慮了以下需求:首先,本文希望通過低維的噪聲能夠產(chǎn)生具有高維信息的視頻;其次,視頻相較于圖像注重于客觀事物產(chǎn)生位移的動態(tài)屬性,因此生成器需要對物體動態(tài)信息的建模;最后,本文希望生成器直接在時(shí)空關(guān)系上進(jìn)行建模,不將時(shí)間與空間關(guān)系分割開來。通過分析當(dāng)前已有的不同神經(jīng)網(wǎng)絡(luò)的視頻生成模型,本文采用了基于DCGAN 的視頻雙流生成網(wǎng)絡(luò),網(wǎng)絡(luò)中使用了轉(zhuǎn)置卷積網(wǎng)絡(luò),卷積核為3×3×3,步長為2,具體結(jié)構(gòu)如圖5 所示。其中,括號中的數(shù)字代表通道維數(shù)。
圖5 生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Generator network structure
視頻中物體所處的環(huán)境一般是靜止的,通常只有被拍攝的物體在移動,因此在建模信息時(shí),雙流架構(gòu)利用這一特性設(shè)計(jì)視頻生成的流程與原理,如式(2)所示。
對于視頻中每個(gè)像素的位置和時(shí)間步長,利用時(shí)空掩模選擇前景信息或后景信息,這里的前景代表視頻中運(yùn)動的信息,而后景代表了視頻中靜止的背景。為了在視頻時(shí)間序列中生成背景信息,后景通過二維卷積學(xué)習(xí)視頻圖像中靜止的像素信息,生成一個(gè)隨時(shí)間復(fù)制的平面圖像。這里前景是一個(gè)代表每個(gè)像素的時(shí)空信息的四維時(shí)空張量。生成前景的網(wǎng)絡(luò)結(jié)構(gòu),本文使用與文獻(xiàn)[14]中單流架構(gòu)相同的網(wǎng)絡(luò);而對于后景,使用了與圖像生成網(wǎng)絡(luò)類似的生成器架構(gòu)。為了區(qū)分時(shí)空掩模與前景的生成過程,在進(jìn)行最后一次卷積操作時(shí)使用了與前景參數(shù)不同的卷積層,而其余卷積層中掩模與前景共享權(quán)重。
本文使用一個(gè)5 層三維卷積網(wǎng)絡(luò),卷積核為3×3×3,步長為2。本文設(shè)計(jì)的判別器與生成器中的生成前景的結(jié)構(gòu)相反,輸入為真實(shí)視頻樣本與生成的含密樣本,輸出為類別標(biāo)簽label與分類概率logit。其中:類別標(biāo)簽為1 時(shí),代表真實(shí)樣本;標(biāo)簽為0 時(shí),代表生成樣本。判別器網(wǎng)絡(luò)中除了最后一層卷積層后使用Sigmoid 函數(shù)以外,每一層卷積操作后都使用LeakyReLU 作為激活函數(shù)進(jìn)行處理。loss是判別器的損失函數(shù),采用了Sigmoid 交叉熵用來訓(xùn)練判別器。
在對抗性訓(xùn)練思想的啟發(fā)下,在模型中增加了一個(gè)隱寫判別器,其結(jié)構(gòu)與DCGAN 的判別器結(jié)構(gòu)相同,但不與判別器共享權(quán)重參數(shù),在嵌入秘密信息時(shí)單獨(dú)對其進(jìn)行學(xué)習(xí)訓(xùn)練,輸入為真實(shí)視頻樣本與含密視頻樣本。損失如式(6)所示。
本文實(shí)驗(yàn)使用了來自MPII、UCF101 數(shù)據(jù)集與YUV 標(biāo)準(zhǔn)視頻庫中的不同環(huán)境下、各類動作類型的視頻數(shù)據(jù),作為真實(shí)視頻樣本。實(shí)驗(yàn)前利用FFmpeg 軟件對視頻樣本進(jìn)行預(yù)處理,將視頻樣本處理為分辨率64×64 的32 幀短視頻序列。網(wǎng)絡(luò)模型的輸入與輸出皆為32 幀分辨率64×64 的視頻序列。本文實(shí)驗(yàn)是在Tensorflow-gpu1.9 深度學(xué)習(xí)框架下進(jìn)行,CPU為INTEL Xeon E5-1603,內(nèi)存為16 GB,顯卡為NVIDIA TITAN XP。隨機(jī)噪聲的參數(shù)設(shè)置為均值為-1,標(biāo)準(zhǔn)差為1 的100 維高斯噪聲。神經(jīng)網(wǎng)絡(luò)模型采用了文獻(xiàn)[18]中的DCGAN 結(jié)構(gòu),其中優(yōu)化器選擇了Adam 優(yōu)化器,學(xué)習(xí)率為0.000 2。在訓(xùn)練過程中,總共對視頻生成網(wǎng)絡(luò)進(jìn)行訓(xùn)練周期為1 500 輪次的訓(xùn)練:前1 200 輪不進(jìn)行嵌入,只訓(xùn)練模型中的生成視頻模塊,同時(shí)隱寫判別器也未對生成的視頻進(jìn)行識別訓(xùn)練;后300 輪增加隱寫判別器,并進(jìn)行對信息嵌入模塊的訓(xùn)練。
3.2.1 嵌入位置的選擇
本文所采用的視頻生成模型中,掩模、后景與前景三個(gè)部分的生成都需分析視頻幀圖像之間的時(shí)空關(guān)系,以大量視頻樣本對生成網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,使生成視頻中物體的時(shí)空信息足夠真實(shí)。原始視頻幀與前景之間的對比見圖6。
圖6 生成樣本與原始幀F(xiàn)ig.6 Generated samples and original frames
在嵌入信息的過程中,視頻中靜止的信息是從原始訓(xùn)練的視頻樣本中學(xué)習(xí)而來的。從圖6 中可以看出,后景代表了視頻中靜態(tài)背景,而前景代表了運(yùn)動信息是由噪聲驅(qū)動的;前景較后景而言,具有一定的隨機(jī)性,說明對前景進(jìn)行信息的嵌入,視覺上可以提高所生成的含密視頻樣本的安全性。
圖7 是生成視頻與后景像素直方圖之間的統(tǒng)計(jì)信息對比。從統(tǒng)計(jì)信息的角度也可以說明兩者之間的像素關(guān)聯(lián)度高,對后景進(jìn)行嵌入,嵌入容量小且會對視頻每一幀都造成相同失真。因此本文采用在前景中進(jìn)行信息的嵌入,這樣對嵌入信息后的視覺質(zhì)量影響最小。
圖7 后景和生成視頻的像素分布直方圖Fig.7 Pixel distribution histograms of background and generated video
3.2.2 隱寫視頻質(zhì)量
本節(jié)展示了在隱寫閾值為0.99 的條件下,迭代訓(xùn)練所生成的含密視頻。隨機(jī)抽取三幀含密視頻與原視頻進(jìn)行主觀質(zhì)量對比,使用訓(xùn)練視頻與隨機(jī)生成的含密視頻的像素分布直方圖作為無參考客觀質(zhì)量評估手段進(jìn)行對比分析,如圖8~9 所示。從視覺效果來看,在視頻中物體運(yùn)動較小的情況下,能生成質(zhì)量較好的含密視頻,其語義信息都能被較好地表達(dá)出來,只是在一些細(xì)節(jié)方面略有不足;從統(tǒng)計(jì)信息分布來看,生成視頻基本服從原始訓(xùn)練視頻的像素分布。
圖8 含密視頻幀F(xiàn)ig.8 Video-with-secret frames
圖9 生成視頻和訓(xùn)練視頻的像素分布直方圖Fig.9 Pixel distribution histograms of generated video and training video
Frechet Inception 距離(Frechet Inception Distance score,F(xiàn)ID)值是評估原始樣本與生成樣本之間的分布特征相似度的標(biāo)準(zhǔn)。FID 值越小,證明二者之間的像素分布特征越接近。本文選擇了不同隱寫閾值下的含密樣本與IcGAN(Invertible conditional GAN)[19]、MonkeyNet[20]兩種網(wǎng)絡(luò)的生成樣本作為對比對象,使用FID 值衡量不同網(wǎng)絡(luò)的生成效果,結(jié)果如表1 所示,可見本文方案的生成樣本質(zhì)量較高。
表1 生成樣本質(zhì)量對比Tab.1 Generated sample quality comparison
3.2.3 嵌入容量
訓(xùn)練過程中每段視頻的運(yùn)動信息與統(tǒng)計(jì)特性各有不同,因此針對YUV 標(biāo)準(zhǔn)視頻庫中的視頻訓(xùn)練樣本,不同的隱寫閾值對應(yīng)會生成不同隱寫容量的含密視頻樣本。
從表2 可看出,隱寫閾值越大,對應(yīng)視頻所能嵌入的消息比特?cái)?shù)也就越小,但嵌入消息對視頻質(zhì)量的影響也越小。如圖10 所示,當(dāng)閾值為0.99 時(shí),視頻的自然語義能夠較好地保持,并且嵌入容量的大小也足夠多。因此在現(xiàn)實(shí)場景中可根據(jù)需要秘密傳輸?shù)南?nèi)容的大小,具體選擇隱寫閾值的大小調(diào)整嵌入容量。
表2 不同隱寫閾值下的嵌入容量Tab.2 Embedding capacities under different steganography thresholds
圖10 隱寫閾值對視頻質(zhì)量的影響Fig.10 Influence of steganography threshold on video quality
表3 列出本文方案與一些視頻信息隱藏方法的嵌入容量與嵌入率。嵌入容量是指在視頻的某一幀載體或某一段視頻中能夠嵌入的信息長度;相對容量為平均每一像素嵌入的信息比特?cái)?shù);max 與min 代表了在不同視頻樣本下,本文方案嵌入容量的最大、最小值;n代表視頻長度(幀數(shù))。
表3 不同方法的隱寫容量對比Tab.3 Steganographic capacity comparison of different methods
3.2.4 安全性分析
由于本文采用了半生成式視頻隱寫的方法,攻擊者無法通過原始載體與含密視頻之間進(jìn)行對比分析,且不注重于某一種信息隱藏技術(shù)與分析檢測技術(shù)之間的博弈,方案的先驗(yàn)知識若發(fā)生泄露或算法公開,并不會嚴(yán)重威脅其安全性。半生成式隱寫方法通過學(xué)習(xí)與模擬真實(shí)樣本的數(shù)據(jù)分布,使得含密樣本與真實(shí)樣本之間的數(shù)據(jù)分布差異最小,以保證二者之間的不可區(qū)分性,避免陷于隱寫與隱寫分析對抗[8]。
本文方案可應(yīng)用于高互動多媒體與社交應(yīng)用中,使含密視頻能夠以較高傳輸速率和視覺保真度在網(wǎng)絡(luò)中實(shí)時(shí)傳播;并且可以利用互聯(lián)網(wǎng)中大量視頻媒介,對模型進(jìn)行訓(xùn)練,以豐富含密視頻的視覺表現(xiàn)能力,使其不會引起第三方的察覺與懷疑。其次通過與傳統(tǒng)密碼學(xué)技術(shù)卡登格的結(jié)合,將其作為發(fā)送方與接收方的嵌入與提取信息的密鑰,即使攻擊方知曉獲得生成視頻樣本中存在有秘密信息,因發(fā)送方采用秘密信道傳輸數(shù)字化卡登格,攻擊方無法正確提取含密載體中的秘密信息,能保證秘密消息不被泄漏。因此本文隱寫方案滿足Kerckhoffs 準(zhǔn)則,提高了傳輸過程中秘密信息的安全性。
本文利用DCGAN 生成真假難辨的偽視頻,結(jié)合數(shù)字化卡登格的思想,提出了基于DCGAN 的半生成式視頻隱寫方案。所提方案主要包括視頻生成過程、數(shù)字化卡登格生成過程與信息嵌入過程三部分,通過三者的結(jié)合實(shí)現(xiàn)秘密信息的嵌入。實(shí)驗(yàn)結(jié)果和理論分析表明,本文方案可以生成具有良好自然語義特征的視頻序列,并且擁有較高的隱寫容量,能通過修改隱寫閾值來調(diào)節(jié)可嵌入容量的大?。桓鶕?jù)應(yīng)用場景的不同,可在含密視頻的質(zhì)量與隱寫容量進(jìn)行合理的取舍??ǖ歉竦倪\(yùn)用將密碼學(xué)方案與信息隱藏方案相結(jié)合,也使其在隱蔽通信中具有良好的安全性。下一步擬對生成器的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,以提高生成視頻的分辨率,并引入Wasserstein 損失來優(yōu)化判別器的性能,在提高生成質(zhì)量的同時(shí)又增加視頻中每幀的可嵌入比特?cái)?shù)。