陳宏揚(yáng)
(廣東輕工職業(yè)技術(shù)學(xué)院,廣東 廣州 510300)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,視頻數(shù)據(jù)逐漸成為教育、娛樂(lè)、社交和商業(yè)領(lǐng)域的重要信息媒介。視頻數(shù)據(jù)不僅包含豐富的視覺(jué)信息,還包含大量語(yǔ)言信息,如對(duì)話、字幕和評(píng)論等。這些語(yǔ)言信息對(duì)視頻數(shù)據(jù)的理解和利用具有重要的作用,但同時(shí)也存在敏感、隱私和易變等問(wèn)題。然而,視頻數(shù)據(jù)的傳輸、存儲(chǔ)、處理和使用過(guò)程中可能存在安全風(fēng)險(xiǎn),例如個(gè)人信息、商業(yè)機(jī)密和政治觀點(diǎn)等敏感內(nèi)容可能被泄露或篡改,導(dǎo)致經(jīng)濟(jì)損失、聲譽(yù)損害和法律風(fēng)險(xiǎn)等后果。因此,對(duì)視頻類(lèi)數(shù)據(jù)進(jìn)行安全風(fēng)險(xiǎn)評(píng)估是保障視頻數(shù)據(jù)安全和合規(guī)性的重要手段。
然而,目前對(duì)視頻類(lèi)數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估的研究還比較缺乏,現(xiàn)有的方法主要集中在對(duì)視頻數(shù)據(jù)中的圖像信息進(jìn)行分析和處理,往往忽視視頻數(shù)據(jù)中的語(yǔ)言信息。這些模型無(wú)法準(zhǔn)確地識(shí)別和評(píng)估視頻數(shù)據(jù)中存在的各種語(yǔ)言相關(guān)安全風(fēng)險(xiǎn),也無(wú)法有效地利用語(yǔ)言信息來(lái)提高視頻數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估的效率和效果。
為了解決這一問(wèn)題,本文提出了一種基于自然語(yǔ)言處理技術(shù)的視頻類(lèi)數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估模型,該模型用Transformer技術(shù)對(duì)視頻數(shù)據(jù)中的語(yǔ)音、文本等語(yǔ)言信息進(jìn)行預(yù)處理、特征提取和融合,并進(jìn)行安全風(fēng)險(xiǎn)評(píng)估,實(shí)現(xiàn)視頻類(lèi)數(shù)據(jù)資產(chǎn)的自動(dòng)化、智能化和精準(zhǔn)化風(fēng)險(xiǎn)評(píng)估。
本文提出的模型具有以下優(yōu)勢(shì)和創(chuàng)新點(diǎn):(1)充分利用視頻數(shù)據(jù)中的語(yǔ)言信息,提高風(fēng)險(xiǎn)評(píng)估的準(zhǔn)確性和有效性;(2)采用Transformer等先進(jìn)的自然語(yǔ)言處理技術(shù),提高風(fēng)險(xiǎn)評(píng)估的效率和性能;(3)適用于多種類(lèi)型和場(chǎng)景的視頻類(lèi)數(shù)據(jù),提高風(fēng)險(xiǎn)評(píng)估的通用性和適應(yīng)性。
參照信息安全風(fēng)險(xiǎn)評(píng)估方法,以視頻存儲(chǔ)設(shè)備、監(jiān)控?cái)z像頭等視頻類(lèi)數(shù)據(jù)資產(chǎn)為評(píng)估對(duì)象,視頻類(lèi)數(shù)據(jù)處理活動(dòng)中所面臨的風(fēng)險(xiǎn)為評(píng)估內(nèi)容,視頻類(lèi)數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估流程包括以下5個(gè)步驟。
從不同的來(lái)源和渠道收集視頻類(lèi)資產(chǎn)的數(shù)據(jù),如視頻標(biāo)題、內(nèi)容、元數(shù)據(jù)、標(biāo)簽、用戶(hù)行為、情感、敏感度等,并構(gòu)建特征向量表示視頻類(lèi)資產(chǎn)的屬性。
對(duì)視頻數(shù)據(jù)進(jìn)行清洗、格式轉(zhuǎn)換、分割等操作,將視頻數(shù)據(jù)轉(zhuǎn)化為適合自然語(yǔ)言處理技術(shù)的形式,如文本、語(yǔ)音等,并根據(jù)創(chuàng)建的視頻類(lèi)資產(chǎn)安全評(píng)估指標(biāo),對(duì)視頻類(lèi)資產(chǎn)進(jìn)行標(biāo)注,并添加安全等級(jí)的標(biāo)簽,例如G級(jí)(適合所有觀眾)、PG級(jí)(需要家長(zhǎng)指導(dǎo))、R級(jí)(限制級(jí))等,形成有監(jiān)督的訓(xùn)練數(shù)據(jù)集。
根據(jù)數(shù)據(jù)的特點(diǎn)和任務(wù)的需求,設(shè)計(jì)合適的自然語(yǔ)言處理模型,例如基于神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、Transformer等技術(shù)的模型。模型能夠從視頻類(lèi)資產(chǎn)的元數(shù)據(jù)中提取有效的特征,并根據(jù)特征判斷視頻類(lèi)資產(chǎn)的安全等級(jí)。
通過(guò)訓(xùn)練數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,以?xún)?yōu)化模型的參數(shù),并評(píng)估模型的性能,例如準(zhǔn)確率、召回率、F1值等指標(biāo)。訓(xùn)練過(guò)程中可以使用一些技巧來(lái)提高模型的效果,例如預(yù)訓(xùn)練、微調(diào)、數(shù)據(jù)增強(qiáng)等。
將訓(xùn)練好的模型部署到實(shí)際應(yīng)用場(chǎng)景中,例如高校MOOC及SPOC平臺(tái)、短視頻平臺(tái)、長(zhǎng)視頻平臺(tái)、內(nèi)容審核系統(tǒng)等。部署過(guò)程中需要考慮模型的可擴(kuò)展性、可維護(hù)性、可解釋性等因素,并定期對(duì)模型進(jìn)行更新和改進(jìn)。
根據(jù)風(fēng)險(xiǎn)評(píng)估的結(jié)果,生成視頻類(lèi)資產(chǎn)安全風(fēng)險(xiǎn)報(bào)告,包括風(fēng)險(xiǎn)等級(jí)、風(fēng)險(xiǎn)因素、風(fēng)險(xiǎn)影響、風(fēng)險(xiǎn)應(yīng)對(duì)措施等內(nèi)容,以便于相關(guān)人員及時(shí)了解和處理風(fēng)險(xiǎn)。
視頻類(lèi)資產(chǎn)的安全風(fēng)險(xiǎn)評(píng)估模型指標(biāo)需要考慮以下幾個(gè)方面。
標(biāo)題長(zhǎng)度應(yīng)該適中,一般在10~20個(gè)字。標(biāo)題內(nèi)容應(yīng)該與視頻內(nèi)容相符,沒(méi)有虛假或夸大的信息,也沒(méi)有侮辱、誹謗、歧視或煽動(dòng)性的言論。標(biāo)題風(fēng)格應(yīng)該與視頻類(lèi)型和目標(biāo)受眾相匹配,不用過(guò)于正式或過(guò)于隨意的語(yǔ)氣,也不用過(guò)于專(zhuān)業(yè)或過(guò)于俗氣的詞匯。
內(nèi)容主題應(yīng)該符合視頻的類(lèi)型和目的,不要涉及違法、反動(dòng)、暴力、色情、賭博等敏感或禁止的主題。內(nèi)容質(zhì)量應(yīng)該保證視頻的清晰度、流暢度、穩(wěn)定度等技術(shù)參數(shù),以及視頻的邏輯性、連貫性、完整性等結(jié)構(gòu)參數(shù)。內(nèi)容創(chuàng)意應(yīng)該體現(xiàn)視頻的獨(dú)特性、新穎性、趣味性等藝術(shù)參數(shù)以及視頻的互動(dòng)性、參與性、引導(dǎo)性等社會(huì)參數(shù)。
元數(shù)據(jù)是指描述視頻屬性和特征的數(shù)據(jù),例如作者、日期、時(shí)長(zhǎng)、格式、分辨率等。在元數(shù)據(jù)完整度上應(yīng)該保證元數(shù)據(jù)包含了所有必要和重要的信息,沒(méi)有缺失或錯(cuò)誤的數(shù)據(jù)。在元數(shù)據(jù)準(zhǔn)確度上應(yīng)該保證元數(shù)據(jù)與視頻實(shí)際情況一致,沒(méi)有虛假或誤導(dǎo)的數(shù)據(jù)。在元數(shù)據(jù)規(guī)范度上應(yīng)該保證元數(shù)據(jù)遵循了統(tǒng)一和標(biāo)準(zhǔn)的格式和語(yǔ)言,沒(méi)有混亂或不一致的數(shù)據(jù)。
用于分類(lèi)和標(biāo)記視頻主題和內(nèi)容的關(guān)鍵詞或短語(yǔ),例如“喜劇”“動(dòng)作”“教育”等。
標(biāo)簽數(shù)量應(yīng)該適當(dāng),不要過(guò)多或過(guò)少,一般在3~10個(gè)。標(biāo)簽內(nèi)容應(yīng)該與視頻主題和內(nèi)容相關(guān),沒(méi)有無(wú)關(guān)或不恰當(dāng)?shù)臉?biāo)簽。標(biāo)簽風(fēng)格應(yīng)該與視頻類(lèi)型和目標(biāo)受眾相匹配,不使用過(guò)于專(zhuān)業(yè)或過(guò)于俗氣的詞匯,也不用過(guò)于敏感或過(guò)于激進(jìn)的詞匯。
用戶(hù)在觀看視頻時(shí)的操作和反饋,例如點(diǎn)贊、評(píng)論、分享、收藏等。在用戶(hù)行為頻率上應(yīng)該反映視頻的受歡迎程度和影響力,沒(méi)有異?;虍惓8叩男袨閿?shù)據(jù)。在用戶(hù)行為內(nèi)容上應(yīng)該反映用戶(hù)對(duì)視頻的真實(shí)和合理的意見(jiàn)和建議,沒(méi)有惡意或無(wú)意義的行為數(shù)據(jù)。在用戶(hù)行為風(fēng)格上應(yīng)該反映用戶(hù)對(duì)視頻的禮貌和尊重,沒(méi)有侮辱、誹謗、歧視或煽動(dòng)性的行為數(shù)據(jù)。
用戶(hù)情感是指用戶(hù)在觀看視頻時(shí)產(chǎn)生的情緒和態(tài)度,例如喜悅、悲傷、憤怒、恐懼等。在用戶(hù)情感強(qiáng)度上應(yīng)該反映視頻對(duì)用戶(hù)的情緒激發(fā)程度,沒(méi)有過(guò)于強(qiáng)烈或過(guò)于弱的情緒反應(yīng)。在用戶(hù)情感極性上應(yīng)該反映視頻對(duì)用戶(hù)的情緒傾向,沒(méi)有過(guò)于正面或過(guò)于負(fù)面的情緒評(píng)價(jià)。在用戶(hù)情感穩(wěn)定性上應(yīng)該反映視頻對(duì)用戶(hù)的情緒變化,沒(méi)有過(guò)于波動(dòng)或過(guò)于單一的情緒狀態(tài)。
根據(jù)以上的安全風(fēng)險(xiǎn)評(píng)估指標(biāo),設(shè)計(jì)了視頻類(lèi)資產(chǎn)安全風(fēng)險(xiǎn)等級(jí)分類(lèi)表,如表1所示。
表1 視頻類(lèi)資產(chǎn)安全風(fēng)險(xiǎn)等級(jí)分類(lèi)
根據(jù)視頻類(lèi)資產(chǎn)的各項(xiàng)指標(biāo)計(jì)算其安全風(fēng)險(xiǎn)等級(jí),定義一個(gè)綜合評(píng)分函數(shù)來(lái)計(jì)算視頻類(lèi)資產(chǎn)的安全風(fēng)險(xiǎn)等級(jí),如下所示:
其中,S為視頻類(lèi)資產(chǎn)的綜合評(píng)分;wi為第i個(gè)指標(biāo)的權(quán)重系數(shù);wifi(xi)為第i個(gè)指標(biāo)對(duì)應(yīng)的評(píng)分函數(shù);xi為第i個(gè)指標(biāo)對(duì)應(yīng)的元數(shù)據(jù)或用戶(hù)行為或用戶(hù)情感。綜合評(píng)分S越高,則表示視頻類(lèi)資產(chǎn)的安全風(fēng)險(xiǎn)等級(jí)越低;反之,則表示視頻類(lèi)資產(chǎn)的安全風(fēng)險(xiǎn)等級(jí)越高。
選擇基于Transformer的模型架構(gòu),Transformer是一種強(qiáng)大且靈活的神經(jīng)網(wǎng)絡(luò)模型,可以有效地處理序列數(shù)據(jù),如文本和音頻。Transformer利用了注意力機(jī)制,可以捕捉序列中不同位置之間的相關(guān)性,并實(shí)現(xiàn)并行計(jì)算,提高效率和性能。
將視頻類(lèi)資產(chǎn)的元數(shù)據(jù)作為模型的輸入,將其轉(zhuǎn)換為數(shù)值向量,作為T(mén)ransformer編碼器部分的輸入。使用預(yù)訓(xùn)練的詞嵌入來(lái)表示文本類(lèi)型的元數(shù)據(jù),如標(biāo)題、標(biāo)簽等,使用數(shù)值歸一化來(lái)表示數(shù)值類(lèi)型的元數(shù)據(jù),如時(shí)長(zhǎng)、分辨率等,使用獨(dú)熱編碼來(lái)表示類(lèi)別類(lèi)型的元數(shù)據(jù),如格式、作者等。
將視頻類(lèi)資產(chǎn)的安全等級(jí)作為模型的輸出,將其轉(zhuǎn)換為數(shù)值標(biāo)簽,作為T(mén)ransformer解碼器部分的輸出。使用交叉熵?fù)p失函數(shù)來(lái)衡量模型輸出和真實(shí)標(biāo)簽之間的差異,并使用梯度下降算法來(lái)優(yōu)化模型參數(shù)。
使用預(yù)處理后的數(shù)據(jù)集或已有的視頻類(lèi)資產(chǎn)數(shù)據(jù)集來(lái)訓(xùn)練模型,例如Tencent Video Dataset,是一個(gè)由騰訊提供的大規(guī)模中文多類(lèi)型的視頻數(shù)據(jù)集,包含了10萬(wàn)個(gè)騰訊視頻及其元數(shù)據(jù)和標(biāo)簽,涵蓋了1 000多個(gè)類(lèi)別,如“愛(ài)情”“懸疑”“歷史”等。這些數(shù)據(jù)集包含了大量的視頻類(lèi)資產(chǎn)及其元數(shù)據(jù)和安全等級(jí)標(biāo)簽。使用隨機(jī)劃分或交叉驗(yàn)證的方法來(lái)劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集,并使用批量梯度下降或隨機(jī)梯度下降的方法來(lái)更新模型參數(shù)。
使用準(zhǔn)確率或F1得分等指標(biāo)來(lái)評(píng)估模型在測(cè)試集上的表現(xiàn),并與其他基準(zhǔn)模型進(jìn)行比較。并使用混淆矩陣或ROC曲線等可視化工具來(lái)分析模型在不同安全等級(jí)上的分類(lèi)效果,并找出模型的優(yōu)勢(shì)和不足。
視頻類(lèi)數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估模型的輸入、輸出和中間過(guò)程如圖1所示。
圖1 視頻類(lèi)數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估模型的結(jié)構(gòu)
為了驗(yàn)證本文提出的模型的有效性,使用Python語(yǔ)言和PyTorch框架實(shí)現(xiàn)了模型,并在Tencent Video Dataset上進(jìn)行實(shí)驗(yàn)。使用BERT作為預(yù)訓(xùn)練的詞嵌入,使用Transformer作為模型的主體結(jié)構(gòu),使用Softmax作為模型的輸出層。使用Adam作為優(yōu)化器,使用交叉熵作為損失函數(shù),使用準(zhǔn)確率和F1值作為評(píng)估指標(biāo)。將數(shù)據(jù)集劃分為80%的訓(xùn)練集,10%的驗(yàn)證集和10%的測(cè)試集,并使用10個(gè)批次和20個(gè)迭代進(jìn)行訓(xùn)練。將本文提出的模型與以下3種基準(zhǔn)模型進(jìn)行了比較:(1)基于CNN的模型,使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻類(lèi)資產(chǎn)的元數(shù)據(jù)進(jìn)行特征提取和分類(lèi);(2)基于RNN的模型,使用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)視頻類(lèi)資產(chǎn)的元數(shù)據(jù)進(jìn)行特征提取和分類(lèi);(3)基于SVM的模型,使用支持向量機(jī)對(duì)視頻類(lèi)資產(chǎn)的元數(shù)據(jù)進(jìn)行特征提取和分類(lèi)。實(shí)驗(yàn)結(jié)果如表2所示。
表2 實(shí)驗(yàn)結(jié)果
可以看出,本文提出的模型在準(zhǔn)確率和F1值上均優(yōu)于基準(zhǔn)模型,說(shuō)明本文提出的模型可以有效地利用視頻類(lèi)資產(chǎn)的元數(shù)據(jù)進(jìn)行安全風(fēng)險(xiǎn)評(píng)估,并具有較高的性能和效果。
本文構(gòu)建了一種基于Transformer的視頻類(lèi)數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估模型,利用自然語(yǔ)言處理技術(shù)對(duì)視頻類(lèi)數(shù)據(jù)中的語(yǔ)言信息進(jìn)行分析和處理,實(shí)現(xiàn)了視頻類(lèi)數(shù)據(jù)資產(chǎn)的自動(dòng)化、智能化和精準(zhǔn)化風(fēng)險(xiǎn)評(píng)估。本文也存在一些不足,例如數(shù)據(jù)集來(lái)源較為單一,只使用了騰訊視頻數(shù)據(jù)集,可能存在一定的偏差和局限性。未來(lái)可以考慮使用更多來(lái)源和類(lèi)型的視頻數(shù)據(jù)集,以提高模型的泛化能力和適應(yīng)性。