◆肖紅威
(中國移動通信集團湖北有限公司 湖北 441000)
通過相關(guān)數(shù)據(jù)可知,2021 年我國在線直播用戶數(shù)量為6.35 億人,預計2022 年將增多為6.6 億人。然而由于直播提供者對利益的驅(qū)使,網(wǎng)絡直播中經(jīng)常出現(xiàn)不健康或違法信息來毒害網(wǎng)民,比如:涉黃、涉賭、涉毒、涉暴等信息,侵犯個人隱私等人身權(quán)利、虛假信息、造謠、詐騙等,沖擊了社會道德、擾亂了社會秩序,甚至違法犯罪,引起社會的廣泛關(guān)注和擔憂。因此,本文通過對直播中不良信息分析,研究了不良信息監(jiān)測的關(guān)鍵技術(shù),提出一種直播中不良信息智能檢測模型,可作為治理直播中不良信息的技術(shù)參考,促進直播行業(yè)健康發(fā)展。
①色情信息。是過度地宣揚兩性關(guān)系、挑逗接收者性欲、導致普通者精神墮落的信息。
②暴恐信息。是含有宣揚暴力、破壞、恐怖、宗教極端、民族分裂等的信息。
③違背公德信息。是對公共生活中最起碼、最簡單的規(guī)范和要求進行人為破壞。
④政治敏感信息。攻擊我國政治制度或法律制度、分裂國家、損害國家形象、破壞社會穩(wěn)定、損害民族與地域團結(jié)、違背國家宗教政策、惡意中傷或損害人民軍隊、國安、警察、行政、司法等國家公務人員形象和共產(chǎn)黨黨員形象的內(nèi)容。
⑤違禁或違法信息,指違反國家有關(guān)規(guī)定或侵犯國家和個人權(quán)利的信息。
由于發(fā)送方和接收方都可使用移動終端,直播打破了時間和空間上的限制,而且還具有較強的實時互動性,直播監(jiān)控面臨了更大挑戰(zhàn),亟需創(chuàng)新技術(shù)來解決監(jiān)管問題。從技術(shù)角度分析,直播是結(jié)合通信技術(shù)、數(shù)字技術(shù)和多媒體技術(shù)的綜合信息服務,且直播仍然以文字、圖像、音頻為主要信息載體,而直播中的不良信息也是如此[1]。因此,綜合考慮直播中各種信息存在的形式,為提高直播中不良內(nèi)容監(jiān)測的高效性和準確率,本文建立一個了直播中不良信息智能檢測概念模型,如下圖1 所示。
圖1 直播中不良信息智能檢測概念模型
(1)關(guān)鍵詞識別算法
基于百萬級違規(guī)詞庫的進行關(guān)鍵詞語義匹配識別。文本內(nèi)容經(jīng)過分詞后,算法對分詞進行變種識別和修正,通過詞向量模型進行向量化操作,轉(zhuǎn)換出語義特征,以語義特征相似為目標,通過海量數(shù)據(jù)高效檢索技術(shù)進行關(guān)鍵詞匹配。
由于涉及黑產(chǎn)的經(jīng)濟利益,內(nèi)容安全是一個充滿著對抗和升級的領域。當不良內(nèi)容被系統(tǒng)檢測并攔截以后,黑產(chǎn)通過對關(guān)鍵詞做變種處理的方式,不斷試探系統(tǒng)的識別能力。主要的變種手段有:
①使用同音字替代,如微信寫成威信;
②直接使用拼音,如裸聊寫成luo 聊;
③使用形近字替代,如裸聊寫成果聊;
④使用拆字替代,裸聊寫成衤果聊;
(2)文本分類算法
文本分類算法主要運用的是傳統(tǒng)的機器學習模型。以傳統(tǒng)機器學習模型為基礎,主要涉及了下述環(huán)節(jié):
①數(shù)據(jù)分布調(diào)整。一是做類別平衡處理,二是做數(shù)據(jù)增強。類別平衡常用的方法有數(shù)據(jù)過采樣和數(shù)據(jù)欠采樣,目的是讓各個類別的樣本數(shù)量更加合理,有利于模型的訓練。文本的數(shù)據(jù)增強包括增詞、減詞和樣本交叉等方式,目的是降低過擬合風險,提高模型泛化能力。數(shù)據(jù)增強需要結(jié)合業(yè)務場景謹慎地選擇合適的方式,這個一般是跟數(shù)據(jù)過采樣結(jié)合使用的。
②特征工程。主要囊括特征選擇、特征定義以及特征表征。特征選擇有PMI、IG 和針對業(yè)務場景自研的一些方法,目的是降維和優(yōu)化特征空間。特征定義指的是模型輸入基于哪些維度,包括詞、ngram、主題模型、詞向量等維度,還包括運營自定義的一些規(guī)則。特征表征主要定義各個特征維度值的計算方法,用得比較多的是TF-IDF,有些場景也有直接用TF 或TF 百分比的。
③模型選擇及對應的超參數(shù)優(yōu)化。這個主要根據(jù)不同場景下文本特點選擇合適的模型,使用較多的模型包括SVM、LR、GBDT 等。
④模型效果評估。訓練好模型之后,我們需要評估其效果。首先在離線測試集上面測試,如果效果指標保持穩(wěn)定或者更好,則用線上抄送的數(shù)據(jù)進行實時測試,命中數(shù)據(jù)抽樣人工標注,獲得最真實的線上效果。
(3)文本指紋識別算法
文本內(nèi)容經(jīng)過分詞后,將分詞送入深度特征提取網(wǎng)絡,進行文本特征空間中的指紋信息提取,進而將提取指紋特征和文本樣本庫中的已有指紋特征進行相似匹配,匹配成功則返回相應類型。
(4)文本聚類算法
文本內(nèi)容經(jīng)過分詞后,將分詞送入深度特征提取網(wǎng)絡進行語義特征提取,提取的特征通過實時聚類算法形成多個團簇,通過篩選聚集度較高的團簇找到對應的高頻文本。
(5)深度學習模型
深度學習模型是通過和傳統(tǒng)機器學習模型集成的形式被應用于在大多數(shù)場景的[2]。其中傳統(tǒng)機器學習模型配置一個較低的閾值,深度學習模型配置一個較高的閾值。先用傳統(tǒng)機器學習模型對待檢測文本進行檢測,如果檢測出有問題,再使用深度學習模型進行進一步檢測。
語言模型的使用也是深度學習模型的應用場景之一。其主要包括兩種類型,即以深度學習的語言模型以及以統(tǒng)計為基礎的N 元文法語言模型。N 元文法語言模型屬于早期的語言模型,深度學習技術(shù)流行以后,基本都被深度學習語言模型替代了。我們的語言模型經(jīng)過幾次技術(shù)升級,目前使用的是基于BERT 的語言模型,使用蒸餾技術(shù)得到的一個簡化版,兼顧效果和性能。
模型的更新維護為了提升模型效果,一般有兩種方式:第一種是補充更多的數(shù)據(jù),特別是badcase 的數(shù)據(jù);第二種是技術(shù)升級,用更好的算法對模型進行改進。模型更頻繁的維護方式是補充訓練數(shù)據(jù),這也是效果提升最直接的方式。
(1)聲音分類算法
聲音分類算法由傳統(tǒng)方法和深度學習方法共同組成,算法用于區(qū)分不同聲音類型,在不良場景中可以對敏感聲音類型進行識別。深度學習方法通過建立卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡對語音數(shù)據(jù)進行建模,使用在圖像識別等任務中表現(xiàn)較好的卷積神經(jīng)網(wǎng)絡例如VGGNet,ResNet 等作為基礎網(wǎng)絡對聲音特征進行學習,由于音頻特征具有時序性,通過建立遞歸神經(jīng)網(wǎng)絡可以學習語音中的時序關(guān)系,提高分類的準確性。
(2)語音識別算法
語音識別算法即語音轉(zhuǎn)文字算法主要通過基于深度學習的端到端模型實現(xiàn),算法用于反垃圾場景中的敏感語音信息提取[3]?;谏疃葘W習的端到端語音識別模型將聲學模型,發(fā)音模型,語言模型統(tǒng)一成整體建立Seq2Seq 模型,不像傳統(tǒng)方式那樣需要獨立的發(fā)音模型和語言模型。端到端語音識別模型主要包括CTC,注意力,CTC 聯(lián)合注意力,RNNTransducer 四種技術(shù)實現(xiàn),其中CTC 聯(lián)合注意力和RNNTransducer 是重點實現(xiàn)方式。數(shù)據(jù)方面的工作包括語音標注數(shù)據(jù)和語料數(shù)據(jù)的收集,和場景相關(guān)的語音、語料數(shù)據(jù)對于模型效果的提升有較關(guān)鍵的作用,除此之外,在魯棒性以及模型識別能力方面,頻域和時域數(shù)據(jù)增強發(fā)揮了極為重要的作用。通過語音轉(zhuǎn)寫數(shù)據(jù)的收集和標注,模型可以進行端到端訓練,實現(xiàn)語音信息轉(zhuǎn)文字的算法功能,從而實現(xiàn)敏感文字信息的提取。
(3)音頻模板匹配算法
算法使用語音指紋技術(shù),首先從連續(xù)的語音中抽取具有良好不變性的特征,將其進行特征編碼轉(zhuǎn)換,轉(zhuǎn)為可以快速檢索的形態(tài)。在實時的匹配中還需要佐以時間維度的校驗。
(4)聲紋識別算法
算法使用了混合帶寬訓練,將語音轉(zhuǎn)換為高層級的語義特征,同時算法會自動聚焦到業(yè)務希望捕獲的特征維度,依賴這些特征組合完成分類決策。
(5)語音識別關(guān)鍵詞檢測算法
關(guān)鍵詞音頻識別算法會共享部分音頻轉(zhuǎn)文字的技術(shù),但在匹配到關(guān)鍵詞相關(guān)特征時,會通過加重關(guān)鍵詞特征的權(quán)重,提升關(guān)鍵詞的識別率。
(1)相似圖片匹配算法
算法對圖片提取全局高層語義特征和重點區(qū)域淺層屬性特征,其中全局特征通過深度特征提取網(wǎng)絡轉(zhuǎn)換獲得,局部特征通過注意力機制進行空間定位獲得,分別對全局和局部特征進行相似度比對,結(jié)合兩者匹配信息綜合判斷圖片是否相似。
(2)目標檢測算法
目標檢測算法主要用于提取圖像中的關(guān)鍵區(qū)域,并屏蔽圖像中的背景和干擾信息。目標檢測算法主要參考了SSD,YOLOv3,RefineDet等通用目標檢測網(wǎng)絡結(jié)構(gòu)[4]。由于不良場景中的圖片存在圖像質(zhì)量低、目標不清晰、特征模糊等特點,檢測部分需要重點解決小目標、多尺度等問題。針對小目標問題目標檢測算法引入了類似特征金字塔的結(jié)構(gòu)進行了特征融合,結(jié)合淺層特征的高分辨率信息和高層特征的語義信息來提高檢測算法對于小目標的召回能力;而針對多尺度問題目標檢測算法主要采用了多尺度訓練的方式進行了優(yōu)化。
(3)圖像分類算法
圖像分類算法針對圖像整體內(nèi)容進行類別區(qū)分,判定圖像是否包含不良類別信息。圖像分類算法參考了基于深度學習的通用分類網(wǎng)絡,例如ResNet,SENet,MobileNet 等。在圖像分類過程中,針對識別對象特征較小難以區(qū)分的問題,圖像算法采用注意力機制Attention讓模型聚焦有效信息,提升最終分類的效果[5]。此外,針對業(yè)務數(shù)據(jù)分布廣泛、訓練樣本需求量大的問題,算法采用了樣本挖掘、主動學習等方式,迭代擴充訓練樣本數(shù)量,并通過數(shù)據(jù)過濾撈取最有效的樣本。
(4)涉黃圖像識別算法
送入一張圖片到用于分類任務的深度神經(jīng)網(wǎng)絡進行識別,輸出是否含有色情內(nèi)容的決策。深度神經(jīng)網(wǎng)絡使用海量色情標注樣本數(shù)據(jù)構(gòu)建圖片訓練樣本集,通過訓練樣本集調(diào)整深度神經(jīng)網(wǎng)絡參數(shù),訓練完成后神經(jīng)網(wǎng)絡學習到色情圖片分類能力。
(5)涉政圖像識別算法
送入一張圖片到用于分類任務的深度神經(jīng)網(wǎng)絡進行識別,輸出是否含有涉政內(nèi)容的決策。深度神經(jīng)網(wǎng)絡使用海量涉政標注樣本(涉政人物、涉政旗幟等場景)數(shù)據(jù)構(gòu)建圖片訓練樣本集,通過訓練樣本集調(diào)整深度神經(jīng)網(wǎng)絡參數(shù),訓練完成后神經(jīng)網(wǎng)絡學習到涉政圖片分類能力。
(6)暴恐圖片識別算法
暴恐圖片分類算法采用TPC-AR 的算法,框架主要分為算法訓練和算法測試兩個部分。
圖2 暴恐圖片分類算法框架
網(wǎng)絡訓練過程:
數(shù)據(jù)預處理,網(wǎng)絡搭建→網(wǎng)絡訓練優(yōu)化→網(wǎng)絡模型
①數(shù)據(jù)集的構(gòu)建:從文件夾中讀取暴恐圖片文件從而創(chuàng)建相應的標簽文件和訓
練使用的輸入數(shù)據(jù);
②模型的搭建和模型參數(shù)的配置;
③網(wǎng)絡模型的訓練:使用創(chuàng)建好的輸入數(shù)據(jù)更新網(wǎng)絡模型的參數(shù),當模型的loss
值或者訓練次數(shù)達到預期時保存訓練好的網(wǎng)絡模型。
網(wǎng)絡測試過程:
測試數(shù)據(jù)集→模型預測→預測結(jié)果,計算準確率
①將創(chuàng)建好的測試數(shù)據(jù)集通過已經(jīng)完成訓練的網(wǎng)絡進行預測,從而計算模型的準確率等指標。
②通過恒等映射的方式取代高速公路網(wǎng)絡中的變換門與攜帶門。
③采用殘差網(wǎng)絡模型對暴恐圖片進行分類。
(7)廣告類圖片算法
送入一張圖片到用于分類任務的深度神經(jīng)網(wǎng)絡進行識別,輸出是否含有廣告內(nèi)容的決策。深度神經(jīng)網(wǎng)絡使用海量廣告標注樣本數(shù)據(jù)構(gòu)建圖片訓練樣本集,通過訓練樣本集調(diào)整深度神經(jīng)網(wǎng)絡參數(shù),訓練完成后神經(jīng)網(wǎng)絡學習到廣告圖片分類能力。算法訓練樣本為海量廣告標注樣本,在實現(xiàn)過程中使用了圖片篡改識別、多任務學習、半監(jiān)督訓練等先進技術(shù)手段。
(8)圖片文字轉(zhuǎn)換(OCR)
采用了基于深度學習的自然場景文字檢測識別算法,應用于視頻、圖像中敏感文字信息的識別,技術(shù)實現(xiàn)由文本檢測和文本識別兩部分組成。第一部分是文字檢測,用于定位圖片中文字的位置,不良場景圖片中的文字排版復雜、文字形狀多變,現(xiàn)有的一般方法較難解決困難樣例,通過數(shù)據(jù)、模型層面的優(yōu)化,針對這些類型文字具有較好的檢出能力。第二部分是文本識別,基于檢出區(qū)域?qū)ξ淖謨?nèi)容進行識別,主要采用注意力機制(Attention)和CTCloss 相結(jié)合的方法,并將不同文字朝向的識別模型融合在一個網(wǎng)絡中,處理實際場景中出現(xiàn)的各類變種文字。針對以下困難樣例有較好的支持:
①文字存在旋轉(zhuǎn)、仿射變換
②豎排或其他特殊排版
③特殊字體
④手寫體
(9)人臉識別算法
人臉識別算法用于識別敏感人物,由人臉檢測、人臉對齊、人臉識別三部分組成。
①人臉檢測模型用于確定圖像中人臉的位置信息,人臉檢測算法針對不良場景中存在的模糊小臉、側(cè)臉、遮擋人臉等難點進行了模型層面的優(yōu)化。
②人臉對齊模型通過預測人臉上的關(guān)鍵點來確定人臉有辨識度的區(qū)域位置,并使用仿射變換將不同人臉的相同關(guān)鍵點對齊到相同的位置,從而降低人臉輸入的噪聲,使得后面的人臉識別模型能專注于學習區(qū)分每個人的特征。
③將前面經(jīng)過人臉檢測和對齊后的人臉區(qū)域送入人臉識別模型獲得人臉特征,人臉識別的關(guān)鍵在于對每張人臉提供一個有辨識度的特征向量,人臉識別算法針對不良場景出現(xiàn)的模糊小臉、側(cè)臉、裝飾品、年齡變化、漫畫等復雜問題進行了長期定向優(yōu)化。
(1)視覺顯著度兼容互補性的關(guān)鍵幀提取
視覺顯著度兼容互補性的關(guān)鍵幀提取方法:首先考慮亮度顯著度(對視覺較敏感)、局部二值特征顯著度(對亮度具有不變性)、運動顯著度,分別提取關(guān)鍵幀。然后再根據(jù)幀和幀之間的相關(guān)系數(shù)的大小,來消除多余的關(guān)鍵幀,如圖3 所示:
圖3 視覺顯著度兼容互補性的關(guān)鍵幀提取的算法結(jié)構(gòu)
(2)視頻模糊匹配
在視頻匹配中,由于時間維度上的信息較多,需要先抽取時間維度上關(guān)鍵幀序列,并捕獲圖像空間位置上的重要信息,將其編碼成高級語義特征錄入到數(shù)據(jù)庫。實時匹配時會使用相同的方式抽取特征并完成與數(shù)據(jù)庫的比對。
(3)涉黃視頻識別算法
涉黃視頻識別算法中,同樣需要對視頻中的關(guān)鍵幀進行捕獲,但關(guān)鍵幀抓取時需要考慮單幀上的語義特征是否有涉黃嫌疑。在快速捕獲到嫌疑度較高的時間范圍后,需要結(jié)合一定時間范圍內(nèi)的運動信息、內(nèi)容信息來做出是否涉黃的判斷。
(4)涉政視頻識別算法
涉政視頻識別算法中,同樣需要對視頻中的關(guān)鍵幀進行捕獲,但關(guān)鍵幀抓取時需要考慮單幀上的語義特征是否有涉政嫌疑。在快速捕獲到嫌疑度較高的時間范圍后,需要結(jié)合一定時間范圍內(nèi)的運動信息、內(nèi)容信息來做出是否涉政的判斷。
(5)暴恐視頻識別算法
暴恐算法實現(xiàn)過程和涉黃算法類似。暴恐視頻識別的難點在于違禁元素內(nèi)容的多樣化,對多種多樣的語義特征需要更好的區(qū)分。在時間維度、空間維度算法會自動聚焦到細節(jié)內(nèi)容,并結(jié)合具有區(qū)分度的語義特征完成判斷。
綜上所述,在各類媒體的融合發(fā)展背景下,網(wǎng)絡視頻直播逐漸演變成宣傳推廣和獲取盈利的重要方式,運用以上技術(shù)手段,可有效監(jiān)測直播中的不良信息,以便于及時切斷有害信息傳播鏈條,凈化網(wǎng)絡環(huán)境。與此同時,技術(shù)既有好的一面,同時也有消極的一面,人們必須正確、全面、客觀認識網(wǎng)絡直播。當前,政府監(jiān)管部門、立法機關(guān)以及行業(yè)自律組織不斷加大了管理、規(guī)范力度,今后網(wǎng)絡直播的發(fā)展必將越來越好,逐步成為一種內(nèi)容豐富高質(zhì)、快捷、傳遞正能量的重要媒介。