• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    針對直播彈幕的TextCNN過濾模型

    2021-02-04 14:16:06明建華周建政姚金良
    計算機工程與應(yīng)用 2021年3期
    關(guān)鍵詞:符號模型

    明建華,胡 創(chuàng),周建政,姚金良

    1.天鴿互動控股有限公司 項目部,杭州310105

    2.杭州電子科技大學(xué) 計算機學(xué)院,杭州310018

    隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人類社會逐漸步入了信息時代。其中4G網(wǎng)絡(luò)的普及催生了以直播為代表的各類信息產(chǎn)業(yè)。直播開始融入到人們的生活當(dāng)中[1],通過彈幕實現(xiàn)用戶與主播、用戶與用戶之間的互動更是成為一種新型的網(wǎng)絡(luò)社交方式。這種用戶自由發(fā)表內(nèi)容的方式方便了信息的分享與交流,但是這種互聯(lián)網(wǎng)發(fā)布方式也極易被不法分子利用,發(fā)布一些非法廣告信息。各種虛假信息、垃圾信息、色情、暴力等不良短文本遍布在各類直播彈幕中,其中色情廣告在直播彈幕中最為盛行。這類色情廣告通過彈幕的方式將游客引導(dǎo)至色情網(wǎng)站或者提供色情服務(wù)的微信、QQ 等社交網(wǎng)絡(luò)賬號上。為了杜絕這類非法信息的傳播,直播平臺需要在服務(wù)端構(gòu)建專門的程序來檢測用戶發(fā)布的內(nèi)容,確認(rèn)是否為非法信息。如果是非法信息,則阻止發(fā)布信息,并封禁非法賬號[2]。

    當(dāng)前實際應(yīng)用中最為常用的短文本過濾方法是基于關(guān)鍵詞過濾的方法[3]。該方法事先構(gòu)建一個關(guān)鍵詞列表,通過檢測短文本中是否含有該關(guān)鍵詞進(jìn)行判別。這種方法的效率高,但同時識別率比較低。關(guān)鍵詞列表的構(gòu)建一般需要人為篩選,整個篩選過程耗時耗力。因此,在實際應(yīng)用中一般選用已經(jīng)構(gòu)建好的通用關(guān)鍵詞列表,然后根據(jù)實際應(yīng)用的結(jié)果去更新關(guān)鍵詞列表。關(guān)鍵詞列表雖然是目前最為通用的方法,但其并不能滿足實際應(yīng)用的需求。隨著統(tǒng)計機器學(xué)習(xí)的發(fā)展,一些研發(fā)人員采用統(tǒng)計機器學(xué)習(xí)方法實現(xiàn)短文本過濾。樸素貝葉斯、支持向量機等方法都在短文本過濾方面取得不錯成績[4],但是短文本的字符數(shù)量有限,該類方法無法充分利用詞語的上下文,因此,其識別準(zhǔn)確率仍難以滿足實際應(yīng)用的需求。

    另外,由于非法用戶也會根據(jù)檢測系統(tǒng)改進(jìn)發(fā)布內(nèi)容的形式,從而躲避系統(tǒng)的識別。當(dāng)前逃避識別和過濾的主要方式是對短文本中的關(guān)鍵詞進(jìn)行變體。比如,將“發(fā)票”寫成“發(fā)漂”,將“裸聊”寫成“落聊”等等。統(tǒng)計已有的一些非法色情廣告信息,發(fā)現(xiàn)當(dāng)前存在的主要關(guān)鍵詞變體形式為:(1)夾雜特殊符號(一般是標(biāo)點類的非文字字符),比如:“QQ296『161『7102”;(2)形狀相近的字符替代,比如,“日”替換為“曰”;(3)同音或近音替換,比如:“微”替換為“為”;(4)拼音替換,“微信”替換為“weixin”;(5)關(guān)鍵詞倒序或者整句倒序;(6)中文字符拆分成偏旁和其他字符,比如:“裸”拆分為“衤果”。(7)關(guān)鍵詞繁體化;(8)對英文和數(shù)字等采用相似形狀字符的穿插,比如:“a5m2coM”;(9)對數(shù)字字符轉(zhuǎn)換為編號形式或者中文數(shù)字等,比如:“嶶765510103㈡”。

    為了應(yīng)對關(guān)鍵詞的變體形式,通常采用一種關(guān)鍵詞擴展的方法。該方法將關(guān)鍵詞表根據(jù)可能的變體形式構(gòu)造關(guān)鍵詞的變體形式,并作為關(guān)鍵詞表的一部分。另外,為了應(yīng)對關(guān)鍵詞變體,溫園旭提出了提取變體特征的方法[5]。該方法提出采用一些規(guī)則構(gòu)建特征來表達(dá)可能出現(xiàn)的關(guān)鍵詞變體形式,然后采用貝葉斯分類器進(jìn)行識別。但是采用構(gòu)建規(guī)則的方式提取變體特征容易被非法用戶識別,從而非法用戶可以方便地更新變體的產(chǎn)生方式來逃避系統(tǒng)的識別。另外,人為地構(gòu)建變體特征是一項比較困難的工作。

    針對當(dāng)前方法難于有效處理關(guān)鍵詞變體和傳統(tǒng)短文本分類方法準(zhǔn)確率不高的問題,本文提出利用深度學(xué)習(xí)技術(shù)在樣本中發(fā)現(xiàn)可能的變體特征,并挖掘字符之間的相關(guān)性特征,提高帶噪短文本的分類準(zhǔn)確率的方法。該方法利用深度學(xué)習(xí)強大的學(xué)習(xí)能力,并且易于根據(jù)樣本進(jìn)行更新,從而能快速應(yīng)對新出現(xiàn)的變體形式。該方法可部署于各類直播彈幕檢測的服務(wù)器端,實現(xiàn)對用戶提交的帶噪短文本的自動識別,阻止有害信息的傳播。

    1 相關(guān)工作

    帶噪短文本識別和過濾是保障網(wǎng)絡(luò)內(nèi)容安全的重要手段,它涉及自然語言處理、信息檢索、信息過濾和模式識別等多個領(lǐng)域。在現(xiàn)有關(guān)鍵詞過濾方法準(zhǔn)確率低的情況下,許多學(xué)者都開始研究機器學(xué)習(xí)在短文本過濾中的應(yīng)用。韓偉在其碩士論文中實現(xiàn)了樸素貝葉斯、決策樹、支持向量機、k近鄰、隨機森林在短文本過濾中的應(yīng)用[6],取得了不錯的成果。也有學(xué)者如劉梅彥、黃改娟通過依存句法獲取語句的語義框架來研究文本信息內(nèi)容[7],分析出文本的感情狀態(tài)。從而判定文本是否是某一特殊情感傾向的文本,如包含暴力、色情、詐騙、垃圾信息等的文本。

    國外在文本信息過濾方面的研究大多以檢測垃圾郵件為主[8-11],而在短文本識別過濾和用戶檢測方面主要專注于以網(wǎng)絡(luò)垃圾用戶為主的用戶識別。如在電子商務(wù)領(lǐng)域,利用用戶評價數(shù)據(jù)判斷是否為極端用戶。在社交網(wǎng)絡(luò)領(lǐng)域,利用推特用戶的昵稱、發(fā)布的信息,實現(xiàn)垃圾用戶的檢測與識別[12-13]。

    2 針對直播彈幕的TextCNN過濾方法

    本文提出的針對直播彈幕的TextCNN 過濾方法分為訓(xùn)練過程和實時識別過程。具體方法流程見圖1。在訓(xùn)練過程中,首先對訓(xùn)練樣本進(jìn)行預(yù)處理,通過對訓(xùn)練樣本中噪聲部分的識別、分類處理,降低了噪聲對短文本識別準(zhǔn)確率的影響。預(yù)處理后得到的數(shù)據(jù)作為訓(xùn)練模型的輸入。接下來,構(gòu)建Text CNN過濾模型,通過調(diào)節(jié)訓(xùn)練參數(shù)改善模型訓(xùn)練的結(jié)果。最終,得到訓(xùn)練好的TextCNN過濾模型。

    圖1 針對直播彈幕的TextCNN過濾方法示意圖

    在實時識別過程中,將實時的帶噪短文本通過同樣的預(yù)處理過程得到用于實時識別的數(shù)據(jù)輸入。應(yīng)用訓(xùn)練過程得到的TextCNN過濾模型,得到分類結(jié)果。

    2.1 帶噪短文本的預(yù)處理

    預(yù)處理的目標(biāo)是減少噪聲的影響,雖然噪聲符號也可以作為詞匯進(jìn)行短文本卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,但是由于噪聲符號添加的多樣性和訓(xùn)練樣本數(shù)據(jù)的稀疏性,直接通過預(yù)處理去掉這些噪聲符號可以更好地應(yīng)對各種符號變換的噪聲添加操作。預(yù)處理步驟通過6 個處理過程對輸入的帶噪短文本進(jìn)行處理。處理的結(jié)果可以直接用于CNN短文本過濾模型的訓(xùn)練或?qū)崟r識別。

    如圖2 所示,本文方法的預(yù)處理步驟包括:數(shù)字字符標(biāo)準(zhǔn)化、英文字符標(biāo)準(zhǔn)化、繁體中文字符轉(zhuǎn)簡體中文字符、特殊意義符號處理、去除夾雜噪聲符號、連續(xù)數(shù)字字符統(tǒng)一表示和字符串切分6個處理過程。

    圖2 帶噪短文本預(yù)處理流程圖

    如圖3 所示,數(shù)字字符標(biāo)準(zhǔn)化是將所有unicode 編碼下具有數(shù)字意義的編碼符號轉(zhuǎn)換為標(biāo)準(zhǔn)的數(shù)字字符編碼。比如:將“ ⑦”“零”“ ㈡”分別轉(zhuǎn)換為“7”“0”“2”樣式的標(biāo)準(zhǔn)數(shù)字字符。為了實現(xiàn)這一轉(zhuǎn)換過程,本文通過查看unicode 編碼下的所有具有數(shù)字意義的符號,根據(jù)數(shù)字符號的有序性,構(gòu)建編碼轉(zhuǎn)換的對應(yīng)關(guān)系。比如:“①”到“?”的符號在unicode 編碼表中是有序排列的,對于“①”到“⑨”,本文通過以下公式實現(xiàn)變換:ch_out=chr(ord(ch)-ord(“①”)+ord(“1”))。其中ord 函數(shù)是獲得字符的unicode 編碼,chr 函數(shù)是通過unicode編碼獲得對應(yīng)的字符。類似的,對于“⑩”<=ch<=“ ?”,ch_out=“1”+chr(ord(ch)-ord(“ ⑩”)+ord(“0”));對于“?”則特殊處理,如果ch 為?,則輸出直接賦值為“20”。以同樣的方式,本文的數(shù)字字符標(biāo)準(zhǔn)化處理了“:0”<=ch<=“9”“、⑴”<=ch<==ch<=<=、對于“⒈”<=ch<=“ ⒛”和“0點”<=ch<=“24點”,則在轉(zhuǎn)換的結(jié)果后面添加“點”符號。對于“1日”<=ch<=“31日”,則在轉(zhuǎn)換的結(jié)果后面添加‘日’符號。對于“零一二三四五六七八九十”和“壹貳叁肆伍陸柒捌玖”中的字符,則通過index函數(shù)獲取輸入字符在該字符串中的位置,然后通過str 函數(shù)將位置的整數(shù)值轉(zhuǎn)換為字符。而對于非數(shù)字意義的符號,數(shù)字字符標(biāo)準(zhǔn)化不進(jìn)行處理,直接返回原來的字符。

    圖3 數(shù)字字符標(biāo)準(zhǔn)化

    如圖4所示,英文字符標(biāo)準(zhǔn)化是將所有的具有相似形狀的不同編碼的字母符號轉(zhuǎn)換為標(biāo)準(zhǔn)的小寫英文字符。比如:將”分別轉(zhuǎn)換為“a”“f”“k”樣式的標(biāo)準(zhǔn)小寫英文字符。由于相似的字母符號在unicode編碼表中沒有統(tǒng)一的連續(xù)的進(jìn)行編碼,因此本文通過構(gòu)建一個字典結(jié)構(gòu)的對照表進(jìn)行實現(xiàn)。為此,本文用一個文件存儲形狀相似字母符號;將unicode 中形狀相似的字母符號保存為文件中的一行。比如:

    其中第一個“h”為標(biāo)準(zhǔn)字母,并用“:”將形狀相似的字母分開。后續(xù)的相似字母通過空格分隔。本文中構(gòu)建了所有26個英文字母的形狀相似符號對應(yīng)關(guān)系。通過該文件,可以創(chuàng)建一個字典結(jié)構(gòu),其中的鍵為形狀相似字符,值為標(biāo)準(zhǔn)英文字符。通過查找該字典實現(xiàn)字符的轉(zhuǎn)換。對于大寫字母則通過常用的大寫字母轉(zhuǎn)小寫字母函數(shù)實現(xiàn)。英文字母標(biāo)準(zhǔn)化對于非英文字母,則原樣輸出[14]。

    圖4 英文字符標(biāo)準(zhǔn)化

    如圖5所示,繁體中文字符轉(zhuǎn)簡體中文字符是將字符串中可能存在的繁體中文字符轉(zhuǎn)換為簡體形式。本文通過構(gòu)建一個對應(yīng)關(guān)系的表進(jìn)行實現(xiàn)。該表是通過查找unicode編碼中所有簡體和繁體不一樣的所有中文字符實現(xiàn)。同樣采用了字典結(jié)構(gòu)實現(xiàn)快速的轉(zhuǎn)換。實現(xiàn)的時候使用了zhtools 這個python 包。該包構(gòu)建了簡體和繁體的對應(yīng)關(guān)系。

    圖5 繁體中文字符轉(zhuǎn)簡體中文字符

    如圖6所示,特殊意義符號轉(zhuǎn)換處理是將一些具有特殊意義的符號轉(zhuǎn)換為對應(yīng)的特定意義的符號。比如:將等形狀類似“+”的符號轉(zhuǎn)換為中文字符“加”。因為這些特殊意義的字符代表了特定的語義信息,并且比較重要。很多的噪聲添加模式就是通過將有意義的特定中文字符轉(zhuǎn)換為這類字符,并通過形狀相似性進(jìn)行了替換。為此,本文采用類似于相似形狀英文字母的轉(zhuǎn)換方法進(jìn)行實現(xiàn),構(gòu)建了一個對照表,比如:

    最后通過字典結(jié)構(gòu)實現(xiàn)轉(zhuǎn)換。本文通過對語料的分析查找可能存在的特殊意義的符號,并構(gòu)建對照表實現(xiàn)特殊意義字符的轉(zhuǎn)換。

    圖6 特殊意義符號轉(zhuǎn)化

    如圖7所示,去除夾雜噪聲符號是對經(jīng)過上述字符轉(zhuǎn)換操作后得到的短文本過濾掉非中文字符、非英文字符和非數(shù)字字符的所有符號,比如:

    標(biāo)準(zhǔn)化字符后的字符串這一操作比較容易實現(xiàn),直接去除上述非中文字符、非英文字符和非數(shù)字字符的所有符號即可。

    圖7 去除夾雜噪聲符號

    如圖8所示,連續(xù)數(shù)字字符表示是將經(jīng)過以上處理的短文本中連續(xù)的數(shù)字字符根據(jù)數(shù)字字符的個數(shù)表示為“”的形式,其中n表示連續(xù)的數(shù)字字符的個數(shù)。比如:將“摳摳2517645947”表示為“摳摳”。進(jìn)行這樣表示的目的是為了消除數(shù)值的多樣性和訓(xùn)練數(shù)據(jù)的稀疏性。比如:QQ 號碼一般是大于7 位數(shù)字字符,而與數(shù)量有關(guān)的數(shù)字一般都小于7 位數(shù),從而方便后續(xù)的深度學(xué)習(xí)模型的特征提取和訓(xùn)練,并能應(yīng)對在訓(xùn)練樣本中未出現(xiàn)過的QQ號碼。

    圖8 連續(xù)數(shù)字字符表示

    如圖9所示,字符串切分是經(jīng)過上述字符轉(zhuǎn)換后對短文本進(jìn)行切分。在本文中,中文字符被單獨切分為一個字符,連續(xù)的英文字符被切分為一個單元,連續(xù)的數(shù)字字符用“”作為一個單元。比如:“jia摳摳”被切分為“jia 摳 摳”。

    圖9 字符串切分

    2.2 TextCNN過濾模型

    TextCNN過濾模型(見圖10)包括:一個詞向量的嵌入層,用于將字符轉(zhuǎn)換為向量表示;然后根據(jù)卷積的尺度進(jìn)行卷積,一個卷積核可以得到len(sequence)-filter_size+1 個卷積結(jié)果;然后對所有的卷積結(jié)果進(jìn)行ReLu激活函數(shù)進(jìn)行非線性處理;再對處理結(jié)果用最大值池化,每一個filter 得到一個值。最后將所有的filter 值通過全連接層輸入到softmax進(jìn)行分類。

    圖10 TextCNN模型示意圖

    預(yù)處理步驟可以消除大部分噪聲字符的影響。基于預(yù)處理后的數(shù)據(jù)構(gòu)建詞向量表,利用tensorflow 中的VocabularyProcessor 函數(shù)設(shè)定TextCNN 過濾模型的詞嵌入層的詞向量長度為128。卷積層的尺度設(shè)置為(3,4,5),也就是卷積核的尺寸分別為3、4、5。從而可以捕獲跨度分別為3、4、5 個字符之間的關(guān)系。另外,對每個卷積尺度又設(shè)置128 個濾波器。設(shè)定非線性函數(shù)為Relu 函數(shù)。在池化層采用最大值池化,也就是一個濾波器返回的結(jié)果向量中取最大的值作為池化層的輸出結(jié)果。

    構(gòu)建好深度學(xué)習(xí)的網(wǎng)絡(luò)模型后,需要設(shè)定損失函數(shù),從而通過最優(yōu)化來得到模型在訓(xùn)練樣本集上最優(yōu)的參數(shù)。本文中卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時設(shè)定的損失函數(shù)為:

    其中l(wèi)2_loss為了防止參數(shù)過擬合增加了參數(shù)正則項。該正則項作用于softmax 前的全連接層的權(quán)重。loss1為交差熵?fù)p失函數(shù)。本模型采用tensorflow函數(shù)softmax_cross_entropy_with_logits進(jìn)行實現(xiàn)。其首先對全連接層的輸出(輸出為每個類別的值)進(jìn)行softmax函數(shù)運算:

    從而將輸出轉(zhuǎn)換為屬于每個類的概率值;然后對softmax 函數(shù)的輸出與真實樣本的標(biāo)簽(類別)做交差熵。Tf.reduce_mean函數(shù)用于計算loss1中一個batch的平均交差熵。因此,本模型的損失函數(shù)包括交叉熵函數(shù)和權(quán)重正則項損失,其中Lambda為兩者之間的權(quán)重[15]。

    接下來,設(shè)定最優(yōu)化方法,通過梯度下降算法來計算參數(shù)的最優(yōu)解。本模型采用的是Adam 最優(yōu)化方法。Adam算法根據(jù)損失函數(shù)對每個參數(shù)的梯度的一階矩估計和二階矩估計動態(tài)調(diào)整針對于每個參數(shù)的學(xué)習(xí)速率。Adam 方法的學(xué)習(xí)步長有一個范圍,不會因為某個樣本上產(chǎn)生很大的梯度導(dǎo)致很大的學(xué)習(xí)步長,參數(shù)變化比較穩(wěn)定。

    3 實驗及結(jié)果分析

    為了測試本文設(shè)計的過濾模型的效果,實驗采用了來自視頻直播平臺上的數(shù)據(jù)。特此說明,本次論文的數(shù)據(jù)來源于天鴿互動控股有限公司旗下喵播、歡樂吧等在線直播平臺。平臺通過用戶的發(fā)帖行為模式獲取了色情廣告短文本13萬條,正常短文本8萬條,總樣本數(shù)21萬條。在實驗過程中,將色情廣告短文本、正常短文本按照9∶1的比例,劃分為訓(xùn)練集和測試集。對比實驗中采用同樣的數(shù)據(jù)集,通過統(tǒng)計關(guān)鍵詞出現(xiàn)的次數(shù)構(gòu)建樸素貝葉斯模型[16]及SVM模型。

    如圖11 所示,作為對比實驗的樸素貝葉斯模型。在其實驗過程中,先通過jieba 分詞對訓(xùn)練數(shù)據(jù)集進(jìn)行處理并統(tǒng)計詞頻,將詞頻較高的關(guān)鍵詞0-1 向量化作為輸入。接下來縱向比較不同輸入向量維度下樸素貝葉斯模型的識別準(zhǔn)確率,即圖11 橫坐標(biāo)表示輸入向量維度。可以看到,當(dāng)輸入向量維度為2 000 時,召回率、精準(zhǔn)率、準(zhǔn)確率趨于平緩。此外,在實驗過程中隨著輸入向量維度的增加,所占用的計算資源也越來越大。故在接下來實驗結(jié)果橫向?qū)Ρ戎?,采用樸素貝葉斯模型在輸入向量維度為4 700時的各項指標(biāo)。

    圖11 樸素貝葉斯實驗結(jié)果

    SVM模型的特征輸入采用word2vec向量化表示的方法。事實上,當(dāng)SVM 模塊采用與樸素貝葉斯模型相同輸入特征時可以取得與樸素貝葉斯模型相近甚至更好的識別準(zhǔn)確率,但其消耗的計算資源也比樸素貝葉斯模型更大,無法滿足高效識別的要求。故SVM 模型和本文提出的模型均采用word2vec向量化后的輸入。

    SVM 模型、4 700 維輸入向量下的樸素貝葉斯模型和本文提出的Text CNN短文本過濾模型進(jìn)行比較。結(jié)果見表1。

    表1 橫向?qū)Ρ冉Y(jié)果%

    從實驗結(jié)果上看,本文提出的針對直播彈幕的TextCNN 過濾模型的準(zhǔn)確率達(dá)到90.6%,高于樸素貝葉斯模型的81.2%,且遠(yuǎn)高于SVM模型的53.6%??梢缘玫?,本文提出的針對直播彈幕的TextCNN過濾模型是優(yōu)于樸素貝葉斯模型和SVM模型的。

    可以看到,word2vec 向量化作為輸入的SVM 模型在可接受的時間下能夠被計算出來,同時也損失了準(zhǔn)確率,甚至低于樸素貝葉斯模型。

    此外,單從統(tǒng)計學(xué)角度去分析數(shù)據(jù)的樸素貝葉斯是無法充分考慮到詞語的上下文。如表2中非法彈幕“主播的衣服應(yīng)該直接脫掉”,單從“主播”“衣服”“脫掉”這幾個關(guān)鍵詞考慮,樸素貝葉斯模型的判定結(jié)果是正常的。而針對直播彈幕的TextCNN短文本則考慮到了“衣服”“脫掉”之間的聯(lián)系,從而給出了正確的判定結(jié)果。除此之外,直播彈幕這一短文本類型還有著重復(fù)率高的特點。統(tǒng)計單個字在正負(fù)樣本出現(xiàn)的次數(shù),訓(xùn)練樣本發(fā)現(xiàn)總共出現(xiàn)17 286個單字,其中正常短文本出現(xiàn)16 722個單字,不良短文本出現(xiàn)15 072個單字。大部分字在正負(fù)樣本中都有出現(xiàn),使得只依靠關(guān)鍵詞或者統(tǒng)計學(xué)的方法難以取得高的準(zhǔn)確率,甚至低于同類方法在垃圾郵件等其他文本分類上的準(zhǔn)確率??偟膩碚f,統(tǒng)計學(xué)類的機器學(xué)習(xí)方法因難以充分考慮帶噪短文本字符之間的關(guān)系,使得其難以得到高的識別準(zhǔn)確率。而且,在直播彈幕這類字符重復(fù)率高的特殊短文本的應(yīng)用上表現(xiàn)更差。本文提出的Text CNN 短文本過濾模型,則通過利用字符之間的關(guān)系,在一定程度上解決了直播彈幕識別率低的問題。但是,本文提出的模型準(zhǔn)確率還有提升的空間。盡管本文提出的方法消除了大部分噪音的影響,也利用了詞語的上下文。但是中文字符的同音字符替換這個難點問題仍有待進(jìn)一步的優(yōu)化。

    表2 識別結(jié)果示例

    此外,為了說明預(yù)處理過程的重要性,還做了有無預(yù)處理過程的TextCNN過濾模型的實驗對比。

    從表3的結(jié)果可以看到,噪聲對實驗結(jié)果的影響巨大,預(yù)處理過程能夠更好地幫助模型識別非法彈幕。

    表3 實驗結(jié)果%

    本章中共進(jìn)行了三組實驗。第一組實驗中,通過縱向?qū)Ρ炔煌斎胂蛄烤S度下的樸素貝葉斯模型,得到結(jié)論:隨著輸入向量維度的增加,樸素貝葉斯模型的識別準(zhǔn)確率在增加,但所占用的計算資源也在增加。第二組實驗,橫向?qū)Ρ攘藰闼刎惾~斯模型、SVM模型和本文提出的針對直播彈幕的TextCNN 過濾模型。需要特別說明的是,當(dāng)SVM 模型采取和樸素貝葉斯相同的數(shù)據(jù)輸入時,SVM 模型將占用更大的計算資源,故盡管采用word2vec 向量化的輸入的SVM 模型表現(xiàn)更差,但其所需的計算資源更少,也只好用其作為對比實驗之一。第二組實驗的對比結(jié)果也充分說明了本文提出的模型優(yōu)于其他兩種模型,其原因在于本文提出模型,不僅考慮了關(guān)鍵詞是否在當(dāng)前語句存在,更進(jìn)一步了考慮了當(dāng)前語句中存在的關(guān)鍵詞間的關(guān)系。從而能更準(zhǔn)確地識別非法彈幕。第三組實驗則對比了有無預(yù)處理過程的TextCNN 模型,可以看到無預(yù)處理過程的模型表現(xiàn)極差,這也驗證了前文所說的非法彈幕的發(fā)送者開始有意識地規(guī)避檢測。

    4 結(jié)束語

    本文提出了一種針對直播彈幕場景下的TextCNN過濾模型。相較于統(tǒng)計機器學(xué)習(xí)方法,此方法能夠更深入地考慮到詞語的上下文,從而提高了識別的準(zhǔn)確率和召回率。在TextCNN過濾模型中,通過綜合考慮單個關(guān)鍵詞的屬性和關(guān)鍵字之間的關(guān)系,判斷整個短文本的性質(zhì)。在帶噪短文本預(yù)處理的過程中,通過6種方式來降低噪聲的影響。在一定程度上,使得直播彈幕場景下短文本識別達(dá)到一個較高的水平。但是帶噪短文本預(yù)處理的過程中,仍無法消除中文同音字的影響,使得本文提出的針對直播彈幕的TextCNN 過濾模型在短文本識別里還有進(jìn)步的空間,需要以后深入研究,不斷完善。

    猜你喜歡
    符號模型
    一半模型
    學(xué)符號,比多少
    幼兒園(2021年6期)2021-07-28 07:42:14
    重要模型『一線三等角』
    重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
    “+”“-”符號的由來
    變符號
    3D打印中的模型分割與打包
    FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
    倍圖的全符號點控制數(shù)
    圖的有效符號邊控制數(shù)
    午夜两性在线视频| 国产一级毛片在线| 久久久久久久大尺度免费视频| 三上悠亚av全集在线观看| 亚洲全国av大片| 嫩草影视91久久| av线在线观看网站| 午夜精品国产一区二区电影| 精品人妻一区二区三区麻豆| 国产又爽黄色视频| 亚洲国产毛片av蜜桃av| 在线永久观看黄色视频| 男女床上黄色一级片免费看| 欧美黑人欧美精品刺激| 国产欧美亚洲国产| 精品免费久久久久久久清纯 | 我的亚洲天堂| 50天的宝宝边吃奶边哭怎么回事| 国产成人精品久久二区二区免费| 亚洲自偷自拍图片 自拍| 夜夜骑夜夜射夜夜干| 又黄又粗又硬又大视频| 国产精品99久久99久久久不卡| 欧美 亚洲 国产 日韩一| 亚洲av男天堂| 大码成人一级视频| 亚洲国产中文字幕在线视频| 国产亚洲精品一区二区www | 日本av免费视频播放| 久久精品亚洲av国产电影网| 欧美成狂野欧美在线观看| 国产成人av教育| 亚洲国产欧美在线一区| 天堂8中文在线网| 欧美日韩亚洲国产一区二区在线观看 | 免费在线观看视频国产中文字幕亚洲 | 亚洲专区中文字幕在线| 亚洲专区中文字幕在线| 国产精品影院久久| 天堂俺去俺来也www色官网| 两人在一起打扑克的视频| 最新在线观看一区二区三区| 亚洲精品国产一区二区精华液| 一区二区三区四区激情视频| 一本大道久久a久久精品| 一边摸一边抽搐一进一出视频| 丰满饥渴人妻一区二区三| 国产成人系列免费观看| 伊人久久大香线蕉亚洲五| 动漫黄色视频在线观看| 91九色精品人成在线观看| 又黄又粗又硬又大视频| 久久人人爽人人片av| 国产高清视频在线播放一区 | 最近最新免费中文字幕在线| a在线观看视频网站| 99精品久久久久人妻精品| 色婷婷av一区二区三区视频| 成人国产av品久久久| 人人妻人人澡人人看| 各种免费的搞黄视频| 91大片在线观看| 色播在线永久视频| 下体分泌物呈黄色| 久久久久久人人人人人| 国产日韩欧美在线精品| 欧美黑人欧美精品刺激| 最近中文字幕2019免费版| 亚洲国产精品一区二区三区在线| 亚洲精品日韩在线中文字幕| 久久九九热精品免费| 亚洲国产av影院在线观看| 欧美中文综合在线视频| 久久久久久久久免费视频了| 在线观看免费高清a一片| 午夜91福利影院| 水蜜桃什么品种好| 精品亚洲成a人片在线观看| 欧美黄色片欧美黄色片| 国产精品av久久久久免费| 欧美成狂野欧美在线观看| 亚洲第一欧美日韩一区二区三区 | 日韩 欧美 亚洲 中文字幕| 在线精品无人区一区二区三| 在线看a的网站| 日本av免费视频播放| 法律面前人人平等表现在哪些方面 | 免费在线观看视频国产中文字幕亚洲 | 久久亚洲精品不卡| 美女脱内裤让男人舔精品视频| 欧美日韩福利视频一区二区| 国产片内射在线| 久久国产亚洲av麻豆专区| 激情视频va一区二区三区| 啦啦啦免费观看视频1| 捣出白浆h1v1| a级毛片在线看网站| 日韩制服骚丝袜av| 高清在线国产一区| 淫妇啪啪啪对白视频 | 国产成人系列免费观看| 宅男免费午夜| 国产精品av久久久久免费| 又大又爽又粗| av片东京热男人的天堂| 久久热在线av| 成年人午夜在线观看视频| 国产精品久久久久久精品古装| 日韩视频在线欧美| 国产在线视频一区二区| 99国产精品一区二区蜜桃av | 久久久水蜜桃国产精品网| 久久香蕉激情| 色婷婷久久久亚洲欧美| 深夜精品福利| 国产区一区二久久| 一级a爱视频在线免费观看| 久久亚洲国产成人精品v| 如日韩欧美国产精品一区二区三区| 丁香六月欧美| avwww免费| 久久久久国内视频| 少妇猛男粗大的猛烈进出视频| 精品人妻一区二区三区麻豆| 亚洲精品久久久久久婷婷小说| 青青草视频在线视频观看| 老熟妇仑乱视频hdxx| 国产男女超爽视频在线观看| 久久久精品94久久精品| 18禁观看日本| 人成视频在线观看免费观看| 免费在线观看日本一区| 国产成人系列免费观看| 国产av又大| 在线观看免费高清a一片| 久久久国产欧美日韩av| a在线观看视频网站| 久久 成人 亚洲| 精品亚洲成a人片在线观看| 人成视频在线观看免费观看| 日日爽夜夜爽网站| 欧美黑人精品巨大| 黄色片一级片一级黄色片| 亚洲自偷自拍图片 自拍| 久久久精品免费免费高清| 久久性视频一级片| av不卡在线播放| 考比视频在线观看| 操美女的视频在线观看| 国产精品1区2区在线观看. | 丁香六月天网| 午夜福利在线观看吧| 日本av手机在线免费观看| 亚洲伊人色综图| 亚洲国产精品一区二区三区在线| 精品国产乱子伦一区二区三区 | 欧美中文综合在线视频| 韩国精品一区二区三区| 免费女性裸体啪啪无遮挡网站| 久久久久精品国产欧美久久久 | 十八禁人妻一区二区| 一级毛片精品| 欧美黑人精品巨大| 性少妇av在线| 韩国高清视频一区二区三区| 欧美激情高清一区二区三区| 国产成人av激情在线播放| 99国产极品粉嫩在线观看| 满18在线观看网站| 中文字幕av电影在线播放| 少妇精品久久久久久久| 亚洲五月婷婷丁香| 国产精品熟女久久久久浪| 18禁国产床啪视频网站| 少妇人妻久久综合中文| a 毛片基地| 久久久水蜜桃国产精品网| 一本—道久久a久久精品蜜桃钙片| 日韩 亚洲 欧美在线| 老汉色av国产亚洲站长工具| 国产男女内射视频| 国产深夜福利视频在线观看| 日韩大码丰满熟妇| 精品国产国语对白av| 日韩 欧美 亚洲 中文字幕| 欧美成狂野欧美在线观看| 国产成+人综合+亚洲专区| 欧美午夜高清在线| 成年女人毛片免费观看观看9 | 脱女人内裤的视频| 国产真人三级小视频在线观看| 欧美精品一区二区免费开放| 男人爽女人下面视频在线观看| 99精品欧美一区二区三区四区| av片东京热男人的天堂| 亚洲国产欧美日韩在线播放| 天天操日日干夜夜撸| 青青草视频在线视频观看| 精品亚洲成a人片在线观看| 国产成人影院久久av| 热re99久久国产66热| 久久精品熟女亚洲av麻豆精品| 超色免费av| 少妇猛男粗大的猛烈进出视频| av欧美777| 黄色片一级片一级黄色片| 亚洲精品一卡2卡三卡4卡5卡 | 中国国产av一级| 99国产极品粉嫩在线观看| 视频在线观看一区二区三区| 咕卡用的链子| 80岁老熟妇乱子伦牲交| 日韩大码丰满熟妇| 丁香六月天网| 欧美黑人欧美精品刺激| 一区二区三区精品91| 精品国产乱子伦一区二区三区 | e午夜精品久久久久久久| 国产成+人综合+亚洲专区| 一区二区日韩欧美中文字幕| 国产一区二区三区av在线| 久久国产亚洲av麻豆专区| 十八禁高潮呻吟视频| 国产成人精品无人区| 久久热在线av| 成年av动漫网址| 久久国产精品大桥未久av| 成年女人毛片免费观看观看9 | 午夜福利免费观看在线| 免费观看a级毛片全部| 久久 成人 亚洲| 婷婷精品国产亚洲av在线| 欧美性猛交黑人性爽| 国内精品久久久久久久电影| 亚洲一区二区三区不卡视频| 美女大奶头视频| 狠狠狠狠99中文字幕| 精品午夜福利视频在线观看一区| 韩国av一区二区三区四区| 午夜福利18| 亚洲av熟女| 国产69精品久久久久777片 | 亚洲欧美日韩东京热| 久久精品夜夜夜夜夜久久蜜豆 | 看免费av毛片| 少妇粗大呻吟视频| 亚洲五月婷婷丁香| 白带黄色成豆腐渣| 黄频高清免费视频| 在线国产一区二区在线| АⅤ资源中文在线天堂| 亚洲第一电影网av| 99re在线观看精品视频| 欧美丝袜亚洲另类 | 床上黄色一级片| 日本三级黄在线观看| 精品电影一区二区在线| 久久九九热精品免费| 成人国产综合亚洲| 午夜亚洲福利在线播放| 波多野结衣巨乳人妻| 国产高清激情床上av| 久久久精品国产亚洲av高清涩受| 麻豆久久精品国产亚洲av| 老鸭窝网址在线观看| 在线国产一区二区在线| 国产三级黄色录像| 99热这里只有是精品50| 免费电影在线观看免费观看| 国产片内射在线| 亚洲成人中文字幕在线播放| 国产麻豆成人av免费视频| 亚洲熟女毛片儿| 亚洲欧美一区二区三区黑人| 在线国产一区二区在线| 久久精品综合一区二区三区| 成人欧美大片| 哪里可以看免费的av片| 国产在线精品亚洲第一网站| 亚洲成人国产一区在线观看| 午夜成年电影在线免费观看| 最好的美女福利视频网| 精品无人区乱码1区二区| 久久久久久免费高清国产稀缺| 男女视频在线观看网站免费 | a在线观看视频网站| 日韩国内少妇激情av| 亚洲无线在线观看| 国产1区2区3区精品| 久久精品国产亚洲av香蕉五月| 国产区一区二久久| 国产男靠女视频免费网站| 午夜精品久久久久久毛片777| 国产精品一区二区三区四区免费观看 | 日本免费一区二区三区高清不卡| 一本一本综合久久| 亚洲中文字幕一区二区三区有码在线看 | 两性夫妻黄色片| 国产精品免费视频内射| av超薄肉色丝袜交足视频| 老司机深夜福利视频在线观看| 亚洲av日韩精品久久久久久密| 淫妇啪啪啪对白视频| 国产蜜桃级精品一区二区三区| 精品欧美一区二区三区在线| 在线视频色国产色| 老司机午夜福利在线观看视频| 精品人妻1区二区| 操出白浆在线播放| 91字幕亚洲| 给我免费播放毛片高清在线观看| 熟女电影av网| 丝袜人妻中文字幕| 三级男女做爰猛烈吃奶摸视频| av视频在线观看入口| 一本综合久久免费| 欧美日韩乱码在线| 不卡av一区二区三区| 中文字幕熟女人妻在线| 亚洲午夜理论影院| 黄色视频,在线免费观看| 日日夜夜操网爽| 久久久久久久久久黄片| 精品久久久久久久久久免费视频| 亚洲成人国产一区在线观看| 欧美久久黑人一区二区| 精品乱码久久久久久99久播| 久久久久久久久免费视频了| 中文字幕人妻丝袜一区二区| 啦啦啦观看免费观看视频高清| 91麻豆精品激情在线观看国产| 美女扒开内裤让男人捅视频| av在线播放免费不卡| 91麻豆av在线| 国产又色又爽无遮挡免费看| 人妻久久中文字幕网| 日韩欧美精品v在线| 日本撒尿小便嘘嘘汇集6| 午夜福利高清视频| 三级毛片av免费| 亚洲全国av大片| 成人av在线播放网站| 不卡一级毛片| 1024手机看黄色片| 免费在线观看影片大全网站| av福利片在线| 久久精品人妻少妇| 免费在线观看成人毛片| 亚洲美女黄片视频| 色综合欧美亚洲国产小说| 搡老岳熟女国产| 国产成人欧美在线观看| 国产一区二区在线观看日韩 | 99久久无色码亚洲精品果冻| 亚洲欧美精品综合一区二区三区| 免费看十八禁软件| 亚洲 欧美 日韩 在线 免费| 午夜精品在线福利| 国产爱豆传媒在线观看 | 亚洲成人中文字幕在线播放| 欧美另类亚洲清纯唯美| 国产又色又爽无遮挡免费看| svipshipincom国产片| 午夜a级毛片| www国产在线视频色| 黄色 视频免费看| 免费人成视频x8x8入口观看| 一级毛片精品| 久久这里只有精品中国| 久久香蕉国产精品| 亚洲国产精品久久男人天堂| 精品一区二区三区视频在线观看免费| 最近视频中文字幕2019在线8| 欧美大码av| 天天躁狠狠躁夜夜躁狠狠躁| 午夜福利视频1000在线观看| 女人爽到高潮嗷嗷叫在线视频| 国产精品,欧美在线| 老司机午夜十八禁免费视频| 小说图片视频综合网站| 日韩欧美免费精品| 亚洲人成网站高清观看| 97人妻精品一区二区三区麻豆| 欧美色视频一区免费| 757午夜福利合集在线观看| 亚洲精品美女久久久久99蜜臀| 亚洲avbb在线观看| 亚洲精品在线观看二区| 国内精品久久久久久久电影| 亚洲国产精品sss在线观看| 女人被狂操c到高潮| 亚洲欧美日韩无卡精品| 国产激情久久老熟女| 日本 av在线| 丰满人妻熟妇乱又伦精品不卡| 国产欧美日韩一区二区三| 精品久久久久久久久久久久久| 日韩欧美一区二区三区在线观看| 成人三级做爰电影| 国产精品久久久久久精品电影| 黄色丝袜av网址大全| 黄片小视频在线播放| 亚洲欧美日韩高清在线视频| 亚洲精品国产精品久久久不卡| 黄色a级毛片大全视频| 九色成人免费人妻av| 成人精品一区二区免费| 日韩欧美免费精品| 国语自产精品视频在线第100页| 国模一区二区三区四区视频 | 黄色女人牲交| 精品久久久久久久久久免费视频| 久久精品综合一区二区三区| 无限看片的www在线观看| av视频在线观看入口| 777久久人妻少妇嫩草av网站| 久久久久国内视频| 日韩欧美 国产精品| 久久这里只有精品19| 亚洲精品一区av在线观看| 又爽又黄无遮挡网站| 一a级毛片在线观看| 国产片内射在线| 中文字幕人妻丝袜一区二区| 中文字幕高清在线视频| а√天堂www在线а√下载| 亚洲色图av天堂| 一本久久中文字幕| 国产爱豆传媒在线观看 | 免费av毛片视频| 黄色a级毛片大全视频| 久久久久久国产a免费观看| 91九色精品人成在线观看| 亚洲精品中文字幕一二三四区| 欧美精品亚洲一区二区| 日韩高清综合在线| 黄色 视频免费看| 精品一区二区三区四区五区乱码| 亚洲成人中文字幕在线播放| 亚洲天堂国产精品一区在线| 亚洲中文av在线| 欧美乱色亚洲激情| 午夜福利在线观看吧| 亚洲一区二区三区色噜噜| 久久热在线av| 亚洲熟妇中文字幕五十中出| 黑人操中国人逼视频| 久久精品国产亚洲av高清一级| 变态另类成人亚洲欧美熟女| 麻豆成人午夜福利视频| 亚洲自拍偷在线| 亚洲avbb在线观看| 亚洲国产欧洲综合997久久,| 91九色精品人成在线观看| 欧美zozozo另类| 亚洲熟女毛片儿| 日本一区二区免费在线视频| 老熟妇仑乱视频hdxx| 欧美日韩一级在线毛片| 亚洲中文字幕一区二区三区有码在线看 | 成年人黄色毛片网站| 999久久久国产精品视频| 99久久精品国产亚洲精品| 一a级毛片在线观看| 久久热在线av| 嫩草影院精品99| 亚洲一区中文字幕在线| 毛片女人毛片| 最好的美女福利视频网| 高清在线国产一区| av有码第一页| 国产成+人综合+亚洲专区| 久久精品91无色码中文字幕| 国内少妇人妻偷人精品xxx网站 | 手机成人av网站| 十八禁人妻一区二区| 91字幕亚洲| 国产成人aa在线观看| 一区二区三区高清视频在线| 男插女下体视频免费在线播放| 国产精品亚洲一级av第二区| 免费看十八禁软件| 女同久久另类99精品国产91| 亚洲人与动物交配视频| 国产一区二区在线观看日韩 | 后天国语完整版免费观看| 午夜免费成人在线视频| 成人18禁在线播放| 色综合站精品国产| 少妇人妻一区二区三区视频| 又爽又黄无遮挡网站| 一进一出好大好爽视频| 精品高清国产在线一区| 国产成人精品久久二区二区91| 亚洲熟女毛片儿| 非洲黑人性xxxx精品又粗又长| 五月伊人婷婷丁香| 国产又黄又爽又无遮挡在线| 国产精品自产拍在线观看55亚洲| 国产精品一区二区三区四区免费观看 | 欧美午夜高清在线| 日韩欧美在线乱码| 国产精品久久视频播放| 好男人电影高清在线观看| 久久久久国产一级毛片高清牌| 国产精品,欧美在线| 亚洲av成人一区二区三| 中亚洲国语对白在线视频| 精品电影一区二区在线| 国产激情久久老熟女| 亚洲精品美女久久av网站| 不卡av一区二区三区| 毛片女人毛片| 亚洲国产精品sss在线观看| 久久人妻av系列| 黄色视频,在线免费观看| 黄色成人免费大全| 欧美日韩一级在线毛片| 男女下面进入的视频免费午夜| 啦啦啦观看免费观看视频高清| 黄频高清免费视频| 身体一侧抽搐| 老司机福利观看| 久久精品影院6| 日本熟妇午夜| 真人一进一出gif抽搐免费| 亚洲乱码一区二区免费版| 正在播放国产对白刺激| 中文字幕熟女人妻在线| 一边摸一边做爽爽视频免费| e午夜精品久久久久久久| 国产精品一及| 国产熟女xx| 久久久久九九精品影院| 女人高潮潮喷娇喘18禁视频| 成人18禁高潮啪啪吃奶动态图| 极品教师在线免费播放| 亚洲 欧美 日韩 在线 免费| 又爽又黄无遮挡网站| 99精品欧美一区二区三区四区| 熟妇人妻久久中文字幕3abv| 亚洲色图 男人天堂 中文字幕| 97人妻精品一区二区三区麻豆| 精品一区二区三区av网在线观看| 一夜夜www| 免费在线观看影片大全网站| 欧美另类亚洲清纯唯美| 欧美日韩中文字幕国产精品一区二区三区| 老熟妇乱子伦视频在线观看| 亚洲成人久久爱视频| 草草在线视频免费看| 亚洲国产欧美网| 亚洲精品久久国产高清桃花| 亚洲乱码一区二区免费版| 精品久久久久久久久久免费视频| 亚洲欧美一区二区三区黑人| 一进一出抽搐gif免费好疼| 亚洲男人的天堂狠狠| 欧美性猛交黑人性爽| 黑人巨大精品欧美一区二区mp4| 禁无遮挡网站| 一级a爱片免费观看的视频| 国产探花在线观看一区二区| 99久久无色码亚洲精品果冻| 男人舔奶头视频| 国产aⅴ精品一区二区三区波| 久久人妻福利社区极品人妻图片| 不卡一级毛片| 精品久久久久久成人av| 亚洲av电影在线进入| 国产精品亚洲一级av第二区| 国产成人欧美在线观看| 九色成人免费人妻av| 国产精品1区2区在线观看.| 免费在线观看成人毛片| 久久久久久久久久黄片| 亚洲国产精品合色在线| 午夜老司机福利片| av欧美777| 日日爽夜夜爽网站| 久久久久久久精品吃奶| 成人国产一区最新在线观看| 久久午夜综合久久蜜桃| 日本a在线网址| 亚洲专区中文字幕在线| 日韩欧美国产在线观看| 搡老妇女老女人老熟妇| 国产精品综合久久久久久久免费| 国内久久婷婷六月综合欲色啪| 俄罗斯特黄特色一大片| 久久婷婷成人综合色麻豆| 午夜成年电影在线免费观看| 久久中文字幕人妻熟女| 999精品在线视频| 法律面前人人平等表现在哪些方面| 天天添夜夜摸| 黄色 视频免费看| 色尼玛亚洲综合影院| 午夜福利免费观看在线| 天天一区二区日本电影三级| 国产精品 国内视频| 全区人妻精品视频| 久久精品成人免费网站| 一级黄色大片毛片| 欧美丝袜亚洲另类 | 床上黄色一级片| 又紧又爽又黄一区二区| 成年女人毛片免费观看观看9| 久久久久久国产a免费观看| 熟女电影av网| 午夜福利成人在线免费观看| 国产午夜精品久久久久久| 黑人巨大精品欧美一区二区mp4| 中出人妻视频一区二区| 91成年电影在线观看|