• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的垃圾短信識(shí)別方法

    2018-10-16 08:23:48賴文輝喬宇鵬
    計(jì)算機(jī)應(yīng)用 2018年9期
    關(guān)鍵詞:分詞特征提取短信

    賴文輝,喬宇鵬

    (華南理工大學(xué) 自動(dòng)化科學(xué)與工程學(xué)院,廣州 510640)

    0 引言

    近年來(lái),隨著通信技術(shù)的不斷進(jìn)步,我國(guó)使用手機(jī)的用戶數(shù)量日益增多,短信成為一種方便的信息傳遞渠道。然而,短信在使人們的日常生活變得更加方便的同時(shí),垃圾短信的泛濫也越來(lái)越嚴(yán)重,嚴(yán)重干擾了人們的生活,成為了危害社會(huì)公共安全的一大公害。360互聯(lián)網(wǎng)安全中心于2017年2月發(fā)布的《2016年中國(guó)互聯(lián)網(wǎng)安全報(bào)告》顯示,360手機(jī)衛(wèi)士在2016年內(nèi)為全國(guó)手機(jī)用戶共攔截約173.5億條垃圾短信。絕大多數(shù)垃圾短信的內(nèi)容都是廣告推銷或者影響社會(huì)穩(wěn)定團(tuán)結(jié)的謠言、詐騙等。工業(yè)和信息化部于2015年6月頒布施行的《通信短信息服務(wù)管理規(guī)定》,其中規(guī)定任何短信服務(wù)提供商和短信內(nèi)容發(fā)送者在未經(jīng)用戶同意的情況下,都不得向用戶發(fā)送商業(yè)性的信息。因此垃圾短信成為當(dāng)前一個(gè)重要的社會(huì)問(wèn)題,有效識(shí)別垃圾短信對(duì)維護(hù)國(guó)家安全、社會(huì)穩(wěn)定和人們正常生活具有重要的時(shí)代背景意義。

    對(duì)垃圾短信進(jìn)行有效識(shí)別的方法主要有三種[1-4],分別是基于黑白名單的方法、基于規(guī)則的方法和基于短信內(nèi)容的方法?;诤诿麊魏鸵?guī)則的識(shí)別方法比較簡(jiǎn)單,缺點(diǎn)是需要手動(dòng)添加號(hào)碼名單和關(guān)鍵詞,能夠添加的數(shù)量相對(duì)有限且難以全面,導(dǎo)致識(shí)別的效果較差。鑒于前兩種方法的局限性,目前對(duì)垃圾短信識(shí)別技術(shù)的研究主要集中在短信的內(nèi)容上,即利用文本分類技術(shù)將垃圾短信識(shí)別問(wèn)題轉(zhuǎn)化為一個(gè)有監(jiān)督的學(xué)習(xí)問(wèn)題。文本分類技術(shù)是以機(jī)器學(xué)習(xí)算法為基礎(chǔ),先對(duì)已經(jīng)過(guò)人工標(biāo)注的文本進(jìn)行特征提取,然后利用算法對(duì)文本進(jìn)行自動(dòng)分類。文獻(xiàn)[5]提出基于多特征融合的方法來(lái)向量化表示短信文本,并分別比較了樸素貝葉斯(Na?ve Bayes, NB)、邏輯回歸(Logistic Regression, LR)、支持向量機(jī)(Support Vector Machine, SVM)和隨機(jī)森林(Random Forest, RF)等分類器的性能差別,各分類器的識(shí)別效果較好,但是特征提取較為復(fù)雜。文獻(xiàn)[6]提出一種文本加權(quán)K最近鄰(K Nearest Neighbor, KNN)算法,通過(guò)特征詞在短信中出現(xiàn)的頻率賦予合適的權(quán)重,同時(shí)對(duì)垃圾短信數(shù)據(jù)集進(jìn)行頻繁詞挖掘,并以此提高垃圾短信文本的權(quán)重,雖然在性能上有所提升,但仍然沒(méi)有解決垃圾短信語(yǔ)法和句法格式干擾的問(wèn)題。文獻(xiàn)[7]用信息增益矩陣作為提取短信特征的方法,并在樸素貝葉斯和隨機(jī)森林這兩種分類器上進(jìn)行垃圾短信的識(shí)別。文獻(xiàn)[8]針對(duì)基于對(duì)抗環(huán)境下的垃圾短信短信檢測(cè)技術(shù)進(jìn)行研究,提出了基于特征長(zhǎng)度與權(quán)重相結(jié)合的好詞攻擊和feature reweighting防御方法來(lái)識(shí)別垃圾短信。文獻(xiàn)[9]提出了消息主題模型(Message Topic Model, MTM)方法提取短信特征,并利用k-means算法將垃圾短信訓(xùn)練成不規(guī)則的類,然后把所有的垃圾短信聚合為單個(gè)文件以捕獲單詞的共現(xiàn)模式。文獻(xiàn)[10]通過(guò)深入研究垃圾短信的特征后發(fā)現(xiàn)了10個(gè)特征可以有效地過(guò)濾垃圾短信,并在隨機(jī)森林分類器上實(shí)現(xiàn)了96.5%的真陽(yáng)性率和1.02%的假陽(yáng)性率。這些分類算法使用的前提都是先利用人工設(shè)計(jì)的文本特征選擇方法來(lái)提取短信文本的特征,但這些特征提取方法忽略了短信文本長(zhǎng)度比較短且上下文的關(guān)聯(lián)性比較強(qiáng)的特點(diǎn),導(dǎo)致數(shù)據(jù)特征稀疏,無(wú)法體現(xiàn)短信上下文語(yǔ)義之間的聯(lián)系,并且丟棄了詞序、語(yǔ)法等文本結(jié)構(gòu)信息,阻礙了垃圾短信識(shí)別效果的提升。相比人工設(shè)計(jì)文本特征的方式,深度學(xué)習(xí)能夠高效便捷地完成文本特征提取。文獻(xiàn)[11]將詞向量與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)相結(jié)合用于癌癥特征文本分類,引入最新的癌癥領(lǐng)域數(shù)據(jù)集進(jìn)行評(píng)估,并獲得了良好的效果。文獻(xiàn)[12]將CNN用于情感分析和主題模型的分類,模型在測(cè)試數(shù)據(jù)上的準(zhǔn)確率相比傳統(tǒng)的情感分析模型有顯著的提升。

    為了提高垃圾短信識(shí)別的準(zhǔn)確率,針對(duì)人工設(shè)計(jì)特征選擇方法提取短信特征時(shí)產(chǎn)生的數(shù)據(jù)稀疏、文本特征信息共現(xiàn)不足和文本特征提取困難等問(wèn)題,本文嘗試將基于Word2Vec模型的詞向量特征提取方法和CNN模型相結(jié)合,進(jìn)行垃圾短信識(shí)別。詞向量方法的優(yōu)勢(shì)在于可以通過(guò)控制向量的維數(shù)來(lái)解決“維數(shù)災(zāi)難”的問(wèn)題,并且詞向量在訓(xùn)練過(guò)程中注重詞與詞之間的位置關(guān)系,保留詞組在語(yǔ)義之間的聯(lián)系。CNN是一種出色的深度學(xué)習(xí)算法,尤其在特征提取方面有更加優(yōu)異的性能。CNN起初主要應(yīng)用于圖像處理領(lǐng)域,以圖像像素矩陣作為模型的輸入,因此需要將短信數(shù)據(jù)轉(zhuǎn)化為圖像像素矩陣的形式。首先利用Word2Vec中的Skip-Gram模型根據(jù)維基中文語(yǔ)料訓(xùn)練出每個(gè)詞的詞向量;然后由訓(xùn)練好的詞向量按照短信的詞序組合成表示每條短信的特征矩陣;最后將特征矩陣作為CNN的輸入?yún)⑴c到模型的訓(xùn)練測(cè)試過(guò)程中。為了驗(yàn)證詞向量和CNN在垃圾短信識(shí)別中的性能優(yōu)勢(shì),本文用同樣的數(shù)據(jù)集和特征提取方法在文獻(xiàn)[5]、文獻(xiàn)[7]和文獻(xiàn)[10]中所采用的分類器即樸素貝葉斯、邏輯回歸、支持向量機(jī)和隨機(jī)森林四種機(jī)器學(xué)習(xí)模型上進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文所設(shè)計(jì)的基于深度學(xué)習(xí)的詞向量和CNN模型相比機(jī)器學(xué)習(xí)模型具有更強(qiáng)的特征提取能力,能有效提高識(shí)別的準(zhǔn)確率。

    1 相關(guān)理論

    1.1 中文分詞方法

    本文是以詞向量作為組成文本特征矩陣的基本單位,因此應(yīng)該以分開的具有獨(dú)立語(yǔ)言意義的詞組作為文本的最小組成要素。

    在以單詞作為文本基本組成元素的拉丁語(yǔ)言中,單詞之間都會(huì)以空格分開,因此對(duì)這些語(yǔ)言進(jìn)行分詞并不困難。

    然而這種天然優(yōu)勢(shì)在漢語(yǔ)里并不存在,主要原因是中文文本是由中文詞組無(wú)空格緊密地連接在一起所組成的,因此中文文本預(yù)處理的首要任務(wù)是先對(duì)文本進(jìn)行中文分詞,將詞與詞分隔開來(lái)。有研究表明,分詞質(zhì)量高低與最終的文本分類效果息息相關(guān),因此,快速準(zhǔn)確的分詞算法是非常重要的。

    目前,研究人員不斷開發(fā)出一些中文分詞器,中文分詞技術(shù)不斷地趨向成熟。比較流行的有NLPIR(Natural Language Processing & Information Retrieval)、THULAC (THU Lexical Analyzer for Chinese)、 jieba分詞和 SnowNLP等分詞器,使用者可以根據(jù)應(yīng)用場(chǎng)景選用適合的中文分詞器。由于jieba分詞器是一個(gè)用python語(yǔ)言開發(fā)的免費(fèi)開源的分詞工具,并且用戶可以根據(jù)自己的任務(wù)環(huán)境自定義詞典和詞庫(kù),所以本文采用jieba分詞器中比較適合于文本分析的精確分詞模式對(duì)短信文本進(jìn)行分詞處理。

    1.2 文本的傳統(tǒng)特征提取方法

    目前文本表示通常采用向量空間模型(Vector Space Model,VSM)。VSM是20世紀(jì)70年代由Salton等提出的,并在SMART文本檢索系統(tǒng)中成功應(yīng)用[13]。簡(jiǎn)要概括,VSM用統(tǒng)計(jì)的方法提取文本特征的向量表示,然后計(jì)算向量之間的距離從而判斷文本之間在語(yǔ)義上是否相似[14-16]。VSM的建模過(guò)程如下:文本集D中某個(gè)文本d∈D含相互獨(dú)立的q個(gè)不同的關(guān)鍵詞,即d=(x1,x2,…,xq);以這q個(gè)關(guān)鍵詞在文本中的權(quán)重組成的向量Vd=(w1,w2,…,wq)作為文本d的特征表示。在VSM的建模思想中,如何給各個(gè)關(guān)鍵詞賦予合適的權(quán)重值是最為關(guān)鍵的問(wèn)題。權(quán)重的計(jì)算方法一般是利用文本的統(tǒng)計(jì)信息,主要是詞頻,給關(guān)鍵詞賦予一定的權(quán)重。常用的權(quán)重計(jì)算方法有布爾權(quán)重、詞頻率-逆文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)和熵權(quán)重等。

    VSM在表示文本的特征向量時(shí)可以降低向量計(jì)算的復(fù)雜度,具有簡(jiǎn)單易行的優(yōu)點(diǎn),但同時(shí)也存在很多缺陷和不足:1)當(dāng)樣本數(shù)據(jù)集比較大,含有較多的關(guān)鍵詞時(shí),文本的特征向量維度較高,可能導(dǎo)致維數(shù)災(zāi)難。2)VSM只是單純地將每個(gè)詞的詞頻或者權(quán)重值作為統(tǒng)計(jì)量,割裂了前后文之間的語(yǔ)義聯(lián)系,造成語(yǔ)義信息的丟失。對(duì)于維數(shù)災(zāi)難問(wèn)題,可以考慮用文檔頻率(Document Frequency, DF)、信息增益(Information Gain, IG)、χ2統(tǒng)計(jì)量(Chi-square, CHI)和互信息(Mutual Information, MI)等特征選擇方法進(jìn)行降維。這些特征選擇方法雖然可以使“維數(shù)災(zāi)難”問(wèn)題在某種程度上得到緩解,但是也加劇了信息的流失。

    進(jìn)而,當(dāng)面對(duì)通常只有幾個(gè)到幾十個(gè)詞且整個(gè)詞匯空間非常大的短信文本時(shí),用傳統(tǒng)特征提取方法提取短信的文本特征時(shí)將產(chǎn)生數(shù)據(jù)稀疏、文本特征信息共現(xiàn)不足的問(wèn)題。因此針對(duì)傳統(tǒng)的特征提取方法存在的不足,為更好地提取短信文本特征,應(yīng)該嘗試新的特征提取方法。

    1.3 分布式特征提取方法

    為解決文本數(shù)據(jù)特征稀疏的問(wèn)題,Hinton[17]提出了一種叫作word embedding的詞向量方法,其核心理論是將詞從高維度的向量空間分布式地投影到低維度空間,不同詞之間的語(yǔ)義關(guān)聯(lián)性可以由它們所分別對(duì)應(yīng)的詞向量之間的位置關(guān)系反映,這種方法保留了詞序、語(yǔ)法等文本結(jié)構(gòu)信息,有助于提升文本分類效果[18-19]。

    Mikolov等[20]提出了針對(duì)語(yǔ)料庫(kù)能夠快速高效訓(xùn)練詞向量的 Word2Vec模型。Word2Vec中的Skip-Gram模型可以根據(jù)所給語(yǔ)料庫(kù)快速地訓(xùn)練出每個(gè)詞的詞向量。

    Skip-Gram的主要思想是由當(dāng)前詞Wt的概率來(lái)預(yù)測(cè)前后文詞Wi的概率,即預(yù)測(cè)P(W(i)|W(t)|),其中t-c≤i≤t+c,每個(gè)詞向量反映了前后文詞的位置情況,并且其訓(xùn)練方式如圖1所示。

    圖1 Skip-Gram模型結(jié)構(gòu)

    假設(shè)有一條短信文本經(jīng)過(guò)分詞、去除停用詞等預(yù)處理步驟后,產(chǎn)生一系列詞為W(1),W(2),…,W(n)。Skip-Gram模型的目的是使式(1)的值最大化:

    (1)

    其中:c表示窗口的長(zhǎng)度,即當(dāng)前詞W(t)的前面的c個(gè)詞和后面的c個(gè)詞。

    綜上所述,相較于傳統(tǒng)的人工提取特征的方法,詞向量方法的優(yōu)勢(shì)在于可以控制特征向量維數(shù)、在解決維數(shù)災(zāi)難問(wèn)題的同時(shí),不會(huì)忽略詞組在文本中的相對(duì)位置關(guān)系,而且保留了詞組在語(yǔ)義之間的關(guān)聯(lián)。

    1.4 短信文本分類算法

    在完成提取短信文本特征的任務(wù)后,后續(xù)步驟就是用分類器過(guò)濾識(shí)別。目前可以完成文本分類的算法主要有兩類:一類是當(dāng)前在研究應(yīng)用上已經(jīng)十分成熟的機(jī)器學(xué)習(xí)算法;另一類是時(shí)下熱點(diǎn)之一的基于深度學(xué)習(xí)理論的算法。

    本文涉及的CNN模型是深度學(xué)習(xí)理論中應(yīng)用最為廣泛的一種結(jié)構(gòu),具有很多顯著的特性:特有的卷積層和池化層使得模型對(duì)微小的局部特征十分敏感;模型在訓(xùn)練數(shù)據(jù)時(shí)既可以提取出更加抽象完備的特征信息,也可以完成分類任務(wù)。CNN的諸多優(yōu)勢(shì)使其在圖像處理和語(yǔ)音識(shí)別中大獲成功。然而文本數(shù)據(jù)與圖像語(yǔ)音有很大的不同點(diǎn),文本數(shù)據(jù)不單是由詞語(yǔ)所組成,它更包含了屬于人類特有的語(yǔ)義信息,因此文本處理過(guò)程中需要更完備可靠的特征信息。鑒于CNN的優(yōu)異的特征提取能力,本文嘗試將其用于垃圾短信識(shí)別。

    2 短信文本中文分詞及特征提取

    垃圾短信識(shí)別總體流程如圖2所示。

    圖2 垃圾短信識(shí)別流程

    Fig. 2 Spam message recognition flow chart

    短信作為日常的通信交流的工具,行文比較隨意,結(jié)構(gòu)也不規(guī)范;因此在獲得短信樣本后,首先必須對(duì)原始的短信作預(yù)處理以得到較為純凈的文本。進(jìn)一步純文本數(shù)據(jù)仍無(wú)法被計(jì)算機(jī)所識(shí)別,需要將短信文本轉(zhuǎn)化為計(jì)算機(jī)可以處理的形式,即用特征提取的結(jié)果來(lái)表示短信文本, 然后使用已經(jīng)提取到的短信文本特征和類別已知的樣本將垃圾短信識(shí)別任務(wù)轉(zhuǎn)化為有監(jiān)督的學(xué)習(xí)問(wèn)題,設(shè)計(jì)算法完成最終的識(shí)別任務(wù)。

    2.1 數(shù)據(jù)預(yù)處理

    由于原始的短信文本數(shù)據(jù)的格式?jīng)]有統(tǒng)一的規(guī)范,包含許多標(biāo)點(diǎn)符號(hào)和表情圖形或顏文字等特殊元素,無(wú)法直接處理,需要先對(duì)其進(jìn)行數(shù)據(jù)清洗。

    原始的短信文本數(shù)據(jù)里的標(biāo)點(diǎn)符號(hào)、表情圖和顏文字等與短信的上下文語(yǔ)境之間沒(méi)有語(yǔ)義關(guān)聯(lián),首先需要將這些特殊元素過(guò)濾掉,只保留具有語(yǔ)言信息意義的中文詞組和一些專有的外文詞匯。

    全半角轉(zhuǎn)換。有一些外文字符是在全角狀態(tài)下輸入的,有些是在半角狀態(tài)輸入的,這導(dǎo)致文本格式都不盡相同,為使下一步的分詞操作順利進(jìn)行,需要將這些不規(guī)范的地方進(jìn)行格式統(tǒng)一。

    原始的短信文本經(jīng)過(guò)數(shù)據(jù)預(yù)處理步驟后,格式更為統(tǒng)一規(guī)范,為后續(xù)的分詞處理奠定了良好的基礎(chǔ)。

    2.2 中文分詞處理

    由于中文不像英文以空格作為單詞之間的分隔符,中文詞匯之間沒(méi)有明確的界限,因此需要先對(duì)短信進(jìn)行中文分詞處理,以詞作為短信的組成要素。本文采用python第三方庫(kù)中的jieba分詞器里的精確分詞模式作為分詞工具。

    分詞完畢后,還要去除短信文本中的停用詞,減少冗余,使文本分類更準(zhǔn)確。常見(jiàn)的停用詞有“的”“如果”“可以”“要”和“而且”等對(duì)垃圾短信識(shí)別不重要的詞。上述短信在去除停用詞后最終的分詞結(jié)果為“天氣 逐漸 變涼 記得 添加 衣服 注意 防寒 保暖”,取得了較好的分詞效果。

    2.3 分布式特征提取

    短信文本在經(jīng)過(guò)中文分詞處理并濾去停用詞后,可以使用Word2Vec工具并結(jié)合Skip-Gram模型訓(xùn)練數(shù)據(jù)集中各詞的詞向量。由于python語(yǔ)言在自然語(yǔ)言處理任務(wù)中的優(yōu)勢(shì),本文使用python的第三方開源庫(kù)Gensim作為訓(xùn)練詞向量的工具。

    若要得到質(zhì)量較高的詞向量,需要具備較大規(guī)模的語(yǔ)料庫(kù),目的是為了充分地反映出詞組在語(yǔ)義空間的位置關(guān)系。而維基中文語(yǔ)料是公認(rèn)的大型中文語(yǔ)料,本文擬用維基中文語(yǔ)料訓(xùn)練詞向量。

    Skip-Gram模型有兩個(gè)重要的參數(shù)需要設(shè)置,分別是窗口長(zhǎng)度參數(shù)c和詞向量維數(shù)k。

    原則上c值越大,考慮前后文的關(guān)系就更全面,一般能使預(yù)測(cè)的結(jié)果更加精確,但也會(huì)使訓(xùn)練時(shí)間更長(zhǎng),因此需要不斷嘗試來(lái)確定c值的大小。由于短信文本的長(zhǎng)度較短,故c的值不宜太大,否則容易引起關(guān)聯(lián)到很多語(yǔ)義不相關(guān)的詞匯。

    詞向量維數(shù)k可以根據(jù)所解決問(wèn)題的要求和語(yǔ)料庫(kù)的大小確定。為更能體現(xiàn)各個(gè)詞組在語(yǔ)義空間上的分布情況,應(yīng)該使詞向量的維數(shù)盡量大一些,但前提是需要有大而均勻的語(yǔ)料庫(kù)作為支撐,為避免發(fā)生過(guò)擬合現(xiàn)象,也需要更高要求的模型表達(dá)能力和硬件計(jì)算能力。

    在確定了合適的c和k以后,模型可根據(jù)數(shù)據(jù)集訓(xùn)練出各個(gè)詞組的詞向量。

    在短信文本中,詞與詞、句子與句子之間在語(yǔ)境上更依賴前后文的關(guān)系,而不是割裂孤立起來(lái)的,這種語(yǔ)義關(guān)聯(lián)直接影響到最終的識(shí)別結(jié)果[21]。與用向量空間模型作為特征提取方法相比,Word2Vec更重視詞組前后文之間的語(yǔ)序和語(yǔ)法上的聯(lián)系;而且所有詞組的詞向量各個(gè)維度上都有數(shù)值,這解決了傳統(tǒng)特征提取方法中數(shù)據(jù)稀疏和維數(shù)災(zāi)難問(wèn)題。

    3 卷積神經(jīng)網(wǎng)絡(luò)模型研究

    CNN是深度學(xué)習(xí)中一種具有代表性的結(jié)構(gòu)。CNN由多層神經(jīng)網(wǎng)絡(luò)組成,本質(zhì)上是神經(jīng)網(wǎng)絡(luò)的一種拓展,一個(gè)典型的CNN由輸入層、卷積層、池化層和全連接層四部分構(gòu)成。

    CNN區(qū)別于其他神經(jīng)網(wǎng)絡(luò)之處在于CNN采用了局部連接和權(quán)值共享技術(shù),對(duì)局部微小的特征更加敏感,這更有利于提取短信文本的特征信息。通過(guò)對(duì)短信文本進(jìn)行卷積和池化操作,可以在詞和詞的位置信息之間提取出更多的抽象特征值和相關(guān)語(yǔ)義信息。CNN模型起初用在圖像處理領(lǐng)域中,以每張圖片的像素矩陣作為模型的輸入?;叶葓D像以一個(gè)二維矩陣表示,由于每個(gè)像素點(diǎn)只能有一個(gè)值表示顏色,因此灰度圖像也稱為單通道圖像;彩色圖像也叫RGB通道圖像,以一個(gè)三維矩陣表示,每一維矩陣分別代表紅色(R)通道、綠色(G)通道和藍(lán)色(B)通道。本文用于垃圾短信識(shí)別的CNN模型如圖3所示,模型的輸入層是類似于灰度圖像的表示各個(gè)短信文本的二維特征矩陣,因此每條短信都只有一個(gè)通道。

    圖3 垃圾短信識(shí)別的CNN結(jié)構(gòu)

    3.1 輸入層設(shè)計(jì)

    輸入層的作用是把提取到的表示短信的特征矩陣作為輸入數(shù)據(jù)傳送到CNN模型中,并和下一層的卷積層連接起來(lái)。為了在垃圾短信識(shí)別任務(wù)中應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)模型,模型的輸入應(yīng)該是類似于圖像像素的特征矩陣。

    要實(shí)現(xiàn)以詞向量來(lái)表示整個(gè)短信文本,可以采取一種較為簡(jiǎn)單的組織詞向量的方式:假設(shè)一條短信文本經(jīng)過(guò)分詞處理后由“天氣 逐漸 變涼 記得 添加 衣服 注意 防寒 保暖”組成。這9個(gè)詞語(yǔ)的詞向量依次為Ω1,Ω2,…,Ω9,按照詞組的順序作縱向排列,就得到一個(gè)表示該短信的特征矩陣Ω,可表示為:

    (2)

    式(2)的排列方式可以通過(guò)圖像形象化地表示為圖3的文本輸入層所示的格式。

    為便于后續(xù)的卷積層和池化層提取出更加抽象的高層次文本特征,需要將各條短信的特征矩陣設(shè)置為同一大小。取特征矩陣的寬度為各個(gè)詞組的詞向量的維數(shù)k。然而由于短信長(zhǎng)短不一,特征矩陣的高度應(yīng)該由短信數(shù)據(jù)集D中長(zhǎng)度最長(zhǎng)的短信決定。若短信數(shù)據(jù)集D中各條短信在經(jīng)過(guò)中文分詞處理后,詞組數(shù)目最多的一條短信含有m個(gè)詞,則該短信由m個(gè)k維向量按照詞組的順序進(jìn)行縱向排列成m×k的特征矩陣表示。

    (3)

    3.2 卷積層設(shè)計(jì)

    卷積層作為CNN的核心組成部分,其主要功能是用卷積核對(duì)輸入層的各個(gè)特征矩陣進(jìn)行卷積操作,得到更加抽象的高層文本特征。卷積核是一個(gè)h×k的權(quán)重矩陣,可表示為:

    (4)

    高度h可根據(jù)文本的長(zhǎng)度設(shè)置合適的值,本文設(shè)計(jì)的卷積核的寬度等于詞向量的維數(shù)k,用符號(hào)W∈Rhk代表整個(gè)卷積核。卷積核以大小為1的步長(zhǎng)從文本特征矩陣的頂部由上至下開始掃描并和卷積核窗口內(nèi)的矩陣進(jìn)行卷積計(jì)算,每一步都提取出一個(gè)新的特征值。用Xi表示一條短信中每一個(gè)詞的詞向量,也是卷積核窗口中第一個(gè)詞的詞向量。Xi,Xi+1,…,Xi+h-1依次表示卷積核窗口中h個(gè)詞的詞向量。卷積核窗口中的部分特征矩陣可表示為:

    (5)

    每一步的特征值可以通過(guò)式(6)得到:

    (6)

    其中:b為偏置量,符號(hào)*為卷積運(yùn)算符,f(·)為激活函數(shù)。常見(jiàn)的激活函數(shù)有邏輯函數(shù)、正切函數(shù)和線性整流函數(shù)等。本文采用線性整流函數(shù)即Relu函數(shù)[22]作為激活函數(shù),可以使模型較快地收斂,其計(jì)算公式為:

    f(x)=max(0,x)

    (7)

    V=(V1,V2,…,Vm-h+1)T

    (8)

    V表示卷積核對(duì)整個(gè)特征矩陣掃描完畢后提取出的新的特征圖。由于卷積核的窗口高度為h,特征矩陣為m行,所以掃描完一個(gè)特征矩陣需要m-h+1次,即特征圖V的高度也為m-h+1;卷積核的窗口寬度等于詞向量的維數(shù),所以特征圖V的寬度為1。窗口高度不同的卷積核可以提取出高度也不同的特征圖V,意味著可以從不同的角度提取短信特征,得到更為完善的特征信息。

    根據(jù)上述分析可知,CNN的強(qiáng)大之處就在于其卷積塊強(qiáng)大的特征提取能力。為了從不同角度提取特征而不增加計(jì)算的復(fù)雜度,Kim所提出的模型[12]使用了三種不同的卷積窗口。由于不同的短信,其前后文的語(yǔ)義關(guān)聯(lián)不一樣,為從短信文本中提取較為完備的特征,因此本文也使用三種窗口高度不同的卷積核提取相應(yīng)的局部語(yǔ)義特征。因短信文本的長(zhǎng)度一般在幾個(gè)到幾十個(gè)詞之間,可將卷積核的高度分別設(shè)置為3、4、5,最終得到3種不同粒度的特征。CNN提取特征的具體流程如圖4所示。

    圖4 CNN提取特征流程

    三種卷積核的大小分別設(shè)置為3×k、4×k、5×k,通過(guò)卷積核掃描運(yùn)算后,獲得3種粒度大小分別為(m-2)×1、(m-3)×1和(m-4)×1的特征圖,其過(guò)程如圖4的卷積處理所示。本文設(shè)置每種尺寸卷積核各128個(gè),即對(duì)每條短信文本的特征矩陣輸入,一種卷積核可得到128個(gè)特征圖,卷積層輸出384個(gè)特征圖。

    3.3 池化層設(shè)計(jì)

    針對(duì)自然語(yǔ)言處理過(guò)程中卷積操作的結(jié)果,CNN的池化層的功能是對(duì)局部信息再總結(jié),使卷積層提取到的文本向量維數(shù)減小,防止出現(xiàn)過(guò)擬合。池化操作包括常用的Max-Pooling和Average-Pooling。Max-Pooling是輸出所接收到特征圖V中的最大值,可以認(rèn)為這個(gè)最大值是短信的最顯著的特征。 Average-Pooling是輸出特征圖V中所有值的平均值。常見(jiàn)的自然語(yǔ)言處理任務(wù)中通常使用Max-Pooling方法, 而且文獻(xiàn)[23]也認(rèn)為Max-Pooling更適合于文本分類,因此本文以Max-Pooling為基礎(chǔ)進(jìn)行研究。

    (9)

    3.4 全連接層設(shè)計(jì)

    池化操作得到的384個(gè)特征值是對(duì)垃圾短信識(shí)別最具影響的局部特征。全連接的操作是對(duì)這384個(gè)特征值進(jìn)行融合,本文以串接的方式把這384個(gè)特征值串聯(lián)起來(lái),形成一個(gè)固定長(zhǎng)度的融合特征向量來(lái)表示短信的語(yǔ)義特征,過(guò)程如式(10)所示:

    (10)

    其中⊕表示串接操作。從式(10)可以看出,特征向量的長(zhǎng)度不再與短信的長(zhǎng)度相關(guān)聯(lián),每條短信的有效特征都是一個(gè)384維的向量。把表示短信的語(yǔ)義特征向量Vmessage輸入最后的softmax Regression分類器[24],從全局的角度對(duì)特征進(jìn)行分析,進(jìn)而完成垃圾短信的識(shí)別。

    4 實(shí)驗(yàn)及結(jié)果分析

    4.1 實(shí)驗(yàn)環(huán)境

    本文的實(shí)驗(yàn)環(huán)境:編程語(yǔ)言為python3.6,深度學(xué)習(xí)框架為Tensorflow1.0,內(nèi)存8 GB,操作系統(tǒng)為Windows 10,處理器為Intel Core i5。

    4.2 實(shí)驗(yàn)數(shù)據(jù)

    本文訓(xùn)練詞向量所使用的維基中文語(yǔ)料庫(kù)包含232 894個(gè)中文文本。所有文本經(jīng)過(guò)分詞處理后,共有1億多個(gè)中文詞組和少量的英語(yǔ)單詞。

    參與實(shí)驗(yàn)的短信數(shù)據(jù)集分為垃圾短信(negative)和正常短信(positive)兩大類,短信樣本總數(shù)量為10萬(wàn)條,其中正常短信數(shù)量為5萬(wàn)條,垃圾短信數(shù)量為5萬(wàn)條。這些數(shù)據(jù)在初始時(shí)即具有特征標(biāo)簽。

    4.3 實(shí)驗(yàn)設(shè)計(jì)

    維基中文語(yǔ)料庫(kù)的規(guī)模足以訓(xùn)練高質(zhì)量和高維度的詞向量,而且每個(gè)詞組所附帶的語(yǔ)義信息也可以被盡量地保存下來(lái)。高維度的詞向量雖然可以更充分地表達(dá)詞組的語(yǔ)義特征,但它也會(huì)增加CNN模型參數(shù)的數(shù)量,同時(shí)增加過(guò)擬合的風(fēng)險(xiǎn)。因此經(jīng)過(guò)綜合權(quán)衡之后,本文將詞向量的維度設(shè)置為100,即k=100。在訓(xùn)練詞向量時(shí)為避免關(guān)聯(lián)到更多語(yǔ)義不相關(guān)的詞匯和縮短訓(xùn)練的時(shí)間,窗口大小設(shè)置為5,即c=5。本文用到的短信數(shù)據(jù)集在通過(guò)中文分詞、去除停止詞等操作后,長(zhǎng)度最長(zhǎng)的一條短信含有100個(gè)詞,即m=100;因此,每條短信都須表示為100×100的特征矩陣。

    在以詞向量組成表示短信文本特征矩陣的基礎(chǔ)上,結(jié)合CNN模型來(lái)完成垃圾短信的識(shí)別,并與傳統(tǒng)的機(jī)器學(xué)習(xí)模型進(jìn)行比較以驗(yàn)證CNN模型的性能優(yōu)勢(shì),具體的實(shí)驗(yàn)設(shè)計(jì)方案如下:

    1)詞向量+CNN模型。將表示短信文本的100×100特征矩陣作為CNN的輸入?yún)⑴c到模型的訓(xùn)練測(cè)試過(guò)程中。

    2)詞向量+傳統(tǒng)的機(jī)器學(xué)習(xí)模型。在同一數(shù)據(jù)上,同樣用分布式特征提取方法獲取每個(gè)詞組的詞向量,以每條短信中各個(gè)詞所對(duì)應(yīng)的詞向量的各維度上的均值組合成表示短信的特征向量。該組實(shí)驗(yàn)采用文獻(xiàn)[5]、文獻(xiàn)[7]和文獻(xiàn)[10]所用到的分類器模型,包括:樸素貝葉斯、邏輯回歸、支持向量機(jī)和隨機(jī)森林。樸素貝葉斯是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法,而且模型比較簡(jiǎn)單,在處理大量數(shù)據(jù)時(shí)效率較高。邏輯回歸是用于二分類最基本的算法之一,該模型處理數(shù)據(jù)時(shí)計(jì)算量非常小,效率高,所需的存儲(chǔ)資源較低。支持向量機(jī)可以解決高維的大型特征空間問(wèn)題,能夠處理非線性特征。隨機(jī)森林是通過(guò)集成學(xué)習(xí)的思想將多棵決策樹集成的一種算法,具有模型簡(jiǎn)單、容易實(shí)現(xiàn)和計(jì)算開銷小的特點(diǎn),適合用于大型數(shù)據(jù)集。

    4.4 模型訓(xùn)練測(cè)試和CNN參數(shù)設(shè)置

    目前在訓(xùn)練CNN時(shí)所采用的方法仍然是傳統(tǒng)的梯度下降法。欲使收斂效果最佳,可以采用批量梯度下降法,但是這種方法需要所有的短信文本數(shù)據(jù)參與每一次的迭代過(guò)程,這使收斂速度受到嚴(yán)重限制。欲使收斂速度較高,亦可采用隨機(jī)梯度下降法,每次只需要一個(gè)短信文本數(shù)據(jù)參與迭代過(guò)程,但這種方法在每次迭代中沒(méi)有用到全部信息,收斂效果不佳,很可能最終只是收斂到局部最優(yōu)解。為使訓(xùn)練過(guò)程既可以獲得較好的收斂效果也可以達(dá)到較高的收斂速度,本文使用mini-batch梯度下降法進(jìn)行CNN模型的訓(xùn)練,即用一部分短信參與迭代過(guò)程。短信樣本容量為100 000,為實(shí)現(xiàn)收斂效果和收斂速度之間的平衡,將每批樣本大小設(shè)置為1 000。

    (11)

    交叉熵?fù)p失約束表示如式(12)所示:

    (12)

    在訓(xùn)練全連接層參數(shù)時(shí),為避免發(fā)生過(guò)擬合,采取dropout策略使部分神經(jīng)節(jié)點(diǎn)失效,即一些已經(jīng)訓(xùn)練過(guò)的參數(shù)在每一次更新時(shí)將被隨機(jī)選擇丟棄[25]。本文參照Kim所提出的模型[12],在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的參數(shù)時(shí)將dropout策略的概率值設(shè)置為0.5,選擇隨機(jī)拋棄一半的參數(shù)。本文選擇應(yīng)用最廣泛、一般而言效果最好的AdamOptimizer優(yōu)化器。

    CNN模型訓(xùn)練的參數(shù)設(shè)置如表1所示。

    表1 CNN算法參數(shù)設(shè)置

    4.5 評(píng)估標(biāo)準(zhǔn)

    (13)

    其中|·|是指示函數(shù),當(dāng)里面的內(nèi)容為真時(shí)取值為1,當(dāng)內(nèi)容為假時(shí)取值為0。

    本文為驗(yàn)證CNN模型在垃圾短信識(shí)別中的可靠性,采取十折交叉驗(yàn)證法來(lái)評(píng)判模型在短信測(cè)試集上的準(zhǔn)確率。具體措施為:將短信數(shù)據(jù)集中的所有100 000個(gè)樣本分為10等份,每份包含5 000條正常短信和5 000條垃圾短信。每次實(shí)驗(yàn)以其中1份樣本進(jìn)行測(cè)試,另外9份樣本進(jìn)行訓(xùn)練。10份樣本輪流作為測(cè)試集,共進(jìn)行10次實(shí)驗(yàn),以這10次實(shí)驗(yàn)所測(cè)得結(jié)果的平均值作為評(píng)估模型的指標(biāo)。

    4.6 實(shí)驗(yàn)結(jié)果分析對(duì)比

    4.6.1 CNN模型實(shí)驗(yàn)結(jié)果

    CNN的收斂速度與學(xué)習(xí)率的大小有關(guān),當(dāng)學(xué)習(xí)率過(guò)小時(shí),無(wú)法快速找到好的下降方向,導(dǎo)致訓(xùn)練時(shí)間較長(zhǎng),收斂較慢;當(dāng)學(xué)習(xí)率太大時(shí),會(huì)造成神經(jīng)網(wǎng)絡(luò)出現(xiàn)超調(diào)或劇烈振蕩;因此需設(shè)置合理的學(xué)習(xí)率以獲得預(yù)期的結(jié)果。實(shí)驗(yàn)結(jié)果如圖5所示,可以觀測(cè)出當(dāng)學(xué)習(xí)率分別為0.1和0.8時(shí),整個(gè)神經(jīng)網(wǎng)絡(luò)收斂相對(duì)穩(wěn)定,但是收斂的速度相對(duì)較低;當(dāng)學(xué)習(xí)率為0.5時(shí)模型收斂得最快,準(zhǔn)確率最高。從圖6可以觀測(cè)出,隨著學(xué)習(xí)的不斷深入,損失在不斷減小,當(dāng)學(xué)習(xí)率為0.5時(shí)損失收斂得最快。最終準(zhǔn)確率收斂為99.5%,損失收斂為0.03。

    圖5 不同學(xué)習(xí)率下的準(zhǔn)確率變化

    圖6 不同學(xué)習(xí)率下的損失變化

    4.6.2 模型對(duì)比分析

    本文使用樸素貝葉斯(NB)、邏輯回歸(LR)、支持向量機(jī)(SVM)和隨機(jī)森林(RF)四種機(jī)器學(xué)習(xí)模型與CNN模型進(jìn)行對(duì)比實(shí)驗(yàn),不同模型下的準(zhǔn)確率對(duì)比如圖7所示。使用CNN模型的識(shí)別準(zhǔn)確率為99.5%,而使用樸素貝葉斯、邏輯回歸、支持向量機(jī)和隨機(jī)森林四種機(jī)器學(xué)習(xí)模型的準(zhǔn)確率分別為94.4%、97.1%、96.3%和95.8%??梢钥闯?,基于深度學(xué)習(xí)的CNN模型對(duì)垃圾短信的識(shí)別準(zhǔn)確率高于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,因此CNN模型在垃圾短信識(shí)別任務(wù)中能有效提高識(shí)別的準(zhǔn)確率。

    圖7 不同模型下的準(zhǔn)確率比較

    樸素貝葉斯、邏輯回歸、支持向量機(jī)和隨機(jī)森林對(duì)垃圾短信識(shí)別率偏低的主要原因分別是:1) 樸素貝葉斯模型比較簡(jiǎn)單,在處理大量數(shù)據(jù)時(shí)效率較高,但由于樸素貝葉斯模型假設(shè)樣本各個(gè)特征之間是相互獨(dú)立的,而這個(gè)假設(shè)在垃圾短信識(shí)別中往往不成立。主要因?yàn)橛?xùn)練的詞向量不僅僅表示單個(gè)詞組,而且還保留了詞組在語(yǔ)義空間上的聯(lián)系。當(dāng)特征個(gè)數(shù)較多或各特征之間關(guān)聯(lián)性較大時(shí),分類效果不好。樸素貝葉斯模型在預(yù)測(cè)時(shí)需要知道先驗(yàn)概率,而先驗(yàn)概率的計(jì)算取決于模型的假設(shè),很多時(shí)候因?yàn)槟P图僭O(shè)的原因?qū)е骂A(yù)測(cè)效果不佳。2) 邏輯回歸模型處理數(shù)據(jù)時(shí)計(jì)算量非常小,效率高,所需的存儲(chǔ)資源較低;但是當(dāng)特征空間較大時(shí),容易出現(xiàn)欠擬合,阻礙了分類效果的提升。3)支持向量機(jī)可以解決高維的大型特征空間問(wèn)題,能夠處理非線性特征,但是當(dāng)樣本容量比較大時(shí),數(shù)據(jù)處理的速度較低、耗時(shí)長(zhǎng);對(duì)非線性特征的處理沒(méi)有通用的方法,選取合適的核函數(shù)也較困難。4)隨機(jī)森林模型的訓(xùn)練和預(yù)測(cè)速度較高,能有效處理大型數(shù)據(jù)集;但是當(dāng)數(shù)據(jù)集中的樣本數(shù)據(jù)的噪聲較大時(shí),隨機(jī)森林模型容易引起過(guò)擬合。究其原因,傳統(tǒng)的機(jī)器學(xué)習(xí)模型在訓(xùn)練的過(guò)程中對(duì)輸入的特征沒(méi)有更進(jìn)一步的分析;而CNN首先利用卷積層和池化層對(duì)輸入的特征矩陣提取出更高層次的文本特征,然后再通過(guò)分類器進(jìn)行模式分類。

    因此,通過(guò)對(duì)以上結(jié)果的分析可知,在同一短信樣本集和特征提取方法下,基于深度學(xué)習(xí)的CNN模型相比傳統(tǒng)的機(jī)器學(xué)習(xí)算法,在垃圾短信識(shí)別任務(wù)中有更出色的性能優(yōu)勢(shì),能有效提高識(shí)別的準(zhǔn)確率,同時(shí)也證明CNN模型在短信數(shù)據(jù)有噪聲的情況下有更好的健壯性。

    5 結(jié)語(yǔ)

    垃圾短信泛濫一直是一個(gè)使人們非常困擾的社會(huì)問(wèn)題。為有效識(shí)別垃圾短信并建立可靠的模型,本文首先深入研究了常用的文本特征提取方法,提出了一組更適合于垃圾短信識(shí)別的文本數(shù)據(jù)特征提取方法和識(shí)別分類方法:采用Skip-Gram模型根據(jù)維基中文語(yǔ)料庫(kù)自動(dòng)訓(xùn)練出短信樣本集中所有中文詞組的詞向量,這在一定程度上解決了短信表示面臨的數(shù)據(jù)稀疏、維數(shù)過(guò)高和詞間語(yǔ)義關(guān)系建模困難等問(wèn)題,并且將詞向量按照詞序縱向排列成每條短信的分布式特征矩陣。然后在充分了解了深度學(xué)習(xí)的理論和應(yīng)用后,嘗試用深度學(xué)習(xí)中的CNN模型的來(lái)解決垃圾短信識(shí)別問(wèn)題。將表示文本的特征矩陣作為CNN的輸入層,然后利用3個(gè)窗口大小不同的卷積核提取3種相應(yīng)粒度的更高層的文本特征。為使所提取到的特征向量的維數(shù)進(jìn)一步減小,防止出現(xiàn)過(guò)擬合,采用1-max pooling策略進(jìn)一步篩選特征,再將篩選出來(lái)的特征在全連接層重新組合成特征向量輸入分類器中完成垃圾短信識(shí)別任務(wù)。模型對(duì)比實(shí)驗(yàn)表明,CNN模型在垃圾短信識(shí)別任務(wù)中相比傳統(tǒng)的機(jī)器學(xué)習(xí)模型有更高的準(zhǔn)確率,證明了CNN模型在垃圾短信識(shí)別任務(wù)中的有效性和性能優(yōu)勢(shì)。

    然而,基于CNN模型的垃圾短信識(shí)別分類任務(wù)中也存在著一些不足需要加以改進(jìn),如網(wǎng)絡(luò)結(jié)構(gòu)中參數(shù)過(guò)多、訓(xùn)練時(shí)間過(guò)長(zhǎng)。因此為了提高短信文本識(shí)別分類的效率,縮短訓(xùn)練的時(shí)間,未來(lái)將嘗試在分布式平臺(tái)上進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練測(cè)試。為了不使識(shí)別的準(zhǔn)確率因樣本數(shù)據(jù)類別分布的差異而產(chǎn)生偏差,本文使用的短信據(jù)集在類別分布上保持均衡,但是現(xiàn)實(shí)中往往是正常短信多于垃圾短信,而現(xiàn)有的分類器在設(shè)計(jì)時(shí)都假設(shè)數(shù)據(jù)集中的樣本類別分布均衡,如果用這些分類器對(duì)樣本類別分布不均衡的數(shù)據(jù)集進(jìn)行分類,將導(dǎo)致分類器性能的下降并且也會(huì)因數(shù)據(jù)分布不均衡引入額外的誤差而對(duì)最終的分類結(jié)果產(chǎn)生影響。對(duì)類別分布不均衡的短信數(shù)據(jù)集進(jìn)行垃圾短信識(shí)別將是下一步的研究重點(diǎn)。

    猜你喜歡
    分詞特征提取短信
    結(jié)巴分詞在詞云中的應(yīng)用
    道歉短信
    基于Daubechies(dbN)的飛行器音頻特征提取
    電子制作(2018年19期)2018-11-14 02:37:08
    代發(fā)短信
    Bagging RCSP腦電特征提取算法
    值得重視的分詞的特殊用法
    基于MED和循環(huán)域解調(diào)的多故障特征提取
    高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
    論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
    Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
    軸承(2010年2期)2010-07-28 02:26:12
    性色av一级| 少妇熟女欧美另类| 777米奇影视久久| 国产av码专区亚洲av| 丰满乱子伦码专区| 日本av手机在线免费观看| 99九九线精品视频在线观看视频| 久久久精品欧美日韩精品| 听说在线观看完整版免费高清| 免费大片18禁| 99久久精品国产国产毛片| 成年免费大片在线观看| 精品99又大又爽又粗少妇毛片| 午夜精品一区二区三区免费看| 黄色欧美视频在线观看| 在线观看人妻少妇| 男人添女人高潮全过程视频| 麻豆成人午夜福利视频| 久久鲁丝午夜福利片| 免费观看的影片在线观看| av国产精品久久久久影院| 男人舔奶头视频| 中文资源天堂在线| 国产 精品1| 大片免费播放器 马上看| 国产精品秋霞免费鲁丝片| 久久国产乱子免费精品| 亚洲av中文av极速乱| 国产成人freesex在线| 欧美+日韩+精品| 另类亚洲欧美激情| 国产高清三级在线| 亚洲性久久影院| 国产乱来视频区| 女人十人毛片免费观看3o分钟| 成人黄色视频免费在线看| 看黄色毛片网站| 视频中文字幕在线观看| 久久久久精品久久久久真实原创| 老司机影院毛片| 嘟嘟电影网在线观看| 在线观看美女被高潮喷水网站| 交换朋友夫妻互换小说| 亚洲欧美日韩东京热| 日韩在线高清观看一区二区三区| videos熟女内射| 免费看日本二区| 欧美高清性xxxxhd video| 一级片'在线观看视频| 午夜亚洲福利在线播放| 听说在线观看完整版免费高清| 汤姆久久久久久久影院中文字幕| 别揉我奶头 嗯啊视频| 午夜免费鲁丝| 久久久成人免费电影| 欧美日韩综合久久久久久| 91精品一卡2卡3卡4卡| 久久99热6这里只有精品| 美女cb高潮喷水在线观看| av免费在线看不卡| 成人国产av品久久久| 少妇熟女欧美另类| 亚洲伊人久久精品综合| 亚洲精品日韩在线中文字幕| 日日啪夜夜撸| 国产午夜精品久久久久久一区二区三区| 亚洲av国产av综合av卡| 亚洲在久久综合| 高清毛片免费看| 丝瓜视频免费看黄片| 亚洲国产最新在线播放| 国国产精品蜜臀av免费| 欧美老熟妇乱子伦牲交| 亚洲精品中文字幕在线视频 | 久久精品夜色国产| a级毛色黄片| 一级黄片播放器| 51国产日韩欧美| 久久精品久久久久久久性| 韩国av在线不卡| 超碰97精品在线观看| 久久久久久久久久久丰满| 91精品一卡2卡3卡4卡| 日本黄色片子视频| 国产久久久一区二区三区| kizo精华| 国内精品美女久久久久久| 成人亚洲精品一区在线观看 | 成人美女网站在线观看视频| 日韩国内少妇激情av| 寂寞人妻少妇视频99o| 免费看光身美女| 人妻 亚洲 视频| 中文字幕人妻熟人妻熟丝袜美| 免费看av在线观看网站| 麻豆成人午夜福利视频| 性色avwww在线观看| 一区二区三区四区激情视频| 日韩av在线免费看完整版不卡| 精品人妻偷拍中文字幕| 日本wwww免费看| 免费观看在线日韩| 日本午夜av视频| 亚洲精品日韩av片在线观看| 精品午夜福利在线看| 在线观看美女被高潮喷水网站| 国产精品三级大全| av在线播放精品| 99久久精品国产国产毛片| 久久久久性生活片| 男女那种视频在线观看| 亚洲无线观看免费| 永久网站在线| 青春草亚洲视频在线观看| 亚洲精品中文字幕在线视频 | 欧美极品一区二区三区四区| 成年女人看的毛片在线观看| 国产黄a三级三级三级人| 少妇 在线观看| av在线亚洲专区| 精华霜和精华液先用哪个| 国产精品麻豆人妻色哟哟久久| 夜夜看夜夜爽夜夜摸| 国产成人精品婷婷| 91精品国产九色| 99久久九九国产精品国产免费| 看非洲黑人一级黄片| 18禁在线无遮挡免费观看视频| 97在线人人人人妻| 中文字幕av成人在线电影| 欧美性感艳星| 欧美高清性xxxxhd video| 久久久久久久久久久免费av| 国产成年人精品一区二区| 在线免费十八禁| 人人妻人人看人人澡| 哪个播放器可以免费观看大片| 一区二区三区四区激情视频| 大又大粗又爽又黄少妇毛片口| 亚洲av国产av综合av卡| 欧美一区二区亚洲| 伊人久久国产一区二区| 久久热精品热| 午夜亚洲福利在线播放| 黄色欧美视频在线观看| eeuss影院久久| 丰满少妇做爰视频| 97超碰精品成人国产| 亚洲熟女精品中文字幕| 禁无遮挡网站| 国产成人一区二区在线| 国产成人免费观看mmmm| 免费在线观看成人毛片| 黄色日韩在线| 亚州av有码| 狂野欧美激情性bbbbbb| 国产白丝娇喘喷水9色精品| 各种免费的搞黄视频| 狂野欧美白嫩少妇大欣赏| 国产伦在线观看视频一区| 久久久久精品久久久久真实原创| 最近2019中文字幕mv第一页| 女人久久www免费人成看片| 亚洲精品乱久久久久久| 久久精品久久久久久久性| 国产男女超爽视频在线观看| 成人特级av手机在线观看| 女人被狂操c到高潮| 免费av不卡在线播放| 亚洲自偷自拍三级| 美女视频免费永久观看网站| 日韩欧美 国产精品| 欧美性猛交╳xxx乱大交人| 晚上一个人看的免费电影| 99精国产麻豆久久婷婷| 欧美一区二区亚洲| 国产综合懂色| 哪个播放器可以免费观看大片| 最近手机中文字幕大全| 欧美人与善性xxx| 精品久久久久久电影网| 天堂俺去俺来也www色官网| 看十八女毛片水多多多| 欧美国产精品一级二级三级 | 在线免费观看不下载黄p国产| 欧美激情国产日韩精品一区| 成人国产av品久久久| av在线观看视频网站免费| 亚洲aⅴ乱码一区二区在线播放| 极品少妇高潮喷水抽搐| 国产极品天堂在线| 2021少妇久久久久久久久久久| 欧美日本视频| 国产精品人妻久久久影院| 色视频www国产| 99视频精品全部免费 在线| 欧美另类一区| 最近最新中文字幕大全电影3| 国产黄色免费在线视频| 一本久久精品| 日本熟妇午夜| 成人特级av手机在线观看| 欧美高清性xxxxhd video| 国内少妇人妻偷人精品xxx网站| 免费观看性生交大片5| 日本一本二区三区精品| 日韩不卡一区二区三区视频在线| 少妇熟女欧美另类| 肉色欧美久久久久久久蜜桃 | 九草在线视频观看| 26uuu在线亚洲综合色| 大片电影免费在线观看免费| 国产精品精品国产色婷婷| 秋霞在线观看毛片| 国产亚洲精品久久久com| 少妇猛男粗大的猛烈进出视频 | 亚洲精品国产av蜜桃| 精品亚洲乱码少妇综合久久| 中文字幕亚洲精品专区| 少妇熟女欧美另类| 男人爽女人下面视频在线观看| 韩国高清视频一区二区三区| 高清毛片免费看| 欧美激情久久久久久爽电影| 亚洲欧美精品专区久久| av一本久久久久| 国产精品久久久久久精品电影小说 | 亚洲欧洲日产国产| 高清在线视频一区二区三区| 日韩av在线免费看完整版不卡| 精品久久久久久久末码| 国产精品人妻久久久久久| 久久久久久久久大av| 麻豆精品久久久久久蜜桃| 99视频精品全部免费 在线| 免费大片18禁| 国产色婷婷99| 美女国产视频在线观看| 亚洲精品国产av蜜桃| 日韩av不卡免费在线播放| 91久久精品国产一区二区成人| 成人欧美大片| 日韩大片免费观看网站| 成人鲁丝片一二三区免费| 天堂中文最新版在线下载 | 日韩欧美一区视频在线观看 | 黄片无遮挡物在线观看| 久久国内精品自在自线图片| 一个人看的www免费观看视频| 欧美少妇被猛烈插入视频| 直男gayav资源| 只有这里有精品99| 人妻少妇偷人精品九色| 人人妻人人澡人人爽人人夜夜| 男女国产视频网站| 可以在线观看毛片的网站| 欧美老熟妇乱子伦牲交| freevideosex欧美| 熟女人妻精品中文字幕| 99精国产麻豆久久婷婷| 大片免费播放器 马上看| av在线亚洲专区| 日韩av免费高清视频| 亚洲久久久久久中文字幕| 2022亚洲国产成人精品| 51国产日韩欧美| 亚洲国产高清在线一区二区三| 色视频在线一区二区三区| av专区在线播放| 高清日韩中文字幕在线| 亚洲精品中文字幕在线视频 | 在线播放无遮挡| 在线观看三级黄色| 乱码一卡2卡4卡精品| 欧美日韩视频精品一区| 成年免费大片在线观看| 日本黄大片高清| 王馨瑶露胸无遮挡在线观看| 一个人看的www免费观看视频| 美女xxoo啪啪120秒动态图| 可以在线观看毛片的网站| 国产精品一及| 久久精品国产a三级三级三级| 亚洲欧美日韩无卡精品| 久久99热6这里只有精品| 成人毛片a级毛片在线播放| 午夜老司机福利剧场| 日韩国内少妇激情av| 亚洲精品国产色婷婷电影| 天堂网av新在线| 草草在线视频免费看| 91精品国产九色| 午夜福利在线在线| 国产淫片久久久久久久久| 最近中文字幕2019免费版| 亚洲欧美日韩卡通动漫| 亚洲精华国产精华液的使用体验| 亚洲欧洲日产国产| 亚洲人成网站高清观看| 国产伦精品一区二区三区视频9| 欧美3d第一页| 日本与韩国留学比较| 亚洲欧美中文字幕日韩二区| 在线看a的网站| av国产久精品久网站免费入址| 久久久久国产网址| 久久影院123| 国产欧美日韩精品一区二区| 亚洲自偷自拍三级| 97在线人人人人妻| 久久精品久久久久久噜噜老黄| 丝袜脚勾引网站| 欧美+日韩+精品| 色吧在线观看| 国产成人aa在线观看| 免费av观看视频| 女人久久www免费人成看片| 日韩av不卡免费在线播放| 26uuu在线亚洲综合色| 麻豆国产97在线/欧美| 日韩成人av中文字幕在线观看| 欧美丝袜亚洲另类| 男女那种视频在线观看| 看免费成人av毛片| 国产高潮美女av| 国产男人的电影天堂91| 国产精品99久久99久久久不卡 | 午夜视频国产福利| 欧美日韩综合久久久久久| 深夜a级毛片| 精品久久久久久久久av| 亚洲婷婷狠狠爱综合网| 建设人人有责人人尽责人人享有的 | 伦理电影大哥的女人| 蜜臀久久99精品久久宅男| 18禁裸乳无遮挡动漫免费视频 | 亚洲人成网站在线观看播放| 一级毛片黄色毛片免费观看视频| 欧美性感艳星| 国产成人精品一,二区| 国产极品天堂在线| 久久韩国三级中文字幕| 欧美一级a爱片免费观看看| 日产精品乱码卡一卡2卡三| av在线播放精品| 国产日韩欧美在线精品| 22中文网久久字幕| 一区二区三区四区激情视频| av专区在线播放| 精品久久久久久久久亚洲| 免费观看的影片在线观看| 18+在线观看网站| 日本wwww免费看| 乱系列少妇在线播放| 看免费成人av毛片| 最近中文字幕高清免费大全6| 91精品一卡2卡3卡4卡| av一本久久久久| 80岁老熟妇乱子伦牲交| 日本猛色少妇xxxxx猛交久久| 夜夜爽夜夜爽视频| 亚洲国产欧美在线一区| 国产 一区 欧美 日韩| 国产成人免费观看mmmm| 97在线人人人人妻| 国产成人91sexporn| 99热这里只有精品一区| 久久久久精品久久久久真实原创| 亚洲图色成人| 亚洲一级一片aⅴ在线观看| 尤物成人国产欧美一区二区三区| 亚洲一级一片aⅴ在线观看| 乱码一卡2卡4卡精品| 高清日韩中文字幕在线| 新久久久久国产一级毛片| 日本wwww免费看| 亚洲av在线观看美女高潮| 国产精品av视频在线免费观看| 亚洲精品国产av蜜桃| 男女下面进入的视频免费午夜| 国产精品蜜桃在线观看| 黄片wwwwww| 亚洲av不卡在线观看| 看非洲黑人一级黄片| 精品99又大又爽又粗少妇毛片| 欧美日韩精品成人综合77777| 亚洲av不卡在线观看| 欧美bdsm另类| 亚洲精品一区蜜桃| 七月丁香在线播放| 观看免费一级毛片| 一本色道久久久久久精品综合| av在线老鸭窝| 国产国拍精品亚洲av在线观看| 精品一区二区三卡| 麻豆国产97在线/欧美| 国产伦精品一区二区三区四那| 精品久久久久久久久av| 人妻 亚洲 视频| 亚洲最大成人av| 欧美高清成人免费视频www| 亚洲精品国产色婷婷电影| 欧美老熟妇乱子伦牲交| 国产精品女同一区二区软件| 久久鲁丝午夜福利片| 色播亚洲综合网| 人人妻人人澡人人爽人人夜夜| 97热精品久久久久久| 99精国产麻豆久久婷婷| 欧美成人一区二区免费高清观看| 国产成人一区二区在线| 免费少妇av软件| 国产精品国产三级专区第一集| 久久久久九九精品影院| www.av在线官网国产| 国产男人的电影天堂91| 少妇熟女欧美另类| 在线看a的网站| 亚洲国产精品成人综合色| 午夜免费男女啪啪视频观看| 亚洲一区二区三区欧美精品 | 免费av不卡在线播放| 亚洲精品国产成人久久av| 老师上课跳d突然被开到最大视频| 亚洲精品久久久久久婷婷小说| 一级毛片我不卡| 国产成人精品福利久久| 爱豆传媒免费全集在线观看| 免费看日本二区| 男的添女的下面高潮视频| 欧美xxxx黑人xx丫x性爽| 色5月婷婷丁香| 大码成人一级视频| 香蕉精品网在线| 中文天堂在线官网| 欧美xxxx黑人xx丫x性爽| 免费看光身美女| 一本色道久久久久久精品综合| 麻豆精品久久久久久蜜桃| 人体艺术视频欧美日本| 国产精品三级大全| 极品少妇高潮喷水抽搐| av在线蜜桃| 天美传媒精品一区二区| 国产淫语在线视频| 97人妻精品一区二区三区麻豆| 2021少妇久久久久久久久久久| 人人妻人人澡人人爽人人夜夜| 久久精品综合一区二区三区| 精品人妻一区二区三区麻豆| 日韩欧美精品v在线| 国产亚洲精品久久久com| 大香蕉久久网| 舔av片在线| 男女那种视频在线观看| 国产精品一区二区性色av| 亚洲自偷自拍三级| 人妻少妇偷人精品九色| 亚洲精品一二三| 国产淫语在线视频| 精品一区二区三卡| 1000部很黄的大片| 777米奇影视久久| 国产爽快片一区二区三区| 蜜臀久久99精品久久宅男| 最近2019中文字幕mv第一页| 在线亚洲精品国产二区图片欧美 | 国模一区二区三区四区视频| 日韩国内少妇激情av| 亚洲av国产av综合av卡| 五月天丁香电影| 人体艺术视频欧美日本| 2018国产大陆天天弄谢| 国产 一区 欧美 日韩| 婷婷色综合大香蕉| 欧美xxxx性猛交bbbb| 亚洲精品,欧美精品| 日韩 亚洲 欧美在线| 国产精品久久久久久久电影| 国产高清有码在线观看视频| 免费黄频网站在线观看国产| 国产精品国产三级国产av玫瑰| 丝袜喷水一区| kizo精华| 在线播放无遮挡| 99精国产麻豆久久婷婷| 日日摸夜夜添夜夜爱| 亚洲在久久综合| 国产精品精品国产色婷婷| 免费av观看视频| 国产精品不卡视频一区二区| 精品久久国产蜜桃| 直男gayav资源| 日韩制服骚丝袜av| av黄色大香蕉| 成人黄色视频免费在线看| 国产精品一二三区在线看| 亚洲一区二区三区欧美精品 | 久久鲁丝午夜福利片| av一本久久久久| 少妇的逼水好多| 亚洲欧洲日产国产| 99久久精品一区二区三区| 国产精品人妻久久久影院| 极品少妇高潮喷水抽搐| 久久久久久伊人网av| 电影成人av| 亚洲欧美一区二区三区国产| 人人妻人人爽人人添夜夜欢视频| 成人漫画全彩无遮挡| 午夜免费观看性视频| 日韩大片免费观看网站| 国产一区有黄有色的免费视频| 日韩制服骚丝袜av| 日韩中文字幕欧美一区二区 | 咕卡用的链子| 久久久国产一区二区| 精品久久蜜臀av无| 纯流量卡能插随身wifi吗| av免费观看日本| 婷婷成人精品国产| 最黄视频免费看| av在线app专区| av又黄又爽大尺度在线免费看| 精品视频人人做人人爽| 亚洲精品久久午夜乱码| 精品国产乱码久久久久久男人| 国产精品久久久久久精品电影小说| 一级,二级,三级黄色视频| 妹子高潮喷水视频| 成人国产av品久久久| 久久久久精品人妻al黑| 王馨瑶露胸无遮挡在线观看| 日韩人妻精品一区2区三区| 蜜桃国产av成人99| 99久久精品国产亚洲精品| 日韩欧美一区视频在线观看| 国产亚洲最大av| 女性生殖器流出的白浆| 中文乱码字字幕精品一区二区三区| 日韩大码丰满熟妇| 18禁动态无遮挡网站| 桃花免费在线播放| 1024香蕉在线观看| 国产在视频线精品| 超色免费av| 精品亚洲成国产av| 久久午夜综合久久蜜桃| 老司机影院毛片| 日韩 亚洲 欧美在线| 国产精品秋霞免费鲁丝片| 精品一品国产午夜福利视频| 一区二区三区四区激情视频| 欧美在线一区亚洲| 九九爱精品视频在线观看| 亚洲精品国产一区二区精华液| 欧美黄色片欧美黄色片| 日韩免费高清中文字幕av| 丝袜人妻中文字幕| 伊人久久国产一区二区| 伦理电影免费视频| 国产精品av久久久久免费| a级毛片黄视频| 欧美人与性动交α欧美精品济南到| 欧美97在线视频| 精品少妇久久久久久888优播| 男女免费视频国产| 欧美亚洲日本最大视频资源| 高清av免费在线| 19禁男女啪啪无遮挡网站| 老司机影院成人| 日本午夜av视频| 欧美在线黄色| av国产精品久久久久影院| av网站免费在线观看视频| 三上悠亚av全集在线观看| 大片电影免费在线观看免费| 黄色视频不卡| 亚洲欧美中文字幕日韩二区| 久久精品久久久久久噜噜老黄| 国产精品香港三级国产av潘金莲 | 蜜桃国产av成人99| 2018国产大陆天天弄谢| 精品酒店卫生间| 下体分泌物呈黄色| 日韩不卡一区二区三区视频在线| 人妻 亚洲 视频| 一级毛片我不卡| 大香蕉久久成人网| av在线老鸭窝| 久久久久久久精品精品| 亚洲av日韩在线播放| 男人舔女人的私密视频| 黑人猛操日本美女一级片| 亚洲人成77777在线视频| 国产亚洲av高清不卡| e午夜精品久久久久久久| 亚洲欧美成人精品一区二区| 一级毛片我不卡| 日本色播在线视频| 男女无遮挡免费网站观看| 久久国产亚洲av麻豆专区| 日韩av不卡免费在线播放| 亚洲伊人色综图| 久久影院123| 狠狠婷婷综合久久久久久88av| 超碰97精品在线观看| 亚洲av福利一区| 国产成人精品福利久久| 最近2019中文字幕mv第一页| 精品久久久久久电影网| 亚洲,欧美精品.| 亚洲四区av| 少妇被粗大猛烈的视频| 丝袜喷水一区|