• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于語義的檔案數(shù)據(jù)智能分類方法研究

    2021-03-23 03:44:48霍光煜孫艷豐尹寶才
    計算機(jī)工程與應(yīng)用 2021年6期
    關(guān)鍵詞:類別聚類分類

    霍光煜,張 勇 ,2,孫艷豐,尹寶才

    1.北京工業(yè)大學(xué) 信息學(xué)部 多媒體與智能軟件技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100124

    2.北京市交通信息中心,北京 100055

    隨著我國數(shù)字化檔案建設(shè)的發(fā)展,面對海量的數(shù)字化檔案數(shù)據(jù),簡單的統(tǒng)計方法或者傳統(tǒng)的數(shù)據(jù)分析并不能發(fā)現(xiàn)檔案數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。對檔案進(jìn)行手工分類、編研等工作也需要投入大量的人力物力,耗時過長。因此,如何發(fā)掘和利用檔案數(shù)據(jù)中的隱含價值,從而對海量數(shù)字化檔案進(jìn)行快速、準(zhǔn)確的分類,是目前檔案管理領(lǐng)域所面臨的一項(xiàng)重大挑戰(zhàn)。

    現(xiàn)有的檔案數(shù)據(jù)管理方法多是依賴于傳統(tǒng)的數(shù)據(jù)庫技術(shù),其目標(biāo)是檔案信息的羅列整理與基礎(chǔ)的統(tǒng)計分析,數(shù)據(jù)庫管理的局限是需要人為設(shè)計分析內(nèi)容,要求制定分析內(nèi)容的人有豐富的經(jīng)驗(yàn)支撐。隨著知識的快速更新,通過傳統(tǒng)統(tǒng)計分析方法不能滿足發(fā)掘檔案數(shù)據(jù)內(nèi)容方面的關(guān)聯(lián),無法滿足檔案更高層次智能管理要求。目前,自然語言處理已經(jīng)成為人工智能的一個重要分支。自然語言處理可以針對數(shù)字檔案的內(nèi)容對數(shù)字檔案進(jìn)行分類、聚類的操作,可以很好地展現(xiàn)出數(shù)字檔案內(nèi)容關(guān)聯(lián)的變化。在眾多關(guān)聯(lián)分析方法中,基于語義特征的方式為檔案管理提供寶貴的參考。因此,對于數(shù)字檔案內(nèi)容的挖掘是檔案智能管理的基礎(chǔ)。對現(xiàn)有數(shù)字檔案數(shù)據(jù)進(jìn)行深入分析,可以更加了解不同類型檔案的內(nèi)在關(guān)聯(lián)規(guī)律,對其可能存在的關(guān)聯(lián)關(guān)系進(jìn)行預(yù)測,從而為檔案管理者的檔案關(guān)聯(lián)分析、自動分類工作等方面提供幫助。

    本文的主要貢獻(xiàn)如下:

    (1)提出了一種基于LDA 主題特征的文本聚類算法,根據(jù)LDA模型對文本進(jìn)行語義特征表示,基于語義特征對現(xiàn)有檔案數(shù)據(jù)進(jìn)行聚類,服務(wù)于現(xiàn)有檔案的智能挖掘。

    (2)將FastText 深度學(xué)習(xí)模型應(yīng)用到檔案文本分類中,將文本的n-gram特征詞向量作為輸入,并引入分層Softmax分類,完成快速、準(zhǔn)確的檔案分類工作。

    1 相關(guān)工作

    傳統(tǒng)的檔案文本的研究主要是通過數(shù)學(xué)統(tǒng)計方法以及數(shù)據(jù)挖掘的手段。對于檔案文本的宏觀分析,一般是通過數(shù)學(xué)統(tǒng)計的方法,缺少對檔案內(nèi)容的分析。隨著信息科學(xué)的發(fā)展,機(jī)器學(xué)習(xí)作為一種新興的數(shù)據(jù)分析手段,被廣泛應(yīng)用于文本數(shù)據(jù)分析領(lǐng)域。其中按照是否屬于監(jiān)督學(xué)習(xí)又可以分為:無監(jiān)督的聚類算法和有監(jiān)督的分類算法。尤其值得提到的是,基于深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法因其優(yōu)異的性能也受到了廣泛關(guān)注。

    聚類是一種不需要手動標(biāo)記文件的機(jī)器學(xué)習(xí)方法,在集群過程中具有一定的靈活性和較高的自動化處理能力,所以它已成為越來越多研究學(xué)者進(jìn)行文本挖掘的重要手段。聚類算法包括基于層次的聚類、基于劃分的聚類、基于密度的聚類和基于模型的聚類。同時,文本聚類問題也有其特殊性。一方面,文本向量是一個高維向量,通常是數(shù)千甚至數(shù)萬級別的維度;另一方面,文本向量通常是稀疏向量,因此很難選擇聚類中心。目前,文本聚類的主要方法是基于層次聚類算法和基于劃分聚類算法。基于劃分聚類算法的效率更高,但由于文本聚類是機(jī)器學(xué)習(xí)過程的非監(jiān)督,聚類的結(jié)果是沒有依據(jù)的。劃分聚類方法中的初始設(shè)定對聚類結(jié)果具有極大的影響[1]。文本聚類K-Means算法[2]也稱為k均值聚類方法,它是一種基于劃分的簡單聚類方法。在理論上可靠、簡單和快速,所以K-Means算法已經(jīng)被運(yùn)用于解決很多不同的問題中。K-Means聚類方法的目的是減少每個聚類中每個點(diǎn)和聚類中心的平方差。該算法在時間復(fù)雜度方面具有優(yōu)勢,但需要給出聚類的種類k,即簇的數(shù)量;而且它對孤立點(diǎn)很敏感。均值漂移聚類方法也是常用的基于質(zhì)心的聚類算法,通過將中心點(diǎn)的候選點(diǎn)更新為滑動窗口內(nèi)點(diǎn)的均值來完成,來定位每個組/類的中心點(diǎn)。然后對這些候選窗口進(jìn)行相似窗口去除,最終形成中心點(diǎn)集及相應(yīng)的分組。同樣基于密度的聚類算法的DBSCAN算法在圖像和自然語言處理的聚類方面也有不錯的表現(xiàn)。

    文本分類是將預(yù)定義的標(biāo)簽分配給未分類文檔的過程。作為其初步任務(wù),分類方法預(yù)定義了有限數(shù)量的類別,并且準(zhǔn)備了一定數(shù)量的預(yù)定義標(biāo)記的樣本文本。在20 世紀(jì)50 年代,就出現(xiàn)了基于詞頻統(tǒng)計和概率模型的文本分類算法[3],開啟了計算機(jī)文本分類的新階段。之后K-近鄰算法(KNN)[4]、決策樹算法(DT)[5]、樸素貝葉斯算法(NB)[6]、支持向量機(jī)(SVM)也相繼出現(xiàn)。Haddoud 等人通過支持向量機(jī)(SVM)與文本加權(quán)矩陣相結(jié)合,提高文本分類效果[7]。Wang 等人提出了通過LDA提取文本主題與支持向量機(jī)相結(jié)合的中文文檔分類算法[8]。Joachims 等人提出了一種基于SVM 的文本分類方法[9]。Wei 等人提出了一種基于WordNet 的修正詞的相似性測量用于消除歧義,增強(qiáng)聚類效果[10]。Tang提出了一種基于貝葉斯的分類方法,用于使用特定類的特征進(jìn)行自動文本分類,與傳統(tǒng)的文本分類方法不同,通過提出的方法為每個類選擇特定的特征子集[11]。

    作為機(jī)器學(xué)習(xí)的一個分支,近些年來,深度學(xué)習(xí)受到了越來越多的關(guān)注,它的起源是人工神經(jīng)網(wǎng)絡(luò),核心思想是通過模擬人腦的感知神經(jīng)來解決各種問題。目前深度學(xué)習(xí)也被很廣泛運(yùn)用在自然語言處理領(lǐng)域,相較于傳統(tǒng)的文本分類淺層學(xué)習(xí)算法,如樸素貝葉斯算法(NB)、支持向量機(jī)(SVM)等,深度學(xué)習(xí)算法的優(yōu)勢體現(xiàn)在對復(fù)雜函數(shù)的表達(dá)上,匹配檔案內(nèi)容復(fù)雜的特性。其通過非線性的深層網(wǎng)絡(luò)結(jié)構(gòu)以及對文本數(shù)據(jù)特征進(jìn)行分布式采集能很好地表達(dá)復(fù)雜函數(shù)[12],實(shí)現(xiàn)準(zhǔn)確的文本數(shù)據(jù)分類。卷積神經(jīng)網(wǎng)絡(luò)(CNN)最先在圖像分類領(lǐng)域取得了成功[13]。CNN目前也被用于許多NLP任務(wù)。NLP研究應(yīng)用CNN解決了諸如詞性標(biāo)注、人機(jī)交互問答、文本摘要、命名實(shí)體識別等問題[14]。同時CNN 可以學(xué)習(xí)諸如n-gram之類的文本特征。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是針對有序數(shù)據(jù)設(shè)計的一種深度學(xué)習(xí)模型,理論上它可以解決文本分類中的語義問題,但是會存在梯度消失和梯度爆炸問題[15]。長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)可以通過門控制來克服RNN中的這些限制,LSTM在大多數(shù)文本處理中的表現(xiàn)較好。Zhou 等人提出了一種基于雙向LSTM與二維最大池化方法相結(jié)合的方法,利用二維卷積來對矩陣信息進(jìn)行采樣,優(yōu)化文本分類[16]。Shen等人提出了一種新的基于深度學(xué)習(xí)的文本分類模型,以解決中文網(wǎng)絡(luò)文本分類降維的問題[17]。

    本文的主要研究點(diǎn)聚焦于檔案類別的重新劃分和自動分類。運(yùn)用機(jī)器學(xué)習(xí)的聚類算法對檔案進(jìn)行內(nèi)容聚類,在此基礎(chǔ)上對檔案之間的關(guān)聯(lián)關(guān)系進(jìn)行挖掘。運(yùn)用深度學(xué)習(xí)的分類算法對新歸檔的檔案按照內(nèi)容進(jìn)行自動分類,減輕檔案工作者的工作量。

    2 基于LDA主題特征的檔案聚類

    目前依據(jù)檔案部門標(biāo)簽和歸檔時間標(biāo)簽劃分的檔案分類方式,忽略了不同部門、不同時間發(fā)布的檔案之間語義內(nèi)容上存在的隱含關(guān)聯(lián)。如果通過手工的方式對檔案進(jìn)行按照內(nèi)容分類,又會產(chǎn)生工作量過大的問題。針對這個問題,本文提出采用LDA(Latent Dirichlet Allocation)文檔主題生成模型提取檔案文本的主題特征并進(jìn)行表示,再運(yùn)用K-means(K均值聚類算法)重新對數(shù)字檔案文檔進(jìn)聚類處理,打破傳統(tǒng)的分類標(biāo)準(zhǔn)束縛,便于檔案工作者發(fā)現(xiàn)海量檔案之間的關(guān)聯(lián)。

    每天都會有數(shù)以萬計的新檔案歸檔到檔案館,檔案的自動歸類問題也是檔案管理部門所關(guān)心的重點(diǎn)問題之一,想要對檔案進(jìn)行深入的數(shù)據(jù)挖掘還需要將新進(jìn)的檔案按照內(nèi)容進(jìn)行分類。本文采用基于FastText 深度學(xué)習(xí)模型進(jìn)行檔案分類也將進(jìn)一步的減少檔案從業(yè)者的工作量同時增加檔案文本挖掘的深度。文本數(shù)據(jù)挖掘總體框架圖如圖1所示。

    圖1 文本數(shù)據(jù)挖掘總體框架

    總體來說,本文主要包括兩部分內(nèi)容:

    (1)基于LDA主題特征的檔案聚類

    對于原始檔案數(shù)據(jù)進(jìn)行基于LDA主題模型的特征表示,并對此語義特征進(jìn)行聚類處理。通過聚類操作得到海量檔案的內(nèi)在關(guān)聯(lián)。

    (2)基于FastText的文本分類

    對于已經(jīng)歸檔后的檔案數(shù)據(jù),通過基于卷積神經(jīng)網(wǎng)絡(luò)的FastText 模型進(jìn)行有監(jiān)督分類。對數(shù)據(jù)進(jìn)行n-gram 向量化處理并通過基于Softmax 的分類器進(jìn)行多分類,讓訓(xùn)練完成的模型對新進(jìn)檔案進(jìn)行自動化分類,減輕手工分類的工作量。

    3 基于LDA主題特征的檔案聚類

    目前的檔案多是按照管理需求分類,并未考慮各個檔案文件內(nèi)容之間的隱含關(guān)聯(lián)關(guān)系,這也造成了對檔案數(shù)據(jù)利用困難的局面。如果要對檔案文件進(jìn)行更為系統(tǒng)的分析,提出采用聚類的方式將檔案文本數(shù)據(jù)重新組織,運(yùn)用LDA 模型對檔案進(jìn)行特征提取,并采用K-means 算法對提取的文本特征進(jìn)行聚類。算法流程首先運(yùn)用LDA 主題模型提取出的特征作為輸入的作用,之后介紹采用K-means 聚類方法,根據(jù)實(shí)際需要設(shè)置K值,對檔案數(shù)據(jù)進(jìn)行重新劃分,在主題特征的基礎(chǔ)上完成檔案文本聚類。

    3.1 基于LDA的檔案主題提取和表示

    上式可以理解為:詞語wn在文檔Mm中的出現(xiàn)概率。其定義為特征詞的概率與主題詞概率的乘積,即wn出現(xiàn)在主題Kk中的概率,以及Kk參數(shù)和出現(xiàn)在文檔Mm中的概率乘積。N表示特征詞總數(shù),M表示文檔的數(shù)量,K表示主題的總數(shù)。LDA 的概念可以通過矩陣的形式表達(dá),整個文檔被認(rèn)為是文檔矩陣,可以分解成主題詞項(xiàng)矩陣和文檔主題矩陣。以這種方式,主題-詞項(xiàng)矩陣表示每個文檔相對于詞項(xiàng)的概率分布,文檔-主題矩陣表示每個文檔相對于主題的概率分布,主題的矩陣表示該主題關(guān)于詞的概率分布。其中文檔的詞項(xiàng)可以通過預(yù)處理中的TF-IDF算法加權(quán)得到。

    LDA主題模型的構(gòu)建模型過程可以理解為documenttopic(文檔-主題)分布向量與topic-word(主題-詞項(xiàng))分部向量,可以通過多種方法求解,本文將采用Gibbs抽樣學(xué)習(xí)的方式來對LDA模型進(jìn)行參數(shù)估計。在LDA主題

    傳統(tǒng)的文本聚類算法都是以向量空間模型(VSM)的特征表示為基礎(chǔ),向量空間模型概念是將文本間的比較轉(zhuǎn)化為向量之間的相似度計算,這種方式確實(shí)能在一定程度上將相似度高的文本數(shù)據(jù)聚集,但是它存在著明顯的缺陷,就是單純以TF-IDF 值來衡量文本中詞語的重要性是不夠全面的,只考慮到關(guān)鍵詞頻率對其重要性的影響,沒有考慮文本的上下文語義。根據(jù)TF-IDF 特征的缺點(diǎn),本章在TF-IDF 特征的基礎(chǔ)上采用LDA主題提取的方式,對文本主題特征進(jìn)行聚類,希望改進(jìn)聚類的效果。

    LDA 主題模型有三層結(jié)構(gòu),分別是文本document、主題topic 以及詞項(xiàng)word,LDA 主題模型的本質(zhì)就是利用文本的特征詞的共現(xiàn)特征來挖掘文本的主題。每篇文本都可以看作是由特定主題集混合而形成的。

    LDA 模型把語料庫看成是不同主題的概率分布,主題是文本特征詞上的概率分布。符合下面的公式:模型中,文本可以看作是由不同主題構(gòu)成的,各個主題都可以看作是這篇檔案文本的特征,可以將檔案文本映射到主題的特征向量空間中,進(jìn)行文本特征表示。

    在優(yōu)化檔案文本聚類的過程中采用LDA主題模型進(jìn)行文本語義相似度的計算。LDA主題模型把每個詞都對應(yīng)到一個主題中,文檔中的詞為描述這個主題起到的指導(dǎo)作用,這就是LDA優(yōu)于傳統(tǒng)基于TF-IDF 權(quán)重策略的VSM 文本聚類的原因。用基于LDA 主題模型產(chǎn)生的主題文本向量代替之前計算得出的TF-IDF權(quán)重策略加權(quán)的文本向量,將其運(yùn)用到文本聚類中,從而改善文本聚類的質(zhì)量。基于LDA主題模型的主題提取和表示流程如下所示:

    輸入:文本數(shù)據(jù)D;基于LDA 的文本主題數(shù)N;K-means聚類簇的數(shù)量N

    輸出:文本聚類的評價指標(biāo)

    1.對文本數(shù)據(jù)D進(jìn)行分詞與去停用詞等預(yù)處理;

    2.將預(yù)處理后的文本數(shù)據(jù)向量化;

    3.基于LDA算法的得到N類文檔的主題詞;

    4.基于LDA算法獲取文檔-主題的特征向量。

    3.2 基于LDA文本特征的檔案文本聚類

    傳統(tǒng)的文本表示大都采用TF-IDF 空間向量模型,但是這種文本表示方法只是基于統(tǒng)計分析的模型,并不關(guān)注檔案文本所蘊(yùn)含的語義信息,不能真正準(zhǔn)確地對檔案文本進(jìn)行基于內(nèi)容的劃分?;谏鲜鰡栴},提出一種基于LDA 主題特征和K-means 的檔案文本聚類算法,采用文檔-主題分布向量特征作為K-means 算法的輸入,進(jìn)行檔案文本的聚類。

    基于劃分的聚類算法的工作原理可以看作:把眾多數(shù)據(jù)劃分為所需要的類別,類別的標(biāo)準(zhǔn)由數(shù)據(jù)間的距離決定,同類數(shù)據(jù)距離近,不同類別的數(shù)據(jù)距離遠(yuǎn),是一種基于距離的聚類,聚類算法目的是找出數(shù)據(jù)緊湊分類的簇。

    算法大體上可以分為以下幾個步驟:首先需要根據(jù)聚類的目標(biāo)設(shè)定出劃分成N個類別,之后讓隨機(jī)的挑選的點(diǎn)成為聚類的中心來得到最初的聚類結(jié)果。之后以尋找最優(yōu)的聚類中心為目的,在最初的結(jié)果上循環(huán)上述操作,讓聚類中的數(shù)據(jù)重新歸類,算法終止的條件是同一類內(nèi)的數(shù)據(jù)距離最小,類之間距離最大。

    K-means算法是劃分的代表算法,K-means算法依靠計算每個類中的平均值來確定新的聚類中心。換句話說,K-means算法的類中心不一定是類內(nèi)的點(diǎn),以下將詳細(xì)地介紹K-means算法。K-means的目標(biāo)函數(shù)可以轉(zhuǎn)化為下式:

    其中between_ss代表類中每個數(shù)據(jù)的間隔距離,total_ss代表了類間總體的距離,總體的目標(biāo)就是通過迭代盡量增大公式的值,從而取得更好的聚類結(jié)果。

    假設(shè)有n個數(shù)據(jù)點(diǎn)并且準(zhǔn)備分成N類,這里的N是可以改變的,與數(shù)據(jù)無關(guān),可以根據(jù)需求自行確定N的數(shù)值。根據(jù)K-means算法,初始的聚類中心是隨機(jī)選擇的,數(shù)量為N,運(yùn)算出數(shù)據(jù)點(diǎn)到聚類中心的距離,選擇距離最小的聚類中心與之成為一個類別,形成初始的聚類結(jié)果。按照上述的步驟進(jìn)一步的迭代,不斷更新聚類的結(jié)果,直到聚類類別不再發(fā)生變化為止。聚類的終點(diǎn)可以用平均誤差準(zhǔn)則函數(shù)來表示,其定義為:

    在上式中E是整體數(shù)據(jù)點(diǎn)的總誤差,x是數(shù)據(jù)點(diǎn),m是類中平均距離,循環(huán)迭代直到E的值達(dá)到最小便可得到最優(yōu)聚類結(jié)果。

    從K-means算法的流程可以看出,該算法利用最近鄰質(zhì)心決策規(guī)則將數(shù)據(jù)分為若干個簇,并重新計算每個簇的質(zhì)心,如此反復(fù)。K-means聚類在每一輪迭代后不會增加類內(nèi)散度,而算法將收斂于某個駐點(diǎn),達(dá)到該點(diǎn)后便不可能再對其做出改進(jìn)。由于文檔-主題分布向量表示的檔案特征已經(jīng)是降維后的低維數(shù)據(jù),采用基于劃分的K-means算法能夠在實(shí)際的應(yīng)用中更加簡單、高效地完成聚類任務(wù)。

    4 基于FastText的文本分類

    檔案館擁有海量的數(shù)字檔案還未被充分利用,同時每天又會接收許多檔案數(shù)據(jù),每年檔案館都需要投入大量的人力來對檔案進(jìn)行手工分類工作,新進(jìn)檔案的自動化分類是目前檔案館所面臨的棘手問題之一。在文本分析及其相關(guān)領(lǐng)域中,深度學(xué)習(xí)的算法因其良好的分類準(zhǔn)確率近來大受歡迎,但是傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型需要極長時間的訓(xùn)練過程,限制了其在文本大數(shù)據(jù)上的應(yīng)用。

    基于上述問題,本文提出一種采用FastText 深度學(xué)習(xí)模型的檔案快速分類方法。此模型是基于word2vec的CBOW框架提出的生成詞向量與文本分類的深度學(xué)習(xí)模型,不同的是CBOW模型是預(yù)測語境中的詞語,而FastText 模型的目標(biāo)是預(yù)測文本標(biāo)簽。如圖2 所示,F(xiàn)astText模型分為三層的訓(xùn)練圖結(jié)構(gòu):輸入層input layer、隱藏層hidden layer以及輸出層output layer。輸入層為初始化的詞語詞向量,并且在詞向量中加入n-gram 特征,確保了具有矢量特性的詞語語義表示,增強(qiáng)語義表達(dá)的完整性。經(jīng)過隱藏層求得每個詞向量的均值,根據(jù)優(yōu)化器和梯度下降算法更新權(quán)重參數(shù),最后計算得出損失函數(shù)以及對應(yīng)的分類類別。

    圖2 FastText模型構(gòu)架圖

    FastText 模型使用了一個分層分類器(而非扁平式架構(gòu))。不同的類別被整合進(jìn)樹形結(jié)構(gòu)中。在一些有許多類別的文本分類任務(wù)中,線性分級器的計算非常復(fù)雜。為了改善運(yùn)行時間,F(xiàn)astText 模型使用Softmax 分層技術(shù)。該技術(shù)基于霍夫曼編碼,主要用于編碼文本數(shù)據(jù)標(biāo)簽,能有效地縮短訓(xùn)練時間。FastText 的訓(xùn)練過程如下所示。

    輸入:文本數(shù)據(jù)D;選擇損失函數(shù)LOSS;設(shè)置學(xué)習(xí)率lr

    輸出:文本輸出類別概率P

    1.對文本數(shù)據(jù)D進(jìn)行分詞與去停用詞等預(yù)處理,每行結(jié)尾加入標(biāo)簽;對詞語向量進(jìn)初始化;

    2.對算法的損失函數(shù)LOSS以及學(xué)習(xí)率lr進(jìn)行設(shè)置,并選用類別輸出;

    3.根據(jù)梯度下降算法計算,訓(xùn)練過程中對輸入的詞向量數(shù)據(jù)、標(biāo)簽數(shù)據(jù)進(jìn)行權(quán)值更新;

    4.訓(xùn)練結(jié)束,得到分類的模型;

    5.分類測試,輸入測試文本集,得到該數(shù)據(jù)的類別及其概率。

    FastText 模型進(jìn)行文本分類的本質(zhì)是對文本進(jìn)行Softmax 多類別分類。在FastText 模型中,模型從輸入層到隱藏層的主要任務(wù)就是產(chǎn)生文本的特征向量,也就是產(chǎn)生文本的n-gram向量,之后以文本的n-gram向量作為輸入,將Softmax 作為分類器進(jìn)行多分類。對于訓(xùn)練完成的FastText模型可以進(jìn)行文本批量類別預(yù)測,返回精準(zhǔn)率、召回率和F1值。

    5 實(shí)驗(yàn)結(jié)果與分析

    為了測試本章提出的方法的有效性,本章采用基于文本數(shù)據(jù)集的聚類、分類對比實(shí)驗(yàn),來分別驗(yàn)證本文提出的基于LDA 主題特征的檔案聚類的有效性和基于FastText模型的檔案分類的有效性。由于實(shí)際的檔案數(shù)據(jù)沒有可評價內(nèi)容分類的標(biāo)簽,所以本文將采用自然語言處理領(lǐng)域的公共數(shù)據(jù)集進(jìn)行測試。所用到的數(shù)據(jù)集為復(fù)旦大學(xué)計算機(jī)信息與技術(shù)系國際數(shù)據(jù)庫中心中文文本分類語料庫數(shù)據(jù),訓(xùn)練集共9 804篇檔案文檔,測試集共9 833 篇,共有20 個類別的文本數(shù)據(jù),文本數(shù)據(jù)集中類別之間的文本數(shù)目不平衡。

    5.1 檔案文本聚類結(jié)果

    因?yàn)闄n案館的實(shí)際數(shù)據(jù)一部分不對外公布,所以本文為了驗(yàn)證聚類算法對于文本挖掘的準(zhǔn)確性與穩(wěn)定性,選擇了與檔案內(nèi)容更為切合的7個類別進(jìn)行聚類實(shí)驗(yàn),分別為C3-Art、C11-Space、C19-Computer、C32-Agriculture、C34-Economy、C38-Politics、C39-Sports。在以上類別的文本中進(jìn)行傳統(tǒng)TF-IDF 特征與LDA 主題特征的K-means聚類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果,通過統(tǒng)計數(shù)據(jù)總數(shù)量和正確聚類數(shù)、錯誤聚類數(shù),實(shí)現(xiàn)對機(jī)器學(xué)習(xí)評價指標(biāo)精準(zhǔn)率、召回率和F1 值的計算,綜合各項(xiàng)指標(biāo)來證明LDA+K-means算法在文本數(shù)據(jù)聚類上的有效性。

    在本文采用的數(shù)據(jù)集上,通過LDA 主題模型進(jìn)行文本特征提取,得到與數(shù)據(jù)集中文本文件相對應(yīng)的7 637個維度為20 的文檔-主題特征向量。對這些的文檔-主題特征向量進(jìn)行K-means 聚類,K值設(shè)置為7,與真實(shí)類別相對應(yīng)。從表1可以看到,本實(shí)驗(yàn)采用的數(shù)據(jù)集是不平衡標(biāo)簽數(shù)據(jù),不同種類的檔案數(shù)量各異,所以采用加權(quán)平均的精準(zhǔn)率、召回率和F1 值的評價更能客觀地展現(xiàn)聚類算法的結(jié)果。實(shí)驗(yàn)結(jié)果的F1 值對比如表2 所示,從聚類的結(jié)果來看,運(yùn)用LDA主題特征的K-means聚類方法在5 個類別的聚類準(zhǔn)確率上都要遙遙領(lǐng)先于基于TF-IDF 特征的聚類方法,這5 類文本包括C3-Art、C11-Space、C32-Agriculture、C38-Politics、C39-Sports,平均F1 值要高出10%以上。由表3 可知,基于LDA 主題特征的聚類算法在整個數(shù)據(jù)上的Micro avg F1值上高出 0.08,Weighted avg F1 上比傳統(tǒng)基于 VSM 模型的聚類高0.06。本文的方法在Weighted avg Precision 和Weighted avg Recall 這兩項(xiàng)精準(zhǔn)率和召回率的指標(biāo)上也都有不同程度的提升,可以說基于LDA 主題特征的聚類算法的聚類效果在各項(xiàng)指標(biāo)上都有顯著的提升。精準(zhǔn)率、召回率和F1 值指標(biāo)的提升證明本文的方法可以準(zhǔn)確而全面地對檔案數(shù)據(jù)進(jìn)行聚類。

    表1 檔案數(shù)據(jù)量

    表2 聚類算法的F1值對比

    表3 聚類算法加權(quán)F1值對比

    本文提出的基于LDA主題特征與K-means相結(jié)合的聚類方法相較于傳統(tǒng)的基于TF-IDF特征的K-means聚類算法有更好的聚類效果,在實(shí)際的檔案語料聚類時會針對檔案的來源等信息,預(yù)先進(jìn)行基于LDA模型的特征向量提取,確保對原始檔案文本按內(nèi)容劃分的準(zhǔn)確性。

    在完成檔案文件準(zhǔn)確分類的同時,通過對檔案進(jìn)行LDA 主題特征表示,也得到了各個檔案文件之間的內(nèi)容相似性關(guān)聯(lián)關(guān)系。這種關(guān)聯(lián)關(guān)系可以有效服務(wù)于檔案的相關(guān)性管理。

    5.2 檔案文本分類結(jié)果

    為模擬海量數(shù)字檔案數(shù)據(jù)的分類,選用5類數(shù)量較多的文本數(shù)據(jù)進(jìn)行分類實(shí)驗(yàn),類別分別是C19-Computer、C32-Agriculture、C34-Economy、C38-Politics、C39-Sports,總計6 253篇文本數(shù)據(jù)。

    在實(shí)驗(yàn)過程中,首先對檔案數(shù)據(jù)集進(jìn)行分詞、去停用詞的預(yù)處理工作,然后將5類分類類別標(biāo)簽分別加在對應(yīng)的檔案文本結(jié)尾處,作為訓(xùn)練數(shù)據(jù)的標(biāo)簽。將檔案訓(xùn)練放入FastText中,進(jìn)行深度學(xué)習(xí)的訓(xùn)練。

    本文采用的FastText 的具體參數(shù)如下:設(shè)置學(xué)習(xí)率為0.1??紤]到文本分類的效率,將詞向量的維度設(shè)置為50,既保證了文本中語義的準(zhǔn)確表達(dá),又不會過度降低算法的運(yùn)行效率。在數(shù)據(jù)集充足的前提下,F(xiàn)astText算法只需要3次全數(shù)據(jù)集訓(xùn)練便可收斂,具有很高的訓(xùn)練效率。語義級別的特征n-garm=2,分類器采用分層Softmax。FastText 模型的重要參數(shù)就是上下文窗口(ws),這個參數(shù)的選取意味著可以從文本上下文句子中得到信息的量,隨著上下文窗口大小的提升,文本分類的F1值也會隨之上升,但是訓(xùn)練時間將會增加,針對當(dāng)前數(shù)據(jù)集來說,當(dāng)上下文窗口值(ws)為4 之后,文本各類別的F1值就趨于平穩(wěn),到達(dá)0.96左右。

    本實(shí)驗(yàn)選用FastText 模型、Naive_bayes(樸素貝葉斯)模型、SVM 模型分別進(jìn)行分類訓(xùn)練,采用上述的測試集驗(yàn)證分類結(jié)果,三類模型的分類結(jié)果如表4~6 所示。按照機(jī)器學(xué)習(xí)分類的評價標(biāo)準(zhǔn),分別求出5類文本數(shù)據(jù)中每一類的精準(zhǔn)率、召回率和F1值,并計算綜合文本測試集的宏平均、微平均和加權(quán)平均精準(zhǔn)率、召回率和F1值,同時顯示每類的測試檔案數(shù)量。

    表4 FastText模型分類結(jié)果

    FastText 模型在測試集的測試中表現(xiàn)穩(wěn)定,在文件總數(shù)達(dá)到6 253 個的多分類實(shí)驗(yàn)中,每個類別的分類精準(zhǔn)率、召回率和F1 值都維持在0.94 以上,如表4 所示。Naive_bayes(樸素貝葉斯)模型在測試集的測試中表現(xiàn)略有浮動,在文件總數(shù)達(dá)到6 253個的多分類中,各個分類的精準(zhǔn)率、召回率和F1 值都維持在0.92 以上,如表5所示。SVM 模型在測試集的測試中表現(xiàn)較差,在文件總數(shù)達(dá)到6 253個的多分類中,各個分類的精準(zhǔn)率、召回率和F1值差別較大,最低只能達(dá)到0.52,如表6所示。

    表5 Naive_bayes模型分類結(jié)果

    表6 SVM模型分類結(jié)果

    由于檔案文本數(shù)據(jù)絕大部分內(nèi)容明確,同時有分類歸檔的需求,適合采用深度學(xué)習(xí)的方式進(jìn)行全自動分類。在本實(shí)驗(yàn)中,基于FastText的文本分類模型在C19-Computer、C32-Agriculture、C34-Economy三個類別上的分類準(zhǔn)確度高于Naive_bayes模型,在C38-Politics、C39-Sports 這兩個類別的分類精準(zhǔn)度與Naive_bayes 模型持平。出現(xiàn)這種情況的原因是因?yàn)閷?shí)驗(yàn)所用到的數(shù)據(jù)集內(nèi)容明確,原有的文本特征已經(jīng)足以使得Naive_bayes模型做出準(zhǔn)確的分類判斷。即使如此,本文的基于FastText 的分類模型也能在有些數(shù)據(jù)類別上勝出,證明了基于FastText的分類模型在文本分類上的有效性,這種分類準(zhǔn)確率的優(yōu)勢會隨著檔案數(shù)據(jù)集的復(fù)雜而越發(fā)凸顯。

    同時基于FastText 的文本分類模型在所有類別上的精準(zhǔn)度都遠(yuǎn)遠(yuǎn)高于基于SVM 的文本分類模型,從數(shù)學(xué)模型的角度分析,SVM 構(gòu)成的超平面不適用于檔案主題的文本特征,樸素貝葉斯模型雖然模型簡單,但效率尚可,但是準(zhǔn)確率方面與基于FastText的模型相比較還存在差距。

    由表7 可知,在5 個類別的分類驗(yàn)證實(shí)驗(yàn)中,基于FastText 的文本分類模型分別在C19-Computer、C32-Agriculture、C34-Economy、C38-Politics、C39-Sports上的分類F1值分別達(dá)到了1.00、0.95、0.94、0.95、0.97。從表8可以看出,樸素貝葉斯分類器的加權(quán)F1值是0.95,SVM分類器的F1值是0.73,基于FastText的文本分類模型在加權(quán)F1值、加權(quán)平均精準(zhǔn)率、加權(quán)平均召回率這三項(xiàng)總體類別評價指標(biāo)中遠(yuǎn)遠(yuǎn)優(yōu)于基于SVM模型的文本分類器,比基于樸素貝葉斯的文本分類模型有1%左右的提高,而且總體評價F1值已經(jīng)達(dá)到了0.96,基本達(dá)到了代替手工分類的級別。

    表7 三種模型的各類別F1值對比

    表8 三種模型的總體分類加權(quán)F1值對比

    6 結(jié)束語

    針對當(dāng)今檔案資源分類大多數(shù)是以來源和時間分類,不利于挖掘分析檔案隱含價值的問題,同時考慮到檔案文本的內(nèi)容較為明確,本文提出了以LDA 主題為特征的文本聚類算法,實(shí)現(xiàn)了檔案文本根據(jù)內(nèi)容的劃分,為檔案的智能挖掘利用提供了基礎(chǔ)。另一方面,針對傳統(tǒng)檔案手工分類耗時費(fèi)力的問題,提出了一種基于FastText 深度學(xué)習(xí)模型的檔案文本自動分類方法,實(shí)現(xiàn)快速準(zhǔn)確的檔案文本自動分類。實(shí)驗(yàn)結(jié)果表明,以LDA模型提取的主題特征作為輸入的文本聚類方法能有效的對內(nèi)容明確的檔案進(jìn)行聚類,在測試數(shù)據(jù)集上,準(zhǔn)確率與傳統(tǒng)的TF-IDF非語義特征聚類方法相比提升6%?;贔astText 深度學(xué)習(xí)模型的檔案文本自動分類相較于傳統(tǒng)的分類方法有更好的準(zhǔn)確率,分類評價指標(biāo)F1值達(dá)到了0.96,符合檔案自動分類的要求。

    采用文本的LDA 主題特征進(jìn)行聚類,此種方式雖然能得提升聚類的準(zhǔn)確度,但是需要檔案有明確的中心內(nèi)容。在接下來的工作中,將會嘗試通過對LDA 算法提取的主題特征與傳統(tǒng)的詞頻特征相結(jié)合,結(jié)合兩者的優(yōu)點(diǎn),在大量實(shí)驗(yàn)的基礎(chǔ)上爭取實(shí)現(xiàn)更加精確的檔案類別劃分。

    猜你喜歡
    類別聚類分類
    分類算一算
    分類討論求坐標(biāo)
    數(shù)據(jù)分析中的分類討論
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    教你一招:數(shù)的分類
    服務(wù)類別
    新校長(2016年8期)2016-01-10 06:43:59
    基于改進(jìn)的遺傳算法的模糊聚類算法
    一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
    論類別股東會
    商事法論集(2014年1期)2014-06-27 01:20:42
    中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
    日韩精品有码人妻一区| 欧美变态另类bdsm刘玥| 少妇的逼好多水| 欧美极品一区二区三区四区| 在线观看国产h片| 一级片'在线观看视频| 国产一区二区亚洲精品在线观看| 亚洲最大成人av| 日韩不卡一区二区三区视频在线| 国产女主播在线喷水免费视频网站| 在线观看人妻少妇| 久久久久精品久久久久真实原创| 亚洲av日韩在线播放| 99精国产麻豆久久婷婷| 国产老妇女一区| 内射极品少妇av片p| 久久久久久久亚洲中文字幕| 免费看日本二区| 99久久精品国产国产毛片| 一区二区三区四区激情视频| 在线观看国产h片| 国产高清国产精品国产三级 | 久久久亚洲精品成人影院| 99久久精品一区二区三区| 亚洲怡红院男人天堂| 亚洲精品,欧美精品| 国产 一区精品| 一级片'在线观看视频| 国产精品女同一区二区软件| 国产一区二区亚洲精品在线观看| 欧美另类一区| 深爱激情五月婷婷| 欧美一区二区亚洲| 91久久精品国产一区二区三区| 大码成人一级视频| 美女主播在线视频| 精品熟女少妇av免费看| 日本黄大片高清| 国产精品一区二区性色av| 在线a可以看的网站| 免费观看在线日韩| 亚洲第一区二区三区不卡| 纵有疾风起免费观看全集完整版| 亚洲精品自拍成人| 欧美区成人在线视频| 亚洲精品自拍成人| 久久国产乱子免费精品| eeuss影院久久| 欧美精品国产亚洲| 久久久精品94久久精品| 亚洲国产最新在线播放| 免费少妇av软件| 三级男女做爰猛烈吃奶摸视频| 日韩精品有码人妻一区| videossex国产| 新久久久久国产一级毛片| 免费av不卡在线播放| 少妇人妻 视频| 丝袜美腿在线中文| 国产亚洲av片在线观看秒播厂| 国产老妇女一区| 久久久久久伊人网av| 91精品伊人久久大香线蕉| 99热这里只有精品一区| 亚洲电影在线观看av| 99久久中文字幕三级久久日本| videossex国产| 97在线人人人人妻| 亚洲成色77777| 精品国产三级普通话版| 男插女下体视频免费在线播放| 极品少妇高潮喷水抽搐| 亚洲色图av天堂| 亚洲欧洲国产日韩| av国产久精品久网站免费入址| 99久久人妻综合| 久久女婷五月综合色啪小说 | 天天躁日日操中文字幕| 欧美一级a爱片免费观看看| 三级国产精品欧美在线观看| 一级a做视频免费观看| 久久久久网色| 另类亚洲欧美激情| 午夜福利在线在线| 国产精品女同一区二区软件| 国产精品一二三区在线看| av在线亚洲专区| 中文欧美无线码| 在线观看美女被高潮喷水网站| 国产亚洲一区二区精品| 免费看光身美女| 久久国产乱子免费精品| 亚洲高清免费不卡视频| 国产大屁股一区二区在线视频| 人体艺术视频欧美日本| 97超视频在线观看视频| 99久久精品国产国产毛片| 久久精品国产a三级三级三级| av在线亚洲专区| 精品少妇黑人巨大在线播放| 欧美日韩综合久久久久久| 国产爱豆传媒在线观看| 欧美日韩精品成人综合77777| 丰满人妻一区二区三区视频av| 大片电影免费在线观看免费| 美女xxoo啪啪120秒动态图| 国产精品国产三级国产专区5o| 观看美女的网站| 插阴视频在线观看视频| 免费黄色在线免费观看| 久久久久久久国产电影| 国产大屁股一区二区在线视频| 亚洲性久久影院| 你懂的网址亚洲精品在线观看| 国产精品国产三级专区第一集| 亚洲av成人精品一二三区| 激情 狠狠 欧美| 禁无遮挡网站| 91精品国产九色| 可以在线观看毛片的网站| 99视频精品全部免费 在线| 国产精品成人在线| 国产一区亚洲一区在线观看| 久久ye,这里只有精品| 热99国产精品久久久久久7| 干丝袜人妻中文字幕| 在线观看一区二区三区激情| 欧美激情久久久久久爽电影| 纵有疾风起免费观看全集完整版| 日日撸夜夜添| 91精品伊人久久大香线蕉| 麻豆精品久久久久久蜜桃| 最近最新中文字幕大全电影3| 久久这里有精品视频免费| 欧美少妇被猛烈插入视频| 国产精品成人在线| 国产精品成人在线| 亚洲精品日韩av片在线观看| 久久人人爽人人爽人人片va| 六月丁香七月| 最近2019中文字幕mv第一页| 尤物成人国产欧美一区二区三区| 另类亚洲欧美激情| 91久久精品电影网| 国产精品久久久久久精品电影| 亚洲最大成人av| 日韩免费高清中文字幕av| 日韩一区二区三区影片| 日本三级黄在线观看| 深爱激情五月婷婷| 欧美日韩国产mv在线观看视频 | 久久综合国产亚洲精品| 最近手机中文字幕大全| 麻豆精品久久久久久蜜桃| 久久久久久久亚洲中文字幕| 精品少妇黑人巨大在线播放| 国产高清不卡午夜福利| 少妇人妻一区二区三区视频| 啦啦啦在线观看免费高清www| 久久人人爽av亚洲精品天堂 | 建设人人有责人人尽责人人享有的 | 国产精品久久久久久精品电影| 中文乱码字字幕精品一区二区三区| 中文资源天堂在线| 日韩av不卡免费在线播放| 久久久久久九九精品二区国产| 狠狠精品人妻久久久久久综合| 中文字幕制服av| 天堂网av新在线| 波多野结衣巨乳人妻| 日本免费在线观看一区| 亚洲精品成人久久久久久| 国产精品一及| 性插视频无遮挡在线免费观看| 免费黄色在线免费观看| 日韩视频在线欧美| 国产伦理片在线播放av一区| 亚洲第一区二区三区不卡| 亚洲欧洲国产日韩| 少妇裸体淫交视频免费看高清| 精品人妻熟女av久视频| 内地一区二区视频在线| 成年版毛片免费区| 欧美日韩在线观看h| 国产精品女同一区二区软件| 成年免费大片在线观看| 亚洲人成网站高清观看| 久久久久久久久大av| 午夜福利视频1000在线观看| 免费少妇av软件| 国产午夜福利久久久久久| 爱豆传媒免费全集在线观看| 少妇猛男粗大的猛烈进出视频 | 三级经典国产精品| 日本色播在线视频| 97超视频在线观看视频| 一级毛片我不卡| 久久精品夜色国产| 久久精品国产鲁丝片午夜精品| 亚洲人成网站在线观看播放| 永久免费av网站大全| 久久久久久伊人网av| 亚洲高清免费不卡视频| 国产69精品久久久久777片| 国产 一区 欧美 日韩| 色综合色国产| 日韩一本色道免费dvd| 欧美精品国产亚洲| 18禁裸乳无遮挡免费网站照片| 亚洲精品国产av蜜桃| 国产探花极品一区二区| 男的添女的下面高潮视频| 国产一区二区在线观看日韩| 深爱激情五月婷婷| 国产精品久久久久久精品古装| 欧美老熟妇乱子伦牲交| 永久免费av网站大全| 日韩不卡一区二区三区视频在线| 日本av手机在线免费观看| 黄色视频在线播放观看不卡| 人人妻人人看人人澡| 亚洲国产精品专区欧美| a级毛色黄片| 美女脱内裤让男人舔精品视频| 舔av片在线| 免费黄频网站在线观看国产| 日韩中字成人| 麻豆精品久久久久久蜜桃| 高清午夜精品一区二区三区| 超碰av人人做人人爽久久| 男女那种视频在线观看| 97人妻精品一区二区三区麻豆| 国产精品嫩草影院av在线观看| 日本熟妇午夜| 97在线视频观看| 欧美高清性xxxxhd video| 天天躁夜夜躁狠狠久久av| 好男人视频免费观看在线| 日韩一区二区视频免费看| 亚洲国产av新网站| 国产精品久久久久久久久免| 亚洲精品日韩在线中文字幕| 在现免费观看毛片| 欧美日韩综合久久久久久| 久久人人爽av亚洲精品天堂 | 午夜福利在线观看免费完整高清在| 免费大片18禁| 97超碰精品成人国产| 亚洲国产精品专区欧美| 精品99又大又爽又粗少妇毛片| 亚洲一区二区三区欧美精品 | 亚洲真实伦在线观看| 一区二区三区乱码不卡18| 色5月婷婷丁香| 一级片'在线观看视频| 欧美成人午夜免费资源| 国产 一区精品| 丝袜脚勾引网站| 亚洲色图av天堂| 青春草亚洲视频在线观看| 国产日韩欧美在线精品| 少妇人妻久久综合中文| 亚洲av不卡在线观看| 91午夜精品亚洲一区二区三区| 欧美日韩国产mv在线观看视频 | 国产一区二区在线观看日韩| 又爽又黄无遮挡网站| 亚洲av日韩在线播放| 午夜福利视频精品| 久久鲁丝午夜福利片| 国产亚洲最大av| 观看免费一级毛片| 少妇人妻久久综合中文| 亚洲精品456在线播放app| 全区人妻精品视频| 九色成人免费人妻av| 永久网站在线| freevideosex欧美| 一边亲一边摸免费视频| 午夜爱爱视频在线播放| 免费看不卡的av| 国产精品偷伦视频观看了| 久久ye,这里只有精品| 国产69精品久久久久777片| 国产精品不卡视频一区二区| 在线观看av片永久免费下载| 久久久国产一区二区| 国产成人aa在线观看| 中文字幕久久专区| av网站免费在线观看视频| 精品一区在线观看国产| 麻豆成人午夜福利视频| 可以在线观看毛片的网站| 亚洲精品久久久久久婷婷小说| 久久人人爽av亚洲精品天堂 | 真实男女啪啪啪动态图| 国产精品一及| 国产一级毛片在线| 九九在线视频观看精品| 黄片wwwwww| 国产成人精品久久久久久| 亚洲精品,欧美精品| 91久久精品国产一区二区三区| 晚上一个人看的免费电影| av网站免费在线观看视频| 禁无遮挡网站| av天堂中文字幕网| 亚洲国产精品成人综合色| 亚洲性久久影院| av一本久久久久| 欧美97在线视频| 成人国产av品久久久| 欧美最新免费一区二区三区| 在线观看免费高清a一片| 色5月婷婷丁香| 久久久精品94久久精品| 欧美变态另类bdsm刘玥| 亚洲精品国产成人久久av| 国产成人a区在线观看| 久久99热这里只有精品18| 久久久久久久大尺度免费视频| av在线观看视频网站免费| av女优亚洲男人天堂| 熟女电影av网| 国产亚洲av嫩草精品影院| 亚洲成人av在线免费| 一个人观看的视频www高清免费观看| 伊人久久精品亚洲午夜| 午夜免费鲁丝| 日本欧美国产在线视频| 秋霞在线观看毛片| 高清视频免费观看一区二区| 国产一区二区三区av在线| 18禁在线无遮挡免费观看视频| 如何舔出高潮| 欧美xxⅹ黑人| 久久人人爽av亚洲精品天堂 | 久热这里只有精品99| 精品久久久久久电影网| 日本黄色片子视频| 黄色配什么色好看| 久久影院123| 国产探花在线观看一区二区| 搡女人真爽免费视频火全软件| 久久久久国产精品人妻一区二区| 夫妻性生交免费视频一级片| 美女xxoo啪啪120秒动态图| 国产欧美日韩精品一区二区| 亚洲欧美成人综合另类久久久| 亚洲精品成人av观看孕妇| 国产成人精品久久久久久| 69人妻影院| 免费av观看视频| 日日撸夜夜添| 啦啦啦啦在线视频资源| 菩萨蛮人人尽说江南好唐韦庄| 中文乱码字字幕精品一区二区三区| 久久女婷五月综合色啪小说 | 一本一本综合久久| 成人午夜精彩视频在线观看| 少妇人妻一区二区三区视频| 久久久精品欧美日韩精品| 晚上一个人看的免费电影| 国产熟女欧美一区二区| 日本猛色少妇xxxxx猛交久久| 99热6这里只有精品| 人妻制服诱惑在线中文字幕| 日本色播在线视频| 亚洲av免费高清在线观看| 亚洲av中文字字幕乱码综合| 国产一区二区三区av在线| 好男人视频免费观看在线| 一级毛片aaaaaa免费看小| 欧美bdsm另类| 亚洲最大成人手机在线| 91精品一卡2卡3卡4卡| 一级片'在线观看视频| 精品一区二区三卡| 久久久久久久午夜电影| 91狼人影院| 久久综合国产亚洲精品| 岛国毛片在线播放| av国产久精品久网站免费入址| 色网站视频免费| 亚洲综合精品二区| 亚洲欧美一区二区三区黑人 | 亚洲婷婷狠狠爱综合网| 国产熟女欧美一区二区| 男人爽女人下面视频在线观看| 亚洲av日韩在线播放| 国产片特级美女逼逼视频| 国产免费福利视频在线观看| 狂野欧美白嫩少妇大欣赏| 久久久午夜欧美精品| 亚洲精品成人av观看孕妇| 亚洲真实伦在线观看| 干丝袜人妻中文字幕| 免费观看a级毛片全部| 欧美极品一区二区三区四区| 亚洲av男天堂| 男人添女人高潮全过程视频| 欧美少妇被猛烈插入视频| 亚洲精华国产精华液的使用体验| 亚洲av一区综合| 人妻制服诱惑在线中文字幕| 能在线免费看毛片的网站| 免费观看在线日韩| 日韩 亚洲 欧美在线| 国产亚洲5aaaaa淫片| 亚洲精品中文字幕在线视频 | 成年版毛片免费区| 插阴视频在线观看视频| 交换朋友夫妻互换小说| 天堂俺去俺来也www色官网| 亚洲自拍偷在线| 在线亚洲精品国产二区图片欧美 | 久久久精品免费免费高清| 嫩草影院精品99| 国产成人一区二区在线| 免费观看无遮挡的男女| 全区人妻精品视频| 午夜爱爱视频在线播放| 边亲边吃奶的免费视频| 成人无遮挡网站| 国产一区二区三区综合在线观看 | 亚洲精品乱久久久久久| 国产免费一区二区三区四区乱码| 人人妻人人看人人澡| 亚洲av成人精品一二三区| 久久精品夜色国产| 亚洲成色77777| 成人特级av手机在线观看| 国产精品蜜桃在线观看| 国产免费福利视频在线观看| 91久久精品国产一区二区成人| 黄色欧美视频在线观看| 亚洲国产av新网站| 成年免费大片在线观看| 最近中文字幕2019免费版| 青青草视频在线视频观看| 国产免费又黄又爽又色| eeuss影院久久| 国产中年淑女户外野战色| 欧美区成人在线视频| 亚洲,一卡二卡三卡| 国产精品99久久久久久久久| 国产中年淑女户外野战色| 亚洲婷婷狠狠爱综合网| 国产精品久久久久久久电影| 水蜜桃什么品种好| 深夜a级毛片| 日本三级黄在线观看| 97超视频在线观看视频| 国产成人午夜福利电影在线观看| 69av精品久久久久久| 插逼视频在线观看| 久久久久国产精品人妻一区二区| 婷婷色综合大香蕉| 国产精品麻豆人妻色哟哟久久| 精品久久国产蜜桃| 日本熟妇午夜| 春色校园在线视频观看| 久久久午夜欧美精品| 成人亚洲精品av一区二区| 成人国产av品久久久| 日韩人妻高清精品专区| 干丝袜人妻中文字幕| 一区二区av电影网| 精品视频人人做人人爽| 国产精品女同一区二区软件| 在线a可以看的网站| 亚洲国产色片| 国产 一区精品| av在线app专区| 久久久国产一区二区| 国产伦理片在线播放av一区| 美女内射精品一级片tv| 久久热精品热| 在线亚洲精品国产二区图片欧美 | 国产精品不卡视频一区二区| 六月丁香七月| 精品人妻偷拍中文字幕| 欧美 日韩 精品 国产| 国产成人91sexporn| 成人欧美大片| 日本爱情动作片www.在线观看| 熟女电影av网| 三级国产精品片| 亚洲欧美成人综合另类久久久| 欧美97在线视频| 免费大片18禁| 肉色欧美久久久久久久蜜桃 | 又大又黄又爽视频免费| 国产探花在线观看一区二区| 久久99热这里只频精品6学生| 久久久久久久久久人人人人人人| 狂野欧美白嫩少妇大欣赏| 欧美bdsm另类| 成年女人在线观看亚洲视频 | 亚洲欧美精品自产自拍| 成人鲁丝片一二三区免费| 久久久久久伊人网av| 赤兔流量卡办理| 色播亚洲综合网| 91久久精品电影网| 日韩 亚洲 欧美在线| 看非洲黑人一级黄片| 国产高清三级在线| 一级毛片久久久久久久久女| 欧美日韩一区二区视频在线观看视频在线 | 免费少妇av软件| 久久人人爽av亚洲精品天堂 | 97超视频在线观看视频| av在线亚洲专区| 一级毛片我不卡| 2022亚洲国产成人精品| 别揉我奶头 嗯啊视频| 国产一区二区亚洲精品在线观看| 成年版毛片免费区| 国产成人aa在线观看| 精品国产三级普通话版| 亚洲av中文字字幕乱码综合| 毛片一级片免费看久久久久| 国内少妇人妻偷人精品xxx网站| 成人亚洲精品av一区二区| 国产亚洲91精品色在线| 免费看光身美女| 99久国产av精品国产电影| 欧美日韩在线观看h| 国产精品麻豆人妻色哟哟久久| 久久综合国产亚洲精品| 日本-黄色视频高清免费观看| 欧美丝袜亚洲另类| 免费电影在线观看免费观看| 人妻一区二区av| 丰满少妇做爰视频| 婷婷色麻豆天堂久久| 久久精品国产鲁丝片午夜精品| 国产视频首页在线观看| .国产精品久久| 最近2019中文字幕mv第一页| 99久久精品热视频| 国产精品不卡视频一区二区| 日本一二三区视频观看| 欧美日韩视频精品一区| 夜夜爽夜夜爽视频| 嫩草影院新地址| 1000部很黄的大片| 国产精品蜜桃在线观看| 男女边吃奶边做爰视频| 看十八女毛片水多多多| 国产黄色视频一区二区在线观看| 99久久精品热视频| 欧美老熟妇乱子伦牲交| 国产亚洲精品久久久com| 精品人妻视频免费看| 亚洲三级黄色毛片| 久久韩国三级中文字幕| 亚洲精品亚洲一区二区| 中文在线观看免费www的网站| 国产精品女同一区二区软件| 国内精品美女久久久久久| 成人亚洲精品av一区二区| 欧美少妇被猛烈插入视频| av天堂中文字幕网| 韩国高清视频一区二区三区| 亚洲国产欧美在线一区| 精品酒店卫生间| 免费黄色在线免费观看| 日韩大片免费观看网站| 亚洲欧美日韩东京热| 水蜜桃什么品种好| 久久久久久久久大av| 国产精品99久久久久久久久| 在线免费十八禁| 久久精品久久久久久噜噜老黄| 国产伦精品一区二区三区四那| 国产免费一区二区三区四区乱码| 2021天堂中文幕一二区在线观| 丝袜喷水一区| 亚洲,一卡二卡三卡| 亚洲精品乱码久久久久久按摩| 亚洲图色成人| 久久综合国产亚洲精品| 纵有疾风起免费观看全集完整版| 丝瓜视频免费看黄片| 噜噜噜噜噜久久久久久91| 熟女电影av网| 久久久久久久大尺度免费视频| 成人特级av手机在线观看| 全区人妻精品视频| 特大巨黑吊av在线直播| 综合色av麻豆| 制服丝袜香蕉在线| 免费看av在线观看网站| 国产精品三级大全| 国产男女超爽视频在线观看| 婷婷色av中文字幕| 男女边吃奶边做爰视频| 国产av码专区亚洲av| 如何舔出高潮| 亚洲精品国产色婷婷电影| 成年女人看的毛片在线观看| 欧美 日韩 精品 国产| 精品一区在线观看国产| 欧美xxⅹ黑人| 亚洲精品乱码久久久v下载方式| 亚洲最大成人av| 人妻夜夜爽99麻豆av| 九九爱精品视频在线观看| 久久久精品欧美日韩精品| 国产精品一区二区性色av| 精品亚洲乱码少妇综合久久| 偷拍熟女少妇极品色| 永久网站在线|