• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    文本分類中基于熵的詞權(quán)重計(jì)算方法研究*

    2016-09-20 09:00:46陳科文張祖平
    計(jì)算機(jī)與生活 2016年9期
    關(guān)鍵詞:特征詞計(jì)算方法類別

    陳科文,張祖平,龍 軍

    中南大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410083

    文本分類中基于熵的詞權(quán)重計(jì)算方法研究*

    陳科文+,張祖平,龍軍

    中南大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410083

    隨著文本數(shù)據(jù)量變得很大且仍在迅猛增加,自動文本分類變得越來越重要。為了提高分類準(zhǔn)確率,作為文本特征的詞的權(quán)重計(jì)算方法是文本分類領(lǐng)域的研究熱點(diǎn)之一。研究發(fā)現(xiàn),基于信息熵的權(quán)重計(jì)算方法(熵加權(quán))相對于其他方法更有效,但現(xiàn)有方法仍然存在問題,比如在某些語料庫上相比TF-IDF(term frequency &inverse document frequency),它們可能表現(xiàn)較差。于是將對數(shù)詞頻與一個新的基于熵的類別區(qū)分力度量因子相結(jié)合,提出了LTF-ECDP(logarithmic term frequency&entropy-based class distinguishing power)方法。通過在TanCorp、WebKB和20 Newsgroups語料庫上使用支持向量機(jī)(support vector machine,SVM)進(jìn)行一系列文本分類實(shí)驗(yàn),驗(yàn)證和比較了8種詞權(quán)重計(jì)算方法的性能。實(shí)驗(yàn)結(jié)果表明,LTF-ECDP方法比其他熵加權(quán)方法和TF-IDF、TF-RF(term frequency&relevance frequency)等著名方法更優(yōu)越,不僅提高了文本分類準(zhǔn)確率,而且在不同數(shù)據(jù)集上的性能更加穩(wěn)定。

    特征詞權(quán)重;熵加權(quán);文本分類;類別區(qū)分力

    1 引言

    隨著計(jì)算機(jī)應(yīng)用的普及和互聯(lián)網(wǎng)規(guī)模的不斷發(fā)展,文本數(shù)據(jù)量變得非常龐大且仍在迅猛增加,比如每天都有大量的以文本內(nèi)容為主的電子文獻(xiàn)、網(wǎng)頁、消息和郵件在不斷地產(chǎn)生。因此,作為文本組織與挖掘的基本技術(shù)手段之一,自動文本分類(text categorization,TC)變得越來越重要。為了進(jìn)一步提高文本分類的性能,研究人員主要從兩個方面開展研究:一是改善分類算法(或?qū)W習(xí)模型);二是改善文本數(shù)據(jù)表示模型。眾所周知,在文本分類領(lǐng)域,通常采用向量空間模型(vector space model,VSM)來表示文本,就是在分類之前把每個文本文檔都表示成由一定數(shù)量的特征詞的權(quán)重值所組成的向量。這種表示法涉及到特征詞的選擇和權(quán)重計(jì)算兩方面。其中特征選擇的主要目的是降低文本特征維度,以提高分類速度,同時又保持較高準(zhǔn)確率。特征選擇必須考慮文本中不同詞條的重要性,往往又依賴于權(quán)重計(jì)算。而特征詞的權(quán)重計(jì)算是否合理則直接影響到文本分類的準(zhǔn)確率。因此,特征詞權(quán)重計(jì)算方法成為文本分類領(lǐng)域的研究熱點(diǎn)之一。

    特征詞權(quán)重計(jì)算(或權(quán)重分配)可簡稱為詞加權(quán)(term weighting),在后面的敘述中,這幾個術(shù)語可以互換。眾所周知,最常用的文本特征詞權(quán)重計(jì)算方法是TF-IDF方法[1],即根據(jù)詞頻與反文檔頻率(term frequency&inverse document frequency)來計(jì)算特征詞的權(quán)重。這種方法起源于信息檢索領(lǐng)域,并在文本分類和聚類領(lǐng)域也得到了廣泛應(yīng)用。實(shí)際上,TFIDF方法在文本分類領(lǐng)域并不是最有效的,因?yàn)樗谟?jì)算特征詞的權(quán)重時沒有考慮文本的類別。于是,研究人員一直在努力改進(jìn)TF-IDF,并提出了一些新的權(quán)重計(jì)算方法。其中很多方法都有一個共同特點(diǎn),就是利用已知的文本類別信息,因此這些方法統(tǒng)稱為有監(jiān)督詞加權(quán)(supervised term weighting,STW)[2]。很多STW方法只利用了特征詞在正反兩類文本上的分布[2-3],也有一些方法考慮了特征詞在多個類別上的分布,比如基于信息熵的權(quán)重計(jì)算方法(簡稱為熵加權(quán))[4-8]。盡管某些方法已在特定數(shù)據(jù)集上的文本分類實(shí)驗(yàn)中被證明是有效的,但是至今沒有人對它們在不同數(shù)據(jù)集上的性能作進(jìn)一步的驗(yàn)證并與更多的方法比較。本文對各種特征詞權(quán)重計(jì)算方法進(jìn)行了系統(tǒng)的研究,發(fā)現(xiàn)基于熵的權(quán)重計(jì)算方法相對而言一般更加有效,但是現(xiàn)有研究工作仍然存在一些問題或不足,于是提出了一種新的熵加權(quán)方法,并通過在不同數(shù)據(jù)集上的大量實(shí)驗(yàn)來比較它與其他多種典型的權(quán)重計(jì)算方法的性能,實(shí)驗(yàn)結(jié)果充分證明了它的優(yōu)越性。

    本文組織結(jié)構(gòu)如下:第2章分析幾種典型的特征詞權(quán)重計(jì)算方法及其局限性;第3章介紹新的熵加權(quán)方法;第4章詳細(xì)介紹一系列文本分類實(shí)驗(yàn),包括實(shí)驗(yàn)數(shù)據(jù)集的選擇及其預(yù)處理、實(shí)驗(yàn)步驟和具體方法,以及最終的實(shí)驗(yàn)結(jié)果,并對結(jié)果進(jìn)行了分析和討論;第5章總結(jié)全文。

    2 相關(guān)研究工作的分析

    下面將介紹幾種典型的特征詞權(quán)重計(jì)算方法,以便于比較。

    2.1傳統(tǒng)的TF-IDF方法

    最流行的特征詞權(quán)重計(jì)算方法就是傳統(tǒng)的TFIDF。根據(jù)TF-IDF方法,一個特征詞tk在某個文檔中的權(quán)重w(tk)不僅取決于它在該文檔中出現(xiàn)的次數(shù),即詞頻(term frequency,TF),表示為tfk,而且還取決于整個語料庫中包含它的文檔數(shù)目,即文檔頻率(document frequency,DF),表示為dfk。盡管研究人員提出了TF-IDF的多個變種,但通常使用式(1)表示的標(biāo)準(zhǔn)形式[1,9]。

    其中,N表示語料庫中的總文檔數(shù)。因?yàn)榫植恳蜃觮fk受文檔長度的影響,所以通常還要采用所謂的“余弦歸一化(cosine normalization)”方法[9]對同一文檔中所有特征詞ti(i=1,2,…,n)的權(quán)重作歸一化處理:

    其中,n表示不同特征詞的數(shù)目;wˉ(tk)就是歸一化后的最終權(quán)重。

    眾所周知,自動文本分類是利用已經(jīng)分好類的訓(xùn)練文本集來對待分類的新文本的類別進(jìn)行預(yù)測,但是TF-IDF方法并沒有利用已知的文本類別信息。例如,假設(shè)有兩個特征詞t1和t2,其文檔頻率相同df1=df2,所不同的是,t1在多個類別的文本中出現(xiàn),而t2只在單個類別的文本中出現(xiàn)。顯然t2的類別區(qū)分力比t1大,但是它們用反文檔頻率(inverse document frequency,IDF)表示的全局權(quán)重因子是相同的。因此,TF-IDF權(quán)重不能充分反映特征詞在文本分類中的重要性。

    2.2有監(jiān)督的TF-RF方法

    為了克服TF-IDF方法在文本分類中的不足,研究人員提出了有監(jiān)督詞加權(quán)的概念[2],即利用已知的文本類別信息來計(jì)算特征詞的權(quán)重。很多STW方法都采用文本分類中的特征選擇指標(biāo),比如卡方統(tǒng)計(jì)量(Chi-square)、信息增益、互信息量等,以取代傳統(tǒng)的IDF因子或者作為附加的全局權(quán)重因子[2-3]。也有一些研究人員提出了新的STW方法[3,10-12],其中典型代表就是TF-RF(term frequency&relevance frequency),它在多個場合比TF-IDF等其他方法更加優(yōu)越[3,11]。根據(jù)TF-RF方法,特征詞tk在屬于類別cj的某個文檔中的權(quán)重w(tk,cj)計(jì)算方法如下:

    然而,上面有關(guān)STW方法的研究工作大多數(shù)都只考慮特征詞在正反兩類文本上的粗粒度分布,并且實(shí)驗(yàn)結(jié)果都是從兩類分類實(shí)驗(yàn)中得到的,即使使用了多類別數(shù)據(jù)集,也是以一對余(one-against-rest)的方式進(jìn)行多次正反兩類分類實(shí)驗(yàn)。因此,這些權(quán)重計(jì)算方法對于兩類以上的多類別文本分類不一定是最優(yōu)的。

    2.3基于熵的權(quán)重計(jì)算方法

    為了進(jìn)一步提高文本分類的性能,在為特征詞分配權(quán)重時,就有必要考慮它在多個文本類別上的細(xì)粒度分布。根據(jù)其分布特性來判斷特征詞的類別相關(guān)性,從而為它分配合適的權(quán)重。特征詞在文本集中的分布特性可以用香農(nóng)(Shannon)的信息熵理論來分析。在文本分類領(lǐng)域,文獻(xiàn)[4]較早將信息熵理論用于特征詞權(quán)重計(jì)算,并通過理論推導(dǎo)提出了一種新的權(quán)重計(jì)算方法:

    其中,w(tk,cj)表示特征詞tk與類別cj相關(guān)的權(quán)重;Nj表示類別cj中的文檔數(shù);N表示訓(xùn)練集中的總文檔數(shù);dfkj和dfk的含義與式(3)相同,分別表示特征詞的類別文檔頻率和總文檔頻率。

    然而,這種方法存在嚴(yán)重的問題。首先,論文中理論分析有錯,比如作者在用Bayes定理進(jìn)行推導(dǎo)時錯誤地將以 cj為條件的tk的概率 P(tk|cj)表示為dfkj/dfk,實(shí)際上這個比值應(yīng)該是條件概率P(cj|tk)。概念錯誤最終導(dǎo)致結(jié)論錯誤。其次,由于原文沒有給出實(shí)驗(yàn)結(jié)果,用這種方法在TanCorp語料庫上做了文本分類實(shí)驗(yàn)(具體實(shí)驗(yàn)方案見第4章),得到的實(shí)驗(yàn)結(jié)果如表1所示,其中EWdiao就是文獻(xiàn)[4]提出的權(quán)重計(jì)算方法。表1給出了當(dāng)選擇不同特征數(shù)時兩種方法所對應(yīng)的用微平均F1值(micro-F1)表示的文本分類準(zhǔn)確率。很明顯,用式(4)表示的EWdiao方法的性能比TF-IDF差得多。

    Table 1 Performance comparison between two term weighting methods表1 兩種特征詞權(quán)重計(jì)算方法的性能比較

    特征詞在不同類別的文本中出現(xiàn)具有一定的不確定性,這種不確定性可用熵(entropy)來度量。對于類別相關(guān)的特征詞,不確定性小,則熵小,應(yīng)分配大的權(quán)重;而對于類別無關(guān)的特征詞,不確定性大,則熵大,應(yīng)分配小的權(quán)重。因此,特征詞的權(quán)重與熵的大小是相反的關(guān)系。基于這種思想,近幾年研究人員提出了幾種新的基于信息熵的特征詞權(quán)重計(jì)算方法,統(tǒng)稱為熵加權(quán)(entropy-based weighting,EW)方法。文獻(xiàn)[5]和[6]都提出了在TF-IDF權(quán)重中引入信息熵因子的方法,并且這種權(quán)重因子是根據(jù)特征詞tk的類間分布熵H(tk)的倒數(shù)1/H(tk)(簡稱為反熵)來計(jì)算的。兩者的主要區(qū)別有兩點(diǎn):一是權(quán)重歸一化處理順序不同,文獻(xiàn)[5]是先將TF-IDF權(quán)重按式(2)進(jìn)行余弦歸一化后再乘以信息熵因子,而文獻(xiàn)[6]是先將TF-IDF權(quán)重乘以信息熵因子后再進(jìn)行余弦歸一化。二是信息熵因子的表示略有不同,文獻(xiàn)[5]使用反熵的對數(shù)lb(1/H(tk)+1),而文獻(xiàn)[6]直接用反熵1/H(tk)作為權(quán)重因子。此外,為了避免分母變?yōu)?,兩者都附加了一個相似的非零函數(shù)值,即用H(tk)+ φ(dfk)來代替H(tk),其中φ(dfk)是特征詞tk的文檔頻率dfk的函數(shù)。但是文獻(xiàn)[7]與上面兩種方法不同,為了改進(jìn)TF-IDF他們提出了用信息熵因子取代IDF因子的做法,并且把信息熵因子表示為h-H(tk),其中h是一個比H(tk)大的常數(shù),但原文并未明確其取值為多少。應(yīng)當(dāng)指出,在上面3種方法中,H(tk)都是根據(jù)特征詞tk在不同文本類別cj(j=1,2,…,m)中出現(xiàn)的概率P(tk,cj)來計(jì)算的,但是類別概率P(tk,cj)的計(jì)算方法不同,分別為dfkj/dfk[5]、dfkj/(dfk+1)[6]和dfkj/N[7](這里N為總文檔數(shù))。

    除了上述根據(jù)特征詞的類間分布熵來計(jì)算權(quán)重的方法外,也有一些研究人員提出將特征詞在每個類別內(nèi)部的分布信息熵也引入權(quán)重計(jì)算中,比如文獻(xiàn)[8,13-14]。第4.6節(jié)將討論這些引入類內(nèi)分布熵的方法的有效性。

    盡管上面提到的一些方法在特定語料庫的文本分類實(shí)驗(yàn)中已被證明是有效的,但是至今沒有人對這些方法在其他不同語料庫上的性能做進(jìn)一步的驗(yàn)證并與更多方法進(jìn)行比較,尤其是沒有將幾種不同的熵加權(quán)方法的性能做比較。而且,通過實(shí)驗(yàn)也發(fā)現(xiàn),上述方法在不同語料庫上的性能不穩(wěn)定,有時表現(xiàn)得比傳統(tǒng)的TF-IDF方法更差。鑒于此,通過反復(fù)研究,提出了一種新的熵加權(quán)方法,并在不同數(shù)據(jù)集上做了大量文本分類實(shí)驗(yàn),驗(yàn)證了它的有效性和優(yōu)越性。

    3 新的熵加權(quán)方法

    3.1特征詞的類別區(qū)分力

    特征詞的權(quán)重應(yīng)當(dāng)根據(jù)它在文本分類中的重要性來分配,而特征詞的重要性體現(xiàn)在它的類別區(qū)分力(class distinguishing power,CDP)的大小,因?yàn)轭悇e區(qū)分力大的詞更有助于區(qū)分不同類別的文本。顯然,一個只與單類相關(guān)的特征詞具有比與多類相關(guān)的特征詞更大的類別區(qū)分力。類別區(qū)分力大的特征詞往往集中出現(xiàn)在單個或少數(shù)類別中,它們在多個類別上的分布表現(xiàn)出高度不均勻性。這種不均勻性可以用特征詞的類間分布熵來度量,比如類別文檔頻率(DF)分布熵,表示如下:

    當(dāng)特征詞只出現(xiàn)在單個類別的文本中時,它的類別區(qū)分力最大,而熵Edf(tk)最小且為0。當(dāng)特征詞在所有類別cj(j=1,2,…,m)中均勻分布時,它的類別區(qū)分力最小,而熵Edf(tk)達(dá)到最大值Emax=lb(m)。因?yàn)樘卣髟~的類別區(qū)分力與類別DF分布熵是相反的關(guān)系,所以可這樣來度量也就是說,用歸一化熵來度量特征詞tk的類別區(qū)分力,顯然有0≤CDP(tk)≤1.0。

    3.2LTF-ECDP方法

    為了給特征詞分配合適的權(quán)重,定義了一個基于類別區(qū)分力的全局權(quán)重因子,即G(tk)=1+α× CDP(tk),其中系數(shù)α的值可針對不同語料庫來調(diào)節(jié),一般取值為5~7比較合適。至于特征詞權(quán)重中的局部因子,一般用特征詞在文檔中的詞頻(tfk)來表示。但是,一個在文檔中出現(xiàn)20次的特征詞的重要性并不是僅出現(xiàn)1次的特征詞重要性的20倍,因此要適當(dāng)降低高頻詞的局部詞頻因子,可使用對數(shù)詞頻lb(tfk+1)來代替原始詞頻tfk[15]。綜上所述,特征詞tk在某個文檔中的權(quán)重w(tk)可以用式(6)來計(jì)算。

    當(dāng)然,最終同一文檔中所有特征詞的權(quán)重w(tk) (k=1,2,…,n)也要按照式(2)進(jìn)行余弦歸一化。本文把這種新的熵加權(quán)方法稱為LTF-ECDP(logarithmic term frequency&entropy-based class distinguishing power),即對數(shù)詞頻與基于熵的類別區(qū)分力度量因子相結(jié)合的特征詞權(quán)重計(jì)算方法。

    3.3新方法的兩個變種

    4 實(shí)驗(yàn)結(jié)果與分析

    4.1數(shù)據(jù)集及其預(yù)處理

    本文實(shí)驗(yàn)使用了3個具有不同特點(diǎn)的公開數(shù)據(jù)集,包括一個中文語料庫TanCorp和兩個英文語料庫WebKB和20 Newsgroups。前兩個非平衡語料庫的各類文檔數(shù)不相等,第三個平衡語料庫的各類文檔數(shù)基本相等。3個語料庫的文本來源也不同。

    TanCorp語料庫[16]有多個版本,選擇其中預(yù)處理格式的TanCorp-12語料庫,共有14 150篇中文文檔,分為12類,各類別規(guī)模差別大,無異類重復(fù)文檔,所有文本預(yù)先已用中文分詞器ICTCLAS分詞,并去掉了數(shù)字與標(biāo)點(diǎn)符號。從中提取出72 601個不同詞條構(gòu)成初始特征詞表,并把語料庫按類別隨機(jī)分割為訓(xùn)練集(占66%)和測試集(占34%)。

    原始WebKB語料庫[17]包含大約8 300個英文網(wǎng)頁,分為7大類。只選擇其中最常用的4大類,包括student、faculty、course和project類別,共有4 199個文檔。這個被稱為WebKB-4的文本子集又進(jìn)一步按2∶1的比例被隨機(jī)分割為訓(xùn)練集和測試集。通過刪除停用詞、單字符和非字母符號,并把字母轉(zhuǎn)換為小寫,提取詞根(stemming)等預(yù)處理后,從訓(xùn)練集文本中共提取出7 287個不同的初始特征詞。此外,為了提高實(shí)驗(yàn)的可靠性,移除了部分重復(fù)文檔,最終訓(xùn)練集和測試集各剩下2 756和1 375個文檔。

    20 Newsgroups語料庫包含20個類別的英文消息文本。本文所用的20 News-bydate版本[18]共有18 846篇文檔,預(yù)先已按日期排序并分割為訓(xùn)練集(包含11 314篇文檔)和測試集(包含7 532篇文檔),所有重復(fù)文檔和某些消息頭部已被刪除。通過與WebKB語料庫類似的預(yù)處理后,從20 News-bydate的訓(xùn)練集文本中共提取出35 642個不同的初始特征詞。

    4.2實(shí)驗(yàn)步驟與方法

    對數(shù)據(jù)集進(jìn)行預(yù)處理后,再按順序經(jīng)過特征選擇、特征詞權(quán)重計(jì)算、分類器訓(xùn)練及分類測試、性能評估等步驟開展文本分類實(shí)驗(yàn)。

    特征選擇采用流行的卡方統(tǒng)計(jì)量(Chi-square或χ2)指標(biāo)。特征詞tk關(guān)于類別cj的卡方統(tǒng)計(jì)量χ2(tk,cj)可用下式來計(jì)算:

    為了比較性能,嘗試了前面介紹的8種特征詞權(quán)重計(jì)算方法,分別是LTF-ECDP、TF-ECDP、TF-ECDPEIC、EWzhou、EWguo、EWxue、TF-RF和TF-IDF,其中第4~6個分別代表文獻(xiàn)[5]、[6]和[7]提出的熵加權(quán)(entropy-based weighting,EW)方法。開頭3種采用了基于熵的類別區(qū)分力(ECDP)度量因子的方法中,參數(shù)α均設(shè)為7.0。因?yàn)橛肨F-ECDP-EIC和TF-RF方法[3]計(jì)算的特征詞權(quán)重都與文檔類別有關(guān),如式(7)和(3)所示,而待分類的文檔的類別是未知的,所以對于測試集文檔中的每個特征詞,用其與各類別相關(guān)的權(quán)重的最大值作為它的權(quán)重。當(dāng)一個文檔中所有特征詞的權(quán)重都已得到,再按照式(2)進(jìn)行余弦歸一化。但EWzhou方法[5]例外,它是先對所有詞的TFIDF權(quán)重進(jìn)行歸一化,再乘以熵加權(quán)因子。通過權(quán)重計(jì)算,每個文檔都被轉(zhuǎn)換成特征詞權(quán)重向量。

    為了實(shí)現(xiàn)文本分類,采用性能優(yōu)良的支持向量機(jī)(support vector machine,SVM)作為分類器。具體做法是:在TanCorp和20 Newsgroups語料庫上使用軟件包LibSVM分類器[19-20],并設(shè)置線性核和默認(rèn)參數(shù);在WebKB語料庫上使用LibLINEAR分類器[20],其參數(shù)也是默認(rèn)的。LibLINEAR是對帶有線性核的LibSVM進(jìn)行優(yōu)化后的分類器,性能更好。先用訓(xùn)練集文檔特征向量來訓(xùn)練SVM分類器,再用SVM分類器對測試集文檔特征向量進(jìn)行分類。

    最后的性能評估使用微平均F1值(micro-F1)和宏平均F1值(macro-F1)兩個指標(biāo)來度量所有類別的總體分類準(zhǔn)確率,其定義分別為式(9)和(10)。

    其中,P為整個測試集分類結(jié)果的精確率;R為整個測試集被正確分類的召回率;F1j=2Pj×Rj/(Pj+Rj)為第 j類(j=1,2,…,m)的分類性能,m為類別數(shù),Pj和Rj分別為第 j類文本分類精確率和召回率。

    4.3在TanCorp-12上的實(shí)驗(yàn)結(jié)果分析

    首先用帶線性核的LibSVM分類器對TanCorp-12語料庫里的中文文本進(jìn)行分類,用微平均F1值和宏平均F1值所度量的總體分類準(zhǔn)確率如圖1所示。圖中每條曲線代表一種特征詞權(quán)重計(jì)算方法,水平坐標(biāo)軸顯示不同特征數(shù)。

    Fig.1 Accuracies of text categorization using different term weighting methods on TanCorp-12 corpus圖1 在TanCorp-12語料庫上使用不同特征詞權(quán)重計(jì)算方法的文本分類準(zhǔn)確率

    從圖1中可以看出,3種新的特征詞權(quán)重計(jì)算方法LTF-ECDP、TF-ECDP和TF-ECDP-EIC的性能都比其余方法更好。特別是,性能最好的LTF-ECDP方法具有明顯的優(yōu)勢。就micro-F1和macro-F1而言,LTF-ECDP超越TF-IDF分別約2.8%和4.3%。引入特征詞類內(nèi)分布熵因子的TF-ECDP-EIC的性能略低于TF-ECDP。至于文獻(xiàn)中的3種熵加權(quán)方法,EWxue的性能表現(xiàn)是最好的,略好于TF-RF。而EWzhou表現(xiàn)最差,明顯不如TF-IDF,特別是在數(shù)據(jù)集特征維度較高時。EWguo則表現(xiàn)不同,就micro-F1而言,它比TF-IDF差;但就macro-F1而言,它比TF-IDF略好。而TF-RF的性能與TF-IDF相當(dāng)。

    4.4在WebKB-4上的實(shí)驗(yàn)結(jié)果分析

    然后用性能更好的LibLINEAR分類器對Web-KB-4語料庫里的英文網(wǎng)頁進(jìn)行分類,分別用微平均F1值和宏平均F1值所度量的總體分類準(zhǔn)確率如圖2所示,圖中各項(xiàng)的含義與圖1相同。

    從圖2中可以看出,3種新的特征詞權(quán)重計(jì)算方法LTF-ECDP、TF-ECDP和TF-ECDP-EIC的性能表現(xiàn)總體上仍然比其余方法更好,并且LTF-ECDP還是最好的。就micro-F1和macro-F1而言,它超越TFIDF分別約3.3%和4.0%。TF-ECDP和TF-ECDP-EIC兩者的性能不相上下。但是文獻(xiàn)中的3種熵加權(quán)方法的關(guān)系發(fā)生了變化:EWzhou由最差變?yōu)樽詈?,EWguo變?yōu)樽畈?,而EWxue居中。EWzhou、EWxue 和TF-RF的性能都比TF-IDF更好。但是EWguo的性能與TF-IDF相當(dāng),或比后者略差。

    4.5在20 Newsgroups上的實(shí)驗(yàn)結(jié)果分析

    最后仍用LibSVM分類器對20 Newsgroups語料庫里的英文消息文本進(jìn)行分類,總體分類準(zhǔn)確率如圖3所示,圖中各項(xiàng)的含義與圖1相同。

    從圖3中可以看出,3種新的特征詞權(quán)重計(jì)算方法LTF-ECDP、TF-ECDP和TF-ECDP-EIC在20 Newsgroups上的性能差別較大,其中LTF-ECDP的性能最佳。就micro-F1和macro-F1而言,它超越TFIDF達(dá)2.8%左右。而TF-ECDP勝過其余5種方法,只有1種例外。但是TF-ECDP-EIC的性能比較差。文獻(xiàn)中的3種熵加權(quán)方法的關(guān)系發(fā)生了戲劇性的變化:前面表現(xiàn)最差的EWguo變?yōu)樽詈玫?,前面一直表現(xiàn)好的EWxue變?yōu)樽畈畹?,而EWzhou居中。EW-zhou、EWxue和TF-ECDP-EIC熵加權(quán)方法都表現(xiàn)得比TF-IDF更差。在平衡語料庫20 Newgroups上,TFRF和EWguo都表現(xiàn)比較好,勝過TF-IDF,這與文獻(xiàn)[3]和[6]的實(shí)驗(yàn)結(jié)果是一致的。

    Fig.2 Accuracies of text categorization using different term weighting methods on WebKB-4 corpus圖2 在WebKB-4語料庫上使用不同特征詞權(quán)重計(jì)算方法的文本分類準(zhǔn)確率

    Fig.3 Accuracies of text categorization using different term weighting methods on 20 Newsgroups corpus圖3 在20 Newsgroups語料庫上使用不同特征詞權(quán)重計(jì)算方法的文本分類準(zhǔn)確率

    4.6關(guān)于實(shí)驗(yàn)結(jié)果的討論

    上面的實(shí)驗(yàn)結(jié)果是在3個具有不同特點(diǎn)的公共測試語料庫上得出的。實(shí)驗(yàn)結(jié)果表明,LTF-ECDP和TF-ECDP方法不僅有效,而且比其他熵加權(quán)方法和著名的TF-RF、TF-IDF方法更好。這兩種新的特征詞權(quán)重計(jì)算方法不僅提高了分類準(zhǔn)確率,而且在不同語料庫上的性能表現(xiàn)穩(wěn)定。尤其是LTF-ECDP方法的表現(xiàn)一直是最好的,并且具有明顯的優(yōu)勢。而其余4種熵加權(quán)方法在不同語料庫上的性能表現(xiàn)波動性比較大,跟TF-IDF方法相比,它們的表現(xiàn)有時好有時差。另外,TF-RF方法[3]的優(yōu)越性也再次得到驗(yàn)證,它的性能也比較穩(wěn)定,不比TF-IDF差,而且有時更好。但是,TF-RF的性能還是不如本文提出的LTF-ECDP和TF-ECDP方法。

    在所有實(shí)驗(yàn)中,LTF-ECDP表現(xiàn)得比TF-ECDP更優(yōu)越,這再一次通過實(shí)驗(yàn)證實(shí)了特征詞在文本分類中的重要性與其詞頻一般不是成正比的,因此有時不要對高頻詞在文本分類中的作用寄予太大的期望。當(dāng)然,類別相關(guān)的高頻詞例外。一個特征詞的重要性或?qū)ξ谋痉诸惖呢暙I(xiàn)度主要取決于它的類別區(qū)分力。一個類別區(qū)分力大的詞不一定是高頻詞,而主要體現(xiàn)在它在不同文本類別上的分布很不均衡。

    上述實(shí)驗(yàn)結(jié)果還顯示了新方法的另一個變種TF-ECDP-EIC的性能并沒有預(yù)期的那么好,它不但沒有在TF-ECDP的基礎(chǔ)上進(jìn)一步提高文本分類的性能,有時反而降低了分類準(zhǔn)確率。引入特征詞的類內(nèi)分布熵的目的是給具有類別代表性的詞分配更大的權(quán)重,因?yàn)榇砟骋活悇e的詞在該類別各文檔上的分布比其他非代表性的詞更加均勻,對應(yīng)的類內(nèi)分布熵更大。這聽起來似乎有理,但是忽視了一個事實(shí):代表整個類別(尤其是大類)的詞畢竟是少數(shù),而大多數(shù)類別區(qū)分力大的詞只能代表其中一個小的子類。比如:“古箏”屬于“藝術(shù)”類但不能代表“藝術(shù)”。一篇文章中如果出現(xiàn)“古箏”,很容易被判斷為跟“藝術(shù)”有關(guān)??梢姟肮殴~”一詞具有較大的類別區(qū)分力,應(yīng)當(dāng)被分配較大的權(quán)重。但是“古箏”在整個“藝術(shù)”類中出現(xiàn)頻率較低,一旦引入類內(nèi)分布熵,它的權(quán)重將明顯降低。而能夠代表整個藝術(shù)類的詞匯很少。只有當(dāng)語料庫的各類別規(guī)模較小或各類別代表性詞匯較多時,在特征詞權(quán)重中引入類內(nèi)分布熵才會有效。但是在一般情況下,引入類內(nèi)分布熵很可能會失效。

    最后應(yīng)當(dāng)指出,所有文本分類實(shí)驗(yàn)都是用帶有線性核的支持向量機(jī)(簡稱為線性SVM)來實(shí)現(xiàn)的,并且嘗試了在數(shù)據(jù)集的多個不同特征維度上進(jìn)行分類測試。之所以選擇線性SVM,是因?yàn)樗鼘ξ谋痉诸惖男阅芎芎谩1M管一些研究人員在努力改進(jìn)其他分類算法,比如樸素貝葉斯算法、k近鄰(k nearest neighbors,kNN)分類器、中心點(diǎn)(centroid)分類器、決策樹算法、神經(jīng)網(wǎng)絡(luò)等[9],但它們對文本分類的性能還是難以超越SVM。上述實(shí)驗(yàn)結(jié)果再次證明了通過改進(jìn)特征詞權(quán)重計(jì)算方法和調(diào)節(jié)特征維度,可以進(jìn)一步提高SVM文本分類性能。由于篇幅的限制,本文沒有給出使用其他分類器的實(shí)驗(yàn)結(jié)果。事實(shí)上,本文提出的特征詞權(quán)重計(jì)算方法LTF-ECDP也能明顯提高k近鄰分類器的文本分類性能。而k近鄰分類器更易于在分布式的云計(jì)算環(huán)境中實(shí)現(xiàn)。本文提出的LTF-ECDP方法即使在特征維度較低時也能獲得較好的分類準(zhǔn)確率,更適合大規(guī)模文本分類應(yīng)用。

    5 結(jié)束語

    相比于其他有監(jiān)督詞加權(quán)方法而言,基于信息熵的特征詞權(quán)重計(jì)算方法(簡稱為熵加權(quán))更加有效,因?yàn)榍罢咄ǔV焕昧颂卣髟~在正反兩類上的粗糙分布信息,而后者考慮了特征詞在所有類別上的精細(xì)分布。但是,現(xiàn)有的熵加權(quán)方法用于不同語料庫的文本分類時效果變化比較大,有時表現(xiàn)得比傳統(tǒng)的TF-IDF方法更差。本文提出了一種新的熵加權(quán)方法LTF-ECDP(對數(shù)詞頻-基于熵的類別區(qū)分力)以及它的兩個變種TF-ECDP和TF-ECDP-EIC。在TanCorp、WebKB和20 Newsgroups這3個具有不同特點(diǎn)的語料庫上使用支持向量機(jī)進(jìn)行文本分類的實(shí)驗(yàn)結(jié)果表明,LTF-ECDP和TF-ECDP方法不僅有效,而且它們的性能優(yōu)于其他熵加權(quán)方法以及TF-IDF和TF-RF等著名方法,不僅進(jìn)一步提高了文本分類準(zhǔn)確率,而且性能更加穩(wěn)定。尤其是LTF-ECDP具有明顯的優(yōu)勢。同時也發(fā)現(xiàn),雖然LTF-ECDP和TF-ECDP都只利用了特征詞的類間分布熵,但是引入特征詞的類內(nèi)分布熵在大多數(shù)情況下并沒有進(jìn)一步改善文本分類的性能。與前兩者對比,TF-ECDP-EIC的表現(xiàn)稍差。

    未來將把LTF-ECDP方法用于文本特征降維和某些Web數(shù)據(jù)分析任務(wù)(比如情感分析)中,并且開展更廣泛的實(shí)驗(yàn)研究。

    References:

    [1]Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information Processing and Manage-ment,1988,24(5):513-523.

    [2]Debole F,Sebastiani F.Supervised term weighting for automated text categorization[C]//Proceedings of the 2003 ACM Symposium on Applied Computing,Melbourne,USA,Mar 9-12,2003.New York,USA:ACM,2003:784-788.

    [3]Lan Man,Tan C L,Su Jian,et al.Supervised and traditional term weighting methods for automatic text categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(4):721-735.

    [4]Diao Qian,Wang Yongcheng,Zhang Huihui,et al.A Shannon entropy approach to term weighting in VSM[J].Journal of the China Society for Scientific and Technical Information,2000,19(4):354-358.

    [5]Zhou Yantao,Tang Jianbo,Wang Jiaqin.Improved TFIDF feature selection algorithm based on information entropy[J]. Computer Engineering and Applications,2007,43(35):156-158.

    [6]Guo Hongyu.Research on term weighting algorithm based on information entropy theory[J].Computer Engineering andApplications,2013,49(10):140-146.

    [7]Xue Wei,Xu Xinshun.Three new feature weighting methods for text categorization[C]//LNCS 6318:Proceedings of the 2010 International Conference on Web Information Systems and Mining,Sanya,China,Oct 23-24,2010.Berlin, Heidelberg:Springer,2010:352-359.

    [8]Li Ran,Guo Xianjiu.An improved algorithm to term weighting in text classification[C]//Proceedings of the 2010 International Conference on Multimedia Technology,Ningbo,China,Oct 29-31,2010.Piscataway,USA:IEEE,2010: 1-3.

    [9]Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.

    [10]Liu Ying,Loh H T,Sun Aixin.Imbalanced text classification:a term weighting approach[J].Expert Systems with Applications,2009,36(1):690-701.

    [11]Hakan A,Zafer E.Analytical evaluation of term weighting schemes for text categorization[J].Pattern Recognition Letters,2010,31(11):1310-1323.

    [12]Nguyen T T,Chang K,Hui S C.Supervised term weighting centroid-based classifiers for text categorization[J].Knowledge and Information Systems,2013,35(1):61-85.

    [13]Yi Junkai,Tian Likang.A text feature selection algorithm based on class discrimination[J].Journal of Beijing University of Chemical Technology:Natural Science,2013,40 (S1):72-75.

    [14]University of Electronic Science and Technology of China. A method of text classification based on feature selection and weight calculation:China,CN102930063A[P].2013-02-13.

    [15]Dumais S.Improving the retrieval of information from external sources[J].Behavior Research Methods,Instruments, and Computers,1991,23(2):229-236.

    [16]Tan Songbo,Cheng Xueqi,Ghanem M M,et al.A novel refinement approach for text categorization[C]//Proceedings of the 14th ACM International Conference on Information and Knowledge Management,Bremen,Germany,Oct 31-Nov 5,2005.New York,USA:ACM,2005:469-476.

    [17]CMU text learning group.The 4 universities data set(Web-KB corpus)[EB/OL].(1998-01-11)[2015-06-30].http://www. cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/.

    [18]Ken Lang,Rennie J.The 20 Newsgroups data set[EB/OL]. (2008-01-14)[2015-06-30].http://people.csail.mit.edu/jrennie/ 20Newsgroups/,http://qwone.com/~jason/20Newsgroups/.

    [19]Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):1-27.

    [20]Chang C C,Lin C J.LIBSVM—a library for support vector machines[EB/OL].[2015-06-30].http://www.csie.ntu.edu. tw/~cjlin/libsvm/index.html.

    附中文參考文獻(xiàn):

    [4]刁倩,王永成,張惠惠,等.VSM中詞權(quán)重的信息熵算法[J].情報學(xué)報,2000,19(4):354-358.

    [5]周炎濤,唐劍波,王家琴.基于信息熵的改進(jìn)TFIDF特征選擇算法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(35):156-158.

    [6]郭紅鈺.基于信息熵理論的特征權(quán)重算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(10):140-146.

    [13]易軍凱,田立康.基于類別區(qū)分度的文本特征選擇算法研究[J].北京化工大學(xué)學(xué)報:自然科學(xué)版,2013,40(S1):72-75.

    [14]電子科技大學(xué).一種基于特征項(xiàng)選擇與權(quán)重計(jì)算的文本分類方法:中國,CN102930063A[P].2013-02-13.

    CHEN Kewen was born in 1970.He is a Ph.D.candidate in computer application technology at Central South University,and the member of CCF.His research interests include machine learning,text mining and information fusion,etc.

    陳科文(1970—),男,湖南湘潭人,中南大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)博士研究生,CCF會員,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),文本挖掘,信息融合等。

    ZHANG Zuping was born in 1966.He received the Ph.D.degree in computer application technology from Central South University in 2005.Now he is a professor and Ph.D.supervisor at Central South University,and the senior member of CCF.His research interests include information fusion and information system,parameter computing and biology computing,etc.

    張祖平(1966—),男,湖南湘鄉(xiāng)人,2005年于中南大學(xué)獲得計(jì)算機(jī)應(yīng)用技術(shù)博士學(xué)位,現(xiàn)為中南大學(xué)教授、博士生導(dǎo)師,CCF高級會員,主要研究領(lǐng)域?yàn)樾畔⑷诤吓c信息系統(tǒng),參數(shù)計(jì)算,生物計(jì)算等。

    LONG Jun was born in 1972.He received the Ph.D.degree in computer application technology from Central South University in 2011.Now he is a professor and Ph.D.supervisor at Central South University,and the senior member of CCF.His research interests include service computing,Internetware,software engineering methods to solve scientific problems in big data,etc.

    龍軍(1972—),男,安徽安慶人,2011年于中南大學(xué)獲得計(jì)算機(jī)應(yīng)用技術(shù)博士學(xué)位,現(xiàn)為中南大學(xué)教授、博士生導(dǎo)師,CCF高級會員,主要研究領(lǐng)域?yàn)榉?wù)計(jì)算,網(wǎng)構(gòu)軟件,面向大數(shù)據(jù)的軟件工程方法等。

    Research on Entropy-Based Term Weighting Methods in Text Categorization?

    CHEN Kewen+,ZHANG Zuping,LONG Jun
    School of Information Science and Engineering,Central South University,Changsha 410083,China
    +Corresponding author:E-mail:kewencsu@csu.edu.cn

    CHEN Kewen,ZHANG Zuping,LONG Jun.Research on entropy-based term weighting methods in text categorization.Journal of Frontiers of Computer Science and Technology,2016,10(9):1299-1309.

    As the volume of textual data has become very large and is still increasing rapidly,automatic text categorization(TC)is becoming more and more important.Term weighting or feature weight calculation is one of the hot research topics in TC to improve the classification accuracy.It is found that entropy-based weighting(EW)methods are usually more effective than others.However,there are still some problems with the existing EW methods,e.g.,they may perform worse than the traditional TF-IDF(term frequency&inverse document frequency),for TC on some text corpora.So this paper proposes a new term weighting scheme called LTF-ECDP,which combines logarithmic term frequency and entropy-based class distinguishing power as a new weighting factor.In order to test LTP-ECDP and compare it with other weighting methods,a considerable number of TC experiments using support vector machine(SVM) have been done on three popular benchmark datasets including a Chinese corpus,TanCorp,and two English corpora such as WebKB and 20 Newsgroups.The experimental results show that LTF-ECDP outperforms the other five entropybased weighting methods and two famous methods such as TF-IDF and TF-RF(term frequency&relevance frequency). Compared with the other term weighting methods,LTF-ECDP can further improve the accuracy of TC while keeping good performance on different datasets consistently.

    term weighting;entropy-based weighting;text categorization;class distinguishing power

    2015-07,Accepted 2015-09.

    *The National Natural Science Foundation of China under Grant No.61379109(國家自然科學(xué)基金);the Specialized Research Fund for the Doctoral Program of Higher Education of China under Grant No.20120162110077(高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金).

    CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-10-13,http://www.cnki.net/kcms/detail/11.5602.TP.20151013.1655.006.html

    A

    TP391

    猜你喜歡
    特征詞計(jì)算方法類別
    浮力計(jì)算方法匯集
    基于改進(jìn)TFIDF算法的郵件分類技術(shù)
    產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
    隨機(jī)振動試驗(yàn)包絡(luò)計(jì)算方法
    服務(wù)類別
    新校長(2016年8期)2016-01-10 06:43:59
    不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
    面向文本分類的特征詞選取方法研究與改進(jìn)
    論類別股東會
    商事法論集(2014年1期)2014-06-27 01:20:42
    一種伺服機(jī)構(gòu)剛度計(jì)算方法
    中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
    国产精品av视频在线免费观看| 色综合婷婷激情| 国产一级毛片七仙女欲春2| 91av网一区二区| 久久久久久久午夜电影| 国产亚洲av嫩草精品影院| 欧美高清性xxxxhd video| 少妇的逼水好多| 久久国产精品影院| www.色视频.com| 一区二区三区四区激情视频 | 免费看a级黄色片| 十八禁网站免费在线| av天堂中文字幕网| 宅男免费午夜| 俺也久久电影网| 久久伊人香网站| 在线十欧美十亚洲十日本专区| 亚洲精品在线观看二区| 俄罗斯特黄特色一大片| 亚洲人成伊人成综合网2020| 亚洲国产日韩欧美精品在线观看| 久久人人精品亚洲av| 欧美日韩中文字幕国产精品一区二区三区| 麻豆国产av国片精品| 九色国产91popny在线| .国产精品久久| 国产不卡一卡二| 国产伦人伦偷精品视频| 99热这里只有精品一区| 女同久久另类99精品国产91| 中文字幕熟女人妻在线| 欧美乱妇无乱码| 久久人妻av系列| 又紧又爽又黄一区二区| 精品乱码久久久久久99久播| 国产欧美日韩一区二区精品| 99热精品在线国产| 亚洲av成人不卡在线观看播放网| 极品教师在线免费播放| 91麻豆av在线| 亚洲精品一卡2卡三卡4卡5卡| 在线观看一区二区三区| 成人无遮挡网站| 成熟少妇高潮喷水视频| 亚洲专区国产一区二区| 亚洲av美国av| 能在线免费观看的黄片| 欧美日本视频| 一级a爱片免费观看的视频| av在线天堂中文字幕| 国产美女午夜福利| 国产伦一二天堂av在线观看| 国产不卡一卡二| 一区二区三区四区激情视频 | 国产欧美日韩一区二区三| 69av精品久久久久久| 免费看日本二区| 国产精品乱码一区二三区的特点| av欧美777| 欧美成人性av电影在线观看| 尤物成人国产欧美一区二区三区| 三级国产精品欧美在线观看| 有码 亚洲区| 能在线免费观看的黄片| 久久久久久久久久成人| 婷婷六月久久综合丁香| 美女cb高潮喷水在线观看| 中文在线观看免费www的网站| 精品不卡国产一区二区三区| 亚洲av成人av| 一进一出抽搐动态| 中文字幕av在线有码专区| 午夜福利高清视频| 欧美一区二区国产精品久久精品| 亚洲人成伊人成综合网2020| 欧美乱色亚洲激情| 久久精品国产自在天天线| 成人午夜高清在线视频| 中文在线观看免费www的网站| 日韩中文字幕欧美一区二区| 国产亚洲欧美在线一区二区| 欧美3d第一页| 婷婷精品国产亚洲av| 久久精品国产清高在天天线| 精品熟女少妇八av免费久了| 国产熟女xx| 美女大奶头视频| 国产高清有码在线观看视频| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 制服丝袜大香蕉在线| 欧美黄色淫秽网站| 亚洲精品一卡2卡三卡4卡5卡| 亚洲激情在线av| 俺也久久电影网| 欧美一级a爱片免费观看看| 三级国产精品欧美在线观看| 免费大片18禁| 精品久久久久久久久久久久久| .国产精品久久| 国产精品免费一区二区三区在线| 能在线免费观看的黄片| 免费看光身美女| 在线观看一区二区三区| 国产欧美日韩一区二区精品| 特级一级黄色大片| 色综合亚洲欧美另类图片| 国产精华一区二区三区| 9191精品国产免费久久| 国产主播在线观看一区二区| 久久久国产成人免费| 丁香六月欧美| 国产不卡一卡二| 中国美女看黄片| 日本一本二区三区精品| 中文字幕av成人在线电影| 俄罗斯特黄特色一大片| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 毛片一级片免费看久久久久 | 日日摸夜夜添夜夜添小说| 此物有八面人人有两片| 99久久无色码亚洲精品果冻| 看免费av毛片| 国产一区二区在线观看日韩| 亚洲成av人片免费观看| 真人做人爱边吃奶动态| 日本五十路高清| 嫩草影院新地址| 中文字幕免费在线视频6| 在线观看66精品国产| 国产精品一区二区三区四区久久| 午夜激情欧美在线| 一个人看的www免费观看视频| 香蕉av资源在线| 真人一进一出gif抽搐免费| 看片在线看免费视频| 亚洲精品一区av在线观看| 国产高清有码在线观看视频| 成人欧美大片| 最新中文字幕久久久久| 国产淫片久久久久久久久 | 国产欧美日韩精品亚洲av| 51国产日韩欧美| 欧美日韩国产亚洲二区| 久久精品夜夜夜夜夜久久蜜豆| 波多野结衣高清无吗| 午夜亚洲福利在线播放| 欧美一级a爱片免费观看看| 此物有八面人人有两片| 欧美黑人巨大hd| 精品久久久久久成人av| 国产一级毛片七仙女欲春2| 有码 亚洲区| 欧美3d第一页| 两个人的视频大全免费| а√天堂www在线а√下载| 欧美国产日韩亚洲一区| 亚洲av成人不卡在线观看播放网| www.www免费av| 99精品在免费线老司机午夜| 一a级毛片在线观看| 一本久久中文字幕| 国产精品99久久久久久久久| 天堂动漫精品| 午夜福利成人在线免费观看| 日本免费一区二区三区高清不卡| 99久久无色码亚洲精品果冻| 91在线观看av| 深夜精品福利| 婷婷丁香在线五月| 老熟妇仑乱视频hdxx| 制服丝袜大香蕉在线| 99久久九九国产精品国产免费| 精品国产三级普通话版| 亚洲国产色片| h日本视频在线播放| 波多野结衣高清作品| 国产日本99.免费观看| 又黄又爽又免费观看的视频| a级毛片免费高清观看在线播放| 如何舔出高潮| 国产三级中文精品| 久久久久九九精品影院| 欧美日韩国产亚洲二区| 国产av不卡久久| 老司机午夜福利在线观看视频| 在线观看免费视频日本深夜| 性色av乱码一区二区三区2| 国产综合懂色| 人人妻人人澡欧美一区二区| 男人和女人高潮做爰伦理| 亚洲国产日韩欧美精品在线观看| 亚洲18禁久久av| 性欧美人与动物交配| 麻豆成人av在线观看| 五月玫瑰六月丁香| 免费黄网站久久成人精品 | 国产成人欧美在线观看| 99久久久亚洲精品蜜臀av| 少妇裸体淫交视频免费看高清| 黄色丝袜av网址大全| 91午夜精品亚洲一区二区三区 | 亚洲avbb在线观看| 嫩草影视91久久| 91久久精品国产一区二区成人| 精品一区二区三区av网在线观看| 久久精品久久久久久噜噜老黄 | 可以在线观看毛片的网站| 成人三级黄色视频| 国产精品嫩草影院av在线观看 | 一级黄色大片毛片| 欧美性猛交╳xxx乱大交人| www.熟女人妻精品国产| 精品人妻视频免费看| 国产成人影院久久av| 在线播放无遮挡| 我的女老师完整版在线观看| 精品午夜福利视频在线观看一区| 国产精品久久久久久亚洲av鲁大| 久久性视频一级片| 成年版毛片免费区| 亚洲av一区综合| 国产在线精品亚洲第一网站| 男女下面进入的视频免费午夜| 一级作爱视频免费观看| 欧美区成人在线视频| 亚洲性夜色夜夜综合| 在线播放国产精品三级| 91av网一区二区| 99在线视频只有这里精品首页| 老司机深夜福利视频在线观看| 亚州av有码| 亚洲欧美精品综合久久99| 1000部很黄的大片| 国模一区二区三区四区视频| 少妇熟女aⅴ在线视频| 十八禁网站免费在线| 亚洲av电影不卡..在线观看| 日本五十路高清| 美女cb高潮喷水在线观看| 欧美绝顶高潮抽搐喷水| 露出奶头的视频| 丰满人妻熟妇乱又伦精品不卡| 国产精品久久久久久亚洲av鲁大| 免费观看的影片在线观看| 国产探花极品一区二区| 哪里可以看免费的av片| 级片在线观看| 一a级毛片在线观看| 三级毛片av免费| av福利片在线观看| 日本免费a在线| 久久久精品大字幕| www.色视频.com| 欧美3d第一页| 成人毛片a级毛片在线播放| 色播亚洲综合网| 中文字幕高清在线视频| www.999成人在线观看| 亚洲久久久久久中文字幕| 五月伊人婷婷丁香| 51国产日韩欧美| 一区二区三区激情视频| 嫩草影院入口| 黄色配什么色好看| 免费大片18禁| 91九色精品人成在线观看| 久久久久久久久久黄片| 亚洲第一电影网av| 2021天堂中文幕一二区在线观| 精品欧美国产一区二区三| 又黄又爽又免费观看的视频| 国产黄色小视频在线观看| 日日夜夜操网爽| www.色视频.com| 免费看日本二区| 国产精品综合久久久久久久免费| 国产亚洲av嫩草精品影院| 少妇高潮的动态图| 亚洲av第一区精品v没综合| av专区在线播放| 国产精品,欧美在线| 人妻久久中文字幕网| 日本五十路高清| 久9热在线精品视频| 国产精品98久久久久久宅男小说| 亚洲欧美日韩卡通动漫| 亚洲欧美日韩东京热| 国产精品一区二区三区四区久久| 国产高清三级在线| 久久婷婷人人爽人人干人人爱| 国产精品亚洲av一区麻豆| 国产爱豆传媒在线观看| 在现免费观看毛片| 人人妻人人看人人澡| 男女床上黄色一级片免费看| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 欧美日韩中文字幕国产精品一区二区三区| 久久九九热精品免费| 久久久久久久久久成人| 我的女老师完整版在线观看| 最新在线观看一区二区三区| 久久国产精品影院| 国产国拍精品亚洲av在线观看| 欧美中文日本在线观看视频| 久久香蕉精品热| 制服丝袜大香蕉在线| 高潮久久久久久久久久久不卡| 成人三级黄色视频| 午夜福利视频1000在线观看| 欧美日本视频| 99热只有精品国产| 久久久国产成人精品二区| 动漫黄色视频在线观看| 我要搜黄色片| 午夜久久久久精精品| 国产爱豆传媒在线观看| 日韩欧美免费精品| 天堂影院成人在线观看| 12—13女人毛片做爰片一| 岛国在线免费视频观看| 亚洲欧美日韩高清在线视频| 亚洲成人精品中文字幕电影| 亚洲一区高清亚洲精品| 男人舔奶头视频| 国产成人aa在线观看| 不卡一级毛片| 久久久色成人| 国产高清视频在线播放一区| 亚洲欧美日韩高清专用| 我的老师免费观看完整版| 午夜福利视频1000在线观看| 亚洲第一区二区三区不卡| www.www免费av| 国语自产精品视频在线第100页| 国产伦人伦偷精品视频| 在线十欧美十亚洲十日本专区| 免费看美女性在线毛片视频| 国产成+人综合+亚洲专区| 综合色av麻豆| 国产熟女xx| 国产精品自产拍在线观看55亚洲| 可以在线观看毛片的网站| www.999成人在线观看| 国产精品一区二区免费欧美| 97超视频在线观看视频| 淫妇啪啪啪对白视频| 国产私拍福利视频在线观看| 观看免费一级毛片| 亚洲国产欧洲综合997久久,| 亚洲人成网站高清观看| 国产av不卡久久| 日韩大尺度精品在线看网址| 久久人人爽人人爽人人片va | 国产一区二区在线观看日韩| 一级av片app| 一进一出抽搐gif免费好疼| 亚洲av第一区精品v没综合| 精品乱码久久久久久99久播| 一边摸一边抽搐一进一小说| 99精品在免费线老司机午夜| 亚洲自拍偷在线| 高清毛片免费观看视频网站| 国产成人a区在线观看| 2021天堂中文幕一二区在线观| 最后的刺客免费高清国语| 国产亚洲精品av在线| 美女黄网站色视频| 一级av片app| 精品一区二区三区人妻视频| 精品免费久久久久久久清纯| 亚洲欧美日韩高清在线视频| 中文字幕人成人乱码亚洲影| 精品一区二区三区视频在线| 亚洲av五月六月丁香网| 有码 亚洲区| 国内久久婷婷六月综合欲色啪| 国产三级中文精品| 午夜免费激情av| 国产av麻豆久久久久久久| 欧美bdsm另类| 丰满人妻熟妇乱又伦精品不卡| 久久99热这里只有精品18| 日本在线视频免费播放| 我的女老师完整版在线观看| 看免费av毛片| 亚洲av电影在线进入| 国产精品人妻久久久久久| 国产一区二区三区在线臀色熟女| 国产免费男女视频| 99久久无色码亚洲精品果冻| 女同久久另类99精品国产91| 1024手机看黄色片| 久久精品人妻少妇| 国产视频内射| 国产不卡一卡二| 久久伊人香网站| 亚洲av.av天堂| 久久人妻av系列| 日本精品一区二区三区蜜桃| 国产欧美日韩精品一区二区| 我要看日韩黄色一级片| 成人高潮视频无遮挡免费网站| 99国产精品一区二区蜜桃av| 九九在线视频观看精品| 久久久色成人| 亚洲精品在线观看二区| 亚洲一区高清亚洲精品| 国产主播在线观看一区二区| 精品人妻一区二区三区麻豆 | 国产在线男女| 欧美日韩乱码在线| 黄色日韩在线| 毛片女人毛片| 欧美一区二区精品小视频在线| 非洲黑人性xxxx精品又粗又长| 欧美又色又爽又黄视频| 国产精品伦人一区二区| 久久婷婷人人爽人人干人人爱| 国产69精品久久久久777片| 国产免费一级a男人的天堂| 一级作爱视频免费观看| 亚洲专区中文字幕在线| 精品欧美国产一区二区三| 精品不卡国产一区二区三区| 别揉我奶头~嗯~啊~动态视频| 成人毛片a级毛片在线播放| 一级黄片播放器| 少妇人妻一区二区三区视频| 黄色丝袜av网址大全| 日本精品一区二区三区蜜桃| 国产精品人妻久久久久久| 天美传媒精品一区二区| 日本成人三级电影网站| 简卡轻食公司| 欧美日本亚洲视频在线播放| 免费黄网站久久成人精品 | 欧美高清成人免费视频www| 舔av片在线| 亚洲国产精品合色在线| 久久久久九九精品影院| 久久精品人妻少妇| 精品日产1卡2卡| 搡女人真爽免费视频火全软件 | 国产亚洲av嫩草精品影院| 一区二区三区高清视频在线| 午夜激情欧美在线| 婷婷色综合大香蕉| 国产aⅴ精品一区二区三区波| 丝袜美腿在线中文| 99视频精品全部免费 在线| 免费观看的影片在线观看| 国产乱人视频| 老司机午夜福利在线观看视频| 久久99热这里只有精品18| 午夜精品一区二区三区免费看| 欧美性猛交黑人性爽| 国产免费男女视频| 国产成人影院久久av| 老熟妇仑乱视频hdxx| 欧美丝袜亚洲另类 | 乱人视频在线观看| 网址你懂的国产日韩在线| 在线观看午夜福利视频| 国产乱人视频| 午夜福利成人在线免费观看| 亚洲精品色激情综合| 赤兔流量卡办理| 国产高清视频在线播放一区| 国产亚洲欧美98| avwww免费| 又黄又爽又刺激的免费视频.| 欧美日韩中文字幕国产精品一区二区三区| 欧美精品啪啪一区二区三区| 给我免费播放毛片高清在线观看| 亚洲精品亚洲一区二区| 亚洲av不卡在线观看| 欧美午夜高清在线| 小蜜桃在线观看免费完整版高清| 日本a在线网址| 国产精品久久久久久久电影| 免费在线观看亚洲国产| 久久亚洲精品不卡| 啦啦啦韩国在线观看视频| 在线观看美女被高潮喷水网站 | 制服丝袜大香蕉在线| 在线a可以看的网站| 亚洲欧美日韩高清专用| 亚洲国产精品sss在线观看| 中文字幕人妻熟人妻熟丝袜美| 久久久久久久午夜电影| 婷婷亚洲欧美| 别揉我奶头~嗯~啊~动态视频| 亚洲成人精品中文字幕电影| 国产大屁股一区二区在线视频| 亚洲av日韩精品久久久久久密| 人妻制服诱惑在线中文字幕| 久久性视频一级片| 午夜影院日韩av| 级片在线观看| 国产一区二区三区在线臀色熟女| .国产精品久久| 熟女人妻精品中文字幕| 18禁黄网站禁片免费观看直播| 国产色爽女视频免费观看| 90打野战视频偷拍视频| 精品福利观看| 99精品久久久久人妻精品| 丁香欧美五月| 亚洲欧美日韩高清在线视频| 搡老妇女老女人老熟妇| 国产视频一区二区在线看| 狂野欧美白嫩少妇大欣赏| 少妇被粗大猛烈的视频| 高潮久久久久久久久久久不卡| 十八禁网站免费在线| 看免费av毛片| 有码 亚洲区| 久久人妻av系列| 亚洲色图av天堂| 一区二区三区四区激情视频 | 国产不卡一卡二| av黄色大香蕉| 免费高清视频大片| 天堂影院成人在线观看| 亚洲av.av天堂| 午夜久久久久精精品| 欧美黄色片欧美黄色片| 亚洲在线观看片| 亚洲av日韩精品久久久久久密| 一本综合久久免费| 欧美在线一区亚洲| 国产亚洲精品久久久久久毛片| 久9热在线精品视频| 欧美+亚洲+日韩+国产| 国产亚洲欧美98| 久久精品久久久久久噜噜老黄 | 一级作爱视频免费观看| 欧美一区二区精品小视频在线| 国产成人av教育| 18禁黄网站禁片免费观看直播| 亚洲av不卡在线观看| 少妇人妻一区二区三区视频| 亚洲av不卡在线观看| 男女下面进入的视频免费午夜| 老司机福利观看| av欧美777| 天堂影院成人在线观看| 欧美黄色片欧美黄色片| 免费人成在线观看视频色| 亚洲无线在线观看| 好看av亚洲va欧美ⅴa在| а√天堂www在线а√下载| 白带黄色成豆腐渣| 日韩高清综合在线| 日本黄大片高清| 国产麻豆成人av免费视频| 日本与韩国留学比较| 亚洲欧美精品综合久久99| 亚洲美女视频黄频| 国产aⅴ精品一区二区三区波| www.999成人在线观看| 色综合婷婷激情| 日本a在线网址| 三级男女做爰猛烈吃奶摸视频| 久久九九热精品免费| 大型黄色视频在线免费观看| 欧美色欧美亚洲另类二区| 3wmmmm亚洲av在线观看| 精品久久久久久久久久久久久| 亚洲国产欧洲综合997久久,| 在线国产一区二区在线| 最近中文字幕高清免费大全6 | 欧美潮喷喷水| av在线天堂中文字幕| 两人在一起打扑克的视频| 我的老师免费观看完整版| 一夜夜www| 日本成人三级电影网站| 国产亚洲av嫩草精品影院| 午夜福利高清视频| 久久久国产成人精品二区| 草草在线视频免费看| 精品久久久久久久久久免费视频| 黄色视频,在线免费观看| 在线观看66精品国产| 欧美xxxx性猛交bbbb| 色噜噜av男人的天堂激情| 国产 一区 欧美 日韩| 久久久久久大精品| 看十八女毛片水多多多| 成人av在线播放网站| 搡老岳熟女国产| 九色国产91popny在线| 黄色视频,在线免费观看| 亚洲av五月六月丁香网| 久9热在线精品视频| 国产精品久久久久久亚洲av鲁大| 如何舔出高潮| 日本精品一区二区三区蜜桃| 搡老熟女国产l中国老女人| 中亚洲国语对白在线视频| 亚洲专区中文字幕在线| 亚洲男人的天堂狠狠| 亚洲av成人av| 天天一区二区日本电影三级| 美女cb高潮喷水在线观看| 国产av在哪里看| 亚洲美女搞黄在线观看 | 性欧美人与动物交配| 黄色女人牲交| av专区在线播放| 狠狠狠狠99中文字幕| 国产精品久久久久久久电影| 国产成人av教育|