• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向科研與教學(xué)的文本分類(lèi)平臺(tái)構(gòu)建

    2015-12-15 01:57:35路永和彭燕虹劉文秋
    現(xiàn)代情報(bào) 2015年9期
    關(guān)鍵詞:文本分類(lèi)語(yǔ)料庫(kù)

    路永和+彭燕虹+劉文秋

    〔摘 要〕為提高中文文本分類(lèi)科研與教學(xué)人員的工作效率,本文針對(duì)國(guó)內(nèi)現(xiàn)有中文文本分類(lèi)系統(tǒng)的研發(fā)現(xiàn)狀,構(gòu)建一個(gè)包括預(yù)處理、特征選擇、權(quán)值計(jì)算、自動(dòng)分類(lèi)和分類(lèi)效果測(cè)評(píng)等文本分類(lèi)全過(guò)程的管理平臺(tái)。開(kāi)發(fā)過(guò)程中,本文使用系統(tǒng)集成思想和方法將自編軟件代碼與相關(guān)的開(kāi)源軟件代碼進(jìn)行集成。經(jīng)測(cè)試,該系統(tǒng)實(shí)現(xiàn)了文本自動(dòng)分類(lèi)過(guò)程的全部功能。

    〔關(guān)鍵詞〕文本分類(lèi);MVC;語(yǔ)料庫(kù);訓(xùn)練集;測(cè)試集

    DOI:10.3969/j.issn.1008-0821.2015.09.011

    〔中圖分類(lèi)號(hào)〕TP391 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2015)09-0056-07

    〔Abstract〕In order to improve the working efficiency of the people which are occupied in scientific research and teaching of Chinese text categorization and considering about the research and development status of the text categorization system in China,a management platform of text categorization for the whole process,including pre-processing,feature selection,weighting calculation,automatic classification and classification evaluation were built.In the process of the development,based on the principle and method of system integration,the coding of ourselves and the ones of the related open source software were integrated.After testing,the system implemented the whole functions of automatic text categorization.

    〔Key words〕text classification;MVC;corpus;training set;testing set

    文本分類(lèi)是基于內(nèi)容的自動(dòng)文本信息管理,隨著網(wǎng)絡(luò)文本數(shù)量呈幾何級(jí)數(shù)增長(zhǎng),文本分類(lèi)已成為處理和組織海量文本信息的關(guān)鍵技術(shù)[1]。文本分類(lèi)就是將文本信息分到已定義好的一個(gè)或多個(gè)類(lèi)中,從而幫助人們更好更快的檢索到有用信息,過(guò)濾掉無(wú)用信息。一般而言,文本分類(lèi)分為以下5個(gè)環(huán)節(jié),包括:文本預(yù)處理、特征選擇、權(quán)值計(jì)算、分類(lèi)算法、分類(lèi)效果測(cè)評(píng)。當(dāng)前,文本分類(lèi)技術(shù)被廣泛應(yīng)用于日常數(shù)據(jù)管理的各個(gè)方面[2-4],如瀏覽器的資源分層、垃圾短信郵件的過(guò)濾、敏感信息的預(yù)警、網(wǎng)絡(luò)輿情監(jiān)測(cè)[5]等。但由于文本分類(lèi)流程的復(fù)雜性,需要撰寫(xiě)大量的代碼,不僅耗時(shí)耗力、成本代價(jià)高昂,且造成了嚴(yán)重的代碼重復(fù),浪費(fèi)了研究者們的寶貴時(shí)間、延長(zhǎng)了科研進(jìn)度,使很多學(xué)者不能在第一時(shí)間完成自己的最新研究。對(duì)致力于學(xué)習(xí)文本分類(lèi)技術(shù)的高校學(xué)生而言,由于文本分類(lèi)過(guò)程的抽象復(fù)雜,他們很難學(xué)習(xí)到相應(yīng)知識(shí)內(nèi)核?;谏鲜鲈?,研發(fā)一個(gè)面向教學(xué)與科研的文本分類(lèi)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)集導(dǎo)入、訓(xùn)練集與測(cè)試集索引、特征選擇、權(quán)值計(jì)算、文本分類(lèi)并提供可視化的界面,使得科研人員、高校學(xué)生甚至包括無(wú)技術(shù)背景的人員均能利用此文本分類(lèi)系統(tǒng)進(jìn)行文本分類(lèi)領(lǐng)域的相關(guān)研究與應(yīng)用。

    1 系統(tǒng)需求分析

    目前,國(guó)外已經(jīng)開(kāi)發(fā)出了一些成熟的文本分類(lèi)平臺(tái),如著名的IBM商用數(shù)據(jù)挖掘平臺(tái)IBM Intelligent Miner,是一款包含文本分類(lèi)、預(yù)測(cè)、關(guān)聯(lián)規(guī)則產(chǎn)生等基礎(chǔ)研究成果在內(nèi)的可伸縮性平臺(tái)。該平臺(tái)提供了豐富的數(shù)據(jù)分析技術(shù)和算法集,具有大量易于開(kāi)發(fā)者使用的編程接口,是市場(chǎng)上最強(qiáng)大的數(shù)據(jù)分析平臺(tái)之一[6]。但是作為商用挖掘工具,該平臺(tái)價(jià)格較高且不宜用于學(xué)術(shù)研究。斯坦福大學(xué)自然語(yǔ)言處理組提供了開(kāi)源的Natural Language Toolkit(NLTK)平臺(tái)用于進(jìn)行分詞、詞性標(biāo)注、文本分類(lèi)等工作[7],但NLTK只適用于Python語(yǔ)句且主要支持英文及其他一些拉丁語(yǔ)系,無(wú)法處理中文語(yǔ)料。Waikato大學(xué)研究的開(kāi)源平臺(tái)Waikato Environment for Knowledge Analysis(WEKA),它包含對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、關(guān)聯(lián)規(guī)則挖掘、分類(lèi)、聚類(lèi)等多種功能,并提供了易于交互的可視化界面[8]。Weka的源碼是公開(kāi)的,因此使用者可以根據(jù)自身需要對(duì)Weka進(jìn)行二次開(kāi)發(fā),拓展其功能或者整合到相應(yīng)的系統(tǒng)中。相比國(guó)外,國(guó)內(nèi)在文本分類(lèi)平臺(tái)開(kāi)發(fā)上發(fā)展較慢,主要是基于國(guó)外著名開(kāi)源平臺(tái)進(jìn)行的二次開(kāi)發(fā)。自主研制的相關(guān)平臺(tái)主要有復(fù)旦自然語(yǔ)言處理(FudanNLP,F(xiàn)NLP)、中科院漢語(yǔ)分詞系統(tǒng)(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)以及譚松波的DRAP文本分類(lèi)系統(tǒng)。FNLP主要包括了以下功能:文本分類(lèi)、實(shí)體名識(shí)別、新聞聚類(lèi)、詞性標(biāo)注、中文分詞、關(guān)鍵詞抽取、依存句法分析等。工具采用Java編寫(xiě),并提供了API的訪問(wèn)調(diào)用方式[9]。但此平臺(tái)初始化時(shí)間有點(diǎn)長(zhǎng),并且加載模型時(shí)占用內(nèi)存較大,在進(jìn)行語(yǔ)法分析時(shí)分析的結(jié)果也不是十分準(zhǔn)確。ICTCLAS主要包括以下功能:中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別,同時(shí)支持用戶詞典。目前,ICTCLAS30分詞速度單機(jī)996KB/s,分詞精度9845%,API不超過(guò)200KB,各種詞典數(shù)據(jù)壓縮后不到3M,是當(dāng)前世界上最好的漢語(yǔ)詞法分析器[10]。但是ICTCLAS并非完整的文本分類(lèi)系統(tǒng),只包含了文本分類(lèi)過(guò)程中文檔預(yù)處理環(huán)節(jié)的切分詞操作。DRAP文本分類(lèi)系統(tǒng),支持中英文分類(lèi)、中文最大匹配分詞、特征選擇、英文詞根還原、停用詞去除、雙語(yǔ)種分類(lèi)和多線程分類(lèi),其中雙語(yǔ)種分類(lèi)、多線程分類(lèi)需要定制后才可使用[11]。但是該分類(lèi)平臺(tái)并不能進(jìn)行特征選擇方法以及分類(lèi)器的選擇,各個(gè)分類(lèi)環(huán)節(jié)采取系統(tǒng)默認(rèn)設(shè)置,同時(shí)系統(tǒng)實(shí)用性不強(qiáng)、極易閃退。綜合而言,國(guó)內(nèi)尚未有成型且使用效果良好的文本分類(lèi)系統(tǒng)平臺(tái),開(kāi)發(fā)一個(gè)易于使用、功能簡(jiǎn)捷、操作簡(jiǎn)單的文本分類(lèi)系統(tǒng),將為自動(dòng)文本分類(lèi)技術(shù)的使用者提供極大的便利。endprint

    基于此,本系統(tǒng)平臺(tái)搭建的主要目標(biāo)是為從事文本分類(lèi)教學(xué)、科研的人員提供一個(gè)易于使用、功能簡(jiǎn)捷、對(duì)系統(tǒng)運(yùn)行環(huán)境要求不高、具有可視化功能的文本分類(lèi)系統(tǒng)。為了達(dá)到此目標(biāo),系統(tǒng)的功能性需求包括:(1)提供可視化的使用界面,用戶只需點(diǎn)擊相應(yīng)按鈕,即可執(zhí)行所需的文本分類(lèi)各個(gè)環(huán)節(jié)的操作,不再需要人為進(jìn)行代碼撰寫(xiě);(2)提供單篇文檔分類(lèi)、多篇文檔分類(lèi)兩個(gè)入口,以滿足不同需求;(3)提供各個(gè)環(huán)節(jié)的運(yùn)行結(jié)果,使得用戶能夠及時(shí)了解文本分類(lèi)各個(gè)環(huán)節(jié)的運(yùn)行情況。同時(shí),系統(tǒng)需要滿足以下2個(gè)非功能需求,才能更好地服務(wù)于使用者,包括:(1)易使用性:系統(tǒng)具有良好的交互界面,界面功能描述清晰,步驟明確,用戶只要執(zhí)行選擇、確定操作,即可順利使用平臺(tái);(2)健壯性:系統(tǒng)平臺(tái)應(yīng)該可靠有效,即使出現(xiàn)系統(tǒng)故障或是用戶輸入、操作錯(cuò)誤或者其它異常,也能夠迅速捕獲并進(jìn)行處理。

    2 系統(tǒng)構(gòu)建

    21 系統(tǒng)總體架構(gòu)

    本系統(tǒng)使用MVC三層架構(gòu)設(shè)計(jì),包括表示層、業(yè)務(wù)邏輯層以及數(shù)據(jù)訪問(wèn)層,開(kāi)發(fā)語(yǔ)言采用Java,如圖1所示。

    用戶通過(guò)表示層進(jìn)行界面操作。第一步:索引訓(xùn)練集、索引測(cè)試集以進(jìn)行文本預(yù)處理操作,通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層文本預(yù)處理模塊,調(diào)用文本預(yù)處理接口,運(yùn)行文本預(yù)處理各個(gè)環(huán)節(jié),包括ICTLAS分詞、去停用詞、Lucene特征詞索引以及統(tǒng)計(jì)詞頻,生成一個(gè)wordCount.txt文件(即詞頻統(tǒng)計(jì)文件)存儲(chǔ)于數(shù)據(jù)訪問(wèn)層中。第二步:用戶通過(guò)界面操作特征選擇環(huán)節(jié),包括選擇特征選擇方法以及輸入特征維數(shù),通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層特征選擇模塊,調(diào)用特征選擇接口,讀取wordCount.txt文件,運(yùn)行特征選擇業(yè)務(wù),生成特征選擇方法維數(shù)txt文件,存儲(chǔ)于數(shù)據(jù)訪問(wèn)層中。第三步:用戶通過(guò)界面選擇所需的權(quán)值計(jì)算方法以進(jìn)行權(quán)值計(jì)算操作,通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層權(quán)值計(jì)算模塊,調(diào)用權(quán)值計(jì)算接口,分別讀取各個(gè)特征選擇方法維數(shù)txt文件,運(yùn)行權(quán)值計(jì)算業(yè)務(wù),生成相應(yīng)TrainSet權(quán)值計(jì)算方法aff文件和TestSet權(quán)值計(jì)算方法aff文件,存儲(chǔ)于數(shù)據(jù)訪問(wèn)層中。第四步:用戶通過(guò)界面選擇所需的分類(lèi)算法以進(jìn)行分類(lèi)操作,通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層WEKA分類(lèi)算法模塊,調(diào)用Weka分類(lèi)算法接口,分別讀取成對(duì)的TrainSet權(quán)值計(jì)算方法aff文件和TestSet權(quán)值計(jì)算方法aff文件,運(yùn)行分類(lèi)業(yè)務(wù)。第五步:第四步運(yùn)行分類(lèi)業(yè)務(wù)后,直接訪問(wèn)業(yè)務(wù)邏輯層分類(lèi)效果測(cè)評(píng)模塊,運(yùn)行分類(lèi)效果測(cè)評(píng)業(yè)務(wù),包括單篇測(cè)試文檔分類(lèi)結(jié)果(分類(lèi)結(jié)果、實(shí)際類(lèi)別),測(cè)試集分類(lèi)結(jié)果(準(zhǔn)確率、宏平均值、微平均值),業(yè)務(wù)邏輯層運(yùn)行結(jié)果直接返回表示層,在用戶界面顯示分類(lèi)效果測(cè)評(píng)(準(zhǔn)確率、宏平均值、微平均值)。

    22 主要功能模塊

    本系統(tǒng)主要功能大致可以分為四大模塊:表示模塊,用戶請(qǐng)求監(jiān)聽(tīng)模塊、業(yè)務(wù)邏輯模塊和數(shù)據(jù)存儲(chǔ)模塊。

    221 表示模塊,即系統(tǒng)平臺(tái)界面

    表示模塊即文本分類(lèi)系統(tǒng)的UI,負(fù)責(zé)接受用戶的請(qǐng)求并返回請(qǐng)求內(nèi)容,該模塊使用JFC技術(shù),界面中使用了Java Swing和Java AWT等UI組件。在Java Swing中,每一個(gè)組件都包含一個(gè)MVC模型,Model模塊決定組件的行為,View模塊決定組件的UI。以JButton為例,按鈕表面提示文字,如“特征選擇”按鈕,這部分就是View。而當(dāng)前按鈕是被鎖定的還是處于激活狀態(tài),如“按鈕是否能被點(diǎn)擊”,這部分就是Model。

    222 用戶請(qǐng)求監(jiān)聽(tīng)模塊

    使用ActionListener接收表示層所發(fā)出的請(qǐng)求,對(duì)請(qǐng)求進(jìn)行相應(yīng)處理,并將處理后的結(jié)果返回給表示層。用戶請(qǐng)求監(jiān)聽(tīng)模塊主要負(fù)責(zé)監(jiān)聽(tīng)用戶的操作,并根據(jù)用戶的請(qǐng)求,更新文本分類(lèi)子系統(tǒng)的配置信息。該模塊主要為表示層提供服務(wù),同時(shí)充當(dāng)表示層和業(yè)務(wù)邏輯層間溝通的橋梁,包括:監(jiān)聽(tīng)用戶操作和控制輸入規(guī)范。因此,該模塊主要解決以下兩個(gè)問(wèn)題:①系統(tǒng)能夠精確地捕獲用戶的操作并可以為用戶提供即時(shí)反饋;同時(shí),在響應(yīng)用戶的請(qǐng)求過(guò)程中,需要保證不會(huì)錯(cuò)過(guò)用戶的其它操作。②系統(tǒng)接受的數(shù)據(jù)需要控制在一定的范圍內(nèi),同時(shí)保證數(shù)據(jù)是有效的輸入。對(duì)于規(guī)范要求以外的輸入,系統(tǒng)能夠正確地判斷出來(lái),并且以合理的方式處理。

    223 業(yè)務(wù)邏輯模塊

    本系統(tǒng)的業(yè)務(wù)邏輯模塊即文本分類(lèi)的流程操作,包括:①文本預(yù)處理:ICTCLAS分詞、去停用詞、Luence建立索引和統(tǒng)計(jì)詞頻;②特征選擇:信息增益、卡方檢驗(yàn)和互信息;③權(quán)值計(jì)算:TF-IDF;④分類(lèi)算法:K最近鄰算法、樸素貝葉斯算法、支持向量機(jī)算法和J48決策樹(shù)算法;⑤分類(lèi)效果測(cè)評(píng):準(zhǔn)確率、宏平均F值和微平均F值。

    224 數(shù)據(jù)存儲(chǔ)模塊

    即包括系統(tǒng)所涉及的所有數(shù)據(jù)文件的安全持久存放。數(shù)據(jù)主要保存為txt格式和arff格式。其中:①txt格式:wordCount.txt主要的作用是保存詞頻統(tǒng)計(jì)的結(jié)果,如某文本出現(xiàn)在類(lèi)別Ci中的頻次,出現(xiàn)在類(lèi)別Ci的文本數(shù)量等。后續(xù)特征選擇模塊和特征權(quán)值計(jì)算模塊在使用特征詞的詞頻等數(shù)據(jù)能夠直接從這個(gè)文件中調(diào)取。特征選擇方法維數(shù)txt主要的作用是保存某一維數(shù)下采用某一特征選擇方法得到的特征詞;②arff格式的文件是Weka默認(rèn)的儲(chǔ)存數(shù)據(jù)集文件。每個(gè)ARFF文件對(duì)應(yīng)一個(gè)二維表格。表格的各行是數(shù)據(jù)集的各實(shí)例,各列是數(shù)據(jù)集的各個(gè)屬性。因?yàn)楸疚脑O(shè)計(jì)的文本分類(lèi)系統(tǒng)平臺(tái)在分類(lèi)算法模塊中調(diào)用Weka開(kāi)源工具,所以特征權(quán)值計(jì)算模塊的最終輸出為arff格式文件,方便分類(lèi)算法模塊的調(diào)用。

    3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

    31 用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)

    用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)主要基于GUI類(lèi)。首先,GUI類(lèi)繼承了JFrame類(lèi),同時(shí)實(shí)現(xiàn)了ActionListener接口,故其本身是一個(gè)具有監(jiān)聽(tīng)事件行為的窗口。其次,GUI類(lèi)作為用戶界面,是整個(gè)系統(tǒng)的入口。在GUI類(lèi)的構(gòu)造過(guò)程中,將按鈕和文本框布局到GUI類(lèi)上,并分別為它們?cè)O(shè)置對(duì)應(yīng)的監(jiān)聽(tīng)事件。整個(gè)用戶界面設(shè)置的事件有5種:endprint

    (1)分類(lèi)算法的單選按鈕事件RadioListener1。該事件用于更新文本分類(lèi)算法。當(dāng)用戶選擇了某種文本分類(lèi)方法,那么用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)就會(huì)把文本分類(lèi)子系統(tǒng)的分類(lèi)算法設(shè)置為對(duì)應(yīng)的值。

    (2)特征選擇方法的單選按鈕事件RadioListener2。該事件用于更新特征選擇方法。當(dāng)用戶選擇了某種特征選擇方法,那么用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)就會(huì)把文本分類(lèi)子系統(tǒng)的特征選擇方法設(shè)置為對(duì)應(yīng)的值。

    (3)權(quán)值計(jì)算方法的單選按鈕事件RadioListener3。該事件用于更新權(quán)值計(jì)算方法。當(dāng)用戶選擇了某種權(quán)值計(jì)算方法,那么用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)就會(huì)把文本分類(lèi)子系統(tǒng)的權(quán)值計(jì)算方法設(shè)置為對(duì)應(yīng)的值。

    (4)特征維數(shù)文本框的內(nèi)容更新事件KeyAdapter。該事件用于檢測(cè)特征維數(shù)的有效性。如果用戶填寫(xiě)的特征維數(shù)不在有效范圍內(nèi),那么系統(tǒng)就會(huì)提示特征維數(shù)無(wú)效。

    (5)文本分類(lèi)子系統(tǒng)激活事件GUI(GUI實(shí)現(xiàn)了ActionListener接口)。該事件主要用于執(zhí)行文本分類(lèi)子系統(tǒng)的任務(wù),包括索引訓(xùn)練、特征選擇、權(quán)值計(jì)算和分類(lèi)。

    用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)的類(lèi)圖,如圖2所示,這里略去函數(shù)和屬性。

    32 文本分類(lèi)子系統(tǒng)

    文本分類(lèi)子系統(tǒng)包括文本預(yù)處理、特征選擇、權(quán)值計(jì)算、文本分類(lèi)、文本分類(lèi)效果測(cè)評(píng)等,系統(tǒng)流程圖,如圖3所示。

    321 文本預(yù)處理

    文本預(yù)處理是文本分類(lèi)環(huán)節(jié)中重要的一環(huán)[12]。文本預(yù)處理的主要目的是抽取代表文本特征的元數(shù)據(jù)(特征項(xiàng)),一般包括去除標(biāo)記、去除停用詞以及在特定情況下進(jìn)行分詞處理等工作[13]。本系統(tǒng)中,文本預(yù)處理主要用于實(shí)現(xiàn)中文文本分詞、特征詞索引和特征詞詞頻統(tǒng)計(jì)。本文的文本預(yù)處理操作,通過(guò)將中科院分詞器ICTCLAS整合進(jìn)Lucene平臺(tái)完善了Lucene平臺(tái)對(duì)中文分詞的不足,在利用ICTCLAS進(jìn)行分詞后,用Lucene實(shí)現(xiàn)后續(xù)的去停用詞、建立索引、統(tǒng)計(jì)詞頻等文本預(yù)處理操作。為文本預(yù)處理設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    TermStatistic類(lèi):包含文本分詞、特征詞索引、特征詞詞頻統(tǒng)計(jì)操作接口。

    ICTCLASAnalyzer類(lèi):主要實(shí)現(xiàn)中文文本的分詞操作。

    Indexer類(lèi):將分詞后的單詞按照字典順序進(jìn)行索引操作,便于下一步詞頻統(tǒng)計(jì)。

    WordFrequence類(lèi):利用分詞和索引的結(jié)果,統(tǒng)計(jì)特征詞詞頻,為下一步特征選擇和特征權(quán)值計(jì)算做數(shù)據(jù)準(zhǔn)備,運(yùn)行后生成wordCount.txt。

    用戶選擇完訓(xùn)練集路徑后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)調(diào)用函數(shù)setTrainpath和getTestpath分別記錄訓(xùn)練集和測(cè)試集路徑。當(dāng)用戶點(diǎn)擊“索引訓(xùn)練集”按鈕后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)調(diào)用類(lèi)TermStatistic對(duì)訓(xùn)練文檔和測(cè)試文檔進(jìn)行索引。索引完畢后,TermStatistic的對(duì)象調(diào)用WordFrequence類(lèi)進(jìn)行詞頻統(tǒng)計(jì),統(tǒng)計(jì)后的結(jié)果保存到wordCount.txt文件上。

    322 特征選擇

    特征選擇用于從原有的特征中提取出少量的、具有代表性的特征,并替代原始特征集進(jìn)行文本分類(lèi)。在文本分類(lèi)中,特征選擇是一項(xiàng)很重要的工作,抽取到的特征項(xiàng)質(zhì)量的好壞直接影響到分類(lèi)的效果[14]。本文的文本分類(lèi)平臺(tái)中整合了經(jīng)典的特征選擇方法,包括信息增益IG、開(kāi)方檢驗(yàn)CHI以及互信息MI。其中本文設(shè)計(jì)的平臺(tái)設(shè)置CHI作為特征選擇的默認(rèn)方法。為特征選擇設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    FeatureSelection類(lèi):特征選擇基類(lèi),在基類(lèi)上派生具體的特征選擇類(lèi),如CHI-FS類(lèi)。

    Parameter類(lèi):保存訓(xùn)練文本集、測(cè)試文本集以及新生成特征詞及其詞頻文件的存放路徑。

    Method類(lèi):主要包含詞頻以及CHI方法中所需參數(shù)。

    用戶提交請(qǐng)求后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)通過(guò)函數(shù)setFSType()來(lái)設(shè)置用戶特征選擇的方法,在執(zhí)行特征選擇操作之前,先通過(guò)setFeatureNum函數(shù)獲取用戶設(shè)置的特征維數(shù),然后調(diào)用FeatureSelection()函數(shù)來(lái)執(zhí)行特征選擇操作。FeatureSelection()函數(shù)通過(guò)變量FSType確定調(diào)用哪個(gè)特征選擇方法類(lèi)并生成一個(gè)實(shí)例。假設(shè)用戶使用默認(rèn)特征選擇方法CHI,將特征維數(shù)getFeatureNum()作為參數(shù)傳入其中。通過(guò)Method類(lèi)下的getDocNumInC()函數(shù)獲取訓(xùn)練集中的文本數(shù),通過(guò)調(diào)用termCountSum()函數(shù)獲取預(yù)處理后的每個(gè)類(lèi)別下的特征項(xiàng)。

    323 權(quán)值計(jì)算

    特征權(quán)值就是用來(lái)表示某個(gè)特征項(xiàng)分類(lèi)能力的強(qiáng)弱?,F(xiàn)行的很多分類(lèi)算法都利用向量空間模型(Vector Space Model,VSM)來(lái)進(jìn)行文本表示,用特征項(xiàng)和特征權(quán)值來(lái)代表特征信息[15]。本文設(shè)計(jì)的平臺(tái)中設(shè)置TF-IDF作為權(quán)值計(jì)算的默認(rèn)方法。為權(quán)值計(jì)算設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    TermWeightCalculation類(lèi):特征權(quán)值計(jì)算基類(lèi),在基類(lèi)上派生具體的特征權(quán)值計(jì)算類(lèi),如TFIDF類(lèi)。endprint

    Parameter類(lèi):保存文件路徑,具體包括:訓(xùn)練文本集、測(cè)試文本集、新生成特征詞、詞頻以及特征權(quán)值計(jì)算生成的文件。

    用戶提交請(qǐng)求后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)通過(guò)函數(shù)setWeightType()來(lái)設(shè)置用戶權(quán)值計(jì)算的方法,然后調(diào)用TrainWeightCalculate()函數(shù)以及TestWeightCalculate()函數(shù)來(lái)分別執(zhí)行訓(xùn)練集以及測(cè)試集權(quán)值計(jì)算操作。TrainWeightCalculate()函數(shù)以及TestWeightCalculate()函數(shù)通過(guò)變量WeightType確定調(diào)用哪個(gè)特征權(quán)值計(jì)算方法類(lèi)并生成一個(gè)實(shí)例。

    324 分類(lèi)算法與效果測(cè)評(píng)

    文本分類(lèi)算法是文本分類(lèi)中的核心問(wèn)題,也稱(chēng)為文本分類(lèi)器或分類(lèi)模型[13]。文本分類(lèi)根據(jù)文本的特征和權(quán)值,將文本按照一定的分類(lèi)規(guī)則自動(dòng)標(biāo)注文本類(lèi)別的過(guò)程。作為一個(gè)文本分類(lèi)系統(tǒng)平臺(tái),應(yīng)整合多種經(jīng)典的算法,供平臺(tái)使用者進(jìn)行實(shí)驗(yàn)對(duì)比。由于Weka已經(jīng)涵蓋了大部分的分類(lèi)算法,本文介紹的平臺(tái)上的分類(lèi)算法是調(diào)用Weka的分類(lèi)算法,其中包括KNN算法、樸素貝葉斯算法、支持向量機(jī)(SVM)算法和J48決策樹(shù)算法。其中本文設(shè)計(jì)的平臺(tái)設(shè)置KNN為默認(rèn)的分類(lèi)算法。為分類(lèi)算法設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    WekaClassifier類(lèi):整合了Weka開(kāi)源平臺(tái)中大部分文本分類(lèi)方法的類(lèi)接口,調(diào)用Weka中的類(lèi)IBk、LibSVM、J48、NaiveBayes,并根據(jù)Weka中的分類(lèi)算法返回的結(jié)果生成分類(lèi)器。

    Classifier類(lèi):分類(lèi)算法基類(lèi),在基類(lèi)上派生具體的分類(lèi)算法類(lèi),如KNN類(lèi)、SVM類(lèi)、J48類(lèi)以及BAYS類(lèi)。

    ArffLoader類(lèi):讀取訓(xùn)練文件和測(cè)試文件。

    ArrayList類(lèi):輸出每一個(gè)測(cè)試語(yǔ)料的文本分類(lèi)測(cè)評(píng)結(jié)果,包括分類(lèi)結(jié)果和實(shí)際類(lèi)別。

    用戶提交請(qǐng)求后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)通過(guò)函數(shù)setClassifierType()來(lái)設(shè)置用戶分類(lèi)算法,然后在wekaClassifier類(lèi)中調(diào)用Classify()函數(shù)來(lái)執(zhí)行分類(lèi)算法操作。Classify()函數(shù)通過(guò)變量type確定調(diào)用哪個(gè)分類(lèi)算法并生成一個(gè)實(shí)例。通過(guò)ArffLoader類(lèi)下的getDataSet()函數(shù)獲取訓(xùn)練集及測(cè)試集文件,通過(guò)各個(gè)實(shí)例類(lèi)的buildClassifier()函數(shù)進(jìn)行分類(lèi)訓(xùn)練,通過(guò)調(diào)用classifyInstance()函數(shù)及classValue()函數(shù)獲取分類(lèi)后的每個(gè)測(cè)試語(yǔ)料的分類(lèi)結(jié)果,通過(guò)ArrayList類(lèi)循環(huán)輸出分類(lèi)結(jié)果。

    4 系統(tǒng)功能測(cè)試

    采用復(fù)旦中文分類(lèi)語(yǔ)料庫(kù)作為系統(tǒng)測(cè)試的語(yǔ)料庫(kù),選取其中的9個(gè)類(lèi)別,包括Agriculture、Art、Computer、Economy、Environment、History、Politics、Space以及Sports。各個(gè)類(lèi)別均有400個(gè)文本,按1∶1隨機(jī)分配,訓(xùn)練集與測(cè)試集各為200個(gè),數(shù)據(jù)集共有3 600個(gè)文本。本文設(shè)計(jì)的文本分類(lèi)系統(tǒng)可在“中大極天智能信息處理實(shí)驗(yàn)室”[16]上下載,安裝后可對(duì)平臺(tái)的各項(xiàng)功能進(jìn)行測(cè)試。

    41 文本預(yù)處理

    索引訓(xùn)練集和測(cè)試集過(guò)程中,系統(tǒng)會(huì)對(duì)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料進(jìn)行分詞、去停用詞、索引和統(tǒng)計(jì)操作。具體操作包括:對(duì)每個(gè)文檔進(jìn)行切分詞操作,并對(duì)每個(gè)特征項(xiàng)評(píng)估其詞性,從而便于在去停用詞階段排除某些詞性的特征項(xiàng)。在進(jìn)行分詞處理后,對(duì)訓(xùn)練文本集建立索引,便于后續(xù)進(jìn)行詞頻統(tǒng)計(jì)等工作。索引結(jié)束后系統(tǒng)會(huì)輸出建立索引所花費(fèi)的時(shí)間。針對(duì)復(fù)旦中文分類(lèi)語(yǔ)料庫(kù),1 800篇訓(xùn)練文檔,共花費(fèi)了127 910毫秒來(lái)建立索引;1 800篇測(cè)試文檔,共花費(fèi)了237 385毫秒來(lái)建立索引。

    42 特征選擇

    任意選擇平臺(tái)上一種經(jīng)典的特征選擇方法,輸入特征維數(shù)然后點(diǎn)擊“特征選擇”按鈕,后臺(tái)運(yùn)行特征選擇操作,在系統(tǒng)平臺(tái)結(jié)果區(qū)會(huì)出現(xiàn)經(jīng)過(guò)特征選擇后被選出的特征項(xiàng)列表。以特征維數(shù)600為例,分別利用CHI、IG、MI進(jìn)行特征選擇操作,得到前20個(gè)特征詞如表1所示。

    觀察各個(gè)特征選擇方法得到的前20個(gè)特征詞可知:CHI、IG得到的特征詞較為類(lèi)似,而MI與CHI、IG的特征詞差別較大。

    43 權(quán)值計(jì)算

    選擇權(quán)值計(jì)算方法,進(jìn)行“訓(xùn)練集權(quán)值計(jì)算”和“測(cè)試集權(quán)值計(jì)算”,運(yùn)行完成后生成相應(yīng)的訓(xùn)練集與測(cè)試集的arff格式文件,以供分類(lèi)算法環(huán)節(jié)使用。以特征維數(shù)為600的CHI特征選擇方法為例,利用TF-IDF進(jìn)行特征權(quán)值計(jì)算,得到TrainSetTFIDF.arff和TestSetTFIDF.arff,分別包含了各個(gè)訓(xùn)練文本和測(cè)試文本的向量空間,如圖4所示。

    44 分類(lèi)算法與效果測(cè)評(píng)

    任意選擇分類(lèi)算法進(jìn)行文本分類(lèi)操作,在系統(tǒng)平臺(tái)結(jié)果區(qū)會(huì)輸出各個(gè)測(cè)試文檔的分類(lèi)情況,包括分類(lèi)結(jié)果以及實(shí)際類(lèi)別;界面右側(cè)會(huì)輸出各個(gè)類(lèi)別的分類(lèi)效果,包括精度、召回率和F1測(cè)度;界面下端會(huì)輸出整體數(shù)據(jù)集分類(lèi)效果,包括準(zhǔn)確率、宏平均以及微平均。基于特征維數(shù)為600的CHI特征選擇方法以及TF-IDF特征權(quán)值計(jì)算方法,分別利用K鄰近算法(KNN)、支持向量機(jī)(SVM)、決策樹(shù)(J48)、貝葉斯算法(BAYS)進(jìn)行分類(lèi)操作,得到各個(gè)類(lèi)別的分類(lèi)效果(見(jiàn)表2)和數(shù)據(jù)集整體分類(lèi)效果(見(jiàn)表3)。

    由表2及表3可知,對(duì)于復(fù)旦中文分類(lèi)語(yǔ)料庫(kù)的9個(gè)類(lèi)別而言,J48決策樹(shù)分類(lèi)算法的分類(lèi)效果明顯優(yōu)于KNN、SVM、BAYS 3種算法,各個(gè)類(lèi)別分類(lèi)精度分布于[086,098]之間,召回率分布于[086,097]之間,F(xiàn)1測(cè)度分布于[086,097]之間,均達(dá)到較好的分類(lèi)效果;對(duì)于整體分類(lèi)效果,其分類(lèi)準(zhǔn)確率高達(dá)930556%,宏平均值為09302,微平均值為09306。其它3種分類(lèi)算法的分類(lèi)效果相對(duì)較差。整體分類(lèi)效果BAYS優(yōu)于KNN、SVM,SVM最差。不同的語(yǔ)料庫(kù),應(yīng)用不同的分類(lèi)算法得到的分類(lèi)效果會(huì)有差別,對(duì)于復(fù)旦中文分類(lèi)語(yǔ)料庫(kù)而言,其可能更適合利用決策樹(shù)分類(lèi)算法進(jìn)行文本分類(lèi)。endprint

    5 結(jié) 語(yǔ)

    隨著文本分類(lèi)領(lǐng)域的深入研究和應(yīng)用,越來(lái)越多的應(yīng)用者不得不進(jìn)行文本分類(lèi)技術(shù)相關(guān)代碼的撰寫(xiě),耗費(fèi)了大量的人力物力。本文針對(duì)此種問(wèn)題,開(kāi)發(fā)了文本分類(lèi)系統(tǒng)平臺(tái)?;趈ava開(kāi)源組件,整合中科院分詞器ICTCLAS、Lucene平臺(tái)以及WEKA源碼,對(duì)文本分類(lèi)系統(tǒng)進(jìn)行設(shè)計(jì)和開(kāi)發(fā),不僅實(shí)現(xiàn)了文本分類(lèi)各個(gè)流程的操作,還向用戶提供了一個(gè)可視化操作界面。該系統(tǒng)具有可拓展性,且操作簡(jiǎn)單,用戶無(wú)需了解平臺(tái)代碼即可自行傳入數(shù)據(jù)集文件,點(diǎn)擊相應(yīng)的文本分類(lèi)環(huán)節(jié)即可完成相應(yīng)操作。

    除了已實(shí)現(xiàn)的功能外,系統(tǒng)平臺(tái)還存在一些有待完善和擴(kuò)展的地方,主要包括以下方面:

    (1)將文本分類(lèi)流程進(jìn)一步細(xì)化,為用戶帶來(lái)更多的靈活性??蓪⑽谋绢A(yù)處理操作細(xì)分為分詞、去停用詞和統(tǒng)計(jì)詞頻等方式。分詞可以提供多種分詞器,去停用詞可以使用去停用詞表和詞性篩選兩種方式,給予用戶更多的選擇。

    (2)搭建Web端平臺(tái)界面,采用B/S模式提供服務(wù),提供擴(kuò)展接口,用戶可將自己設(shè)計(jì)的特征選擇方法、特征權(quán)重計(jì)算方法以及分類(lèi)算法等嵌入平臺(tái),進(jìn)行對(duì)比實(shí)驗(yàn),有助于同行交流,了解最新的算法改進(jìn)研究及進(jìn)展。

    (3)在現(xiàn)有系統(tǒng)UI的基礎(chǔ)上,進(jìn)一步優(yōu)化用戶界面,在保證平臺(tái)實(shí)用性的同時(shí),使平臺(tái)更具美觀性、吸引更多用戶。

    (4)支持多種語(yǔ)言,將平臺(tái)推向國(guó)際化。

    參考文獻(xiàn)

    [1]蘇新寧.信息檢索理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2004:273-307.

    [2]Elsayed E,Eldahshan K,Tawfeek S.Automatic evaluation technique for certain types of open questions in semantic learning systems[J].Human-centric Computing and Information Sciences,2013,3(1):1-15.

    [3]Sarkar K.Automatic single document text summarization using key concepts in documents[J].Journal of information processing systems,2013,9(4):602-620.

    [4]Guo X,Sun H,Zhou T,et al.SAW Classification Algorithm for Chinese Text Classification[J].Sustainability,2015,7(3):2338-2352.

    [5]馬海兵,畢久陽(yáng),郭新順.文本分類(lèi)方法在網(wǎng)絡(luò)輿情分析系統(tǒng)中的應(yīng)用研究[J].情報(bào)科學(xué),2015,33(5):97-101.

    [6]Cabena P,Choi H H,Kim I S,et al.Intelligent Miner for Data Applications Guide[J].IBM RedBook SG24-5252-00,1999.

    [7]Bird S.NLTK:the natural language toolkit[C]∥Proceedings of the COLING/ACL on Interactive presentation sessions.Association for Computational Linguistics,2006:69-72.

    [8]陳慧萍,林莉莉,王建東,等.WEKA數(shù)據(jù)挖掘平臺(tái)及其二次開(kāi)發(fā)[J].計(jì)算機(jī)工程與應(yīng)用,2009,44(19):76-79.

    [9]Qiu X,Zhang Q,Huang X.FudanNLP:A Toolkit for Chinese Natural Language Processing[C]∥ACL(Conference System Demonstrations),2013:49-54.

    [10]NLPIR漢語(yǔ)分詞系統(tǒng)[EB/OL].http:∥ictclas.nlpir.org,2015-05-24.

    [11]DRAP文本分類(lèi)系統(tǒng)簡(jiǎn)介[EB/OL].http:∥www.searchforum.org.cn/tansongbo/software.htm,2015-05-24.

    [12]Uysal AK,Gunal S.The impact of preprocessing on text classification[J].Information Processing & Management,2014,50(1):104-112.

    [13]肖可,奉國(guó)和.1999-2008年國(guó)內(nèi)文本分類(lèi)研究文獻(xiàn)計(jì)量分析[J].情報(bào)學(xué)報(bào),2010,29(4):679-687.

    [14]鄭偉,呂建新,張建偉.文本分類(lèi)中特征預(yù)抽取方法研究[J].情報(bào)科學(xué),2011,29(1):86-88,92.

    [15]Salton G,Buckley B.Term-weighting Approaches inAutomatic Text Retrieval[J].Information Processing & Management,1998,24(5):513-523.

    [16]中大極天智能信息處理實(shí)驗(yàn)室[EB/OL].http:∥iipl.sysu.edu.cn/,2015-05-24.

    (本文責(zé)任編輯:郭沫含)endprint

    猜你喜歡
    文本分類(lèi)語(yǔ)料庫(kù)
    《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
    把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
    基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
    基于貝葉斯分類(lèi)器的中文文本分類(lèi)
    基于蟻群智能算法的研究文本分類(lèi)
    文本分類(lèi)算法在山東女子學(xué)院檔案管理的應(yīng)用
    科技視界(2016年24期)2016-10-11 09:36:57
    基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
    語(yǔ)料庫(kù)語(yǔ)言學(xué)未來(lái)發(fā)展趨勢(shì)
    亚洲人成网站在线播| 日韩精品免费视频一区二区三区 | 日韩精品免费视频一区二区三区 | 在现免费观看毛片| av线在线观看网站| 伦精品一区二区三区| 中文字幕人妻丝袜制服| 精品一区二区免费观看| 精品少妇久久久久久888优播| 久久精品夜色国产| 如何舔出高潮| 超碰97精品在线观看| 久久久亚洲精品成人影院| 最新的欧美精品一区二区| 久久99蜜桃精品久久| 久久精品国产自在天天线| 国产精品国产三级国产av玫瑰| 亚洲国产精品一区三区| 人妻人人澡人人爽人人| 少妇 在线观看| 一个人免费看片子| 久久鲁丝午夜福利片| 日韩av在线免费看完整版不卡| 亚洲一区二区三区欧美精品| 亚洲天堂av无毛| 免费观看a级毛片全部| 日韩大片免费观看网站| 精品久久国产蜜桃| 久久国产亚洲av麻豆专区| 国产成人免费无遮挡视频| 国产精品女同一区二区软件| 日本爱情动作片www.在线观看| 国内精品宾馆在线| a级毛色黄片| 人妻系列 视频| 午夜精品国产一区二区电影| 久久精品夜色国产| 99热全是精品| 亚洲精品国产av蜜桃| 久久久a久久爽久久v久久| 久久毛片免费看一区二区三区| 免费看光身美女| 亚洲av日韩在线播放| 91aial.com中文字幕在线观看| 青春草亚洲视频在线观看| 黄色视频在线播放观看不卡| 赤兔流量卡办理| 我的老师免费观看完整版| 国产欧美另类精品又又久久亚洲欧美| 春色校园在线视频观看| h视频一区二区三区| 永久免费av网站大全| 美女国产视频在线观看| 午夜福利影视在线免费观看| 日韩电影二区| 日本-黄色视频高清免费观看| 最新中文字幕久久久久| 午夜老司机福利剧场| 亚洲av在线观看美女高潮| 亚洲经典国产精华液单| 亚洲av成人精品一二三区| 午夜福利视频精品| 亚洲国产毛片av蜜桃av| 91久久精品电影网| 国产精品女同一区二区软件| 亚洲图色成人| 黑丝袜美女国产一区| 欧美日韩在线观看h| 国产综合精华液| 青春草国产在线视频| a级片在线免费高清观看视频| 国产av精品麻豆| 亚洲av.av天堂| 丰满少妇做爰视频| 大又大粗又爽又黄少妇毛片口| 国产免费一级a男人的天堂| 一级片'在线观看视频| a 毛片基地| av专区在线播放| 日韩人妻高清精品专区| 欧美日韩视频高清一区二区三区二| 免费看av在线观看网站| av福利片在线观看| 亚洲av福利一区| 五月天丁香电影| 中文字幕人妻熟人妻熟丝袜美| 午夜精品国产一区二区电影| 欧美 亚洲 国产 日韩一| 午夜福利,免费看| 欧美老熟妇乱子伦牲交| 欧美日本中文国产一区发布| a级片在线免费高清观看视频| 日韩在线高清观看一区二区三区| 国产伦理片在线播放av一区| .国产精品久久| a级毛片在线看网站| 国产 一区精品| 精品熟女少妇av免费看| 久久99精品国语久久久| 久久久国产一区二区| 久久精品久久精品一区二区三区| 51国产日韩欧美| 亚洲美女搞黄在线观看| kizo精华| 日本-黄色视频高清免费观看| 亚洲第一区二区三区不卡| 免费高清在线观看视频在线观看| 色吧在线观看| 噜噜噜噜噜久久久久久91| 婷婷色综合www| 纯流量卡能插随身wifi吗| 伊人久久精品亚洲午夜| xxx大片免费视频| a 毛片基地| 中国美白少妇内射xxxbb| 街头女战士在线观看网站| 91在线精品国自产拍蜜月| 熟妇人妻不卡中文字幕| 国产免费福利视频在线观看| 国产亚洲91精品色在线| 日本黄色片子视频| av天堂中文字幕网| 欧美少妇被猛烈插入视频| 麻豆乱淫一区二区| 三级经典国产精品| 十分钟在线观看高清视频www | 久久狼人影院| 国产黄频视频在线观看| 亚洲va在线va天堂va国产| 欧美一级a爱片免费观看看| 91久久精品电影网| 亚洲欧美日韩卡通动漫| 免费少妇av软件| 亚洲一区二区三区欧美精品| 少妇裸体淫交视频免费看高清| 国产 精品1| 中文字幕制服av| 99热全是精品| 青春草视频在线免费观看| 久久久欧美国产精品| 最近中文字幕2019免费版| 一区二区三区精品91| 国产国拍精品亚洲av在线观看| 高清不卡的av网站| 久久人人爽人人片av| 久久精品熟女亚洲av麻豆精品| 老司机影院毛片| 欧美精品国产亚洲| 国产精品久久久久久精品古装| 女性生殖器流出的白浆| 久久久精品94久久精品| 久久久久久久久久久丰满| 成年美女黄网站色视频大全免费 | 狂野欧美激情性bbbbbb| 人人妻人人澡人人爽人人夜夜| 久久久久视频综合| 妹子高潮喷水视频| 中文字幕人妻丝袜制服| 久久久久久久精品精品| 精品久久久噜噜| 久久久午夜欧美精品| 日本爱情动作片www.在线观看| 丁香六月天网| 亚洲美女黄色视频免费看| 久久韩国三级中文字幕| 蜜桃在线观看..| 亚洲av成人精品一二三区| 国产片特级美女逼逼视频| kizo精华| 又大又黄又爽视频免费| 亚洲欧美一区二区三区国产| 99精国产麻豆久久婷婷| 久久人人爽av亚洲精品天堂| 国产精品麻豆人妻色哟哟久久| 国内少妇人妻偷人精品xxx网站| 午夜免费鲁丝| 成人综合一区亚洲| 免费观看a级毛片全部| 最近手机中文字幕大全| 久久鲁丝午夜福利片| 亚洲自偷自拍三级| 亚洲精品成人av观看孕妇| 伦精品一区二区三区| 女人精品久久久久毛片| 中文乱码字字幕精品一区二区三区| 亚洲丝袜综合中文字幕| 精华霜和精华液先用哪个| 免费大片18禁| 下体分泌物呈黄色| 最近的中文字幕免费完整| 精品亚洲成国产av| 亚洲国产日韩一区二区| av网站免费在线观看视频| 国产高清国产精品国产三级| 在线观看免费高清a一片| 丝袜在线中文字幕| 国产成人freesex在线| 亚洲欧美精品专区久久| 视频中文字幕在线观看| 另类精品久久| 欧美人与善性xxx| 自拍偷自拍亚洲精品老妇| 午夜91福利影院| 久热这里只有精品99| 一区在线观看完整版| 中文字幕精品免费在线观看视频 | 国产日韩欧美在线精品| 亚洲av成人精品一二三区| 国产精品99久久99久久久不卡 | 国产伦精品一区二区三区视频9| 麻豆成人午夜福利视频| .国产精品久久| 国产亚洲最大av| 99热这里只有精品一区| 国产高清不卡午夜福利| 国产男女内射视频| 欧美 日韩 精品 国产| 中国美白少妇内射xxxbb| 少妇丰满av| 精品人妻熟女av久视频| 欧美三级亚洲精品| 亚洲高清免费不卡视频| 亚洲久久久国产精品| 精品午夜福利在线看| 免费看日本二区| 制服丝袜香蕉在线| 国产免费一区二区三区四区乱码| 午夜视频国产福利| 天天躁夜夜躁狠狠久久av| 欧美xxxx性猛交bbbb| 成人毛片60女人毛片免费| 国产黄频视频在线观看| av天堂久久9| 久久99热6这里只有精品| 亚洲,欧美,日韩| 午夜av观看不卡| 午夜免费鲁丝| 如何舔出高潮| 人妻制服诱惑在线中文字幕| 夜夜爽夜夜爽视频| 亚洲人成网站在线观看播放| 亚洲一区二区三区欧美精品| 日韩三级伦理在线观看| 午夜老司机福利剧场| 久久精品国产a三级三级三级| 三级经典国产精品| 十分钟在线观看高清视频www | 中文字幕亚洲精品专区| 色94色欧美一区二区| 精品久久久久久久久av| 黑人巨大精品欧美一区二区蜜桃 | 免费观看av网站的网址| 91精品伊人久久大香线蕉| 国产伦精品一区二区三区四那| 搡女人真爽免费视频火全软件| 欧美精品亚洲一区二区| 黑丝袜美女国产一区| 亚洲av电影在线观看一区二区三区| 内地一区二区视频在线| 午夜av观看不卡| 久久久久网色| 一级毛片黄色毛片免费观看视频| 王馨瑶露胸无遮挡在线观看| 色5月婷婷丁香| 国产成人精品婷婷| av黄色大香蕉| 亚洲美女视频黄频| 女的被弄到高潮叫床怎么办| 亚洲精品视频女| 午夜福利影视在线免费观看| 亚洲成人av在线免费| 亚洲情色 制服丝袜| 日韩视频在线欧美| 色吧在线观看| 亚洲精品一区蜜桃| 久久国产乱子免费精品| 少妇 在线观看| 亚洲欧美精品自产自拍| 国产精品久久久久久av不卡| 少妇高潮的动态图| 久久久久久久精品精品| 久久亚洲国产成人精品v| 亚洲国产欧美在线一区| av线在线观看网站| 亚洲美女黄色视频免费看| 亚洲国产精品成人久久小说| 国产高清不卡午夜福利| 国精品久久久久久国模美| 久久狼人影院| 久久久国产一区二区| 中文字幕人妻熟人妻熟丝袜美| 日韩中字成人| 国产精品熟女久久久久浪| 蜜桃在线观看..| 国产精品人妻久久久久久| av视频免费观看在线观看| 亚洲精品视频女| 啦啦啦视频在线资源免费观看| 国产乱人偷精品视频| 91午夜精品亚洲一区二区三区| 国产综合精华液| 建设人人有责人人尽责人人享有的| 国产在线男女| 国产 一区精品| 成人无遮挡网站| 久久精品熟女亚洲av麻豆精品| 久久99精品国语久久久| 一二三四中文在线观看免费高清| 精品99又大又爽又粗少妇毛片| 在线观看免费日韩欧美大片 | 精品99又大又爽又粗少妇毛片| 街头女战士在线观看网站| 51国产日韩欧美| 久久99一区二区三区| 国模一区二区三区四区视频| 看十八女毛片水多多多| 啦啦啦中文免费视频观看日本| 国产av一区二区精品久久| 日韩三级伦理在线观看| 成人美女网站在线观看视频| 大码成人一级视频| 日韩视频在线欧美| 九色成人免费人妻av| 在线观看一区二区三区激情| 各种免费的搞黄视频| 精品亚洲乱码少妇综合久久| 亚洲av.av天堂| av线在线观看网站| 美女国产视频在线观看| 自线自在国产av| 少妇被粗大猛烈的视频| 国产爽快片一区二区三区| 日本午夜av视频| 妹子高潮喷水视频| 亚洲欧美精品专区久久| 婷婷色av中文字幕| 亚洲美女黄色视频免费看| a级毛色黄片| 亚洲精品日韩在线中文字幕| 免费黄色在线免费观看| 亚洲精品自拍成人| a 毛片基地| 天天操日日干夜夜撸| 久久97久久精品| 日本黄色日本黄色录像| 偷拍熟女少妇极品色| 久热这里只有精品99| 有码 亚洲区| 久久狼人影院| 成人特级av手机在线观看| h视频一区二区三区| 高清av免费在线| 大又大粗又爽又黄少妇毛片口| 日韩三级伦理在线观看| 久久狼人影院| 成人特级av手机在线观看| 人妻 亚洲 视频| 97在线视频观看| 免费人成在线观看视频色| 久久久久视频综合| 免费人成在线观看视频色| 大片电影免费在线观看免费| 国产av一区二区精品久久| 国国产精品蜜臀av免费| 人人妻人人看人人澡| 免费av中文字幕在线| 成人午夜精彩视频在线观看| 欧美国产精品一级二级三级 | 亚洲欧美日韩卡通动漫| 人人妻人人澡人人爽人人夜夜| av卡一久久| 国产成人精品福利久久| av国产久精品久网站免费入址| 看十八女毛片水多多多| 热re99久久国产66热| av有码第一页| 国语对白做爰xxxⅹ性视频网站| 九九在线视频观看精品| 免费观看的影片在线观看| 一级毛片黄色毛片免费观看视频| 女性被躁到高潮视频| 国产精品一区二区性色av| 中文乱码字字幕精品一区二区三区| 男女免费视频国产| 熟女人妻精品中文字幕| 国产黄频视频在线观看| 亚洲精品国产av蜜桃| 精品国产一区二区久久| av在线app专区| 十分钟在线观看高清视频www | 少妇人妻 视频| 黑人巨大精品欧美一区二区蜜桃 | 九九在线视频观看精品| 免费大片18禁| 嘟嘟电影网在线观看| 边亲边吃奶的免费视频| 久久综合国产亚洲精品| 丁香六月天网| 街头女战士在线观看网站| 美女cb高潮喷水在线观看| 人妻制服诱惑在线中文字幕| 一级毛片电影观看| 91成人精品电影| 最新中文字幕久久久久| 国产日韩欧美视频二区| 波野结衣二区三区在线| 99九九线精品视频在线观看视频| 中文字幕久久专区| 亚洲美女视频黄频| 韩国高清视频一区二区三区| 纵有疾风起免费观看全集完整版| 六月丁香七月| 国产成人freesex在线| 多毛熟女@视频| av黄色大香蕉| 五月伊人婷婷丁香| 免费在线观看成人毛片| 午夜福利在线观看免费完整高清在| 日本爱情动作片www.在线观看| 大香蕉久久网| 日韩欧美精品免费久久| 黑丝袜美女国产一区| 一二三四中文在线观看免费高清| 少妇的逼水好多| 免费不卡的大黄色大毛片视频在线观看| 在线免费观看不下载黄p国产| 老司机影院毛片| 久久6这里有精品| 亚洲欧美成人精品一区二区| 大码成人一级视频| 高清毛片免费看| 精品一区二区免费观看| 美女视频免费永久观看网站| 91午夜精品亚洲一区二区三区| 一本一本综合久久| 最近中文字幕2019免费版| 亚洲,一卡二卡三卡| 精品酒店卫生间| 18禁在线无遮挡免费观看视频| 肉色欧美久久久久久久蜜桃| 久久久久国产精品人妻一区二区| 哪个播放器可以免费观看大片| 高清毛片免费看| 爱豆传媒免费全集在线观看| a级一级毛片免费在线观看| av天堂久久9| 久久久久国产网址| 高清欧美精品videossex| 国内少妇人妻偷人精品xxx网站| 久久精品国产亚洲网站| 国内揄拍国产精品人妻在线| tube8黄色片| 欧美另类一区| 黄色配什么色好看| 国产亚洲精品久久久com| a级毛片在线看网站| 免费看av在线观看网站| 少妇人妻久久综合中文| 男人添女人高潮全过程视频| 一级毛片久久久久久久久女| 黄色日韩在线| a 毛片基地| 日本av免费视频播放| 自线自在国产av| 成人毛片a级毛片在线播放| 欧美性感艳星| 午夜免费男女啪啪视频观看| 大片电影免费在线观看免费| 精品亚洲成国产av| 日韩不卡一区二区三区视频在线| 成年av动漫网址| 日韩中字成人| 女的被弄到高潮叫床怎么办| 黄片无遮挡物在线观看| 最近的中文字幕免费完整| 男的添女的下面高潮视频| 国产淫片久久久久久久久| 日本免费在线观看一区| 成人漫画全彩无遮挡| 新久久久久国产一级毛片| 日韩不卡一区二区三区视频在线| 曰老女人黄片| 久久精品国产亚洲av涩爱| 欧美另类一区| 精品视频人人做人人爽| 精品一区二区免费观看| 18禁动态无遮挡网站| 黄片无遮挡物在线观看| 韩国av在线不卡| 大陆偷拍与自拍| 国产黄片视频在线免费观看| 国产成人一区二区在线| av天堂久久9| 久久久欧美国产精品| 男女边吃奶边做爰视频| 久久婷婷青草| 精品久久久久久久久av| 国产精品麻豆人妻色哟哟久久| 少妇人妻 视频| 99热这里只有是精品在线观看| 天天操日日干夜夜撸| 丰满少妇做爰视频| 在线播放无遮挡| 成人漫画全彩无遮挡| 午夜福利,免费看| 国产免费一区二区三区四区乱码| 日韩一本色道免费dvd| 亚洲精品国产av蜜桃| 久久久国产一区二区| 国产探花极品一区二区| 日韩免费高清中文字幕av| 男人舔奶头视频| 黑人巨大精品欧美一区二区蜜桃 | 久久热精品热| 国产爽快片一区二区三区| 国产成人精品婷婷| 成年人免费黄色播放视频 | 欧美最新免费一区二区三区| 最近2019中文字幕mv第一页| 亚洲欧美成人综合另类久久久| 久久狼人影院| 黄色毛片三级朝国网站 | 亚洲国产欧美日韩在线播放 | 在线精品无人区一区二区三| 国产亚洲精品久久久com| av播播在线观看一区| 亚洲不卡免费看| 一本—道久久a久久精品蜜桃钙片| 久久久国产欧美日韩av| 在线观看三级黄色| 日本欧美视频一区| 这个男人来自地球电影免费观看 | 日韩成人av中文字幕在线观看| 欧美激情极品国产一区二区三区 | av卡一久久| 国产永久视频网站| 亚洲精品国产av蜜桃| 国产男女内射视频| 国产白丝娇喘喷水9色精品| 国产美女午夜福利| 亚洲欧美成人综合另类久久久| a级一级毛片免费在线观看| 国产精品久久久久久av不卡| 男人舔奶头视频| 97在线人人人人妻| 亚洲av电影在线观看一区二区三区| 人体艺术视频欧美日本| 国产乱来视频区| 最近最新中文字幕免费大全7| 午夜福利,免费看| 免费观看的影片在线观看| 日本av免费视频播放| 欧美一级a爱片免费观看看| 日本爱情动作片www.在线观看| 亚洲国产精品一区二区三区在线| 一级av片app| 久久久国产一区二区| 女人久久www免费人成看片| 国产精品久久久久久精品电影小说| 日本午夜av视频| av专区在线播放| 美女内射精品一级片tv| 久久99精品国语久久久| 在线观看一区二区三区激情| 亚洲色图综合在线观看| 男的添女的下面高潮视频| 国产深夜福利视频在线观看| 久久午夜综合久久蜜桃| av.在线天堂| 超碰97精品在线观看| 中文精品一卡2卡3卡4更新| 国产成人freesex在线| 欧美日韩av久久| 极品人妻少妇av视频| 久久av网站| 在现免费观看毛片| 视频区图区小说| 在线播放无遮挡| 亚洲美女黄色视频免费看| 精品一区二区三卡| 中文字幕av电影在线播放| 亚洲精品亚洲一区二区| 免费黄频网站在线观看国产| 久久99热这里只频精品6学生| 国产永久视频网站| 中文字幕人妻熟人妻熟丝袜美| 综合色丁香网| av网站免费在线观看视频| 亚洲av在线观看美女高潮| 美女xxoo啪啪120秒动态图| 天堂中文最新版在线下载| 亚洲av不卡在线观看| 精品一区在线观看国产| 免费观看av网站的网址| 中文字幕制服av| 日韩强制内射视频| 肉色欧美久久久久久久蜜桃| 中文字幕制服av| 国产高清国产精品国产三级| 亚洲欧美精品自产自拍| 蜜桃久久精品国产亚洲av| 久久ye,这里只有精品| 欧美三级亚洲精品| 99热这里只有精品一区| 国产日韩一区二区三区精品不卡 | 国产黄频视频在线观看| 极品少妇高潮喷水抽搐| 一级片'在线观看视频| 日日摸夜夜添夜夜添av毛片| 美女福利国产在线| 午夜福利网站1000一区二区三区| 青春草国产在线视频| 视频区图区小说| 免费人成在线观看视频色| 人人澡人人妻人|