• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向科研與教學(xué)的文本分類(lèi)平臺(tái)構(gòu)建

    2015-12-15 01:57:35路永和彭燕虹劉文秋
    現(xiàn)代情報(bào) 2015年9期
    關(guān)鍵詞:文本分類(lèi)語(yǔ)料庫(kù)

    路永和+彭燕虹+劉文秋

    〔摘 要〕為提高中文文本分類(lèi)科研與教學(xué)人員的工作效率,本文針對(duì)國(guó)內(nèi)現(xiàn)有中文文本分類(lèi)系統(tǒng)的研發(fā)現(xiàn)狀,構(gòu)建一個(gè)包括預(yù)處理、特征選擇、權(quán)值計(jì)算、自動(dòng)分類(lèi)和分類(lèi)效果測(cè)評(píng)等文本分類(lèi)全過(guò)程的管理平臺(tái)。開(kāi)發(fā)過(guò)程中,本文使用系統(tǒng)集成思想和方法將自編軟件代碼與相關(guān)的開(kāi)源軟件代碼進(jìn)行集成。經(jīng)測(cè)試,該系統(tǒng)實(shí)現(xiàn)了文本自動(dòng)分類(lèi)過(guò)程的全部功能。

    〔關(guān)鍵詞〕文本分類(lèi);MVC;語(yǔ)料庫(kù);訓(xùn)練集;測(cè)試集

    DOI:10.3969/j.issn.1008-0821.2015.09.011

    〔中圖分類(lèi)號(hào)〕TP391 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2015)09-0056-07

    〔Abstract〕In order to improve the working efficiency of the people which are occupied in scientific research and teaching of Chinese text categorization and considering about the research and development status of the text categorization system in China,a management platform of text categorization for the whole process,including pre-processing,feature selection,weighting calculation,automatic classification and classification evaluation were built.In the process of the development,based on the principle and method of system integration,the coding of ourselves and the ones of the related open source software were integrated.After testing,the system implemented the whole functions of automatic text categorization.

    〔Key words〕text classification;MVC;corpus;training set;testing set

    文本分類(lèi)是基于內(nèi)容的自動(dòng)文本信息管理,隨著網(wǎng)絡(luò)文本數(shù)量呈幾何級(jí)數(shù)增長(zhǎng),文本分類(lèi)已成為處理和組織海量文本信息的關(guān)鍵技術(shù)[1]。文本分類(lèi)就是將文本信息分到已定義好的一個(gè)或多個(gè)類(lèi)中,從而幫助人們更好更快的檢索到有用信息,過(guò)濾掉無(wú)用信息。一般而言,文本分類(lèi)分為以下5個(gè)環(huán)節(jié),包括:文本預(yù)處理、特征選擇、權(quán)值計(jì)算、分類(lèi)算法、分類(lèi)效果測(cè)評(píng)。當(dāng)前,文本分類(lèi)技術(shù)被廣泛應(yīng)用于日常數(shù)據(jù)管理的各個(gè)方面[2-4],如瀏覽器的資源分層、垃圾短信郵件的過(guò)濾、敏感信息的預(yù)警、網(wǎng)絡(luò)輿情監(jiān)測(cè)[5]等。但由于文本分類(lèi)流程的復(fù)雜性,需要撰寫(xiě)大量的代碼,不僅耗時(shí)耗力、成本代價(jià)高昂,且造成了嚴(yán)重的代碼重復(fù),浪費(fèi)了研究者們的寶貴時(shí)間、延長(zhǎng)了科研進(jìn)度,使很多學(xué)者不能在第一時(shí)間完成自己的最新研究。對(duì)致力于學(xué)習(xí)文本分類(lèi)技術(shù)的高校學(xué)生而言,由于文本分類(lèi)過(guò)程的抽象復(fù)雜,他們很難學(xué)習(xí)到相應(yīng)知識(shí)內(nèi)核?;谏鲜鲈?,研發(fā)一個(gè)面向教學(xué)與科研的文本分類(lèi)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)集導(dǎo)入、訓(xùn)練集與測(cè)試集索引、特征選擇、權(quán)值計(jì)算、文本分類(lèi)并提供可視化的界面,使得科研人員、高校學(xué)生甚至包括無(wú)技術(shù)背景的人員均能利用此文本分類(lèi)系統(tǒng)進(jìn)行文本分類(lèi)領(lǐng)域的相關(guān)研究與應(yīng)用。

    1 系統(tǒng)需求分析

    目前,國(guó)外已經(jīng)開(kāi)發(fā)出了一些成熟的文本分類(lèi)平臺(tái),如著名的IBM商用數(shù)據(jù)挖掘平臺(tái)IBM Intelligent Miner,是一款包含文本分類(lèi)、預(yù)測(cè)、關(guān)聯(lián)規(guī)則產(chǎn)生等基礎(chǔ)研究成果在內(nèi)的可伸縮性平臺(tái)。該平臺(tái)提供了豐富的數(shù)據(jù)分析技術(shù)和算法集,具有大量易于開(kāi)發(fā)者使用的編程接口,是市場(chǎng)上最強(qiáng)大的數(shù)據(jù)分析平臺(tái)之一[6]。但是作為商用挖掘工具,該平臺(tái)價(jià)格較高且不宜用于學(xué)術(shù)研究。斯坦福大學(xué)自然語(yǔ)言處理組提供了開(kāi)源的Natural Language Toolkit(NLTK)平臺(tái)用于進(jìn)行分詞、詞性標(biāo)注、文本分類(lèi)等工作[7],但NLTK只適用于Python語(yǔ)句且主要支持英文及其他一些拉丁語(yǔ)系,無(wú)法處理中文語(yǔ)料。Waikato大學(xué)研究的開(kāi)源平臺(tái)Waikato Environment for Knowledge Analysis(WEKA),它包含對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、關(guān)聯(lián)規(guī)則挖掘、分類(lèi)、聚類(lèi)等多種功能,并提供了易于交互的可視化界面[8]。Weka的源碼是公開(kāi)的,因此使用者可以根據(jù)自身需要對(duì)Weka進(jìn)行二次開(kāi)發(fā),拓展其功能或者整合到相應(yīng)的系統(tǒng)中。相比國(guó)外,國(guó)內(nèi)在文本分類(lèi)平臺(tái)開(kāi)發(fā)上發(fā)展較慢,主要是基于國(guó)外著名開(kāi)源平臺(tái)進(jìn)行的二次開(kāi)發(fā)。自主研制的相關(guān)平臺(tái)主要有復(fù)旦自然語(yǔ)言處理(FudanNLP,F(xiàn)NLP)、中科院漢語(yǔ)分詞系統(tǒng)(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)以及譚松波的DRAP文本分類(lèi)系統(tǒng)。FNLP主要包括了以下功能:文本分類(lèi)、實(shí)體名識(shí)別、新聞聚類(lèi)、詞性標(biāo)注、中文分詞、關(guān)鍵詞抽取、依存句法分析等。工具采用Java編寫(xiě),并提供了API的訪問(wèn)調(diào)用方式[9]。但此平臺(tái)初始化時(shí)間有點(diǎn)長(zhǎng),并且加載模型時(shí)占用內(nèi)存較大,在進(jìn)行語(yǔ)法分析時(shí)分析的結(jié)果也不是十分準(zhǔn)確。ICTCLAS主要包括以下功能:中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別,同時(shí)支持用戶詞典。目前,ICTCLAS30分詞速度單機(jī)996KB/s,分詞精度9845%,API不超過(guò)200KB,各種詞典數(shù)據(jù)壓縮后不到3M,是當(dāng)前世界上最好的漢語(yǔ)詞法分析器[10]。但是ICTCLAS并非完整的文本分類(lèi)系統(tǒng),只包含了文本分類(lèi)過(guò)程中文檔預(yù)處理環(huán)節(jié)的切分詞操作。DRAP文本分類(lèi)系統(tǒng),支持中英文分類(lèi)、中文最大匹配分詞、特征選擇、英文詞根還原、停用詞去除、雙語(yǔ)種分類(lèi)和多線程分類(lèi),其中雙語(yǔ)種分類(lèi)、多線程分類(lèi)需要定制后才可使用[11]。但是該分類(lèi)平臺(tái)并不能進(jìn)行特征選擇方法以及分類(lèi)器的選擇,各個(gè)分類(lèi)環(huán)節(jié)采取系統(tǒng)默認(rèn)設(shè)置,同時(shí)系統(tǒng)實(shí)用性不強(qiáng)、極易閃退。綜合而言,國(guó)內(nèi)尚未有成型且使用效果良好的文本分類(lèi)系統(tǒng)平臺(tái),開(kāi)發(fā)一個(gè)易于使用、功能簡(jiǎn)捷、操作簡(jiǎn)單的文本分類(lèi)系統(tǒng),將為自動(dòng)文本分類(lèi)技術(shù)的使用者提供極大的便利。endprint

    基于此,本系統(tǒng)平臺(tái)搭建的主要目標(biāo)是為從事文本分類(lèi)教學(xué)、科研的人員提供一個(gè)易于使用、功能簡(jiǎn)捷、對(duì)系統(tǒng)運(yùn)行環(huán)境要求不高、具有可視化功能的文本分類(lèi)系統(tǒng)。為了達(dá)到此目標(biāo),系統(tǒng)的功能性需求包括:(1)提供可視化的使用界面,用戶只需點(diǎn)擊相應(yīng)按鈕,即可執(zhí)行所需的文本分類(lèi)各個(gè)環(huán)節(jié)的操作,不再需要人為進(jìn)行代碼撰寫(xiě);(2)提供單篇文檔分類(lèi)、多篇文檔分類(lèi)兩個(gè)入口,以滿足不同需求;(3)提供各個(gè)環(huán)節(jié)的運(yùn)行結(jié)果,使得用戶能夠及時(shí)了解文本分類(lèi)各個(gè)環(huán)節(jié)的運(yùn)行情況。同時(shí),系統(tǒng)需要滿足以下2個(gè)非功能需求,才能更好地服務(wù)于使用者,包括:(1)易使用性:系統(tǒng)具有良好的交互界面,界面功能描述清晰,步驟明確,用戶只要執(zhí)行選擇、確定操作,即可順利使用平臺(tái);(2)健壯性:系統(tǒng)平臺(tái)應(yīng)該可靠有效,即使出現(xiàn)系統(tǒng)故障或是用戶輸入、操作錯(cuò)誤或者其它異常,也能夠迅速捕獲并進(jìn)行處理。

    2 系統(tǒng)構(gòu)建

    21 系統(tǒng)總體架構(gòu)

    本系統(tǒng)使用MVC三層架構(gòu)設(shè)計(jì),包括表示層、業(yè)務(wù)邏輯層以及數(shù)據(jù)訪問(wèn)層,開(kāi)發(fā)語(yǔ)言采用Java,如圖1所示。

    用戶通過(guò)表示層進(jìn)行界面操作。第一步:索引訓(xùn)練集、索引測(cè)試集以進(jìn)行文本預(yù)處理操作,通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層文本預(yù)處理模塊,調(diào)用文本預(yù)處理接口,運(yùn)行文本預(yù)處理各個(gè)環(huán)節(jié),包括ICTLAS分詞、去停用詞、Lucene特征詞索引以及統(tǒng)計(jì)詞頻,生成一個(gè)wordCount.txt文件(即詞頻統(tǒng)計(jì)文件)存儲(chǔ)于數(shù)據(jù)訪問(wèn)層中。第二步:用戶通過(guò)界面操作特征選擇環(huán)節(jié),包括選擇特征選擇方法以及輸入特征維數(shù),通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層特征選擇模塊,調(diào)用特征選擇接口,讀取wordCount.txt文件,運(yùn)行特征選擇業(yè)務(wù),生成特征選擇方法維數(shù)txt文件,存儲(chǔ)于數(shù)據(jù)訪問(wèn)層中。第三步:用戶通過(guò)界面選擇所需的權(quán)值計(jì)算方法以進(jìn)行權(quán)值計(jì)算操作,通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層權(quán)值計(jì)算模塊,調(diào)用權(quán)值計(jì)算接口,分別讀取各個(gè)特征選擇方法維數(shù)txt文件,運(yùn)行權(quán)值計(jì)算業(yè)務(wù),生成相應(yīng)TrainSet權(quán)值計(jì)算方法aff文件和TestSet權(quán)值計(jì)算方法aff文件,存儲(chǔ)于數(shù)據(jù)訪問(wèn)層中。第四步:用戶通過(guò)界面選擇所需的分類(lèi)算法以進(jìn)行分類(lèi)操作,通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層WEKA分類(lèi)算法模塊,調(diào)用Weka分類(lèi)算法接口,分別讀取成對(duì)的TrainSet權(quán)值計(jì)算方法aff文件和TestSet權(quán)值計(jì)算方法aff文件,運(yùn)行分類(lèi)業(yè)務(wù)。第五步:第四步運(yùn)行分類(lèi)業(yè)務(wù)后,直接訪問(wèn)業(yè)務(wù)邏輯層分類(lèi)效果測(cè)評(píng)模塊,運(yùn)行分類(lèi)效果測(cè)評(píng)業(yè)務(wù),包括單篇測(cè)試文檔分類(lèi)結(jié)果(分類(lèi)結(jié)果、實(shí)際類(lèi)別),測(cè)試集分類(lèi)結(jié)果(準(zhǔn)確率、宏平均值、微平均值),業(yè)務(wù)邏輯層運(yùn)行結(jié)果直接返回表示層,在用戶界面顯示分類(lèi)效果測(cè)評(píng)(準(zhǔn)確率、宏平均值、微平均值)。

    22 主要功能模塊

    本系統(tǒng)主要功能大致可以分為四大模塊:表示模塊,用戶請(qǐng)求監(jiān)聽(tīng)模塊、業(yè)務(wù)邏輯模塊和數(shù)據(jù)存儲(chǔ)模塊。

    221 表示模塊,即系統(tǒng)平臺(tái)界面

    表示模塊即文本分類(lèi)系統(tǒng)的UI,負(fù)責(zé)接受用戶的請(qǐng)求并返回請(qǐng)求內(nèi)容,該模塊使用JFC技術(shù),界面中使用了Java Swing和Java AWT等UI組件。在Java Swing中,每一個(gè)組件都包含一個(gè)MVC模型,Model模塊決定組件的行為,View模塊決定組件的UI。以JButton為例,按鈕表面提示文字,如“特征選擇”按鈕,這部分就是View。而當(dāng)前按鈕是被鎖定的還是處于激活狀態(tài),如“按鈕是否能被點(diǎn)擊”,這部分就是Model。

    222 用戶請(qǐng)求監(jiān)聽(tīng)模塊

    使用ActionListener接收表示層所發(fā)出的請(qǐng)求,對(duì)請(qǐng)求進(jìn)行相應(yīng)處理,并將處理后的結(jié)果返回給表示層。用戶請(qǐng)求監(jiān)聽(tīng)模塊主要負(fù)責(zé)監(jiān)聽(tīng)用戶的操作,并根據(jù)用戶的請(qǐng)求,更新文本分類(lèi)子系統(tǒng)的配置信息。該模塊主要為表示層提供服務(wù),同時(shí)充當(dāng)表示層和業(yè)務(wù)邏輯層間溝通的橋梁,包括:監(jiān)聽(tīng)用戶操作和控制輸入規(guī)范。因此,該模塊主要解決以下兩個(gè)問(wèn)題:①系統(tǒng)能夠精確地捕獲用戶的操作并可以為用戶提供即時(shí)反饋;同時(shí),在響應(yīng)用戶的請(qǐng)求過(guò)程中,需要保證不會(huì)錯(cuò)過(guò)用戶的其它操作。②系統(tǒng)接受的數(shù)據(jù)需要控制在一定的范圍內(nèi),同時(shí)保證數(shù)據(jù)是有效的輸入。對(duì)于規(guī)范要求以外的輸入,系統(tǒng)能夠正確地判斷出來(lái),并且以合理的方式處理。

    223 業(yè)務(wù)邏輯模塊

    本系統(tǒng)的業(yè)務(wù)邏輯模塊即文本分類(lèi)的流程操作,包括:①文本預(yù)處理:ICTCLAS分詞、去停用詞、Luence建立索引和統(tǒng)計(jì)詞頻;②特征選擇:信息增益、卡方檢驗(yàn)和互信息;③權(quán)值計(jì)算:TF-IDF;④分類(lèi)算法:K最近鄰算法、樸素貝葉斯算法、支持向量機(jī)算法和J48決策樹(shù)算法;⑤分類(lèi)效果測(cè)評(píng):準(zhǔn)確率、宏平均F值和微平均F值。

    224 數(shù)據(jù)存儲(chǔ)模塊

    即包括系統(tǒng)所涉及的所有數(shù)據(jù)文件的安全持久存放。數(shù)據(jù)主要保存為txt格式和arff格式。其中:①txt格式:wordCount.txt主要的作用是保存詞頻統(tǒng)計(jì)的結(jié)果,如某文本出現(xiàn)在類(lèi)別Ci中的頻次,出現(xiàn)在類(lèi)別Ci的文本數(shù)量等。后續(xù)特征選擇模塊和特征權(quán)值計(jì)算模塊在使用特征詞的詞頻等數(shù)據(jù)能夠直接從這個(gè)文件中調(diào)取。特征選擇方法維數(shù)txt主要的作用是保存某一維數(shù)下采用某一特征選擇方法得到的特征詞;②arff格式的文件是Weka默認(rèn)的儲(chǔ)存數(shù)據(jù)集文件。每個(gè)ARFF文件對(duì)應(yīng)一個(gè)二維表格。表格的各行是數(shù)據(jù)集的各實(shí)例,各列是數(shù)據(jù)集的各個(gè)屬性。因?yàn)楸疚脑O(shè)計(jì)的文本分類(lèi)系統(tǒng)平臺(tái)在分類(lèi)算法模塊中調(diào)用Weka開(kāi)源工具,所以特征權(quán)值計(jì)算模塊的最終輸出為arff格式文件,方便分類(lèi)算法模塊的調(diào)用。

    3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

    31 用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)

    用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)主要基于GUI類(lèi)。首先,GUI類(lèi)繼承了JFrame類(lèi),同時(shí)實(shí)現(xiàn)了ActionListener接口,故其本身是一個(gè)具有監(jiān)聽(tīng)事件行為的窗口。其次,GUI類(lèi)作為用戶界面,是整個(gè)系統(tǒng)的入口。在GUI類(lèi)的構(gòu)造過(guò)程中,將按鈕和文本框布局到GUI類(lèi)上,并分別為它們?cè)O(shè)置對(duì)應(yīng)的監(jiān)聽(tīng)事件。整個(gè)用戶界面設(shè)置的事件有5種:endprint

    (1)分類(lèi)算法的單選按鈕事件RadioListener1。該事件用于更新文本分類(lèi)算法。當(dāng)用戶選擇了某種文本分類(lèi)方法,那么用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)就會(huì)把文本分類(lèi)子系統(tǒng)的分類(lèi)算法設(shè)置為對(duì)應(yīng)的值。

    (2)特征選擇方法的單選按鈕事件RadioListener2。該事件用于更新特征選擇方法。當(dāng)用戶選擇了某種特征選擇方法,那么用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)就會(huì)把文本分類(lèi)子系統(tǒng)的特征選擇方法設(shè)置為對(duì)應(yīng)的值。

    (3)權(quán)值計(jì)算方法的單選按鈕事件RadioListener3。該事件用于更新權(quán)值計(jì)算方法。當(dāng)用戶選擇了某種權(quán)值計(jì)算方法,那么用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)就會(huì)把文本分類(lèi)子系統(tǒng)的權(quán)值計(jì)算方法設(shè)置為對(duì)應(yīng)的值。

    (4)特征維數(shù)文本框的內(nèi)容更新事件KeyAdapter。該事件用于檢測(cè)特征維數(shù)的有效性。如果用戶填寫(xiě)的特征維數(shù)不在有效范圍內(nèi),那么系統(tǒng)就會(huì)提示特征維數(shù)無(wú)效。

    (5)文本分類(lèi)子系統(tǒng)激活事件GUI(GUI實(shí)現(xiàn)了ActionListener接口)。該事件主要用于執(zhí)行文本分類(lèi)子系統(tǒng)的任務(wù),包括索引訓(xùn)練、特征選擇、權(quán)值計(jì)算和分類(lèi)。

    用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)的類(lèi)圖,如圖2所示,這里略去函數(shù)和屬性。

    32 文本分類(lèi)子系統(tǒng)

    文本分類(lèi)子系統(tǒng)包括文本預(yù)處理、特征選擇、權(quán)值計(jì)算、文本分類(lèi)、文本分類(lèi)效果測(cè)評(píng)等,系統(tǒng)流程圖,如圖3所示。

    321 文本預(yù)處理

    文本預(yù)處理是文本分類(lèi)環(huán)節(jié)中重要的一環(huán)[12]。文本預(yù)處理的主要目的是抽取代表文本特征的元數(shù)據(jù)(特征項(xiàng)),一般包括去除標(biāo)記、去除停用詞以及在特定情況下進(jìn)行分詞處理等工作[13]。本系統(tǒng)中,文本預(yù)處理主要用于實(shí)現(xiàn)中文文本分詞、特征詞索引和特征詞詞頻統(tǒng)計(jì)。本文的文本預(yù)處理操作,通過(guò)將中科院分詞器ICTCLAS整合進(jìn)Lucene平臺(tái)完善了Lucene平臺(tái)對(duì)中文分詞的不足,在利用ICTCLAS進(jìn)行分詞后,用Lucene實(shí)現(xiàn)后續(xù)的去停用詞、建立索引、統(tǒng)計(jì)詞頻等文本預(yù)處理操作。為文本預(yù)處理設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    TermStatistic類(lèi):包含文本分詞、特征詞索引、特征詞詞頻統(tǒng)計(jì)操作接口。

    ICTCLASAnalyzer類(lèi):主要實(shí)現(xiàn)中文文本的分詞操作。

    Indexer類(lèi):將分詞后的單詞按照字典順序進(jìn)行索引操作,便于下一步詞頻統(tǒng)計(jì)。

    WordFrequence類(lèi):利用分詞和索引的結(jié)果,統(tǒng)計(jì)特征詞詞頻,為下一步特征選擇和特征權(quán)值計(jì)算做數(shù)據(jù)準(zhǔn)備,運(yùn)行后生成wordCount.txt。

    用戶選擇完訓(xùn)練集路徑后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)調(diào)用函數(shù)setTrainpath和getTestpath分別記錄訓(xùn)練集和測(cè)試集路徑。當(dāng)用戶點(diǎn)擊“索引訓(xùn)練集”按鈕后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)調(diào)用類(lèi)TermStatistic對(duì)訓(xùn)練文檔和測(cè)試文檔進(jìn)行索引。索引完畢后,TermStatistic的對(duì)象調(diào)用WordFrequence類(lèi)進(jìn)行詞頻統(tǒng)計(jì),統(tǒng)計(jì)后的結(jié)果保存到wordCount.txt文件上。

    322 特征選擇

    特征選擇用于從原有的特征中提取出少量的、具有代表性的特征,并替代原始特征集進(jìn)行文本分類(lèi)。在文本分類(lèi)中,特征選擇是一項(xiàng)很重要的工作,抽取到的特征項(xiàng)質(zhì)量的好壞直接影響到分類(lèi)的效果[14]。本文的文本分類(lèi)平臺(tái)中整合了經(jīng)典的特征選擇方法,包括信息增益IG、開(kāi)方檢驗(yàn)CHI以及互信息MI。其中本文設(shè)計(jì)的平臺(tái)設(shè)置CHI作為特征選擇的默認(rèn)方法。為特征選擇設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    FeatureSelection類(lèi):特征選擇基類(lèi),在基類(lèi)上派生具體的特征選擇類(lèi),如CHI-FS類(lèi)。

    Parameter類(lèi):保存訓(xùn)練文本集、測(cè)試文本集以及新生成特征詞及其詞頻文件的存放路徑。

    Method類(lèi):主要包含詞頻以及CHI方法中所需參數(shù)。

    用戶提交請(qǐng)求后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)通過(guò)函數(shù)setFSType()來(lái)設(shè)置用戶特征選擇的方法,在執(zhí)行特征選擇操作之前,先通過(guò)setFeatureNum函數(shù)獲取用戶設(shè)置的特征維數(shù),然后調(diào)用FeatureSelection()函數(shù)來(lái)執(zhí)行特征選擇操作。FeatureSelection()函數(shù)通過(guò)變量FSType確定調(diào)用哪個(gè)特征選擇方法類(lèi)并生成一個(gè)實(shí)例。假設(shè)用戶使用默認(rèn)特征選擇方法CHI,將特征維數(shù)getFeatureNum()作為參數(shù)傳入其中。通過(guò)Method類(lèi)下的getDocNumInC()函數(shù)獲取訓(xùn)練集中的文本數(shù),通過(guò)調(diào)用termCountSum()函數(shù)獲取預(yù)處理后的每個(gè)類(lèi)別下的特征項(xiàng)。

    323 權(quán)值計(jì)算

    特征權(quán)值就是用來(lái)表示某個(gè)特征項(xiàng)分類(lèi)能力的強(qiáng)弱?,F(xiàn)行的很多分類(lèi)算法都利用向量空間模型(Vector Space Model,VSM)來(lái)進(jìn)行文本表示,用特征項(xiàng)和特征權(quán)值來(lái)代表特征信息[15]。本文設(shè)計(jì)的平臺(tái)中設(shè)置TF-IDF作為權(quán)值計(jì)算的默認(rèn)方法。為權(quán)值計(jì)算設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    TermWeightCalculation類(lèi):特征權(quán)值計(jì)算基類(lèi),在基類(lèi)上派生具體的特征權(quán)值計(jì)算類(lèi),如TFIDF類(lèi)。endprint

    Parameter類(lèi):保存文件路徑,具體包括:訓(xùn)練文本集、測(cè)試文本集、新生成特征詞、詞頻以及特征權(quán)值計(jì)算生成的文件。

    用戶提交請(qǐng)求后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)通過(guò)函數(shù)setWeightType()來(lái)設(shè)置用戶權(quán)值計(jì)算的方法,然后調(diào)用TrainWeightCalculate()函數(shù)以及TestWeightCalculate()函數(shù)來(lái)分別執(zhí)行訓(xùn)練集以及測(cè)試集權(quán)值計(jì)算操作。TrainWeightCalculate()函數(shù)以及TestWeightCalculate()函數(shù)通過(guò)變量WeightType確定調(diào)用哪個(gè)特征權(quán)值計(jì)算方法類(lèi)并生成一個(gè)實(shí)例。

    324 分類(lèi)算法與效果測(cè)評(píng)

    文本分類(lèi)算法是文本分類(lèi)中的核心問(wèn)題,也稱(chēng)為文本分類(lèi)器或分類(lèi)模型[13]。文本分類(lèi)根據(jù)文本的特征和權(quán)值,將文本按照一定的分類(lèi)規(guī)則自動(dòng)標(biāo)注文本類(lèi)別的過(guò)程。作為一個(gè)文本分類(lèi)系統(tǒng)平臺(tái),應(yīng)整合多種經(jīng)典的算法,供平臺(tái)使用者進(jìn)行實(shí)驗(yàn)對(duì)比。由于Weka已經(jīng)涵蓋了大部分的分類(lèi)算法,本文介紹的平臺(tái)上的分類(lèi)算法是調(diào)用Weka的分類(lèi)算法,其中包括KNN算法、樸素貝葉斯算法、支持向量機(jī)(SVM)算法和J48決策樹(shù)算法。其中本文設(shè)計(jì)的平臺(tái)設(shè)置KNN為默認(rèn)的分類(lèi)算法。為分類(lèi)算法設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    WekaClassifier類(lèi):整合了Weka開(kāi)源平臺(tái)中大部分文本分類(lèi)方法的類(lèi)接口,調(diào)用Weka中的類(lèi)IBk、LibSVM、J48、NaiveBayes,并根據(jù)Weka中的分類(lèi)算法返回的結(jié)果生成分類(lèi)器。

    Classifier類(lèi):分類(lèi)算法基類(lèi),在基類(lèi)上派生具體的分類(lèi)算法類(lèi),如KNN類(lèi)、SVM類(lèi)、J48類(lèi)以及BAYS類(lèi)。

    ArffLoader類(lèi):讀取訓(xùn)練文件和測(cè)試文件。

    ArrayList類(lèi):輸出每一個(gè)測(cè)試語(yǔ)料的文本分類(lèi)測(cè)評(píng)結(jié)果,包括分類(lèi)結(jié)果和實(shí)際類(lèi)別。

    用戶提交請(qǐng)求后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)通過(guò)函數(shù)setClassifierType()來(lái)設(shè)置用戶分類(lèi)算法,然后在wekaClassifier類(lèi)中調(diào)用Classify()函數(shù)來(lái)執(zhí)行分類(lèi)算法操作。Classify()函數(shù)通過(guò)變量type確定調(diào)用哪個(gè)分類(lèi)算法并生成一個(gè)實(shí)例。通過(guò)ArffLoader類(lèi)下的getDataSet()函數(shù)獲取訓(xùn)練集及測(cè)試集文件,通過(guò)各個(gè)實(shí)例類(lèi)的buildClassifier()函數(shù)進(jìn)行分類(lèi)訓(xùn)練,通過(guò)調(diào)用classifyInstance()函數(shù)及classValue()函數(shù)獲取分類(lèi)后的每個(gè)測(cè)試語(yǔ)料的分類(lèi)結(jié)果,通過(guò)ArrayList類(lèi)循環(huán)輸出分類(lèi)結(jié)果。

    4 系統(tǒng)功能測(cè)試

    采用復(fù)旦中文分類(lèi)語(yǔ)料庫(kù)作為系統(tǒng)測(cè)試的語(yǔ)料庫(kù),選取其中的9個(gè)類(lèi)別,包括Agriculture、Art、Computer、Economy、Environment、History、Politics、Space以及Sports。各個(gè)類(lèi)別均有400個(gè)文本,按1∶1隨機(jī)分配,訓(xùn)練集與測(cè)試集各為200個(gè),數(shù)據(jù)集共有3 600個(gè)文本。本文設(shè)計(jì)的文本分類(lèi)系統(tǒng)可在“中大極天智能信息處理實(shí)驗(yàn)室”[16]上下載,安裝后可對(duì)平臺(tái)的各項(xiàng)功能進(jìn)行測(cè)試。

    41 文本預(yù)處理

    索引訓(xùn)練集和測(cè)試集過(guò)程中,系統(tǒng)會(huì)對(duì)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料進(jìn)行分詞、去停用詞、索引和統(tǒng)計(jì)操作。具體操作包括:對(duì)每個(gè)文檔進(jìn)行切分詞操作,并對(duì)每個(gè)特征項(xiàng)評(píng)估其詞性,從而便于在去停用詞階段排除某些詞性的特征項(xiàng)。在進(jìn)行分詞處理后,對(duì)訓(xùn)練文本集建立索引,便于后續(xù)進(jìn)行詞頻統(tǒng)計(jì)等工作。索引結(jié)束后系統(tǒng)會(huì)輸出建立索引所花費(fèi)的時(shí)間。針對(duì)復(fù)旦中文分類(lèi)語(yǔ)料庫(kù),1 800篇訓(xùn)練文檔,共花費(fèi)了127 910毫秒來(lái)建立索引;1 800篇測(cè)試文檔,共花費(fèi)了237 385毫秒來(lái)建立索引。

    42 特征選擇

    任意選擇平臺(tái)上一種經(jīng)典的特征選擇方法,輸入特征維數(shù)然后點(diǎn)擊“特征選擇”按鈕,后臺(tái)運(yùn)行特征選擇操作,在系統(tǒng)平臺(tái)結(jié)果區(qū)會(huì)出現(xiàn)經(jīng)過(guò)特征選擇后被選出的特征項(xiàng)列表。以特征維數(shù)600為例,分別利用CHI、IG、MI進(jìn)行特征選擇操作,得到前20個(gè)特征詞如表1所示。

    觀察各個(gè)特征選擇方法得到的前20個(gè)特征詞可知:CHI、IG得到的特征詞較為類(lèi)似,而MI與CHI、IG的特征詞差別較大。

    43 權(quán)值計(jì)算

    選擇權(quán)值計(jì)算方法,進(jìn)行“訓(xùn)練集權(quán)值計(jì)算”和“測(cè)試集權(quán)值計(jì)算”,運(yùn)行完成后生成相應(yīng)的訓(xùn)練集與測(cè)試集的arff格式文件,以供分類(lèi)算法環(huán)節(jié)使用。以特征維數(shù)為600的CHI特征選擇方法為例,利用TF-IDF進(jìn)行特征權(quán)值計(jì)算,得到TrainSetTFIDF.arff和TestSetTFIDF.arff,分別包含了各個(gè)訓(xùn)練文本和測(cè)試文本的向量空間,如圖4所示。

    44 分類(lèi)算法與效果測(cè)評(píng)

    任意選擇分類(lèi)算法進(jìn)行文本分類(lèi)操作,在系統(tǒng)平臺(tái)結(jié)果區(qū)會(huì)輸出各個(gè)測(cè)試文檔的分類(lèi)情況,包括分類(lèi)結(jié)果以及實(shí)際類(lèi)別;界面右側(cè)會(huì)輸出各個(gè)類(lèi)別的分類(lèi)效果,包括精度、召回率和F1測(cè)度;界面下端會(huì)輸出整體數(shù)據(jù)集分類(lèi)效果,包括準(zhǔn)確率、宏平均以及微平均。基于特征維數(shù)為600的CHI特征選擇方法以及TF-IDF特征權(quán)值計(jì)算方法,分別利用K鄰近算法(KNN)、支持向量機(jī)(SVM)、決策樹(shù)(J48)、貝葉斯算法(BAYS)進(jìn)行分類(lèi)操作,得到各個(gè)類(lèi)別的分類(lèi)效果(見(jiàn)表2)和數(shù)據(jù)集整體分類(lèi)效果(見(jiàn)表3)。

    由表2及表3可知,對(duì)于復(fù)旦中文分類(lèi)語(yǔ)料庫(kù)的9個(gè)類(lèi)別而言,J48決策樹(shù)分類(lèi)算法的分類(lèi)效果明顯優(yōu)于KNN、SVM、BAYS 3種算法,各個(gè)類(lèi)別分類(lèi)精度分布于[086,098]之間,召回率分布于[086,097]之間,F(xiàn)1測(cè)度分布于[086,097]之間,均達(dá)到較好的分類(lèi)效果;對(duì)于整體分類(lèi)效果,其分類(lèi)準(zhǔn)確率高達(dá)930556%,宏平均值為09302,微平均值為09306。其它3種分類(lèi)算法的分類(lèi)效果相對(duì)較差。整體分類(lèi)效果BAYS優(yōu)于KNN、SVM,SVM最差。不同的語(yǔ)料庫(kù),應(yīng)用不同的分類(lèi)算法得到的分類(lèi)效果會(huì)有差別,對(duì)于復(fù)旦中文分類(lèi)語(yǔ)料庫(kù)而言,其可能更適合利用決策樹(shù)分類(lèi)算法進(jìn)行文本分類(lèi)。endprint

    5 結(jié) 語(yǔ)

    隨著文本分類(lèi)領(lǐng)域的深入研究和應(yīng)用,越來(lái)越多的應(yīng)用者不得不進(jìn)行文本分類(lèi)技術(shù)相關(guān)代碼的撰寫(xiě),耗費(fèi)了大量的人力物力。本文針對(duì)此種問(wèn)題,開(kāi)發(fā)了文本分類(lèi)系統(tǒng)平臺(tái)?;趈ava開(kāi)源組件,整合中科院分詞器ICTCLAS、Lucene平臺(tái)以及WEKA源碼,對(duì)文本分類(lèi)系統(tǒng)進(jìn)行設(shè)計(jì)和開(kāi)發(fā),不僅實(shí)現(xiàn)了文本分類(lèi)各個(gè)流程的操作,還向用戶提供了一個(gè)可視化操作界面。該系統(tǒng)具有可拓展性,且操作簡(jiǎn)單,用戶無(wú)需了解平臺(tái)代碼即可自行傳入數(shù)據(jù)集文件,點(diǎn)擊相應(yīng)的文本分類(lèi)環(huán)節(jié)即可完成相應(yīng)操作。

    除了已實(shí)現(xiàn)的功能外,系統(tǒng)平臺(tái)還存在一些有待完善和擴(kuò)展的地方,主要包括以下方面:

    (1)將文本分類(lèi)流程進(jìn)一步細(xì)化,為用戶帶來(lái)更多的靈活性??蓪⑽谋绢A(yù)處理操作細(xì)分為分詞、去停用詞和統(tǒng)計(jì)詞頻等方式。分詞可以提供多種分詞器,去停用詞可以使用去停用詞表和詞性篩選兩種方式,給予用戶更多的選擇。

    (2)搭建Web端平臺(tái)界面,采用B/S模式提供服務(wù),提供擴(kuò)展接口,用戶可將自己設(shè)計(jì)的特征選擇方法、特征權(quán)重計(jì)算方法以及分類(lèi)算法等嵌入平臺(tái),進(jìn)行對(duì)比實(shí)驗(yàn),有助于同行交流,了解最新的算法改進(jìn)研究及進(jìn)展。

    (3)在現(xiàn)有系統(tǒng)UI的基礎(chǔ)上,進(jìn)一步優(yōu)化用戶界面,在保證平臺(tái)實(shí)用性的同時(shí),使平臺(tái)更具美觀性、吸引更多用戶。

    (4)支持多種語(yǔ)言,將平臺(tái)推向國(guó)際化。

    參考文獻(xiàn)

    [1]蘇新寧.信息檢索理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2004:273-307.

    [2]Elsayed E,Eldahshan K,Tawfeek S.Automatic evaluation technique for certain types of open questions in semantic learning systems[J].Human-centric Computing and Information Sciences,2013,3(1):1-15.

    [3]Sarkar K.Automatic single document text summarization using key concepts in documents[J].Journal of information processing systems,2013,9(4):602-620.

    [4]Guo X,Sun H,Zhou T,et al.SAW Classification Algorithm for Chinese Text Classification[J].Sustainability,2015,7(3):2338-2352.

    [5]馬海兵,畢久陽(yáng),郭新順.文本分類(lèi)方法在網(wǎng)絡(luò)輿情分析系統(tǒng)中的應(yīng)用研究[J].情報(bào)科學(xué),2015,33(5):97-101.

    [6]Cabena P,Choi H H,Kim I S,et al.Intelligent Miner for Data Applications Guide[J].IBM RedBook SG24-5252-00,1999.

    [7]Bird S.NLTK:the natural language toolkit[C]∥Proceedings of the COLING/ACL on Interactive presentation sessions.Association for Computational Linguistics,2006:69-72.

    [8]陳慧萍,林莉莉,王建東,等.WEKA數(shù)據(jù)挖掘平臺(tái)及其二次開(kāi)發(fā)[J].計(jì)算機(jī)工程與應(yīng)用,2009,44(19):76-79.

    [9]Qiu X,Zhang Q,Huang X.FudanNLP:A Toolkit for Chinese Natural Language Processing[C]∥ACL(Conference System Demonstrations),2013:49-54.

    [10]NLPIR漢語(yǔ)分詞系統(tǒng)[EB/OL].http:∥ictclas.nlpir.org,2015-05-24.

    [11]DRAP文本分類(lèi)系統(tǒng)簡(jiǎn)介[EB/OL].http:∥www.searchforum.org.cn/tansongbo/software.htm,2015-05-24.

    [12]Uysal AK,Gunal S.The impact of preprocessing on text classification[J].Information Processing & Management,2014,50(1):104-112.

    [13]肖可,奉國(guó)和.1999-2008年國(guó)內(nèi)文本分類(lèi)研究文獻(xiàn)計(jì)量分析[J].情報(bào)學(xué)報(bào),2010,29(4):679-687.

    [14]鄭偉,呂建新,張建偉.文本分類(lèi)中特征預(yù)抽取方法研究[J].情報(bào)科學(xué),2011,29(1):86-88,92.

    [15]Salton G,Buckley B.Term-weighting Approaches inAutomatic Text Retrieval[J].Information Processing & Management,1998,24(5):513-523.

    [16]中大極天智能信息處理實(shí)驗(yàn)室[EB/OL].http:∥iipl.sysu.edu.cn/,2015-05-24.

    (本文責(zé)任編輯:郭沫含)endprint

    猜你喜歡
    文本分類(lèi)語(yǔ)料庫(kù)
    《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
    把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
    基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
    基于貝葉斯分類(lèi)器的中文文本分類(lèi)
    基于蟻群智能算法的研究文本分類(lèi)
    文本分類(lèi)算法在山東女子學(xué)院檔案管理的應(yīng)用
    科技視界(2016年24期)2016-10-11 09:36:57
    基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
    語(yǔ)料庫(kù)語(yǔ)言學(xué)未來(lái)發(fā)展趨勢(shì)
    99久久九九国产精品国产免费| 午夜福利欧美成人| 久久久久国产精品人妻aⅴ院| 日日摸夜夜添夜夜添小说| 久久久国产成人精品二区| 亚洲成a人片在线一区二区| 乱系列少妇在线播放| 美女高潮的动态| 亚洲精品乱码久久久v下载方式| 国产伦精品一区二区三区四那| 亚洲午夜理论影院| 在线天堂最新版资源| av天堂在线播放| 亚洲三级黄色毛片| 久久这里只有精品中国| 欧美三级亚洲精品| 国产女主播在线喷水免费视频网站 | .国产精品久久| 免费在线观看成人毛片| 免费观看人在逋| 亚洲国产精品sss在线观看| 成人美女网站在线观看视频| 中文字幕人妻熟人妻熟丝袜美| 国产日本99.免费观看| 国产真实伦视频高清在线观看 | 日韩强制内射视频| 女生性感内裤真人,穿戴方法视频| 男女视频在线观看网站免费| av视频在线观看入口| 国产精品爽爽va在线观看网站| 亚洲狠狠婷婷综合久久图片| а√天堂www在线а√下载| 91久久精品国产一区二区成人| 天天躁日日操中文字幕| 国模一区二区三区四区视频| 精品人妻熟女av久视频| 欧美另类亚洲清纯唯美| 亚洲av不卡在线观看| 国产在线精品亚洲第一网站| 别揉我奶头 嗯啊视频| 看黄色毛片网站| 亚洲,欧美,日韩| 亚洲第一区二区三区不卡| 人人妻人人澡欧美一区二区| 国内揄拍国产精品人妻在线| 美女高潮喷水抽搐中文字幕| 在线观看美女被高潮喷水网站| 高清毛片免费观看视频网站| 欧美色欧美亚洲另类二区| 久久久久精品国产欧美久久久| 中文字幕高清在线视频| 乱码一卡2卡4卡精品| 亚洲在线自拍视频| 一卡2卡三卡四卡精品乱码亚洲| 狠狠狠狠99中文字幕| 亚洲国产高清在线一区二区三| 天堂av国产一区二区熟女人妻| 亚洲国产精品久久男人天堂| 国产探花在线观看一区二区| 极品教师在线视频| 91午夜精品亚洲一区二区三区 | 国内精品美女久久久久久| 尾随美女入室| 国产老妇女一区| 亚洲中文字幕日韩| 亚洲成人久久性| 国产男靠女视频免费网站| 久久这里只有精品中国| 国产精品精品国产色婷婷| 免费人成视频x8x8入口观看| 春色校园在线视频观看| 久久久久性生活片| 国内精品久久久久久久电影| 尤物成人国产欧美一区二区三区| 91在线观看av| 成年女人看的毛片在线观看| 少妇人妻一区二区三区视频| 色吧在线观看| 一夜夜www| 一级黄片播放器| 真实男女啪啪啪动态图| 亚洲国产日韩欧美精品在线观看| 国产女主播在线喷水免费视频网站 | 亚洲精品色激情综合| 久久精品国产亚洲av涩爱 | АⅤ资源中文在线天堂| 色哟哟·www| 亚洲美女搞黄在线观看 | a级毛片a级免费在线| 婷婷色综合大香蕉| 免费看a级黄色片| 丰满人妻一区二区三区视频av| 日韩欧美免费精品| 欧美黑人欧美精品刺激| 欧美区成人在线视频| 国产色婷婷99| 韩国av一区二区三区四区| 小说图片视频综合网站| 亚洲自拍偷在线| 十八禁网站免费在线| 精品久久久久久久末码| 久久久久性生活片| 国产成人a区在线观看| 人妻制服诱惑在线中文字幕| 国产女主播在线喷水免费视频网站 | 国产亚洲av嫩草精品影院| 又爽又黄无遮挡网站| 天堂网av新在线| 色综合色国产| 亚洲内射少妇av| 精品人妻熟女av久视频| 亚洲无线观看免费| 日韩大尺度精品在线看网址| 琪琪午夜伦伦电影理论片6080| 国产男靠女视频免费网站| 亚洲综合色惰| av视频在线观看入口| 亚洲最大成人手机在线| 男人和女人高潮做爰伦理| 成人性生交大片免费视频hd| 悠悠久久av| 久久99热这里只有精品18| 欧美性猛交╳xxx乱大交人| 午夜免费激情av| 如何舔出高潮| 中文字幕av在线有码专区| 国产黄片美女视频| 亚洲精品在线观看二区| 久久久成人免费电影| 国内毛片毛片毛片毛片毛片| 99在线视频只有这里精品首页| 亚洲国产精品久久男人天堂| 亚洲无线观看免费| 欧美一区二区精品小视频在线| 久久这里只有精品中国| 亚洲无线在线观看| 观看美女的网站| 简卡轻食公司| 直男gayav资源| 男女那种视频在线观看| 免费观看人在逋| 久久久久久伊人网av| 亚洲欧美日韩无卡精品| 九色国产91popny在线| 国产伦精品一区二区三区四那| 免费av不卡在线播放| 国产真实伦视频高清在线观看 | 很黄的视频免费| 亚洲av成人精品一区久久| 99久久成人亚洲精品观看| 国产av麻豆久久久久久久| 亚洲av二区三区四区| 国产一区二区三区av在线 | 国内精品一区二区在线观看| 大型黄色视频在线免费观看| 日日撸夜夜添| 男女视频在线观看网站免费| 久久精品国产99精品国产亚洲性色| 日日夜夜操网爽| 永久网站在线| 国产高清激情床上av| 日日撸夜夜添| 色精品久久人妻99蜜桃| 成人鲁丝片一二三区免费| 搡女人真爽免费视频火全软件 | 熟妇人妻久久中文字幕3abv| 最近视频中文字幕2019在线8| 永久网站在线| 无遮挡黄片免费观看| 97碰自拍视频| 亚洲av免费在线观看| 91在线精品国自产拍蜜月| 人妻少妇偷人精品九色| 亚洲三级黄色毛片| 欧美绝顶高潮抽搐喷水| 亚洲 国产 在线| 免费不卡的大黄色大毛片视频在线观看 | 99精品在免费线老司机午夜| 国产精品久久久久久久电影| 男女做爰动态图高潮gif福利片| 我要看日韩黄色一级片| a级毛片a级免费在线| 日韩欧美精品免费久久| 国产精品美女特级片免费视频播放器| 国内久久婷婷六月综合欲色啪| 啦啦啦观看免费观看视频高清| 麻豆成人av在线观看| 国内精品美女久久久久久| 女的被弄到高潮叫床怎么办 | 亚洲图色成人| 色综合站精品国产| 69人妻影院| 日本撒尿小便嘘嘘汇集6| 欧美3d第一页| 欧美一级a爱片免费观看看| 精品福利观看| 国产精品无大码| a级毛片a级免费在线| 能在线免费观看的黄片| 日日摸夜夜添夜夜添小说| 欧美三级亚洲精品| 丰满的人妻完整版| 狠狠狠狠99中文字幕| 欧美中文日本在线观看视频| 国产亚洲精品av在线| 国产三级中文精品| 男女边吃奶边做爰视频| 国产麻豆成人av免费视频| 一本精品99久久精品77| 婷婷精品国产亚洲av| 日韩欧美在线乱码| 日本黄色片子视频| 欧美最黄视频在线播放免费| 免费无遮挡裸体视频| 五月伊人婷婷丁香| a级毛片a级免费在线| 久久久色成人| 级片在线观看| 黄色日韩在线| 久久精品国产亚洲av香蕉五月| 女人十人毛片免费观看3o分钟| 日本黄色片子视频| 99久久精品一区二区三区| 熟女电影av网| 日本 av在线| 99久久无色码亚洲精品果冻| 午夜福利成人在线免费观看| 日本熟妇午夜| 一a级毛片在线观看| 精品久久久久久久末码| 亚洲天堂国产精品一区在线| 三级男女做爰猛烈吃奶摸视频| 日韩欧美一区二区三区在线观看| 久久久久九九精品影院| 免费观看精品视频网站| 国产高潮美女av| 美女黄网站色视频| 毛片女人毛片| 尾随美女入室| 国产男人的电影天堂91| 又爽又黄无遮挡网站| 夜夜看夜夜爽夜夜摸| 国产黄色小视频在线观看| 免费黄网站久久成人精品| 黄色一级大片看看| 久久欧美精品欧美久久欧美| 国产单亲对白刺激| 亚洲第一电影网av| 欧美潮喷喷水| 干丝袜人妻中文字幕| 尤物成人国产欧美一区二区三区| 99精品在免费线老司机午夜| 人妻夜夜爽99麻豆av| 91麻豆精品激情在线观看国产| 欧美黑人巨大hd| 久久久久久久久久久丰满 | 老熟妇仑乱视频hdxx| 国产一区二区激情短视频| 99精品久久久久人妻精品| 国产伦精品一区二区三区四那| 日韩精品青青久久久久久| 精品免费久久久久久久清纯| 老司机福利观看| 白带黄色成豆腐渣| 国产蜜桃级精品一区二区三区| 欧美性猛交╳xxx乱大交人| 久久国产乱子免费精品| 国产一区二区在线观看日韩| or卡值多少钱| 男人狂女人下面高潮的视频| 波野结衣二区三区在线| 十八禁网站免费在线| 久9热在线精品视频| 在线国产一区二区在线| 国产一区二区三区av在线 | 99热这里只有精品一区| 国产乱人伦免费视频| 亚洲av免费在线观看| x7x7x7水蜜桃| 久久久久久久久久成人| 欧美三级亚洲精品| 亚洲熟妇熟女久久| 亚洲人与动物交配视频| 国产伦精品一区二区三区四那| 男人舔奶头视频| 久久久久国内视频| 成人欧美大片| 搞女人的毛片| 免费av观看视频| 大型黄色视频在线免费观看| 女生性感内裤真人,穿戴方法视频| 一本一本综合久久| 亚洲欧美日韩高清在线视频| 国产乱人视频| 岛国在线免费视频观看| 精品久久久久久久久久久久久| 一级黄色大片毛片| 久久精品国产清高在天天线| 国内精品宾馆在线| 成人精品一区二区免费| 2021天堂中文幕一二区在线观| 精品免费久久久久久久清纯| 亚洲精品乱码久久久v下载方式| 99视频精品全部免费 在线| 色哟哟·www| 欧美丝袜亚洲另类 | 香蕉av资源在线| 非洲黑人性xxxx精品又粗又长| 伦精品一区二区三区| 丰满的人妻完整版| 久久国内精品自在自线图片| 成人欧美大片| 欧美又色又爽又黄视频| 日本爱情动作片www.在线观看 | 国产av麻豆久久久久久久| av中文乱码字幕在线| 男女之事视频高清在线观看| 久久久久国内视频| 亚洲精品影视一区二区三区av| 蜜桃久久精品国产亚洲av| 国产精品99久久久久久久久| 村上凉子中文字幕在线| 91久久精品国产一区二区成人| 日本在线视频免费播放| 麻豆久久精品国产亚洲av| 深爱激情五月婷婷| 亚洲久久久久久中文字幕| 日本-黄色视频高清免费观看| 麻豆国产97在线/欧美| x7x7x7水蜜桃| 欧美激情久久久久久爽电影| 在线免费观看的www视频| 精品无人区乱码1区二区| 精品一区二区三区视频在线观看免费| 狂野欧美激情性xxxx在线观看| 九九爱精品视频在线观看| 男人舔奶头视频| 亚洲欧美清纯卡通| av在线老鸭窝| 一区二区三区高清视频在线| a级毛片a级免费在线| 久久精品国产99精品国产亚洲性色| 久久久久久久久久成人| 日韩欧美国产一区二区入口| 有码 亚洲区| 成年女人看的毛片在线观看| 十八禁网站免费在线| 亚洲精华国产精华精| 别揉我奶头 嗯啊视频| 男女啪啪激烈高潮av片| 午夜老司机福利剧场| 国产欧美日韩精品一区二区| 美女免费视频网站| 最后的刺客免费高清国语| 成人精品一区二区免费| 久久精品国产自在天天线| 麻豆国产av国片精品| 中文字幕av在线有码专区| 热99在线观看视频| 97热精品久久久久久| 欧美另类亚洲清纯唯美| 久久热精品热| 午夜免费激情av| 亚洲,欧美,日韩| 亚洲精品色激情综合| 一进一出抽搐动态| 成年版毛片免费区| 九色成人免费人妻av| 欧美日韩亚洲国产一区二区在线观看| 身体一侧抽搐| 中文字幕熟女人妻在线| 免费看av在线观看网站| 身体一侧抽搐| 天堂动漫精品| 欧美3d第一页| 欧美日韩黄片免| 国产男人的电影天堂91| 午夜福利在线在线| 日韩欧美精品v在线| 免费大片18禁| 又爽又黄a免费视频| 亚洲精品一卡2卡三卡4卡5卡| 俺也久久电影网| 久久久午夜欧美精品| 亚洲 国产 在线| 99久久九九国产精品国产免费| 久久久久久九九精品二区国产| 99在线人妻在线中文字幕| 日本黄色片子视频| 在线天堂最新版资源| 偷拍熟女少妇极品色| 黄色丝袜av网址大全| 18禁黄网站禁片免费观看直播| 亚洲黑人精品在线| 搡老熟女国产l中国老女人| 床上黄色一级片| 国产综合懂色| 国产私拍福利视频在线观看| 色av中文字幕| 日韩欧美 国产精品| 啪啪无遮挡十八禁网站| 婷婷精品国产亚洲av| 18禁在线播放成人免费| 精品一区二区三区av网在线观看| 在线免费观看的www视频| 久久精品国产亚洲av天美| 国产精品无大码| 成人性生交大片免费视频hd| 国产精品亚洲一级av第二区| 少妇猛男粗大的猛烈进出视频 | 久久99热6这里只有精品| 日本黄大片高清| 免费人成视频x8x8入口观看| 久久久久国产精品人妻aⅴ院| 长腿黑丝高跟| 中文字幕久久专区| 国产三级在线视频| 久久精品国产亚洲网站| 国产免费一级a男人的天堂| 九色成人免费人妻av| 级片在线观看| 久久久久久伊人网av| 国产aⅴ精品一区二区三区波| 国产男靠女视频免费网站| 亚洲成a人片在线一区二区| 久久久午夜欧美精品| 久久久国产成人精品二区| 午夜福利18| 99热6这里只有精品| 国产黄片美女视频| 色精品久久人妻99蜜桃| 欧美区成人在线视频| 最近最新免费中文字幕在线| 精品不卡国产一区二区三区| 99久久无色码亚洲精品果冻| 国产精品一区二区三区四区免费观看 | 日韩欧美 国产精品| 可以在线观看的亚洲视频| 一进一出抽搐gif免费好疼| 99在线视频只有这里精品首页| 亚洲中文字幕一区二区三区有码在线看| 亚洲精品久久国产高清桃花| 亚洲国产高清在线一区二区三| 日韩欧美免费精品| 欧美中文日本在线观看视频| 亚洲中文日韩欧美视频| 热99re8久久精品国产| 婷婷丁香在线五月| 亚洲午夜理论影院| 国产白丝娇喘喷水9色精品| 国产不卡一卡二| a在线观看视频网站| 午夜免费男女啪啪视频观看 | 国产极品精品免费视频能看的| 我的女老师完整版在线观看| 午夜精品久久久久久毛片777| 特级一级黄色大片| avwww免费| 男人和女人高潮做爰伦理| 成人一区二区视频在线观看| 他把我摸到了高潮在线观看| 国产精品永久免费网站| 99热网站在线观看| 国产大屁股一区二区在线视频| 他把我摸到了高潮在线观看| 国产探花在线观看一区二区| 91久久精品国产一区二区三区| 伦精品一区二区三区| 日韩强制内射视频| 18+在线观看网站| 淫秽高清视频在线观看| 日日摸夜夜添夜夜添av毛片 | 亚洲欧美日韩东京热| 少妇裸体淫交视频免费看高清| 久久久久久久久久成人| 色播亚洲综合网| 亚洲色图av天堂| 最后的刺客免费高清国语| 国产老妇女一区| 亚洲av免费高清在线观看| av在线蜜桃| 国产人妻一区二区三区在| 精品人妻1区二区| 婷婷丁香在线五月| 精品午夜福利在线看| 免费人成在线观看视频色| 我要搜黄色片| 国产精品一区二区三区四区免费观看 | 亚洲黑人精品在线| 久久精品91蜜桃| 最新中文字幕久久久久| 黄色丝袜av网址大全| 精品久久国产蜜桃| 亚洲精华国产精华液的使用体验 | 亚洲精品国产成人久久av| 尾随美女入室| 久久久久久久精品吃奶| 亚洲国产高清在线一区二区三| 久99久视频精品免费| 久久人人精品亚洲av| 一卡2卡三卡四卡精品乱码亚洲| 日韩欧美一区二区三区在线观看| 精品久久久噜噜| 男女边吃奶边做爰视频| 国产精品亚洲美女久久久| a级毛片免费高清观看在线播放| 欧美国产日韩亚洲一区| 熟女电影av网| 老熟妇仑乱视频hdxx| 欧美黑人巨大hd| 欧美高清成人免费视频www| 少妇人妻一区二区三区视频| 国产淫片久久久久久久久| 91在线观看av| 久久精品夜夜夜夜夜久久蜜豆| 中文字幕精品亚洲无线码一区| 日本成人三级电影网站| 嫩草影院新地址| 亚洲成av人片在线播放无| 久久久久久伊人网av| 亚洲av不卡在线观看| 91午夜精品亚洲一区二区三区 | 窝窝影院91人妻| 久久久成人免费电影| 欧美xxxx性猛交bbbb| 国产黄片美女视频| 天堂√8在线中文| 国产成人影院久久av| 伦精品一区二区三区| 久久精品久久久久久噜噜老黄 | 真人一进一出gif抽搐免费| 欧美日韩综合久久久久久 | 成人国产综合亚洲| 性色avwww在线观看| 欧美一区二区精品小视频在线| 欧美丝袜亚洲另类 | 成人二区视频| 婷婷六月久久综合丁香| 精品国内亚洲2022精品成人| 日韩欧美免费精品| 亚洲专区国产一区二区| 在线免费十八禁| 亚洲真实伦在线观看| 99久久成人亚洲精品观看| 国产精品三级大全| 国产免费男女视频| 日本 欧美在线| 永久网站在线| 亚洲一区高清亚洲精品| 99久久精品热视频| 99热精品在线国产| 搡老妇女老女人老熟妇| 亚洲中文字幕日韩| 欧美丝袜亚洲另类 | 国产精品野战在线观看| 免费观看人在逋| 亚洲人成网站在线播放欧美日韩| 51国产日韩欧美| 亚洲国产精品sss在线观看| 国产高清三级在线| 午夜亚洲福利在线播放| 夜夜看夜夜爽夜夜摸| 啦啦啦啦在线视频资源| 久久久久久久久久黄片| 久久久久免费精品人妻一区二区| 亚洲四区av| 色在线成人网| 国产aⅴ精品一区二区三区波| 日本免费a在线| 不卡一级毛片| 人妻久久中文字幕网| 精品久久久久久久久av| 黄色配什么色好看| 好男人在线观看高清免费视频| 亚洲欧美日韩无卡精品| 最近最新中文字幕大全电影3| 校园人妻丝袜中文字幕| 动漫黄色视频在线观看| 亚洲精品456在线播放app | 91狼人影院| 亚洲最大成人手机在线| 少妇被粗大猛烈的视频| 国产激情偷乱视频一区二区| 日本 欧美在线| av天堂在线播放| 久久久精品大字幕| 最近中文字幕高清免费大全6 | 免费观看的影片在线观看| 网址你懂的国产日韩在线| 非洲黑人性xxxx精品又粗又长| 高清日韩中文字幕在线| 韩国av一区二区三区四区| 俺也久久电影网| 3wmmmm亚洲av在线观看| 成人一区二区视频在线观看| 国模一区二区三区四区视频| 男人舔奶头视频| 国产成人a区在线观看| 少妇裸体淫交视频免费看高清| 一进一出抽搐gif免费好疼| 亚洲图色成人| 色综合站精品国产| 国产精品亚洲一级av第二区| 男人狂女人下面高潮的视频| 久久精品影院6| 91在线观看av| 久久午夜亚洲精品久久| 久久人人精品亚洲av| 国产探花在线观看一区二区| 欧美黑人巨大hd| 亚洲国产精品sss在线观看| 国产欧美日韩精品一区二区| 国产精品久久视频播放| av在线观看视频网站免费| av在线老鸭窝|