• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于DPI數(shù)據(jù)挖掘?qū)崿F(xiàn)URL分類掛載的相關(guān)技術(shù)研究

    2013-09-29 04:47:54邊凌燕賀仁龍姚曉輝
    電信科學(xué) 2013年11期
    關(guān)鍵詞:分詞分類器網(wǎng)頁(yè)

    邊凌燕,賀仁龍,姚曉輝

    (中國(guó)電信股份有限公司上海研究院 上海 200122)

    1 引言

    近年來(lái),通信產(chǎn)業(yè)深度變革,電信運(yùn)營(yíng)商在整個(gè)ICT產(chǎn)業(yè)中的主導(dǎo)權(quán)逐步被分化。運(yùn)營(yíng)商要在全新的產(chǎn)業(yè)格局內(nèi)占據(jù)優(yōu)勢(shì),必須基于自身?yè)碛袛?shù)據(jù)的規(guī)模和活性以及收集和運(yùn)用數(shù)據(jù)的能力優(yōu)勢(shì),挖掘得天獨(dú)厚的管道數(shù)據(jù)資產(chǎn)價(jià)值,在保護(hù)用戶隱私的前提下,為用戶提供高附加值的精準(zhǔn)目標(biāo)服務(wù),激活數(shù)據(jù)資源和客戶深度洞察力的市場(chǎng)能量,應(yīng)對(duì)越來(lái)越激烈的市場(chǎng)競(jìng)爭(zhēng)。

    采用 DPI(deep packet inspection,深度分組檢測(cè))技術(shù)對(duì)移動(dòng)互聯(lián)網(wǎng)的用戶上網(wǎng)行為數(shù)據(jù)進(jìn)行數(shù)據(jù)精準(zhǔn)解析、識(shí)別后,將相應(yīng)用戶訪問(wèn)網(wǎng)站歸類掛載至網(wǎng)頁(yè)URL分類體系,通過(guò)與分類體系內(nèi)各節(jié)點(diǎn)特征的映射來(lái)洞察用戶上網(wǎng)的興趣偏好,已成為運(yùn)營(yíng)商順應(yīng)移動(dòng)互聯(lián)網(wǎng)發(fā)展、遷移管道優(yōu)勢(shì)并強(qiáng)化數(shù)據(jù)應(yīng)用的一個(gè)熱點(diǎn)方向。本文梳理了海量DPI用戶上網(wǎng)行為數(shù)據(jù)掛載到設(shè)定的URL分類體系的實(shí)現(xiàn)流程,重點(diǎn)研究介紹了網(wǎng)頁(yè)信息提取、分詞及文本分類等關(guān)鍵的文本挖掘應(yīng)用技術(shù)。

    2 中國(guó)電信DPI用戶上網(wǎng)行為數(shù)據(jù)說(shuō)明

    DPI作為一種基于應(yīng)用層的流量檢測(cè)技術(shù),除了對(duì)IP分組4層以下內(nèi)容做分組檢測(cè)外,還增加了應(yīng)用層分析,可以深入解析和讀取IP分組載荷的內(nèi)容,識(shí)別各種應(yīng)用及其內(nèi)容[1]。中國(guó)電信全網(wǎng)統(tǒng)一部署的數(shù)據(jù)信息采集解析設(shè)備輸出的用戶互聯(lián)網(wǎng)訪問(wèn)DPI數(shù)據(jù)信息,分為公有信息和協(xié)議特有信息兩部分。公有信息是對(duì)所有協(xié)議都做要求的信息,必備的公有信息字段包括用戶信息、終端信息、訪問(wèn)協(xié)議信息、用戶上網(wǎng)行為時(shí)間屬性等信息,見表1。主要實(shí)現(xiàn)從業(yè)務(wù)應(yīng)用、時(shí)間段等多維度挖掘洞察用戶上網(wǎng)行為時(shí)間、頻次及流量耗費(fèi)等信息。

    協(xié)議特有信息是針對(duì) HTTP、WAP、RTSP、SMTP等 14種協(xié)議特有的協(xié)議信息,需基于公有信息的“協(xié)議類型”字段內(nèi)容進(jìn)一步解析。經(jīng)實(shí)際數(shù)據(jù)探測(cè),HTTP、WAP內(nèi)容的流量占據(jù)海量用戶上網(wǎng)行為數(shù)據(jù)總流量的80%以上,本文的研究著重圍繞該兩類協(xié)議的信息數(shù)據(jù)展開,二者協(xié)議必備特有信息中的關(guān)鍵字段 “DestinationURL”(目標(biāo)網(wǎng)站URL地址)將作為后續(xù)DPI數(shù)據(jù)分析挖掘研究的關(guān)鍵輸入,見表2。

    3 DPI數(shù)據(jù)自動(dòng)掛載URL分類體系的方案研究

    網(wǎng)頁(yè)URL分類體系作為實(shí)現(xiàn)DPI數(shù)據(jù)的結(jié)構(gòu)化轉(zhuǎn)化和分類的基礎(chǔ),是精準(zhǔn)鎖定客戶興趣偏好特征的關(guān)鍵。該體系主要以用戶目的需求為主線,參照運(yùn)營(yíng)商本身營(yíng)銷需求,綜合互聯(lián)網(wǎng)門戶、導(dǎo)航站點(diǎn)、自有業(yè)務(wù)門戶的分類粗粒度目錄,根據(jù)業(yè)務(wù)產(chǎn)品聚合情況進(jìn)行較強(qiáng)的針對(duì)性設(shè)定。從DPI數(shù)據(jù)解析實(shí)現(xiàn)網(wǎng)頁(yè)URL分類體系的構(gòu)建,流程上按規(guī)則“DestinationURL”和無(wú)規(guī)則“DestinationURL”區(qū)分考慮,如圖1所示。

    表1 協(xié)議公有信息必選字段

    表2 HTTP、WAP特有信息必備字段

    圖1 DPI數(shù)據(jù)構(gòu)建網(wǎng)頁(yè)URL分類體系方案

    針對(duì)規(guī)則URL,處理方式通常借助網(wǎng)站本身URL或頻道編碼特征,建立與已有URL分類體系的映射關(guān)系,通過(guò)廣度爬蟲收集URL并進(jìn)行分類自動(dòng)掛載,本文不再贅述。

    無(wú)規(guī)則URL多指沒(méi)有多級(jí)域名或目錄或所有欄目使用數(shù)字編碼的網(wǎng)站地址。一般經(jīng)由爬蟲進(jìn)行網(wǎng)頁(yè)原始內(nèi)容的解析和信息提取,通過(guò)文本分詞、特征選擇等步驟來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)文本特征向量的標(biāo)定及文本分類,將未知網(wǎng)頁(yè)映射掛載到給定的URL類別目錄。

    以上規(guī)則或無(wú)規(guī)則URL分類流程在系統(tǒng)自動(dòng)實(shí)現(xiàn)失敗的情況下,在維護(hù)流程上都加入人工識(shí)別環(huán)節(jié),以補(bǔ)充自動(dòng)分類器的判定不足,從而保證分類體系不斷完善和及時(shí)更新,同時(shí)也可以隨著用戶偏好關(guān)注度及企業(yè)運(yùn)營(yíng)需求進(jìn)行動(dòng)態(tài)調(diào)整,以豐富長(zhǎng)效穩(wěn)定的URL分類體系。

    4 無(wú)規(guī)則URL分類掛載的關(guān)鍵處理技術(shù)研究

    4.1 網(wǎng)頁(yè)內(nèi)容提取

    對(duì)無(wú)規(guī)則URL進(jìn)行網(wǎng)頁(yè)爬取后得到的頁(yè)面源文件采用超文本設(shè)計(jì),其往往存在許多噪聲,如廣告、注釋、導(dǎo)航、推薦、版權(quán)等無(wú)關(guān)信息,如果不進(jìn)行過(guò)濾會(huì)直接影響后續(xù)網(wǎng)頁(yè)分類結(jié)果。因此在做下一步挖掘分析前,網(wǎng)頁(yè)內(nèi)容提取的預(yù)處理工作顯得很必要。

    [2]詳細(xì)介紹和對(duì)比了幾種常見的網(wǎng)頁(yè)內(nèi)容提取技術(shù)。

    ·基于 DOM(document object model)樹:依據(jù)專門適用于HTML的文檔對(duì)象模型DOM樹,解析HTML標(biāo)簽的層次關(guān)系成樹狀結(jié)構(gòu),通過(guò)遍歷樹節(jié)點(diǎn)的各個(gè)對(duì)象,識(shí)別網(wǎng)頁(yè)正文信息。

    ·基于文本及標(biāo)簽分布:參考文本及標(biāo)簽的分布狀況編寫行號(hào)與行塊文本長(zhǎng)度的分布函數(shù),依據(jù)函數(shù)的驟升驟降,區(qū)分網(wǎng)頁(yè)正文與非正文內(nèi)容。但該方法過(guò)分依賴正文在源碼中的位置分布,較易引起誤提取。

    ·基于視覺(jué)窗:利用導(dǎo)航在頂部、廣告在側(cè)邊的布局常規(guī)特征,文字顏色、分隔邊框、段落間距等視覺(jué)信號(hào)幫助定位網(wǎng)頁(yè)正文信息。該方法準(zhǔn)確率相對(duì)不高。

    ·基于標(biāo)記窗:先對(duì)網(wǎng)頁(yè)標(biāo)題進(jìn)行分詞,再取每個(gè)標(biāo)簽對(duì)之間的文本內(nèi)容進(jìn)行分詞,并計(jì)算兩者的相似度,設(shè)定閾值是否為提取的標(biāo)準(zhǔn)。其缺點(diǎn)是絕對(duì)依賴于標(biāo)題的準(zhǔn)確性。

    基于DOM樹網(wǎng)頁(yè)內(nèi)容提取技術(shù)的HTMLParser作為SourceForge.net社區(qū)的開源項(xiàng)目,是目前業(yè)內(nèi)應(yīng)用最廣泛的網(wǎng)頁(yè)解析工具。它由純Java語(yǔ)言編寫而不依賴于其他Java庫(kù),不僅擴(kuò)展便利且可以兼容Nutch架構(gòu),進(jìn)而超高速地實(shí)現(xiàn)無(wú)規(guī)則URL經(jīng)后者爬蟲抓取后的實(shí)時(shí)解析。其解析過(guò)程如圖2所示,本文以某新聞網(wǎng)頁(yè)為例說(shuō)明,首先利用HTMLParser將網(wǎng)頁(yè)文檔轉(zhuǎn)化為DOM_1樹,樹的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)標(biāo)簽對(duì)象,進(jìn)一步通過(guò)過(guò)濾樹內(nèi)大量的噪音信息,包括主題無(wú)關(guān)節(jié)點(diǎn) (通常是圖片img、對(duì)象object、腳本 script、表單 form 等),無(wú)效節(jié)點(diǎn)(通常是無(wú)內(nèi)容空節(jié)點(diǎn)),得到只含文本標(biāo)簽和結(jié)構(gòu)標(biāo)簽的DOM_2樹。通過(guò)抓取同一站點(diǎn)下的兩個(gè)網(wǎng)頁(yè),利用同一站點(diǎn)網(wǎng)頁(yè)模板相關(guān)性,去除DOM_2樹重復(fù)內(nèi)容頁(yè)面信息,得到不一致文本內(nèi)容包含的網(wǎng)頁(yè)主題信息的DOM_3樹,即最終DOM樹,可以基于該樹的終節(jié)點(diǎn)實(shí)現(xiàn)對(duì)于HTML網(wǎng)頁(yè)內(nèi)容的文本轉(zhuǎn)化。

    圖2 HTMLParser解析網(wǎng)頁(yè)過(guò)程示意

    如何快速有效地識(shí)別和去除網(wǎng)頁(yè)文檔中的噪音信息,是提高網(wǎng)頁(yè)內(nèi)容提取準(zhǔn)確率和效率的一個(gè)關(guān)鍵。對(duì)于缺失標(biāo)簽、標(biāo)簽錯(cuò)亂等問(wèn)題,HTMLParser還能在HTML文檔轉(zhuǎn)換為DOM樹的過(guò)程中自行修正,在此不再詳述。

    4.2 文本分詞

    文本分詞作為文本挖掘的基礎(chǔ),主要是依據(jù)分詞算法將提取后的網(wǎng)頁(yè)內(nèi)容漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞,達(dá)到電腦自動(dòng)識(shí)別語(yǔ)句含義的效果。

    自20世紀(jì)80年代初,中文信息處理領(lǐng)域提出自動(dòng)分詞以來(lái),很多高??蒲袡C(jī)構(gòu)都在該領(lǐng)域內(nèi)取得了突破性的進(jìn)展,研發(fā)了很多實(shí)用的分詞系統(tǒng),代表性的有:清華大學(xué)的SEG分詞系統(tǒng)、北京大學(xué)計(jì)算語(yǔ)言所分詞系統(tǒng)、復(fù)旦大學(xué)分詞系統(tǒng)、微軟研究院的多國(guó)語(yǔ)言處理平臺(tái)NLPWin及中國(guó)科學(xué)院ICTCLAS分詞系統(tǒng),具體系統(tǒng)評(píng)價(jià)可參考文獻(xiàn)[3,4]。

    上述分詞系統(tǒng)實(shí)現(xiàn)的分詞原理大多包括以下3種。

    ·基于字符串匹配(詞典)的分詞:按照一定的策略將待切分的漢字序列與機(jī)器詞典庫(kù)中的詞條進(jìn)行匹配。按照掃描方向的不同,分詞方法可以分為正向匹配、逆向匹配以及雙向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最?。ㄗ疃蹋┢ヅ?。相關(guān)統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245,建議使用逆向匹配的切分精度略高于正向匹配[5]。

    ·基于理解的分詞:主要利用專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)等人工智能系統(tǒng),分詞的同時(shí)進(jìn)行語(yǔ)義與句法的分析處理歧義現(xiàn)象。該類方法需要通過(guò)大量語(yǔ)料庫(kù)的訓(xùn)練集學(xué)習(xí)后,在推理機(jī)中構(gòu)建知識(shí)庫(kù)。

    ·基于統(tǒng)計(jì)的分詞:計(jì)算詞內(nèi)漢字共現(xiàn)概率表達(dá)緊密程度,當(dāng)緊密度高于閾值時(shí),認(rèn)定為詞,該方法比較適用于專業(yè)文本分詞。

    分詞技術(shù)的主要困難點(diǎn)在于歧義消除(不同的分詞方法呈現(xiàn)不同的語(yǔ)義)和新生詞匯識(shí)別問(wèn)題。本文推薦利用詞典分詞與統(tǒng)計(jì)分詞結(jié)合的方式,不僅具有詞典匹配的快速分詞效率,統(tǒng)計(jì)歧義詞或新生詞內(nèi)的漢字共現(xiàn)頻率將有助于進(jìn)一步提高分詞精度,如圖3所示。

    4.3 特征選擇

    分詞處理后的結(jié)果,通過(guò)構(gòu)建正則表達(dá)式等方法,去除常用感嘆詞、副詞及虛詞等停用詞,余下的則用來(lái)表征網(wǎng)頁(yè)文本特征向量,如式(1)所示:

    其中tji是文檔j中出現(xiàn)的第 i個(gè)詞,wji是詞tji在文檔中的權(quán)值,一般可以定義為tji在文檔中出現(xiàn)的頻率函數(shù)。但這樣得到的文檔特征向量維度依然十分龐大。由于高維文本向量應(yīng)用文本自動(dòng)分類幾乎很難實(shí)現(xiàn),所以必須先經(jīng)過(guò)降維處理,也就是特征選擇。

    經(jīng)特征選擇降維后的文本特征集應(yīng)該包含兩個(gè)特點(diǎn)[6]:完全性和區(qū)分性。完全性,全面體現(xiàn)目標(biāo)文本內(nèi)容與主題;區(qū)分性,有效區(qū)分目標(biāo)文本與其他文本。目前,國(guó)內(nèi)外學(xué)者研究了眾多的特征選擇方法,其中最為常見的算法有TFIDF(term frequency-inverse document frequency)、信息增益(IG)、互信息(MI)、統(tǒng)計(jì)法 CHI等。

    參考文獻(xiàn)[7]的研究表明:信息增益主要通過(guò)特征在文本中的出現(xiàn)與否來(lái)度量,在遇到當(dāng)類分布和特征項(xiàng)分布高度不平衡的情況時(shí),由特征的不出現(xiàn)概率來(lái)評(píng)定該特征的信息增益,會(huì)導(dǎo)致該算法的特征提取表現(xiàn)不佳。通過(guò)學(xué)習(xí)參考文獻(xiàn)[8,9],了解到互信息容易受到詞條邊緣概率密度的影響,如果兩詞條擁有相同的條件概率,頻度低的反而有更高的相關(guān)信息量,其表現(xiàn)為過(guò)于傾向低頻詞,尤其當(dāng)選擇的訓(xùn)練文本和測(cè)試文本中有過(guò)多低頻詞時(shí)將直接影響后續(xù)分類效果。統(tǒng)計(jì)法CHI把特征與類別間的獨(dú)立性類比為x2分布,往往偏重于考慮特征詞在所有文檔中出現(xiàn)的文檔頻數(shù),對(duì)于少量文檔中高頻出現(xiàn)對(duì)分類貢獻(xiàn)極大的特征容易被忽略[7]。上述算法的理論基礎(chǔ)不同,基于大量真實(shí)數(shù)據(jù)的實(shí)驗(yàn)證明,各個(gè)算法各有利弊,不存在任何一種算法在所有的數(shù)據(jù)集上都是最優(yōu)的[10~13]。本文考慮網(wǎng)頁(yè)文本數(shù)據(jù)集海量的特性,推薦應(yīng)用最為廣泛且計(jì)算實(shí)現(xiàn)最為簡(jiǎn)便的特征加權(quán)技術(shù)TFIDF算法。

    TFIDF實(shí)際表示是 TF×IDF,其中TF表示詞頻(term frequency),即詞在該文本中出現(xiàn)的次數(shù);IDF表示反文檔頻率(inverse document frequency),計(jì)算式如式(2)所示,表示詞在整體語(yǔ)料庫(kù)文本集中普遍重要性的度量。

    其中,N為網(wǎng)頁(yè)文本語(yǔ)料庫(kù)全部文本數(shù)量,n為包含詞t的文本數(shù)量。

    TFIDF算法的主要依據(jù)是某一文本內(nèi)的高頻詞以及該詞在整個(gè)語(yǔ)料庫(kù)文本集合中的低頻率,可以產(chǎn)生出高權(quán)重的TFIDF。因此,TFIDF傾向于字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降,容易過(guò)濾掉常見的詞語(yǔ),保留重要的詞語(yǔ),適合用來(lái)作為分類的文本關(guān)鍵特征向量表示。

    圖3 詞典分詞與統(tǒng)計(jì)分詞結(jié)合的分詞機(jī)制

    4.4 文本分類

    文本分類環(huán)節(jié)主要基于網(wǎng)頁(yè)文本的特征向量將每個(gè)網(wǎng)頁(yè)文本歸入預(yù)先定義的URL類別節(jié)點(diǎn)中。目前常見的文本分類器有以下幾類:概率分類器,典型的如Naive Bayes;決策樹分類器,包括 ID3、C4.5、C5;神經(jīng)網(wǎng)絡(luò)分類器,如感知器法、logistic回歸、多層神經(jīng)網(wǎng)絡(luò)等;基于樣本的分類器,即惰性學(xué)習(xí)器,典型的有KNN;支持向量機(jī)SVM分類器[14]。不同的分類算法性能具備差異:其中Bayes、KNN以及決策樹的方法雖然效率較高,但其分類能力較弱。神經(jīng)網(wǎng)絡(luò)的最大缺點(diǎn)是過(guò)擬合,而防止過(guò)擬合很難實(shí)現(xiàn),參見參考文獻(xiàn)[15]。通過(guò)學(xué)習(xí)參考文獻(xiàn)[16,17]發(fā)現(xiàn),SVM分類即便在樣本分布不均衡的情況下,依然具備解決文本分類問(wèn)題的出眾性能,有效回避過(guò)擬合及冗余特征等問(wèn)題,是進(jìn)行網(wǎng)頁(yè)文本分類的首選算法,本節(jié)進(jìn)行重點(diǎn)介紹。

    SVM實(shí)現(xiàn)分類的主要途徑,是通過(guò)選擇非線性映射(核函數(shù))將輸入的文本向量映射到一個(gè)高維特征空間,在這個(gè)高維空間尋找最優(yōu)的分類超平面,使各個(gè)樣本間實(shí)現(xiàn)最大區(qū)分。但由于SVM最初就是一種典型的兩類分類器,要解決的網(wǎng)頁(yè)文本分類是個(gè)多類問(wèn)題,利用SVM算法,以多個(gè)超平面把空間劃分為多個(gè)區(qū)域,每個(gè)區(qū)域?qū)?yīng)一個(gè)類別,一次性求解的方法計(jì)算量實(shí)在太大,大到無(wú)法實(shí)用的地步。

    筆者建議采用DAG SVM方法,也稱為有向無(wú)環(huán)圖算法,實(shí)現(xiàn)網(wǎng)頁(yè)文本分類。以5個(gè)類別的左向有向無(wú)環(huán)算法為例:第一個(gè)分類器首先區(qū)分“1類對(duì)5類”的歸屬判定,如果歸屬5類,分類器往左走,進(jìn)入“2類對(duì)5類”的分類器,如果判定還是歸屬5類,繼續(xù)往左走,依次往下,直到得到最終分類結(jié)果,如圖4所示。這樣最終調(diào)用4個(gè)分類器(如果類別數(shù)為K,則只調(diào)用K-1個(gè)),可以得到分類結(jié)果。該方法的好處是每個(gè)優(yōu)化問(wèn)題的規(guī)模比較小且分類效率高。

    DAG SVM算法的缺點(diǎn)在于如果上一個(gè)節(jié)點(diǎn)分類器出現(xiàn)錯(cuò)誤,那么后面的分類器無(wú)法糾正錯(cuò)誤,存在錯(cuò)誤向下累積的現(xiàn)象。所以在分類器節(jié)點(diǎn)的布置上,筆者建議把差別大的排在前面,也就是把分類器按兩類分類的正確率從高到低排列,也可以考慮在每個(gè)兩類分類器上都輸出分類置信度,作為每個(gè)兩類分類器結(jié)果準(zhǔn)確度的參考依據(jù)。

    圖4 有向無(wú)環(huán)圖SVM過(guò)程說(shuō)明

    5 結(jié)束語(yǔ)

    移動(dòng)互聯(lián)網(wǎng)時(shí)代,電信運(yùn)營(yíng)商要在競(jìng)爭(zhēng)日趨激烈的產(chǎn)業(yè)鏈上,取得更好的發(fā)展,就必須更好地適應(yīng)市場(chǎng)和客戶的需求。通過(guò)對(duì)DPI數(shù)據(jù)的深入文本挖掘,實(shí)現(xiàn)網(wǎng)頁(yè)URL分類體系的自動(dòng)映射掛載,從而獲取用戶行為特征分類,將為運(yùn)營(yíng)商全面洞察客戶、構(gòu)建客戶全息視圖提供依據(jù),助力企業(yè)精準(zhǔn)營(yíng)銷。

    參考文獻(xiàn)

    1 羅憶祖.DPI技術(shù)力助運(yùn)營(yíng)商精細(xì)化運(yùn)營(yíng).郵電設(shè)計(jì)技術(shù),2009(3)

    2 于靜.基于頁(yè)面主體提取的Web信息抽取技術(shù)研究.南京郵電大學(xué)碩士學(xué)位論文,2013

    3 馮書曉,徐新,楊春梅.國(guó)內(nèi)外中文分詞技術(shù)研究新進(jìn)展.情報(bào)雜志,2002(11):29~30

    4 郭瞳康.基于詞典的中文分詞技術(shù)研究.哈爾濱理工大學(xué)碩士學(xué)位論文,2010

    5 李原.中文文本分類中分詞和特征選擇方法研究.吉林大學(xué)碩士學(xué)位論文,2011

    6 薛為民,陸玉昌.文本挖掘技術(shù)研究.北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,19(4):59~63

    7 宋江.文本分類的特征選擇方法研究.南京航空航天大學(xué)碩士學(xué)位論文,2010

    8 王法波.文本分類的特征選擇和分類方法研究.山東大學(xué)碩士學(xué)位論文,2011

    9 Liu H,Motoda H.Feature Extraction,Construction and Selection:A Data Mining Perspective.USA:Kluwer Academic,1998

    10 Jain A,Zongker D.Feature selection:evaluation,application and small sample performance.IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(2):153~158

    11 Gorvan A.Principal Manifolds for Data Visualisation and Dimension Reduction.New York:Springer,2007

    12 Verleysen M,Lee J A.Rank-based quality assessment of nonlinear dimensionality reduction.Proceedings of the 16th European Symposium on Artificial Neural Networks,Bruges,Belgium,2008:49~54

    13 Deerwester S.Indexing by latent semantic analysis.Journal of American Society for Information Science,1990,41(6):391~407

    14 陳燃燃.基于SVM算法的Web分類研究與實(shí)現(xiàn).北京郵電大學(xué)碩士學(xué)位論文,2009

    15 Vapnik V N.The Nature of Statistical Learning Theory.New York:Springer,1995

    16 Joachims T.Text categorization with support vector machines:learning with many relevant features.Proceedings of the 10th European Conference on Machine Learning,Chemnitz,Germany,1998:137~142

    17 Joachims T.Transductive inference for text classification using support vector machines.Proceedings of the 16th International Conference on Machine Learning,Bled,Slovenia,1999:200~209

    猜你喜歡
    分詞分類器網(wǎng)頁(yè)
    結(jié)巴分詞在詞云中的應(yīng)用
    基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
    電子制作(2018年10期)2018-08-04 03:24:38
    BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
    基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
    電子制作(2017年2期)2017-05-17 03:54:56
    值得重視的分詞的特殊用法
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
    基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
    10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
    免费看a级黄色片| 亚洲美女黄片视频| 成年av动漫网址| 91精品国产九色| 中文在线观看免费www的网站| 乱系列少妇在线播放| 最近的中文字幕免费完整| 国产黄色视频一区二区在线观看 | 在线国产一区二区在线| 国产在线男女| 国产探花极品一区二区| 婷婷精品国产亚洲av| 国产视频一区二区在线看| 12—13女人毛片做爰片一| 国产三级在线视频| 国产一区亚洲一区在线观看| 久久人人爽人人片av| 欧美色欧美亚洲另类二区| 国产精品久久电影中文字幕| 免费观看精品视频网站| 国产精品不卡视频一区二区| 免费看光身美女| 波野结衣二区三区在线| 精品人妻偷拍中文字幕| 成人三级黄色视频| 日韩欧美一区二区三区在线观看| av天堂在线播放| 亚洲精品日韩在线中文字幕 | 91午夜精品亚洲一区二区三区| 欧美日韩一区二区视频在线观看视频在线 | 国产男靠女视频免费网站| 亚洲精品日韩在线中文字幕 | 在线免费观看的www视频| a级毛片免费高清观看在线播放| 淫秽高清视频在线观看| a级毛色黄片| 18+在线观看网站| 91午夜精品亚洲一区二区三区| 亚洲国产欧洲综合997久久,| 人妻少妇偷人精品九色| 中文字幕av在线有码专区| 色5月婷婷丁香| 国产69精品久久久久777片| av中文乱码字幕在线| 免费看a级黄色片| 精品一区二区免费观看| 九色成人免费人妻av| 少妇裸体淫交视频免费看高清| 在线观看美女被高潮喷水网站| 精品久久久久久久末码| 久久精品夜色国产| 在线播放国产精品三级| 99热这里只有是精品50| 午夜爱爱视频在线播放| 中文字幕免费在线视频6| 看片在线看免费视频| 99久久九九国产精品国产免费| 免费av不卡在线播放| 中文字幕av成人在线电影| 国产成年人精品一区二区| 欧美xxxx黑人xx丫x性爽| 三级毛片av免费| 成人二区视频| 中文字幕久久专区| 在线观看66精品国产| 国产精品福利在线免费观看| 香蕉av资源在线| 91久久精品国产一区二区三区| 亚洲性夜色夜夜综合| 可以在线观看的亚洲视频| 美女被艹到高潮喷水动态| 久久久久久九九精品二区国产| 波多野结衣高清作品| 国内精品宾馆在线| 啦啦啦观看免费观看视频高清| 国产高清不卡午夜福利| 亚洲熟妇中文字幕五十中出| 成人性生交大片免费视频hd| 伦精品一区二区三区| www日本黄色视频网| 卡戴珊不雅视频在线播放| 99热这里只有精品一区| 日本黄大片高清| 少妇的逼好多水| 简卡轻食公司| 欧美日本视频| 日韩精品有码人妻一区| 日本一二三区视频观看| 国产伦精品一区二区三区四那| 精品不卡国产一区二区三区| 国产黄a三级三级三级人| 国产黄色视频一区二区在线观看 | 热99re8久久精品国产| 亚洲精华国产精华液的使用体验 | a级毛片免费高清观看在线播放| 国产精品一区www在线观看| 人人妻人人看人人澡| 日本与韩国留学比较| 俄罗斯特黄特色一大片| 日本三级黄在线观看| 国产亚洲精品久久久久久毛片| 菩萨蛮人人尽说江南好唐韦庄 | 国产精品免费一区二区三区在线| 好男人在线观看高清免费视频| 午夜精品一区二区三区免费看| 在线天堂最新版资源| 天堂动漫精品| av女优亚洲男人天堂| av专区在线播放| 神马国产精品三级电影在线观看| 搡老妇女老女人老熟妇| 最近最新中文字幕大全电影3| 精品不卡国产一区二区三区| 久久久精品94久久精品| 色av中文字幕| 12—13女人毛片做爰片一| 丰满乱子伦码专区| 女人被狂操c到高潮| 99久久九九国产精品国产免费| 久久亚洲精品不卡| 日韩欧美精品免费久久| 久久久a久久爽久久v久久| 亚洲成人久久性| 国产一区二区激情短视频| 麻豆乱淫一区二区| 九九在线视频观看精品| 亚洲无线在线观看| 男人狂女人下面高潮的视频| 插逼视频在线观看| or卡值多少钱| 亚洲天堂国产精品一区在线| ponron亚洲| 偷拍熟女少妇极品色| 欧美高清性xxxxhd video| 全区人妻精品视频| 亚洲无线在线观看| 国产av一区在线观看免费| 日本黄大片高清| 噜噜噜噜噜久久久久久91| 欧美中文日本在线观看视频| 国产午夜福利久久久久久| 久久久久久久午夜电影| 国产精品伦人一区二区| 婷婷精品国产亚洲av| 免费高清视频大片| 国产日本99.免费观看| 亚洲最大成人中文| 国产高清视频在线观看网站| 欧美3d第一页| 亚洲成人av在线免费| 在线免费观看的www视频| 少妇人妻精品综合一区二区 | 国产视频一区二区在线看| 少妇的逼好多水| 美女高潮的动态| 国产精品1区2区在线观看.| 日本精品一区二区三区蜜桃| 成年免费大片在线观看| 日韩精品中文字幕看吧| 九色成人免费人妻av| 成人鲁丝片一二三区免费| 欧美最新免费一区二区三区| 久久久精品94久久精品| 直男gayav资源| 99久久久亚洲精品蜜臀av| 国产一区二区三区在线臀色熟女| 欧美3d第一页| 色哟哟哟哟哟哟| or卡值多少钱| 国产精品永久免费网站| 欧美三级亚洲精品| 国产私拍福利视频在线观看| 国产精品精品国产色婷婷| 欧美成人a在线观看| 精品乱码久久久久久99久播| 99九九线精品视频在线观看视频| 91在线精品国自产拍蜜月| 最近2019中文字幕mv第一页| av黄色大香蕉| 中文资源天堂在线| 男女啪啪激烈高潮av片| 听说在线观看完整版免费高清| 一区二区三区免费毛片| 欧美色视频一区免费| 欧洲精品卡2卡3卡4卡5卡区| 特级一级黄色大片| 亚洲精品日韩在线中文字幕 | 国产精品国产三级国产av玫瑰| 一夜夜www| 欧美色欧美亚洲另类二区| 免费av观看视频| av天堂在线播放| 色播亚洲综合网| 亚洲欧美日韩高清在线视频| 在线观看一区二区三区| 国产欧美日韩一区二区精品| 国产精品国产高清国产av| 亚洲精品色激情综合| 日本撒尿小便嘘嘘汇集6| 波野结衣二区三区在线| 日本免费a在线| 国产又黄又爽又无遮挡在线| 97人妻精品一区二区三区麻豆| 久久午夜福利片| 天堂av国产一区二区熟女人妻| 午夜影院日韩av| 18禁裸乳无遮挡免费网站照片| 国产av麻豆久久久久久久| 看非洲黑人一级黄片| 在线免费十八禁| 成年版毛片免费区| 免费大片18禁| 可以在线观看毛片的网站| 五月伊人婷婷丁香| 秋霞在线观看毛片| 色哟哟哟哟哟哟| 两个人视频免费观看高清| 黄色欧美视频在线观看| 久久这里只有精品中国| 成年免费大片在线观看| 亚洲成人久久性| 丝袜美腿在线中文| 亚洲,欧美,日韩| 亚州av有码| 欧美成人免费av一区二区三区| 插逼视频在线观看| 久久6这里有精品| 免费一级毛片在线播放高清视频| 97人妻精品一区二区三区麻豆| 午夜免费激情av| 伦精品一区二区三区| 国产高清视频在线观看网站| 成人亚洲精品av一区二区| 在线观看av片永久免费下载| 久久午夜福利片| 搡老熟女国产l中国老女人| 亚洲av美国av| 欧美高清性xxxxhd video| 欧美+亚洲+日韩+国产| 嫩草影院入口| 少妇熟女aⅴ在线视频| 国产av不卡久久| 成人亚洲精品av一区二区| 久久精品人妻少妇| 午夜福利视频1000在线观看| 亚洲经典国产精华液单| 国产黄色小视频在线观看| 联通29元200g的流量卡| 国产精品一及| 欧美高清性xxxxhd video| 蜜臀久久99精品久久宅男| 一级毛片我不卡| 不卡视频在线观看欧美| 最近视频中文字幕2019在线8| 内地一区二区视频在线| 久久国产乱子免费精品| 少妇熟女欧美另类| 国产爱豆传媒在线观看| 亚洲av免费高清在线观看| 又黄又爽又免费观看的视频| 欧美性感艳星| 久久久久久久久中文| 91麻豆精品激情在线观看国产| 日本撒尿小便嘘嘘汇集6| 亚洲欧美精品自产自拍| 久久午夜福利片| 搞女人的毛片| 免费看美女性在线毛片视频| 在线播放无遮挡| 国产精品一区二区三区四区久久| 亚洲欧美精品综合久久99| 中文字幕av成人在线电影| 久久久久九九精品影院| h日本视频在线播放| 免费大片18禁| 中国美白少妇内射xxxbb| 99在线人妻在线中文字幕| 别揉我奶头 嗯啊视频| 国产精品福利在线免费观看| 日本撒尿小便嘘嘘汇集6| 国产女主播在线喷水免费视频网站 | 国产在线精品亚洲第一网站| 久久这里只有精品中国| 欧美另类亚洲清纯唯美| 一级a爱片免费观看的视频| 国产美女午夜福利| 国产精品一区二区性色av| 国产成人a∨麻豆精品| 欧美人与善性xxx| 欧美性猛交黑人性爽| 亚洲av成人精品一区久久| 搡女人真爽免费视频火全软件 | 不卡一级毛片| 亚洲va在线va天堂va国产| 日本熟妇午夜| 男女之事视频高清在线观看| 国产伦在线观看视频一区| 久久久久久久午夜电影| 麻豆一二三区av精品| 亚洲自偷自拍三级| 淫妇啪啪啪对白视频| 男女做爰动态图高潮gif福利片| 中文字幕精品亚洲无线码一区| 九九在线视频观看精品| 中国美女看黄片| 久久久久国产精品人妻aⅴ院| 丰满乱子伦码专区| 国产在线男女| 亚洲精品国产成人久久av| 青春草视频在线免费观看| 高清日韩中文字幕在线| 99久久成人亚洲精品观看| 久久精品久久久久久噜噜老黄 | av女优亚洲男人天堂| 你懂的网址亚洲精品在线观看 | 黄色视频,在线免费观看| 国产精品电影一区二区三区| 亚洲av成人av| 国产色婷婷99| 长腿黑丝高跟| 国产在线精品亚洲第一网站| 日日撸夜夜添| 午夜精品国产一区二区电影 | 三级经典国产精品| 少妇被粗大猛烈的视频| 男人的好看免费观看在线视频| 午夜久久久久精精品| ponron亚洲| 天美传媒精品一区二区| 久久久久久久久久久丰满| 欧美一区二区精品小视频在线| 淫秽高清视频在线观看| 一卡2卡三卡四卡精品乱码亚洲| 精品福利观看| 99热只有精品国产| 一级黄片播放器| 大香蕉久久网| 精品久久久久久久久av| 女人被狂操c到高潮| 欧美日韩一区二区视频在线观看视频在线 | 成熟少妇高潮喷水视频| 国产午夜福利久久久久久| 夜夜爽天天搞| 日日摸夜夜添夜夜添av毛片| 丰满的人妻完整版| 性欧美人与动物交配| 自拍偷自拍亚洲精品老妇| 久久久久性生活片| 亚洲精品一区av在线观看| 国产成人aa在线观看| 1000部很黄的大片| 在线免费十八禁| 国产女主播在线喷水免费视频网站 | 久久精品国产亚洲av涩爱 | 在线免费观看不下载黄p国产| 成人特级黄色片久久久久久久| 99久久无色码亚洲精品果冻| 国产高清不卡午夜福利| 午夜福利视频1000在线观看| 麻豆久久精品国产亚洲av| 好男人在线观看高清免费视频| 国产老妇女一区| 欧美成人一区二区免费高清观看| 人人妻人人澡人人爽人人夜夜 | av在线亚洲专区| 美女xxoo啪啪120秒动态图| 18+在线观看网站| 亚洲最大成人av| 成人精品一区二区免费| 噜噜噜噜噜久久久久久91| 国产精品人妻久久久久久| or卡值多少钱| 内射极品少妇av片p| 一个人免费在线观看电影| 搞女人的毛片| 少妇猛男粗大的猛烈进出视频 | 国产精品久久久久久精品电影| 色av中文字幕| 久久久久久伊人网av| 99久久成人亚洲精品观看| 亚洲av.av天堂| 最近最新中文字幕大全电影3| 久久99热这里只有精品18| 别揉我奶头 嗯啊视频| 色综合亚洲欧美另类图片| 精品人妻一区二区三区麻豆 | 老司机午夜福利在线观看视频| 91午夜精品亚洲一区二区三区| 一本一本综合久久| 亚洲专区国产一区二区| 久久人人爽人人爽人人片va| 日韩欧美三级三区| 禁无遮挡网站| 欧美最黄视频在线播放免费| 香蕉av资源在线| 免费搜索国产男女视频| 国产精品不卡视频一区二区| 日韩精品有码人妻一区| 一级黄片播放器| 小说图片视频综合网站| 激情 狠狠 欧美| 国产精品一区二区免费欧美| 成人三级黄色视频| 热99re8久久精品国产| 99久久久亚洲精品蜜臀av| 插阴视频在线观看视频| 国产成人freesex在线 | 99视频精品全部免费 在线| 国产精品一区二区三区四区久久| 亚洲人与动物交配视频| 九九在线视频观看精品| 嫩草影院新地址| 日日摸夜夜添夜夜添小说| 99久久精品热视频| 99热全是精品| 日本-黄色视频高清免费观看| 成人漫画全彩无遮挡| 淫妇啪啪啪对白视频| 看非洲黑人一级黄片| 国产日本99.免费观看| 我的老师免费观看完整版| 毛片一级片免费看久久久久| 伦精品一区二区三区| 女生性感内裤真人,穿戴方法视频| 亚洲久久久久久中文字幕| 国产精品无大码| 三级毛片av免费| 成年女人看的毛片在线观看| 少妇猛男粗大的猛烈进出视频 | 色尼玛亚洲综合影院| 久久久久久伊人网av| 天堂网av新在线| 国产成人福利小说| 欧美激情国产日韩精品一区| 毛片一级片免费看久久久久| 寂寞人妻少妇视频99o| 国产黄色视频一区二区在线观看 | 精品一区二区三区人妻视频| 国产日本99.免费观看| 婷婷色综合大香蕉| 最近最新中文字幕大全电影3| 国产精品国产三级国产av玫瑰| 真实男女啪啪啪动态图| 久久久久久久午夜电影| 成人高潮视频无遮挡免费网站| 69人妻影院| .国产精品久久| 午夜免费激情av| 国产高清视频在线播放一区| 久久99热6这里只有精品| 在线观看一区二区三区| 天堂网av新在线| or卡值多少钱| h日本视频在线播放| 日本欧美国产在线视频| 人人妻人人澡欧美一区二区| 日本在线视频免费播放| 日本 av在线| 欧美另类亚洲清纯唯美| 黑人高潮一二区| 中文字幕av在线有码专区| 男女之事视频高清在线观看| 熟女电影av网| 欧美xxxx性猛交bbbb| 欧美日韩在线观看h| 欧美3d第一页| 国产av在哪里看| 哪里可以看免费的av片| 在线观看午夜福利视频| 日韩,欧美,国产一区二区三区 | 一卡2卡三卡四卡精品乱码亚洲| 日本黄大片高清| 在线观看午夜福利视频| 网址你懂的国产日韩在线| 男女之事视频高清在线观看| 91狼人影院| 中国国产av一级| 成人欧美大片| 国产精品国产三级国产av玫瑰| 极品教师在线视频| 国产三级中文精品| 一进一出抽搐动态| 身体一侧抽搐| 高清毛片免费观看视频网站| 免费无遮挡裸体视频| 两个人视频免费观看高清| 内射极品少妇av片p| 美女xxoo啪啪120秒动态图| 在线播放无遮挡| 欧美性猛交黑人性爽| 日日摸夜夜添夜夜添小说| 乱人视频在线观看| 国产高清不卡午夜福利| 在线免费观看不下载黄p国产| 午夜影院日韩av| 久久精品国产鲁丝片午夜精品| 深夜精品福利| 欧美+日韩+精品| 亚洲va在线va天堂va国产| 97碰自拍视频| 99久国产av精品| 亚洲成人精品中文字幕电影| 亚洲av一区综合| 99热全是精品| 久久久久久九九精品二区国产| 免费观看人在逋| 国产亚洲精品综合一区在线观看| a级毛片a级免费在线| 成人高潮视频无遮挡免费网站| 国模一区二区三区四区视频| 97碰自拍视频| 日本在线视频免费播放| 久久精品综合一区二区三区| 成年版毛片免费区| 国产美女午夜福利| 国产高清激情床上av| a级一级毛片免费在线观看| 丝袜美腿在线中文| ponron亚洲| 国产91av在线免费观看| 精品久久国产蜜桃| 白带黄色成豆腐渣| 国产黄色视频一区二区在线观看 | 国产高清不卡午夜福利| 秋霞在线观看毛片| 99热网站在线观看| 久久久久免费精品人妻一区二区| 99久久无色码亚洲精品果冻| 日韩一本色道免费dvd| 精品99又大又爽又粗少妇毛片| 黑人高潮一二区| 国产免费男女视频| 男人和女人高潮做爰伦理| 亚洲精品日韩av片在线观看| 欧美一级a爱片免费观看看| 天美传媒精品一区二区| 麻豆久久精品国产亚洲av| 欧美成人免费av一区二区三区| 97超视频在线观看视频| 欧美人与善性xxx| 国产亚洲精品久久久com| 国产精品无大码| 成人美女网站在线观看视频| av在线播放精品| 国产高清视频在线播放一区| 99热这里只有精品一区| 欧美性猛交黑人性爽| 三级男女做爰猛烈吃奶摸视频| 能在线免费观看的黄片| 99久久精品热视频| 亚洲国产日韩欧美精品在线观看| 毛片一级片免费看久久久久| 人人妻,人人澡人人爽秒播| 在线播放国产精品三级| 偷拍熟女少妇极品色| 精品一区二区三区视频在线观看免费| 久久99热6这里只有精品| 久久久久久久久久黄片| 日韩国内少妇激情av| 1024手机看黄色片| 国产一区二区在线观看日韩| 真人做人爱边吃奶动态| 六月丁香七月| 自拍偷自拍亚洲精品老妇| 99热这里只有是精品50| 欧美激情在线99| 男女啪啪激烈高潮av片| 乱码一卡2卡4卡精品| 综合色丁香网| 国产精品一区二区性色av| 精品久久久久久成人av| 淫秽高清视频在线观看| 亚洲国产高清在线一区二区三| 国产精品一二三区在线看| 国产一区亚洲一区在线观看| 婷婷亚洲欧美| 韩国av在线不卡| 亚洲av免费在线观看| 不卡视频在线观看欧美| 一进一出抽搐动态| 91麻豆精品激情在线观看国产| 欧美日本视频| 好男人在线观看高清免费视频| 亚洲精品日韩av片在线观看| 国产激情偷乱视频一区二区| 久久天躁狠狠躁夜夜2o2o| 欧美日本亚洲视频在线播放| 久久久久久久亚洲中文字幕| 丝袜美腿在线中文| 日本五十路高清| 啦啦啦观看免费观看视频高清| 狠狠狠狠99中文字幕| 日韩人妻高清精品专区| 国产又黄又爽又无遮挡在线| 一区二区三区四区激情视频 | 一级毛片电影观看 | 丝袜喷水一区| 日本免费a在线| 欧美一区二区精品小视频在线| 免费黄网站久久成人精品| 黄色视频,在线免费观看| 身体一侧抽搐| 久久精品国产鲁丝片午夜精品| 乱人视频在线观看| 12—13女人毛片做爰片一| 直男gayav资源| 精品免费久久久久久久清纯| 亚洲精品亚洲一区二区| 亚洲在线自拍视频| 男女视频在线观看网站免费| 国产午夜精品久久久久久一区二区三区 | 免费无遮挡裸体视频| 麻豆精品久久久久久蜜桃| 欧美精品国产亚洲| 一个人看的www免费观看视频|