• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于K-Means和Apriori算法的多層特征提取方法

    2015-03-21 06:01:54錢慎一朱艷玲朱顥東
    關(guān)鍵詞:特征詞項集特征提取

    錢慎一, 朱艷玲, 朱顥東

    (鄭州輕工業(yè)學(xué)院 計算機(jī)與通信工程學(xué)院, 鄭州 450002)

    ?

    基于K-Means和Apriori算法的多層特征提取方法

    錢慎一, 朱艷玲, 朱顥東*

    (鄭州輕工業(yè)學(xué)院 計算機(jī)與通信工程學(xué)院, 鄭州 450002)

    根據(jù)科技文獻(xiàn)的結(jié)構(gòu)特點,論文提出了一種四層挖掘模式,并結(jié)合K-means算法和Apriori算法,構(gòu)建一個新的特征詞提取方法——MultiLM-FE方法.該方法首先依據(jù)科技文獻(xiàn)的結(jié)構(gòu)將其分為4個層次,然后通過K-means聚類對前3層逐層實現(xiàn)特征詞提取,最后再使用Aprori算法找出第4層的最大頻繁項集,并作為第4層的特征詞集合.該方法能夠解決K-means算法不能自動確定最佳聚類初始點的問題,減少了聚類過程中信息損耗,這使得該方法能夠在文獻(xiàn)語料庫中更加準(zhǔn)確地找到特征詞,較之以前的方法有很大提升,尤其是在科技文獻(xiàn)方面更為適用.實驗結(jié)果表明,該方法是可行有效的.

    科技文獻(xiàn); 特征提取;K-means算法; Apriori算法

    隨著文獻(xiàn)檢索能力的提高,越來越多的用戶習(xí)慣于從中國知網(wǎng)和數(shù)字圖書館進(jìn)行快速檢索,獲取所需文獻(xiàn)資料.但是在知識更新不斷加快的今天,新主題、新事物、新學(xué)科大量涌現(xiàn),信息種類和數(shù)量激增,這使得科技文獻(xiàn)的數(shù)量每年近似指數(shù)的速度增長.如此海量的科技文獻(xiàn),往往需要消耗讀者大量的時間.如何對其進(jìn)行高效組織,滿足廣大讀者的需求,已經(jīng)成為該領(lǐng)域的一個研究熱點.目前,諸多檢索機(jī)構(gòu)已將文獻(xiàn)資料進(jìn)行分類處理,例如,在中國知網(wǎng)中輸入檢索詞“綠色網(wǎng)絡(luò)”,能夠檢索到74 050條數(shù)據(jù)記錄,其中,在宏觀經(jīng)濟(jì)管理與可持續(xù)發(fā)展學(xué)科領(lǐng)域有10 227條數(shù)據(jù)記錄,在工業(yè)經(jīng)濟(jì)領(lǐng)域有8 402條記錄,在建筑科學(xué)與工程領(lǐng)域有8 080條記錄,在農(nóng)業(yè)經(jīng)濟(jì)領(lǐng)域有7 217條記錄,在計算機(jī)軟件及計算機(jī)應(yīng)用領(lǐng)域有2 419條記錄等等.但是,目前文獻(xiàn)的學(xué)科領(lǐng)域分類不夠精準(zhǔn),導(dǎo)致可能漏掉一些用戶所需的文獻(xiàn)資料,這無疑是對傳統(tǒng)檢索方式的一種極大挑戰(zhàn).

    科技文獻(xiàn)主要以文本的形式存在,對科技文獻(xiàn)進(jìn)行分類即是對文本進(jìn)行分類處理.特征選擇是實現(xiàn)文本高效分類的前提,是文本自動分類的一個重要環(huán)節(jié),特征選擇算法的性能將直接影響分類系統(tǒng)的最終效果.

    目前,通常采用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統(tǒng)計方法得到的特征項來表示文本向量,那么這個向量的維度將會非常的大.這種未經(jīng)處理的文本矢量不僅會給后續(xù)工作帶來巨大的計算開銷,導(dǎo)致整個處理過程的效率非常低下,而且還會損害分類、聚類算法的精確性,以致使所得到的結(jié)果很難令人滿意.因此,需要對文本向量做進(jìn)一步凈化處理,在保證原文含義的基礎(chǔ)之上,找出對文本特征類別最具有代表性的文本特征.目前關(guān)于特征詞的基本方法主要由以下幾種:互信息(Mutual Information))[1],信息增益方法(Information Gain)[2],χ-2統(tǒng)計量方法[3],期望交叉熵(Expected Cross Entropy)[3],文檔頻次方法(Document Frequency)[3].以上幾種方法,在英文特征提取方面都有各自的優(yōu)勢,但是由于中文和英文在語言表達(dá)形式上、句法分析和語義分析等方面都有較大差異,因此,將其用于中文文本分類并沒有很高的效率.

    本文針對中文的科技文獻(xiàn)進(jìn)行分類,科技文獻(xiàn)主要以文本的形式存在,由標(biāo)題、摘要,關(guān)鍵字,正文等組成,其中最能代表文章主題的是標(biāo)題和關(guān)鍵字,其次是摘要部分,再次是正文的引言和總結(jié)部分,最后是正文的其他部分,為了更加精準(zhǔn)的提取特征詞,本文組建四層挖掘模式,逐層對科技文獻(xiàn)進(jìn)行特征提取.因此,本文提出一種結(jié)合K-means算法和Apriori算法的多層挖掘特征提取方法—— MultiLM-FE方法,來對科技文獻(xiàn)進(jìn)行分類處理.

    1 相關(guān)知識簡介

    1.1 K-means算法

    K-means算法是一種基于樣本間相似性度量的間接聚類方法,也被稱為K-平均或K-均值算法.算法的主要思想是通過迭代的過程把數(shù)據(jù)集劃分為不同的類別,使得評價聚類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu).算法描述:首先要確定K值.第二,使用歐氏距離計算數(shù)據(jù)樣本之間的距離.歐式距離公式如下:

    (1)

    式中,d(xi,xj)表示xi和xj之間的相似度,該值越小,說明樣本xi和xj越相似.xi=(xi1,xi2,…,xid),其中xi1,xi2,…,xid為xi的具體取值,xj=(xj1,xj2,…,xjd),其中xj1,xj2,…,xjd為xj的具體取值.第三,對各個數(shù)據(jù)對象按照其到聚類中心距離進(jìn)行聚類,最后更新聚類中心點,這個過程不斷重復(fù)直到滿足某個準(zhǔn)則函數(shù)且中心的的改變小于某個特定的值才停止.

    1.2 關(guān)聯(lián)規(guī)則與Apriori算法

    關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)項之間存在的潛在關(guān)系的規(guī)則,其形式化描述如下:設(shè)A=(A1,A2,…,Am)為數(shù)據(jù)項的集合,D為數(shù)據(jù)庫事務(wù)的集合,其中每個事務(wù)C都是數(shù)據(jù)項的集合,即C?A.關(guān)聯(lián)規(guī)則是形如W≥Z的蘊(yùn)涵式,其中W和Z是項目集,且W?A,Z?A,W∪Z=?.定義支持度為D中包含W∪Z的事務(wù)占全部事務(wù)的百分比,記作supprot(W?Z)=P(W∪Z);置信度為D中包含W∪Z的事務(wù)數(shù)與包含X的事務(wù)數(shù)的比值,記作confidence(W?Z)=P(W|Z).多個項組成的集合成為項集.包含k個項的項集稱為k-項集.若某個項集的支持度不小于設(shè)定的最小支持度閾值min_sup.則稱這個項集為頻繁項集.所有的頻繁k-項集組成的集合成為最大頻繁項集.

    Apriori算法是一種逐層迭代挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來尋找數(shù)據(jù)項之間的關(guān)聯(lián)關(guān)系.首先找出頻繁1-項集的集合.通過頻繁1-項集來尋找頻繁2-項集,…,通過k-1項集尋找K項集合,直至找到最大頻繁項集合.Apriori算法使用如下性質(zhì)來找到K維最大頻繁項集:

    性質(zhì)1XK是K維頻繁項集,若所有K-1維頻繁項集集合Xk-1中包含XK的K-1維子項集的個數(shù)小于K,那么Xk不可能為K維最大頻繁項集.

    K的值每增加1就需要掃描一次數(shù)據(jù)庫,為了提高頻繁項集的搜索效率,Apriori算法使用下述性質(zhì)用于壓縮搜索空間:

    性質(zhì)2若k維數(shù)據(jù)項集Xk中有一k-1維子集不是頻繁項集,那么X不是頻繁項集.

    2 基于K-means和Apriori算法的多層特征提取

    科技文獻(xiàn)一般結(jié)構(gòu)規(guī)范,特征清晰,易于對其進(jìn)行線性化處理,從而進(jìn)行聚類分析.本文根據(jù)科技文獻(xiàn)的結(jié)構(gòu)特點提出一種4層挖掘模式,并將K-means聚類分析方法應(yīng)用于該模式的前3層,將Apriori方法應(yīng)用于第4層,從而實現(xiàn)逐層特征提取.特征提取流程如圖1所示.

    圖1 科技文獻(xiàn)特征提取流程圖Fig.1 Feature extraction flow chart of scientific literatures

    這種方法的基本思想是,首先將挖掘過程分為4層:標(biāo)題與關(guān)鍵字、摘要、文獻(xiàn)引言與總結(jié)部分、正文的其他部分.逐層定位中心點,這就使得簇的數(shù)目K不必由用戶事先指定.然后將第1層的 K個一級特征詞作為第2層的初始中心點,使用歐氏距離公式計算第2層數(shù)據(jù)對象之間的距離,根據(jù)其與中心點的距離分配給最近的一個簇,其次計算每個簇的平均值,并用該平均值代表相應(yīng)的簇.再次根據(jù)每個對象與各個簇中心的距離,分配給最近的簇.中心點若有改變,重新計算數(shù)據(jù)對象之間的距離,并計算每個簇的平均值,這個過程不斷重復(fù)直到滿足某個準(zhǔn)則函數(shù)且中心的改變小于某個特定的值才停止.最后在每個簇中選擇一個或多個代表詞作為二級特征詞,并且指定這些二級特征詞作為第3層的初始中心點.步驟相同,待算法收斂時得到三級特征詞.正文部分屬于四層挖掘模式中的第4層,采用Apriori算法對正文部分進(jìn)頻繁項集的挖掘.將提取出的頻繁項集和三級特征詞進(jìn)行比較,消除重復(fù)詞,最終得出特征詞集.

    2.1 科技文獻(xiàn)標(biāo)題和關(guān)鍵字中一級特征詞的提取

    對科技文獻(xiàn)標(biāo)題、關(guān)鍵字用漢語分詞系統(tǒng)進(jìn)行切分,經(jīng)去停用詞處理,得出一級特征詞,作為第2層正文的引言和總結(jié)部分聚類算法的中心點.例如文獻(xiàn)標(biāo)題為:基于潛在語義分析的微博主題挖掘模型研究,關(guān)鍵字為:微博;短文本;主題挖掘;LDA模型;增量聚類,得到的切分效果如圖2所示.

    圖2 漢語自動分詞系統(tǒng)Fig.2 Chinese auto-segmentation system

    2.2 科技文獻(xiàn)摘要中二級特征詞的提取

    對文獻(xiàn)的摘要部分用上文提到的漢語分詞系統(tǒng)進(jìn)行分詞處理,經(jīng)過去停用詞處理得到得到文獻(xiàn)語料庫(一).特征提取過程如下:

    Step1:依據(jù)一級特征詞的個數(shù)確定K-means算法的K值;

    Step2:使用歐氏距離計算數(shù)據(jù)樣本之間的距離Li;

    Step3:對各個數(shù)據(jù)對象按照其到聚類中心距離進(jìn)行聚類;

    Step4:計算每個簇的平均值,并用該平均值代表相應(yīng)的簇;

    Step5:根據(jù)每個對象與各個簇中心的距離,分配給最近的簇.中心點若有改變,重新計算數(shù)據(jù)對象之間的距離,這個過程不斷重復(fù)直到滿足某個準(zhǔn)則函數(shù)且中心點的改變小于某個特定的;

    Step6:輸出結(jié)果簇.

    此時只需對每個簇選擇一個或多個代表詞作為二級特征詞,同時作為下一層聚類的初始中心點.

    2.3 科技文獻(xiàn)引言和總結(jié)中三級級特征詞的提取

    引言主要介紹該文獻(xiàn)主題的應(yīng)用背景,目前所取得的一些成果,所處的一個階段及存在的不足之處,段尾是對該文獻(xiàn)的總結(jié)和展望.提取過程同二級特征詞提取的方法相似,用單詞切分器對段首和段尾文本進(jìn)行切分,切分出的單詞經(jīng)過去停用詞處理后,形成文獻(xiàn)語料庫(二).

    2.4 科技文獻(xiàn)正文的其他部分獲取四級特征詞

    用相同的方法對正文部分?jǐn)?shù)據(jù)處理得到文獻(xiàn)語料庫(三),由于科技文獻(xiàn)的正文部分?jǐn)?shù)據(jù)量較大,特征詞的密度相對較小.適合采用挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的方法進(jìn)行頻繁項的抽取.

    Step1:掃描文獻(xiàn)語料庫(三)中主題為“數(shù)據(jù)信息,產(chǎn)生頻繁的1-項集;

    Stept2:由頻繁1-項集經(jīng)過兩兩結(jié)合生成頻繁的2-項集;

    Step3:通過頻繁(k-1)-項集產(chǎn)生k-項集候選集.

    如果在兩個頻繁的(k-1)-項集只有最后一個元素不同,其他都相同,那么這兩個(k-1)-項集項集可以“連接”為一個k-項集.如果不能連接,將其舍棄;

    Step4:從候選集中剔除非頻繁項集.

    如果候選集中某個k-項集的子項集不在頻繁的(k-1)-項集中,將其刪除;

    Step5:掃描文獻(xiàn)語料庫(三),計算候選項集的支持度,將其與最小支持度比較,從而得到k維頻繁項集.直至生成最大項集,否則轉(zhuǎn)向(3);

    Step6:將挖掘出的頻繁項經(jīng)過頻率過濾和名詞剪枝,得到評價對象集,作為四級特征詞.

    將提取出的頻繁項集和三級特征詞進(jìn)行比較,消除重復(fù)詞,最終得出特征詞集.

    3 仿真實驗

    在知網(wǎng)上搜集1 320篇屬于計算機(jī)行業(yè)的科技文獻(xiàn),作為實驗數(shù)據(jù)的訓(xùn)練集,其中80篇主題為“離散化”的文獻(xiàn),220篇主題為“綠色網(wǎng)絡(luò)”的文獻(xiàn),360篇主題為“特征詞選擇”的文獻(xiàn),其余660篇作為測試集,測試集的文獻(xiàn)數(shù)量訓(xùn)練集數(shù)量相一致.本文選擇一篇題目為“文本分類中連續(xù)屬性離散化方法的研究”的文獻(xiàn)作為特征詞挖掘的實驗樣例,進(jìn)行MultiLM-FE方法中提出的四層挖掘模式的前三層的聚類分析實驗.

    3.1 從文獻(xiàn)標(biāo)題和關(guān)鍵字中獲取一級特征詞

    文獻(xiàn)的標(biāo)題為:“文本分類中連續(xù)屬性離散化方法的研究”,關(guān)鍵字為:機(jī)器學(xué)習(xí);文本分類;信息增益;連續(xù)屬性離散化;Boosting算法.采用中國科學(xué)院計算技術(shù)研究所的切分器切分,結(jié)果為:文本/n分類/v中/f連續(xù)/a屬性/n離散/v化/v方法/n的/u研究/v機(jī)器/n學(xué)習(xí)/v;/w文本/n分類/v;/w信息/n增益/v;/w連續(xù)/a屬性/n離散/v化/v Boosting/n 算法/n.經(jīng)停用詞處理之后得出一級特征詞.如表1所示.

    表1 一級特征詞

    3.2 從摘要中獲取二級特征詞

    首先對摘要進(jìn)行分詞切分:針對/p_機(jī)器/n_學(xué)習(xí)/v_領(lǐng)域/n_的/u_一些/m_分類/v_算法/n_不能/v_處理/v_連續(xù)/a_屬性/n_的/u問題/n ……將/d_問題/n_轉(zhuǎn)換/v_成二/m_值/a_表示/v_方式/n_,/w_以/p_使得/v_這些/r_分類/v_算法/n_適用/v_于/p_連續(xù)/a_屬性/n_值/v_./w,由于數(shù)據(jù)使用不同的尺度度量,在使用歐氏距離之前先進(jìn)行歸一化處理,屬性值歸一化定義為:

    (2)

    其中,ai是指某個對象的屬性i,vi是屬性i的真實值,最大屬性值maxvi和最小屬性值minvi是從訓(xùn)練集實例中獲得的.選擇表1中的13個一級特征詞作為此步聚類的初始中心點,即K-means算法中K=13.算法收斂時得到13個結(jié)果簇,不同的結(jié)果簇會有不同的屬性詞,同時屬性詞的個數(shù)也不同.在個數(shù)較少的簇選擇一個詞作為此簇的代表,在個數(shù)較多的簇中可以選擇2個及2個以上的代表詞,目的是為了保證選出的代表詞能夠很好地反映出第二層即引言部分的特征屬性,將這些代表詞作為二級特征詞.結(jié)果如表2所示.

    表2 二級特征詞

    3.3 從文獻(xiàn)引言和總結(jié)部分獲取三級特征詞

    使用分詞器對科技文獻(xiàn)的引言和總結(jié)部分進(jìn)行單詞切分處理,然后經(jīng)去除停用詞處理和聚類對象的歸一化處理,再用Multi-Tap-FE算法進(jìn)行聚類分析,初始中心點為表3的36個二級特征詞,即K-means算法中K=36,進(jìn)行迭代計算,直至算法收斂,得到184個三級特征詞如表3所示.

    表3 三級特征詞

    對80篇關(guān)于“離散化”文獻(xiàn)均采用以上的方法對其進(jìn)行特征提取.其中一級特征詞有948個,消除重復(fù)詞后有386個(以下均為消除停用詞后的數(shù)量).二級特征詞有1 954個,三級特征詞有7 285個.220篇關(guān)于“綠色網(wǎng)絡(luò)”的文獻(xiàn)的一級特征詞有1 023個,二級特征詞有4 563個,三級特征詞有18 956個,360篇關(guān)于“特征詞選擇”的文獻(xiàn)中一級特征詞有1 320個,二級特征詞有6 451,三級特征詞有10 034個.

    3.4 從文獻(xiàn)正文中獲取頻繁項集獲得四級特征詞

    本文采用C#語言,Visual Studio 2010開發(fā)環(huán)境編寫程序,分別對660篇訓(xùn)練集的部分正文信息進(jìn)行提取,將提取的信息進(jìn)行分詞處理和去除停用詞處理,為了減少數(shù)據(jù)量剔除詞頻小于3的詞,按主題分類存入數(shù)據(jù)庫,形成評價語料庫,將660篇文獻(xiàn)當(dāng)做是660個事務(wù),用Apriori算法挖掘頻繁項集,本文以80篇主題為“離散化”的科技文獻(xiàn)作為Apriori算法的實驗數(shù)據(jù).文獻(xiàn)語料庫如表4所示,設(shè)最小支持度為40%,用Java語言實現(xiàn)Apriori算法,A_Algorithm類實現(xiàn)頻繁項集和頻繁關(guān)聯(lián)規(guī)則的挖掘過程,A_SubsetCombination類用于計算某頻繁項集的真子集.

    表4 文獻(xiàn)語料庫

    80篇主題為“離散化”的文獻(xiàn),經(jīng)過Apriori算法處理,最終得到39 450維最大頻繁項集52組,將52組數(shù)據(jù)全部組合得到39 608個特征詞.

    4 實驗結(jié)果與對比

    4.1 對660篇測試集進(jìn)行特征詞選擇

    實驗結(jié)果如表5所示.

    表5 本文特征詞提取方法特征詞提取結(jié)果

    4.2 MultiLM-FE方法與IACA方法[1]比較

    2012年復(fù)旦大學(xué)的劉海燕提出一種基于條件互信息的特征選擇改進(jìn)算法(IACA方法).該算法采用K-means 的基本思想聚類特征,并從中選出類相關(guān)度最大的特征,從而去除不相關(guān)和冗余特征.該算法比較適合處理高維數(shù)據(jù)集,能夠較好地降維,并且達(dá)到不錯的效果.在此,本文所提出的方法MultiLM-FE方法與之在查全率、查準(zhǔn)率和F值3方面做比較, F-score值為:

    對文獻(xiàn)特征詞挖掘結(jié)果對比,如表6所示.

    表6 各特征詞提取方法實驗對比結(jié)果

    通過以上的比較,可以看出本文所提出MultiLM-FE方法的查全率、查準(zhǔn)率都優(yōu)于普通的K-means與Apriori方法,在特征詞選擇算法的研究中有一定的有效性,表明Multi-Tap-FE方法在科技文獻(xiàn)抽取特征詞方面有著較好性能.

    5 結(jié)束語

    本文提出的Multi-Tap-FE方法,解決了K-means聚類算法不能自動確定最佳聚類初始點的問題,減少了聚類過程中信息損耗,能夠在文獻(xiàn)語料庫中更加準(zhǔn)確的找到特征詞,較之以前的方法有很大提升,但該方法也受到一定因素的影響,如k-means算法對孤立點數(shù)據(jù)很敏感,孤立點會使聚類中心偏離從而影響聚類結(jié)果;Apriori算法在每次計算項集的支持度時,都對文獻(xiàn)語料庫中的所有數(shù)據(jù)進(jìn)行掃描比較,若是一個大型的文獻(xiàn)語料庫,這種掃描比較會使得計算機(jī)系統(tǒng)的I/O開銷大大增加.而這種代價是隨著文獻(xiàn)語料庫記錄的增加呈現(xiàn)出幾何級數(shù)的增加.這些都是我們今后做研究應(yīng)該考慮的方向.

    [1] 劉海燕, 王 超, 牛軍鈺. 基于條件互信息的特征選擇改進(jìn)算法[J]. 計算機(jī)工程, 2012, 14(38): 36-42.

    [2] 毛國君, 段麗娟, 王 實,等. 數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社, 2007.

    [3] 劉海峰, 蘇 展, 劉守生. 一種基于詞頻信息的改進(jìn)CHI文本特征選擇[J]. 計算機(jī)工程與應(yīng)用, 2013, 49(22): 110-114.

    [4] Yang C C, Tobun D N. Analyzing and visualizing Web opinion development and social interactions with density-based clustering[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part A :Systems and Humans, 2011, 41(6): 1144-1155.

    [5] Dernoncourt D.Analysis of feature selection stability on high dimension and small sample data[J]. Computational Statistics and Data Analysis, 2014, 71(6): 681-693.

    [6] Sina T. An unsupervised feature selection algorithm based on ant colony optimization[J]. Engineering Applications of Artificial intelligence, 2014, 32(1): 112-123.

    [7] Salwani A. An exponential Monte-carlo algorithm for feature selection problems[J]. Computers and Industrial Engineering, 2014, 67(1): 160-167.

    [8] Wu X. Online feature selection with streaming features[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(5): 1178-1192.

    [9] Han J, Kamber M. Data Mining: Concepts and Techniques[M]. 北京: 機(jī)械工程出版社,2001.

    [10] 朱顥東, 吳懷廣. 基于論域劃分的無監(jiān)督文本特征選擇方法[J]. 科學(xué)技術(shù)與工程, 2013, 13(7): 1836-1839.

    [11] 郭亞維, 劉曉霞. 文本分類中信息增益特征選擇方法的研究[J]. 計算機(jī)工程與應(yīng)用, 2012, 48(27): 119-127.

    [12] 周麗紅, 劉 勘. 基于關(guān)聯(lián)規(guī)則的科技文獻(xiàn)分類研究[J]. 圖書情報工作, 2012, 56(4): 12-16.

    Multi-level feature extraction method based onK-means and Apriori

    QIAN Shenyi, ZHU Yanling, ZHU Haodong

    (School of Computer and Communication Engineering, Zhengzhou University of Light Industry, Zhengzhou 450002)

    This article proposed a four-mining model based on the structural characteristics of scientific literature, and combinedK-means algorithm and Apriori algorithm to construct an new feature extraction method-MultiLM-FE Method. Firstly, scientific literature was divided into four layers according to its structure. And then, it selected features progressively for the former three layers byK-means clustering. Finally, it found out the maximum frequent itemsets of fourth layer by Aprori algorithm to act as a collection of features fourth layer. This method can solve the problem that theK-means clustering algorithm can’t determine the most appropriate clustering starting point automatically, and reduces the loss of information in the clustering process, so it is possible to find features more accurately in the literature corpus. Experimental results showed that this method was feasible and effective and had greatly improved especially in terms of the scientific literature when compared with the previous method.

    scientificl iterature; feature extraction;K-means; Apriori

    2014-11-24.

    國家自然科學(xué)基金項目(61201447); 河南省科技攻關(guān)項目(122102210024、122300410287); 河南省高等學(xué)校青年骨干教師資助計劃項目(2014GGJS-084); 河南省教育廳科學(xué)技術(shù)研究重點項目(13A520367); 鄭州市科技計劃項目(121PPTG362-12,131PPTGG411-8); 鄭州輕工業(yè)學(xué)院校級青年骨干教師培養(yǎng)對象資助計劃項目(XGGJS02).

    1000-1190(2015)03-0357-06

    TP311

    A

    *通訊聯(lián)系人. E-mail: zhuhaodong80@163.com.

    猜你喜歡
    特征詞項集特征提取
    基于Daubechies(dbN)的飛行器音頻特征提取
    電子制作(2018年19期)2018-11-14 02:37:08
    基于改進(jìn)TFIDF算法的郵件分類技術(shù)
    產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
    Bagging RCSP腦電特征提取算法
    面向文本分類的特征詞選取方法研究與改進(jìn)
    基于MED和循環(huán)域解調(diào)的多故障特征提取
    關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
    卷宗(2014年5期)2014-07-15 07:47:08
    一種頻繁核心項集的快速挖掘算法
    關(guān)于“方言特征詞”理論的回顧及思考
    Walsh變換在滾動軸承早期故障特征提取中的應(yīng)用
    軸承(2010年2期)2010-07-28 02:26:12
    青春草视频在线免费观看| 亚洲成a人片在线一区二区| 国产精品蜜桃在线观看 | 日韩中字成人| 深爱激情五月婷婷| 能在线免费观看的黄片| 免费一级毛片在线播放高清视频| 国产免费一级a男人的天堂| 午夜a级毛片| 国产视频首页在线观看| 青春草国产在线视频 | 久久婷婷人人爽人人干人人爱| 国产黄a三级三级三级人| 一本久久中文字幕| 欧美一级a爱片免费观看看| 国内精品一区二区在线观看| 男女做爰动态图高潮gif福利片| 天美传媒精品一区二区| 男人狂女人下面高潮的视频| 在线播放无遮挡| 久久久久久九九精品二区国产| 97超视频在线观看视频| 一本一本综合久久| 免费人成在线观看视频色| 天堂中文最新版在线下载 | 成人亚洲精品av一区二区| 内射极品少妇av片p| 国产亚洲5aaaaa淫片| 淫秽高清视频在线观看| 日本黄色片子视频| 91狼人影院| 亚洲精品久久久久久婷婷小说 | 日日干狠狠操夜夜爽| 成年免费大片在线观看| 精品少妇黑人巨大在线播放 | 午夜亚洲福利在线播放| 精品99又大又爽又粗少妇毛片| 国产免费男女视频| 成人国产麻豆网| 亚洲av熟女| 国产v大片淫在线免费观看| 国产伦在线观看视频一区| 日产精品乱码卡一卡2卡三| 欧美性猛交黑人性爽| 亚洲欧美中文字幕日韩二区| 18+在线观看网站| 国产乱人视频| av在线天堂中文字幕| 一级黄片播放器| 精品久久久久久久人妻蜜臀av| 成人毛片60女人毛片免费| 亚州av有码| 国产亚洲av嫩草精品影院| 男女那种视频在线观看| 久久精品91蜜桃| 亚洲自偷自拍三级| 51国产日韩欧美| 免费一级毛片在线播放高清视频| av天堂在线播放| 菩萨蛮人人尽说江南好唐韦庄 | 麻豆成人午夜福利视频| 在线国产一区二区在线| 精品人妻视频免费看| 超碰av人人做人人爽久久| 夜夜夜夜夜久久久久| 欧美日本视频| 精品久久久久久久久亚洲| 国产黄色小视频在线观看| 久久精品久久久久久久性| 特级一级黄色大片| 男人舔女人下体高潮全视频| 国产成人a∨麻豆精品| 亚洲图色成人| 日本黄大片高清| 五月玫瑰六月丁香| 成人av在线播放网站| 99精品在免费线老司机午夜| 午夜福利在线在线| 亚洲av熟女| 高清毛片免费看| 国产老妇女一区| 久久中文看片网| 给我免费播放毛片高清在线观看| 99精品在免费线老司机午夜| 久久国产乱子免费精品| 中国美女看黄片| 久久人妻av系列| 午夜福利在线观看免费完整高清在 | 青青草视频在线视频观看| 亚洲一区高清亚洲精品| 一个人看的www免费观看视频| 成人av在线播放网站| 亚洲av成人精品一区久久| 我的老师免费观看完整版| 床上黄色一级片| 国产精品美女特级片免费视频播放器| 久久久久久久久久成人| 99久久中文字幕三级久久日本| 久久九九热精品免费| 黄色欧美视频在线观看| 亚洲欧美日韩无卡精品| 美女内射精品一级片tv| 国产av一区在线观看免费| 成年女人看的毛片在线观看| 成人漫画全彩无遮挡| 又爽又黄无遮挡网站| 色综合色国产| 99热网站在线观看| 日本欧美国产在线视频| 国产探花在线观看一区二区| 日本色播在线视频| 久久6这里有精品| 国产av一区在线观看免费| 亚洲电影在线观看av| 亚洲精品粉嫩美女一区| 欧美色欧美亚洲另类二区| 欧美人与善性xxx| 国产一区二区在线观看日韩| 亚洲四区av| 99热精品在线国产| 亚洲av中文av极速乱| 一个人免费在线观看电影| 成熟少妇高潮喷水视频| 国产精品久久久久久久电影| 噜噜噜噜噜久久久久久91| 久久精品国产99精品国产亚洲性色| 国产精品国产高清国产av| www.色视频.com| 给我免费播放毛片高清在线观看| 欧美人与善性xxx| 草草在线视频免费看| 亚洲欧美清纯卡通| 久久亚洲国产成人精品v| 免费观看a级毛片全部| 国产成人a∨麻豆精品| 国产精品麻豆人妻色哟哟久久 | 美女脱内裤让男人舔精品视频 | 国产在线精品亚洲第一网站| 国产三级在线视频| 午夜福利在线观看吧| 国产成人a区在线观看| 亚洲av中文av极速乱| 亚洲av熟女| 丝袜喷水一区| 久久国产乱子免费精品| 插阴视频在线观看视频| 亚洲国产日韩欧美精品在线观看| 久久精品国产清高在天天线| 日韩 亚洲 欧美在线| 搞女人的毛片| 免费av毛片视频| 精品一区二区三区视频在线| 国产伦理片在线播放av一区 | 色视频www国产| h日本视频在线播放| 爱豆传媒免费全集在线观看| 嘟嘟电影网在线观看| 欧美日韩综合久久久久久| 亚洲av成人av| 欧美极品一区二区三区四区| 22中文网久久字幕| 性插视频无遮挡在线免费观看| 精品久久久久久久久久免费视频| 亚洲欧美日韩无卡精品| 在线免费十八禁| 欧美日本视频| 国产精品一区二区三区四区久久| 欧美成人免费av一区二区三区| 国产老妇女一区| 丰满乱子伦码专区| 午夜久久久久精精品| 在线观看av片永久免费下载| 女人十人毛片免费观看3o分钟| 真实男女啪啪啪动态图| 五月伊人婷婷丁香| 可以在线观看的亚洲视频| 不卡视频在线观看欧美| 99在线人妻在线中文字幕| 日本黄色片子视频| 成人毛片60女人毛片免费| 一个人免费在线观看电影| 丝袜喷水一区| 成人三级黄色视频| 美女cb高潮喷水在线观看| 欧美高清成人免费视频www| 欧美bdsm另类| 能在线免费观看的黄片| 欧美区成人在线视频| 国产精品爽爽va在线观看网站| 精品99又大又爽又粗少妇毛片| 国产免费一级a男人的天堂| 搡老妇女老女人老熟妇| 国产在线男女| 亚洲精品成人久久久久久| 亚洲av免费高清在线观看| 欧美日本视频| 九色成人免费人妻av| 特大巨黑吊av在线直播| 麻豆久久精品国产亚洲av| 免费观看人在逋| 又黄又爽又刺激的免费视频.| 日日啪夜夜撸| 亚洲四区av| 熟妇人妻久久中文字幕3abv| 亚洲精品粉嫩美女一区| 亚洲天堂国产精品一区在线| 欧美日韩精品成人综合77777| 一区二区三区免费毛片| 国产成人午夜福利电影在线观看| 99久久精品热视频| 国产黄色视频一区二区在线观看 | 国产精品久久久久久精品电影| 精品人妻熟女av久视频| 在线观看免费视频日本深夜| 天美传媒精品一区二区| 国产午夜精品一二区理论片| 五月玫瑰六月丁香| 亚洲国产精品国产精品| 亚洲精品成人久久久久久| av女优亚洲男人天堂| 天天一区二区日本电影三级| 欧美精品国产亚洲| 亚洲国产精品久久男人天堂| 村上凉子中文字幕在线| 99久国产av精品国产电影| 伦精品一区二区三区| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 亚洲中文字幕日韩| 免费人成视频x8x8入口观看| 亚洲无线观看免费| 国产一区二区亚洲精品在线观看| 乱码一卡2卡4卡精品| 国产精品无大码| 久久久色成人| 熟女电影av网| 性插视频无遮挡在线免费观看| 午夜免费男女啪啪视频观看| 波多野结衣高清作品| 中文字幕制服av| 一区二区三区高清视频在线| 亚洲高清免费不卡视频| 久久精品国产清高在天天线| 欧美另类亚洲清纯唯美| 国产三级在线视频| 99在线视频只有这里精品首页| 色综合色国产| 我要看日韩黄色一级片| 可以在线观看毛片的网站| 草草在线视频免费看| 人妻系列 视频| 永久网站在线| 97热精品久久久久久| 中国美白少妇内射xxxbb| 99热网站在线观看| 国产精品久久电影中文字幕| 精华霜和精华液先用哪个| 国产美女午夜福利| 成人毛片60女人毛片免费| 久久韩国三级中文字幕| 日日摸夜夜添夜夜添av毛片| 久久人人爽人人爽人人片va| 高清在线视频一区二区三区 | 国产蜜桃级精品一区二区三区| 亚洲成a人片在线一区二区| 身体一侧抽搐| 久久国内精品自在自线图片| 夫妻性生交免费视频一级片| 91久久精品国产一区二区成人| 久久久久久久久中文| 黑人高潮一二区| 国产精品久久电影中文字幕| 黄片wwwwww| 最近的中文字幕免费完整| 你懂的网址亚洲精品在线观看 | 蜜桃久久精品国产亚洲av| 波多野结衣高清无吗| 午夜免费激情av| 久久鲁丝午夜福利片| 欧美一区二区国产精品久久精品| 黄色欧美视频在线观看| 日韩三级伦理在线观看| 午夜久久久久精精品| 亚洲精品成人久久久久久| 精品无人区乱码1区二区| 国内精品美女久久久久久| 精品久久久久久久末码| 久久鲁丝午夜福利片| 日韩强制内射视频| 日韩一区二区视频免费看| 国产精品一及| 天堂影院成人在线观看| 国产伦精品一区二区三区视频9| 夜夜夜夜夜久久久久| 国内少妇人妻偷人精品xxx网站| 亚洲五月天丁香| 日本熟妇午夜| 美女xxoo啪啪120秒动态图| 日韩大尺度精品在线看网址| 国产精品国产三级国产av玫瑰| 国产69精品久久久久777片| www.av在线官网国产| 人人妻人人澡欧美一区二区| 国产女主播在线喷水免费视频网站 | 国产成人91sexporn| 99国产精品一区二区蜜桃av| 亚洲在线自拍视频| 国产av在哪里看| 一区二区三区免费毛片| 久久草成人影院| 精品人妻一区二区三区麻豆| 插逼视频在线观看| 长腿黑丝高跟| 成人av在线播放网站| 亚洲人成网站在线观看播放| 内射极品少妇av片p| 99热网站在线观看| 麻豆成人午夜福利视频| 亚洲美女搞黄在线观看| 成人毛片a级毛片在线播放| 欧美性猛交╳xxx乱大交人| 国产一级毛片在线| 欧美日韩国产亚洲二区| 最好的美女福利视频网| 少妇裸体淫交视频免费看高清| 国产精品蜜桃在线观看 | 国产免费一级a男人的天堂| 久久人人爽人人爽人人片va| 中文字幕精品亚洲无线码一区| 日韩国内少妇激情av| 日日撸夜夜添| 国内精品宾馆在线| 欧美最黄视频在线播放免费| 亚洲精品日韩在线中文字幕 | 亚洲最大成人中文| 97超视频在线观看视频| 日本撒尿小便嘘嘘汇集6| 天天躁夜夜躁狠狠久久av| 久久久久网色| 国产免费一级a男人的天堂| 毛片女人毛片| 悠悠久久av| 精品欧美国产一区二区三| 欧美日韩综合久久久久久| 天天躁日日操中文字幕| 大香蕉久久网| 精品久久久久久久末码| h日本视频在线播放| 免费搜索国产男女视频| 国产精品一区二区三区四区免费观看| 夜夜爽天天搞| 97超碰精品成人国产| 国产精品一及| 成人三级黄色视频| 国产片特级美女逼逼视频| 国产一级毛片在线| 一进一出抽搐gif免费好疼| 色播亚洲综合网| 青春草视频在线免费观看| www日本黄色视频网| 国产淫片久久久久久久久| 在线观看免费视频日本深夜| avwww免费| 亚洲欧美日韩高清专用| 亚洲欧美日韩东京热| 看非洲黑人一级黄片| 99riav亚洲国产免费| 丝袜喷水一区| 草草在线视频免费看| 99热这里只有是精品在线观看| 永久网站在线| 亚洲精品久久国产高清桃花| 亚洲最大成人中文| 五月玫瑰六月丁香| 日本三级黄在线观看| 久久久午夜欧美精品| 国产精品精品国产色婷婷| 久久久久久久亚洲中文字幕| 美女大奶头视频| 老司机影院成人| 国产精品不卡视频一区二区| 国产精品一及| 精品99又大又爽又粗少妇毛片| 日韩av不卡免费在线播放| 插阴视频在线观看视频| 成人高潮视频无遮挡免费网站| 久久久久久国产a免费观看| 精品久久久久久久久久久久久| 中文欧美无线码| 国产亚洲av嫩草精品影院| 精品少妇黑人巨大在线播放 | 日韩欧美 国产精品| 日日干狠狠操夜夜爽| 欧美一级a爱片免费观看看| 欧美日韩在线观看h| 在线免费十八禁| 欧美成人a在线观看| 中文字幕精品亚洲无线码一区| 色综合色国产| 亚洲最大成人av| 啦啦啦韩国在线观看视频| 99热网站在线观看| 一级黄片播放器| 亚洲在久久综合| 美女国产视频在线观看| 少妇人妻精品综合一区二区 | 变态另类成人亚洲欧美熟女| 精品午夜福利在线看| 国产v大片淫在线免费观看| 边亲边吃奶的免费视频| 成人午夜高清在线视频| 亚洲三级黄色毛片| 久久99精品国语久久久| 成人无遮挡网站| 久久这里有精品视频免费| 国产 一区精品| 少妇熟女欧美另类| 国产极品精品免费视频能看的| 狠狠狠狠99中文字幕| 精品国内亚洲2022精品成人| 国产高潮美女av| 嫩草影院入口| 在线国产一区二区在线| 国产男人的电影天堂91| 免费看av在线观看网站| 三级国产精品欧美在线观看| 亚洲最大成人av| 亚洲三级黄色毛片| 日韩欧美三级三区| 国产久久久一区二区三区| 国产 一区精品| 日韩一区二区三区影片| 免费观看在线日韩| 狠狠狠狠99中文字幕| 亚洲人成网站高清观看| 亚洲欧洲国产日韩| 在线免费十八禁| www.av在线官网国产| 国产成年人精品一区二区| 色视频www国产| 日韩欧美 国产精品| 一边摸一边抽搐一进一小说| 日韩,欧美,国产一区二区三区 | 免费不卡的大黄色大毛片视频在线观看 | 国产一级毛片七仙女欲春2| 久久人人精品亚洲av| 精品久久国产蜜桃| 特大巨黑吊av在线直播| 又粗又爽又猛毛片免费看| 男插女下体视频免费在线播放| 久久鲁丝午夜福利片| 一级毛片久久久久久久久女| 精品久久久噜噜| 国产精品av视频在线免费观看| 又爽又黄无遮挡网站| 久久99精品国语久久久| 人妻少妇偷人精品九色| 夜夜看夜夜爽夜夜摸| av卡一久久| 两性午夜刺激爽爽歪歪视频在线观看| av在线天堂中文字幕| 久久精品久久久久久久性| 亚洲一区二区三区色噜噜| 夜夜爽天天搞| 欧美日本视频| 国产成年人精品一区二区| 欧美高清性xxxxhd video| 男女啪啪激烈高潮av片| 免费人成视频x8x8入口观看| 成人欧美大片| 久久久久久伊人网av| 秋霞在线观看毛片| 成年女人看的毛片在线观看| 国产黄色小视频在线观看| 联通29元200g的流量卡| 久久亚洲精品不卡| 午夜激情福利司机影院| 国产亚洲精品久久久久久毛片| 日韩成人av中文字幕在线观看| 国产又黄又爽又无遮挡在线| 久久这里只有精品中国| 麻豆精品久久久久久蜜桃| 国产一级毛片七仙女欲春2| 少妇猛男粗大的猛烈进出视频 | 又爽又黄a免费视频| 只有这里有精品99| 简卡轻食公司| 在线观看66精品国产| 欧美一区二区亚洲| 成人综合一区亚洲| 国产高清激情床上av| 久久精品夜色国产| 欧美三级亚洲精品| 国产黄片视频在线免费观看| 天堂网av新在线| 久久这里只有精品中国| 热99re8久久精品国产| 国产高清不卡午夜福利| 我要搜黄色片| 天堂av国产一区二区熟女人妻| 日韩欧美一区二区三区在线观看| 女人被狂操c到高潮| 我的老师免费观看完整版| 夜夜爽天天搞| 亚洲性久久影院| 变态另类丝袜制服| 亚洲国产精品国产精品| 精品人妻视频免费看| 午夜激情欧美在线| 身体一侧抽搐| 六月丁香七月| 精品少妇黑人巨大在线播放 | 美女国产视频在线观看| 国产精品蜜桃在线观看 | 又粗又硬又长又爽又黄的视频 | 亚洲无线观看免费| 成人特级av手机在线观看| 午夜久久久久精精品| 国产高清激情床上av| 婷婷色av中文字幕| 波多野结衣高清无吗| 老司机影院成人| 熟女电影av网| av卡一久久| 免费看光身美女| 国产精品精品国产色婷婷| 可以在线观看毛片的网站| 我的女老师完整版在线观看| 亚洲av电影不卡..在线观看| 久久99精品国语久久久| 成人av在线播放网站| 国产精品一区二区在线观看99 | 最近的中文字幕免费完整| 亚洲电影在线观看av| 日日摸夜夜添夜夜爱| 欧美人与善性xxx| 91久久精品国产一区二区三区| 99热精品在线国产| 国产成人91sexporn| 九九爱精品视频在线观看| 大型黄色视频在线免费观看| 免费观看的影片在线观看| 亚洲av二区三区四区| 亚洲欧美日韩卡通动漫| 伦精品一区二区三区| or卡值多少钱| 国产伦一二天堂av在线观看| 日本免费a在线| 亚洲最大成人中文| 免费搜索国产男女视频| 一个人看视频在线观看www免费| 亚洲无线在线观看| 美女被艹到高潮喷水动态| 国产亚洲91精品色在线| 亚洲人成网站高清观看| www.色视频.com| 国产久久久一区二区三区| 久久这里只有精品中国| 中文字幕制服av| 3wmmmm亚洲av在线观看| 极品教师在线视频| 哪个播放器可以免费观看大片| 99热6这里只有精品| 日韩av不卡免费在线播放| 熟女人妻精品中文字幕| 天天躁夜夜躁狠狠久久av| av女优亚洲男人天堂| 寂寞人妻少妇视频99o| 免费观看的影片在线观看| 亚洲人成网站在线播放欧美日韩| 中国美女看黄片| 日本成人三级电影网站| 在线观看午夜福利视频| 成人亚洲欧美一区二区av| 免费搜索国产男女视频| 黄色日韩在线| 欧美xxxx黑人xx丫x性爽| av天堂中文字幕网| 午夜福利在线观看吧| 九九在线视频观看精品| 一本久久中文字幕| 国产极品精品免费视频能看的| 一本久久精品| 成年女人看的毛片在线观看| 99久久精品国产国产毛片| 亚洲电影在线观看av| 久久九九热精品免费| 日本黄大片高清| 国产真实乱freesex| 欧美一区二区精品小视频在线| 熟女人妻精品中文字幕| 大型黄色视频在线免费观看| 国产黄色视频一区二区在线观看 | 你懂的网址亚洲精品在线观看 | 亚洲五月天丁香| 免费av不卡在线播放| 成人无遮挡网站| 欧美区成人在线视频| 亚洲最大成人手机在线| 麻豆久久精品国产亚洲av| 国产片特级美女逼逼视频| 午夜福利高清视频| 国产黄色视频一区二区在线观看 | 欧美+亚洲+日韩+国产| 免费在线观看成人毛片| 亚洲av中文av极速乱| a级毛色黄片| 亚洲欧美日韩无卡精品| 极品教师在线视频| 久久精品久久久久久噜噜老黄 | 午夜精品国产一区二区电影 | 中文亚洲av片在线观看爽| 美女cb高潮喷水在线观看| 日本黄大片高清| 三级毛片av免费| 欧美日本亚洲视频在线播放|