• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于[χ2]統(tǒng)計量的不良文本過濾特征選擇方法

      2019-04-12 00:00:00管江紅
      現(xiàn)代電子技術(shù) 2019年21期

      摘" 要: 針對現(xiàn)有以[χ2]統(tǒng)計量為基礎(chǔ)的特征選擇方法在不良文本過濾過程中效果欠佳的問題,利用雙層分類對特征選擇方法進(jìn)行改良,提出一種不良文本過濾特征選擇方法。首先通過改良逆文檔頻率來區(qū)分特征項在所屬類別類內(nèi)與其他類別之間的分布差別;其次,引入逆類別頻率彌補(bǔ)抑制強(qiáng)度;最后,加入逆上層類別頻率,清晰劃分具有較高相似度的某兩類二層類別。所改良的特征選擇方法能夠彌補(bǔ)現(xiàn)有[χ2]統(tǒng)計量在類內(nèi)/類間特征項分布情況判別能力的缺陷,將其應(yīng)用于不良文本過濾過程,能夠充分貼合不良文本過濾過程的特征選擇需求。通過對比評估指標(biāo)的結(jié)果,表明所提方法在不良文本過濾領(lǐng)域具有更好的效果。

      關(guān)鍵詞: 特征選擇; [χ2]統(tǒng)計量; 雙層分類; 不良文本過濾; 特征項分布; 評估指標(biāo)

      中圖分類號: TN911.1?34; TP18" " " " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " "文章編號: 1004?373X(2019)21?0182?05

      Abstract: Since the current feature selection method based on the improved [χ2] statistics has no good effect in the process of harmful text filtering, a harmful text filtering feature selection method is proposed, in which the double?layer classification is adopted to improve the feature selection method. First, the inverse document frequency is improved to distinguish the distribution difference of the feature items in their subordinate categories and between the other categories, and then the inverse category frequency is introduced to compensate the suppression intensity. In addition, by adding the inverse super?stratum category frequency, the double?layer category with high similarity is clearly divided into two categories. The modified feature selection method can compensate the shortcomings of the existing [χ2] statistics in discriminating the intra?class/inter?class distribution of feature items. The modified feature selection method can fully meet the feature selection requirements of the harmful text filtering process when it is used in the process of harmful text filtering. The comparison results of evaluation indexes show that the proposed method has better effect in the field of harmful text filtering.

      Keywords: feature selection; [χ2] statistics; double?layer classification; harmful text filtering; feature item distribution; evaluation index

      0" 引" 言

      不良文本過濾過程中,需要將文本表示為計算機(jī)容易處理的形式,這種表示方法既要包含足夠的信息用來反映文本的特征,又不至于太過龐大使學(xué)習(xí)算法無法處理[1]。通常所使用的文本表示方法為向量空間模型 (Vector Space Model,VSM),空間向量雖然經(jīng)過分詞過程的預(yù)處理,但其維數(shù)依舊很高,不僅會使分類時間大大延長,還會導(dǎo)致分類結(jié)果誤差加大[2]。因此,需要找到一種合適的特征選擇方法[3?4]對空間向量降維,即對特征項進(jìn)行特征選擇。

      特征選擇方法種類繁多且各有優(yōu)劣[5?6]。文獻(xiàn)[7]提出一種基于文檔頻率(DF)的特征選擇方法,其結(jié)構(gòu)簡單,但缺點也較為明顯,詞頻作為唯一的判斷標(biāo)準(zhǔn),會導(dǎo)致特征選擇結(jié)果過度偏向高頻詞,另外,實驗結(jié)果表明其可能導(dǎo)致部分低頻詞包含更多的特征信息。文獻(xiàn)[8]考慮了特征未發(fā)生的情況,提出信息增益(IG)特征選擇方法,但是在類別分布與特征項分布不均時,絕大部分的特征項不會出現(xiàn),則導(dǎo)致特征選擇不準(zhǔn)確。文獻(xiàn)[9]考慮了特征項與類別的關(guān)聯(lián),提出基于互信息(MI)的特征選擇方法,但忽略了特征項出現(xiàn)的頻率,因此會導(dǎo)致特征選擇結(jié)果過度偏向低頻詞。

      對于以上特征選擇方法所存在的缺陷,[χ2]統(tǒng)計方法具有極高的優(yōu)越性,但依舊存在缺陷,本文為提高不良文本過濾效果,針對其缺陷進(jìn)行改進(jìn),得到更加優(yōu)化的特征選擇方法[10]。

      [χ2]統(tǒng)計量方法雖然是目前文本分類中應(yīng)用效果最好的特征選擇方法之一,但不可避免地存在缺陷。主要有:降低了部分具有明確分類意義的低頻詞權(quán)重;提高了部分在其他各類別頻繁出現(xiàn),但很少出現(xiàn)在指定類別的高頻詞權(quán)重。

      本文針對現(xiàn)有以[χ2]統(tǒng)計量為基礎(chǔ)的特征選擇方法在不良文本過濾過程中效果欠佳的問題,提出一種不良文本過濾特征選擇方法。所改良的特征選擇方法能夠彌補(bǔ)現(xiàn)有[χ2]統(tǒng)計量在類內(nèi)/類間特征項分布情況判別能力的缺陷,進(jìn)而充分貼合不良文本過濾過程的特征選擇需求,從而提升不良文本過濾效果。

      1" [χ2]統(tǒng)計量計算

      特征選擇方法種類繁多且各有優(yōu)劣,[χ2]統(tǒng)計方法通常用來檢驗兩個變量是否獨立,一般來說,原假設(shè)為兩變量獨立,計算得到的[χ2]統(tǒng)計量值越大則說明實際與原假設(shè)越背離,則原假設(shè)成立的可能性越小,兩變量關(guān)聯(lián)性越強(qiáng)。在文本分類領(lǐng)域,原假設(shè)H0:特征項與該類別沒有相互影響,無關(guān)聯(lián);備擇假設(shè)H1:特征項與該類別有關(guān)聯(lián),[χ2]統(tǒng)計量越大即偏離值越大,特征項與該類別關(guān)聯(lián)度越高。若特征項與類別相互獨立,則[χ2]統(tǒng)計量為0。

      特征項與類別關(guān)系表如表1所示,[A]為既包含特征項[tj]又屬于類別[Ci]的文檔頻數(shù);[B]為雖然包含特征項[tj]但不屬于類別[Ci]的文檔頻數(shù);[C]為類別[Ci]中不包含特征項[tj]的文檔頻數(shù);[D]為所有文檔中既不包含特征項[tj]又不屬于類別[Ci]的文檔頻數(shù)。

      在特征選擇過程中,根據(jù)[χ2]統(tǒng)計量在類別內(nèi)對特征項由大及小降序排列,從而選出統(tǒng)計量相對較大,即與該類別相關(guān)性相對較強(qiáng)的特征項,因此,[χ2]統(tǒng)計量的具體數(shù)值并不重要,對于每一個類別來說,其訓(xùn)練文檔總數(shù)[N]、屬于[Ci]類文檔數(shù)[A+C]以及不屬于[Ci]類文檔數(shù)[B+D]是相同的,因此,可將式(1)簡化為:

      多個類別分類過程就是將類別內(nèi)所有特征項分別計算[χ2]統(tǒng)計量,按照其數(shù)值大小排列后,有兩種特征選擇方式:選取序列靠前的[k]個特征項為最終確定的特征項集合,其中[k]可根據(jù)具體情況設(shè)定;也可以設(shè)置閾值,選取[χ2]統(tǒng)計量超過該閾值的特征項,否則舍棄。

      2" 不良文本過濾特征選擇方法

      2.1" 雙層分類的特征選擇方法

      在文本分類過程中存在雙層分類的情況,如不良文本過濾過程。其中,將文本分為正常文本及不良文本兩大類別的過程為一層分類;兩大類別的小類細(xì)分為二層分類。不良文本過濾雙層分類示意如圖1所示。

      在不良文本過濾過程中,針對[χ2]統(tǒng)計量在類內(nèi)類間特征項分布情況判別能力的缺陷,將改進(jìn)后的分類特征權(quán)重值CTW(Category Term Weight)作為特征選擇的依據(jù)。CTW值計算公式為:

      式中:[χ2(tj,Ci)]為特征項[tj]對于類別[Ci]的[χ2]統(tǒng)計量;IDF(Inverse Document Frequency)為改良后逆文檔頻率;ICF(Inverse Category Frequency)為逆類別頻率;ISDF(Inverse Super?stratum Document Frequency)為逆上層文檔頻率。下面對IDF值、ICF值及ISDF值的計算進(jìn)行詳細(xì)介紹:

      1) IDF值的計算

      傳統(tǒng)IDF值公式為:

      由IDF公式可知,如果包含該特征項[tj]的文檔數(shù)越多,則IDF值越趨近于0,但顯然,這沒有區(qū)分特征項在所屬類別類內(nèi)與其他類別之間的分布差別,因此,將IDF公式改進(jìn)為:

      式中:[N]為訓(xùn)練文檔集合總文檔數(shù);[n]為包含該特征項[tj]的文檔數(shù),[n=m+k],[m]為類別[Ci]中包含該特征項[tj]的文檔數(shù),[k]為除類別[Ci]外其他各類包含該特征項[tj]的文檔數(shù)。

      式中若[m1gt;m2],則有[f(m1)gt;f(m2)],由此可知,[f(m)]與[m]為正比例關(guān)系,與[k]為反比例關(guān)系,達(dá)到對特征項類內(nèi)與類間分布情況考慮的改良,即該項IDF值滿足以下條件時獲取較大值:特征項[tj]在類別[Ci]中頻繁出現(xiàn),并且在其他類別中鮮少出現(xiàn)。

      2) ICF值的計算

      在訓(xùn)練文檔集合中,往往不能保證所有類別文檔數(shù)量相同,導(dǎo)致文檔數(shù)量關(guān)于類別的分布情況出現(xiàn)傾斜,而當(dāng)這種不均衡出現(xiàn)時,如某類別文檔數(shù)較少時,IDF值幾乎不能起到抑制作用,導(dǎo)致權(quán)重偏向依賴于[χ2]統(tǒng)計量,最終導(dǎo)致CTW值偏高。

      因此加入逆類別頻率ICF值彌補(bǔ)抑制強(qiáng)度為:

      式中:[p]為訓(xùn)練文檔集合的全部類別數(shù)量;[q]為包含特征項[tj]的類別數(shù)量。

      由式(7)可知,當(dāng)包含特征項[tj]的類別越多時,ICF值越趨近于0,即該特征項[tj]的代表性越差,權(quán)重值越低。

      3) ISDF值的計算

      在訓(xùn)練文檔集合中,考慮到某兩類二層類別有可能具有較高的相似度,即某一特征項在其中某幾個一層其一類別部分文檔中頻繁出現(xiàn),在其他類別(包括其他一層其他類別)文檔,以及上述某幾個一層其一類別中的其他文檔中很少出現(xiàn)的情況,有可能導(dǎo)致在分類過程中,一層類別特征項被分散,使得介于兩類一層類別之間的文檔不能被識別,即不能被清晰劃定是否屬于該一層類別。

      因此加入逆上層類別頻率ISDF值彌補(bǔ),公式為:

      式中:[N]為訓(xùn)練文檔總數(shù);[w]為包含該特征項[tj]的文檔數(shù),[w=v+l],[v]為全部一層其一類別中包含該特征項[tj]的文檔數(shù),[l]為除其他一層類別中包含該特征項[tj]的文檔數(shù)。

      式中若[v1gt;v2],則有[fv1gt;fv2],由此可知[f(v)]與[v]為正比例關(guān)系,與[l]為反比例關(guān)系,該項ISDF值滿足以下情況時獲取較大值:特征項[tj]在一層其一類別中頻繁出現(xiàn),并且在其他一層類別中出現(xiàn)較少。由此,達(dá)到了模糊一層其一類別中各類別界限的目的,可提高一層類別之間的識別能力。

      2.2" 基于雙層分類特征選擇的不良文本過濾

      不良文本過濾技術(shù)實現(xiàn)過程可分為訓(xùn)練文本過程與測試文本過程兩個部分,總流程如圖2所示。

      訓(xùn)練文本過程如圖2左側(cè)分支所示,首先,利用網(wǎng)絡(luò)爬蟲抓取一篇類訓(xùn)練文檔,進(jìn)行中文文本分詞后進(jìn)入樸素貝葉斯分類算法的訓(xùn)練階段,其主要目的是確定類中心向量所包含的特征項及其前驗概率與后驗概率,最后進(jìn)行類別閾值的確定。

      測試文本過程如圖2右側(cè)分支所示,進(jìn)行中文文本分詞后生成測試文本文檔的向量空間模型表示,進(jìn)入樸素貝葉斯分類器應(yīng)用階段。首先要對作為反例類別的5類分別計算測試文檔屬于該類概率,為了盡量減小分類誤差,在判斷測試文檔最可能的歸屬類別時,將類別概率與其所對應(yīng)的類別閾值作比較后取最大值,假定測試文檔屬于該類,最后,將該類別概率與其閾值進(jìn)行第二次對比后,得到最終分類結(jié)果。

      樸素貝葉斯算法多項式模型[P(tjCi)]采用最為常見的詞頻法計算,由于存在概率估計過低(為0)的情況,引入[m]估計([m]?estimate):

      式中:[Nji]為特征項[tj]在[Ci]類所有文檔中出現(xiàn)的總次數(shù);[V]為待測試文檔[Xr]的單詞表長度(不包含重復(fù)單詞),即該文檔所包含的非重復(fù)特征項的數(shù)量。由此可知,[j=1VNji]為[Ci]類中所有特征項的總次數(shù)。

      類別[Ci]類的先驗概率[P(Ci)]為:

      [PCi=Ci類中訓(xùn)練文檔的全部特征項數(shù)量訓(xùn)練文檔集合的全部特征項數(shù)量] (11)

      將改良后的[χ2]統(tǒng)計方法應(yīng)用于不良文本過濾過程中,ISDF值的計算公式為:

      式中:[N]為訓(xùn)練文檔總數(shù);[w]為包含該特征項[tj]的文檔數(shù),[w=v+l],[v]為全部反例類別中包含該特征項[tj]的文檔數(shù),[l]為除反例類別外其他正例類別中包含該特征項[tj]的文檔數(shù)。

      3" 實驗與分析

      針對不良文本檢索與正常文本檢索,分別計算正確率、召回率及[F]值,使用改良前及改良后特征選擇方法的評估指標(biāo)結(jié)果如表2,表3所示。為更直觀地觀察對比情況,將數(shù)據(jù)表示為柱狀圖的形式,如圖3~圖5所示。

      由圖3可知,針對不良文本檢索來看,正確率由于特征選擇方法的改良有了明顯的提高,由87.11%提高至90.33%,由此可判定通過特征選擇方法的改良能夠確定更具有類別特征的代表性項,在過濾假設(shè)類別分類過程中,提高了測試文本在假設(shè)階段更加準(zhǔn)確,從而提高不良文本過濾技術(shù)的過濾能力,針對正常文本檢索來看,正確率也有了小幅提高,增長了1%。

      由圖4可知,通過特征選擇方法的改良對召回率的影響不大,但也有小幅提升,針對不良文本檢索召回率增長4%,針對正常文本檢索召回率僅增長0.03%,幾乎不變。

      由圖5可知,綜合評估指標(biāo)[F]值綜合正確率與召回率來看,特征選擇方法改良的效果較好,針對不良文本檢索[F]值由85.06%增至88.48%,針對正常文本檢索[F]值由96.43%增至97.21%。由以上結(jié)果可知,特征選擇方法改良有助于提高不良文本過濾技術(shù)的過濾功能,效果明顯。

      4" 結(jié)" 語

      本文針對雙層分類的特性,提出IDF,ICF及ISDF作為計算因子,對[χ2]統(tǒng)計方法進(jìn)行改良,從而提出了一種新的特征選擇方法。實驗結(jié)果顯示,對特征選擇方法的改良大大增強(qiáng)了不良文本分類準(zhǔn)確度,提高了分類效率。

      參考文獻(xiàn)

      [1] 林偉.中文微博輿情分類中一種改進(jìn)的特征選擇方法[J].中國人民公安大學(xué)學(xué)報(自然科學(xué)版),2017,23(2):72?75.

      LIN Wei. An improved feature selection method in Chinese micro?blog public opinion classification [J]. Journal of People′s Public Security University of China (Nature science edition) 2017, 23(2): 72?75.

      [2] SRIDHARAN K, SIVAKUMAR P. A systematic review on techniques of feature selection and classification for text mining [J]. International journal of business information systems, 2018, 28(4): 504?518.

      [3] 曾輝,唐佳麗,熊李艷,等.基于動詞名詞和CHI特征選擇的中文人物社會關(guān)系抽取[J].計算機(jī)應(yīng)用研究,2017,34(6):1631?1635.

      ZENG Hui, TANG Jiali, XIONG Liyan, et al." Personal social relation extraction in Chinese based on feature selection of CHI, verb and noun [J]. Application research of computers, 2017, 34(6): 1631?1635.

      [4] GHAREB A S, BAKARA A A, AL?RADAIDEH Q A, et al. Enhanced filter feature selection methods for Arabic text categorization [J]. International journal of information retrieval research, 2018, 8(2): 1?24.

      [5] 張向陽,那日薩.基于復(fù)雜網(wǎng)絡(luò)的情感分類特征選擇[J].計算機(jī)應(yīng)用研究,2017(4):1000?1003.

      ZHANG Xiangyang, NA Risa. Emotional classification feature selection based on complex network [J]. Application research of computers, 2017(4): 1000?1003.

      [6] 李燕,衛(wèi)志華,徐凱.基于Lasso算法的中文情感混合特征選擇方法研究[J].計算機(jī)科學(xué),2018,45(1):39?46.

      LI Yan, WEI Zhihua, XU Kai. Hybrid feature selection method of chinese emotional characteristics based on Lasso algorithm [J]. Computer science, 2018, 45(1): 39?46.

      [7] 楊凱峰,張毅坤,李燕.基于文檔頻率的特征選擇方法[J].計算機(jī)工程,2010,36(17):33?35.

      YANG Kaifeng, ZHANG Yikun, LI Yan. Feature selection method based on document frequency [J]. Computer engineering, 2010, 36(17): 33?35.

      [8] 郭亞維,劉曉霞.文本分類中信息增益特征選擇方法的研究[J].計算機(jī)工程與應(yīng)用,2012,48(27):119?122.

      GUO Yawei, LIU Xiaoxia. Study on information gain?based feature selection in Chinese text categorization [J]. Computer engineering and applications, 2012, 48(27): 119?122.

      [9] 辛竹,周亞建.文本分類中互信息特征選擇方法的研究與算法改進(jìn)機(jī)應(yīng)用[J].計算機(jī)應(yīng)用,2013,33(z2): 116?118.

      XIN Zhu, ZHOU Yajian. Study and improvement of mutual information for feature selection in text categorization [J]. Journal of computer applications, 2013, 33(S2): 116?118.

      [10] 閆健卓,李鵬英,方麗英,等.基于[χ2]統(tǒng)計的改進(jìn)文本特征選擇方法[J].計算機(jī)工程與設(shè)計,2016, 37(5):1391?1394.

      YAN Jianzhuo, LI Pengying, FANG Liying, et al. Improved method for text feature selection based on CHI [J]. Computer engineering and design, 2016, 37(5): 1391?1394.

      沙坪坝区| 咸宁市| 海伦市| 慈溪市| 泸州市| 新田县| 商水县| 盐亭县| 大同市| 扎鲁特旗| 巴彦淖尔市| 丰宁| 普宁市| 三门县| 崇阳县| 吴川市| 宁化县| 沙雅县| 曲周县| 麻江县| 桃园县| 武宣县| 巴林右旗| 阿拉尔市| 新竹县| 渑池县| 泰兴市| 阜宁县| 顺昌县| 南靖县| 舞阳县| 广西| 绥芬河市| 太康县| 托克逊县| 平乐县| 靖远县| 西贡区| 永平县| 塔河县| 丹东市|