• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文獻(xiàn)資源分類、存儲(chǔ)過程中的特征提取選擇方法研究

      2022-12-05 08:53:22謝積鑒李榮唐青青胡婷婷鐘雪梅
      中國(guó)科技縱橫 2022年20期
      關(guān)鍵詞:特征詞特征選擇特征提取

      謝積鑒 李榮 唐青青 胡婷婷 鐘雪梅

      (廣西壯族自治區(qū)科學(xué)技術(shù)情報(bào)研究所,廣西南寧 530022)

      0.引言

      在文獻(xiàn)資源的分類及存儲(chǔ)過程中的特征提取,是從擬處理標(biāo)準(zhǔn)文本中去找出可以全面描述文獻(xiàn)的內(nèi)容并可以區(qū)分其他文獻(xiàn)的特征向量,通常由特征詞及權(quán)重構(gòu)成,特征提取是文本向量空間降維的有效方法,同時(shí)特征提取可挑選出類別特征項(xiàng)。特征提取可分為無監(jiān)督及有監(jiān)督訓(xùn)練方法,有監(jiān)督模型是基于標(biāo)注的方法進(jìn)行訓(xùn)練,通過分類實(shí)現(xiàn)特征提取,繼而采用分類模型判別詞語是否是索引詞匯,其較多見的方法又包含C4.5決策樹分類器及樸素貝葉斯分類器等[1];無監(jiān)督模型通常利用文本、圖、主題及詞的使用頻率統(tǒng)計(jì)等模型挖掘特征詞的關(guān)系,無監(jiān)督模型的代表性特征詞通過相關(guān)權(quán)重挑選出來。TFIDF算法[2]根據(jù)詞的使用頻率統(tǒng)計(jì),TextRank算法[3]的特征提取是根據(jù)主題模型及圖模型。

      1.啟發(fā)式特征選擇

      文獻(xiàn)資源特征提取的過程可以分為3個(gè)步驟:(1)對(duì)原數(shù)據(jù)集執(zhí)行去停用詞或分詞等預(yù)處理,獲得初始特征集T。(2)繼而對(duì)特征集合T執(zhí)行權(quán)重分配,并依據(jù)權(quán)重值降序排列獲得特征集T1。(3)最終依據(jù)對(duì)應(yīng)評(píng)估函數(shù),選取獲得一個(gè)最具代表性的文本類別信息的特征子集T2。

      特征子集啟發(fā)搜索策略主要包括Wrapper包裝式搜索策略及Filter過濾式搜索策略[4]。Wrapper包裝式搜索策略為了獲得特征子集是通過訓(xùn)練學(xué)習(xí)實(shí)現(xiàn)的,Wrapper包裝式搜索策略的最大特點(diǎn)是依據(jù)選擇標(biāo)準(zhǔn)執(zhí)行特征的選擇;Filter過濾式搜索策略依據(jù)數(shù)據(jù)信息選出與目標(biāo)最相關(guān)的特征,F(xiàn)ilter過濾式搜索策略利用了聚類功能。其為了獲得特征子集,依據(jù)差異性獲得特征區(qū)分度。最后,F(xiàn)ilter過濾式搜索策略通過排名選出與目標(biāo)最相關(guān)的特征子集。

      1.1 Wrapper包裝式的屬性搜索策略

      Wrapper包裝式搜索策略[5]在執(zhí)行特征搜索時(shí)依賴于監(jiān)督式的訓(xùn)練學(xué)習(xí),Wrapper包裝式搜索策略針對(duì)數(shù)據(jù)量較小的文獻(xiàn)時(shí),處理效果比較好,因?yàn)樵摲椒ㄒ?jīng)過監(jiān)督訓(xùn)練過程才可實(shí)現(xiàn)特征搜索。

      Wrapper包裝式搜索策略的過程主要包含3個(gè)步驟:(1)為提高數(shù)據(jù)搜索模式的質(zhì)量,執(zhí)行預(yù)處理,獲得初步特征子集T。(2)進(jìn)行訓(xùn)練集的實(shí)驗(yàn)。訓(xùn)練學(xué)習(xí)過程依據(jù)訓(xùn)練集樣本數(shù)據(jù)評(píng)判規(guī)則,建立模型。(3)在學(xué)習(xí)器上進(jìn)行試驗(yàn)集實(shí)驗(yàn),依據(jù)訓(xùn)練集模型判別性能優(yōu)劣。

      Wrapper包裝式搜索策略大多情況下是依據(jù)分類器分類性能判別特征的有效性,然而,在實(shí)際應(yīng)用中大多情況下是將隨機(jī)搜索策略和Wrapper包裝式搜索策略結(jié)合。在特征選擇中,Wrapper包裝式搜索策略需在分類器的訓(xùn)練及驗(yàn)證上花費(fèi)較多時(shí)間,效率低,所以較少應(yīng)用于實(shí)際,和Wrapper包裝式搜索策略對(duì)比,F(xiàn)ilter過濾式搜索策略分類性能低,但效率高。Wrapper方法計(jì)算開銷高、效率低,因此,Wrapper多用于文獻(xiàn)資源分類,F(xiàn)ilter方法多用于海量文獻(xiàn)資源。

      1.2 Filter過濾式的屬性搜索策略

      Filter過濾式搜索策略[6]是一種屬性選擇搜索策略,該搜索策略不依賴訓(xùn)練集,相對(duì)獨(dú)立性強(qiáng),依據(jù)評(píng)估函數(shù),搜索出代表文獻(xiàn)資源的特征集合。特征集合依據(jù)評(píng)估函數(shù)不同可將Filter過濾式搜索策略的屬性選擇算法分為距離測(cè)度以及信息測(cè)度。

      1.2.1 基于距離測(cè)度的特征聚類選擇算法

      距離測(cè)度[7]根據(jù)特征項(xiàng)間距離衡量樣本相似度,該算法通過計(jì)算不同區(qū)域中特征項(xiàng)間的距離代表相似性。如果特征項(xiàng)的距離越小,則特征項(xiàng)越相似。如果特征項(xiàng)距離越大,則特征項(xiàng)相似性越小,可劃分性就越強(qiáng)。依據(jù)距離判斷文本相似度的方法眾多,包括閔可夫斯基距離、歐氏距離S階Minkowski測(cè)度等。

      在文本檢索領(lǐng)域,特征聚類是重要研究方向之一。聚類分析[8]是進(jìn)行各個(gè)對(duì)象的內(nèi)部特征分析,其中,聚類分析中劃分在同組表示性質(zhì)相近,劃分在不同組表示性質(zhì)相差較大,它依據(jù)相似性度量,特征空間被劃分為若干簇的子集,經(jīng)過分組,從而確定特征相似性。同組數(shù)據(jù)相似性大,不同組之間的相似性小,進(jìn)而完成特征聚類。聚類算法的描述:(1)特征詞先經(jīng)過相似度及權(quán)值計(jì)算,按順序排列。(2)執(zhí)行特征聚類,簇中心在所有簇中隨機(jī)選擇。(3)將簇中心和特征項(xiàng)比較相似性。例如,如果特征相似性大就進(jìn)行簇中心替換,否則不替換。(4)所有簇的簇中心保留下來,其他的特征項(xiàng)剔除,直到全部特征項(xiàng)對(duì)比結(jié)束。

      聚類方法較多,其中,經(jīng)常使用的有K均值聚類及分層聚類方法。分層聚類方法通過計(jì)算向量相似度實(shí)現(xiàn)聚類,相似度最大的兩類合并,直到滿足閾值條件,則聚類結(jié)束。K均值聚類方法是通過指定K值實(shí)現(xiàn)聚類,該方法通過聚類的個(gè)數(shù)進(jìn)行特征聚類。

      1.2.2 基于信息測(cè)度的特征選擇

      信息測(cè)度是經(jīng)常使用的屬性選擇算法,信息測(cè)度根據(jù)特征項(xiàng)之間的信息量衡量特征項(xiàng)。在特征選擇時(shí),需要進(jìn)行特征詞的重要程度量化。比如,在特征選擇時(shí),含信息越多的特征項(xiàng)成為特征項(xiàng)的可能性越大。因此,基于信息測(cè)度的特征選擇很重要的一步是將概率和信息量的大小結(jié)合。

      基于信息測(cè)度的屬性選擇算法眾多。以下對(duì)經(jīng)常使用的屬性選擇算法進(jìn)行分析:

      (1)文檔頻率[9](DF)。DF是最容易的評(píng)估函數(shù),表示訓(xùn)練文本中包含某特征項(xiàng)的文本頻率,其步驟可概括為:1)設(shè)定文本頻率閾值。2)統(tǒng)計(jì)出所有特征詞的文本頻率值M,和設(shè)定文本頻率閾值比較。3)假設(shè)M超出閾值范圍,則剔除該特征詞。4)若M值過大,表示類別區(qū)分度較??;若M值過小,表示類別區(qū)分度較大。該方法算法容易及復(fù)雜性小,因此,實(shí)際應(yīng)用中效率較高,適用于復(fù)雜數(shù)據(jù)集,該方法可以降低特征空間維數(shù)。但是,該方法不足之處是去除小于閾值的特征詞,該方法會(huì)濾掉一些文本頻率較低的特征詞。采用該方法,有些被濾掉的特征詞也許包含重要的類別信息影響到分類判別的準(zhǔn)確性。

      (2)文本頻率-逆文本頻率[10](TF-IDF),TF-IDF是Salton建立的方法,該方法主要根據(jù)文本頻率TF及逆頻率IDF進(jìn)行計(jì)算,TF-IDF比較適合特征權(quán)重函數(shù)計(jì)算。TFIDF是經(jīng)常使用的特征搜索方法,廣泛應(yīng)用于文本分類領(lǐng)域,該方法在特征權(quán)重函數(shù)計(jì)算中取得的效果較好。TFIDF原理是:文章中的短語或詞多次出現(xiàn),但這些短語或詞卻很少出現(xiàn)在其他類中,則認(rèn)為該短語或詞對(duì)該文很重要,說明該詞分類能力好。TF代表某短語或詞在某文中出現(xiàn)的次數(shù),即詞頻。IDF代表含某一個(gè)短語或詞文本數(shù)目的倒數(shù),如果含某一個(gè)短語或詞的文本數(shù)目少,則該短語或詞IDF值高。IDF值越高,該短語或詞的類別區(qū)分度越高。

      (3)信息增益[11](IG)。在文本中,IG評(píng)估方法給出了特征詞的信息熵差。IG計(jì)算公式如下:

      式中:P(Ci)表示Ci類文本數(shù)與文本總數(shù)的比值。P(t)表示含特征詞T的文本比例。p(ci|t)表示在ci類文本中出現(xiàn)特征詞T的條件概率。p(ci|t)表示在ci類文本中特征詞T不出現(xiàn)的條件概率;n表示文本類別數(shù)。

      信息熵和信息增益分別用公式(1)和公式(2)表示。IG考慮兩種情況:特征T出現(xiàn)及不出現(xiàn)。信息增益值代表某特征詞的重要性,增益值和信息越重要程度成正相關(guān)。

      (4)開方校驗(yàn)[12](CHI統(tǒng)計(jì))。開方校驗(yàn)中,x2表示統(tǒng)計(jì)量,表示的特征詞和文本類別之間的分布關(guān)系。x2統(tǒng)計(jì)量用于衡量特征和類之間獨(dú)立性。假設(shè)特征T和類是相互獨(dú)立的,則x2值為0。x2值越低,特征詞和類別的相互關(guān)聯(lián)性越小。公式如下:

      A為文本中T和ci同時(shí)出現(xiàn)的次數(shù)。B為文本中T出現(xiàn)但ci不出現(xiàn)的次數(shù)。C表示文本中ci出現(xiàn)但T不出現(xiàn)的次數(shù)。D表示文本中ci與T都不出現(xiàn)的概率。N為文本總數(shù)。

      在本類別及其他類別文本中,CHI統(tǒng)計(jì)偏向于高頻出現(xiàn)的特征詞,在實(shí)際應(yīng)用中較為可靠,閾值穩(wěn)定,不會(huì)隨著訓(xùn)練集的變化而變化。但缺點(diǎn)是CHI統(tǒng)計(jì)分類效果不佳。

      1.3 組合式的屬性選擇算法

      組合式屬性選擇算法是將Wrapper方法及Filter方法相結(jié)合[13],其原理是:先用Filter模型初步進(jìn)行特征選擇,去除冗余特征,獲得的特征子集,進(jìn)而降低特征空間維度;再用Wrapper模型進(jìn)一步進(jìn)行特征搜索,獲得最優(yōu)特征子集。

      IGICA是一種兩階段屬性選擇算法[14],第一階段,先通過信息增益對(duì)特征項(xiàng)進(jìn)行排名,第二階段,特征選擇中加入ICA。分析結(jié)果顯示,構(gòu)建的方法分類能力強(qiáng),優(yōu)于其他算法。兩階段的屬性選擇算法,在對(duì)傳統(tǒng)向量空間模型進(jìn)行計(jì)算的時(shí)候無需考量詞語之間的語義關(guān)系,先用潛在的語義索引,再結(jié)合新組建詞間語義空間,因此效率高。有的研究在進(jìn)行文本特征搜索的時(shí)候采用潛在遺傳算法(GA)及語義索引(LSI)。VSM(向量空間模型)[15]在對(duì)特征向量進(jìn)行降維中利用了LSI(朗格利爾飽和指數(shù))。VSM(向量空間模型)結(jié)合奇異值分解,并采用遺傳算法降低了維度。因此,VSM(向量空間模型)充分發(fā)揮了二者優(yōu)點(diǎn),使效率得到了提升。近年來,混合改進(jìn)特征選擇的方法不斷涌現(xiàn),如DTFS特征選擇法,提高了郵件分類性能。DTFS特征選擇法同時(shí)了考慮文本的頻率及詞的使用頻率[16]。首先,利用ODFFS(最佳文本頻率)特征選擇法和閾值特征選擇法進(jìn)行組合,選擇最佳特征。其次利用OTFFS(最優(yōu)詞頻率)與閾值進(jìn)行組合,選擇最佳特征。啟發(fā)式搜索策略的出現(xiàn),則是組合了OTFFS及ODFFS的功能,利用樸素貝葉斯(NB)分類器及模糊支持向量機(jī)(FSVM)對(duì)語料進(jìn)行分類。有部分研究針對(duì)文本證據(jù)權(quán)、信息增益、CHI統(tǒng)計(jì)算法中冗余信息干擾的局部性,提出CWFS算法(競(jìng)爭(zhēng)優(yōu)勝者屬性選擇算法),解決了傳統(tǒng)算法分類性能差及效率低的問題。

      2.結(jié)論

      大數(shù)據(jù)時(shí)代的到來,為海量的非結(jié)構(gòu)化文獻(xiàn)資源處理提供了重要的技術(shù)支撐。本文針對(duì)文獻(xiàn)資源分類、儲(chǔ)存過程的特征提取處理過程,分別分析了Wrapper包裝式的屬性選擇算法、Filter過濾式的屬性選擇算法、組合式的屬性選擇算法的基本原理和各自優(yōu)劣,為文獻(xiàn)資源特征提取處理提供了有益的參考。本文認(rèn)為,可以通過約束學(xué)習(xí)、同義詞相互補(bǔ)充、特征權(quán)重分配的深度學(xué)習(xí)算法使得特征更具有合理性及可解釋性,提高語義信息表達(dá)的準(zhǔn)確程度,從而優(yōu)化文獻(xiàn)資源分類、儲(chǔ)存過程的特征提取處理,進(jìn)而提升文獻(xiàn)信息檢索過程的用戶體驗(yàn)。

      猜你喜歡
      特征詞特征選擇特征提取
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      Bagging RCSP腦電特征提取算法
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      面向文本分類的特征詞選取方法研究與改進(jìn)
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      五常市| 进贤县| 河西区| 基隆市| 长兴县| 赣榆县| 民和| 水富县| 萨迦县| 华蓥市| 普宁市| 全州县| 霸州市| 南丹县| 沛县| 六枝特区| 繁昌县| 色达县| 大足县| 正安县| 磴口县| 新乡市| 台北市| 镇巴县| 陇川县| 大庆市| 新泰市| 濉溪县| 长汀县| 依安县| 西畴县| 瑞丽市| 苍溪县| 乐业县| 理塘县| 德钦县| 遂溪县| 庆元县| 兴隆县| 赤水市| 海阳市|