• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)LightGBM和異質(zhì)集成學(xué)習(xí)方法的新聞分類

      2019-03-15 01:29:58李安
      電子制作 2019年4期
      關(guān)鍵詞:集上正則貝葉斯

      李安

      (陜西省西安中學(xué),陜西西安,710000)

      1 概述

      在機(jī)器學(xué)習(xí)領(lǐng)域,對分類模型的研究具有重要的意義。集成學(xué)習(xí)作為一種能夠有效提高分類模型性能的方法也被廣泛使用。集成學(xué)習(xí)分為兩種類型,包括同質(zhì)集成學(xué)習(xí)與異質(zhì)集成學(xué)習(xí),目前在實(shí)際應(yīng)用中,大多數(shù)采用同質(zhì)集成學(xué)習(xí),包括sklearn等主流的機(jī)器學(xué)習(xí)框架,都實(shí)現(xiàn)了同質(zhì)集成學(xué)習(xí)。因此,對于異質(zhì)集成學(xué)習(xí)進(jìn)行探索就有了重要意義。

      娛樂文章按體裁能分成七類:資訊熱點(diǎn),電影電視劇報(bào)道評論,人物深扒,組圖盤點(diǎn),明星寫真,行業(yè)報(bào)道,機(jī)場圖。本文依據(jù)娛樂新聞分類這一具體問題,通過對不同模型的綜合分析,探究異質(zhì)集成學(xué)習(xí)的方法,將文章進(jìn)行多分類。

      1.1 數(shù)據(jù)集特征

      娛樂新聞的數(shù)據(jù)集特征由分詞和去停用詞以及TF-IDF處理后的4700維構(gòu)成。

      1.2 數(shù)據(jù)集預(yù)處理

      1.2.1 去停用詞

      由于并不是每一個(gè)詞都能表征這篇文章的內(nèi)容,如果保留,輸入特征會很大,影響訓(xùn)練效果,因此有一些形如“這樣”“1.2.3.4”的詞就應(yīng)該被刪除掉,可以從網(wǎng)絡(luò)上尋找一份中文的停用詞表作為參考。將文章中的詞與停用詞表中的詞作比較,如果在表中出現(xiàn)該詞,就將其刪除,如果沒有出現(xiàn),就跳過。

      1.2.2 分詞

      文本分詞是文檔處理中的一個(gè)不可或缺的操作,因?yàn)橹蟮牟僮餍枰梦恼轮械脑~語來代表這篇文章的主要內(nèi)容的概括。本文中對文章進(jìn)行分詞主要操作步驟如下:構(gòu)造語料庫詞典和進(jìn)行文章分詞操作。

      目前在nlp領(lǐng)域用來構(gòu)造詞典的主要方法是字典樹。對于分詞,主要采用的有正反雙向最大匹配以及nlp語言模型和最短路徑等相關(guān)的算法。

      對于我們的問題而言,我們使用的是jieba分詞庫。

      1.2.3 tf-IDF

      tf-IDF指標(biāo)是一種基于概率論的統(tǒng)計(jì)學(xué)方法,用于評估一篇文章中的某一字詞的對于一個(gè)語料庫中的文件集合中的其中一個(gè)文件的重要程度,詞語的重要程度和其在一篇文章中出現(xiàn)的次數(shù)是正比關(guān)系,但是和其在文件集合中出現(xiàn)的次數(shù)成反比關(guān)系。通俗地說,就是一個(gè)詞在某篇文章中出現(xiàn)的次數(shù)越高,而在這一堆文章中的其他文章中出現(xiàn)越少,它就更能表征這篇文章的內(nèi)容。

      詞頻(TF)指的是一個(gè)給定的詞語在某篇文章中出現(xiàn)的次數(shù),為了防止文章過長導(dǎo)致頻率偏向長文章,這個(gè)指標(biāo)一般會采用某種方式進(jìn)行歸一化操作(常常用出現(xiàn)的頻數(shù)/文檔總詞數(shù))。

      Tf-IDF指標(biāo)的計(jì)算方法是由語料庫中文檔的總數(shù)除上出現(xiàn)該詞語的文檔數(shù),將結(jié)果再取對數(shù),TF·IDF=TF*IDF。

      為了簡化計(jì)算,針對數(shù)據(jù)集,做出每4700詞劃分一次的調(diào)整,長度大于4700的進(jìn)行切分,小于4700的進(jìn)行填充。

      1.3 數(shù)據(jù)集劃分

      將9000篇文章中,30%劃分為訓(xùn)練集,70%劃分為測試集。

      2 構(gòu)建傳統(tǒng)機(jī)器學(xué)習(xí)模型

      2.1 構(gòu)建樸素貝葉斯模型

      2.1.1 基本原理

      樸素貝葉斯是經(jīng)典的機(jī)器學(xué)習(xí)算法之一,通過考慮特征概率來預(yù)測分類,是為數(shù)不多的基于概率統(tǒng)計(jì)學(xué)的分類算法。

      樸素貝葉斯的核心是貝葉斯定理,而貝葉斯定理的公式本質(zhì)上是條件概率。

      貝葉斯法則如下:

      這里的C表示類別,輸入待判斷數(shù)據(jù),式子給出要求解的某一類的概率。我們的最終目的是比較各類別的概率值大小,而上面式子的分母是不變的,因此只要計(jì)算分子即可。

      2.1.2 算法效果

      運(yùn)用樸素貝葉斯模型進(jìn)行預(yù)測,在訓(xùn)練集上達(dá)到了71.59%的準(zhǔn)確率,在測試集上達(dá)到了69.89%的準(zhǔn)確率,如圖1所示。

      圖1

      2.2 logistic模型

      2.2.1 logistic原理

      Logistic模型是人工智能中的一種被廣泛使用的分類模型,對于一般的分類問題而言,具有良好的性能。Logistic模型使用S函數(shù)作為我們的預(yù)測函數(shù),去估計(jì)概率P(y | x)的大小。如果P大于0.5,我們則認(rèn)為屬于“1”類別,否則屬于“0”類別。在娛樂新聞分類問題中,S函數(shù)的輸出就是屬于每一類娛樂新聞的幾率值,大小取值在0到1之間。Logistic模型在訓(xùn)練階段,通過隨機(jī)梯度下降法SGD去不斷的最小化預(yù)測函數(shù)在訓(xùn)練集娛樂新聞上的誤差,來提高模型的泛化能力。為了避免模型陷入過擬合,在代價(jià)函數(shù)上采用相應(yīng)的正則化手段,可以緩解模型的過擬合程度。

      2.2.2 logistic的假設(shè)函數(shù)

      假設(shè)函數(shù)采用sigmoid函數(shù),函數(shù)形式為如2-1式,取值范圍為[0,1]。代表了測試樣本新聞屬于某一類的概率。其中z = θTxX,θ是模型需要學(xué)習(xí)的參數(shù),X在該問題中對應(yīng)每篇文章的特征向量。即z是一篇新聞所有特征的線性組合。

      2.2.3 邏輯回歸的loss function

      Loss function又稱為代價(jià)函數(shù)、損失函數(shù),是我們將機(jī)器數(shù)學(xué)問題抽象成數(shù)學(xué)問題后所對應(yīng)的優(yōu)化目標(biāo),主要用來評價(jià)模型的好壞,在訓(xùn)練集上的預(yù)測誤差越小,loss function就越小,在訓(xùn)練集上的誤差越大,則loss funciton也就越大。機(jī)器學(xué)習(xí)的訓(xùn)練過程,本質(zhì)上就是通過SGD等優(yōu)化算法來不斷的更新模型權(quán)重,從而不斷的減小模型的預(yù)測誤差。

      機(jī)器學(xué)習(xí)中比較常見的loss funciton有均方誤差和cross entropy誤差。均方誤差一般用于regression問題中,cross entropy一般用在classi fi caton問題中。對于娛樂新聞分類問題而言,其是一個(gè)分類問題,因此我們采用了cross entropyloss function。cross entropyloss function的公式如2.2式。公式中的g(θ)代表了邏輯回歸函數(shù)的輸出,log代表以10為底的對數(shù),yi代表樣本的真實(shí)分布。

      2.2.4 logistic模型存在的問題

      從數(shù)學(xué)優(yōu)化上來講,模型每次更新權(quán)重時(shí),loss function都可以有一定的降低,在降低到很小的某一個(gè)值后,在其附近波動。但是loss function過低的風(fēng)險(xiǎn)是模型會過擬合。模型過擬合后,雖然模型在訓(xùn)練集上的誤差很小,但是在測試集上的誤差將會非常大[2],無法得到良好的預(yù)測性能。

      2.2.5 邏輯回歸的正則化

      為了解決上述提到的模型可能陷入過擬合的問題,需要采取一定的措施。在機(jī)器學(xué)習(xí)中,我們可以通過增加訓(xùn)練集樣本的數(shù)目去緩解過擬合,但是通常增加訓(xùn)練集數(shù)目的成本過高,因此可以使用另外一種常見的手段-正則化。正則化一般有L1正則,L2正則。在我們的問題中采用L2正則化,加入正則化項(xiàng)的代價(jià)函數(shù)如2.3式,其中C為正則化參數(shù)。

      2.2.6 結(jié)果分析

      通過在訓(xùn)練的過程中加入的L2正則化項(xiàng),我們的模型基本沒有發(fā)生過擬合,在訓(xùn)練集上達(dá)到了80.32%的準(zhǔn)確率,在測試集上達(dá)到了74.31%的準(zhǔn)確率,如圖2所示。

      圖2

      邏輯回歸的優(yōu)點(diǎn)是在于簡單,訓(xùn)練速度較快。但是其一般更適合用于線性可分的問題當(dāng)中,而對于一些線性不可分的問題中,采用更復(fù)雜的非線性模型可能會取得更好的效果。

      3 Ensemble learning

      3.1 Ensemble learing基本原理

      機(jī)器學(xué)習(xí)中的分類模型在訓(xùn)練結(jié)束后,我們希望訓(xùn)練出一個(gè)在各種指標(biāo)下的表現(xiàn)都十分良好的模型,但是真實(shí)的情況往往不是如此,一個(gè)模型在某些評價(jià)指標(biāo)上表現(xiàn)良好,在另外的評價(jià)指標(biāo)上的表現(xiàn)可能就很差。通常我們只能得到在某幾個(gè)指標(biāo)下表現(xiàn)良好的多個(gè)單一的分類模型。Ensemble learing的主要思想就是將多個(gè)單一的分類模型的結(jié)果綜合起來考慮,來獲得最后的分類結(jié)果。在這種情況下,模型對某幾個(gè)模型產(chǎn)生的錯誤就會具有一定的容錯性。

      因此,從Ensemble learing的學(xué)習(xí)思想我們可以把集成學(xué)習(xí)分為兩個(gè)主要的步驟,第一步是獲得多個(gè)在某些指標(biāo)上表現(xiàn)良好的單一分類器,第二步是采用某種算法將這些單一分類器的預(yù)測結(jié)果綜合起來考慮,獲得最后的預(yù)測結(jié)果。

      Ensemble learing通常包含兩種方式,同質(zhì)集成學(xué)習(xí)和異質(zhì)集成學(xué)習(xí)。同質(zhì)集成學(xué)習(xí)是指只使用一個(gè)模型,但是在該模型下選取不同的超參數(shù),從而獲得不同的個(gè)體分類器。異質(zhì)集成學(xué)習(xí)是指使用不同的模型,把不同模型的結(jié)果綜合起來,得到最后的預(yù)測結(jié)果,比如就一個(gè)基本分類問題而言,我們可以采用決策樹模型、SVM模型、logistic模型獲得不同的預(yù)測結(jié)果,再將結(jié)果綜合起來,得到最終的預(yù)測模型。

      在現(xiàn)在的人工智能領(lǐng)域,通常使用基于決策樹的同質(zhì)集成學(xué)習(xí)。一般情況下,在無特殊說明時(shí),我們都是指的這種集成方式。在這種學(xué)習(xí)方式中,個(gè)體分類器通常使用決策樹模型。不同的決策樹模型即可以通過bagging的方式來并行得到,也可以通過boosting的方式來串行得到。bagging方式每種分類器之間相互獨(dú)立,boosting方式每種分類器之間相互依賴。

      在我們的娛樂新聞分類問題中,我們采用基于boosting的方式來實(shí)現(xiàn)我們的分類算法。

      3.2 LGB模型

      LightGBM是一個(gè)基于GBDT樹的機(jī)器學(xué)習(xí)框架,Boosting算法通過使用一個(gè)疊加型的函數(shù)模型,選取某種函數(shù)作為優(yōu)化目標(biāo),逐步優(yōu)化,得到最后結(jié)果。

      3.3 結(jié)果分析

      運(yùn)用lightGBM模型模型進(jìn)行預(yù)測,在訓(xùn)練集上達(dá)到了78.50%的準(zhǔn)確率,在測試集上達(dá)到了73.34%的準(zhǔn)確率,如圖3所示。

      圖3

      4 應(yīng)用異質(zhì)集成學(xué)習(xí)方法綜合各模型的預(yù)測結(jié)果

      在上述三個(gè)模型的預(yù)測基礎(chǔ)上采用投票的方法進(jìn)行集成,在測試集上達(dá)到了75.19%的準(zhǔn)確率,如圖4所示。

      圖4

      5 結(jié)語

      本項(xiàng)目根據(jù)具體的娛樂新聞分類數(shù)據(jù),在該數(shù)據(jù)上分別采用了樸素貝葉斯算法,邏輯回歸算法,LightGBM算法。在測試集上分別取得了69.89%,74.31%,73.34%的準(zhǔn)確率。證明了在采用了基于boosting的集成后,提高了在測試集上的準(zhǔn)確率,相比單獨(dú)使用一個(gè)分類器而言,表現(xiàn)出了集成算法的優(yōu)點(diǎn)。

      猜你喜歡
      集上正則貝葉斯
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      剩余有限Minimax可解群的4階正則自同構(gòu)
      類似于VNL環(huán)的環(huán)
      復(fù)扇形指標(biāo)集上的分布混沌
      貝葉斯公式及其應(yīng)用
      基于貝葉斯估計(jì)的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      有限秩的可解群的正則自同構(gòu)
      IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
      曲麻莱县| 霸州市| 西青区| 铅山县| 新蔡县| 黔东| 三穗县| 承德县| 祁门县| 荆门市| 三台县| 兴国县| 木里| 漳浦县| 镇宁| 桦南县| 托克逊县| 赤壁市| 垣曲县| 岱山县| 嵩明县| 扎赉特旗| 邛崃市| 沙田区| 隆林| 云浮市| 达日县| 万全县| 正蓝旗| 周口市| 盐源县| 呈贡县| 芦山县| 当雄县| 纳雍县| 鹤山市| 慈利县| 西吉县| 许昌县| 南华县| 淮北市|