• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      異質(zhì)集成學(xué)習(xí)器在鳶尾花卉分類中的應(yīng)用

      2019-02-14 08:51:24史雙睿
      電子制作 2019年2期
      關(guān)鍵詞:集上異質(zhì)類別

      史雙睿

      (北京師范大學(xué)第二附屬中學(xué),北京,100088)

      1 概述

      分類模型的研究在機(jī)器學(xué)習(xí)中具有重要的意義。而集成學(xué)習(xí)作為提高分類模型性能的方法也廣泛被使用。集成學(xué)習(xí)又分為同質(zhì)集成學(xué)習(xí)與異質(zhì)集成學(xué)習(xí),目前在機(jī)器學(xué)習(xí)界,大多數(shù)采用同質(zhì)集成學(xué)習(xí),包括一些主流的機(jī)器學(xué)習(xí)框架,如sklearn,都只實(shí)現(xiàn)了同質(zhì)集成學(xué)習(xí)。因此,對(duì)于異質(zhì)集成學(xué)習(xí)進(jìn)行探索就有了重要意義。

      本研究依據(jù)具體的Iris鳶尾花卉識(shí)別實(shí)例,探究異質(zhì)集成學(xué)習(xí)的方法。

      ■1.1 數(shù)據(jù)集特征

      Iris是機(jī)器學(xué)習(xí)中一個(gè)常見的數(shù)據(jù)集,其用于鳶尾花卉分類,數(shù)據(jù)集共包含150個(gè)樣本,每個(gè)樣本包括花瓣長度,花瓣寬度,花萼長度,花萼寬度四個(gè)特征,樣本共具有三個(gè)花卉類別,分別為Iris Setosa(山鳶尾)、Iris Versicolour(雜色鳶尾),以及Iris Virginica(維吉尼亞鳶尾)。本研究將根據(jù)該數(shù)據(jù)集,探究異質(zhì)集成學(xué)習(xí)的方法。

      ■1.2 數(shù)據(jù)集預(yù)處理

      Iris數(shù)據(jù)集的預(yù)處理一共包含兩個(gè)步驟:

      (1)特征編碼:第一個(gè)步驟需要將Iris Setosa(山鳶尾)、Iris Versicolour(雜色鳶尾),以及Iris Virginica(維吉尼亞鳶尾)這三種類別的花卉映射成0,1,2 三個(gè)類別數(shù)字,映射后的數(shù)據(jù)才能參與模型的訓(xùn)練。

      (2)shuラe處理:由于Iris數(shù)據(jù)集的前100個(gè)數(shù)據(jù)只包含0,1 兩個(gè)類別的花卉,后50個(gè)數(shù)據(jù)全部為第2個(gè)類別的花卉。所以我們需要對(duì)著150個(gè)數(shù)據(jù)進(jìn)行隨機(jī)打亂后才能進(jìn)行訓(xùn)練。

      ■1.3 數(shù)據(jù)集劃分

      為了模型的訓(xùn)練與模型的性能檢驗(yàn),我們需要把數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分。對(duì)于Iris數(shù)據(jù)集,一共具有150個(gè)樣本。我們隨機(jī)挑選出100個(gè)數(shù)據(jù)作為訓(xùn)練集,用于訓(xùn)練模型。剩下50個(gè)數(shù)據(jù)作為測試集,用于檢驗(yàn)訓(xùn)練出的模型的性能好壞。

      2 構(gòu)建分類模型

      ■2.1 構(gòu)建kNN模型

      2.1.1 基本原理

      kNN分類算法是一種臨近算法,也是分類技術(shù)中最簡單的方法之一。該方法在確定分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。在訓(xùn)練階段,模型通過將所有訓(xùn)練集映射在一個(gè)特征空間內(nèi)。在預(yù)測階段,模型將所有待分類的樣本,通過計(jì)算與訓(xùn)練集的距離,挑選出最近的k個(gè)距離,在這k個(gè)訓(xùn)練集樣本中,通過簡單的投票原則,來決定待分類樣本的預(yù)測類別。

      2.1.2 在Iris數(shù)據(jù)集上應(yīng)用kNN模型

      在我們的Iris數(shù)據(jù)集上,我們通過將訓(xùn)練集的100個(gè)樣本映射在一個(gè)四維特征空間內(nèi)來實(shí)現(xiàn)kNN模型的訓(xùn)練。在預(yù)測過程,我們計(jì)算測試集的50個(gè)樣本與訓(xùn)練集的100個(gè)樣本的距離,從中挑選出最近的k個(gè)距離,然后采用投票原則來確定測試集樣本的花卉種類。

      2.1.3 結(jié)果分析

      我們通過sklearn中的kNN模型包,在Iris數(shù)據(jù)集上運(yùn)用了kNN模型。通過改變不同的k取值,觀察在測試集上的準(zhǔn)確率。經(jīng)過測試,當(dāng)k = 2,3,4,5時(shí),模型在測試集上的準(zhǔn)確率分別為86%,92%,88%,92%。當(dāng)k = 3或5時(shí),在測試集上的準(zhǔn)確率達(dá)到最高92%。

      2.1.4 kNN模型的優(yōu)缺點(diǎn)分析

      kNN模型的優(yōu)點(diǎn)在于模型比較簡單,結(jié)果也比較直觀。但是缺點(diǎn)是當(dāng)訓(xùn)練集樣本非常大時(shí),由于要計(jì)算每個(gè)測試集樣本與整個(gè)訓(xùn)練集的距離,所以速度會(huì)明顯的降低。但是由于我們的樣本數(shù)目只有150個(gè),因此采用kNN模型一方面計(jì)算速度很快,另一方面在測試集上能夠取得不錯(cuò)的性能。

      ■2.2 構(gòu)建邏輯回歸模型

      2.2.1 基本原理

      邏輯回歸模型是機(jī)器學(xué)習(xí)中一種常見的分類模型,其主要運(yùn)用在二分類中。在多分類問題中,可以運(yùn)用ovr或者ovo等策略將多分類問題轉(zhuǎn)化為多個(gè)二分類問題來使用邏輯回歸。邏輯回歸的基本原理是采用sigmoid函數(shù)來作為我們的預(yù)測函數(shù)。在我們的鳶尾花卉分類問題中,sigmoid函數(shù)的輸出就是屬于每一類花卉的概率,范圍在[0,1]之間。邏輯回歸在訓(xùn)練的過程中,通過不斷的最小化交叉熵代價(jià)函數(shù),來尋求一個(gè)合適的學(xué)習(xí)參數(shù)θ向量,來使模型在訓(xùn)練集上的誤差相對(duì)較小,同時(shí)在訓(xùn)練的過程中,通過加入一定的正則化項(xiàng),來緩解模型的過擬合。

      由于本研究為三分類問題,要對(duì)邏輯回歸進(jìn)行調(diào)整。這其中有兩種方法:

      (1)根據(jù)每個(gè)類別,都建立一個(gè)二分類器,帶有這個(gè)類別的樣本標(biāo)記為1,帶有其他類別的樣本標(biāo)記為0。假如我們有K個(gè)類別,最后我們就得到了K個(gè)針對(duì)不同標(biāo)記、普通的邏輯回歸分類器。

      (2)修改損失函數(shù),讓其適應(yīng)多分類問題。這個(gè)損失函數(shù)不再籠統(tǒng)地只考慮二分類非1即0的損失,而是具體考慮每個(gè)樣本標(biāo)記的損失。

      2.2.2 假設(shè)函數(shù)

      邏輯回歸采用sigmoid作為假設(shè)函數(shù),如式1所示。假設(shè)函數(shù)的值域?yàn)閇0,1],對(duì)應(yīng)了事件發(fā)生的概率。其中z =θTxX,θ是模型需要學(xué)習(xí)的參數(shù),X在該問題中對(duì)應(yīng)每個(gè)花卉樣本的特征向量。即z是每個(gè)花卉樣本所有特征的線性組合。

      2.2.3 交叉熵代價(jià)函數(shù)

      為了衡量模型的性能,需要在訓(xùn)練的過程中引入代價(jià)函數(shù)。對(duì)于機(jī)器學(xué)習(xí)中的分類問題而言,最常用的代價(jià)函數(shù)是交叉熵代價(jià)函數(shù),如式2所示。其中yi為樣本的真實(shí)分布,g(θ)為模型給出的預(yù)測值,即預(yù)測屬于每一種花卉的概率值。模型在訓(xùn)練的過程中通過梯度下降法,不斷的調(diào)整θ的值,來使模型在訓(xùn)練集上的代價(jià)函數(shù)不斷的降低,不斷的對(duì)模型進(jìn)行優(yōu)化。

      2.2.4 邏輯回歸的正則化

      在訓(xùn)練的過程中,代價(jià)函數(shù)會(huì)隨著迭代次數(shù)的增加而不斷的降低,最終穩(wěn)定在一個(gè)比較小的值。代價(jià)函數(shù)越小,說明對(duì)訓(xùn)練集擬合的越好,但是會(huì)帶來機(jī)器學(xué)習(xí)中一個(gè)常見的問題,即模型陷入過擬合。此時(shí)模型雖然能夠很好的擬合訓(xùn)練集,但是對(duì)于未知數(shù)據(jù)的泛化能力會(huì)比較低,也就是說,模型在測試集上的準(zhǔn)確率會(huì)比較低。

      對(duì)于機(jī)器學(xué)習(xí)中出現(xiàn)的過擬合問題,不存在一種手段能夠完全解決。只從在一定程度上緩解。緩解過擬合的常用手段有兩種。一種是增加訓(xùn)練集樣本的數(shù)量,當(dāng)訓(xùn)練集樣本的數(shù)量增加時(shí),模型可在一定程度上緩解過擬合,但是通常在實(shí)際情況下,我們很難去獲取到更多的樣本,或者說是獲取更多樣本的成本太高。所以我們一般采用第二種手段,即正則化,來緩解模型的過擬合。

      正則化的基本思想是通過在代價(jià)函數(shù)的基礎(chǔ)上,對(duì)學(xué)習(xí)到的參數(shù)向量進(jìn)行一定的限制,使學(xué)習(xí)到的參數(shù)向量不會(huì)很大,從而能得到一個(gè)相對(duì)比較簡單的機(jī)器學(xué)習(xí)模型,提高了模型的泛化能力。

      常用的正則化手段有L1正則化和L2正則化,L1正則化是在代價(jià)函數(shù)的基礎(chǔ)上,對(duì)學(xué)習(xí)參數(shù)進(jìn)行L1范數(shù)限制,L2正則化則是對(duì)學(xué)習(xí)參數(shù)進(jìn)行L2范數(shù)限制。L1正則化相對(duì)于L2正則化更容易產(chǎn)生稀疏解,偏向于得到一個(gè)更簡單的模型。

      2.2.5 在Iris數(shù)據(jù)集上應(yīng)用邏輯回歸模型

      在我們的Iris鳶尾花分類問題中,由于花卉種類一共有三類。因此我們無法直接應(yīng)用邏輯回歸。但是我們可以采用ovr手段,將一個(gè)三分類問題轉(zhuǎn)化為三個(gè)二分類問題。也就是分別把每種花卉作為一類,把剩下的兩種花卉作為另外一類。在這種劃分下,在每兩個(gè)類別之間訓(xùn)練一個(gè)二分類器,也就得到了相應(yīng)的三個(gè)判別函數(shù)。在預(yù)測階段,我們將未知類別的花卉特征分別代入三個(gè)分類器中,然后取最大概率分類器的類別,作為未知花卉的類別。

      同時(shí),在訓(xùn)練的過程中,我們加入了L2正則化項(xiàng),來緩解模型的過擬合問題。加入了正則化項(xiàng)的代價(jià)函數(shù),如3式所示。

      2.2.6 結(jié)果分析在經(jīng)過若干時(shí)間的訓(xùn)練后,模型最終在測試集上達(dá)到了80%的準(zhǔn)確率,這個(gè)準(zhǔn)確率相對(duì)于KNN模型來講,性能相差很大。其主要原因在于一般邏輯回歸模型通常適用于二分類,在我們采用ovr手段把三分類問題轉(zhuǎn)換為多個(gè)二分類問題的同時(shí),會(huì)引入機(jī)器學(xué)習(xí)中另外一個(gè)比較常見的“偏斜類”

      問題,即不同類別的樣本數(shù)目相差比較大,會(huì)使訓(xùn)練出的模型性能不是很好。

      ■2.3 構(gòu)建SVM模型

      2.3.1 SVM模型基本原理

      支持向量機(jī)(support vector machine,SVM),它最初于20世紀(jì)90年代由Vapnik提出,是機(jī)器學(xué)習(xí)中一種十分強(qiáng)大的分類模型。與數(shù)據(jù)挖掘中的其他分類模型相比,具有較好的泛化能力。而且針對(duì)非線性可分?jǐn)?shù)據(jù),擁有一套先進(jìn)的理論方法來處理。由于其優(yōu)秀的分類性能,在機(jī)器學(xué)習(xí)領(lǐng)域成為了研究的熱點(diǎn)。在學(xué)術(shù)界,不斷的有新的理論被提出。近年來,與SVM相關(guān)的方法,在人臉識(shí)別,手寫識(shí)別,文本分類中得到了廣泛的應(yīng)用,并且取得了很好的效果[1]。

      SVM可以簡單的理解為是對(duì)邏輯回歸模型的改進(jìn),對(duì)于邏輯回歸來講,是尋找一個(gè)超平面,把兩類數(shù)據(jù)在特征空間中劃分開來,對(duì)于線性可分的數(shù)據(jù)集來講,可能存在無數(shù)個(gè)超平面將數(shù)據(jù)劃分開來,而邏輯回歸只是尋找到其中的某一個(gè)超平面。而對(duì)于SVM來講,則是在這眾多超平面中,尋找到最優(yōu)的一個(gè)超平面,這里的是最優(yōu)是指到兩類樣本點(diǎn)的間隔都相對(duì)較大。這個(gè)最優(yōu)的分隔超平面可以使模型的泛化能力更強(qiáng)。

      2.3.2 核函數(shù)

      簡單來講,核函數(shù)的作用即為將數(shù)據(jù)從低維空間映射到高維空間。 因?yàn)樵诘途S空間線性不可分的數(shù)據(jù),在高維空間很可能是線性可分的,此時(shí)再運(yùn)用SVM即可實(shí)現(xiàn)最優(yōu)劃分。實(shí)際應(yīng)用中,可以利用參數(shù)來限制維度,以減小計(jì)算量。

      在實(shí)際的數(shù)據(jù)集中,最常見的還是線性不可分的數(shù)據(jù)集,此時(shí)SVM無法直接使用,需要引入帶核函數(shù)的SVM。核函數(shù)的作用主要是將在低維特征空間中線性不可分的數(shù)據(jù)映射到高維特征空間中,在高緯空間中,原本線性不可分的數(shù)據(jù)就有可能成為線性可分的數(shù)據(jù)。

      2.3.3 結(jié)果分析

      我們最終在Iris花卉數(shù)據(jù)集上嘗試使用不同的核函數(shù),如線性核函數(shù),高斯核函數(shù),多項(xiàng)式核函數(shù)等。在經(jīng)過多輪迭代之后,最終在測試集上得到了92%的準(zhǔn)確率。由此可見,SVM是泛化能力比較強(qiáng)的一種分類模型。

      ■2.4 構(gòu)建集成學(xué)習(xí)器

      2.4.1 集成學(xué)習(xí)基本原理

      在人工智能的有監(jiān)督學(xué)習(xí)中,我們希望學(xué)習(xí)到一個(gè)穩(wěn)定的強(qiáng)大的強(qiáng)學(xué)習(xí)器,但是實(shí)際情況往往不那么理想,我們可能會(huì)得到若干個(gè)在不同的方面存在著不同缺陷的弱學(xué)習(xí)器。而集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)的思想就是綜合多個(gè)弱監(jiān)督模型的優(yōu)點(diǎn),根據(jù)多個(gè)弱監(jiān)督模型的決策結(jié)果來得到最終的決策結(jié)果。這樣即使某一個(gè)弱分類器得到了錯(cuò)誤的預(yù)測,那么其他的分類器也能將錯(cuò)誤糾正過來。

      集成學(xué)習(xí)器分為兩種。第一種就是所有的個(gè)體學(xué)習(xí)器都是一個(gè)種類的,即同質(zhì)的。比如都是決策樹個(gè)體學(xué)習(xí)器,神經(jīng)網(wǎng)絡(luò)個(gè)體學(xué)習(xí)器等。第二種是所有的個(gè)體學(xué)習(xí)器不全是一個(gè)種類的,即異質(zhì)。目前來說,同質(zhì)個(gè)體學(xué)習(xí)器的應(yīng)用是最廣泛的,一般常說的集成學(xué)習(xí)的方法都是指的同質(zhì)個(gè)體學(xué)習(xí)器。而同質(zhì)個(gè)體學(xué)習(xí)器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。

      因此,從集成學(xué)習(xí)的基本思想我們可以知道,集成學(xué)習(xí)一共分為兩步。第一步是得到多個(gè)基本的學(xué)習(xí)器,第二步是采用一定的策略,把第一步得到的學(xué)習(xí)器結(jié)合起來,得到最終的學(xué)習(xí)器。

      2.4.2 集成學(xué)習(xí)之個(gè)體學(xué)習(xí)器

      在機(jī)器學(xué)習(xí)中通常有兩種方式得到個(gè)體學(xué)習(xí)器,第一種方式是所有的個(gè)體學(xué)習(xí)器來自于同一個(gè)模型,即是同質(zhì)學(xué)習(xí)器,例如都來自CART樹,或者都來自神經(jīng)網(wǎng)絡(luò)。另外一種方式是所有的個(gè)體來自于不同的模型,即是異質(zhì)的,比如個(gè)體學(xué)習(xí)器分別來自KNN,SVM,邏輯回歸等。

      目前在機(jī)器學(xué)習(xí)領(lǐng)域,一般都采用基于同質(zhì)學(xué)習(xí)器的集成學(xué)習(xí)。我們所說的集成學(xué)習(xí)在默認(rèn)情況下都是指同質(zhì)集成學(xué)習(xí)器。對(duì)同質(zhì)學(xué)習(xí)器的研究也比較多,對(duì)異質(zhì)學(xué)習(xí)器的研究比較少。但異質(zhì)學(xué)習(xí)器同樣作為一種重要的集成學(xué)習(xí)策略,被廣泛使用。

      2.4.3 集成學(xué)習(xí)之結(jié)合法

      2.4.3.1 平均法

      對(duì)于機(jī)器學(xué)習(xí)中的回歸問題,比較常用的方法是將若干個(gè)基本學(xué)習(xí)器的輸出求平均值來得到最終分類器的輸出。

      比較常用的求平均值的方法有算法平均和加權(quán)平均。最簡單的為算法平均,如4式所示。如果每個(gè)個(gè)體學(xué)習(xí)器有一個(gè)權(quán)重wi,則最終的預(yù)測如5式所示。其中H(x)為集成學(xué)習(xí)器的最終輸出,hi(x)為每個(gè)個(gè)體學(xué)習(xí)器的輸出,T為集成的個(gè)體學(xué)習(xí)器的個(gè)數(shù)。

      2.4.3.2 投票法

      對(duì)于分類問題,一般采用投票法進(jìn)行決策。每個(gè)弱分類器給出自己的判別結(jié)果,然后將所有的結(jié)果進(jìn)行綜合得到最終決策。

      最簡單的投票法是相對(duì)多數(shù)投票法,也就是我們常說的少數(shù)服從多數(shù),也就是T個(gè)弱學(xué)習(xí)器的對(duì)樣本x的預(yù)測結(jié)果中,數(shù)量最多的類別cici為最終的分類類別。如果不止一個(gè)類別獲得最高票,則隨機(jī)選擇一個(gè)做最終類別。

      稍微復(fù)雜的投票法是絕對(duì)多數(shù)投票法,也就是我們常說的要票過半數(shù)。在相對(duì)多數(shù)投票法的基礎(chǔ)上,不光要求獲得最高票,還要求票過半數(shù)。否則會(huì)拒絕預(yù)測。

      更加復(fù)雜的是加權(quán)投票法,和加權(quán)平均法一樣,每個(gè)弱學(xué)習(xí)器的分類票數(shù)要乘以一個(gè)權(quán)重,最終將各個(gè)類別的加權(quán)票數(shù)求和,最大的值對(duì)應(yīng)的類別為最終類別。

      2.4.4 在Iris花卉數(shù)據(jù)集上應(yīng)用異質(zhì)集成學(xué)習(xí)

      在Iris花卉數(shù)據(jù)集上,我們采用了三個(gè)個(gè)體學(xué)習(xí)器,分別是KNN模型,邏輯回歸模型,SVM模型,把這三個(gè)學(xué)習(xí)器采用基本投票策略的方式結(jié)合起來,票數(shù)最多的花卉類別作為預(yù)測樣本的類別,最終得到了一個(gè)準(zhǔn)確率更高更強(qiáng)大的學(xué)習(xí)器。

      經(jīng)過在測試集上進(jìn)行測試,最終在測試集上達(dá)到了94%準(zhǔn)確率,相對(duì)于單個(gè)個(gè)體學(xué)習(xí)器的最高只達(dá)到了92%而言,提升了2個(gè)百分點(diǎn)。這充分說明了在采用異質(zhì)集成學(xué)習(xí)后,融合后的模型的性能得到了提升,取得了一定的效果。

      3 結(jié)語

      本文對(duì)Iris鳶尾花卉數(shù)據(jù)集,分別采用了單獨(dú)的個(gè)體學(xué)習(xí)器KNN,邏輯回歸,SVM以及異質(zhì)集成學(xué)習(xí),把單獨(dú)的個(gè)體學(xué)習(xí)器在測試集地上的準(zhǔn)確率從92%,80%,92%提升到了融合后的94%,充分說明了異質(zhì)集成學(xué)習(xí)在該問題上取得了效果,也證明了異質(zhì)集成學(xué)習(xí)和同質(zhì)學(xué)習(xí)一樣,具有廣泛的應(yīng)用前景。

      猜你喜歡
      集上異質(zhì)類別
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      復(fù)扇形指標(biāo)集上的分布混沌
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      隨機(jī)與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
      Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見光光催化性能
      MoS2/ZnO異質(zhì)結(jié)的光電特性
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      幾道導(dǎo)數(shù)題引發(fā)的解題思考
      扶沟县| 上林县| 上思县| 策勒县| 太原市| 沁源县| 金乡县| 婺源县| 青川县| 太康县| 南和县| 深泽县| 营口市| 新沂市| 阜宁县| 南京市| 康平县| 中阳县| 玉田县| 财经| 图片| 雅安市| 潍坊市| 福清市| 台山市| 微博| 咸阳市| 仙桃市| 叙永县| 樟树市| 历史| 仪陇县| 平原县| 如东县| 尼木县| 罗山县| 简阳市| 芮城县| 北票市| 亚东县| 绥中县|