• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機(jī)器學(xué)習(xí)方法在圖像分類中的應(yīng)用

      2017-12-19 07:57:01河南省鄭州中學(xué)虞達(dá)飛
      電子世界 2017年23期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)分類

      河南省鄭州中學(xué) 虞達(dá)飛

      機(jī)器學(xué)習(xí)方法在圖像分類中的應(yīng)用

      河南省鄭州中學(xué) 虞達(dá)飛

      近年來(lái),隨著硬件技術(shù)的發(fā)展,尤其是GPU計(jì)算能力的提升,機(jī)器學(xué)習(xí)方法在圖像分類領(lǐng)域取得了一系列的進(jìn)展,特別是卷積神經(jīng)網(wǎng)絡(luò)對(duì)于提高圖像分類的效果有著顯著的作用。綜述圖像分類的基本概念,以及近機(jī)器學(xué)習(xí),深度學(xué)習(xí)方法在圖像分類領(lǐng)域的進(jìn)展和典型模型。

      機(jī)器學(xué)習(xí);圖像分類;SVM;深度學(xué)習(xí)

      1.概述

      1.1 研究背景與意義

      隨著社會(huì)的發(fā)展,尤其是智能手機(jī)的普及,人們獲取圖像的方式越來(lái)越方便、快捷。因此網(wǎng)絡(luò)上存儲(chǔ)的圖片數(shù)據(jù)越來(lái)越多,不僅僅給圖像數(shù)據(jù)的存儲(chǔ)帶來(lái)了很大的困難,并且圖像數(shù)據(jù)中存儲(chǔ)的信息也是十分豐富的,要獲取圖像中的信息也變得越來(lái)越重要。圖像中的信息對(duì)于我們來(lái)說(shuō)也是非常重要的,這些信息不僅可以幫助我們獲得人們的想法,還為我們提供了很多人類的行為數(shù)據(jù)。

      圖像分類是一個(gè)基礎(chǔ)性的工作,它的應(yīng)用非常廣泛,不僅應(yīng)用在圖像分類管理和信息提取方面,還應(yīng)用于目標(biāo)識(shí)別,人臉識(shí)別,圖像檢索等方面,并且在其他研究領(lǐng)域有重要的價(jià)值和意義。

      在進(jìn)行圖像分類之前,必須對(duì)它們進(jìn)行高效的分類管理,并且,想要讓計(jì)算機(jī)像人類一樣靈活地對(duì)圖像數(shù)據(jù)進(jìn)行分類,具有非常大的挑戰(zhàn)性,其中所要面臨的難題不僅是圖像數(shù)據(jù)的不規(guī)則性,還包括圖像的數(shù)量級(jí),不同圖像數(shù)據(jù)的表示方法等等,因此,圖像分類問(wèn)題向來(lái)都是一個(gè)具有挑戰(zhàn)性的研究熱點(diǎn)。

      1.2 圖像分類的當(dāng)前研究現(xiàn)狀

      Swain和Ballard提出了基于色彩直方圖的方法,通過(guò)比較顏色直方圖的不同來(lái)分析兩幅圖像之間在顏色分布上的差異,但是由于對(duì)于其他的一些特點(diǎn)如形狀等不敏感,因此效果并不是十分的理想。上世紀(jì)八十年代Pawlak.Z等人提出的粗糙集理論,通過(guò)引入代數(shù)中的等價(jià)關(guān)系來(lái)解讀知識(shí),通過(guò)對(duì)一些知識(shí)的處理,從而獲得了更好的分類效果。

      另外基于機(jī)器學(xué)習(xí)方法的分類主要由貝葉斯方法和神經(jīng)網(wǎng)絡(luò)方法等。

      貝葉斯分類方法的主要過(guò)程是:首先計(jì)算每一個(gè)訓(xùn)練集的類分布,把這種分布作為每一個(gè)類別的概率分布,然后再利用概率論中的貝葉斯定理和數(shù)理統(tǒng)計(jì)學(xué)去估算某個(gè)特質(zhì)樣本屬于那一類的概率大小。貝葉斯方法又可具體分為貝葉斯信念網(wǎng)絡(luò)和樸素貝葉斯方法,但是根據(jù)目前狀況來(lái)看,該方法應(yīng)用較多的是貝葉斯信念網(wǎng)絡(luò),但是該方法訓(xùn)練過(guò)程復(fù)雜,難以選出評(píng)估函數(shù),這是現(xiàn)在研究要解決的主要問(wèn)題。

      近年來(lái),深度學(xué)習(xí)模型在提取圖像高層特征表示方面取得重大突破,在20世紀(jì)60年代,在神經(jīng)生物學(xué)家的研究中,人類大腦視覺(jué)系統(tǒng)對(duì)信息的處理是分級(jí)的。這種層次的特性學(xué)習(xí)模型已經(jīng)被應(yīng)用到許多領(lǐng)域,是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)最新的研究熱點(diǎn)。深度學(xué)習(xí)的模型就像大腦視覺(jué)皮層對(duì)信息的分層處理許多個(gè)隱含層就與大腦的V1、V2區(qū)一樣,能夠形成像素到目標(biāo)的高層特征表示,傳統(tǒng)的淺層學(xué)習(xí)結(jié)構(gòu)不具備這種特征。但是,構(gòu)造多成網(wǎng)絡(luò)結(jié)構(gòu)又不能高效地完成訓(xùn)練,直到2006年,Hinton等人提出采用非監(jiān)督貪婪逐層訓(xùn)練算法去解決深度結(jié)構(gòu)的訓(xùn)練問(wèn)題,這才引起人們度深度學(xué)習(xí)的關(guān)注,隨后,深度學(xué)習(xí)模型又得到了改進(jìn)和優(yōu)化,如卷積深度置信網(wǎng)絡(luò),去噪自動(dòng)編碼器,去卷積網(wǎng)絡(luò)等。

      2.圖像分類

      2.1 什么是圖像分類

      分類是根據(jù)訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)所表現(xiàn)出來(lái)的類特征,給每一類確定一種準(zhǔn)確地描述方式,由此生成類描述或模型,并運(yùn)用這種描述方式對(duì)新的數(shù)據(jù)集進(jìn)行分類。圖像分類是指針對(duì)原始的圖片數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行過(guò)濾、提取特征等操作,然后根據(jù)圖像特征進(jìn)行分類。

      2.2 圖像分類的過(guò)程

      圖像數(shù)據(jù)的預(yù)處理:首先我們需要針對(duì)相應(yīng)的圖像做一部分預(yù)處理,這一步的主要目的是處理原始的圖片數(shù)據(jù),使其符合我們的模型的需要,有一些對(duì)圖像的基礎(chǔ)操作也在這一步驟中進(jìn)行。比如將圖片裁剪成特定的大小,將彩色圖轉(zhuǎn)換成灰度圖,將數(shù)據(jù)處理成統(tǒng)一的格式等。

      數(shù)據(jù)增強(qiáng):由于我們的數(shù)據(jù)存在著很大的差異,很多時(shí)候我們的訓(xùn)練數(shù)據(jù)是非常不足的,但是像是神經(jīng)網(wǎng)絡(luò)這種算法往往需要非常大量的訓(xùn)練數(shù)據(jù),如果訓(xùn)練數(shù)據(jù)不足的話,很容易造成網(wǎng)絡(luò)的過(guò)擬合。這樣模型的泛化誤差就會(huì)非常的大,得不到良好的分類效果。因此我們需要對(duì)圖像進(jìn)行一些隨機(jī)裁剪,隨機(jī)翻轉(zhuǎn),旋轉(zhuǎn)隨機(jī)角度等操作,增加數(shù)據(jù)的復(fù)雜性,提高模型的泛化能力。

      構(gòu)建分類模型:首先需要一個(gè)類別屬性值已知的數(shù)據(jù)集作為訓(xùn)練集,經(jīng)過(guò)特征提取和離散化后,進(jìn)行訓(xùn)練樣本集的監(jiān)督學(xué)習(xí),去建立一個(gè)分類模型。最后我們的分類模型一般是以規(guī)則,決策樹或者數(shù)學(xué)公式的形式給出。

      模型預(yù)測(cè):首先運(yùn)用“測(cè)試集”對(duì)分類模型進(jìn)行評(píng)估,若模型預(yù)測(cè)的準(zhǔn)確性足夠高,就可以用該模型對(duì)未知類別屬性值的圖像進(jìn)行分類預(yù)測(cè)

      3.圖像分類方法

      3.1 支持向量機(jī)

      SVM自從提出后,雖然有非常多的不同版本,但是在神經(jīng)網(wǎng)絡(luò)大規(guī)模應(yīng)用之前,一直是效果最好的圖像分類方法之一。

      SVM是針對(duì)線性可分的問(wèn)題提出的一種分類算法,首先模型需要保證支持向量與分類標(biāo)準(zhǔn)之間的最大間隔,即在保證所有的樣本都被分類正確的前提下,滿足兩類之間的分類間隔最大。對(duì)于圖像分類來(lái)說(shuō),我們將圖像的每一個(gè)像素點(diǎn)都當(dāng)做是圖像的一個(gè)屬性,在SVM中我們將一幅圖像展開成一個(gè)向量作為模型的輸入,如果圖像是32*32個(gè)像素點(diǎn)的灰度值的話,那么我們的輸入向量的大小就是1024*1大小的矩陣。因此有時(shí)候有很多屬性是與我們的預(yù)測(cè)結(jié)果無(wú)關(guān)的,所以我們?nèi)绻枰@得良好的預(yù)測(cè)結(jié)果的話,我們有時(shí)候需要使用主成分分析法首先對(duì)圖像進(jìn)行降維,去掉一些無(wú)關(guān)的屬性,加快訓(xùn)練速度。然后網(wǎng)絡(luò)會(huì)根據(jù)一些支持向量去選擇分類標(biāo)準(zhǔn)。

      另外對(duì)于一些線性不可分的數(shù)據(jù),可以使用核函數(shù)來(lái)進(jìn)行分類,本文不再詳細(xì)的描述。

      3.2 神經(jīng)網(wǎng)絡(luò)分類

      3.2.1 卷積神經(jīng)網(wǎng)絡(luò)介紹

      傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)于圖像分類來(lái)說(shuō),雖然已經(jīng)取得了非常好的效果。但是隨著時(shí)代的進(jìn)步,我們發(fā)現(xiàn),很多優(yōu)秀的發(fā)明都參考了生物界的機(jī)理,比如飛機(jī)的外形很像鳥一樣。神經(jīng)網(wǎng)絡(luò)也是這樣,參考了人類大腦的構(gòu)成。從上世紀(jì)六十年代開始,以Hubel為代表的一些科學(xué)家通過(guò)對(duì)貓的大腦皮層研究發(fā)現(xiàn),生物的視覺(jué)系統(tǒng)是通過(guò)一系列的神經(jīng)元來(lái)逐層的傳遞信息,并進(jìn)一步的對(duì)視覺(jué)信息進(jìn)行處理,最終形成了我們所能夠感知到的信息。

      我們現(xiàn)在所接觸到的神經(jīng)網(wǎng)絡(luò)算法正是根據(jù)這樣一種機(jī)理,來(lái)一層一層的迭代,不斷地更新信息,最終形成我們所接受到的信息。

      3.2.2 MNIST數(shù)據(jù)集以及LeNet-5

      MNIST數(shù)據(jù)集是Yann LeCun等人建立起來(lái)的一個(gè)手寫數(shù)字的識(shí)別數(shù)據(jù)庫(kù),近些年來(lái)在這個(gè)數(shù)據(jù)庫(kù)上很多人取得了很多不錯(cuò)的成果。這個(gè)數(shù)據(jù)主要包括60000個(gè)訓(xùn)練數(shù)據(jù)以及10000個(gè)測(cè)試數(shù)據(jù),這些數(shù)據(jù)都是手寫數(shù)字,并且標(biāo)記好了類別。這些數(shù)據(jù)都是已經(jīng)做出預(yù)處理的數(shù)據(jù),然后處理成了相同的大小,并且數(shù)字都在圖片的中間位置。

      Yann LeCun首次使用反向傳播算法對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代,構(gòu)建了LeNet-5模型,并且在MNIST數(shù)據(jù)集上獲得了不錯(cuò)的效果。LeNet-5是第一個(gè)卷積神經(jīng)網(wǎng)絡(luò),與以前的神經(jīng)網(wǎng)絡(luò)不通,卷積神經(jīng)網(wǎng)絡(luò)更多的利用空間信息來(lái)提取特征,可以更加有效的提取圖像的邊緣特征,但是由于卷積神經(jīng)網(wǎng)絡(luò)需要非常大的計(jì)算量,因此之前一直受到計(jì)算資源的限制,沒(méi)有大規(guī)模應(yīng)用起來(lái)。LeNet-5使用梯度下降算法計(jì)算卷積,加快了計(jì)算的速度。

      由于LeNet-5的測(cè)試數(shù)據(jù)集為MNIST,因此原始網(wǎng)絡(luò)的輸入為32*32大小的圖像,然后是6個(gè)5*5的卷積核,然后是一個(gè)池化層,后面是16個(gè)5*5的卷積核,跟一個(gè)池化層,最后是三個(gè)全連接層,負(fù)責(zé)將之前卷積層提取出來(lái)的特征組合成一維的新的特征,最后根據(jù)這些特征來(lái)進(jìn)行預(yù)測(cè)。網(wǎng)絡(luò)結(jié)構(gòu)如圖所示:

      4.評(píng)估方法

      在圖像分類的問(wèn)題中,我們?cè)谧詈箢A(yù)測(cè)圖像是屬于哪一類的時(shí)候,通常使用one-hot編碼來(lái)實(shí)現(xiàn),尤其是在神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的最后一層通常表示著模型的輸出層,加入我們有十個(gè)類別,那么最后一層就有十個(gè)輸出,每一個(gè)輸出分別代表著屬于每一類的概率,為0-1之間的值。因此對(duì)于一個(gè)十分類的問(wèn)題來(lái)說(shuō),網(wǎng)絡(luò)最后會(huì)得到十個(gè)不同的輸出,每一個(gè)輸出代表著屬于每一類的概率值,最后只要選出最大的一個(gè)值,就是我們所要預(yù)測(cè)的最終結(jié)果。那么如何衡量機(jī)器學(xué)習(xí)方法的好壞就成了我們目前的問(wèn)題。

      4.1 準(zhǔn)確率

      當(dāng)我們獲得了模型最后的輸出后的首要目標(biāo)就是要判斷預(yù)測(cè)的結(jié)果是否是我們預(yù)期的結(jié)果,準(zhǔn)確率便成了一個(gè)最好的選擇。準(zhǔn)確率是指模型預(yù)測(cè)的結(jié)果與真實(shí)結(jié)果的比值,假設(shè)我們的測(cè)試集有100張圖片,最后又97張被分類正確了,那么我們的準(zhǔn)確率就是97%。

      當(dāng)前最為標(biāo)準(zhǔn)的圖像分類的比賽ImageNet采用多個(gè)準(zhǔn)確率的評(píng)估標(biāo)準(zhǔn),如top1和top5,top5是指我們?cè)谧詈蟮念A(yù)測(cè)結(jié)果中選擇最大的5個(gè)概率值與我們真是的類別去比較,如果有一個(gè)被分類正確了,那么我們就認(rèn)為模型的結(jié)果是正確的。這樣的話,就更接近人類去做這樣的事情了,會(huì)降低一些誤判的情況。top1就是選擇最大的那一個(gè)。

      4.2 ROC曲線

      對(duì)于經(jīng)典的二分類問(wèn)題,對(duì)于一張圖像只有被分類為正類和負(fù)類的情況。但是在實(shí)際的分類中可能會(huì)出現(xiàn)四種不同的情況:

      當(dāng)一張圖像本身是正類的時(shí)候,模型也預(yù)測(cè)為正類的時(shí)候,我們稱這種情況為真正率(TP)

      當(dāng)一張圖像本身為正類,但是被預(yù)測(cè)為負(fù)類的時(shí)候,我們稱這種情況為假負(fù)類(FN)

      當(dāng)一張圖像本身是負(fù)類,但是被預(yù)測(cè)正類的時(shí)候,我們稱這種情況為假正類(FP)

      當(dāng)一張圖像本身是負(fù)類的時(shí)候,模型也預(yù)測(cè)為負(fù)類的時(shí)候,我們稱這種情況為真負(fù)類(TN)

      真正類率TPR以如下的方式定義:

      TPR=TP/TP+FN

      代表著模型的預(yù)測(cè)結(jié)果中是真正的正類的概率占所有正類的比例,有的論文中稱之為sensitivity。

      負(fù)正類率FPR以如下的方式定義:

      FPR = FP/ FP + TN

      代表著模型的預(yù)測(cè)結(jié)果中預(yù)測(cè)為正類的負(fù)類的數(shù)量占所有負(fù)類的比例。

      ROC曲線以FPR為橫軸,TPR為縱軸。因此在ROC曲線中,曲線覆蓋的面積越大代表我們的模型越好。

      5.總結(jié)與展望

      如今是信息化的時(shí)代,圖像分類在我們的日常生活中不可缺少,使得機(jī)器學(xué)習(xí)成為現(xiàn)今信息技術(shù)領(lǐng)域中的重要研究方向,機(jī)器學(xué)習(xí)可以幫助人們高效地分類管理圖片,更加方便快捷地獲取圖片信息內(nèi)容,同時(shí)圖像分類還應(yīng)用于目標(biāo)識(shí)別,人臉識(shí)別,圖像檢索等方面,具有相當(dāng)廣泛的研究前景。

      本文主要介紹了圖像分類的背景,意義,當(dāng)前的研究現(xiàn)狀,以及圖像分類的概念和分類方法,從支持向量機(jī),卷積神經(jīng)網(wǎng)絡(luò)等方面總結(jié)了近年來(lái)圖像分類研究的重要方法。

      但是,圖像分類器還存在著很多問(wèn)題,包括:1)目前的圖像分類方法還沒(méi)有完全解決這類問(wèn)題;2)不能很好的可視化圖像中的特征。

      [1]高錦.基于SVM圖像分類[M].2010.

      [2]周俊宇,趙艷明.卷積神經(jīng)網(wǎng)絡(luò)在圖像分類和目標(biāo)檢測(cè)應(yīng)用綜述[J].計(jì)算機(jī)工程與應(yīng)用,2017:34.

      [3]李莉.醫(yī)學(xué)影像數(shù)據(jù)分類方法研究綜述[J].中國(guó)醫(yī)學(xué)物理學(xué)雜志,2011.

      [4]Yann LeCun.Gradient-Based Learning Applied to Document Recognition.

      [5]Alex Krizhevsky.ImageNet Classification with Deep Convolutional Neural Networks.

      [6]Yann LeCun.OverFeat:Integrated Recognition,Localization and Detection using Convolutional Networks.

      [7]Harry Zhang.The Optimality of Naive Bayes.

      虞達(dá)飛(2000—),男,河南鄭州人,現(xiàn)就讀于河南省鄭州中學(xué)高中,研究方向:機(jī)器學(xué)習(xí)。

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)分類
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      分類算一算
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      教你一招:數(shù)的分類
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      光泽县| 西峡县| 屏边| 岚皋县| 西青区| 双辽市| 双牌县| 五家渠市| 皮山县| 溧水县| 洛宁县| 宝兴县| 桑日县| 清河县| 太湖县| 梁山县| 鄢陵县| 孟津县| 南丹县| 三都| 措勤县| 深水埗区| 兴安盟| 清徐县| 南投县| 梁河县| 安多县| 南川市| 当阳市| 武义县| 中阳县| 庆阳市| 大洼县| 沾化县| 洮南市| 昌都县| 米林县| 富宁县| 卢湾区| 格尔木市| 涟源市|