胡峻峰 曹軍 趙亞鳳
(東北林業(yè)大學(xué),哈爾濱,150040)
責(zé)任編輯:張 玉。
機(jī)器視覺(jué),由于其具有無(wú)損、快速、準(zhǔn)確等優(yōu)點(diǎn),在木材檢測(cè)領(lǐng)域得到了廣泛應(yīng)用,在原木檢尺、木材缺陷分析、鋸材外觀分等、木材顏色分析及評(píng)定、木材特征分析、樹(shù)種識(shí)別、木材紋理特征分析、木材微觀特征分析中取得了大量成果[1],為木材加工自動(dòng)化提供了技術(shù)手段。在木材表面缺陷識(shí)別方面,近十幾年中,國(guó)外研究者提出了很多有效的紋理和缺陷特征描述子,并結(jié)合非監(jiān)督的聚類防火或者監(jiān)督學(xué)習(xí)的支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等,實(shí)現(xiàn)了木材表面缺陷識(shí)別、木材紋理分類[2-11]。
隨機(jī)森林(Random Forests,RF)算法,是一種較新的模型預(yù)測(cè)和分類算法,相對(duì)于其他分類算法而言,隨機(jī)森林有著更快的計(jì)算速度、更強(qiáng)的抗噪聲能力,并能自然處理多分類問(wèn)題,能自然避免過(guò)擬合。從算法提出至今,在生物學(xué)、醫(yī)學(xué)和經(jīng)濟(jì)學(xué)等多領(lǐng)域,特別是交叉領(lǐng)域得到了廣泛的應(yīng)用。由于隨機(jī)森林算法有非常快的運(yùn)算速度,在分類問(wèn)題上表現(xiàn)優(yōu)異,為此,本文嘗試?yán)秒S機(jī)森林算法,進(jìn)行木材表面圖像的分類。以實(shí)木地板缺陷為研究對(duì)象,結(jié)合缺陷特征,對(duì)分割后的實(shí)木地板缺陷圖像進(jìn)行快速分類,旨在保證在線分選的實(shí)時(shí)性。
與其他學(xué)習(xí)分類算法一樣,隨機(jī)森林算法有模型建立和預(yù)測(cè)2 個(gè)步驟。模型建立過(guò)程即訓(xùn)練過(guò)程,利用決策樹(shù)對(duì)模型進(jìn)行訓(xùn)練。在隨機(jī)森林中有很多的決策樹(shù),并且每一棵決策樹(shù)之間沒(méi)有關(guān)聯(lián);根據(jù)輸入的特征信息和人工專家分類標(biāo)簽,建立隨機(jī)森林模型,構(gòu)建森林的過(guò)程為訓(xùn)練過(guò)程。在線分等過(guò)程中,攝像頭采集實(shí)木地板表面圖像,提取特征,作為隨機(jī)森林模型的輸入,讓每一棵決策樹(shù)并行判斷該樣本屬于哪一類,再根據(jù)決策樹(shù)投票數(shù)量預(yù)測(cè)輸入樣本最終歸為哪一類。
隨機(jī)森林是基于Bootstrap 方法的重采樣,產(chǎn)生多個(gè)訓(xùn)練集。設(shè)樣本的屬性個(gè)數(shù)為M,m 是滿足條件0<m<M 的整數(shù),隨機(jī)森林算法的實(shí)現(xiàn)可分為6 步:
(1)選用Bootstrap 方法對(duì)樣本進(jìn)行重采樣,隨機(jī)生成T 個(gè)訓(xùn)練子集(S1,S2,…,ST),對(duì)于給定的1個(gè)訓(xùn)練樣本,通過(guò)n 次隨機(jī)的可重復(fù)的采樣,從數(shù)據(jù)(x1,y1)…(xn,yn)出發(fā),構(gòu)建一個(gè)Bootstrap 樣本(x1*,y*1)…(x*n,y*n)。
(2)利用每個(gè)訓(xùn)練集進(jìn)行訓(xùn)練,生成對(duì)應(yīng)的決策樹(shù)(C1,C2,…,CT);逐個(gè)在決策樹(shù)的中間節(jié)點(diǎn)選擇屬性,從M 個(gè)屬性中隨機(jī)選取m 個(gè)屬性,構(gòu)成當(dāng)前選擇節(jié)點(diǎn)的分裂屬性集;并且在這m 個(gè)屬性中選取最好的分裂方式,對(duì)選定節(jié)點(diǎn)隨機(jī)分裂;在整個(gè)森林構(gòu)建過(guò)程中,保持m 的值始終不變。
(3)每棵決策樹(shù)都充分生長(zhǎng),不進(jìn)行剪枝處理。
(4)利用對(duì)應(yīng)的決策樹(shù)對(duì)輸入的測(cè)試樣本(X)進(jìn)行分析預(yù)測(cè),得到對(duì)應(yīng)的類別C1(X),C2(X),…,CT(X)。
(5)采用投票的方法,計(jì)算所有的投票數(shù);在T個(gè)決策樹(shù)中輸出最多的類,為測(cè)試集樣本(X)最終所屬類別。
高中階段是學(xué)生最為關(guān)鍵的發(fā)展階段和學(xué)習(xí)階段,所以在進(jìn)行課程教學(xué)方法應(yīng)用的過(guò)程中,廣大教師更需要根據(jù)學(xué)生的實(shí)際情況,結(jié)合其身心特點(diǎn),制訂良好的培養(yǎng)和教育方案。學(xué)科培養(yǎng)的本質(zhì)就是學(xué)科素養(yǎng),這一工作在高中歷史課程教學(xué)中同樣占據(jù)著十分重要的位置,能良好地促進(jìn)學(xué)生全面開(kāi)展歷史學(xué)科的學(xué)習(xí)。歷史素養(yǎng)的主要組成環(huán)節(jié)有知識(shí)、能力、正確的價(jià)值觀、歷史意識(shí)等。課標(biāo)指出:普通高中在進(jìn)行歷史課程教學(xué)中要將歷史唯物主義作為指導(dǎo)思想,使學(xué)生逐漸掌握人類歷史的發(fā)展情況,對(duì)學(xué)生的人文素養(yǎng)進(jìn)行培養(yǎng),從而促進(jìn)學(xué)生得到更有效的發(fā)展。因此,在當(dāng)前教育背景下,教師如何對(duì)學(xué)生進(jìn)行歷史素養(yǎng)培養(yǎng)就是當(dāng)前最為關(guān)鍵的問(wèn)題。
(6)與測(cè)試集的分類標(biāo)簽比較,計(jì)算隨機(jī)森林正確分類的比例。
圖像的特征可用很多方式描述,其中顏色特征、紋理特征、形狀特征、空間關(guān)系特征,是常用的4 種[14]。本文對(duì)分割后的缺陷圖像,提取顏色特征、形狀特征、Tamura 紋理特征、灰度共生矩陣4類特征。
為了避免不同的光照條件、材質(zhì)顏色不同,對(duì)顏色分量產(chǎn)生的影響,將Lab 顏色空間的3 個(gè)分量(L、a、b)均勻劃分,設(shè)Lab 三維顏色空間的L、a、b 分量中都有20 個(gè)bin,在顏色空間范圍內(nèi)做平均。將統(tǒng)計(jì)的直方圖歸一化,用L、a、b 各分量中計(jì)算子色彩bin 在每個(gè)分量上的密度(即不同缺陷特征中,各個(gè)bin 的像素占該子區(qū)域總像素?cái)?shù)的百分比),衡量它在顏色上的分布特征。本文利用平均強(qiáng)度作為特征,用公式(1)計(jì)算。
式中:Li、ai、bi為L(zhǎng)、a、b 各分量中第i 個(gè)bin 的像素點(diǎn)數(shù)。對(duì)于活節(jié)、死節(jié)、蟲(chóng)眼,其歸一化顏色集分布如圖1所示。可見(jiàn),3 類不同缺陷顏色直方圖,在特征分布形狀和數(shù)值上都有較大差別,可以用來(lái)進(jìn)行缺陷類別的區(qū)分。根據(jù)缺陷大小不同,其提取時(shí)間會(huì)有差別。在配置Intel 酷睿處理器、主頻2.2 GHz、內(nèi)存2.0 GB 的PC 機(jī)上,基于Matlab2013b 平臺(tái)(以后的其他操作均基于該配置和平臺(tái)),提取時(shí)間小于0.15 s。
圖1 不同缺陷的顏色直方圖
實(shí)木地板表面缺陷提取周長(zhǎng)、面積、外接矩形長(zhǎng)寬比、矩形度、致密度、位置、圓形性,共7 個(gè)參數(shù)描述其形狀特征。周長(zhǎng)、面積為分割后缺陷的邊緣周長(zhǎng)和面積;外接矩形長(zhǎng)寬比描述缺陷形狀特征,長(zhǎng)寬比越大,表現(xiàn)為越細(xì)長(zhǎng);矩形度指的是目標(biāo)的面積與其最小外接矩形的面積之比,反映了目標(biāo)對(duì)其外接矩形的填充程度;致密度為周長(zhǎng)的平方與面積的比值,致密度大是單位面積的周長(zhǎng)大,意味著區(qū)域離散,形狀相對(duì)復(fù)雜,反之則為簡(jiǎn)單形狀;位置可以通過(guò)目標(biāo)區(qū)域的面積中心表示,目標(biāo)區(qū)域的質(zhì)心為該區(qū)域面積中心;圓形性通過(guò)缺陷區(qū)域的邊界點(diǎn)表示,為目標(biāo)缺陷所有邊界距重心之間距離的平均值與距離均方差的比值,當(dāng)區(qū)域形狀趨向于圓形變化時(shí),始終單調(diào)遞增并趨向于無(wú)窮大。
外接矩形用最小外接矩形的做法,在90°范圍內(nèi)將缺陷特征邊界以每次3°左右的增量旋轉(zhuǎn),記錄每次旋轉(zhuǎn)所得到的缺陷外接矩形邊界點(diǎn)的坐標(biāo)的最大值和最小值。旋轉(zhuǎn)到某一個(gè)角度后,外接矩形的面積達(dá)到最小,取面積最小的外接矩形為需要的外接矩形。
根據(jù)以上的形狀特征,對(duì)樣本庫(kù)中每種缺陷取200 幅圖像(見(jiàn)表1)。
表1 缺陷形狀特征
已經(jīng)分割出來(lái)缺陷的圖像,要得到以上特征參數(shù),主要有周長(zhǎng)、面積統(tǒng)計(jì);最小外接矩行長(zhǎng)寬、圓形性計(jì)算。統(tǒng)計(jì)以上特征的平均時(shí)間,計(jì)算周長(zhǎng)、面積用時(shí)0.161 4 s,最小外接矩陣計(jì)算用時(shí)0.183 0 s,圓形性計(jì)算用時(shí)1.229 s。
Tamura 紋理是基于人類的主觀對(duì)圖形的認(rèn)知,提出了6 類紋理特征的基本組成元素,包括:粗糙度、對(duì)比度、方向度、線性度、規(guī)整度、粗略度;在6 種特征中,粗糙度、對(duì)比度、方向度能夠最直觀的體現(xiàn)圖像中的紋理特征。這幾種紋理特征恰好符合人類視覺(jué)對(duì)目標(biāo)的感知,已經(jīng)被廣泛的應(yīng)用在各種圖像信息檢索系統(tǒng)中。
在Matlab2013b 環(huán)境下,本文提取Tamura 紋理常用的5 個(gè)參數(shù),有粗糙度、對(duì)比度、方向度、線性度、粗略度。根據(jù)Tamura 紋理的參數(shù),對(duì)選出的每種缺陷200 幅圖像進(jìn)行計(jì)算,得到3 類缺陷的參數(shù)和相應(yīng)的用時(shí)(見(jiàn)表2)。
表2 3 種缺陷部分樣本Tamura 紋理特征
灰度共生矩陣通過(guò)計(jì)算灰度圖像得到它的共生矩陣,然后計(jì)算共生矩陣得到矩陣的部分特征值,分別代表圖像的某些紋理特征。為了能更直觀地用共生矩陣描述紋理狀況,從共生矩陣可以導(dǎo)出能量、對(duì)比度、逆差距、熵、自相關(guān)5 種典型的參數(shù)。能量是灰度共生矩陣元素值的平方和,反映了圖像灰度分布均勻程度和紋理粗細(xì)度;對(duì)比度反映了圖像的清晰度和紋理溝紋深淺的程度,紋理溝紋越深,其對(duì)比度越大,視覺(jué)效果越清晰;逆差距反映圖像紋理的同質(zhì)性,度量圖像紋理局部變化的多少,其值大則說(shuō)明圖像紋理的不同區(qū)域間缺少變化,局部非常均勻;熵是圖像所具有的信息量的度量,表示了圖像中紋理的非均勻程度或復(fù)雜程度;自相關(guān)度量空間灰度共生矩陣元素在行或列方向上的相似程度,反映了圖像中局部灰度相關(guān)性,當(dāng)矩陣元素值均勻相等時(shí),相關(guān)值大,反之則小。根據(jù)以上特征參數(shù),對(duì)選出的每類200 幅圖像進(jìn)行計(jì)算,得到3 類缺陷的參數(shù)和相應(yīng)的用時(shí)(見(jiàn)表3)。
表3 缺陷灰度共生矩陣參數(shù)
前面對(duì)缺陷在顏色、形狀和紋理3 類的不同缺陷特征做了計(jì)算,但缺陷對(duì)最后分類結(jié)果的重要性如何尚不清楚??梢钥隙ǖ氖牵煌娜毕萏卣鲗?duì)最終的分類結(jié)果有不同的貢獻(xiàn);為了選取最合適的缺陷,需要對(duì)特征進(jìn)行篩選。特征重要性檢測(cè)中,可以選用方差作為依據(jù)。不同特征類別的方差是不同的。不同缺陷類別的方差越大,說(shuō)明其相應(yīng)特征值的離散程度越大,與其他特征值相比含有更多的信息;而在同種缺陷之間的特征值方差越小,說(shuō)明其表征歸屬于同一類的可能越大;一個(gè)好的缺陷特征,需要有大的類外方差和小的類間方差。
基于以上思想,筆者利用隨機(jī)森林對(duì)缺陷重要性進(jìn)行分析。在隨機(jī)森林中,利用OOB(袋外數(shù)據(jù))的值計(jì)算特征重要性,步驟如下:
(1)對(duì)隨機(jī)森林中的每一個(gè)決策樹(shù),根據(jù)這棵樹(shù)的袋外數(shù)據(jù)計(jì)算其相應(yīng)的OOB 誤差,記為EOOB1。
(2)對(duì)袋外數(shù)據(jù)的所有樣本特征X 中隨機(jī)加入噪聲干擾,再次計(jì)算樣本特征的OOB 誤差,記為EOOB2。
(3)隨機(jī)森林中設(shè)定決策樹(shù)數(shù)量為N,特征X的重要性VI可由式(2)計(jì)算。
該重要性參數(shù)可以描述為:若某個(gè)特征加入隨機(jī)噪聲后,OOB 的值大幅降低,誤差減小明顯,說(shuō)明該特征對(duì)樣本分類有很大影響;換言之,其重要性很高。
由于顏色特征有60 維,維數(shù)較多,在比較重要性時(shí),取平均值作為一個(gè)重要度;另外,還有形狀特征、Tamura 紋理特征、灰度共生矩陣3 類特征共18維。按照重要性計(jì)算公式,對(duì)78 維特征計(jì)算重要性,并將顏色特征的60 維特征從3 個(gè)顏色分量取平均,比較了21 個(gè)特征重要性(見(jiàn)表4)。
表4 特征重要性與提取時(shí)間
由表4可見(jiàn):形狀特征的重要性較低,紋理特征和顏色特征重要性較高。本文中由于在線分選的需要,特征提取時(shí)間是另外一個(gè)非常重要的參數(shù),本文的特征分析還要考慮特征提取時(shí)間。根據(jù)上述的分析過(guò)程和平均提取時(shí)間,最終獲得各類相關(guān)特征的重要性及提取時(shí)間。顏色直方圖在時(shí)間性能上最優(yōu),重要性居中;形狀特征在重要性上表現(xiàn)最差,圓形度的提取也很大;Tamura 紋理在性能上最優(yōu),特征提取用時(shí)居中;灰度共生矩陣整體性能居中,時(shí)間性能上最差。從整體性能上比較,Tamura 紋理和顏色直方圖是最優(yōu)的兩組參數(shù)。
實(shí)驗(yàn)采用的樣本是從現(xiàn)場(chǎng)隨機(jī)選取的真實(shí)測(cè)試樣例。根據(jù)常見(jiàn)的3 類缺陷,每類選取200 個(gè)樣本,隨機(jī)選取每類缺陷圖像的100 個(gè)作為訓(xùn)練樣本,100個(gè)作為測(cè)試樣本。利用經(jīng)典隨機(jī)森林,決策樹(shù)規(guī)模為500,隨機(jī)輸入個(gè)數(shù)為特征值個(gè)數(shù)的開(kāi)方,對(duì)4 種不同的特征單獨(dú)輸入或者組合輸入,實(shí)驗(yàn)50 次,其分類誤差表現(xiàn)見(jiàn)圖2。
圖2 不同參數(shù)對(duì)應(yīng)分類結(jié)果
由圖2可見(jiàn):單獨(dú)利用Tamura 紋理特征和顏色直方圖進(jìn)行分類,結(jié)果比較穩(wěn)定,正確率達(dá)到90%左右,利用灰度共生矩陣,Tamura 紋理特征和形狀特征共18 維特征作為輸入,其分類誤差大部分時(shí)候大于Tamura 紋理特征對(duì)應(yīng)的分類誤差。在多類特征組合分類實(shí)驗(yàn)后發(fā)現(xiàn),選擇Tamura 紋理特征和顏色直方圖組合能取得最高的分類精度。筆者在Tamura 紋理特征或顏色直方圖中各取單維特征,設(shè)置100 棵樹(shù)進(jìn)行分類,實(shí)驗(yàn)50 次求平均后取整,其混淆矩陣見(jiàn)表5。
表5 混淆矩陣
由表5可見(jiàn):C2類、C3類圖像混淆的概率遠(yuǎn)大于C1類圖像。是由于死節(jié)和蟲(chóng)眼在顏色特征和紋理特征上較活節(jié)有較強(qiáng)的相似性,如何提取更加有效的特征區(qū)分死節(jié)和蟲(chóng)眼,是值得進(jìn)一步研究的問(wèn)題。
本文從顏色、形狀、紋理3 類特征中提取出缺陷圖像特征。顏色特征選用顏色集直方圖;形狀特征主要基于最小外接矩陣,提取周長(zhǎng)、面積、位置、矩陣、圓形相關(guān)的形狀參數(shù);紋理特征選取灰度共生矩陣、Tamura 紋理參數(shù)。對(duì)這些特征參數(shù),根據(jù)時(shí)間和重要度參數(shù),選取Tamura 紋理和形狀特征作為隨機(jī)森林分類器的輸入,其分類精度能達(dá)到95.67%,時(shí)間上也能達(dá)到最優(yōu),為木材表面缺陷在線分類提供了有益的參考。
[1] 顏志強(qiáng),曾欽志,張巧玲.機(jī)器視覺(jué)技術(shù)在木材工業(yè)中的應(yīng)用研究概況[J].木材加工機(jī)械,2013(4):55-59.
[2] Estévez P A,Perez C A,Goles E.Genetic input selection to a neural classifier for defect classification of radiata pine boards[J].Forest Products Journal,2003,53(7/8):87-94.
[3] Silvén O,Niskanen M,Kauppinen H.Wood inspection with nonsupervised clustering[J].Machine Vision and Applications,2003,13(5/6):275-285.
[4] Silvén O,Kauppinen H.Recent developments in wood inspection[J].International Journal of Pattern Recognition and Artificial Intelligence,1996,10(1):83-95.
[5] Gu Yuhua Irene,Andersson Henrik,Vicen Raul.Wood defect classification based on image analysis and support vector machines[J].Wood Science and Technology,2010,44(4):693-704.
[6] Schubert M,Mourad S,Schwarze F W M R.Automated image processing for quantification of blue-stain discolouration of Norway spruce wood[J].Wood Science and Technology,2011,45(2):331-337.
[7] Mosorov V,Tomczak L.Image texture defect detection method using fuzzy C-Means clustering for visual inspection systems[J].Arabian Journal for Science and Engineering,2014,39(4):3013-3022.
[8] 白雪冰,王林.基于空頻變換的木材缺陷圖像分割[J].東北林業(yè)大學(xué)學(xué)報(bào),2010,38(8):71-74.
[9] 徐姍姍,劉應(yīng)安,徐昇.基于卷積神經(jīng)網(wǎng)絡(luò)的木材缺陷識(shí)別[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2013,43(2):23-28.
[10] 謝永華,趙麗花,王金聰.基于顏色和數(shù)學(xué)形態(tài)學(xué)的木材缺陷檢測(cè)研究[J].現(xiàn)代科學(xué)儀器,2013(2):75-77.
[11] 王阿川,曹軍,于琳瑛,等.改進(jìn)C-V 模型的木材缺陷彩色圖像分割研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(5):164-167,206.
[12] 王志瑞,閆彩良.圖像特征提取方法的綜述[J].吉首大學(xué)學(xué)報(bào):自然科學(xué)版,2011,32(5):43-47.