潘琪 尹雄 秦襄培 武勝超 王洪嬌 李俊林
Abstract: In this paper, a classification method based on HOG feature and Support Vector Machine is proposed to replace manual method to detect colloid bubble in the optical fiber connector. Firstly, this method gets the image about colloidal part from video frame by frame, making positive and negative training sample set and test set according to the sample. Then, the appropriate parameters are selected to extract colloid bubble HOG features from training set and test set, and HOG features trained and tested by the Support Vector Machine (SVM) to detect whether there is a bubble. Finally, the classification results of this method are verified by artificial recognition. The results show that this method can effectively classify the samples without bubbles and gain obvious advantages in time and manpower.
引言
近年來(lái),光纖技術(shù)隨著科學(xué)研究的發(fā)展而迅速崛起為現(xiàn)代新興實(shí)用門類之一。光纖活動(dòng)連接器作為光纖技術(shù)中的一個(gè)重要部件,通常要經(jīng)過(guò)裁纜、穿散件、剝纖、注膠、穿纖、加熱、斷纖、組裝、機(jī)磨、檢測(cè)、包裝等一系列加工組裝環(huán)節(jié)。然而,在其注膠和固化的過(guò)程中,會(huì)因?yàn)橐恍┤藶橐蛩貙?dǎo)致光纖活動(dòng)連接器中間的膠體部分產(chǎn)生氣泡,比如人工參與注膠是由于無(wú)法一直保持穩(wěn)定性或者點(diǎn)膠路徑未臻完美而產(chǎn)生氣泡,并且在加熱階段過(guò)后會(huì)使這些膠體氣泡更加明顯。大約100個(gè)產(chǎn)品中會(huì)存在3~5個(gè)帶有膠體氣泡的產(chǎn)品。這種帶有氣泡的光纖活動(dòng)連接器若在惡劣的工作環(huán)境下付諸使用會(huì)導(dǎo)致炸膠現(xiàn)象,會(huì)急劇縮短光纖電子元器件的使用壽命。
現(xiàn)階段,對(duì)于光纖活動(dòng)連接器的膠體部分是否存在氣泡依然處于人工識(shí)別的階段,也就是通過(guò)電子顯微鏡依靠人眼來(lái)檢測(cè)產(chǎn)品是否合格,不僅速度慢、強(qiáng)度大,而且也削弱了所得結(jié)果的客觀性。光纖活動(dòng)連接器及內(nèi)部氣泡的視像效果可如圖1所示。
對(duì)于傳統(tǒng)的圖像處理方法,由于不同樣本的環(huán)境或多或少皆有不同,其二值化過(guò)程中的閾值則將難以選取,不同的產(chǎn)品生成結(jié)果也不盡相同;而對(duì)于神經(jīng)網(wǎng)絡(luò)法,雖然其適應(yīng)性好、抗干擾能力強(qiáng)、準(zhǔn)確率高,但識(shí)別速度較慢,并且在識(shí)別過(guò)程中容易產(chǎn)生過(guò)學(xué)習(xí)[1]。基于此,本文將提出一種基于方向梯度直方圖特征(Histogram of Oriented Gradient,HOG)與支持向量機(jī)(Support Vector Machine,SVM)的方法來(lái)對(duì)存在膠體氣泡的產(chǎn)品進(jìn)行識(shí)別與分類。一方面,這種方法能代替人工做到產(chǎn)品特征的識(shí)別;另一方面,這種方法兼顧訓(xùn)練誤差和泛化能力,在解決小樣本、非線性、高維數(shù)、局部極小值等模式識(shí)別問(wèn)題中具有諸多鮮明的獨(dú)特優(yōu)勢(shì)[。下面將對(duì)此展開(kāi)研究論述。
1方向梯度直方圖特征
方向梯度直方圖特征是一種在圖像處理以及計(jì)算機(jī)視覺(jué)領(lǐng)域中用來(lái)檢測(cè)物體的特征描述符。其主要思想是圖像的局部目標(biāo)的表象和現(xiàn)狀能夠很好地被梯度或方向密度分布來(lái)描述,首先將圖像分成很小的細(xì)胞單元,接著采集每個(gè)細(xì)胞單元中各個(gè)像素點(diǎn)的梯度的或邊緣的方向直方圖,最后將這些直方圖組合起來(lái)便構(gòu)成了HOG特征描述器[3]。在此,給出HOG特征提取算法的流程步驟具體如下。
(1)使用Gamma校正法對(duì)顏色空間歸一化。由于局部的表層曝光在圖像紋理強(qiáng)度中的比重較大,為了能夠減少光照等因素對(duì)圖像的影響,需要將圖像進(jìn)行歸一化處理,通常是先將其轉(zhuǎn)為灰度圖。Gamma壓縮公式為:I(x,y)=I(x,y)gamma(1)其中,I(x,y)表示圖像,gamma表示校正值。
θx,y=arctanGxx,yGyx,y(5)(3)構(gòu)建每個(gè)細(xì)胞單元的梯度方向直方圖。將梯度方向量化成9個(gè)直方圖通道,對(duì)細(xì)胞單元中的每個(gè)像素點(diǎn)都基于這9個(gè)方向的直方圖通道進(jìn)行加權(quán)投票,其中9個(gè)直方圖通道代表9個(gè)不同的梯度方向,而梯度大小則作為投影依次按投影量作為權(quán)值來(lái)疊加到這9個(gè)梯度方向所代表的直方圖上。
(4)將細(xì)胞單元組合成較大的塊,并在塊內(nèi)的梯度直方圖實(shí)現(xiàn)歸一化。考慮到局部光照和前景-背景對(duì)比度的變化,會(huì)使梯度強(qiáng)度的變化范圍趨于寬泛,于是需要對(duì)梯度強(qiáng)度再次調(diào)取歸一化,即對(duì)光照、陰影以及邊緣予以進(jìn)一步壓縮。主要方法就是將若干個(gè)細(xì)胞單元組合成一個(gè)塊,則可以將塊內(nèi)所有的細(xì)胞單元串聯(lián)起來(lái)得到對(duì)應(yīng)塊的HOG特征。但是這些塊是互有重疊的,因此每個(gè)細(xì)胞單元的特征會(huì)以不同的結(jié)果并且多次出現(xiàn)在最后的特征向量中。而這種引入了歸一化處理后的塊描述符則稱為HOG描述符。
(5)收集HOG特征。收集檢測(cè)窗口中所有存在重疊的塊的HOG特征,以供后續(xù)分類研究使用。
2支持向量機(jī)
支持向量機(jī)是Vapnik等人根據(jù)統(tǒng)計(jì)學(xué)理論設(shè)計(jì)提出的一種通用學(xué)習(xí)方法,就是建立在統(tǒng)計(jì)學(xué)的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,能較好地解決小樣本、非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問(wèn)題[5-8]。
對(duì)于線性不可分的問(wèn)題,則需要將非線性問(wèn)題轉(zhuǎn)換為線性問(wèn)題來(lái)求解。此時(shí)便可以利用核函數(shù)把低維輸入空間中的數(shù)據(jù)通過(guò)非線性函數(shù)映射到高維屬性空間,將分類問(wèn)題轉(zhuǎn)化在屬性空間來(lái)延承此后的設(shè)計(jì)與開(kāi)發(fā)[9]。屬性空間中的向量的點(diǎn)積運(yùn)算就與輸入空間中的核函數(shù)對(duì)應(yīng)。其分類函數(shù)將隨即變換為如下形式:f(x)=sgn{∑ni=1a*iyiKxi·x+b*}(7)其中,Kxi·x為核函數(shù)。目前使用的核函數(shù)主要有4種,分別是:線性核函數(shù)、p階多項(xiàng)式核函數(shù)、多層感知器核函數(shù)和RBF核函數(shù)[10]。
一般情況下,SVM分類器的設(shè)計(jì)步驟可概括描述如下。
(1)將讀取的數(shù)據(jù)分為2組,一組作為訓(xùn)練集,一組作為測(cè)試集。其中,訓(xùn)練集再根據(jù)需求分為若干類。
(2)選取適當(dāng)?shù)暮撕瘮?shù),對(duì)訓(xùn)練集樣本的數(shù)據(jù)進(jìn)行SVM訓(xùn)練。
(3)根據(jù)訓(xùn)練的結(jié)果對(duì)測(cè)試集進(jìn)行測(cè)試,從而得出測(cè)試集的分類結(jié)果。
3實(shí)驗(yàn)分析
本次研究是基于Matlab開(kāi)發(fā)環(huán)境,選擇樣本為采用353ND膠水進(jìn)行注膠的光纖活動(dòng)連接器。其中,353ND膠水是按一定比例調(diào)制混合,在80 ℃溫度下經(jīng)過(guò)15 min確保達(dá)到固化。
3.1實(shí)驗(yàn)設(shè)計(jì)
(1)使用電子顯微鏡對(duì)樣品采集一段視頻,而后利用Matlab將該視頻逐幀提取,擷取其中存在氣泡的50幀圖片作為正樣本訓(xùn)練集,記為pos,再取其中不存在氣泡的50幀圖片作為負(fù)樣本訓(xùn)練集,記為neg。訓(xùn)練集取樣結(jié)果即如圖2所示。接著從該視頻中再取其它的50幀圖片作為測(cè)試集,用于此后的訓(xùn)練結(jié)果驗(yàn)證。
(2)對(duì)所有的圖片進(jìn)行預(yù)處理,將其圖像大小歸為統(tǒng)一。然后利用Matlab的extractHOGFeatures函數(shù)來(lái)提取每張圖片的HOG特征。該函數(shù)中,參數(shù)cellsize取[8 8],blocksize取[2 2],numbins取9,即定義8*8個(gè)像素為一個(gè)細(xì)胞單元,2*2個(gè)細(xì)胞單元作為一個(gè)塊,直方圖通道為9。研究得到樣本中的HOG特征描繪可如圖3所示。
(3)使用Matlab中的fitcecoc函數(shù)對(duì)正、負(fù)樣本圖片的HOG特征進(jìn)行SVM分類訓(xùn)練,且采用Gaussian RBF函數(shù)作為核函數(shù)。
(4)使用Matlab中的predict函數(shù)對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)分類。分類結(jié)果展示可詳見(jiàn)圖4。
3.2實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證本文方法的有效性,將以人工識(shí)別作為標(biāo)準(zhǔn),與這50個(gè)測(cè)試樣本的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。研究?jī)?nèi)容可表述如下。
(1)人工識(shí)別與SVM分類器正確率對(duì)比。對(duì)比結(jié)果可見(jiàn)表1。
由表1實(shí)驗(yàn)數(shù)據(jù)分析指出,在50個(gè)小樣本測(cè)試過(guò)程中,HOG特征與SVM結(jié)合的分類器在正樣本識(shí)別正確率、負(fù)樣本識(shí)別正確率、總識(shí)別正確率上均超過(guò)了90%。證明本文方法在一定誤差范圍允許的情況下的可行性。
(2)人工識(shí)別與SVM分類器時(shí)間對(duì)比。對(duì)比結(jié)果可見(jiàn)表2。
由表2實(shí)驗(yàn)數(shù)據(jù)分析指出,對(duì)于50個(gè)小樣本測(cè)試,人工識(shí)別因人而異,需要5~8 min;而在本次實(shí)驗(yàn)Intel G1620 2.70 GHz處理器上使用Matlab訓(xùn)練和測(cè)試SVM分類器總共只需要14.466 2 s。證明本文方法在時(shí)間上明顯優(yōu)于人工識(shí)別。
4結(jié)束語(yǔ)
針對(duì)光纖連接器在生產(chǎn)過(guò)程中膠體會(huì)存在氣泡的現(xiàn)象,本文探討提出了一種基于HOG特征與SVM的分類方法,用以替代目前人工檢測(cè)膠體中是否存在氣泡的常規(guī)手段。該方法首先創(chuàng)建了訓(xùn)練集和測(cè)試集,然后根據(jù)氣泡的特征,選取了適當(dāng)?shù)膮?shù)來(lái)提取膠體中氣泡的HOG特征,并利用支持向量機(jī)來(lái)訓(xùn)練和測(cè)試氣泡的HOG特征,最后能夠通過(guò)計(jì)算機(jī)來(lái)運(yùn)行識(shí)別膠體中是否存在氣泡。相比較人工識(shí)別而言,驗(yàn)證了本文的方法的可行性,并在時(shí)間、人力上,取得明顯的優(yōu)勢(shì)。
參考文獻(xiàn)
[1] 薛丹,孫萬(wàn)蓉,李京京,等. 一種基于SVM的改進(jìn)車牌識(shí)別算法[J]. 電子科技,2013,26(11):22-25.
[ 田有文,李天來(lái),李成華,等. 基于支持向量機(jī)的葡萄病害圖像識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2007,23(6):175-180.
[3] KAPOOR R, GUPTA R, SON L H, et al. Detection of power quality event using histogram of oriented gradients and Support Vector Machine[J]. Measurement,2018(120):52-75.
[4] 徐淵,許曉亮,李才年,等. 結(jié)合SVM分類器與HOG特征提取的行人檢測(cè)[J]. 計(jì)算機(jī)工程,2016,42(1)56-60,65.
[5] VAPNIK V N .The nature of statistical learning theory[M]. New York: Springer-Verlag Inc,2000 .
[6] 楊淑瑩. 模式識(shí)別與智能計(jì)算—Matlab技術(shù)實(shí)現(xiàn)[M]. 北京:電子工業(yè)出版社,2008.
[7] 郭明瑋,趙宇宙,項(xiàng)俊平,等. 基于支持向量機(jī)的目標(biāo)檢測(cè)算法綜述[J]. 控制與決策,2014,29(2):193-200.
[8] 汪海燕,黎建輝,楊風(fēng)雷. 支持向量機(jī)理論及算法研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2014,31(5):1281-1286.
[9] 汪永濤. 利用SVM的聚類算法在時(shí)間序列信號(hào)識(shí)別中的應(yīng)用[J]. 微電子學(xué)與計(jì)算機(jī),2012,29(3):182-184.
[10]許國(guó)根,賈瑛. 模式識(shí)別與智能計(jì)算的MATLAB實(shí)現(xiàn)[M]. 北京:北京航空航天大學(xué)出版社,2012.(上接第20頁(yè))
[6] NANDI A, MANDAL A, ATREJA S, et al. Anomaly detection using program control flow graph mining from execution logs[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA:ACM, 2016:215-224.
[7] SAHOO R K, OLINER A J, RISH I, et al. Critical event prediction for proactive management in large-scale computer clusters[C]// Proceedings of the ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington, DC, USA:ACM, 2003:426-435.
[8] TINGSANCHALI T, GAUTAM M R. Application of tank, NAM, ARMA and neural network models to flood forecasting[J]. Hydrological Processes, 2015, 14(14):2473-2487.
[9] WATANABE Y, MATSUMOTO Y. Online failure prediction in cloud data centers[J]. Fujitsu Scientific & Technical Journal, 2014, 50(1):66-71.
[10]FRONZA I, SILLITTI A, SUCCI G, et al. Failure prediction based on log files using random indexing and Support Vector Machines[J]. Journal of Systems and Software, 2013, 86(1):2-11.
[11]KEERTHI S S, SHEVADE S K, BHATTACHARYYA C, et al. Improvements to Platt's SMO algorithm for SVM classifier design[J]. Neural Computation, 2001, 13(3):637-649.
[12]LEVENSHTEIN V I. Binary codes capable of correcting deletions, insertions and reversals[J]. Soviet Physics Doklady, 1966, 10(1):707-710.
[13]OKUDA T, TANAKA E, KASAI T. A method for the correction of Garbled words based on the Levenshtein Metric[J]. IEEE Transactions on Computers, 1976, C-25(2):172-178.
[14]MAKANJU A A O, ZINCIR-HEYWOOD A N, MILIOS E E. Clustering event logs using iterative partitioning[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Paris, France:ACM, 2009:1255-1264.
[15]VAARANDI R. A data clustering algorithm for mining patterns from event logs[C]// 3rd IEEE Workshop on Ip Operations & Management. Kansas City, MO, USA:IEEE, 2003:119-126.
[16]AIZAWA A. An information-theoretic perspective of tf-idf measures[J]. Information Processing & Management, 2003, 39(1):45-65.
[17]ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark: Cluster computing with working sets[C]// HotCloud'10 Proceedings of the 2nd USENIX conference on Hot topics in cloud computing. Boston, MA:ACM, 2010:10.
[18]HARRELL F E. Regression modeling strategies: with applications to linear models, logistic regression, and survival analysis[M]. New York:Springer-Verlag, 2001.
[19]LIAW A, WIENER M. Classification and regression by Random Forest[J]. R news, 2002, 2(3): 18-22.