• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      復雜工業(yè)場景目標實時檢測方法

      2019-12-06 08:48:53張洪源張印輝何自芬
      軟件 2019年10期
      關(guān)鍵詞:目標檢測深度學習

      張洪源 張印輝 何自芬

      摘? 要: 針對現(xiàn)代生產(chǎn)中對柔性化和智能化的需求,為了提高智能加工機器人的工作效率和適應(yīng)性,使其能精確快速的識別檢測各類目標,提出了一種基于YOLOv3模型的多尺度視覺檢測方法,該方法可對復雜工業(yè)環(huán)境背景下的常見目標進行實時檢測。該方法檢測的對象為軸承、螺絲刀、齒輪、鉗子、扳手、螺栓、螺帽、墊片、榔頭、銼刀、車刀十一類工件。該方法結(jié)合SPP-Net及ResNet,通過單個卷積神經(jīng)網(wǎng)絡(luò)將分辨率418×418輸入圖像處理為52×52、26×26、13×13三個不同尺度的特征圖分別進行預測,通過NMS算法得到最終結(jié)果。該方法在保證效率與準確率的情況下實現(xiàn)了復雜工業(yè)環(huán)境下的目標檢測,使用的網(wǎng)絡(luò)結(jié)構(gòu)為在YOLOv3的基礎(chǔ)上進行了改進后的CIS-YOLO,在GTX1060上本文使用750張圖片作為測試集,完成測試所用時間為17s,測試速度達到了44FPS,精度達到了91.67%。檢測的精度較YOLOv2增加了1.38%,測試速度提升了15%;較YOLOv3精度增加了2.61%,測試速度提升了39%。實驗結(jié)果證明該方法滿足了高精度實時檢測的要求,該研究可為機器人快速高效率在復雜工業(yè)環(huán)境背景下目標檢測提供依據(jù)。

      關(guān)鍵詞: 目標檢測;殘差網(wǎng)絡(luò);特征金字塔;深度學習

      中圖分類號: TP39? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.10.019

      本文著錄格式:張洪源,張印輝,何自芬. 復雜工業(yè)場景目標實時檢測方法[J]. 軟件,2019,40(10):8388+110

      Real-time Detection Method for Complex Industrial Scene

      ZHANG Hong-yuan, ZHANG Yin-hui*, HE Zi-fen

      (College of Mechanical and Electrical Engineering, Kunming University of Science and Technology, 650500)

      【Abstract】: In order to improve the flexibility and adaptability of intelligent machining robots in order to improve the efficiency and adaptability of intelligent machining robots, it can accurately and quickly identify and detect various targets. This paper proposes a multi-scale visual inspection based on YOLOv3 model. Method, which can detect common targets in the complex industrial environment in real time. The objects detected by the method are bearings, screwdrivers, gears, pliers, wrenches, bolts, nuts, gaskets, boring heads, boring tools, and turning tools. The method combines SPP-Net and ResNet to process the resolution 418×418 input images into 52×52, 26×26, 13×13 three different scale feature maps through a single convolutional neural network, and respectively predict and pass The NMS algorithm gets the final result. The method achieves end-to-end target detection and achieves target detection in complex industrial environments while ensuring efficiency and accuracy. The network structure used in this paper is optimized on the basis of YOLOv3. On the GTX1060, 750 images are used as the test set. The time taken to complete the test is 17s, the test speed reaches 44FPS, and the accuracy reaches 91.67%. The accuracy of detection increased by 1.38% compared with YOLOv2, and the test speed increased by 15%; the accuracy of YOLOv3 increased by 2.61%, and the test speed increased by 39%. The experimental results prove that the network used in this paper has basically met the requirements of high-precision real-time detection. This research can provide a basis for the rapid and high efficiency of robots in the background of complex industrial environment.

      【Key words】: Target detection; Residual network; Feature pyramid; Deep learning

      0? 引言

      深度學習是近年來機器學習領(lǐng)域的一個新的研究方向,其目的在于建立模擬人腦進行分析學習的神經(jīng)網(wǎng)絡(luò)。它模仿人腦的機制來解釋數(shù)據(jù),例如圖像、聲音和文本。由于其在語音、文本、圖像、視頻等諸多方面較傳統(tǒng)方法取得了一定的進展和突破,深度學習已成為目前計算機科學中最引人注目的研究課題。深度學習通過低層的濾波器來獲取圖像的局部特征,利用高層的濾波器將這些局部特征組合成全局特征。整個過程都是通過網(wǎng)絡(luò)訓練來獲得,不需要人工提取、設(shè)計目標特征。在目標識別方面,深度學習主要分為兩種:一種是基于候選區(qū)域的方法,代表性的有R-CNN[1]、SPP[2]、Fast R-CNN[3]、Faster R-CNN[4];一種是基于回歸思想的方法,代表性的有YOLO[5]、SSD[6]、YOLOv2[7]、YOLOv3[8]。在目標目標識別方面,受限于訓練樣本量的缺乏,且智能制造需要在復雜的工況下完成對目標的識別。

      隨著“中國制造2025”戰(zhàn)略口號的提出,機器人在生產(chǎn)制造領(lǐng)域的應(yīng)用越來越廣泛。工業(yè)機器人自身可實現(xiàn)復雜動作的自動化,但難以實現(xiàn)自適應(yīng)作業(yè)的自動化。在裝配、分揀、搬運和碼垛等工業(yè)環(huán)境中,機器人的應(yīng)用大多停留在示教階段,機器人與人、與環(huán)境之間的交互不夠,機器人的感知能

      力較差,這種情況下單一的機器人作業(yè)往往只能應(yīng)對結(jié)構(gòu)化環(huán)境,早已不能滿足現(xiàn)代生產(chǎn)對柔性化和智能化的要求。

      為了彌補該領(lǐng)域的空缺,本文將深度卷積神經(jīng)網(wǎng)絡(luò)算法應(yīng)用到了目標目標識別方面,使得系統(tǒng)能識別常用的幾種目標。在此基礎(chǔ)上對網(wǎng)絡(luò)進行優(yōu)化,使工業(yè)機器人能識別各類常見目標。

      1? YOLO常見目標目標實時檢測模型架構(gòu)

      YOLOv3的網(wǎng)絡(luò)結(jié)構(gòu)融合了殘差網(wǎng)絡(luò)ResNet[9]和特征金字塔FPN[10]的特點。該網(wǎng)絡(luò)的特征提取部分由一系列的1×1和3×3的卷積交替構(gòu)成,通過將尺寸為418×418的輸入圖像處理為大尺度52×52、中尺度26×26、小尺度13×13三種特征圖,在其基礎(chǔ)上進行預測,并使用NMS得到最終預測結(jié)果。在現(xiàn)代工業(yè)應(yīng)用中,很少用到TitanX之類的高端顯卡,而YOLOv3需要TitanX才能以45FPS的速度進行實時檢測,為了使工業(yè)機器人的檢測速度更快,精度更高,減小使用YOLO進行實時檢測的硬件需求,本文首先對YOLOv3的網(wǎng)絡(luò)進行了優(yōu)化,優(yōu)化結(jié)果為圖1所示;由YOLOv3主體結(jié)構(gòu)中的RES模塊數(shù)量從1、2、8、8、4簡化為了1、2、2、4、4,由于該網(wǎng)絡(luò)結(jié)構(gòu)用于檢測常見目標,所以命名為CIS-YOLO。

      1.1? DBL塊及RES塊

      從YOLOv2開始,YOLO就將歸一化、加速收斂和避免過擬合的方法改變?yōu)锽N (batch normalization),將BN層和leaky relu層接到每一層卷積層之后,如圖2所示。使用BN層會對輸入每一層的數(shù)據(jù)進行歸一化處理,防止產(chǎn)生過擬合現(xiàn)象;同時增加訓練時梯度,避免梯度消失產(chǎn)生問題;從而能使用更大的學習率,大幅提高訓練速度。

      殘差網(wǎng)絡(luò)源于ResNet,為了解決網(wǎng)絡(luò)的梯度彌散或者梯度爆炸的現(xiàn)象,提出將深層神經(jīng)網(wǎng)絡(luò)的逐層訓練改為逐階段訓練,將深層神經(jīng)網(wǎng)絡(luò)分為若干個子段,每個小段包含比較淺的網(wǎng)絡(luò)層數(shù),然后用shortcut的連接方式使得每個小段對于殘差進行訓練,每一小段學習總損失的一部分,最終達到總體較小的loss,同時很好的控制梯度的傳播,避免出現(xiàn)梯度消失或者爆炸等不利于訓練的情形。

      1.2? Anchor box機制及損失函數(shù)

      CIS-YOLO首先將圖片縮放到416×416的大小,再將圖像通過神經(jīng)網(wǎng)絡(luò)處理為13×13、26×26、52×52三個不同尺度的特征圖,每個特征圖柵格借助3個錨點框(anchor box)來預測邊界框(bounding box),如圖4所示。

      在CIS-YOLO中,會在每個柵格都會為bounding box預測tx、ty、tw、th四個值。其中,cx、cy為當前柵格相對于左上角的偏移量。σ()函數(shù)為logistic函數(shù),將坐標歸一化到0-1之間,pw、ph為與真實值重合度最大的anchor框的寬和高。根據(jù)下列公式[8]計算得到修正后的預測框中心點坐標和寬高bx、by、bw、bh:

      CIS-YOLO未完全使用YOLOv1的sum-square error方法來計算損失函數(shù),除了w,h的損失仍采用外,其余部分的損失函數(shù)采用二值交叉熵的方法進行計算,最后進行相加。二值交叉熵函數(shù)(binary cross entropy)是針對概率之間的損失函數(shù),只有當真實值和預測值是相等時,bce才為0,否則bce就是為一個正數(shù)。而且真實值和預測值相差越大,bce就越大,如下式所示。

      (5)

      CIS-YOLO的損失函數(shù)一共分為四個部分:

      (1)計算xy損失:

      (6)

      式中xy為物體的中心坐標,c為置信度,wh為anchor長寬回歸值,為xy的二值交叉熵。

      (2)計算wh損失:

      (7)

      式中wh為anchor長寬回歸值,為預測值。

      (3)計算置信度(confidence)損失:

      (8)

      式中為c的二值交叉熵,ignore為iou低于一定閾值的但確實存在的物體。

      (4)類別損失:

      (9)

      式中Class為類概率,為Class的二值交叉熵。

      (5)損失函數(shù)為:

      (10)

      2? 實驗結(jié)果分析

      本文使用的數(shù)據(jù)集為在昆明理工大學實踐工廠采集得到,使用螺栓、螺帽、墊片、齒輪、扳手、螺絲刀、軸承、車刀、錘子、銼刀、鉗子11類目標,在工廠的各類復雜環(huán)境中總共采集到了2550張圖片,隨機使用其中的1800張圖片作為訓練集,將剩余750張圖片作為測試集。

      本次實驗平臺為昆明理工大學機電工程學院所有的工業(yè)機器人,使用神州戰(zhàn)神Z7-KP7S1筆記本,內(nèi)存為16G,處理器為Intel core i7-7700HQ,顯卡為NVIDIA GTX 1066,系統(tǒng)為Windows 10,實現(xiàn)軟件為Microsoft visual studio 2017。

      本文使用AlexeyAB編寫的Windows版本darknet框架進行訓練和測試。在進行網(wǎng)絡(luò)訓練時,CIS-YOLO參數(shù)選取主要包括學習率、沖量常數(shù)和權(quán)值衰減系數(shù)。其中,學習率是保證模型收斂性的參數(shù),選擇一個足夠小的學習率使參數(shù)大致收斂在極值附近,而學習率過大則會導致目標函數(shù)在最低點附近跳躍,本文學習率采用“poly”更新方法,初始學習率0.001,分別在4000次迭代時縮小10倍;沖量常數(shù)旨在提高收斂速率;權(quán)值衰減系數(shù)為損失函數(shù)正則項前的系數(shù),旨在調(diào)節(jié)模型復雜度對損失函數(shù)的影響。為避免因權(quán)值衰減系數(shù)過大而產(chǎn)生的過擬合現(xiàn)象因此神經(jīng)網(wǎng)絡(luò)權(quán)值衰減系數(shù)取0.0005,沖量常數(shù)取0.9。參數(shù)選取如表1所示。

      3? 實驗結(jié)果及分析

      3.1? 評價方法

      本文目標檢測只需要判斷檢測到的目標是否為常見目標,是一個二分類問題,故本文最終檢測目的是:能夠準確檢測到測試集中的所有目標,并避免將其他目標誤檢為目標。為了較為正確地評價本文模型的效果,在此先作 True obj、True no-obj、 False obj三種定義。①True obj:目標為目標,且被系統(tǒng)正確地檢測成了目標;②True no?obj:目標不為目標,且系統(tǒng)沒有將其誤檢測為目標;③False obj:目標不為目標,但被系統(tǒng)錯誤地檢測成了目標(誤檢)。

      在評價過程中本文采用精確度以及完成測試所用時間來評價算法性能的優(yōu)劣。精確度指的是被正確檢測出的目標占檢測出的目標的比例,其計算表達式為

      (11)

      3.2? 優(yōu)化錨點框(anchor box)數(shù)量

      針對不同的數(shù)據(jù)集以及不同的目標大小的特點,為提高檢測精度加快收斂速度,需要對anchor box的大小和數(shù)量進行修改,本文對anchor box的數(shù)量進行了試驗。anchor box的大小可以使用k-means聚類自動生成,錨點框數(shù)量與平均交并比的關(guān)系如圖6所示。本文分別選擇了12個,9個,6個,3個anchor box進行試驗。

      其中anchor box數(shù)量為12時pw和ph的取值為(42.9419,54.4783),(67.7124,97.1179),(140.9809,80.7709),(100.2005,166.5979),(62.0169,349.0203),(330.6580,66.1354),( 229.7484,143.5288),( 151.0698,248.9077),(329.6918,167.6866),(249.8865,238.3569),(182.3382,341.2477),(299.8302,310.4058)。

      anchor box數(shù)量為9時pw和ph的取值為(44.7037,56.5850),(74.0776,111.0861),(155.3219,89.8162),(61.7627,341.1301),(332.3138,71.8921),(149.9393,196.2790),(293.2839,168.3979),(175.7273,326.4161),(275.3814,283.0423)。

      anchor box數(shù)量為6時pw和ph的取值為(49.4186,65.0787),(130.4893,122.7788),(72.6208,323.3942),(327.5999,78.4338),(285.8454,190.8898),(206.5977,306.9375)。

      anchor box數(shù)量為3時pw和ph的取值為

      從上表可以看出,當anchor box數(shù)為9時,精度最高;anchor box數(shù)為12時精度和測試速度略微下降,而在anchor box數(shù)為6和3時,精度大幅下降。因此Toolnet的anchor box最佳數(shù)量為9。同時可以發(fā)現(xiàn)相比直接改變網(wǎng)絡(luò)結(jié)構(gòu)對測試速度的影響,改變anchor box數(shù)量對于測試速度的影響較小但對精度的影響較大。

      3.3? 優(yōu)化錨點框(anchor box)數(shù)量

      CIS-YOLO用于提取特征的最大特征圖尺寸為52×52,對于中等或者較大的常見目標目標,該尺度的感受野較大。因此CIS-YOLO需要在此基礎(chǔ)上進行進一步優(yōu)化,去除不必要的低層語義信息,本文在CIS-YOLO最小特征尺度13×13的基礎(chǔ)上逐步增加26×26,52×52,104×104三個尺度進行測試。

      從表3可以看出,當特征圖數(shù)量為2個時精度最高,較有1個、3個、4個特征圖時,分別提高了10.24%、1.54%與33.15%。同時,增加或減少特征圖數(shù)量對模型的檢測速度有很大影響,以上4中尺度的網(wǎng)絡(luò)檢測速度分別為46.875fps、37.500fps、28.846fps、23.436fps;當特征圖為2時精度最高且檢測速度已滿足實時檢測的需求,所以CIS-YOLO的特征圖的最優(yōu)數(shù)量為2。

      大小目標的預測精度取決于特征圖像尺寸,尺度較大的特征圖像對小目標的預測效果較好,反之尺度較小的特征圖像對大目標的預測效果較好。為了驗證多尺度融合對目標檢測精度的提高效果,本文將只使用13×13、26×26、52×52三種特征圖進行預測的結(jié)果和使用2個特征圖融合檢測的結(jié)果進行了對比,結(jié)果如表4所示。

      從表4和圖7中可以明顯看出使用尺寸為13×13的特征圖預測時,大目標如齒輪的預測效果較好,但會將齒輪的中心孔預測為墊片,可見對中等目標等預測效果較差;使用尺寸為26×26的特征圖預測時,對于中目標和大目標預測效果都比較好;使用尺寸為52×52的特征圖預測時,對于中目標的預測效果較好,但對于大目標如齒輪的預測效果較差。而融合了13×13和26×26的特征圖后預測比起只使用單個特征圖預測的平均精度高。

      3.4? 改變輸入圖像分辨率優(yōu)化模型性能

      因為CIS-YOLO使用的是全卷積網(wǎng)絡(luò),沒有使用全連接層,所以沒有對輸入圖像分辨率的固定要求,本文使用二特征圖融合CIS-YOLO進行測試,通過改變輸入圖像分辨率為448×448、416×416、384×384、352×352、320×320、288×288評估對模型性能的影響。

      由表5可知在原輸入圖像分辨率為418×418時增加輸入圖像分辨率會降低模型檢測精度并減慢測試速度;減少輸入圖像分辨率則會增加精度,加快測試速度,且精度在輸入圖像尺寸為352×352時達到飽和,此時精度為91.67,檢測速度為44 fps已遠超過實時檢測需求,所以二特征圖融合Toolnet的最優(yōu)輸入圖像分辨率為352×352。

      3.5? 實驗結(jié)果分析

      使用YOLOv2和YOLOv3在同樣環(huán)境和參數(shù)下訓練,使用同一個驗證集進行驗證,將優(yōu)化后的Toolnet另外2種未優(yōu)化YOLO算法進行對比, 結(jié)果見表6所示。從結(jié)果可以看出本文使用的優(yōu)化后Toolnet網(wǎng)絡(luò)結(jié)構(gòu)的精度較YOLOv2增加了1.38%,測試速度提升了15%;較YOLOv3精度增加了2.61%,測試速度提升了39%。而且本文使用測試集大小為750張圖片,完成測試所用時間為17s,測試速度達到了44FPS,實驗結(jié)果證明優(yōu)化后Toolnet已滿足了高精度實時檢測的要求。

      4 ?結(jié)論

      本文應(yīng)用Toolnet算法實現(xiàn)了對復雜工業(yè)環(huán)境下的常見目標的高精度實時檢測,解決了以往在自動化生產(chǎn)線中缺少高精度實時目標定位的問題。并針對常見目標特點改進了YOLOv3算法,將三特征圖融合檢測簡化為了二特征圖融合檢測,為基于機器視覺的常見目標實時檢測提供了理論依據(jù)。通過本文的研究,將YOLOv3改進后的CIS-YOLO模型可以很好地在中低端顯卡中實現(xiàn)實時目標檢測。在后續(xù)工作中,將會實現(xiàn)更多種類的常見目標識別,并繼續(xù)優(yōu)化該算法,降低該算法實現(xiàn)實時檢測的硬件需求,提高該算法的精度。

      參考文獻

      [1]Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587.

      [2]He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904-1916.

      [3]Girshick R. Fast R-cnn[C]. Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.

      [4]Ren S, He K, Girshick R, et al. Faster R-cnn: Towards Real-time Object Detection with Region Proposal Networks[C]. Advances in neural information processing systems. 2015: 91-99.

      [5]Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]. Proceedings of the IEEE conference? on computer vision and pattern recognition. 2016: 779-788. 8

      [6]Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot Multibox Detector[C]. European conference on computer vision. Springer, Cham, 2016: 21-37.

      [7]Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7263-7271.

      [8]Redmon J, Farhadi A. Yolov3: An Incremental Improvement[J]. arXiv preprint arXiv: 1804.02767, 2018.

      [9]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

      [10]Lin T Y, Dollár P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2117- 2125.

      [11]Krizhevsky A, Sutskever I, Hinton G E. Imagenet Classification with Deep Convolutional Neural Networks[C]. Advances in neural information processing systems. 2012: 1097-1105.

      猜你喜歡
      目標檢測深度學習
      視頻中目標檢測算法研究
      軟件(2016年4期)2017-01-20 09:38:03
      行為識別中的人體運動目標檢測方法
      有體驗的學習才是有意義的學習
      電子商務(wù)中基于深度學習的虛假交易識別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學習算法應(yīng)用于巖石圖像處理的可行性研究
      軟件導刊(2016年9期)2016-11-07 22:20:49
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      移動機器人圖像目標識別
      基于背景建模法的運動目標檢測
      灵山县| 宁明县| 商南县| 五河县| 安远县| 南康市| 九龙县| 麻城市| 张家川| 皋兰县| 托里县| 广昌县| 盐津县| 永济市| 谢通门县| 鹿泉市| 沈丘县| 乐陵市| 菏泽市| 潜江市| 安岳县| 吴忠市| 香港| 思茅市| 玛纳斯县| 台湾省| 屏边| 丹凤县| 淮安市| 濮阳县| 乌拉特前旗| 宁蒗| 龙川县| 南召县| 青阳县| 敖汉旗| 西乌| 礼泉县| 新民市| 和静县| 伊川县|