劉桂雄,黃堅
基于標簽預留Softmax算法的機器視覺檢測鑒別語義分割遷移學習技術
劉桂雄*,黃堅
(華南理工大學 機械與汽車工程學院,廣東 廣州 510640)
面向機器視覺檢測鑒別的語義分割卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)模型能識別、測量被測對象的零部件、尺寸等特征,針對機器視覺檢測鑒別增加識別零部件或關鍵部位的需求,以及進一步遷移學習會損失CNN模型部分權值的問題,提出一種基于標簽預留Softmax算法的語義分割遷移學習技術。研究了機器視覺檢測鑒別語義分割遷移學習建模方法,分析指出可嘗試選定模型所有權值的微調(diào)遷移學習,有助于減小模型初始損失;提出了基于標簽預留Softmax算法的微調(diào)遷移學習方法,可實現(xiàn)檢測對象略有不同的模型所有權值微調(diào)遷移學習。在自建數(shù)據(jù)集上的實驗表明,標簽預留微調(diào)遷移學習技術訓練模型達到機器視覺檢測鑒別要求的時間由42.8 min減少到30.1 min,算法有效、效果明顯;應用實驗表明,遷移學習技術可實現(xiàn)標準件安裝、漏裝、誤裝情況檢測與裝配質(zhì)量鑒別的半監(jiān)督學習,新機箱遷移學習的訓練時間不超過20.2 min,檢測準確率達到100%,能滿足機箱標準件裝配質(zhì)量檢測鑒別的需求。
機器視覺;語義分割;遷移學習;卷積神經(jīng)網(wǎng)絡;微調(diào)
語義分割機器視覺檢測鑒別方法綜合采用視覺傳感成像技術、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)語義分割算法模型,識別和測量被測對象的形狀、尺寸等特征[1-2],按照設計文件和質(zhì)量標準評價被測對象的優(yōu)劣[3]。它與計算機視覺數(shù)據(jù)集的任務有所不同,需遷移學習提高模型準確率[4]。CNN語義分割模型遷移學習把在計算機視覺數(shù)據(jù)集源任務source上訓練的模型,作為在機器視覺檢測鑒別的目標任務target上創(chuàng)建模型的起點[5]。研究表明,CNN模型非常適合于遷移學習[6],使用如ImageNet[7]、COCO[8]等大型圖像數(shù)據(jù)集的預訓練模型,能很好地遷移到目標任務中,并有利于提高模型性能[9],主要的遷移學習方法有微調(diào)、微調(diào)-凍結等。微調(diào)策略復制源模型上除輸出層外模型的結構及參數(shù),向目標模型添加輸出層,輸出數(shù)量為目標數(shù)據(jù)集中的類別數(shù),并進行輸出層參數(shù)的隨機初始化,在目標數(shù)據(jù)集上訓練目標模型。2019年,浙江大學研究了一種集成遷移學習的軸件表面缺陷檢測方法,將源網(wǎng)絡權值遷移至CNN模型中,建立軸件表面缺陷檢測模型,在軸件生產(chǎn)現(xiàn)場實時檢測中具有較高的準確度和魯棒性,缺陷正確檢出率達97%以上[10]。Fang等研發(fā)的微型工件表面缺陷檢測系統(tǒng)由光纖定位器、遠心透鏡系統(tǒng)、矩陣立體光、旋轉平臺與Mask R-CNN模型構成,在生產(chǎn)線上不斷連續(xù)微調(diào)遷移學習[11]。Xi等研究了一種基于Mask R-CNN齒輪點蝕遷移學習方法,在1 500個齒輪點蝕樣本下進行微調(diào)Mask R-CNN模型,實現(xiàn)多層次點蝕,在不同光照、角度情況下能夠準確識別點蝕缺陷[12]。但在識別對象發(fā)現(xiàn)變化時(如增加識別零部件或關鍵部位),微調(diào)又需要重新訓練輸出層。微調(diào)-凍結等方法則將微調(diào)訓練后的模型,作為特征提取器應用到其他場景。王建林等提出了應用YOLOv2模型的多類型合作目標檢測方法,采用COCO數(shù)據(jù)集預訓練YOLOv2模型在增強目標圖像樣本數(shù)據(jù)集進行微調(diào)遷移學習,并作為特征提取器實現(xiàn)了三維精密測量中多類型合作目標的檢測[13]。陳筱等提出了改進EfficientNet-B0和EfficientNet-B7模型的遷移學習方法,該方法先對模型進行微調(diào),然后作為特征提取器提取眼底圖像實現(xiàn)特征分類,可輔助診斷[14]。通過改進CNN語義分割模型結構,使識別對象發(fā)現(xiàn)變化時模型輸出層權值也可遷移,不需要隨機初始化,有助于縮短訓練時間。
本文首先開展機器視覺檢測鑒別語義分割遷移學習建模研究,分析遷移不同模型參數(shù)構成對損失及準確率的影響,通過機器視覺檢測鑒別改進語義分割模型結構,使模型遷移不再需要調(diào)整,連同Softmax算法權值均可遷移。
機器視覺檢測鑒別語義分割遷移學習目標是在平均精度IoU、模型損失CE滿足機器視覺檢測鑒別要求的前提下,降低訓練時間train。設語義分割網(wǎng)絡模型CNN在目標數(shù)據(jù)集target上進行Fine-tuning遷移學習的模型初始權值CNN,在推薦學習率配置下通過train次迭代后,IoU,CE,train分別表示為IoU(train,CNN),CE(train,CNN),train(train,CNN),有:
CNN優(yōu)化是先選定遷移學習的模型初始權值CNN(包括主干網(wǎng)絡權值main、密集預測網(wǎng)絡權值seg和Softmax層權值cla)構成形式,在目標數(shù)據(jù)集target下訓練網(wǎng)絡,比較不同train下的train和CE,選定出CNN的相對較佳值。
表1預訓練Mask R-CNN模型Fine-tuning遷移學習初始權值CNN的train和CE
Tab.1 Ttrain and LCE of pre-trained Mask R-CNN model fine-tuning transfer learning initial various weights WCNN
本文在面向語義分割機器視覺檢測鑒別中,target與source的分割任務相同,識別對象略有不同(這里學習樣本就是識別目標),可嘗試選定CNN=main∪seg∪cla權值遷移學習,不是進行分類器Softmax替換,而是進行分類器Softmax改進,使模型在目標任務上的初始損失(train=0時CE)較小,縮短train。
圖1 基于標簽預留改進Softmax算法的Fine-tuning遷移學習方法原理
圖2 標簽預留改進Softmax算法模型
表2標簽預留改進Softmax與典型Softmax算法的參數(shù)比較
Tab.2Parameter comparison of label-reserved and general Softmax algorithms
標簽預留Softmax算法只需修改語義分割模型的頭部網(wǎng)絡結構(見圖3)。該結構可用于采用ResNet-FPN作為骨干網(wǎng)絡的Mask R-CNN模型[17]。圖中箭頭表示卷積層、反卷積層或全連接層,具體類型可從輸入輸出特征維度推斷(卷積層保留空間維度、反卷積層增加空間維度、全連接層處理一維數(shù)組)。標簽預留Mask R-CNN模型頭部結構改變了輸出層卷積層的通道數(shù),其中分類輸出通道數(shù)為source+reserved+1,邊界框回歸的輸出通道數(shù)為(source+reserved)×4;掩膜分割輸出特征圖尺寸為28×28,通道數(shù)為(source+reserved)。
圖3 標簽預留Mask R-CNN模型的頭部結構
Fig.3 Head architecture of label-reserved Mask R-CNN
在滿足reserved≥extra>0下,基于標簽預留Softmax算法的Fine-tuning遷移學習算法為:
式中e2.718 28。
實驗上位機的主要硬件為lntel i7-7820X CPU,NVIDIA GeForce GTX 1080Ti GPU,SSD硬盤;軟件環(huán)境為Ubuntu18.04,Python3.6,Pytorch 1.6與Detectron2 0.4.0。選取機箱裝配數(shù)據(jù)集[19]進行語義分割Fine-tuning遷移學習實驗。機箱裝配數(shù)據(jù)集的圖像尺寸為910×454~4 046×1 908 pixel,包含不可擴展機箱、可擴展機箱等子集。實驗選取不可擴展機箱作為源數(shù)據(jù)集source,具有多款不可擴展機箱圖像200個,標注了USB3.0,RJ45,CFast,DP,HDMI,COM等14種機箱標準件(source=14)。可擴展機箱作為目標數(shù)據(jù)集target,具有多款可擴展機箱圖像200個,標注了19種機箱標準件(target=19),target比source多的標準件主要包括PCI-E擋板、PCI-E板卡、PCI-E固定槽、PCI-E固定螺紋和SATA托盤等5種。
表3不同遷移學習方法的訓練時間
Tab.3 Training time ofdifferent transfer learning methods
將本文方法應用于MVAQ2型制造過程質(zhì)量視覺檢測系統(tǒng)中,實現(xiàn)機箱標準件裝配質(zhì)量檢測的無監(jiān)督自動深度學習,代替原本由領域專家人工才能完成的工作(包括機箱標準件特征提取與模式識別、裝配質(zhì)量檢測模板構建等)。研發(fā)人員只需要選定標準件圖像,系統(tǒng)將自動學習標準件安裝、漏裝、誤裝等情況,并推廣到標準件裝配質(zhì)量視覺檢測鑒別系統(tǒng)中。
圖6 MVAQ2機箱標準件裝配質(zhì)量檢測鑒別軟件基本功能框圖
圖6為MVAQ2機箱標準件裝配質(zhì)量檢測鑒別軟件基本功能,圖中深色底色表示裝置軟件中應用本文遷移學習方法的相關流程及功能。軟件應用基于標簽預留Softmax算法的Fine-tuning遷移學習方法,具有機箱標準件裝配質(zhì)量檢測鑒別學習功能,能訓練Mask R-CNN語義分割模型學習機箱基準、標準件,實現(xiàn)機箱各面板的基準、標準件的在線識別與定位,并依據(jù)裝配技術要求鑒別每個裝配位置的工作情況,判斷機箱裝配質(zhì)量是否合格。
圖7為MVAQ2機箱標準件裝配質(zhì)量檢測鑒別系統(tǒng)實物圖。裝置主要由核心計算機、相機、光源、運動控制和用戶交互等核心模塊構成。其中,光源模塊具有白光漫反射照明,相機模塊具有機箱三平面移動成像功能,核心計算機上搭載異構多處理器,提供深度學習計算能力。
圖7 MVAQ2機箱標準件裝配質(zhì)量檢測鑒別裝置
圖8 MVAQ2裝置新機箱學習流程
按照圖8流程,設備開發(fā)人員標注標準件(如DVI、RJ45、RS232、DP等)合格情況圖像,系統(tǒng)學習單個機箱標準件安裝、漏裝、誤裝情況,直到檢測準確率達到100%時的人工智能學習時間不超過20.2 min。
[1] 盧榮勝,吳昂,張騰達,等. 自動光學(視覺)檢測技術及其在缺陷檢測中的應用綜述[J]. 光學學報, 2018, 38(8): 23-58.
LU R SH, WU A, ZHANG T D,. Review on automated optical (visual) inspection and its applications in defect detection[J]., 2018, 38(8): 23-58. (in Chinese)
[2] 范麗麗,趙宏偉,趙浩宇,等. 基于深度卷積神經(jīng)網(wǎng)絡的目標檢測研究綜述[J]. 光學精密工程, 2020, 28(5): 1152-1164.
FAN L L, ZHAO H W, ZHAO H Y,. Survey of target detection based on deep convolutional neural networks[J]., 2020, 28(5): 1152-1164. (in Chinese)
[3] 黃堅,劉桂雄. 面向機器視覺檢測的CNN語義分割方法進展[J]. 激光雜志, 2019, 40(5): 10-16.
HUANG J, LIU G X. The development of CNN-based semantic segmentation method for machine vision detection[J]., 2019, 40(5): 10-16. (in Chinese)
[4] SHI Q, ZHANG Y P, LIU X P,. Regularised transfer learning for hyperspectral image classification[J]., 2019, 13(2): 188-193.
[5] 劉桂雄,黃堅,劉思洋,等. 面向語義分割機器視覺的AutoML方法[J]. 激光雜志, 2019,40(6): 1-9.
LIU G X, HUANG J, LIU S Y,. AutoML method for semantic segmentation of machine vision[J]., 2019, 40(6): 1-9. (in Chinese)
[6] YOSINSKI J, CLUNE J, BENGIO Y,. How transferable are features in deep neural networks?[J/OL].,2014,27. https://arxiv.org/abs/1411.1792v1.
[7] RUSSAKOVSKY O, DENG J, SU H,. ImageNet large scale visual recognition challenge[J]., 2015, 115(3): 211-252.
[8] LIN T Y, MAIRE M, BELONGIE S,. Microsoft COCO: common objects in context[C].2014, 2014: 740-755.
[9] 張雪松,莊嚴,閆飛,等. 基于遷移學習的類別級物體識別與檢測研究與進展[J]. 自動化學報, 2019, 45(7): 1224-1243.
ZHANG X S, ZHUANG Y, YAN F,. Status and development of transfer learning based category-level object recognition and detection[J]., 2019, 45(7): 1224-1243. (in Chinese)
[10] 馮毅雄,趙彬,鄭浩,等. 集成遷移學習的軸件表面缺陷實時檢測[J]. 計算機集成制造系統(tǒng), 2019, 25(12): 3199-3208.
FENG Y X, ZHAO B, ZHENG H,. Real-time detection of shaft surface defects based on integrated transfer learning[J]., 2019, 25(12): 3199-3208. (in Chinese)
[11] FANG X, JIE W, FENG T. An industrial micro-defect diagnosis system via intelligent segmentation region[J]., 2019, 19(11): 2636.
[12] XI D J, QIN Y, WANG Y Y. Vision measurement of gear pitting under different scenes by deep mask R-CNN[J]., 2020, 20(15): 4298.
[13] 王建林,付雪松,黃展超,等. 改進YOLOv2卷積神經(jīng)網(wǎng)絡的多類型合作目標檢測[J]. 光學精密工程, 2020, 28(1): 251-260.
WANG J L, FU X S, HUANG ZH CH,. Multi-type cooperative targets detection using improved YOLOv2 convolutional neural network[J]., 2020, 28(1): 251-260. (in Chinese)
[14] 陳筱,朱向冰,吳昌凡,等. 基于遷移學習與特征融合的眼底圖像分類[J]. 光學精密工程, 2021, 29(2): 388-399.
CHEN X, ZHU X B, WU CH F,. Research on fundus image classification based on transfer learning and feature fusion[J]., 2021, 29(2): 388-399. (in Chinese)
[15] HOIEM D, CHODPATHUMWAN Y, DAI Q Y. Diagnosing error in object detectors[C].2012,:, 2012: 340-353.
[16] HE K M, SUN J. Convolutional neural networks at constrained time cost[C]. 2015()712,2015,,,,2015: 5353-5360.
[17] HE K M, GKIOXARI G, DOLLáR P,. Mask R-CNN[J]., 2020, 42(2): 386-397.
[18] GETTO G, LABRIOLA J T. iFixit myself: user-generated content strategy in 'the free repair guide for everything'[J]., 2016, 59(1): 37-55.
[19] 黃愛民. 面向標準件機箱裝配質(zhì)量圖像特征提取與構建方法研究[D].廣州:華南理工大學,2017.
HUANG A M.[D]. Guangzhou: South China University of Technology, 2017. (in Chinese)
[20] REBUFFI S A, KOLESNIKOV A, SPERL G,. iCaRL: incremental classifier and representation learning[C]. 2017()2126,2017,,,, 2017: 5533-5542.
Transfer learning techniques for semantic segmentation of machine vision inspection and identification based on label-reserved Softmax algorithms
LIU Guixiong*,HUANG Jian
(,,510640,),:
A convolutional neural network (CNN) model for machine vision inspection and identification can identify and measure the components, size, and other features of an object under test. Herein, a fine-tuning transfer learning technique for semantic segmentation based on a label-reserved softmax algorithm was proposed. First, the transfer learning modeling of semantic segmentation for machine vision inspection and identification was performed. Transferring more CNN model weights would reduce the initial loss of the model. Second, a fine-tuning transfer learning method based on label-reserved softmax algorithms was proposed, which could realize fine-tuning transfer learning with all model weights of slightly different detected objects. Experiments based on custom-developed datasets show that the training time for training models to satisfy the requirements of machine vision inspection and identification is reduced from 42.8 min to 30.1 min. Application experiments show that this transfer learning technique enables semi-supervised learning for the inspection of standard component installation, the inspection of missed and mis-installation cases, and the identification of assembly quality. The training time for the transfer learning of new chassis is less than 20.2 min, and the inspection accuracy reaches 100%. The fine-tuning transfer learning technique is effective and satisfies the requirements of machine vision inspection and identification.
machine vision; semantic segmentation; transfer learning; convolutional neural network(CNN); fine-tuning
TP394.1;TH691.9
A
10.37188/OPE.20223001.0117
1004-924X(2022)01-0117-09
2021-05-16;
2021-07-20.
廣東省重點領域研發(fā)計劃資助項目(No.2019B010154003);廣州市產(chǎn)業(yè)技術重大攻關計劃資助項目(No.201802030006)
劉桂雄(1968),男,廣東揭陽人,教授,博士生導師,1995年于重慶大學獲得博士學位,主要從事先進傳感與儀器的研究。E-mail:megxliu@scut.edu.cn
黃堅(1990),男,廣東揭陽人,博士研究生,2009年、2013年于華南理工大學分別獲得學士、碩士學位,主要從事制造過程機器視覺檢測的研究。E-mail:mehuangjian@mail.scut.edu.cn