陳海永,趙 鵬,閆皓煒
融合注意力的多尺度Faster RCNN的裂紋檢測
陳海永1*,趙 鵬1,閆皓煒2
1河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300000;2天津航天中為數(shù)據(jù)系統(tǒng)科技有限公司,天津 300000
電致發(fā)光(Electroluminescence, EL)下的光伏電池EL圖像背景表現(xiàn)為復(fù)雜的非均勻紋理特征,且存在與裂紋相似的晶粒偽缺陷,同時裂紋表現(xiàn)為形狀多樣的多尺度特征,以上難點為檢測任務(wù)帶來了極大的挑戰(zhàn)。因此,本文提出融合注意力的多尺度Faster-RCNN模型,一方面,采用改進(jìn)的特征金字塔網(wǎng)絡(luò)獲取多尺度的高級語義特征圖,以此來提高網(wǎng)絡(luò)對多尺度裂紋缺陷的特征表達(dá)能力。另一方面,采用改進(jìn)的注意力區(qū)域推薦網(wǎng)絡(luò)A-RPN,提高模型對裂紋缺陷的關(guān)注并抑制復(fù)雜背景及晶粒偽缺陷的特征。同時,在RPN網(wǎng)絡(luò)訓(xùn)練過程中,采用損失函數(shù)Focal loss,以此來降低訓(xùn)練過程中簡單樣本所占比重,使其更加關(guān)注難以區(qū)分的樣本。實驗結(jié)果表明,改進(jìn)的算法使得EL圖像裂紋缺陷檢測的準(zhǔn)確率提高,達(dá)到接近95%。
多尺度特征提??;注意力模塊;Focal loss函數(shù)
由于太陽能清潔、安全、無害、充足的特點,光伏發(fā)電已成為最受歡迎的可再生能源發(fā)電方式之一。光伏電池作為光伏發(fā)電的載體,在其生產(chǎn)、部件組裝以及運(yùn)輸過程中,因晶體結(jié)構(gòu)的脆弱性或者操作不當(dāng)?shù)炔环€(wěn)定因素的影響,不可避免地會產(chǎn)生裂紋缺陷。裂紋缺陷的存在將降低電池片的發(fā)電效率、縮短使用壽命、導(dǎo)致光伏組件運(yùn)行故障,甚至影響光伏發(fā)電系統(tǒng)的安全性。因此,實現(xiàn)光伏電池的裂紋缺陷檢測具有十分重要的現(xiàn)實意義。
Anwar等人[1]利用圖像分割和形狀分析技術(shù)提取裂紋的形狀特征作為支持向量機(jī)(support vector machine,SVM)分類器的輸入,實現(xiàn)了電致發(fā)光(electroluminescence,EL)圖像的微裂紋缺陷檢測。Chen等人[2]為了獲得表達(dá)能力更強(qiáng)的缺陷特征,對局部二值模式(local binary patterns,LBP)[3]進(jìn)行改進(jìn),提出了一種新穎的特征描述符,稱為中心像素信息中心對稱局部二值模式(CPICS-LBP),并結(jié)合SVM分類器完成了低分辨率128′128像素的EL圖像塊的裂紋缺陷識別。Tsai等人[4]提出一種各向異性擴(kuò)散方案,在生成的擴(kuò)散圖像中進(jìn)行二進(jìn)制閾值處理后,通過形態(tài)學(xué)運(yùn)算以檢測具有低灰度和高梯度特性的微小裂紋缺陷。上述人工定義缺陷特征的表達(dá)能力有限,對于EL圖像中形狀多樣的多尺度裂紋缺陷而言,算法的魯棒性和泛化能力不夠好。
隨著計算機(jī)軟硬件的發(fā)展,深度學(xué)習(xí)算法被逐漸應(yīng)用于工業(yè)缺陷檢測領(lǐng)域,并獲取了較為出色的性能。Young-Jin等人[5]采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)與滑動窗口技術(shù)相結(jié)合,實現(xiàn)了混凝土裂紋的檢測,但模型無法獲得輸入圖像的全局特征信息且難以找到最佳的滑動窗口尺寸。Lin等人[6]利用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)生成熱圖的方式實現(xiàn)了背景均勻的LED芯片圖像的缺陷識別以及定位。如今多種深度學(xué)習(xí)目標(biāo)檢測算法被提出,如一階段網(wǎng)絡(luò)Yolo,CenterNet[7],RetinaNet[8];二階段網(wǎng)絡(luò)Fast RCNN[9]、Faster RCNN[10]等。相比于一階段目標(biāo)檢測網(wǎng)絡(luò),二階段將特征提取與區(qū)域推薦網(wǎng)絡(luò)相結(jié)合,使得網(wǎng)絡(luò)實現(xiàn)了端到端檢測,檢測精度也相對更高。Cha等人[11]基于Faster RCNN算法開發(fā)了實時損傷檢測的框架,有效地檢測五種類型的表面缺陷。為適應(yīng)目標(biāo)尺度變化,高琳等人[12]結(jié)合特征金字塔網(wǎng)絡(luò)提出了一種融合多尺度上下文卷積的車輛目標(biāo)檢測算法。為了增強(qiáng)低層特征與最頂層特征之間的特征聯(lián)系,Liu等人[13]在特征金字塔結(jié)構(gòu)的基礎(chǔ)上添加自下而上的路徑,提出了實例分割網(wǎng)絡(luò)PANet。為了使模型對感興趣區(qū)域更加關(guān)注,注意力機(jī)制被廣泛研究。人類視覺系統(tǒng)在分析場景時,并不會立即針對整個圖像進(jìn)行處理,而是會選擇性地關(guān)注于突出的部分,即注意力在人類感知中起到了重要作用[14]。在CNN中,注意力模塊起著與人類的注意力感知類似的作用,其通過賦予特征圖中的缺陷區(qū)域更高的權(quán)重,以實現(xiàn)強(qiáng)調(diào)目標(biāo)對象特征的目的,抑制圖像背景的噪聲干擾。
光伏電池EL圖像是電池片采用電致發(fā)光[15]技術(shù),由近紅外CCD相機(jī)在EL成像采集系統(tǒng)(圖1)中捕獲的,圖像像素大小為1024′1024。
圖1 EL成像采集系統(tǒng)
對于光伏電池EL圖像,其檢測難點主要有:
1) 任意樣本之間的非均勻紋理復(fù)雜背景均不相同,具有較高轉(zhuǎn)換效率的無缺陷區(qū)域表現(xiàn)為較亮的特點,裂紋缺陷和晶粒表現(xiàn)為更暗。現(xiàn)有的目標(biāo)檢測算法不能很好地抑制復(fù)雜背景對裂紋檢測的干擾。2) EL圖像背景包含主柵線、副柵線、晶粒等結(jié)構(gòu),由于其特殊的生產(chǎn)工藝,晶粒具有大小不同、方向不一且隨機(jī)分布的特點。更重要的是,部分晶粒偽缺陷的結(jié)構(gòu)與裂紋缺陷具有極高的相似性,這使得檢測中極易出現(xiàn)誤檢。3) 第三,裂紋缺陷的尺寸、形狀的多樣性。尺寸多樣性表現(xiàn)為裂紋大小多樣、縱橫比多樣;形狀多樣性具體表現(xiàn)為橫向、縱向和拓?fù)浣Y(jié)構(gòu)的復(fù)雜樹狀裂紋,見圖2。
針對以上難點,本文的主要貢獻(xiàn)有:1) 采用改進(jìn)的特征金字塔網(wǎng)絡(luò)獲取高分辨率、多尺度的高級語義特征圖,以此來提高網(wǎng)絡(luò)在復(fù)雜背景下對多尺度裂紋缺陷的特征表達(dá)能力;2) 采用改進(jìn)的注意力區(qū)域推薦網(wǎng)絡(luò)(attention region proposal network, A-RPN),關(guān)注裂紋特征并抑制復(fù)雜背景及其中的晶粒偽缺陷的特征;3) 在RPN訓(xùn)練過程中采用分類損失函數(shù)Focal loss,以此來降低訓(xùn)練過程中簡單樣本所占比重,使模型更加關(guān)注難以區(qū)分的樣本,進(jìn)一步提升檢測效果。總的來說,提出的融合注意力的多尺度Faster-RCNN模型,在解決非均勻紋理復(fù)雜背景的EL圖像的裂紋缺陷檢測任務(wù)中,表現(xiàn)出更優(yōu)的檢測性能。
Faster-RCNN包括特征提取網(wǎng)絡(luò)、區(qū)域推薦網(wǎng)絡(luò)RPN、感興趣區(qū)域池化ROI pooling,以及分類回歸模塊四個部分?;诖?,本文提出的融合注意力的多尺度Faster RCNN模型,首先通過殘差網(wǎng)絡(luò)ResNet50與改進(jìn)的路徑聚合特征金字塔網(wǎng)絡(luò)(path aggregation feature pyramid network, PA-FPN)相結(jié)合,將提取的多尺度特征圖輸入融合卷積注意力模塊的A-RPN網(wǎng)絡(luò)與ROI pooling中,進(jìn)一步完成裂紋的檢測,模型結(jié)構(gòu)見圖3。
圖2 非均勻紋理隨機(jī)背景的EL圖像。矩形框標(biāo)記為晶粒,三角框標(biāo)記為與裂紋高度相似的晶粒偽缺陷,橢圓標(biāo)記為裂紋
圖3 融合注意力的多尺度Faster-RCNN模型
本文工作是檢測光伏電池EL圖像中的裂紋缺陷,裂紋表現(xiàn)為尺度變化較大、形狀各異的特點?,F(xiàn)有的Faster RCNN直接將特征提取網(wǎng)絡(luò)最后一層輸出的特征用作后續(xù)分類回歸,由于淺層網(wǎng)絡(luò)包含的特征信息易被丟失,會導(dǎo)致小目標(biāo)裂紋特征無法充分提取,出現(xiàn)漏檢問題。本文在特征金字塔網(wǎng)絡(luò)FPN的基礎(chǔ)上提出采用改進(jìn)的路徑聚合特征金字塔網(wǎng)絡(luò)(path aggregation feature pyramid network, PA-FPN)與殘差網(wǎng)絡(luò)ResNet50相結(jié)合,提升模型對多尺度裂紋缺陷的特征表達(dá)能力。
2.2.1 Anchor設(shè)置
區(qū)域推薦網(wǎng)絡(luò)RPN是Faster RCNN的重大改進(jìn),RPN通過滑動窗口為其輸入特征圖的每一個點配置個錨框anchor,進(jìn)一步通過分類器及bounding box regression回歸原理完成對目標(biāo)區(qū)域的推薦。設(shè)置anchor時,在給定基礎(chǔ)錨框尺寸的基礎(chǔ)上,不僅需要給定不同尺度的scale參數(shù),還需要考慮目標(biāo)的縱橫比ratio參數(shù)。
為了生成更加接近數(shù)據(jù)集中實際目標(biāo)缺陷尺寸的錨框,提高算法在缺陷檢測過程中對位置回歸的速度及準(zhǔn)確性,采用k-means聚類對anchor大小的設(shè)置進(jìn)行指導(dǎo)。針對特定數(shù)據(jù)集中的目標(biāo)缺陷尺寸進(jìn)行聚類,即計算手動標(biāo)記的ground-truth與聚類中心的交并比(IOU),以1-IOU距離度量進(jìn)行聚類,指導(dǎo)RPN生成與實際缺陷的形狀更加匹配的anchor,進(jìn)一步完成缺陷的定位與檢測。其實現(xiàn)過程如下:
3) 計算數(shù)據(jù)集中的標(biāo)注框與個聚類中心點的距離,其中:
4) 直到所有標(biāo)注框分配完畢,對每一個簇計算最終的聚類中心點:
針對光伏電池EL數(shù)據(jù)集裂紋缺陷,通過k-means聚類找到了anchor較合適的縱橫比ratio,分別為{0.25,0.5,1,1.66,2.1,3.3},提高了RPN生成的先驗框的穩(wěn)定性。實驗證明,增加anchor的數(shù)量,訓(xùn)練增加的時間并不明顯。
圖4 路徑聚合特征金字塔PA-FPN
2.2.2 注意力模塊
卷積注意力模塊CBAM由通道注意力與空間注意力兩個互補(bǔ)的模塊相連接組成,可以抑制復(fù)雜背景的特征同時突出缺陷的特征,并集中于復(fù)雜背景下光伏電池EL圖像中裂紋的空間位置。其中,通道注意力著重于目標(biāo)“是什么”,通過將包含更多缺陷信息的通道賦予更大的權(quán)重,將包含更多背景信息的通道賦予較小的權(quán)重,從而來選擇包含有用缺陷特征信息的通道??臻g注意力會告訴網(wǎng)絡(luò)缺陷“在哪里”,幫助網(wǎng)絡(luò)定位缺陷在特征圖中的位置。提出注意力區(qū)域推薦網(wǎng)絡(luò)A-RPN可以在復(fù)雜背景的干擾下生成更加準(zhǔn)確的缺陷推薦區(qū)域,進(jìn)一步提升模型的目標(biāo)檢測效果。
圖5 融合注意力CBAM的檢測模型
2.2.3 損失函數(shù)Focal loss
在RPN網(wǎng)絡(luò)中,訓(xùn)練過程通過采用交叉熵?fù)p失函數(shù)來優(yōu)化參數(shù)。對于二分類交叉熵?fù)p失函數(shù):
光伏電池EL圖像的裂紋缺陷檢測算法是在Pycharm上基于TensorFlow的深度學(xué)習(xí)框架進(jìn)行編程,實驗環(huán)境是在Ubuntu 18.04平臺系統(tǒng)上完成,用于訓(xùn)練的計算機(jī)是具有64 GB內(nèi)存的Inter Xeon W 2123和具有12 GB顯存的Titan XP圖形卡。
數(shù)據(jù)集中的所有圖像都采用LabelImg標(biāo)注軟件進(jìn)行標(biāo)注。通過使用不同大小的矩形框進(jìn)行手動標(biāo)記缺陷位置的同時給定類別標(biāo)簽,制作了VOC2007格式的光伏電站EL圖像數(shù)據(jù)集,隨機(jī)分配構(gòu)成模型的訓(xùn)練集和測試集。表1顯示了數(shù)據(jù)集配置。
表1 光伏電池EL圖像數(shù)據(jù)集
本文采取平均精度(average precision, AP)來評估檢測模型的性能。AP值的計算與準(zhǔn)確率(precision,簡寫為pre)、召回率(recall,簡寫為recall)有關(guān),表示的是以召回率作為橫坐標(biāo),準(zhǔn)確率作為縱坐標(biāo),繪制的精確/召回率(PR)曲線下的面積[17]。對于給定的類別,準(zhǔn)確率和召回率分別定義為
其中:P為分類正確的缺陷目標(biāo)的個數(shù),P為背景分類為缺陷目標(biāo)的個數(shù),N是缺陷正樣本被錯誤地分為負(fù)樣本的個數(shù)。
為了更好地評估網(wǎng)絡(luò)模型的性能,首先對模型參數(shù)進(jìn)行了選取,設(shè)置訓(xùn)練迭代次數(shù)為20000,學(xué)習(xí)率為0.0001。在RPN網(wǎng)絡(luò)中,生成的proposal足夠多會在一定程度避免出現(xiàn)缺陷的漏檢,但是全部用于后續(xù)訓(xùn)練會降低網(wǎng)絡(luò)的訓(xùn)練速度,加重訓(xùn)練計算負(fù)擔(dān)。因此,需要采用非極大值抑制算法NMS完成proposal的選擇,這里設(shè)置RPN網(wǎng)絡(luò)訓(xùn)練時的非極大值抑制閾值參數(shù)為0.7,NMS之后的proposal數(shù)量設(shè)置為2000。其他詳細(xì)參數(shù)見表2。
表2 模型的參數(shù)配置
圖6 特征圖可視化對比
圖7 RPN結(jié)合注意力CBAM前后的特征圖
為了證明所提方法的有效性,在EL數(shù)據(jù)集上進(jìn)行了如表3所示的實驗。由表可知,采用原始的Faster RCNN對EL圖像的多尺度裂紋檢測時,最終的AP值為87.68%。在此基礎(chǔ)上,RPN網(wǎng)絡(luò)結(jié)合損失函數(shù)Focal loss,AP值提升了1.25%。然后模型融合注意力CBAM模塊,同時特征提取采用ResNet與改進(jìn)的路徑聚合PA-FPN,模型的AP值分別提高了3.33%和2.49%,達(dá)到94.75%。這說明,利用注意力CBAM關(guān)注裂紋特征并抑制復(fù)雜背景及其中的晶粒偽缺陷的特征,以及利用PA-FPN提取多尺度特征,可以更好地提升對多尺度裂紋尤其是小目標(biāo)裂紋的檢測結(jié)果。值得注意的是,在RPN與Focal loss結(jié)合的基礎(chǔ)上,將通道注意力與空間注意力融合到RPN中的AP值分別為88.94%和87.92%。這說明,只融合通道注意力對模型的檢測效果影響不大,且只融合空間注意力會使模型的檢測結(jié)果下降1.01%。再一次驗證了文獻(xiàn)[18]中提到的:注意力模塊CBAM優(yōu)于僅使用其中一種注意力對模型檢測結(jié)果的影響。
將本文改進(jìn)的模型與Faster RCNN、CenterNet、RetinaNet等模型在光伏電池EL圖像下的檢測效果進(jìn)行對比,通過平均準(zhǔn)確率AP評估其性能,如表4所示。
根據(jù)實驗結(jié)果可以看出,改進(jìn)的Faster RCNN檢測網(wǎng)絡(luò)的AP值高于原始的二階段檢測網(wǎng)絡(luò)Faster RCNN、一階段檢測網(wǎng)絡(luò)CenterNet和RetinaNet。對于CenterNet,基于DLA特征提取的模型優(yōu)于基于殘差網(wǎng)絡(luò)ResNet18的模型,整體性能與原始的Faster RCNN模型性能相近,但由于CenterNet模型對于檢測小目標(biāo)以及尺度變化大的目標(biāo)適應(yīng)性不是很好,使得模型整體的性能遠(yuǎn)低于改進(jìn)的多尺度Faster RCNN。另外,經(jīng)典的一階段檢測網(wǎng)絡(luò)RetinaNet比多尺度Faster RCNN模型的精度低10.22%,究其原因,由于EL圖像具有非均勻復(fù)雜紋理特征,背景中包含柵線以及大量的不規(guī)則晶粒,而RetinaNet無法抑制復(fù)雜背景對裂紋檢測的干擾,因此對于條狀目標(biāo)的泛化能力差。
圖8顯示了不同檢測模型對EL圖像的對比檢測結(jié)果??梢钥闯?,對于同一張非均勻紋理復(fù)雜背景的光伏電池EL圖像,CenterNet的檢測結(jié)果與原始的Faster RCNN接近,但仍然存在小目標(biāo)的漏檢,而且模型對目標(biāo)框的回歸也不夠精確。而RetinaNet由于無法更好地抑制復(fù)雜背景的干擾,且模型對較窄的條狀目標(biāo)適應(yīng)性不是很好,使其對裂紋缺陷的漏檢率較高,模型的檢測性能較差。對于融合注意力的多尺度Faster RCNN模型,盡管EL圖像具有非均勻紋理復(fù)雜背景,明暗度也不同,裂紋缺陷既包含樹狀、條狀且它們的尺度都不同,改進(jìn)的模型依舊可以準(zhǔn)確地識別出裂紋缺陷,且對它們回歸的目標(biāo)框也較為精準(zhǔn)。這是因為,融合注意力的多尺度Faster R-CNN在深度殘差網(wǎng)絡(luò)ResNet50的基礎(chǔ)上,采用了PA-FPN結(jié)構(gòu)對多層特征進(jìn)行融合,獲取多尺度的特征圖來表達(dá)更為復(fù)雜的語義信息,對于多尺度裂紋尤其是尺度較小的裂紋檢測效果較好。另一方面,RPN融合了注意力模塊CBAM與損失函數(shù)Focal loss,提高了網(wǎng)絡(luò)對裂紋缺陷以及難以區(qū)分的樣本的比重,提高了模型對缺陷與背景的區(qū)分度,很好地提升了檢測精度。
表3 基于Faster-RCNN 算法的EL圖像檢測性能
表4 不同算法在光伏電池EL圖像上的檢測性能
圖8 不同算法在光伏電池EL圖像上的檢測結(jié)果對比圖
總的來說,融合注意力的多尺度Faster RCNN一方面抑制了EL圖像復(fù)雜背景對裂紋檢測的干擾,另一方面模型對于EL圖像中尺度變化較大、形狀多樣且較窄的裂紋缺陷的適應(yīng)性很好,降低了小目標(biāo)裂紋漏檢的幾率,提升了整個模型的檢測性能。
基于光伏電池EL圖像的裂紋缺陷檢測,本文提出了融合注意力的多尺度Faster-RCNN模型,將ResNet50與路徑聚合特征金字塔PA-FPN相結(jié)合,同時采用改進(jìn)的注意力區(qū)域推薦網(wǎng)絡(luò)A-RPN與損失函數(shù)Focal loss,提高了網(wǎng)絡(luò)在非均勻紋理復(fù)雜背景下對多尺度裂紋缺陷的檢測能力。相比于幾種經(jīng)典的目標(biāo)檢測算法,改進(jìn)的模型具有更優(yōu)的檢測性能。本文的研究為光伏電池EL圖像的多尺度裂紋檢測提供了一種較為有效的方法。下一步將繼續(xù)研究更高精度的目標(biāo)檢測算法,進(jìn)一步探討如何增強(qiáng)缺陷特征抑制背景的干擾以提升網(wǎng)絡(luò)的性能。
[1] Anwar S A, Abdullah M Z. Micro-crack detection of multicrystalline solar cells featuring shape analysis and support vector machines[C]//,, 2012: 143?148.
[2] Su B Y, Chen H Y, Zhu Y F,. Classification of manufacturing defects in multicrystalline solar cells with novel feature descriptor[J]., 2019, 68(12): 4675?4688.
[3] Luo Q W, Sun Y C, Li P C,. Generalized completed local binary patterns for time-efficient steel surface defect classification[J]., 2019, 68(3): 667?679.
[4] Tsai D M, Chang C C, Chao S M. Micro-crack inspection in heterogeneously textured solar wafers using anisotropic diffusion[J]., 2010, 28(3): 491?501.
[5] Cha Y J, Choi W, Büyük?ztürk O. Deep learning‐based crack damage detection using convolutional neural networks[J]., 2017, 32(5): 361?378.
[6] Lin H, Li B, Wang X G,. Automated defect inspection of LED chip using deep convolutional neural network[J]., 2019, 30(6): 2525?2534.
[7] Duan K W, Bai S, Xie L X,. Centernet: keypoint triplets for object detection[C]//, 2019: 6568?6577.
[8] Lin T Y, Goyal P, Girshick R,. Focal loss for dense object detection[C]//, 2017: 2999?3007.
[9] Girshick R. Fast R-CNN[C]//, 2015: 1440?1448.
[10] Ren S Q, He K M, Girshick R,. Faster R-CNN: towards real-time object detection with region proposal networks[C]//, 2015: 91?99.
[11] Cha Y J, Choi W, Suh G,. Autonomous structural visual inspection using region‐based deep learning for detecting multiple damage types[J]., 2018, 33(9): 731?747.
[12] Gao L, Chen N N, Fan Y. Vehicle detection based on fusing multi-scale context convolution features[J]., 2019, 46(4): 180331.
高琳, 陳念年, 范勇. 融合多尺度上下文卷積特征的車輛目標(biāo)檢測[J]. 光電工程, 2019, 46(4): 180331.
[13] Liu S, Qi L, Qin H F,. Path aggregation network for instance segmentation[C]//, 2018: 8759?8768.
[14] Corbetta M, Shulman G L. Control of goal-directed and stimulus-driven attention in the brain[J]., 2002, 3(3): 201?215.
[15] Fraz?o M, Silva J A, Lobato K,. Electroluminescence of silicon solar cells using a consumer grade digital camera[J]., 2017, 99: 7?12.
[16] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//, 2018: 7132?7141.
[17] Everingham M, Van Gool L, Williams C K I,. The PASCAL visual object classes (VOC) challenge[J]., 2010, 88(2): 303?338.
[18] Woo S, Park J, Lee J Y,. CBAM: convolutional block attention module[C]//, 2018: 3?19.
Crack detection based on multi-scale Faster RCNN with attention
Chen Haiyong1*, Zhao Peng1, Yan Haowei2
1School of Artificial Intelligence, Hebei University of Technology, Tianjin 300000, China;2Tianjin Aerospace Zhongwei Data System Technology Co., Ltd, Tianjin 300000, China
Multiscale crack detection network structure
Overview:Electroluminescence (EL) images of photovoltaic cells have a non-uniformly textured complex background, and the background contains grain pseudo-defects that are highly similar to the crack structure. At the same time, the cracks are characterized by various sizes and shapes. Existing target detection algorithms based on convolutional neural networks cannot adapt to the above problems. From the perspective of suppressing interference from complex background and improving the adaptability of the model to multi-scale crack defect detection, this paper proposes a multi-scale Faster RCNN model that integrates attention. In photovoltaic cell EL images, the scale of the cracks varies greatly, including a large number of small target cracks. In order to improve the network's ability to express multi-scale crack defects, a path aggregation feature pyramid network (PA-FPN) is proposed. Based on the combination of the residual network ResNet50 and the feature pyramid network FPN, PA-FPN adds a bottom-up path to fuse features. PA-FPN effectively retains shallow feature information, which improves the model's adaptability to multi-scale cracks in EL images and especially the detection results of small-scale cracks. In order to improve the model's attention to crack defects and suppress the characteristics of complex background and grain pseudo-defects, this paper proposes a regional recommendation network A-RPN that incorporates convolutional block attention module (CBAM). CBAM is composed of a channel attention module and a spatial attention module. In this paper, it is experimentally verified that the detection result of the RPN network fused with CBAM is better than that of using an attention modules alone. K-means clustering is used to cluster the crack sizes in the data set to guide the RPN to set the anchor box closer to the actual crack size, which improves the speed and accuracy of the target box regression in the defect detection process. In addition, in the RPN network training process, the loss function Focal loss is used to replace the original cross-entropy loss function, so as to reduce the proportion of simple samples in the training process and make the model pay more attention to the samples that are difficult to distinguish. The entire network can achieve end-to-end training. In order to verify the effectiveness of the improved algorithm, the performance of the original Faster RCNN model, RetinaNet, and CenterNet on multi-scale crack detection of EL images is compared. Through training and testing of 1024 pixels′1024 pixels of photovoltaic cell EL images, experimental results show that the improved Faster RCNN is better than the above mentioned target detection algorithms in accuracy, and has good robustness to the strip-shaped multi-scale cracks, which can be adapted to the EL image with changing complex background.
Chen H Y, Zhao P, Yan H WCrack detection based on multi-scale Faster RCNN with attention[J].2021, 48(1): 200112; DOI: 10.12086/oee.2021.200112
Crack detection based on multi-scale Faster RCNN with attention
Chen Haiyong1*, Zhao Peng1, Yan Haowei2
1School of Artificial Intelligence, Hebei University of Technology, Tianjin 300000, China;2Tianjin Aerospace Zhongwei Data System Technology Co., Ltd, Tianjin 300000, China
The background of the EL image of a photovoltaic cell under electroluminescence (EL) presents complex non-uniform texture features, and there are grain pseudo-defects similar to cracks. At the same time, the cracks appear as multi-scale features with various shapes. The above mentioned difficulties have presented great challenges for the detection task. Therefore, this paper proposes a multi-scale Faster-RCNN model that integrates attention. On the one hand, an improved feature pyramid network is used to obtain multi-scale advanced semantic feature maps to improve the network's feature expression ability of multi-scale crack defects. On the other hand, an improved attention region proposal network A-RPN is adopted to increase the model's attention to crack defects and suppress the characteristics of complex background and grain pseudo-defects. At the same time, in the RPN network training process, a loss function Focal loss is used to reduce the proportion of simple samples in the training process, so that the model pays more attention to the samples that are difficult to distinguish. Experimental results show that this algorithm improves the accuracy of crack defect detection in EL images, reaching nearly 95%.
multi-scale feature extraction; attention module; focal loss function
TP391.41
A
10.12086/oee.2021.200112
National Natural Science Foundation of China (61873315)
* E-mail: haiyong.chen@hebut.edu.cn
陳海永,趙鵬,閆皓煒. 融合注意力的多尺度Faster RCNN的裂紋檢測[J]. 光電工程,2021,48(1): 200112
Chen H Y, Zhao P, Yan H WCrack detection based on multi-scale Faster RCNN with attention[J]., 2021, 48(1): 200112
2020-04-02;
2020-06-15
國家自然科學(xué)基金資助項目(61873315)
陳海永(1980-),男,博士,教授,主要從事計算機(jī)視覺的研究。E-mail:haiyong.chen@hebut.edu.cn