鄧壯林,張紹兵,3,成 苗,3,何 蓮,3
多模態(tài)硬幣圖像單應性矩陣預測
鄧壯林1,2,張紹兵1,2,3,成 苗1,2,3,何 蓮1,2,3
(1. 中國科學院成都計算機應用研究所,四川 成都 610041;2. 中國科學院大學計算機科學與技術學院,北京 100049;3. 深圳市中鈔科信金融科技有限公司,廣東 深圳 518206)
對不同成像條件下拍攝的硬幣圖像進行配準是硬幣表面缺陷算法的前置任務。然而,基于互信息的傳統(tǒng)多模態(tài)配準方法速度慢、精度低,現有的通過基于深度學習的單應性矩陣預測方法實現的圖像配準只適用于單模態(tài)的任務。為此,提出一種基于深度學習的適用于多模態(tài)硬幣圖像的單應性矩陣預測方法,進而使用預測的單應性矩陣完成圖像配準。首先,使用單應性矩陣預測層預測輸入圖像對間的單應性矩陣,使用單應性矩陣對待配準圖像進行透視變換;然后,使用圖像轉換層將透視變換后的待配準圖像和目標圖像映射到同一域,圖像轉換層可在推理時去除從而減少推理時間;最后,計算同一域下的圖像間的損失,并進行訓練。實驗表明,該方法在測試集上的平均距離誤差為3.417像素,相較于基于互信息的傳統(tǒng)多模態(tài)配準方法5.575像素的平均距離誤差降低38.71%。且配準單對圖像耗時為17.74 ms,遠低于基于互信息的傳統(tǒng)多模態(tài)配準方法的6 368.49 ms。
單應性矩陣;圖像配準;硬幣;圖像轉換;多模態(tài)
單應性矩陣在圖像剛性配準中發(fā)揮了重要作用[1]。若有一對從不同角度拍攝的同一平面的圖像,使用單應性矩陣對其中一幅圖像進行透視變換,可以使其和另一幅圖像配準[2]。在拍攝的物體近似平面(不是平面但拍攝位置相對于物體深度足夠遠)或拍攝2幅圖像的鏡頭僅有旋轉運動時,使用單應性矩陣仍然能夠配準圖像。目前針對單模態(tài)圖像對間的單應性矩陣預測已經得到了廣泛地研究,傳統(tǒng)方法和基于深度學習的方法[1-4]均取得了良好的效果。
對不同成像條件下拍攝的硬幣圖像進行配準是硬幣表面缺陷檢測算法[5]的前置任務。如圖1所示,在穹頂光源下拍攝的硬幣圖像紋理信息豐富,所以圖像中的細微劃痕也清晰可見,但是丟失了顏色信息;同軸光源下拍攝的硬幣圖像有豐富的顏色信息,但是圖像中的細微劃痕與污漬混合難以分辨。所以需要融合2種圖像的特征進行圖像增強。然而由于2種硬幣圖像的成像系統(tǒng)不同,硬幣的相對位置會發(fā)生偏移,需要首先預測跨模態(tài)圖像間的單應性矩陣,從而實現多模態(tài)硬幣圖像的配準。為滿足工業(yè)生產場景中的需求,該配準方法需要精度高、速度快。
圖1 不同光源下的硬幣圖像((a)同軸光源下拍攝的硬幣圖像;(b)穹頂光源下拍攝的硬幣圖像)
現有的基于深度學習的單應性矩陣預測方法只適用于單模態(tài)圖像的配準[1-4],不能解決多模態(tài)硬幣圖像配準。傳統(tǒng)的基于互信息的多模態(tài)配準方法可以用于多模態(tài)硬幣圖像配準,但是其配準精度不高,且速度過慢,無法滿足工業(yè)生產場景中的需求。
為解決上述問題,本文提出了一種用于多模態(tài)硬幣圖像的單應性矩陣預測方法,使用預測的單應性矩陣可完成圖像配準。該方法基于深度學習,將網絡分為單應性矩陣預測層和圖像轉換層2部分。訓練也分為2個階段,首先訓練圖像轉換層,通過該層可將2個模態(tài)的圖像映射到同一域,該層僅用于訓練階段,其能簡化跨模態(tài)的損失函數的設計。然后訓練單應性矩陣預測層,這一階段的訓練通過使用之前的圖像轉換層,實現無監(jiān)督訓練。實驗結果證明本文提出的方法配準精度高、速度快。同時,本文提出的網絡與訓練方法可以應用到其他多模態(tài)剛性圖像配準任務中,如紅外光與自然光圖像配準,多模態(tài)遙感圖像配準等。
按照圖像的形變方式,圖像配準可分為剛性配準和非剛性配準。非剛性配準適用于不規(guī)則形變的圖像間的配準[6],如醫(yī)學圖像配準。剛性圖像配準中通常圖像間沒有不規(guī)則的形變,如遙感圖像配準。由于硬幣圖像間沒有不規(guī)則的形變,所以屬于剛性配準。
按照圖像對是否由相同的成像系統(tǒng)拍攝,圖像配準還可以分為單模態(tài)配準和多模態(tài)配準。單模態(tài)配準是由相同成像系統(tǒng)拍攝的圖像間的配準,如文獻[2]中配準視頻中的相鄰幀。多模態(tài)配準是不同成像系統(tǒng)拍攝的圖像間的配準,如紅外圖像與自然圖像的配準,醫(yī)學中CT圖像與磁共振圖像的配準等。配準穹頂光源和同軸光源下拍攝的硬幣圖像,也屬于多模態(tài)圖像配準。
基于傳統(tǒng)方法的單模態(tài)剛性圖像配準又可以分為基于區(qū)域的方法和基于特征的方法,基于特征的方法通常通過圖像特征計算圖像間的單應性矩陣[7]。首先,分別提取2幅圖像的關鍵點,需要用到局部不變特征,如SIFT (scale-invariant feature transform),SURF (speeded up robust features)[8],ORB (oriented fast and rotated brief)[9],AKAZE (accelerate-KAZE)[10]等。然后使用特征匹配得到2幅圖像的關鍵點,并使用RANSAC (random sample consistency)和MAGSAC (marginalizing sample consensus)[11]等算法進行離群剔除。最后,使用4對最佳匹配的關鍵點對通過直接線性變換(direct linear transform)[3]計算出單應性矩陣。
這類方法能夠很好地解決單模態(tài)圖像間的單應性矩陣預測,但是無法解決多模態(tài)圖像間的單應性矩陣預測。本文方法參考了這類方法中使用單應性矩陣進行透視變換來完成剛性配準。
2016年,文獻[1]首次提出用于單應性矩陣預測的深度神經網絡。該網絡的輸入是原圖像和其進行隨機的透視變換后的圖像,輸出的是2幅輸入圖像之間的單應性矩陣,并將隨機的透視變換所用到的單應性矩陣做為ground truth,進行監(jiān)督學習。該網絡取得了與傳統(tǒng)方法相近的效果,證明了深度神經網絡用于單應性矩陣預測的可行性。
文獻[3]在2018年提出的無監(jiān)督深度單應性矩陣預測方法,相較于文獻[1]的有監(jiān)督方法,能更準確地預測真實圖像對之間的單應性矩陣,這是由于監(jiān)督方法中生成的訓練圖像沒有深度差異。該方法使用預測的單應性矩陣和空間變換網絡(spatial transformer networks,STN)[12]層透視變換待配準圖像得到預測圖像,并計算預測圖像和目標圖像間逐像素的光度損失,從而實現無監(jiān)督訓練。
文獻[2]在2020年提出內容感知的無監(jiān)督深度單應性矩陣預測方法,使用內容感知掩模,在低紋理、低光照等有挑戰(zhàn)性的預測場景中取得了相較于文獻[1,3]更好的效果。
文獻[4]提出了動態(tài)場景的深度單應性矩陣預測方法,使用多尺度神經網絡同時進行動態(tài)內容檢測和單應性矩陣預測,在具有動態(tài)場景、模糊偽影和低紋理的測試集中取得了比文獻[1,3]更好的效果。
盡管基于深度學習的單應性矩陣預測已經取得了良好的效果,但這類方法目前僅在單模態(tài)圖像間有效。本文方法參考了該方法中使用深度神經網絡預測圖像間的單應性矩陣。
互信息(mutual information)使用2幅圖像的熵和其聯合熵來定義2幅圖像之間的關系,即
其中,(img)和(img)分別為2幅圖像各自的熵;(img,img)為2幅圖像的聯合熵。在基于互信息的多模態(tài)圖像配準時,若一對圖像處于某個相對位置時其之間的互信息最大,則認為這對圖像在該相對位置上為配準狀態(tài)。基于互信息及其改進的多模態(tài)圖像配準已經廣泛應用于醫(yī)學圖像配準[13-14]、遙感圖像配準[15]等方向。
該傳統(tǒng)方法解決了多模態(tài)圖像的剛性配準問題,與本文所要解決的問題相同。在3.4節(jié)中實現了該傳統(tǒng)方法,發(fā)現其存在配準精度低、速度慢的問題。由于尚未具有代表性的基于深度學習的多模態(tài)剛性配準方法,將該傳統(tǒng)方法和本文基于深度學習的方法做對比。
基于深度學習的多模態(tài)圖像配準在醫(yī)學圖像、自動駕駛等領域已經有了深入地研究。文獻[16]通過生成數據克服收集ground truth的困難,實現了需要監(jiān)督訓練的跨模態(tài)圖像配準方法。但是其效果受真實數據和生成數據間的差異影響。
為了改進前述方法,實現無監(jiān)督的跨模態(tài)圖像配準解決方案,文獻[17-19]使用跨模態(tài)的相似性度量做為損失函數進行訓練。這些跨模態(tài)的相似度度量使用互信息、歸一化互相關或由作者自己設計。然而,這些相似度量往往只適用于特定的模態(tài)間,并且設計很困難[20]。
為了簡化跨模態(tài)相似度量的設計,文獻[20-22]利用了圖像轉換網絡[23-24],將多模態(tài)的圖像配準問題簡化為單模態(tài)的配準問題。具體方法為對多模態(tài)的圖像對在圖像轉換層進行轉換,將多模態(tài)的圖像映射到公共域。使用公共域下的圖像對預測變形場,并經過變形場扭曲后的待配準圖像和目標圖像計算逐像素的光度損失。
相比于1.3節(jié)中的方法,這類基于深度學習的配準方法解決了多模態(tài)圖像間的配準問題,并且是非剛性配準。本文方法參考了圖像轉換網絡的思想,設計了更簡單、高速的圖像轉換層。與上述預測變形場進行非剛性配準的方法不同,本文方法預測單應性矩陣進行剛性配準,并且僅將圖像轉換層用于損失的計算,在推理階段省略圖像轉換層加速推理。
2.1.1 網絡整體結構與設計思路
如圖2所示,該網絡包含單應性矩陣預測層和圖像轉換層2個部分。網絡的輸入為待配準圖像和目標圖像,待配準圖像是同軸光源圖像,目標圖像是穹頂光源圖像。由于硬幣圖像配準是剛性配準,即使用單應性矩陣完成剛性配準,網絡的前半部分設計為單應性矩陣預測層。使用單應性矩陣預測層輸出的單應性矩陣對待配準圖像進行透視變換,得到與目標圖像配準的預測圖像。由于預測圖像為同軸光源圖像,目標圖像為穹頂光源圖像,需要將不同光源下拍攝的多模態(tài)圖像映射到同一域,以計算預測圖像和目標圖像間的逐像素光度損失,所以設計了圖像轉換層。其僅用于單應性預測層訓練階段的計算損失,推理階段可省略以加速推理。
單應性矩陣預測層和圖像轉換層需要分別訓練。首先訓練圖像轉換層,完成后凍結圖像轉換層的參數,再進行單應性矩陣預測層的訓練,其訓練是無監(jiān)督的。
圖2 網絡結構
2.1.2 單應性矩陣預測層
2.1.3 圖像轉換層
圖像轉換層有2個相互獨立的轉換層,分別用于2種不同模態(tài)圖像的轉換。每個轉換層采用包含3個卷積層的全卷積網絡,其輸入大小為××1的原圖像,輸出大小為××1的特征映射。具體每一個卷積層的結構如圖2所示。圖像轉換層通過訓練獲得將不同模態(tài)圖像映射到同一域的能力,具體損失函數和訓練過程在2.2.1節(jié)中介紹。
2.2.1 圖像轉換損失
訓練整個網絡需要先訓練圖像轉換層,在圖像轉換層訓練時需用到已經配準的多模態(tài)圖像對。因為此時單應性矩陣預測層還沒有訓練生效,所以需要手工配準少量的圖像。損失函數為
其中,和是已經配準的2幅不同模態(tài)的圖像,和分別為和經過各自的圖像轉換層的輸出。如果2個模態(tài)的圖像成功映射到一個公共域,由于是已經配準的,則其之間的L1距離應該很小。
2.2.2 單應性矩陣預測損失
實驗數據集采集自某造幣廠提供的109枚硬幣,分別使用同軸光源和穹頂光源對硬幣進行成像,圖像的分辨率為672×672。由于采集數據時,不同光源的成像系統(tǒng)的鏡頭相對于硬幣的位置是變化的,所以采集的原始圖像對未配準。采集到的圖像如圖4所示。數據集包含3部分:①3 600對圖像的單應性矩陣預測層訓練集;②361對圖像的圖像轉換層訓練集;③900對圖像的測試集。
圖4 采集的原始圖像以及差異示意圖((a)同軸光源圖像;(b)穹頂光源圖像;(c)處理后的疊加圖像)
單應性矩陣預測層訓練集的3 600對圖像由60個硬幣的同軸光源圖像和穹頂光源圖像組合得到。由于單應性矩陣預測層采用無監(jiān)督的訓練,這部分圖像不需要手工標注配準。
圖像轉換層訓練集的361對圖像由19個硬幣的同軸光源圖像和穹頂光源圖像組合得到。圖像轉換層訓練集的不同光源圖像間需要手工標注配準,即手工記錄每一幅圖像上特定的4個點的坐標。任意選取一對硬幣圖像,根據2幅圖像上的4對對應點,使用直接線性變換(direct linear transform)計算出單應性矩陣,實現一對圖像的配準。
測試集的900對圖像由30個硬幣的同軸光源圖像和穹頂光源圖像組合得到。測試集的不同光源圖像需要手工標注配準,用于算法效果量化。該量化方法與文獻[1-3]中的方法類似,手工記錄每一幅圖像上特定的4個點的坐標,如圖5所示。將一對測試集硬幣圖像輸入深度網絡后得到網絡預測的單應性矩陣,使用該矩陣對同軸光源圖像上記錄的4個坐標進行坐標映射,得到4個預測點的坐標。求4個預測點的坐標與穹頂光源圖像上4個標注點的坐標的平均距離誤差,該距離越小,則配準效果越好,當距離為0時,透視變換得到同軸光源圖像與穹頂光源圖像完全配準。距離誤差為
其中,和為預測點的坐標;和為標注點的坐標。
3.2.1 實驗環(huán)境
實驗使用NVIDIA GEFORCE RTX 2080顯卡,Ubuntu 16.0.4.1操作系統(tǒng),pytorch 1.5.1深度學習框架。實驗中訓練與測試均在NVIDIA GEFORCE RTX 2080顯卡上完成?;谏疃葘W習的方法和傳統(tǒng)的基于互信息的多模態(tài)配準方法均在同一臺計算機上進行,環(huán)境完全一致。
3.2.2 數據增強與訓練超參數
單應性矩陣預測層訓練階段,將輸入不同模態(tài)的2幅圖像分別隨機順時針或逆時針旋轉0°~2°,隨機向左或向右平移0~17個像素,隨機向上或向下平移0~17個像素。圖像轉換層訓練階段同樣將輸入的2種不同模態(tài)的圖像進行隨機的旋轉和平移,其旋轉角度和平移量完全相同,保證圖像對在變換后也處于配準的狀態(tài)。
圖像轉換層訓練的初始學習率為0.001,batchsize為16,學習率每570步下降10%。單應性矩陣預測層訓練的初始學習率為0.001,batchsize為16,學習率每2 800步下降10%。
圖像轉換層除了放置在單應性矩陣預測層后方(圖2網絡結構),還可以放置于單應性矩陣預測層前方。圖像轉換層如果放置在單應性矩陣預測層前方,2種不同模態(tài)的圖像將會在輸入單應性矩陣預測層之前被映射到同一域,從而使得該任務轉換為單模態(tài)圖像間的單應性矩陣預測,和文獻[1-4]中的任務類似。該過程為
下一節(jié)將介紹采用此種方案的實驗效果。在效果相似時優(yōu)先采用圖2中的網絡結構,因為在該網絡結構中,圖像轉換層僅在訓練過程中被需要,在推理過程中只需要得到單應性矩陣,可省略圖像轉換層,以縮短推理時間。
傳統(tǒng)的基于互信息的多模態(tài)配準方法為:對待配準圖像進行平移和旋轉,每一次平移或旋轉后,通過式(1)計算其與目標圖像間的互信息值。反復迭代,找到待配準圖像與目標圖像互信息最大的平移和旋轉值,作為結果。
為了加速該算法,先進行粗配準,每次平移10像素,旋轉5°,粗配準后再在其結果上每次平移1像素,旋轉1°進行細配準,以細配準結果做為最終結果。因為本文提出的基于深度學習的多模態(tài)單應性矩陣預測方法使用了GPU加速運算,為了對比公平,該傳統(tǒng)方法同樣通過CuPy 9.5.0[25]使用GPU加速運算。
盡管已經提升了該算法的速度,傳統(tǒng)的基于互信息的多模態(tài)配準方法仍耗時巨大,在本文的實驗環(huán)境中單對圖像配準平均耗時6 368.49 ms,在實際應用中無法滿足時間要求。而本文方法處理時間僅為17.74 ms。在配準效果方面,傳統(tǒng)的基于互信息的多模態(tài)配準方法的平均距離誤差為5.575像素高于本文方法的3.417像素,部分配準效果對比如圖6所示。
根據單應性矩陣預測層的輸入是灰度圖或彩色圖、單應性矩陣預測層采用resnet18或resnet34、圖像轉換層放置在單應性矩陣預測層前或后、損失函數采用L1或L2這4個條件,得到16種實驗方案,見表1。測試記錄每種實驗方案在測試集上的平均距離誤差和平均推理耗時,綜合考慮配準精度和時間,采用實驗方案3為最終方案,該方案單應性矩陣預測層的輸入是灰度圖,單應性矩陣預測層采用resnet18,圖像轉換層放置在單應性矩陣預測層后,損失函數采用L1。
圖6 配準結果((a)配準前平均距離誤差18.955像素;(b)基于互信息的配準方法平均距離誤差5.575像素;(c)本文方法平均距離誤差3.417像素)
表1 實驗結果
采用L1作為損失函數的方案1,3,5,7,9,11,13,15分別與采用L2作為損失函數的方案2,4,6,8,10,12,14,16相對應。見表1,除損失函數外,對應的方案單應性矩陣預測層輸入、單應性矩陣預測層結構和圖像轉換層位置均相同。損失函數采用L1的8種實驗方案比其對應的損失函數采用L2的實驗方案平均距離誤差小0.180~0.358像素,且由于推理時不計算損失,所以損失函數的選擇對推理耗時不產生任何影響。實驗證明了此任務中L1損失函數在不影響推理耗時的情況下取得了更小的平均距離誤差,保留采用L1作為損失函數的8種方案。
在保留的方案中,圖像轉換層放置在單應性矩陣預測層前的方案1,5,9,13與圖像轉換層放置在單應性矩陣預測層后的方案3,7,11,15相對應。表1中,除圖像轉換層放置不同,對應方案中的其他條件的選擇均相同。圖像轉換層放置在前的方案1和9比其相對應的放置在后的方案3和11平均距離誤差分別小0.010像素和0.020像素,圖像轉換層放置在前的方案5和13比其相對應的放置在后的方案7和15平均距離誤差分別大0.030像素和0.084像素。方案1,5,9和13的平均推理耗時分別比方案3,7,11和15多3.90 ms,2.44 ms,3.73 ms和2.55 ms,符合3.3節(jié)中的描述。從實驗結果可以看出,圖像轉換層放置在單應性矩陣預測層前、后對平均距離誤差的影響不大,所以保留平均推理耗時更少的圖像轉換層放置在單應性矩陣預測層后的方案3,7,11和15。
在方案3,7,11和15中,單應性矩陣預測層結構采用resnet34的方案7和15比采用resnet18的方案3和11平均距離誤差分別小0.130 (3.80%)像素和0.027 (0.82%)像素,但是推理耗時多5.37 (30.27%) ms和5.19 (28.64%) ms。由于在實際應用中,目前的平均距離誤差均已滿足需求且差距極小,單應性矩陣預測層結構采用速度更快的resnet18,保留方案3和11。
方案3單應性矩陣預測層的輸入是灰度圖,方案11輸入是彩色圖。表1中,方案3和方案11的其他條件均相同。方案3的平均距離誤差比方案11大0.110像素,平均推理耗時小0.38 ms。在單應性預測層主干網絡相同時,輸入圖為彩色的方案參數量更多,所以平均推理耗時增加。由于平均距離誤差均已滿足需求且差距極小,所以選擇速度更快的方案3。
為了預測多模態(tài)硬幣圖像間的單應性矩陣,本文設計了圖像轉換層改進現有的單模態(tài)單應性矩陣預測深度神經網絡,從而完成跨模態(tài)的單應性矩陣預測任務;通過進行對比實驗,確定單應性矩陣預測層的輸入是灰度圖、單應性矩陣預測層的主干網絡采用resnet18、圖像轉換層放置在單應性矩陣預測層后、損失函數為L1的方案為最終方案。本文方法配準精度高、推理速度快,在測試集上的平均距離誤差為3.417像素,相較于傳統(tǒng)的基于互信息的跨模態(tài)圖像配準方法的5.575像素減小38.71%,平均推理耗17.74 ms時,相較于傳統(tǒng)的基于互信息的跨模態(tài)圖像配準方法的6 368.49 ms顯著縮短。
本文方法局限性包括:相機畸變、拍攝視角變化帶來的非平面物體成像內容變化等問題,其會破壞待配準圖像與目標圖像間的透視變換關系,導致所有基于單應性矩陣預測的配準方法包括本文方法誤差加大甚至無法配準,在具體應用中應當評估該方法是否適用。由于網絡訓練是分階段進行的,需要先完成圖像轉換層的訓練后,再進行單應性矩陣預測層的訓練,該過程較為繁瑣,后續(xù)可進一步優(yōu)化網絡結構和損失函數,實現端到端的訓練。
[1] DETONE D, MALISIEWICZ T, RABINOVICH A. Deep image homography estimation[EB/OL]. (2016-06-13) [2020-12-17]. https://arxiv.org/pdf/1606.03798.pdf.
[2] ZHANG J R, WANG C, LIU S C, et al. Content-aware unsupervised deep homography estimation[C]//Computer Vision – ECCV 2020. Cham: Springer International Publishing, 2020: 653-669.
[3] NGUYEN T, CHEN S W, SHIVAKUMAR S S, et al. Unsupervised deep homography: a fast and robust homography estimation model[J]. IEEE Robotics and Automation Letters, 2018, 3(3): 2346-2353.
[4] LE H, LIU F, ZHANG S, et al. Deep homography estimation for dynamic scenes[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 7649-7658.
[5] 王品學, 張紹兵, 成苗, 等. 基于可變形卷積和自適應空間特征融合的硬幣表面缺陷檢測算法[EB/OL]. (2021-04-14) [2021-09-08]. https://kns-cnki-net.webvpn.las.ac.cn/kcms/ detail/51.1307.tp.20210413.1607.002.html.
WANG P X, ZHANG S B, CHEN M, et al. Coin surface defect detection algorithm based on deformable convolution and adaptive spatial feature fusion[EB/OL]. (2021-04-14) [2021-09-08]. https://kns-cnki-net.webvpn.las.ac.cn/kcms/detail/51.1307.tp.20210413.1607.002.html(in Chinese).
[6] 劉爽. 基于多約束深度網絡的MRI非剛性配準研究[D]. 大連: 大連理工大學, 2021.
LIU S. The research of MRI non-rigid registration based on multi-constrained deep network[D]. Dalian: Dalian University of Technology, 2021 (in Chinese).
[7] MA J Y, JIANG X Y, FAN A X, et al. Image matching from handcrafted to deep features: a survey[J]. International Journal of Computer Vision, 2021, 129(1): 23-79.
[8] BAY H, ESS A, TUYTELAARS T, et al. Speeded-up robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359.
[9] RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//2011 International Conference on Computer Vision. New York: IEEE Press, 2011: 2564-2571.
[10] ALCANTARILLA P, NUEVO J, BARTOLI A. Fast explicit diffusion for accelerated features in nonlinear scale spaces[J]. IEEE Trans. Patt. Anal. Mach. Intell, 2011, 34(7): 1281-1298.
[11] BARATH D, MATAS J, NOSKOVA J. MAGSAC: marginalizing sample consensus[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 10189-10197.
[12] JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[C]//The 28th International Conference on Neural Information Processing Systems. New York: ACM Press, 2015: 2017-2025.
[13] 曹國剛, 朱信玉, 陳穎, 等. 基于改進頭腦風暴優(yōu)化算法的醫(yī)學圖像配準方法[J]. 數據采集與處理, 2020, 35(4): 730-738.
CAO G G, ZHU X Y, CHEN Y, et al. Medical image registration based on improved brain storm optimization algorithm[J]. Journal of Data Acquisition and Processing, 2020, 35(4): 730-738 (in Chinese).
[14] 岳根霞. 基于遺傳算法的多模態(tài)病變圖像關聯挖掘仿真[J]. 計算機仿真, 2021, 38(2): 225-229.
YUE G X. Image association and mining simulation of multi-modality lesion based on genetic algorithm[J]. Computer Simulation, 2021, 38(2): 225-229 (in Chinese).
[15] 李培, 姜剛, 馬千里, 等. 結合張量與互信息的混合模型多模態(tài)圖像配準方法[J]. 測繪學報, 2021, 50(7): 916-929.
LI P, JIANG G, MA Q L, et al. A hybrid model combining tensor and mutual information for multi-modal image registration[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(7): 916-929 (in Chinese).
[16] SCHNEIDER N, PIEWAK F, STILLER C, et al. RegNet: Multimodal sensor registration using deep neural networks[C]// 2017 IEEE Intelligent Vehicles Symposium. New York: IEEE Press, 2017: 1803-1810.
[17] MAHAPATRA D, ANTONY B, SEDAI S M, et al. Deformable medical image registration using generative adversarial networks[C]//2018 IEEE 15th International Symposium on Biomedical Imaging. New York: IEEE Press, 2018: 1449-1453.
[18] BALAKRISHNAN G, ZHAO A, SABUNCU M R, et al. An unsupervised learning model for deformable medical image registration[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 9252-9260.
[19] BALAKRISHNAN G, ZHAO A, SABUNCU M R, et al. VoxelMorph: a learning framework for deformable medical image registration[J]. IEEE Transactions on Medical Imaging, 2019, 38(8): 1788-1800.
[20] ARAR M, GINGER Y, DANON D, et al. Unsupervised multi-modal image registration via geometry preserving image-to-image translation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 13407-13416.
[21] QIN C, SHI B B, LIAO R, et al. Unsupervised deformable registration for multi-modal images via disentangled representations[C]//The 2019 International Conference on Information Processing in Medical Imaging. Cham: Springer International Publishing, 2019: 249-261.
[22] HUANG X, LIU M Y, BELONGIE S, et al. Multimodal unsupervised image-to-image translation[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 179-196.
[23] LEE H Y, TSENG H Y, HUANG J B, et al. Diverse image-to-image translation via disentangled representations[M]// Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 36-52.
[24] ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5967-5976.
[25] OKUTA R, UNNO Y, NISHINO D, et al. Cupy: a numpy-compatible library for nvidia gpu calculations[EB/OL]. [2021-07-19]. https://xs.dailyheadlines.cc/scholar?q=Cupy%3A +a+numpy-compatible+library+for+nvidia+gpu+calculations.
Homography estimation for multimodal coin images
DENG Zhuang-lin1,2, ZHANG Shao-bing1,2,3, CHENG Miao1,2,3, HE Lian1,2,3
(1. Chengdu Institute of Computer Applications, Chinese Academy of Sciences, Chengdu Sichuan 610041, China; 2. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049, China; 3. Shenzhen CBPM-KEXIN Banking Technology Company Limited, Shenzhen Guangdong 518206, China)
Registration of coin images under different illuminant is the predecessor of coin surface defect detection. However, the traditional multimodal registration method based on mutual information is slow and low accuracy, and the existing image registration methods realized by homography estimation based on deep learning only work in single-mode tasks. A homography estimation method based on deep learning for multimodal coin images is proposed in this paper, and image registration can be realized with the estimated homography. First, the homography estimation layer is used to estimate the homography between the pair of input images, and the homography is used for perspective transformation of the image to be registered; Then, the image translation layer is used to translate the pair of images to the same domain, and this layer can be removed in inference so as to reduce the inference time; Finally, train the network with the loss calculated using the pair of images in the same domain. Experiments show that the average distance error of the proposed method on the test set is 3.417 pixels, which is 38.71% lower than the traditional multimodal registration method based on mutual information. The inference time of the proposed method is 17.74 ms, which is much less than 6368.49 ms of the traditional multimodal registration method based on mutual information.
homography; image registration; coin; image to image translation; multimodality
TP 391
10.11996/JG.j.2095-302X.2022030361
A
2095-302X(2022)03-0361-09
2021-09-24;
2022-02-11
24 September,2021;
11 February,2022
鄧壯林(1996–),男,碩士研究生。主要研究方向為人工智能與機器視覺。E-mail:917687496@qq.com
DENG Zhuang-lin (1996-), master student. His main research interests cover artificial intelligence and machine vision. E-mail:917687496@qq.com
張紹兵(1979–),男,正研級高級工程師,碩士。主要研究方向為高速圖像處理、缺陷檢測、深度學習。E-mail:zhangshaobing@cbpm-kexin.com
ZHANG Shao-bing (1979-), senior engineer, master. His main research interests cover high-speed image processing, defect detection and deep learning. E-mail:zhangshaobing@cbpm-kexin.com