• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙塔結(jié)構(gòu)的場景文字檢測模型

      2022-02-24 12:36:54施漪涵仝明磊姚宏揚(yáng)
      計算機(jī)工程與應(yīng)用 2022年3期
      關(guān)鍵詞:卷積文字樣本

      施漪涵,仝明磊,張 魁,姚宏揚(yáng)

      上海電力大學(xué) 電子與信息工程學(xué)院,上海 200090

      在自然場景中,文字通常能傳遞重要的視覺信息,通過對圖像中文字區(qū)域的檢測和識別,能更有效地獲取場景中的語義信息,并應(yīng)用于圖像搜索、無人駕駛、工業(yè)自動化等領(lǐng)域,文字區(qū)域檢測作為文字識別的前期工作,其結(jié)果將直接影響后期識別的精準(zhǔn)度。不同于傳統(tǒng)OCR(optical character recognition)字符識別,自然場景中的背景較復(fù)雜,且受文字本身及其他干擾因素的影響,較印刷制品而言,檢測難度更大。因此文字區(qū)域檢測的研究仍有較大的提升空間[1-2]。

      文字檢測的方法通常分為兩大類:基于傳統(tǒng)方法和神經(jīng)網(wǎng)絡(luò)。在傳統(tǒng)方法分類中,一類是基于滑動窗口的方法,根據(jù)圖像的紋理隨機(jī)生成不同大小的窗口,使其在原圖像中滑動,再用分類模型判斷該窗口內(nèi)是否含有文字區(qū)域,其典型算法有文獻(xiàn)[3];另一類是基于連通域的方法,根據(jù)圖像的低級特征,比如光強(qiáng)、顏色等,將圖像的像素分為不同的連通域,再用分類模型對其進(jìn)行判斷,較為典型的方法有筆畫寬度變換[4](stroke with transform,SWT)和最大穩(wěn)定極值區(qū)域[5](maximally stable extremal regions,MSER)。傳統(tǒng)方法雖簡單、易于設(shè)計,但對于傾斜、彎曲文字或不均勻照明區(qū)域文字的檢測效果不佳[6-7],因此很難應(yīng)用于含自然場景的圖像。

      目前,主流的場景文字檢測大多基于深度神經(jīng)網(wǎng)絡(luò),其中,基于目標(biāo)檢測技術(shù)的算法采用整體性思想,將文字區(qū)域視為待檢測目標(biāo)。一些方法如R-CNN[8](regions with CNN features),先提取一系列的候選區(qū)域,再對其邊界框進(jìn)行調(diào)整、分類及回歸;也可直接使用回歸算法,如YOLO[9](you only look one)和SSD[10](single shot multibox detector),得到物體的類別概率和具體位置?;谀繕?biāo)檢測技術(shù)的算法雖在運(yùn)算速度上較有優(yōu)勢,但其錨點(diǎn)位置估計不夠精確,無法得到最準(zhǔn)確的檢測結(jié)果。另一類算法主要針對自然場景中的非水平文字,利用圖像分割技術(shù),提高檢測準(zhǔn)確度。其方法主要是將文字區(qū)域視為一個需要被分割的類別,通過語義分割[11]或?qū)嵗指頪12]方法,生成像素級別的文字/非文字圖像,最后通過圖像后處理技術(shù),準(zhǔn)確定位文字區(qū)域,其典型算法有CCTN[13](cascaded convolutional text network)、PixelLink[14]、InceptText[15]等?;诜指罴夹g(shù)的文字區(qū)域檢測,其實質(zhì)是對像素的分類工作,雖然準(zhǔn)確度較高,但耗時較長。

      本文使用圖像分割技術(shù)檢測文字區(qū)域,在PixelLink算法基礎(chǔ)上,增加具有雙金字塔結(jié)構(gòu)的特征融合模型,并在損失函數(shù)設(shè)計中,擴(kuò)大負(fù)樣本選取量,通過γ參數(shù)調(diào)整正負(fù)樣本權(quán)重。算法能在不增加運(yùn)算速度的同時,優(yōu)化文字檢測的各項實驗評估指標(biāo)。

      1 PixelLink檢測算法

      PixelLink算法整體實現(xiàn)過程如下,首先利用深度學(xué)習(xí)網(wǎng)絡(luò)提取特征,并生成2通道的像素預(yù)測和16通道的連接預(yù)測,即對每個像素點(diǎn)進(jìn)行文字/非文字的像素分類;接著判斷該像素點(diǎn)的8個鄰域是否存在文本像素連接,以此得到文本實例分割圖;最后提取文本實例的邊界框,得到最終檢測區(qū)域。

      該算法的特征融合模塊如圖1所示,主要基于FPN[16](feature pyramid network),即特征金字塔網(wǎng)絡(luò),該網(wǎng)絡(luò)是目前各類圖像處理任務(wù)中最常見的特征融合網(wǎng)絡(luò)。左側(cè)通道可視為神經(jīng)網(wǎng)絡(luò)普通的前向傳播過程,右側(cè)通道將更加抽象、語義更強(qiáng)的高層特征圖經(jīng)上采樣輸出,并通過橫向卷積與左側(cè)通道中相同大小的特征圖融合。這類特征融合網(wǎng)絡(luò)能很好地傳遞高層特征中的語義信息,但忽略了由于多次深度卷積造成的特征信息缺失。本文針對特征融合模塊,綜合考慮網(wǎng)絡(luò)深度、運(yùn)算速度、檢測效果等多方面因素,對FPN網(wǎng)絡(luò)補(bǔ)充和改進(jìn),提出一種具有雙塔結(jié)構(gòu)的特征融合模型。

      圖1 PixelLink算法的特征融合模塊Fig.1 Feature-fusion structure of PixelLink

      2 網(wǎng)絡(luò)結(jié)構(gòu)

      本文的整體算法框架采用圖像分割思想,其框架流程如圖2所示,該算法主要由三個部分組成:特征融合網(wǎng)絡(luò)、生成實例分割圖和圖像后處理。

      圖2 場景文字檢測整體框架圖Fig.2 Overall frame of scene text detection

      首先將輸入圖像送入特征提取模型,利用VGG16[17]的前向傳播通道,提取網(wǎng)絡(luò)中的文字特征層,并輸送至特征融合模塊,如圖2虛線框所示,該模塊包含雙金字塔型結(jié)構(gòu),通過融合更多層網(wǎng)絡(luò)的特征映射,得到更精細(xì)的特征細(xì)節(jié),優(yōu)化輸出的特征信息;然后獲取相應(yīng)通道的文字/非文字預(yù)測及連接預(yù)測后,生成實例分割圖;最后在圖像后處理部分中,利用傳統(tǒng)數(shù)字圖像處理技術(shù)如圖像濾波、去噪處理等優(yōu)化圖像分割效果,同時調(diào)整一些參數(shù)如滑動平均衰減率、正則化衰減率等,提升被檢出文本行的準(zhǔn)確率,并對分割出的文本區(qū)域進(jìn)行邊界框劃定。

      2.1 特征融合網(wǎng)絡(luò)

      在對原始圖像的特征不斷濃縮的過程中會損失一定的圖像信息,并且邊界區(qū)域像素的特征相對較弱,極易造成分辨率低、邊界分割錯誤等后果,因此經(jīng)特征融合模塊輸出的特征信息會直接影響最終的檢測準(zhǔn)確度。

      FPN網(wǎng)絡(luò)僅通過一次自下而上的融合路徑,傳遞最高層特征圖的強(qiáng)語義信息,經(jīng)PANet[18](path aggregation network)啟發(fā),本文提出一種特征融合方式,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,主要由三個部分組成:第一,利用FPN網(wǎng)絡(luò)的融合結(jié)果,并增加一條自上而下的新路徑。首先通過1×1卷積操作保持左側(cè)四層特征圖的尺寸大小不變,即在不損失分辨率的前提下大幅度提高非線性特性;接著使用上采樣對上述四層特征圖自下而上地進(jìn)行第一次融合;然后重復(fù)對其融合結(jié)果做1×1卷積;最后使用降采樣將相同尺寸的特征圖進(jìn)行自上而下的第二次融合。這部分網(wǎng)絡(luò)包含形如金字塔和倒金字塔的組合結(jié)構(gòu),通過增加網(wǎng)絡(luò)深度,加強(qiáng)網(wǎng)絡(luò)對語義信息的獲取和提煉。第二,在卷積操作的過程中,利用膨脹卷積,擴(kuò)大像素的感受野。膨脹卷積起源于語義分割,是為了解決普通卷積神經(jīng)網(wǎng)絡(luò)容易存在內(nèi)部數(shù)據(jù)結(jié)構(gòu)丟失或空間層級化信息丟失的問題,而使用池化操作容易損失部分信息,膨脹卷積的提出讓圖像尺寸在不縮減的情況下仍保持其泛化特征,通過將第一次融合結(jié)果后的橫向卷積替換為膨脹卷積,令卷積輸出結(jié)果包含更大范圍的信息,以更好地保存內(nèi)部數(shù)據(jù)結(jié)構(gòu)。第三,在網(wǎng)絡(luò)中新增一條路徑縮短較底層與最高層特征之間的距離。

      圖3 具有雙塔結(jié)構(gòu)的特征融合模塊Fig.3 Feature-fusion module with double tower structure

      將特征融合的最后一次融合結(jié)果Fuse Piont5,與VGG16網(wǎng)絡(luò)中選取的初層特征Conv3_3相加,以解決在主流特征融合模塊中,由于定位信息的丟失,而造成特征無法精準(zhǔn)傳遞的缺陷,充分利用淺層特征層,將特征圖的位置信息和語義信息更好地結(jié)合并輸出。

      輸入圖像的尺寸為512×512,在VGG16網(wǎng)絡(luò)中提取的各層特征層中,Conv1_1及Conv2_2雖包含更準(zhǔn)確的位置信息,但由于其尺寸較大,內(nèi)存占用較多,會直接影響網(wǎng)絡(luò)的運(yùn)行速度,因此僅選取Conv3_3、Conv4_3、Conv5_3進(jìn)行后續(xù)融合工作。特征圖尺寸分別為輸入圖像的1/4、1/8、1/16,第四層卷積層Fc_7被替換為全連接層,大小為輸入圖像的1/16。

      在本文中,簡單將該特征融合網(wǎng)絡(luò)稱為“雙塔結(jié)構(gòu)”,主要用于改善特征融合結(jié)果。傳統(tǒng)金字塔結(jié)構(gòu)的網(wǎng)絡(luò)模型經(jīng)過較多網(wǎng)絡(luò)層的傳遞,特征信息丟失情況較明顯,而淺層網(wǎng)絡(luò)層往往具有較多邊緣、形狀、定位等特征,對于分割結(jié)果意義較大,具有雙塔結(jié)構(gòu)的網(wǎng)絡(luò)模型可以充分補(bǔ)充網(wǎng)絡(luò)各級特征信息,聚合出更好的特征融合結(jié)果。

      2.2 損失函數(shù)

      損失函數(shù)用于評價模型中預(yù)測值和真實值的差異程度。在圖像中,文字通常占據(jù)較小的空間,面積越小的文字區(qū)域,檢測難度越大。為準(zhǔn)確檢測文字區(qū)域,在損失函數(shù)的設(shè)計過程中需要考慮其特殊性。

      文字/非文字的判別,簡單來說就是一個二分類任務(wù),但由于文本實例的尺寸各不相同,若對每個像素賦予相同的權(quán)重會造成網(wǎng)絡(luò)檢測偏向大面積的文本行,而忽略小面積的文字區(qū)域。針對上述問題,本文引用Focal Loss[19]的平衡參數(shù),對正負(fù)樣本失衡的圖像進(jìn)行損失計算,計算公式如式(1)所示:

      其中,y為真實值數(shù)據(jù),y′為預(yù)測區(qū)域經(jīng)過激活函數(shù)的輸出,其值在0到1之間。對于普通交叉熵函數(shù),正樣本的輸出概率越大則損失值越小,反之負(fù)樣本的輸出概率越小則損失值越大。γ參數(shù)的引入使得函數(shù)不同于普通交叉熵?fù)p失函數(shù),能更關(guān)注困難、易錯分的樣本。本文令γ=2,則對于正樣本而言,(1-y′)γ的值很小,那么損失函數(shù)值也很?。粚τ谪?fù)樣本而言,預(yù)測概率為0.1的結(jié)果遠(yuǎn)比預(yù)測概率為0.7的樣本損失值小很多,γ參數(shù)的引入,令損失函數(shù)更加關(guān)注難以區(qū)分的困難樣本。

      Pixel Link算法中采用的OHEM[20](online har d example mining)對正負(fù)樣本數(shù)量按1∶3選取并進(jìn)行訓(xùn)練,僅保留損失值較大的負(fù)樣本,將一些損失值較小的簡單負(fù)樣本置零,而focal loss的設(shè)計將這類損失值也融入到整體損失函數(shù)中計算,雖然這些簡單樣本的損失值較小,但數(shù)量較多,其值對最終損失函數(shù)具有一定的影響力。通過新增參數(shù)對困難樣本進(jìn)行權(quán)重分配,滿足令損失函數(shù)更關(guān)注困難樣本的要求,并通過對困難樣本的不斷訓(xùn)練,優(yōu)化整體網(wǎng)絡(luò)模型的性能。

      在對每個像素進(jìn)行文字/非文字判別后,分別對其8領(lǐng)域的連接像素進(jìn)行損失計算。對于連接預(yù)測,僅計算判別結(jié)果為正的樣本損失值,這種判別問題仍是簡單的二分類任務(wù),因此選用最基礎(chǔ)的交叉熵函數(shù),如式(2)所示。y為真實值數(shù)據(jù),y′為預(yù)測區(qū)域經(jīng)激活函數(shù)的輸出。

      3 實驗結(jié)果與分析

      3.1 實驗環(huán)境

      本文算法使用的實驗系統(tǒng)為配置1個GPU型號為GTX Titan X的Ubuntu16.04,顯存為12 GB,核心頻率為1 075 MHz,CPU型號為Intel Xeon E5-1620@3.6 GHz×8,學(xué)習(xí)框架選用Tensorflow1.1.0,與PixelLink論文實驗環(huán)境中含3個同型號的GPU相比,配置較低。根據(jù)顯存大小將每次迭代輸入圖像的數(shù)量設(shè)置為4,該值過小會使網(wǎng)絡(luò)收斂不穩(wěn)定,影響實驗結(jié)果。

      3.2 實驗用數(shù)據(jù)集

      本算法使用的數(shù)據(jù)集ICDAR2015及ICDAR2017-MLT均屬于ICDAR基準(zhǔn)數(shù)據(jù)集[21],是ICDAR魯棒性閱讀比賽的官方數(shù)據(jù)集,其中包括文字定位數(shù)據(jù)庫、文字分割數(shù)據(jù)庫、單詞識別數(shù)據(jù)庫、端對端識別數(shù)據(jù)庫等。ICDAR2015數(shù)據(jù)集為自然場景中含文字區(qū)域的圖片,共有1 000張訓(xùn)練圖片與500張測試圖片,文字語言為英文,其文字尺度與方向任意,ICDAR2017-MLT數(shù)據(jù)集同為含自然場景的圖片,共有7 200張訓(xùn)練圖片和1 800張測試圖片,是目前語種最多且包含真實場景噪聲的數(shù)據(jù)集,該數(shù)據(jù)集較ICDAR2015難度較大。ICDAR數(shù)據(jù)集在場景文字區(qū)域檢測的領(lǐng)域中較為流行,因此本文測試結(jié)果具有較強(qiáng)的參考意義。

      3.3 評估指標(biāo)

      文字區(qū)域檢測領(lǐng)域內(nèi)有三項重要評估指標(biāo),分別是準(zhǔn)確率(Precision,P)、召回率(Recall,R)和綜合指標(biāo)(F-score,F(xiàn))[22]。其中,準(zhǔn)確率為可匹配真值框的預(yù)測框占所有預(yù)測框的比例,簡而言之就是表示預(yù)測為正的樣本中有多少是真正的正樣本,其定義式如式(3)所示:

      召回率是指可以與預(yù)測框匹配的真值框占所有真值框的比例,該評估指標(biāo)是針對原來的樣本,其含義是樣本中的正例有多少被正確預(yù)測了,其定義式如式(4)所示:

      F-score作為綜合評估指標(biāo),其定義式如式(5)所示,通常,該數(shù)值越高,則表示該算法模型越穩(wěn)定。

      準(zhǔn)確率與召回率是相對制衡的,隨著準(zhǔn)確率的增加,召回率會降低,而當(dāng)召回值增加時,準(zhǔn)確率會有所降低。在這類情況下,F(xiàn)-score的引入就顯得十分必要,該項指標(biāo)能直接判斷算法的有效性。

      3.4 實驗參數(shù)

      本文訓(xùn)練過程不使用預(yù)訓(xùn)練模型,設(shè)置前100次迭代的學(xué)習(xí)率為10-3,之后的學(xué)習(xí)率設(shè)置為10-4,使其能在訓(xùn)練初期擁有較大的學(xué)習(xí)率,加速收斂過程,而后通過較小的學(xué)習(xí)率,讓收斂過程變慢,使網(wǎng)絡(luò)在最優(yōu)值附近的一個很小的區(qū)域里擺動,以此來優(yōu)化因訓(xùn)練圖像過少而易產(chǎn)生過擬合的問題。

      其次,設(shè)置滑動平均衰減率為0.999 9,對網(wǎng)絡(luò)進(jìn)行滑動平均操作,使其得到的值在圖像上更加平緩光滑,避免因某次異常取值而出現(xiàn)較大的波動。對于采用隨機(jī)梯度下降算法的訓(xùn)練網(wǎng)絡(luò),滑動平均在一定程度上能提升最終模型的檢測效果。其余的一些參數(shù)設(shè)置如表1所示。

      表1 詳細(xì)訓(xùn)練參數(shù)Table 1 Detailed training parameters

      3.5 實驗結(jié)果分析

      相同實驗環(huán)境和相同實驗平臺下,在兩種數(shù)據(jù)集上進(jìn)行測試,為驗證各改進(jìn)點(diǎn)的有效性,在ICDAR2015數(shù)據(jù)集上逐步對各項改進(jìn)方法進(jìn)行疊加測試,并將該實驗結(jié)果分為三個部分分析,然后將經(jīng)過不斷補(bǔ)充優(yōu)化的完整算法在ICDAR2017上進(jìn)行補(bǔ)充實驗,最后與目前較為流行的模型進(jìn)行對比。本文方法的訓(xùn)練過程,未調(diào)用上一級實驗?zāi)P图捌渌A(yù)訓(xùn)練模型,均對網(wǎng)絡(luò)初始化后,訓(xùn)練相同步數(shù)進(jìn)行對比。

      逐步測試結(jié)果如表2所示,其中PixelLink*為該算法在本文實驗設(shè)備環(huán)境中復(fù)現(xiàn)的實驗結(jié)果。首先在FPN網(wǎng)絡(luò)的基礎(chǔ)上增加第二次融合路徑得到本文方法實驗數(shù)據(jù),準(zhǔn)確度達(dá)82.25%,較PixelLink*提升2%,F(xiàn)值也相繼提高至79.43%;接著,將網(wǎng)絡(luò)中后部分的橫向卷積替換為膨脹卷積,并新增一條路徑將低層強(qiáng)定位信息與高層強(qiáng)語義信息融合得到本文方法+實驗數(shù)據(jù),召回率提升至78.76%,較改進(jìn)前提升3%,F(xiàn)值相應(yīng)提高1.7%,網(wǎng)絡(luò)穩(wěn)定性更高;最后,在損失函數(shù)的設(shè)計中引用γ參數(shù)得本文方法++實驗數(shù)據(jù),準(zhǔn)確率提高3.8%,召回率提高1.4%,F(xiàn)值提高2.5%。PixelLink*模型的運(yùn)算速度為0.54 s/步,本文方法的運(yùn)算速度為0.42 s/步,并且三次實驗數(shù)據(jù)均優(yōu)于PixelLink*模型,綜合指標(biāo)逐次提高,因此綜合以上在ICDAR2015數(shù)據(jù)集上的測試對比,本文提出的各項改進(jìn)方法均有效,且本文方法++在各項評判指標(biāo)上均優(yōu)于PixelLink算法,且整體檢測效果最好。

      表2 數(shù)據(jù)集ICDAR2015實驗數(shù)據(jù)Table 2 Experimental data on ICDAR2015%

      為驗證本文方法的普適性,在數(shù)據(jù)集ICDAR2017-MLT上進(jìn)行驗證對比,結(jié)合數(shù)據(jù)集ICDAR2015的實驗數(shù)據(jù)分析,僅對測試結(jié)果最優(yōu)的本文方法++進(jìn)行測試。如表3所示本文方法的準(zhǔn)確率為71.56%,召回率為67.8%,F(xiàn)值為70.1%,數(shù)據(jù)值較低是由于ICDAR2017數(shù)據(jù)集的數(shù)量、語言種類及圖像尺寸更豐富,相比ICDAR2015數(shù)據(jù)集,難度較大,但各項評價指標(biāo)分別提高3.6%、4.6%、4.8%,因此本文提出的改進(jìn)算法在ICDAR2017數(shù)據(jù)集上的優(yōu)化效果更好。

      表3 數(shù)據(jù)集ICDAR2017實驗數(shù)據(jù)Table 3 Experimental data on ICDAR2017%

      將本文方法與近年來其他同類型文字檢測方法在ICDAR2015數(shù)據(jù)集上的測試結(jié)果進(jìn)行對比,進(jìn)一步驗證本文方法的有效性,為加強(qiáng)實驗結(jié)果對比的公正性,這些方法都采用VGG16作為特征提取器,比對結(jié)果如表4所示。其中CTPN算法[23]、SegLink算法[24]及EAST[25]算法[23]均為文字檢測領(lǐng)域中較為經(jīng)典的算法,本文方法的F值分別提高31.6%、6.9%、4.9%,準(zhǔn)確度及召回率方面的優(yōu)勢也較明顯。PSENet*[26]為目前該算法在TensorFlow框架下訓(xùn)練與測試的最優(yōu)結(jié)果,本文方法準(zhǔn)確度提高2.7%,召回率提高3.8%,F(xiàn)值提高3.3%。然而與CARFT[27]算法相比,本文方法在各項指標(biāo)上還有進(jìn)一步提升的空間,實驗數(shù)據(jù)差較大的主要原因是CARFT算法的實驗過程,使用了經(jīng)SynthText數(shù)據(jù)集訓(xùn)練的預(yù)訓(xùn)練模型,而本文方法未使用預(yù)訓(xùn)練模型。綜合以上數(shù)據(jù)對比,本文方法具有較強(qiáng)的競爭力。

      表4 各類文字檢測方法實驗結(jié)果對比Table 4 Experimental results of various text detection methods %

      實驗可視化結(jié)果表明,本文算法對于粘連單詞的檢測和對錯誤樣本的誤判程度均優(yōu)于原PixelLink算法。如圖4所示,對于右上角粘連文字,本文算法能清晰地將其分離成兩個單詞,圖5所示為原算法將非文字區(qū)域檢測為正樣本的誤判情況,在使用雙塔結(jié)構(gòu)算法的測試結(jié)果中得到明顯改善。通過對測試圖片可視化的對比可得,本文算法提出的利用具有雙塔結(jié)構(gòu)的特征融合模型并改進(jìn)損失函數(shù)進(jìn)行文字區(qū)域檢測,在準(zhǔn)確度和召回率上都有很好的表現(xiàn),能有效提高自然場景下的文字區(qū)域檢測準(zhǔn)確度,該算法有效可行。

      圖4 測試圖片可視化文字粘連情況對比圖Fig.4 Visualization about adhesion of text area

      圖5 測試圖片可視化誤判情況對比圖Fig.5 Visualization about misjudgment of text area

      4 結(jié)束語

      針對自然場景中的文字區(qū)域檢測任務(wù),本文提出一種具有雙塔結(jié)構(gòu)的特征融合模型,該算法包含兩個金字塔型的網(wǎng)絡(luò)通道,并利用膨脹卷積擴(kuò)大像素的感受野,同時新增一條路徑加強(qiáng)對定位信息和語義信息的融合;在損失函數(shù)設(shè)計中引入γ參數(shù),增強(qiáng)模型對困難樣本的學(xué)習(xí)能力。實驗表明,本文算法能有效提升文字檢測準(zhǔn)確度,但該方法仍有不足:對中文及彎曲文字區(qū)域檢測準(zhǔn)確率不高。在未來的研究工作中,將進(jìn)一步考慮對多語言及彎曲文字區(qū)域的檢測能力,并將本文提出的特征融合模型應(yīng)用于其他任務(wù),例如行人重識別、立體匹配等,以進(jìn)一步驗證其有效性。

      猜你喜歡
      卷積文字樣本
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      文字的前世今生
      用樣本估計總體復(fù)習(xí)點(diǎn)撥
      熱愛與堅持
      當(dāng)我在文字中投宿
      文苑(2020年12期)2020-04-13 00:55:10
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      推動醫(yī)改的“直銷樣本”
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      隨機(jī)微分方程的樣本Lyapunov二次型估計
      村企共贏的樣本
      库尔勒市| 馆陶县| 随州市| 蒲江县| 新源县| 镇雄县| 独山县| 犍为县| 洛川县| 思茅市| 华坪县| 金门县| 耒阳市| 克拉玛依市| 库尔勒市| 海原县| 翁牛特旗| 电白县| 辽宁省| 浦北县| 灵山县| 大厂| 沙河市| 太原市| 丰原市| 临潭县| 桂林市| 新建县| 平山县| 洱源县| 育儿| 阜城县| 玛多县| 宁国市| 新竹县| 丹江口市| 锡林郭勒盟| 浮梁县| 红安县| 疏勒县| 沈阳市|