• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度神經(jīng)網(wǎng)絡的移動端人像分割

      2020-12-31 02:24:40楊堅偉姚劍敏林志賢
      計算機應用 2020年12期
      關鍵詞:解碼器最大化編碼器

      楊堅偉,嚴 群,2*,姚劍敏,2,林志賢

      (1.福州大學物理與信息工程學院,福州 350108;2.晉江市博感電子科技有限公司,福建晉江 362200)

      (?通信作者電子郵箱qunfyan@gmail.com)

      0 引言

      近年來,隨著深度學習的發(fā)展,使用卷積神經(jīng)網(wǎng)絡進行高效率的圖像語義分割已經(jīng)成為計算機視覺中的熱門研究課題。同時,自動人像分割技術也引起越來越多的關注,尤其是在短視頻、美拍興起的今天,越來越多的人們依賴手機等移動設備來拍攝視頻和照片,以此來記錄日常生活,這種記錄生活點滴的方式已然成為人們生活中不可或缺的一部分?;谏疃壬窠?jīng)的人像分割技術有利于在圖像上進行背景編輯(例如背景虛化、替換等)應用,如圖1所示。

      語義分割的目的是為每個像素預測類別標簽,由于類別多樣繁雜,且類間表征相似度較大,語義分割要求模型具備強大的區(qū)分能力。近年來,基于全卷積網(wǎng)絡(Fully Convolutional Network,F(xiàn)CN)的一系列研究[1-5],在該任務上取得了顯著的成績;然而,與一般的圖像分割相比,人像分割具有模糊的邊界與復雜的場景,且它包含至少一個人臉區(qū)域,覆蓋整個圖像的20%以上空間的特征[6]。在移動設備應用中,拍攝的人像往往存在背景復雜、遮擋、曝光和分辨率不高等問題。傳統(tǒng)的人像分割工作大多數(shù)具有邊沿鋸齒狀嚴重、分割粗糙且效率低的缺點,同時存在部分誤分割、漏分割以及分割過多或分割過少的問題。

      如何有效地解決這些問題,確保高精度、高效率地部署到移動設備之中,是非常具有挑戰(zhàn)性的。在本文中,提出了一種基于深度神經(jīng)的新型人像分割網(wǎng)絡,該網(wǎng)絡專門設計用于有限計算能力的移動設備。在網(wǎng)絡架構(gòu)方面,采用MobileNet-V2[7]作為編碼器主干,用于特征提取,這有助于提高網(wǎng)絡推理速度。為了構(gòu)建豐富的空間信息,將編碼器各分支的特征信息映射至解碼器各層之中進行融合,其中,解碼器部分主要由新定義的殘差塊[8]與上采樣塊構(gòu)成。另外,為了模型能夠更好地捕獲上下文語義信息,采用期望最大化注意力塊(Expectation Maximization Attention Unit,EMAU),放置于編碼器之后,使每個特征像素可以充分捕獲全局信息并提高網(wǎng)絡的魯棒性。對于卷積神經(jīng)網(wǎng)絡而言,解決前后背景邊界輪廓的精確分割與鋸齒狀問題是很困難的,針對該問題,在網(wǎng)絡訓練階段,設計了多層邊界輔助損失函數(shù),幫助網(wǎng)絡更好地學習邊界信息。實驗結(jié)果表明,所提模型在Veer 數(shù)據(jù)集上取得了高效率、高精度的結(jié)果。

      圖1 移動設備上的人像分割應用Fig.1 Portrait segmentation applications on mobile device

      1 相關工作

      人像分割模型與語義分割和輕量卷積神經(jīng)網(wǎng)絡的研究有關,本章介紹了經(jīng)典的語義分割方法和增強上下文信息的有效操作。

      語義分割是計算機視覺領域的一項基礎任務,許多應用需要高效率、高精度的分割結(jié)果作為分析和理解圖像的依據(jù)。隨著深度學習的發(fā)展,全卷積神經(jīng)網(wǎng)絡[1]被提出,解決了深度學習在圖像語義分割的瓶頸問題。對圖像進行像素級分類,為語義分割領域的研究打開了一扇門。SegNet[9]提出了用于分割的經(jīng)典編碼器-解碼器結(jié)構(gòu),將編碼索引從編碼器轉(zhuǎn)移到解碼器之中,以生成稀疏特征圖。UNet[2]結(jié)合了高級特征和中級特征的優(yōu)點,將高分辨率特征從編碼器傳輸?shù)浇獯a器中進行上采樣,以恢復空間信息。DeepLab[3-5]系列網(wǎng)絡是在全卷積神經(jīng)網(wǎng)絡的基礎上提出來的圖像語義分割,屬于研究領域中比較經(jīng)典的算法。DeepLab[4]使用擴張卷積來維持特征映射,并使用條件隨機場(Conditional Random Field,CRF)來重新定義分割結(jié)果。DeepLab-v2[3]相較于DeepLab 添加了空洞空間卷積池化金字塔(Atrous Spatial Pyramid Pooling,ASPP),實現(xiàn)了圖像語義分割。DeepLab-v3[5]刪除了條件隨機場模塊,并修改了空洞空間卷積池化金字塔模塊以提高準確性。ExFuse[10]中提出了一種新的框架來彌合低級和高級特征之間的差距,從而提高了分割質(zhì)量。這些經(jīng)典的語義分割方法擁有較高的精度,但推理效率相對較低。

      另外,為了彌補全卷積網(wǎng)絡受制于較小感知域的缺陷,諸多研究提出了高效的多尺度上下文融合模塊,例如全局池化層、DeepLab 的空洞空間卷積池化金字塔、金字塔場景分析網(wǎng)絡(Pyramid Scene Parsing Network,PSPNet)[11]的金字塔池化塊等。近年來,自注意力機制在自然語言處理領域取得了卓越成果。為了進一步聚合來自空間中所有位置的信息,研究者們開始將自注意力機制引入圖像語義分割領域,提出了Nonlocal[12]操作,并驗證了在語義分割中的有效性,它使得每個像素可以充分捕獲全局信息。然而,自注意力機制需要生成一個巨大的注意力圖,其空間復雜度和時間復雜度巨大,這對于輕量級網(wǎng)絡而言,并不適用。

      出于模型輕量化的角度,本文采用以下幾個方法進行輕量級網(wǎng)絡的構(gòu)建:1)提出的人像分割網(wǎng)絡使用MobileNet-v2作為主干來提取圖像特征,并使用深度可分離卷積來代替?zhèn)鹘y(tǒng)卷積。2)采用輕量級的期望最大化注意力塊作為理解圖像上下文的語義模塊。該模塊摒棄了在全圖上計算注意力圖的流程,轉(zhuǎn)而通過期望最大化(Expectation Maximization,EM)算法[13]迭代出一組緊湊的基底,在這組基底上運行注意力機制,從而大大降低了復雜度。3)輕量化網(wǎng)絡模型相較于大型復雜的模型而言,其分割精度是有所下降的。為了保持模型的輕量化,且有效地提升分割精度,與復雜模型相媲美,將多層邊界輔助損失引入訓練階段,提升模型的分割精度。4)后期推理階段,在保持高準確度的情形下,對模型進行量化,達到壓縮模型提升運行速度的效果。

      2 本文方法

      本章首先介紹了為移動設備專門設計的人像分割架構(gòu),它包括編碼器模塊和解碼器模塊;接著,描述期望最大化注意力塊的核心算法與內(nèi)部結(jié)構(gòu);最后,講解模型訓練階段引入的多層邊界輔助損失,該損失函數(shù)只參與訓練過程,在測試階段不會增加額外的計算損耗。

      2.1 人像分割網(wǎng)絡結(jié)構(gòu)

      在語義分割模型中,受輕量級模型研究的啟發(fā),采用深度可分離卷積取代標準卷積[14],可極大減少網(wǎng)絡的計算量,這有助于實現(xiàn)推理效率更高的分割模型,圖2 顯示了人像分割網(wǎng)絡框架。基于理論與實踐結(jié)果,選擇MobileNet-V2 作為編碼器主干,用于從原始RGB 圖像中提取特征。為了成功部署到移動設備上且實現(xiàn)實時性能,在編碼器中使用小的輸入尺寸224×224 和16 倍下采樣率。同時,在解碼器中采用16 倍上采樣率的U 形架構(gòu)來重建空間信息,將編碼器各層信息映射至解碼器對應層中進行融合,以充分利用中高級語義特征。為了降低模型的復雜度,與編碼器相比,解碼器結(jié)構(gòu)相對簡單,主要包含上采樣塊與轉(zhuǎn)換塊。上采樣塊基于雙線性插值的上采樣操作,對每個層的特征映射進行2 倍上采樣。轉(zhuǎn)換塊是基于深度可分離卷積修改得到的殘差塊[15],具體如圖2(b)所示。該模塊主要有兩個分支:一個分支包含兩個深度可分離的卷積,另一個分支包含單個1×1卷積來調(diào)整通道數(shù)。另外,要實現(xiàn)高精度分割,解決誤分割、漏分割的問題,模型必須充分了解豐富的全局空間信息,由此引入期望最大化注意力塊置于編碼器之后、解碼器之前,故總結(jié)構(gòu)為編碼器-期望最大化注意力塊-解碼器。

      2.2 期望最大化注意力塊

      自我關注機制已被廣泛用于各種任務,旨在通過所有位置的特征加權和來計算每個位置的表示,因此,它可以捕獲計算機視覺任務的遠程關系;但是,該機制在計算損耗上是非常大的,不適合輕量化模型。針對該問題,Li等[16]從期望最大化算法的角度重新思考了注意力機制,提出了期望最大化注意力機制。該機制使用期望最大化算法迭代出一個更緊湊的基底,而不是將所有像素都視為重建基底,這可以極大降低計算復雜度。

      圖2 人像分割網(wǎng)絡模型架構(gòu)Fig.2 Model architecture of portrait segmentation network

      2.2.1 期望最大化算法

      期望最大化算法[17]旨在為隱變量模型尋找最大似然解。對于易知的觀測數(shù)據(jù){X1,X2,…,XN},定義為X,每一個觀測數(shù)據(jù)點Xi都有其對應的隱變量Zi。將{X,Z}稱為完整數(shù)據(jù),其似然函數(shù)為lnP(X,Z|μ),其中μ為模型的參數(shù)。期望最大化算法分為E 步和M 步,其中E 步根據(jù)當前模型參數(shù)μold計算隱變量Z的后驗分布,并尋找完整數(shù)據(jù)的似然解?(μ,μold):

      M步通過最大化似然函數(shù)來更新網(wǎng)絡參數(shù)得到μ:

      期望最大化算法交替執(zhí)行E 步和M 步,直到滿足收斂標準。該算法被證明會收斂到局部最大值,且迭代過程完整數(shù)據(jù)似然值單調(diào)遞增。

      2.2.2 期望最大化注意力機制

      期望最大化注意力機制由注意力估算(Attention Estimation,AE)、注意力最大化(Attention Maximization,AM)和注意力再估計(Attention Re-estimation,AR)三部分組成。其中,AE、AM 分別對應于EM 算法的E 步和M 步,AE 負責估計隱變量,AM 負責更新基底[18]。由AE 和AM 交替執(zhí)行T步后,近似收斂的基底μ和隱變量Z,交由AR 環(huán)節(jié)進行特征圖重估:

      重估結(jié)果-X相較于X,具有低秩特性。實驗中,迭代次數(shù)T=3,便達到近似收斂,輸出為基底的加權和,權重即為式(3)的Z,表示最終注意力圖。這種機制消除了許多不必要的噪聲,并使每個像素的最終分類更容易處理。

      期望最大化注意力塊結(jié)構(gòu)如圖3 所示,除了核心的期望最大化注意力之外,還含有兩個1×1卷積分別放置于期望最大化注意力前后。前者將輸入特征進行空間壓縮;后者將特征重估映射回觀測數(shù)據(jù)殘差空間之中。囊括進兩個卷積,期望最大化注意力塊的每秒峰值速度FLOPS(Floating-Point Operations Per Second)僅為同樣輸入輸出大小的3×3 卷積的1/3。

      圖3 期望最大化注意力塊結(jié)構(gòu)Fig.3 Structure of Expectation Maximization Attention Unit(EMAU)

      2.3 邊界輔助損失

      為了提高模型的推理速度,本文設計的編碼器模塊、解碼器模塊是采用深度可分離卷積替代傳統(tǒng)卷積。相較于復雜模型而言,其分割精度有所下降,故在模型訓練階段,引入高效的邊界損失函數(shù)[19],有助于提高模型對人物邊界的分割精度。

      與一般的目標分割相比,人像分割模型對分割前后景邊界更敏感,需要網(wǎng)絡產(chǎn)生更清晰的掩膜邊界,以利于后期圖像編輯。為了充分利用語義邊界中包含的有用信息,除了語義分割的交叉熵作為損失之外,本文設計了邊界輔助損失函數(shù)。通過對掩膜標簽圖像的膨脹、腐蝕操作后,基于二者相減,進一步得到形態(tài)學梯度結(jié)果,以此生成邊界輪廓圖,如圖4 所示,在待分割物體的邊界圖中,物體邊界區(qū)域的像素值為1,其他區(qū)域的像素值均為0。本文在編碼器到解碼器的各分支跳線上,利用邊界輔助損失指導多層卷積,進一步學習圖像的關鍵特征,使得有效地用于推斷更好的結(jié)果。邊界輔助損失函數(shù)的定義由Focal Loss[20-21]得到,具體的總損失有:

      其中:Lce是分割交叉熵值;LB是邊界損失值;為了避免交叉熵值與邊界損失值產(chǎn)生無端競爭,在總損失式中設置權重參數(shù)α。為確保式(4)、(5)的可行性,式中yi代表掩膜標簽像素i的真實值,由于在數(shù)據(jù)加載階段將圖像像素點進行歸一化操作,使值介于0-1 兩極分布。pi代表掩膜預測像素i的預測值,該預測值由特征圖經(jīng)softmax 函數(shù)取得。另外,式中的τi是基于形態(tài)學梯度的像素權重值,其表達式如下:

      其中:dilate(·)是對掩膜標簽進行膨脹操作;erode(·)是對掩膜標簽進行腐蝕操作;kernel代表卷積核參數(shù),該參數(shù)大小決定待分割物體的邊界區(qū)域大小。經(jīng)實踐總結(jié),本實驗采用5×5的卷積核進行圖像處理。通過對邊界損失的實踐使用,可以更好地保留人物的邊緣輪廓,進而提高模型對人像邊界的敏感度。

      圖4 邊界損失輪廓Fig.4 Boundary loss contour

      2.4 多層損失

      常規(guī)的損失函數(shù)利用神經(jīng)網(wǎng)絡最后一層的輸出與相應的類別標簽計算損失值,然后利用損失值計算參數(shù)的梯度,為網(wǎng)絡完成參數(shù)更新??紤]到卷積神經(jīng)網(wǎng)絡往往具有深層結(jié)構(gòu),不同層級之間存儲著不同等級的特征信息。傳統(tǒng)的損失函數(shù)只能宏觀地指導網(wǎng)絡整體的訓練方向,無法準確地指導神經(jīng)網(wǎng)絡的某一部分完成相應的任務。因此,本文引入多層損失,在網(wǎng)絡的多層次結(jié)構(gòu)中引出不同層級的特征圖進行損失計算,從而在訓練過程中指導網(wǎng)絡不同部分向正確的方向?qū)W習,降低網(wǎng)絡的訓練難度,提升網(wǎng)絡的分割精度。

      本文的語義分割網(wǎng)絡經(jīng)過編碼器共下采樣了四次,然后通過解碼器逐漸將特征圖恢復成原尺寸。因此,利用不同下采樣尺度的特征圖進行損失計算,可以指導神經(jīng)網(wǎng)絡中處理不同尺度特征圖的子網(wǎng)絡進行正確的參數(shù)更新。將解碼器中第1、2、3、4 層的輸出特征圖分別經(jīng)過一個1×1 的卷積核后得到尺寸為112×112×2、56×56×2、28×28×2、14×14×2的分割圖像。然后將各層輸出分割結(jié)果同對應尺寸的掩膜標簽進行交叉熵與邊界損失計算。多層損失計算示意圖如圖2 所示,圖中的⊕代表交叉熵與邊界損失操作,該損失計算模塊只在訓練階段使用,前向推理階段直接去除。引入多層損失的計算式如下:

      3 實驗與結(jié)果分析

      在本章中,首先介紹數(shù)據(jù)集的制作與擴充方法,然后對實驗裝置和模型量化進行講解,最后進行消融研究并評估網(wǎng)絡的性能。

      3.1 數(shù)據(jù)集

      目前公開的人像可用數(shù)據(jù)比較有限,例如EG1800、Supervise-Portrait 等。整體數(shù)據(jù)的掩膜標簽分割精度較粗糙,且部分圖像分割帶有主觀色彩。為了更好地訓練人像分割網(wǎng)絡,本文要求數(shù)據(jù)應具有注重頭發(fā)絲細節(jié)效果的掩膜標簽。因此,從Veer 圖庫收集包含各種年齡、不同膚色、服裝、發(fā)飾、頭部位置、場景等的高質(zhì)量圖像,數(shù)據(jù)如圖5 所示。這些圖像主要是由移動設備的前置攝像頭拍攝的自拍像。接著通過放大局部區(qū)域來對每個圖像的目標進行統(tǒng)一規(guī)格裁剪,然后使用K近鄰摳圖(K-Nearest Neighbor Matting,KNN-Matting)進行掩膜標簽的生成,并對生成結(jié)果進行手動檢查。對于不符合標準的圖像,使用Photoshop 軟件,手動創(chuàng)建掩膜標簽。在此標記之后,收集了6 000 張高質(zhì)量的自拍圖像及對應的掩膜標簽。

      但這批小量化數(shù)據(jù)不足以訓練神經(jīng)網(wǎng)絡,且其多樣性受到嚴重限制。為了減少數(shù)據(jù)籌建的工作量,決定通過將實際圖像中的前景對象合成到新背景上[22],以此創(chuàng)建更大的數(shù)據(jù)集。通過收集30 000 張背景圖,將透明的前景圖像與新背景圖進行隨機圖像貼合。以上述方法創(chuàng)建了用于訓練和測試的數(shù)據(jù)集,最終擁有25 862張訓練圖像與350張測試圖像。

      圖5 Veer人像數(shù)據(jù)示例Fig.5 Samples of Veer portrait data

      3.2 數(shù)據(jù)擴充

      考慮到自拍圖像一般有比較復雜的背景、曝光、天氣等因素,為了提高模型的泛化性,本文采用圖像形變增強和紋理增強兩種方式進行數(shù)據(jù)增強。其中:形變增強會改變圖像中目標的位置和大小,不影響圖像的紋理特性;紋理增強保持目標的位置和大小,增強目標所在背景的紋理性質(zhì),以此提高數(shù)據(jù)的多樣性。具體數(shù)據(jù)增強示例如圖6所示。

      實驗中圖像形變增強方法包括:

      1)圖像上下前后隨機翻轉(zhuǎn){-0.25~0.25};

      2)圖像隨機縮放{0.8~1.5},進行原圖尺寸裁剪;

      3)圖像隨機切邊{-0.15~0.15};

      4)圖像隨機旋轉(zhuǎn){-45°~45°}。

      實驗中圖像紋理增強方法包括:

      1)圖像天氣效果隨機添加{雨、霧、雪、云、陽光};

      2)圖像色彩隨機調(diào)節(jié){0.4~2.0};

      3)圖像對比度隨機調(diào)節(jié){0.6~1.8}。

      圖6 數(shù)據(jù)增強示例Fig.6 Samples of data augmentation

      3.3 實驗裝置

      本設計基于主流的深度學習框架TensorFlow,使用Pycharm 編輯器進行編程,使用NVIDIA-1080Ti 設備進行網(wǎng)絡訓練工作。在訓練期間,設置網(wǎng)絡可接收數(shù)據(jù)量batchsize 為35,初始學習率為0.01,終止學習率為0,采用多項式衰減方法調(diào)整學習率與標準動量優(yōu)化方法進行優(yōu)化。為了獲得更高的運行速度,在具有3個通道的224×224的RGB 圖像上訓練和測試模型性能。

      3.4 模型量化

      隨著神經(jīng)網(wǎng)絡深度增加,網(wǎng)絡節(jié)點變得越來越多,規(guī)模隨之變得非常大。想要在有限資源的硬件設備上布置性能良好的網(wǎng)絡,就需要對網(wǎng)絡模型進行壓縮和加速。深層神經(jīng)網(wǎng)絡模型中含有大量的浮點權重,會占據(jù)大量空間。但是這些權重的分布范圍符合正態(tài)分布,集中在一個數(shù)字范圍內(nèi)。因此量化最簡單的動機就是存儲每層的最值,并將最值區(qū)間的浮點數(shù)映射到0~255 的8 位整型上。另一個量化動機是減少推斷時所需要的計算資源,帶來速度和空間上的收益。

      本文使用的是Tensorflow Lite 中自帶的量化工具包。首先,在訓練階段,計算損失函數(shù)后生成偽量化計算圖,進而生成pb文件;接下來,使用freeze-graph操作凍結(jié)pb文件和ckpt,生成新的凍結(jié)的pb 文件;最后,使用toco 量化凍結(jié)后的pb 文件,生成tflite文件。

      3.5 消融研究

      在本節(jié)中,評估所提出網(wǎng)絡的性能。首先,驗證輕量級網(wǎng)絡的有效性;接著,將其與經(jīng)典的方法進行各性能比較。

      3.5.1 模型有效性分析

      為了進一步驗證本文提出的輕量級網(wǎng)絡構(gòu)建的有效性,進行了五組實驗:一組為編碼器-解碼器的結(jié)構(gòu),采用交叉熵計算網(wǎng)絡損失;二組為編碼器-EMAU-解碼器的結(jié)構(gòu),采用交叉熵計算網(wǎng)絡損失;三組為編碼器-EMAU-解碼器的結(jié)構(gòu),采用交叉熵與邊界損失進行網(wǎng)絡損失值的計算;四組為編碼器-EMAU-解碼器的結(jié)構(gòu),采用交叉熵、邊界損失與多層損失指導網(wǎng)絡進行損失值的計算;五組為編碼器-EMAU-解碼器的結(jié)構(gòu),采用交叉熵、邊界損失與多層損失指導網(wǎng)絡進行損失值的計算,最后采用模型量化方式進行模型壓縮。根據(jù)實踐經(jīng)驗,本文將式(6)的α設置為0.5 來平衡交叉熵和邊界損失。為保證結(jié)果的可對比性,在實驗中,實驗裝置的所有超參數(shù)都是相同的。

      用于評估分割精度(精準度)的指標為交并比(Intersection-Over-Union,IOU),定義如下:

      其中,mask_Pi和mask_GTi分別表示測試集的第i個圖像的預測結(jié)果和掩膜標簽。各組實驗的迭代次數(shù)及對應精度如圖7所示,記錄迭代次數(shù)為10~95 的總體分割精度趨勢走向。基于迭代次數(shù)為90 輪時,分割精度區(qū)域穩(wěn)定,故選取各實驗的該輪迭代結(jié)果進行性能分析,具體效果如表1 所示。對比實驗一組、二組,在網(wǎng)絡中添加EMAU,網(wǎng)絡分割精度提升了9.52%,同時,在NVIDIA-1080Ti 設備上的單張圖片推理時長增加了13.81 ms(289%);對比實驗二組、三組,在相同的網(wǎng)絡結(jié)構(gòu)中,引入邊界損失,網(wǎng)絡分割精度提升了0.38%,不增加推理額外損耗;對比實驗三組、四組,在相同的網(wǎng)絡結(jié)構(gòu)中,添加多層損失,網(wǎng)絡分割精度提升了0.52%,同樣不增加推理額外損耗;對比實驗二組、四組,本文提出的多層邊界損失有助于模型目標邊沿的細分割,網(wǎng)絡精度提升了0.90%;實驗五組是在實驗四組的訓練結(jié)果上進行模型量化操作,目的是方便部署至移動端。相較于實驗四組,實驗五組在NVIDIA-1080Ti設備上的單張圖片推理時長大幅減少至5.03 ms,同時也帶來了分割精度下滑至95.57%的影響。從總體性能而言,模型量化帶來的效益是很可觀的。

      表1 不同方法的精度與速度對比Tab.1 Comparison of accuracy and speed of different methods

      3.5.2 準確性分析

      選擇PortraitFCN+[23]、ENet[24]、BiSeNet[25]、PortraitNet 作為基線,進行性能比較,表2記錄了各方法在Veer測試集上的分割精度。對于部署到移動端的實時推理測試,本文使用MobileNet-V2 作為骨干,用于從原始圖像中提取特征信息,并且通過期望最大化注意力塊捕獲像素與像素之間的關聯(lián)性,最后使用U 型架構(gòu)來生成清晰的分割邊界。在整個網(wǎng)絡中,采用深度可分離卷積來提高運行速度。經(jīng)過實踐實驗,本文將網(wǎng)絡可接收輸入圖像尺寸設置為224×224 以進行實時推斷。圖8顯示了不同方法產(chǎn)生的人像分割結(jié)果。

      圖7 不同組實驗的迭代精度對比Fig.7 Comparison of iteration accuracy of different groups of experiments

      圖8 不同模型的分割結(jié)果Fig.8 Segmentation results of different models

      3.5.3 速度分析

      推理效率對部署到移動端的應用來講是至關重要的。本文對不同模型,進行浮點運算(FLOPS)、參數(shù)量(Parameters)的評估以及在NVIDIA-1080Ti 設備上測試各模型推理單張圖像的效率,詳情見表2。與其他方法相比,本文方法在精度和效率方面都取得了顯著的性能,能夠在Veer 數(shù)據(jù)集上得到95.57%的分割精度,在NVIDIA-1080Ti 設備上的單張圖像推理耗時約為5.03 ms。

      表2 不同模型的定量性能比較Tab.2 Quantitative performance comparison of different models

      4 結(jié)語

      在本文中,詳細介紹了人像分割網(wǎng)絡,這是一種輕量級模型,專門為計算能力有限的移動設備所設計。本文實驗在原有的編碼器-解碼器結(jié)構(gòu)中,添加期望最大化注意力塊,能夠幫助模型更好地理解語義特征。另外,在訓練階段,引入多層邊界輔助損失,有助于解決邊沿分割鋸齒化問題,使網(wǎng)絡產(chǎn)生更清晰的邊界,而這一過程無需額外的分割推斷損耗。實驗結(jié)果表明了該方法的可行性,驗證了該網(wǎng)絡可以用于移動設備上的實時人像分割。

      猜你喜歡
      解碼器最大化編碼器
      科學解碼器(一)
      科學解碼器(二)
      科學解碼器(三)
      勉縣:力求黨建“引領力”的最大化
      當代陜西(2021年1期)2021-02-01 07:18:12
      Advantages and Disadvantages of Studying Abroad
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
      劉佳炎:回國創(chuàng)業(yè)讓人生價值最大化
      華人時刊(2019年15期)2019-11-26 00:55:44
      基于FPGA的同步機軸角編碼器
      基于PRBS檢測的8B/IOB編碼器設計
      JESD204B接口協(xié)議中的8B10B編碼器設計
      電子器件(2015年5期)2015-12-29 08:42:24
      侯马市| 独山县| 集安市| 萝北县| 赤峰市| 德兴市| 岳普湖县| 巴林左旗| 新龙县| 香格里拉县| 吴桥县| 河南省| 新密市| 巧家县| 方正县| 丹寨县| 新兴县| 土默特左旗| 云林县| 长葛市| 新干县| 西充县| 凤山县| 鄂托克前旗| 全椒县| 永州市| 陈巴尔虎旗| 郴州市| 玉山县| 航空| 舒兰市| 仁化县| 新余市| 贺州市| 宾川县| 北流市| 玉林市| 元谋县| 北碚区| 大荔县| 马山县|