易 茹
(安徽工貿(mào)職業(yè)技術學院 藝術與傳媒學院,安徽 淮南 232007)
人工智能技術在20世紀90年代開始嶄露頭角,機器視覺技術經(jīng)過20年的發(fā)展,已廣泛應用于視頻監(jiān)護、虛擬成像、影視制作等行業(yè)[1]。尤其是人物建模生成二維動畫的技術,是目前科技研究的熱點之一。人物建模的關鍵在于人物運動狀態(tài)下的姿態(tài)識別及模擬,對視頻圖像的預處理、人物邊緣輪廓繪制提煉,并運用大數(shù)據(jù)分析建模最終生成人體二維動畫模型[2-3]。隨著機器學習在圖像處理領域的應用逐漸成熟,將深度學習與計算機二維動畫成像技術結合成為可能,Arikan O等人提出了使用Toronto大學的通用模型-線框模型建模,建模方法效率較高,圖像取材簡單,但是數(shù)據(jù)噪聲過大,影響了動作的精確度[4]。浙江大學CAD&CG國家重點實驗室通過曲線/曲面建模以及真實感圖形繪制,輔助以計算機動畫模擬進行人體動作建模,實驗效果較好,但特征匹配的精確度值對最終的建模結果影響較大。國內(nèi)其他的科研單位,尚處于學術探索和研究階段,提出的算法在應用時往往對硬件的計算能力有較高的要求[5]。從國內(nèi)外研究情況來看,人物姿態(tài)的識別及二維動畫生成的關鍵在于對人物本身的每個動作的姿態(tài)提取、圖像壓縮以及后續(xù)的提煉運用,而深度學習領域的卷積神經(jīng)網(wǎng)絡在醫(yī)學圖像的處理上展示了強大的優(yōu)勢[6]。本文將著重研究深度神經(jīng)網(wǎng)絡與動畫成像技術的有效結合,提出改進的卷積神經(jīng)網(wǎng)絡架構,實現(xiàn)多人運動復雜場景下實時的、二維的人物姿態(tài)輸出。運用動畫建模技術生成二維的動畫圖像,對比經(jīng)典的算法,本文算法明顯提高了動作識別的精準度以及算法的執(zhí)行速度。
將深度學習的神經(jīng)網(wǎng)絡架構應用于人體姿態(tài)、識別算法,其輸入數(shù)據(jù)為視頻攝像機獲取的真彩圖像。首先對真彩圖像進行縮放處理,經(jīng)過神經(jīng)網(wǎng)絡結構多次處理后,形成人體姿態(tài)的關鍵輸出點位,與真彩圖像的位置相呼應,最終形成人體姿態(tài)模型圖。在此基礎上進行動畫加工,生成最終的二維動畫[7]。
上述過程是目前研究人員已經(jīng)論證并實施的算法,針對此算法,本文對神經(jīng)網(wǎng)絡處理算法進行了優(yōu)化,讓原本需要多次迭代處理的圖像的過程簡化為僅需一次執(zhí)行,同時結合聚類算法對關鍵點進行歸類處理,提升整體效能的同時改進了算法準確性。算法結構如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構圖
本文提出的算法基于由下而上的人體姿態(tài)識別算法,在多人復雜的環(huán)境下,率先識別人員運動的關鍵點,然后經(jīng)過關鍵點的合理鏈接形成人體運動骨骼圖。利用卷積神經(jīng)網(wǎng)絡處理基礎圖片時,只需要進行一次卷積即可完成分析。首先根據(jù)人體關節(jié)點坐標、關節(jié)層級和類型,建立人體有向鏈路的特征圖,便于圖像的數(shù)字化處理進而完成卷積運算,如圖2所示。
圖2 人體有向鏈路的特征圖
圖2所代表的人體特征圖中,對關鍵關節(jié)點的坐標、層級及類型以特征向量的形式標識,對于特征點(x,y),其對應的特征向量為公式(1):
{Pc,Tto}
(1)
式中:Pc代表特征點(x,y)及其對應關節(jié)所歸屬的類型的概率值;Tto代表特征點的父節(jié)點的坐標值與該特征點本身坐標的偏置值,該數(shù)值為特征向量值。
基于概率論基礎知識,以像素值為(w,h)的圖像為例,進行卷積神經(jīng)處理后,其熱圖特征圖的大小為(w/8,h/8,9),對應的偏置特征向量圖的大小為(w/8,h/8,2)。標識該圖像對應的熱圖中坐標點(x,y)的特征向量值代表了關節(jié)坐標點的類型及其概率值,計算方法如公式(2):
{Phead,Pneck,Pshoulder,Parm,Phahd,Ppelvis,Pknee,Pfoot,Pbackground}
(2)
對人體姿態(tài)識別過程中的關鍵關節(jié)點分類和歸類,本文采取的處理方式為以限定范圍的視野數(shù)據(jù)為輸入,對局部輸入?yún)^(qū)域的像素進行針對性的分類,提升算法執(zhí)行效能。
通過偏置向量值計算目標所在的位置進行歸類,無需投入精力運算方向的特征向量映射矩陣,極大地提升了卷積神經(jīng)網(wǎng)絡的處理能力。本文的算法采用局部輸入像素法處理圖像,識別人體左右方向難度較大,因此,在預處理階段進行左右識別處理,以降低卷積神經(jīng)網(wǎng)絡的處理難度。
本文所采用的端到端的全卷積神經(jīng)網(wǎng)絡的整體架構如圖3所示。
圖3 端到端的全卷積神經(jīng)網(wǎng)絡的整體架構
在圖3所示網(wǎng)絡結構圖中,輸入圖片卷積部分采用的前端處理結構為ResNet34,即殘差網(wǎng)絡結構,對圖片完成多輪迭代卷積處理的圖片大小已經(jīng)縮小數(shù)倍,此時應用層間殘差進行連接來改善網(wǎng)絡的深度處理能力,避免出現(xiàn)網(wǎng)絡梯度消失的問題。
第二部分核心是反卷積部分,在圖片采樣的同時,進行卷積操作。在逐層卷積的過程,通過層間的連接完成特征圖層的累加操作,從而降低因為原始圖片經(jīng)過反復縮放后引起的圖像分辨率變小的問題。
第三階段為中間圖像生成階段,通過反卷積操作得到輸出特征向量圖,進行圖像檢測過程處理,該過程經(jīng)過3個1×1的卷積縮小后的特征圖數(shù)據(jù)量的殘差模塊處理后,使用3×3的卷積完成特征提取。
第四階段為圖像生成處理模塊,通過2個不同的圖像處理環(huán)節(jié),獲得熱圖和卷積層級鏈接圖。這個部分引入了注意力模塊,該模塊對于高注意力值的圖片設置高權重,并將圖片的分辨率處理分為2個部分,一是生成關鍵關節(jié)點的熱圖,二是生成對應的鏈接圖,從而加速處理過程。
最后一個階段為輸出階段,使用1×1的卷積層完成反卷積層處理,并與中間圖像生成階段的輸出圖串聯(lián),獲得最終生成結果。
在輸入圖像識別階段,算法的核心在于RestNet34的殘差網(wǎng)絡結構。深度學習的原理是通過設置深層網(wǎng)絡提升學習效果,但是由于前向反饋及傳播次數(shù)的增加導致梯度消失以及梯度爆炸出現(xiàn)的頻率變高,因此,本文引入了殘差來改善上述問題,殘差x1+1的計算公式為:
x1+1=x1+F(x1,W1)
(3)
其中:x1代表網(wǎng)絡的輸入數(shù)據(jù);F(x1,W1)代表網(wǎng)絡的輸出數(shù)據(jù);W1代表殘差的輸出單元。通過公式(3)可以發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡學習的輸入與輸出存在差異,殘差的網(wǎng)絡在正向傳播時能避免網(wǎng)絡層數(shù)增加造成傳輸質(zhì)量的降低,也可以避免梯度消失,實現(xiàn)正常回傳。本文采用的VGG為19層,屬于深度訓練網(wǎng)絡,引入殘差結構來避免層數(shù)增加造成的傳播質(zhì)量下降問題非常關鍵。
在圖像生成的階段,采用了基于注意力處理模塊完成關節(jié)點連接生成熱圖的動作。注意力處理模塊主要包含卷積塊和3×3的卷積層,考慮到各種級別的特征圖所對應的檢測對象的比率不同,圖像生成階段會引入掩碼圖,進行層級匹配。具體結構如圖4所示,包含通道注意力和輸出注意力模塊,分別用于提取特征圖和增強特征圖。
圖4 注意力網(wǎng)絡結構圖
另外,經(jīng)過實驗發(fā)現(xiàn),常用的損失函數(shù)對于引入殘差網(wǎng)絡的深度學習網(wǎng)絡性能和速度提升作用不明顯,本文提出了新的帶有掩碼的L2損失函數(shù)的計算方法,如公式(4)所示。
(4)
其中:L代表損失;x,y是指的輸入的數(shù)據(jù)樣本;x′,y′是標簽項值;h,w代表樣本圖片的高度和寬度。
本實驗的測試訓練集選取了MSCOCO的大型圖像數(shù)據(jù)集,該數(shù)據(jù)集包含了物理上的人物渲染架構機制,以及各種運動姿態(tài)下人體的關節(jié)信息、服飾信息、人物表情信息等,配合各種光流、背景、天氣等情況,較好地滿足人物姿態(tài)識別及二維動畫建模的需要。訓練過程中,提煉數(shù)據(jù)集中標注的人體關鍵點的位置坐標值和可見的類型識別值。在數(shù)據(jù)預處理階段,采用了數(shù)據(jù)強化處理策略,規(guī)避可能出現(xiàn)的過度擬合,具體包括對圖像的隨機裁剪、縮小、反轉(zhuǎn)、按隨機角度旋轉(zhuǎn)等。訓練執(zhí)行時,采用了牛頓動量法,設置期初學習率為0.002。通過自適應學習率的定量衰減,訓練損失函數(shù)循環(huán)迭代10次后,在訓練集的結果仍然保持的前提下,將學習率縮小到原來的十分之一。經(jīng)過5 d的學習,完成本文提出神經(jīng)網(wǎng)絡算法的訓練。圖5是MSCOCO數(shù)據(jù)集樣例。
圖5 MSCOCO數(shù)據(jù)集實例圖
在不同硬件條件下,將本文提出的算法與目前性能較好的Open Pose算法的執(zhí)行性能進行對比分析。本文對GXT 1080Ti、GTX1070、GTX1060 3種型號顯卡下的運算結果進行了對比,結果如表1所示。
表1 不同算法執(zhí)行性能對比
本文提出DLHPE深度學習的神經(jīng)網(wǎng)絡算法的鏈接映射的損失率為58.7,分類的損失率為56.5,這個結果對比Open Pose算法,精確度提升2%左右,處理速度的提升如表1中所示,提升了8倍以上。實驗中也對輸入圖像的背景、光線以及多人物多姿態(tài)情況對處理速度的影響進行了測試,結果是這些因素的影響可以忽略不計。圖6為本文算法進行人物姿態(tài)識別結果示意圖。
圖6 本文算法進行人物姿態(tài)識別結果圖
在本文提出的基于深度學習的人物姿態(tài)識別算法的基礎上,進一步將該算法與經(jīng)典二維人物動畫生成算法Phase-Funcationed Neural Network相結合,進行了動畫人物的生成[8]。根據(jù)用戶的輸入和運動軌跡,完成人物實時動作的二維展示。過程中通過使用特殊的相位函數(shù)進行模型權重的計算,通過對高度圖等采樣環(huán)境的變化和輸入,獲得權重矩陣,以完成計算骨架和動作變化。由于人體的動作具有時間周期的可循環(huán)重復性,所以借助特定時刻的循環(huán)相位信息,規(guī)范神經(jīng)網(wǎng)絡的輸出值,遵循固定的周期,從而完成動畫的生成。最終的動畫生成效果如圖7所示。
圖7 二維動畫生成結果圖
在進入智能化、大數(shù)據(jù)時代的今天,深度學習與動畫的深度融合逐步成為數(shù)據(jù)挖掘和機器學習領域研究的熱點。本文以深度學習技術的核心算法神經(jīng)網(wǎng)絡結構算法為基準,結合人物動作姿態(tài)識別和二維動畫建模,實現(xiàn)了針對動畫人物構建改進的卷積神經(jīng)網(wǎng)絡架構。實驗比對發(fā)現(xiàn),本文提出的模型在經(jīng)典的人物姿態(tài)識別基礎上,展示出了更精準的識別能力和良好的執(zhí)行性能,改進后算法識別精準度提升約2%,性能提升了8~10倍,明顯優(yōu)于其他經(jīng)典算法,實驗數(shù)據(jù)充分說明了本文算法在對人體動作姿態(tài)識別方面的優(yōu)勢。