彭 然, 劉愛豐, 李斐逸, 劉 揚(yáng), 范冰冰, 劉美奇
(四川農(nóng)業(yè)大學(xué) 信息工程學(xué)院, 四川 雅安 625014)
皮影戲是中國(guó)民間古老的傳統(tǒng)藝術(shù),老北京人都將其稱為“驢皮影”。 據(jù)史書記載,皮影戲始于西漢,興于唐朝,盛于清代,元代時(shí)期傳至西亞和歐洲,可謂歷史悠久,源遠(yuǎn)流長(zhǎng)。 改革開放之后,皮影戲日漸式微,現(xiàn)在因受國(guó)家“非遺法”的保護(hù),減緩衰萎的速度[1]。 在以往對(duì)皮影和人的動(dòng)作捕捉方法中,主要通過動(dòng)畫捕捉完成動(dòng)作映射[2],但成本較高且實(shí)現(xiàn)不易。 在計(jì)算機(jī)視覺技術(shù)飛速發(fā)展的條件下,本文提出了一種使用卷積神經(jīng)網(wǎng)絡(luò)方法來捕捉人物模型動(dòng)作,大大提升了動(dòng)作映射的效率。 通過此方法,極易將熱門視頻轉(zhuǎn)化為皮影圖像,引發(fā)人們對(duì)傳統(tǒng)皮影技藝的興趣,保護(hù)皮影藝術(shù)。
為了得到更好的模型效果,研究中采用MPII 數(shù)據(jù)集對(duì)骨骼關(guān)鍵點(diǎn)進(jìn)行提取,MPII 是用于評(píng)估人體姿勢(shì)估計(jì)的數(shù)據(jù)集以及相關(guān)基準(zhǔn),擁有約2.5 萬張圖像,并且包含超過4 萬名具有注釋關(guān)節(jié)的人,該數(shù)據(jù)集利用人類活動(dòng)的既定分類法系統(tǒng)化收集圖像。 表1 包含有用于訓(xùn)練或驗(yàn)證的圖像數(shù)量的信息。
表1 數(shù)據(jù)集圖片數(shù)量Tab.1 Number of picture sets
所使用的圖像示例,如圖1 所示。 圖像以JPG格式進(jìn)行存儲(chǔ)。
圖1 顯示人體姿態(tài)圖像示例Fig.1 An example of a human attitude image
在本文的圖像預(yù)處理中,著重探討論述的是暗通道去霧。 研究中,MPII 數(shù)據(jù)集每張圖片均來自YouTube 視頻,圖片的清晰度往往受外界環(huán)境影響,進(jìn)而影響模型識(shí)別和判斷結(jié)果。 為了進(jìn)一步提高模型的精度,更好地?cái)M合模型狀態(tài),研究擬采用暗通道去霧算法[3]后得到的圖像數(shù)據(jù)。
在圖像的大多數(shù)局部區(qū)域,某些像素始終至少有一個(gè)值非常低的彩色通道,而此區(qū)域的最低光強(qiáng)度是很小的數(shù)字。 暗通道的數(shù)學(xué)定義,對(duì)于任何輸入圖像J,暗通道可以表示為:
當(dāng)Jc表示彩色圖像的每個(gè)通道時(shí),Ω(x) 表示以像素X為中心的窗口暗通道先驗(yàn)理論,由此可以得到:
計(jì)算機(jī)視覺中的霧圖生成模型可寫為: 其中,I(x) 為無霧圖像;J(x) 為待恢復(fù)的原始無霧圖像;A為全球大氣光分量;t(x) 為透射率。 由現(xiàn)有的I(x),即可求得J(x)。
在此基礎(chǔ)上,將其轉(zhuǎn)換為如下公式:
如果C表示3 個(gè)通道,假設(shè)每個(gè)窗口中的傳輸是恒定的,并定義為t^(x),還給出了A值,則需要執(zhí)行2 個(gè)最小操作,即:
上述是需要尋找的無霧圖像,因此其暗通道應(yīng)滿足前一種情況:
可以得到如下公式:
引入要尋求的公式可以得出估計(jì)的結(jié)果為:
圖像增強(qiáng)效果如圖2 所示。
圖2 暗通道去霧后展示圖像Fig.2 The image is displayed after the dark channel is de-fogged
研究中,采用CNN 模型SimplePose,實(shí)現(xiàn)自上而下、即先找到人體,再判斷關(guān)節(jié)點(diǎn)歸屬的人體骨骼關(guān)鍵點(diǎn)檢測(cè)(Pose Estimation),網(wǎng)絡(luò)結(jié)構(gòu)在ResNet 后加上幾層反向卷積(Deconvolution)直接生成熱力圖,相比Hourglass,CPN 等其他模型,使用Deconvolution 替代了上采樣結(jié)構(gòu)。 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
圖3 SimplePose 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 SimplePose network structure
這里值得一提的是,在ResNet 的基礎(chǔ)上,取最后殘差模塊輸出特征層(命名C5), SimplePose 采用Deconv 擴(kuò)大特征圖的分辨率。 Deconvolution 模型如圖4 所示。
圖4 Deconvolution 模型Fig.4 Deconvolution model
與其他經(jīng)典算法性能對(duì)比[4]參見表2。
表2 與其他算法性能對(duì)比Tab.2 Performance comparison with other algorithms
根據(jù)文獻(xiàn)[4]的實(shí)驗(yàn)數(shù)據(jù),研究得到的仿真結(jié)果參見表3,研究中又調(diào)整了輸入圖片尺寸。
表3 輸入圖片大小對(duì)網(wǎng)絡(luò)模型效果的影響對(duì)比Tab.3 Comparison of the influence of the input image size on the effect of the network model
故研究中選取ResNet-50 作為Backbone,如圖5 所示。
圖5 ResNet-50 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 ResNet-50 network structure
將輸入圖像大小拓展至384×288 像素。 使用超微分圖像超分辨率重建算法(SRResNet 算法)[5],SRResNet 使用深度殘差網(wǎng)絡(luò)來構(gòu)建超分重建模型,主要包含2 部分:深度殘差模型、子像素卷積模型。深度殘差模型用來進(jìn)行高效的特征提取,可以在一定程度上削弱圖像噪點(diǎn)。 子像素卷積模型主要用來放大圖像尺寸。 模型框架如圖6 所示。
圖6 SRResNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 SRResNet network structure
圖6 中,k表示卷積核大小,n表示輸出通道數(shù),s表示步長(zhǎng)。 除了深度殘差模塊和子像素卷積模塊以外,在整個(gè)模型輸入和輸出部分均添加了一個(gè)卷積模塊用于數(shù)據(jù)調(diào)整和增強(qiáng)。 擴(kuò)充圖結(jié)果如圖7 所示。
圖7 擴(kuò)充前后圖像對(duì)比Fig.7 Image comparison before and after expansion
對(duì)人體骨骼關(guān)鍵點(diǎn)檢測(cè)結(jié)果示例如圖8 所示。
圖8 骨骼關(guān)鍵點(diǎn)檢測(cè)示例Fig.8 Example of bone key detection
通過獲取到的骨骼關(guān)鍵點(diǎn),確定各個(gè)關(guān)節(jié)的位置,將人體關(guān)節(jié)與相應(yīng)的皮影圖片進(jìn)行匹配,計(jì)算位置與旋轉(zhuǎn)方向,達(dá)到人體活動(dòng)與皮影運(yùn)動(dòng)同步,進(jìn)行動(dòng)作捕捉。 從而促進(jìn)中國(guó)傳統(tǒng)技藝皮影戲的傳承。
通過2 個(gè)骨骼關(guān)鍵點(diǎn)可以確認(rèn)肢體的長(zhǎng)度和旋轉(zhuǎn)角度,由于皮影面是二維平面, 只需對(duì)應(yīng)平面的(x,y) 方向上的坐標(biāo),設(shè)2 個(gè)點(diǎn)的坐標(biāo)分別為(x1,y1)、(x2,y2),計(jì)算旋轉(zhuǎn)角,將皮影素材圖像按旋轉(zhuǎn)角中心旋轉(zhuǎn),再計(jì)算2 個(gè)關(guān)鍵點(diǎn)間的位移,得到映射點(diǎn)位置。 并將各個(gè)素材圖片映射到對(duì)應(yīng)的肢體上,達(dá)到動(dòng)作映射的效果,如圖9 所示。
圖9 皮影圖像映射過程Fig.9 Shadow image mapping process
將視頻逐幀切割,并逐張映射為皮影圖像,最后按幀聚合組裝成皮影戲視頻。
本次實(shí)驗(yàn),選取單幀圖像作為皮影映射后的展示圖,如圖10 所示。
圖10 單幀皮影展示圖Fig.10 Single frame shadow display
本文針對(duì)基于SimplePose 優(yōu)化算法的皮影保護(hù)技術(shù)進(jìn)行討論與分析。 文中,先是提出了實(shí)驗(yàn)選用的數(shù)據(jù)集,接著對(duì)圖像預(yù)處理中的暗通道去霧技術(shù)進(jìn)行了整體闡述,然后又對(duì)網(wǎng)絡(luò)結(jié)構(gòu)及數(shù)據(jù)再處理展開了深入的研究,并對(duì)每一步都給出了詳盡說明。在此基礎(chǔ)上,將本文的研究方法運(yùn)用在皮影戲的制作中,最終得到了較為滿意的仿真效果。 本文研究成果有益于傳統(tǒng)皮影戲的保存和傳承,具有重要的現(xiàn)實(shí)意義。