摘 要:由于面臨著固有的深度模糊和潛在的遮擋,單目三維人體姿態(tài)估計仍充滿著挑戰(zhàn)。為了緩解不確定性,提出了一個輕量高效的三維人體姿態(tài)估計模型,充分利用人體關節(jié)的結構依賴關系,通過兩個局部約束增強策略對高自由度關節(jié)施加額外約束;設計了一個基于擴散模型的后處理框架,通過對多假設結果逐步去噪并加以骨長約束,優(yōu)化帶噪聲的三維姿態(tài)。該方法在Human3.6M數(shù)據(jù)集上相比同類方法,在兩個常用指標上分別提升了3%和4.5%,驗證了其優(yōu)越性。
關鍵詞:擴散模型;三維人體姿態(tài)估計;圖卷積神經網絡;Transformer
中圖分類號:TP391.41"" 文獻標志碼:A""" 文章編號:1001-3695(2025)04-041-1268-06
doi: 10.19734/j.issn.1001-3695.2024.06.0253
3D human pose estimation and refinement based on joint structural dependencies
Wang Binzi1, Ning Xin1, Shu Yang1, Ding Youdong1, 2
(1. Shanghai Film Academy, Shanghai University, Shanghai 200072, China; 2. Shanghai Engineering Research Center of Motion Picture Special Effects, Shanghai 200072, China)
Abstract:Facing inherent depth ambiguity and potential occlusions, monocular 3D human pose estimation remains challen-ging. To mitigate uncertainty, this paper proposed a lightweight and efficient 3D human pose estimation model that leveraged the structural dependencies of body joints and applied additional constraints to high-degree-of-freedom joints through two local constraint enhancement strategies. The method used a diffusion model-based post-processing framework to progressively denoise multiple hypothesis results and apply bone length constraints, optimizing noisy 3D poses. On the Human3.6M dataset, the proposed method outperforms similar approaches by 3% and 4.5% on two common metrics, demonstrating its superiority.
Key words:diffusion model; 3D human pose estimation(3D HPE); graph convolutional network; Transformer
0 引言
三維人體姿態(tài)估計(3D HPE)旨在從圖像或視頻等輸入數(shù)據(jù)中定位人體關鍵點在三維空間中的位置,并構建人體表征(骨架或網格)[1]。作為諸多高層語義任務及下游應用的基石,3D HPE被廣泛應用于動作識別[2]、動畫制作[3]、運動預測[4]等領域,被認為是計算機視覺領域的核心任務之一。
在深度學習中,基于生成骨架的3D HPE任務有端到端直接估計法[5,6]和2D-3D提升法[7,8]兩種主要管線。得益于近年來2D姿態(tài)檢測器[9]的卓越表現(xiàn),2D-3D提升法已成為3D HPE領域的主流方法。它由兩階段組成,在第一階段使用現(xiàn)成的2D姿態(tài)檢測器從圖像中獲得人體關鍵點的二維坐標,在第二階段通過2D-3D姿態(tài)提升獲得關鍵點在三維空間中的坐標。本文關注的是第二階段。與一般的基于圖像的任務不同,2D-3D提升法第二階段的輸入是稀疏且結構化的二維關節(jié)坐標。同時由于面臨著固有的深度模糊問題和潛在的遮擋問題,僅憑單一的二維信息確定唯一的三維姿態(tài)仍充滿著挑戰(zhàn)。
多數(shù)現(xiàn)有研究集中于使用圖卷積神經網絡(graph convolutional network, GCN)建模人體關節(jié)之間的相關性。例如,Zhao等人[10]提出語義圖卷積SemGCN來學習人體關節(jié)之間的語義信息。Zou等人[11]在SemGCN的基礎上引入權調制和親和調制,探索了超出定義的人體骨架范圍的額外關節(jié)相關性。然而單層圖卷積的感受野是有限的,模型很難通過淺層網絡捕捉到全局信息。近來,Transformer在其他視覺領域展示出強大的捕捉長距離關系的能力,也被引入了3D HPE領域[12,13]。然而Transformer關注的是所有關節(jié)的相似性,容易忽略人體關節(jié)之間的結構信息??紤]到兩類模型的特性,一些工作開始探索將兩者結合以獲得更好的性能,如Zhao等人[14]通過堆疊GraAttention和ChebGConv塊,初步探索了結合圖卷積的Transformer架構。Cai等人[15]提出從joint、part、body三個語義層面依次學習人體拓撲結構先驗。但在他們的架構中,信息的傳輸是單向的,沒有考慮局部信息和全局信息的融合溝通,這可能會導致信息的丟失。而一些工作[16,17]考慮到了局部全局的溝通,但是他們并未充分利用人體關節(jié)的結構依賴,無法應對自遮擋或復雜場景。
本文遵循之前的工作,把人體骨骼結構表示為圖。但與上述方法不同的是,本文在此基礎上,綜合利用圖卷積和Transformer的優(yōu)勢來捕獲人體骨骼的局部和全局信息,并將信息在空間中融合溝通。同時,由于關節(jié)位置不是分散在整個三維空間,而是沿著某種低維結構分布,所以充分利用人體結構先驗信息有助于解決由于投影模糊而導致的深度模糊問題。具體地,本文添加了兩個額外的約束條件,旨在充分利用人體自然存在的正向動力學、關節(jié)對稱性以及運動協(xié)調性等特性,使得對于關節(jié)的約束不再僅停留于淺層,而能夠捕捉到更深層次的特征。
近來,擴散模型[18]在眾多由高斯噪聲生成高保真樣本的任務中表現(xiàn)出顯著優(yōu)勢,吸引了研究者的關注。具體地,它由不確定的噪聲逐步去噪,生成與指定數(shù)據(jù)分布相匹配的樣本。這種漸進去噪的范式有助于將高度不確定與確定之間的鴻溝分解為較小的中間步驟,從而幫助模型向平滑生成目標數(shù)據(jù)分布的樣本收斂[19]。該特性與3D HPE任務非常契合,因為由2D提升到3D后得到的3D姿態(tài)天然就是不確定的,可以被看做有噪聲的數(shù)據(jù)。
但與一般的視覺任務不同,姿態(tài)估計任務期望生成更接近地面真實值的結果,然而基于擴散的方法在推理時通常從隨機噪聲開始,降低了模型的準確性。為了獲得更加準確的三維姿態(tài),部分工作調整了去噪器的輸入,如一些工作[20,21]將現(xiàn)有三維人體姿態(tài)估計模型的輸出作為去噪過程的中間狀態(tài),并以此作為起點開始推理。還有部分工作[22~24]將擴散模型與多假設方法結合,從噪聲中抽取多個樣本,每個樣本對應一個假設,文獻[22,23]最后通過關節(jié)級別的聚合從多個假設中得到最終結果,取得了較好的效果。然而關節(jié)級別的聚合是根據(jù)關節(jié)的二維投影誤差來判定最佳關節(jié)坐標的,該方式僅將姿態(tài)估計任務當作簡單的坐標回歸問題,未充分考慮人體的運動學結構,對于骨長的約束不足。
受上述工作的啟發(fā),本文設計了一個基于擴散模型的后處理方法,在基準模型得到的初始3D姿態(tài)中添加噪聲,并在對應2D信息的指導下通過多步去噪得到精細化的3D姿態(tài)估計結果。值得注意的是,考慮到人的骨長是恒定的,本文引入了骨骼長度損失函數(shù),用于評估骨長的合理性,以增強基于擴散模型的去噪器在應對坐標型問題上的魯棒性和準確性。同時,本文提出的后處理算法可與多數(shù)現(xiàn)有的基準模型兼容,具有較強的泛用性。大量實驗證明,本文提出的三維人體姿態(tài)估計模型以及后處理算法均取得了較好的效果。
2.2 網絡架構
本文提出的去噪器D由三個帶殘差連接的圖卷積-自注意塊堆疊而成,每個塊包含兩個圖卷積層和一個自注意層,是對文獻[14]模塊的重構。塊前后添加了圖卷積層用來控制輸入輸出的大小。通過圖卷積和自注意力的交錯連接,有助于擴散模型學習到相鄰關節(jié)和遠距離關節(jié)的依賴關系,更好地理解整體結構的分布。此外,在三個堆疊的塊后,還設計了一個簡單的兩層全連接網絡用于平衡中間結果和初始3D姿態(tài)。具體地,yik經過輸入圖卷積層、三個堆疊塊和輸出圖卷積層后得到了一個中間結果,該結果將與初始3D姿態(tài)y一同送入線性層,得到兩組結果的置信度值,由兩組結果的置信度加權和得到最終姿態(tài)的關節(jié)位置。同時,考慮到僅使用帶噪聲的數(shù)據(jù)作為輸入,擴散模型很難學習到關節(jié)結構信息,于是本文在訓練時引入2D信息x和時間步長信息t作為指導,為模型提供額外的約束條件,有助于減少不確定性,生成更為準確的預測。指導信息在yik經過輸入圖卷積層后引入。
如此,給定輸入yt和初始3D姿態(tài)y,在2D信息x和時間步長信息的指導t下,得到的單假設預測可定義為
在訓練后處理優(yōu)化模型時,同為生成多假設預測的工作[22,23],它們得到最終預測的方式是關節(jié)聚合,即以關節(jié)為單位,選取同位置中二維投影與輸入的二維姿態(tài)對應關節(jié)誤差最小的為最佳關節(jié),這些被選擇的關節(jié)將被組裝成一個獨立的姿態(tài),作為最終預測結果。相較姿態(tài)層面的聚合,以關節(jié)為單位確實提升了預測的上限,因為一個預測結果在不同關節(jié)的表現(xiàn)可能不同,但關鍵點在三維空間中的位置位于從相機光學中心到二維關鍵點的射線上,僅憑二維信息確定的關節(jié)坐標在重組后得到的姿態(tài)不一定符合自然人體結構,同時在面對實際場景時,由不穩(wěn)定的二維姿態(tài)檢測器帶來的錯誤信息可能會顯著影響模型的準確性。
為保證預測的姿態(tài)遵循真實的人體生理結構,同時也為了模型在預測時不過分依賴二維信息,更好地適應復雜多變的實際應用場景,本文添加了額外的骨長約束損失,最小化最終預測姿態(tài)的骨骼長度與地面真實值之間的誤差,以此來訓練模型學習到正常人類的骨骼長度知識。骨長約束損失表示為
3 實驗分析
3.1 數(shù)據(jù)集與評價指標
本文將提出的模型在大型公共三維人體姿態(tài)估計數(shù)據(jù)集Human 3.6M[26]上進行了全面的實驗。Human 3.6M是最大的3D HPE基準數(shù)據(jù)集,被廣泛應用在該領域中,它包含由11位演員在動作捕捉系統(tǒng)下表演的15項活動,包括問候、坐下等動作,共包含360萬視頻幀和注釋。遵循之前的工作,本文選用S1、S5、S6、S7、S8作為訓練集,選用S9、S11作為測試集進行評估。
本文采用兩個評價指標來展示模型的性能,分別是平均關節(jié)位置誤差MPJPE(mean per joint position error,即指標1)和剛體變換對齊后的平均關節(jié)位置誤差PA-MPJPE(procrustes aligned MPJPE,即指標2),指標值越低越好。
3.2 實驗環(huán)境及設置
遵循之前的工作,本文使用PyTorch[27]實現(xiàn),初始學習率為0.000 5,每一輪后應用衰減因子大小為0.95,每5個輪次的衰減率為0.5?;鶞誓P驮趩蝹€NVIDIA RTX 3090上以批大小為512訓練30個輪次,由3個堆疊的交錯并行結構組成,輸入維度為160,全局、局部輸入分割比C1∶C2=4∶1;基于擴散的后處理框架在單個NVIDIA RTX 3090上以批大小為512訓練15個輪次,最大擴散時間步長設為1 000,采樣時間步長設為100,余弦噪聲調度器的偏移量設為0.008。
3.3 實驗結果與分析
3.3.1 對比實驗
表1展示了本文提出的基準模型以及加后處理優(yōu)化的模型在以CPN估計結果作為輸入時,在Human3.6M數(shù)據(jù)集上與以往單幀方法的定量對比。“*”表示多假設方法,假設數(shù)為10。最優(yōu)結果標粗體,次優(yōu)結果標下畫線。
在后處理假設數(shù)量為1時,本文方法與同假設數(shù)的概率性方法相比,在指標1和2上分別提升了4.5%和5.9%;與確定性方法相比,在指標1和2上分別提升1%和1.2%;與自身基準模型比,在指標1和2上均提升了1%。這表明本文提出的后處理優(yōu)化算法不依賴假設數(shù)量,突破了在擴散模型中因噪聲帶來的高不確定而導致的單假設性能弱的問題。在后處理的假設數(shù)量為10時,本文方法與同假設數(shù)的概率性方法相比,在指標1和2上分別提升了3%和4.5%;與自身基準模型比,在指標1上提升了1.8%,在指標2上提升了1.5%。這表明本文提出的多假設框架能夠維持每個假設的準確性,也體現(xiàn)出本文構建的去噪器能夠學習到關節(jié)結構的深層特征。
表2展示了在不同基準模型上應用不同后處理優(yōu)化的定量比較,驗證了本文后處理優(yōu)化算法對其他基準模型的兼容,同時,基準模型的精度越高,優(yōu)化得到的效果越好。在與當前最優(yōu)基于擴散模型的優(yōu)化算法對比時,本文方法也取得了相當?shù)慕Y果。各指標的提升表明,本文提出的后處理方法對于確定性三維人體姿態(tài)估計模型得到的3D姿態(tài)有較好的優(yōu)化效果,且優(yōu)于多數(shù)現(xiàn)有的基于擴散模型的概率性三維人體姿態(tài)估計方法以及大多數(shù)確定性方法。
3.3.2 消融實驗
1)基準模型 表3展示了本文提出的基準模型各模塊及網絡架構在Human3.6M上的消融結果,采用CPN估計結果作為輸入,MPJPE作為評價指標?!?”代表采用四肢約束增強策略。
在討論模塊對于性能的影響時,本文從僅包含全局約束的模型出發(fā)(表示為“/”),在添加本文提出的局部約束模塊后,觀察到性能提升,表明學習關節(jié)結構信息有助于提高估計精度。此外,為探討局部約束增強策略對四肢關節(jié)預測誤差的影響,本文將四肢關節(jié)按自由度劃分為三組,并計算每一類關節(jié)的平均MPJPE。如圖7所示,局部約束增強的應用使自由度為2、3的關節(jié)組平均誤差降低了8.3%和12.4%,其中,無局部約束增強的方法使用未經修改的圖卷積。由整體誤差分布可以看出,自由度越高的關節(jié)誤差越高,本文通過設計額外的約束條件,有效降低了末端關節(jié)的估計誤差,提升了模型的估計精度。為了進一步研究四肢約束增強模塊的有效性以及確定其在模型中的最優(yōu)位置,本文做了額外的針對性實驗。結果表明,僅在空間融合前應用約束增強,模型的表現(xiàn)達到最優(yōu)。其他方式性能較差是由于過量卷積以及MLP操作會使關節(jié)信息模糊,導致信息丟失。
在討論網絡架構對于性能的影響時,本文評估了串行、并行和交叉并行這幾種方式。結果表明,交叉并行展現(xiàn)出最佳結果,而全局、局部的串行連接表現(xiàn)最差。這表明交叉并行的網絡架構有助于模型從局部和全局信息的空間融合中學習到更深層次的特征,證明了網絡架構的有效性。
2)后處理優(yōu)化算法 表4展示了本文提出的后處理優(yōu)化算法各模塊在Human3.6M上的消融結果,采用本文提出的基準模型估計結果作為輸入,假設數(shù)量設定為1?!?”代表去噪器采用文獻[14]提出的圖卷積-注意力模塊。實驗表明,本文對于原模塊的重構,以及平衡中間結果與初始3D姿態(tài)的策略均有性能提升效果。同時,針對骨長作額外約束也使模型充分學習到人體的運動學結構。
圖8探討了假設數(shù)量與估計精度、推理速度的關系。結果證明,在相同時間步長與迭代次數(shù)下,假設數(shù)越多,估計精度越高,但同時會帶來計算量的大幅提升。在應用時,可以根據(jù)實際情況選用適合的假設數(shù)以及時間步長。
3.3.3 定性分析
圖9展示了本文提出的基準模型及其經后處理優(yōu)化后的版本,在Human3.6M數(shù)據(jù)集上所取得的定性結果。突出顯示的部分表明,在易產生估計誤差的末端關節(jié)處,本文提出的后處理算法做到了進一步的優(yōu)化。此外,圖10給出了經優(yōu)化的模型在處理更具復雜性和多樣性的野外圖像時的表現(xiàn)。值得注意的是,這些來自野外圖像的動作在Human3.6M的訓練集中很少或不存在??梢钥吹?,即使是面對圖10第三行所示的特殊動作時,由于本文方法深入挖掘并充分運用了人體關節(jié)的結構特性,仍能產出令人滿意的預測效果,表明了本文方法的有效性和泛化能力。
4 結束語
為了能從單一二維信息更好地估計三維姿態(tài),本文提出了一個充分利用人體關節(jié)結構依賴的三維人體姿態(tài)估計模型和一個基于擴散模型的后處理優(yōu)化算法。通過將圖卷積與Transformer交錯并行連接,使局部全局信息在空間能夠融合溝通,此外還針對四肢關節(jié)施加額外約束策略,提高了模型對于深層關節(jié)特征的學習能力。為了進一步優(yōu)化確定性模型得到的結果,本文將初始姿態(tài)與噪聲結合,送入由二維信息、時間步長和骨長作為約束的去噪器,經過多步去噪得到更為準確的關節(jié)坐標位置。實驗表明,本文方法優(yōu)于大多數(shù)現(xiàn)有方法,充分利用了人體結構依賴關系有助于提升模型性能。未來,將進一步探索時間信息對于擴散模型的作用,并將提出的細化方法推廣到更多的初始預測模型中。
參考文獻:
[1]Zheng Ce, Wu Wenhan, Chen Chen, et al. Deep learning-based human pose estimation: a survey [J]. ACM Computing Surveys, 2023, 56(1): 11.
[2]Chen Yuxin, Zhang Ziqi, Yuan Chunfeng, et al. Channel-wise topo-logy refinement graph convolution for skeleton-based action recognition [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 13339-13348.
[3]Kumarapu L, Mukherjee P. AnimePose: multi-person 3D pose estimation and animation [J]. Pattern Recognition Letters, 2021, 147: 16-24.
[4]劉一松, 高含露, 蔡凱祥. 融合時空圖卷積網絡與非自回歸模型的三維人體運動預測 [J]. 計算機應用研究, 2024, 41(3): 956-960. (Liu Yisong, Gao Hanlu, Cai Kaixiang. Three-dimensional human motion prediction combining spatiotemporal graph convolutional networks and non-autoregressive models [J]. Application Research of Computers, 2024, 41(3): 956-960.)
[5]Pavlakos G, Zhou Xiaowei, Derpanis K G, et al. Coarse-to-fine volumetric prediction for single-image 3D human pose [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1263-1272.
[6]Zhou Xingyi, Huang Qixing, Sun Xiao, et al. Towards 3D human pose estimation in the wild: a weakly-supervised approach [C]// Proc of IEEE International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2017: 398-407.
[7]黃程遠, 宋曉寧, 馮振華. ARGP-Pose: 基于關鍵點間關系分析與分組預測的3D人體姿態(tài)估計 [J]. 計算機應用研究, 2022, 39(7): 2178-2182, 2202. (Huang Chengyuan, Song Xiaoning, Feng Zhenhua. ARGP-Pose: 3D human pose estimate based on analysis of relationship between joint points and group prediction [J]. Application Research of Computers, 2022, 39(7): 2178-2182, 2202.)
[8]陳榮桂, 賈振堂. 改進的三維人體姿態(tài)估計算法 [J]. 計算機系統(tǒng)應用, 2024, 33(4): 187-193. (Chen Ronggui, Jia Zhentang. Improved algorithm for 3D human pose estimation [J]. Computer Systems and Applications, 2024, 33(4): 187-193.)
[9]Chen Yilun, Wang Zhicheng, Peng Yuxiang, et al. Cascaded pyramid network for multi-person pose estimation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2018: 7103-7112.
[10]Zhao Long, Peng Xi, Tian Yu, et al. Semantic graph convolutional networks for 3D human pose regression [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 3420-3430.
[11]Zou Zhiming, Tang Wei. Modulated graph convolutional network for 3D human pose estimation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 11457-11467.
[12]Zheng Ce, Zhu Sijie, Mendieta M, et al. 3D human pose estimation with spatial and temporal transformers [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 11636-11645.
[13]Li Wenhao, Liu Hong, Ding Runwei, et al. Exploiting temporal contexts with strided transformer for 3D human pose estimation [J]. IEEE Trans on Multimedia, 2022, 25: 1282-1293.
[14]Zhao Weixi, Wang Weiqiang, Tian Yunjie. GraFormer: graphoriented Transformer for 3D pose estimation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 20406-20415.
[15]Cai Jialun, Liu Hong, Ding Runwei, et al. HTNet: human topology aware network for 3D Human pose estimation [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2023: 1-5.
[16]Kang Hongbo, Wang Yong, Liu Mengyuan, et al. Double-chain constraints for 3D human pose estimation in images and videos [EB/OL]. (2023-08-10). https://arxiv.org/abs/2308.05298.
[17]Wang Ti, Liu Hong, Ding Runwei, et al. Interweaved graph and attention network for 3D human pose estimation [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2023: 1-5.
[18]Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models [J]. Advances in Neural Information Processing Systems, 2020, 33: 6840-6851.
[19]Song Yang, Ermon S. Generative modeling by estimating gradients of the data distribution "[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019:11918-11930.
[20]Gong Jia, Foo L G, Fan Zhipeng, et al. DiffPose: toward more reliable 3D pose estimation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 13041-13051.
[21]Yan Danqi, Gao Qing, Qian Yuepeng, et al. D3PRefiner: a diffusion-based denoise method for 3D human pose refinement [EB/OL]. (2024-01-08). https://arxiv.org/abs/2401.03914.
[22]Shan Wenkang, Liu Zhenhua, Zhang Xinfeng, et al. Diffusion-based 3D human pose estimation with multi-hypothesis aggregation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 14715-14725.
[23]Kang Hongbo, Wang Yong, Liu Mengyuan, et al. Diffusion-based pose refinement and multi-hypothesis generation for 3D human pose estimation [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2024: 5130-5134.
[24]Choi J, Shim D, Kim H J. DiffuPose: monocular 3D human pose estimation via denoising diffusion probabilistic model [C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2023: 3773-3780.
[25]Wu Lele, Yu Zhenbo, Liu Yijiang, et al. Limb pose aware networks for monocular 3D pose estimation [J]. IEEE Trans on Image Processing, 2021, 31: 906-917.
[26]Ionescu C, Papava D, Olaru V, et al. Human3.6M: large scale datasets and predictive methods for 3D human sensing in natural environments [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1325-1339.
[27]Paszke A, Gross S, Massa F, et al. PyTorch: an imperative style, high-performance deep learning library [EB/OL]. (2019-12-03). https://arxiv.org/abs/1912.01703.