張澤孜 譚大倫 王冬海
摘? ?要:主流的視頻結(jié)構(gòu)化處理方案大多是采用高性能GPU進(jìn)行運(yùn)算,功耗大,平臺(tái)架設(shè)費(fèi)用成本高。海思推出一款視頻處理芯片Hi3559A,提供了一個(gè)可行的低成本、低功耗解決方案。對(duì)于監(jiān)控?cái)z像機(jī)市場(chǎng)來(lái)說(shuō),攝像機(jī)更新?lián)Q代的成本較大,通過(guò)Hi3559A對(duì)現(xiàn)有攝像機(jī)的視頻流做結(jié)構(gòu)化處理,可在不更換現(xiàn)有攝像機(jī)的情形下,通過(guò)增加低成本視頻結(jié)構(gòu)化處理終端,提供更新?lián)Q代的過(guò)渡產(chǎn)品,降低更換設(shè)備的成本。
關(guān)鍵詞:視頻結(jié)構(gòu)化;Hi3559A;圖像識(shí)別
視頻結(jié)構(gòu)化,即視頻數(shù)據(jù)的標(biāo)準(zhǔn)化處理,就是通過(guò)對(duì)原始視頻進(jìn)行智能分析,提取出關(guān)鍵信息,并進(jìn)行文本的語(yǔ)義描述。簡(jiǎn)單而言就是進(jìn)行行為和特征提取,捕捉視頻中人、車、物的狀態(tài),進(jìn)行行為判斷[1]。和傳統(tǒng)人臉識(shí)別的區(qū)別是,結(jié)構(gòu)化信息傾向于反映事物的運(yùn)行狀態(tài),例如人是處于運(yùn)動(dòng)還是靜止?fàn)顟B(tài)、有沒有戴帽子、車是直行還是拐彎等。視頻結(jié)構(gòu)化更多地是運(yùn)用于現(xiàn)場(chǎng)安保管控、車輛違章、家庭長(zhǎng)輩看護(hù)等。
在國(guó)內(nèi),視頻監(jiān)控領(lǐng)域一直是保障民生的項(xiàng)目。通過(guò)視頻監(jiān)控能對(duì)部分違法犯罪進(jìn)行記錄,對(duì)違法犯罪人員進(jìn)行威懾,在一定程度上保障社會(huì)生活的有序進(jìn)行。近年來(lái)流行的家庭視頻看護(hù),也使外出工作人員對(duì)家庭的人、事、物能進(jìn)行一定程度的感知。但是目前的產(chǎn)品都屬于被動(dòng)感知型,需要當(dāng)事人主動(dòng)去獲取信息,不能提供實(shí)時(shí)的預(yù)警。雖然在視頻結(jié)構(gòu)化技術(shù)日益發(fā)展的背景下,通過(guò)服務(wù)器云端計(jì)算,架設(shè)專用服務(wù)器來(lái)實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)提取已經(jīng)有了成熟方案,但是高昂的服務(wù)器建設(shè)費(fèi)用和運(yùn)維費(fèi)用,并不利于該技術(shù)的普及?;诖耍疚奶峁┝艘环N通過(guò)海思Hi3559A芯片實(shí)現(xiàn)視頻實(shí)時(shí)結(jié)構(gòu)化處理的方案,可對(duì)現(xiàn)網(wǎng)中攝像頭進(jìn)行快速功能升級(jí)改造。
1? ? Hi3559A簡(jiǎn)介
Hi3559A是專業(yè)的8K Ultra HD Mobile CameraSOC,它提供了8K@30fps/4K@120fps廣播級(jí)圖像質(zhì)量的數(shù)字視頻錄制,支持H.265編碼輸出或影視級(jí)的RAW數(shù)據(jù)輸出,并集成高性能ISP處理[2]。支持業(yè)界領(lǐng)先的多路4K Sensor輸入,多路ISP圖像處理,支持HDR10高動(dòng)態(tài)范圍技術(shù)標(biāo)準(zhǔn),并支持多路全景硬件拼接,是多路拼接的超廣角相機(jī)、3D/全景VR相機(jī)的最佳方案[3]。在支持8K@30fps/4K@120fps視頻錄制下,Hi3559A提供硬化的6-Dof 數(shù)字防抖,減少了對(duì)機(jī)械云臺(tái)的依賴。
Hi3559A集成了海思獨(dú)有的SVP平臺(tái),提供了高效且豐富的計(jì)算資源,支撐客戶開發(fā)各種計(jì)算機(jī)視覺應(yīng)用[4],如無(wú)人機(jī)、機(jī)器人等消費(fèi)類應(yīng)用和行業(yè)類應(yīng)用。Hi3559A集成了雙核A73和雙核A53,獨(dú)創(chuàng)性的大小核架構(gòu)和雙操作系統(tǒng),使得功耗和啟動(dòng)時(shí)間達(dá)到均衡。
Hi3559A中集成了兩個(gè)神經(jīng)網(wǎng)絡(luò)推理機(jī)(Neural Network Inference Engine,NNIE),是海思媒體SoC中專門針對(duì)神經(jīng)網(wǎng)絡(luò)特別是深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行加速處理的硬件單元,支持現(xiàn)有大部分的公開網(wǎng)絡(luò),如Alexnet,VGG16,Googlenet,Resnet18,Resnet50等分類網(wǎng)絡(luò),F(xiàn)aster R- CNN,YOLO,SSD,RFCN等檢測(cè)網(wǎng)絡(luò)以及SegNet,F(xiàn)CN等場(chǎng)景分割網(wǎng)絡(luò)。通過(guò)專用的NNIE,能將PC上耗費(fèi)巨大資源的識(shí)別網(wǎng)絡(luò)集成到芯片上,使產(chǎn)品實(shí)現(xiàn)低功耗。而其體積小,易組裝架設(shè)等優(yōu)點(diǎn),是對(duì)現(xiàn)網(wǎng)中大量攝像頭升級(jí)的一個(gè)優(yōu)選方案。
2? ? 視頻結(jié)構(gòu)化方案設(shè)計(jì)
視頻結(jié)構(gòu)化平臺(tái)可對(duì)2路視頻流進(jìn)行實(shí)時(shí)人臉檢測(cè)與特征提取??蓪?shí)時(shí)處理來(lái)自以太網(wǎng)接口的視頻流數(shù)據(jù),視頻流解碼模塊將視頻流中的數(shù)據(jù)解碼為YUV或BGR圖片數(shù)據(jù),圖片經(jīng)過(guò)圖片流變換的格式轉(zhuǎn)換和裁剪后送到NNIE引擎,由NNIE及外部的CPU一起實(shí)現(xiàn)人臉檢測(cè)算法計(jì)算,得到人臉的位置信息,然后通過(guò)人臉?biāo)惴K的去重及軌跡跟蹤算法將最佳人臉數(shù)據(jù)提取出來(lái),圖片截取編碼模塊根據(jù)人臉坐標(biāo)信息從原圖中截取相應(yīng)照片進(jìn)行人臉圖片編碼,最后將編碼后的圖片數(shù)據(jù)送到以太網(wǎng)接口[5]。
視頻圖像處理信號(hào)流程如圖1所示。圖1中視頻流以RTP over RTSP方式獲取,即網(wǎng)絡(luò)層使用傳輸控制協(xié)議(Transmission Control Protocol,TCP)方式,主要基于以下考慮:(1)Hi3559A與攝像機(jī)的物理連接線路處于有限交換路徑的局域網(wǎng)內(nèi)。(2)用戶數(shù)據(jù)報(bào)協(xié)議(User Datagram Protocol,UDP)方式的丟包、亂序造成處理方式的復(fù)雜度大量提升。(3)低帶寬模式下的網(wǎng)絡(luò)適應(yīng)性提升,TCP模式易于提升I幀保障效果。
3? ? Hi3559A硬件方案
Hi3559A硬件核心平臺(tái)設(shè)計(jì)主要考慮為現(xiàn)有攝像頭提供視頻處理及設(shè)備管理,并為后續(xù)設(shè)備的開發(fā)提供通用的處理平臺(tái)。平臺(tái)主要提供以太網(wǎng)接口模塊、視頻處理模塊、無(wú)線傳輸與通信模塊、電源管理模塊等。其他模塊為輔助或預(yù)留給后期產(chǎn)品開發(fā)使用。
考慮該平臺(tái)對(duì)后期產(chǎn)品的兼容設(shè)計(jì),硬件平臺(tái)提供串口支持、預(yù)留USB接口擴(kuò)展、添加HDMI接口和MIPI接口對(duì)視頻采集與圖像顯示的支持、預(yù)留GPIO接口為后期開發(fā)擴(kuò)展。硬件框架如圖2所示。
4? ? 結(jié)語(yǔ)
通過(guò)Hi3559A的實(shí)時(shí)視頻結(jié)構(gòu)化處理方案,能夠以低成本的方式對(duì)現(xiàn)網(wǎng)中大量攝像頭進(jìn)行升級(jí)改造,降低設(shè)備更新成本,延長(zhǎng)現(xiàn)網(wǎng)攝像機(jī)的生命周期。同時(shí),對(duì)現(xiàn)網(wǎng)視頻監(jiān)控流的視頻結(jié)構(gòu)化處理,為公共安全預(yù)警及突發(fā)狀況預(yù)警起到加強(qiáng)作用,豐富的預(yù)留接口也使得板卡在后續(xù)的升級(jí)中能夠提供更豐富的應(yīng)用。
[參考文獻(xiàn)]
[1]付敏.基于卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計(jì)[D].成都:電子科技大學(xué),2014.
[2]馬頌德.計(jì)算機(jī)視覺:計(jì)算理論與算法基礎(chǔ)[M].北京:科學(xué)出版社,1998.
[3]岡薩雷斯,伍茲,埃丁斯.數(shù)據(jù)圖像處理[M].3版.阮秋琦,譯.北京:電子工業(yè)出版社,2012.
[4]段峰,王耀南,雷曉峰,等.機(jī)器視覺技術(shù)及其應(yīng)用綜述[J].自動(dòng)化博覽,2002(3):59-61.
[5]王治,韓祥.視頻結(jié)構(gòu)化解析技術(shù)在公安警務(wù)實(shí)戰(zhàn)中的建設(shè)與應(yīng)用[J].警察技術(shù),2018(5):65-68.
Application of Hi3559A in video structured platform
Zhang Zezi, Tan Dalun, Wang Donghai
(Nexwise Intelligence China Limited, Guangzhou 510663, China)
Abstract:Most of the mainstream video structured processing schemes adopt high-performance GPU for computing, with high power consumption and high cost of platform setup. HiSilicon has introduced a video processing chip Hi3559A, which provides a feasible low-cost and low-power solution. For the surveillance camera market, the cost of camera upgrading is relatively large. Through the structured processing of the video stream of the existing camera through Hi3559A, the transition product of upgrading can be provided by adding low-cost video structured processing terminal without replacing the existing camera, so as to reduce the cost of equipment replacement.
Key words:video structurization; Hi3559A; image recognition