文/滕添益 趙 劍 趙梓健
隨著傳感器技術(shù)、第五代移動通信技術(shù)和大數(shù)據(jù)技術(shù)等的快速發(fā)展,汽車正在向智能化和網(wǎng)聯(lián)化的方向加速發(fā)展,汽車將由代步工具逐步轉(zhuǎn)變?yōu)橐苿又悄芙K端。智能網(wǎng)聯(lián)汽車在行駛過程中會產(chǎn)生多種圖像和視頻數(shù)據(jù),包括環(huán)境感知、場景定位和決策控制生成的數(shù)據(jù)、駕駛習(xí)慣、路途軌跡和車牌等信息。這些數(shù)據(jù)的收集規(guī)范和使用去向,以及由網(wǎng)絡(luò)安全漏洞和惡意攻擊導(dǎo)致的汽車數(shù)據(jù)泄露,都是行業(yè)和公眾熱切關(guān)注的焦點。
2021年8月,中央網(wǎng)絡(luò)安全和信息化委員會辦公室聯(lián)合四部委頒布的《汽車數(shù)據(jù)安全管理若干規(guī)定(試行)》提出了“倡導(dǎo)汽車數(shù)據(jù)處理者在開展汽車數(shù)據(jù)處理活動中堅持脫敏處理原則,盡可能進行匿名化、去標識化等處理”“因保證行車安全需要,無法征得個人同意采集到車外個人信息且向車外提供的,應(yīng)當(dāng)進行匿名化處理,包括刪除含有能夠識別自然人的畫面,或者對畫面中的人臉信息等進行局部輪廓化處理等”要求。據(jù)此,中國汽車工業(yè)協(xié)會于2022年8月發(fā)布了《汽車傳輸視頻及圖像脫敏技術(shù)要求與方法》(T/CAAMTB 77-2022)。該標準依據(jù)智能網(wǎng)聯(lián)汽車車身視頻采集設(shè)備采集的車外視頻或圖像數(shù)據(jù)中的人臉和車牌數(shù)據(jù),來統(tǒng)一數(shù)據(jù)脫敏技術(shù)的要求與方法,并以此為企業(yè)提供數(shù)據(jù)處理工作的引導(dǎo),保證企業(yè)能夠合法、合規(guī)地在車端數(shù)據(jù)處理設(shè)備上消除采集數(shù)據(jù)中的敏感信息,保障國家安全、公共安全和個人隱私安全。2022年10月,正在制定的“汽車數(shù)據(jù)通用要求”標準公開征求意見,提出了對車外人臉車牌的視頻圖像數(shù)據(jù)進行個人信息匿名化處理試驗方法。全國信息安全標準化技術(shù)委員會于2023年1月發(fā)布的“網(wǎng)絡(luò)安全標準實踐指南——車外畫面局部輪廓化處理效果驗證”(征求意見稿)(以下簡稱“TC260-PG-2023XX”)給出了人臉、車牌局部輪廓化處理的效果驗證方法,為汽車數(shù)據(jù)處理者和有關(guān)機構(gòu)驗證局部輪廓化處理效果提供參考。
T/CAAMTB 77-2022采用的是有真值的脫敏效果驗證法(以下簡稱“真值驗證法”),即測試時需要同時依據(jù)未脫敏(真值)和脫敏后的視頻圖像數(shù)據(jù),對未脫敏數(shù)據(jù)進行人臉車牌標注得到真實的人臉車牌數(shù)量,對脫敏后數(shù)據(jù)進行脫敏區(qū)域標注,得到實際脫敏的人臉車牌數(shù)量,最后計算指標評估脫敏效果。正在制定的“智能網(wǎng)聯(lián)汽車數(shù)據(jù)通用要求”和TC260-PG-2023XX均采用了無真值的脫敏效果驗證法(以下簡稱“無真值驗證法”),即只需依據(jù)脫敏后的視頻圖像數(shù)據(jù)進行脫敏效果評估。由于“智能網(wǎng)聯(lián)汽車數(shù)據(jù)通用要求”的技術(shù)性難題難以實施,故本文只復(fù)現(xiàn)并實驗了真值驗證法和無真值驗證法,并分析討論兩種方法的優(yōu)缺點。
① 測試數(shù)據(jù)準備
試驗車輛在車端采集車外含有人臉和車牌的視頻圖像,在車端進行匿名化處理后,將脫敏后的視頻圖像數(shù)據(jù)連同真值數(shù)據(jù)一同導(dǎo)出,作為測試數(shù)據(jù)。
② 測試數(shù)據(jù)處理
測試數(shù)據(jù)包含真值數(shù)據(jù)和脫敏數(shù)據(jù)。
·真值數(shù)據(jù)處理
測試人員對真值視頻進行抽幀,將真值視頻抽取為圖片,然后使用算法對真值圖片進行自動標注,識別真值圖片中需要進行匿名化處理的人臉和車牌,并在圖片相應(yīng)位置進行標記。由于算法對真值圖片的標注結(jié)果可能存在誤差,測試人員隨后會進行人工校核,對被算法漏標的人臉和車牌進行補充,對被算法誤標的人臉和車牌進行刪除。
·脫敏數(shù)據(jù)處理
測試人員對脫敏視頻進行抽幀,將脫敏視頻抽取為圖片,然后使用算法對脫敏圖片進行自動標注,識別脫敏圖片中已對人臉和車牌進行匿名化處理的打碼框,并在圖片相應(yīng)位置進行標記。由于算法對脫敏圖片的標注結(jié)果可能存在誤差,測試人員隨后會進行人工校核,對算法沒有識別到的打碼框進行補充,對被算法誤識別的打碼框進行刪除。
③ 脫敏指標計算
測試人員通過對比真值圖片標注和脫敏圖片標注的結(jié)果,可以統(tǒng)計出人臉檢出數(shù)、車牌檢出數(shù)、誤檢數(shù)、人臉標注數(shù)、車牌標注數(shù)、人臉真值數(shù)和車牌真值數(shù)等值,進而計算人臉檢出率、車牌檢出率和誤檢率等關(guān)鍵指標。同時,測試人員通過計算真值框和標注框的面積,可以計算交并比。
④ 結(jié)果評估并生成報告
測試人員根據(jù)計算得出的人臉檢出率、車牌檢出率和誤檢率等關(guān)鍵指標,進行匿名化結(jié)果評估,給出評估結(jié)論(通過/未通過),并生成最終的匿名化測試報告。
基于上述流程,我們開發(fā)了一套圖像和視頻脫敏測評系統(tǒng)。該系統(tǒng)具備真值數(shù)據(jù)管理模塊,包括真值數(shù)據(jù)上傳、真值視頻抽幀、真值圖片篩選、真值圖片標注和人工修改真值標注等功能;具備脫敏數(shù)據(jù)管理模塊,包括脫敏數(shù)據(jù)上傳、脫敏視頻抽幀、脫敏圖片標注和人工修改脫敏標注等功能;具備效果測評模塊,包括關(guān)鍵指標計算、結(jié)果報告輸出等功能;具備系統(tǒng)模塊,包括用戶管理參數(shù)設(shè)置等功能。
目前,有真值的車端視頻圖像脫敏效果評測方法已服務(wù)于多家企業(yè)。以汽車品牌路特斯為例,本文使用脫敏測評系統(tǒng),開展了車外人臉車牌匿名化效果驗證:以使用車外攝像頭和魚眼拍攝的原始視頻和其在車端通過匿名化算法處理完的脫敏視頻為輸入,通過系統(tǒng)自動標注和人工標注相結(jié)合的方式,計算檢出率、誤檢率和交并比等關(guān)鍵指標,最終輸出匿名化測試報告。這套脫敏測評系統(tǒng)實現(xiàn)了以系統(tǒng)工具為依托,以人工校核為輔助,從視頻輸入到報告輸出的測試全流程閉環(huán),論證了該汽車匿名化算法的有效性。圖1為該案例的截圖。
通過實際的應(yīng)用測試和案例研究,本文建議對真值驗證法進行以下優(yōu)化。
① 進一步細化清晰度指標
真值驗證法要求人臉與車牌,除滿足像素要求外,還應(yīng)滿足完整度、清晰度的要求才能夠被視為真值。本研究發(fā)現(xiàn)人臉、車牌清晰度的指標(如高斯模糊和運動模糊)在技術(shù)上難以量化,而脫敏測評系統(tǒng)是基于像素來判斷真值圖片中的人臉和車牌是否需要標注;又由于該系統(tǒng)采用的是“算法檢測+人工校核”的方式進行檢測,人工校核時需要對被算法漏標的人臉和車牌主觀判斷其是否清晰可見,這在一定程度上影響了測試結(jié)果的準確性。
② 進一步完善測評系統(tǒng)
匿名化效果的測試結(jié)論高度依賴脫敏測評系統(tǒng)的標注結(jié)果,而脫敏測評系統(tǒng)標注效率和結(jié)果準確性又高度依賴其內(nèi)部算法能力。若系統(tǒng)內(nèi)部算法性能不夠優(yōu)秀,會對真值人臉、車牌造成大量誤標、漏標,或?qū)ζ髽I(yè)打碼框的識別造成大量偏差,就會使整個測評流程涉及大量人工校驗和修改系統(tǒng)標注結(jié)果的工作,造成較高的人力成本,也會導(dǎo)致測試結(jié)果存在較大誤差。
① 測試數(shù)據(jù)準備
試驗車輛在指定場景采集車外含有人臉和車牌的視頻圖像,在車端進行匿名化處理后,將脫敏后的視頻圖像數(shù)據(jù)通過指定鏈路對外傳輸。測試人員實時抓包,獲得測試數(shù)據(jù)。
② 測試數(shù)據(jù)處理
測試數(shù)據(jù)僅包含脫敏數(shù)據(jù),測試人員依次采用兩種方法開展驗證,并得到對應(yīng)驗證結(jié)果。
·方法一
首先,測試人員使用5種不同算法對測試數(shù)據(jù)進行人臉、車牌檢測,識別視頻圖像中是否殘留人臉、車牌信息;然后,從測試數(shù)據(jù)中抽取樣本進行人工校核,識別視頻圖像中是否殘留人臉、車牌信息;基于算法識別和人工校核結(jié)果計算未通過驗證的樣本數(shù)量。
·方法二
測試人員通過檢測算法和人工校核相結(jié)合的方式對脫敏區(qū)域及其周圍進行檢測,驗證是否沒有五官、面部皮膚等人臉殘留,字母、漢字和數(shù)字等車牌殘留,計算未通過驗證的樣本數(shù)量。
③ 結(jié)果評估并生成報告
基于兩種方法的驗證結(jié)果,即未通過驗證的樣本數(shù)量,測試人員分別計算兩種方法所對應(yīng)的未通過率, 無真值驗證法要求形成測試結(jié)論,分別為通過、未通過和未完成,并生成最終的匿名化測試報告。
基于上述流程,我們進行了技術(shù)能力建設(shè)和實驗測試方法的可行性研究,并發(fā)現(xiàn)這套方法在實際落地過程中存在以下2點可優(yōu)化的內(nèi)容。
① 明確5種算法的具體內(nèi)容
一方面,無真值驗證法提出采用5種不同的算法,卻未明確具體的算法差異(如各個算法不同在哪里,怎樣才算不同),為該方法的研發(fā)落地帶來了困難;另一方面,根據(jù)其對于算法性能的要求,該方法所需的5種不同人臉檢測算法和5種不同車牌檢測算法在指定數(shù)據(jù)集下,應(yīng)達到一定指標,以保證檢測效果。在行業(yè)內(nèi)該指標要求較高,故脫敏效果檢測工具可能會需要較高的建設(shè)成本和較長的開發(fā)周期。
② 提升驗證數(shù)據(jù)充分性
無真值驗證法使用的算法成本較高,卻不能獲得可信的結(jié)果。根據(jù)實際應(yīng)用經(jīng)驗來看,達到TC260-PG-2023XX所需指標的算法并不能保證在實際車外視頻圖像的人臉車牌識別中能達到很好的效果,實際仍需提供大量標注好的車外人臉車牌數(shù)據(jù)集來訓(xùn)練算法。否則,即使采用了5種不同的算法進行驗證,通過算法得到的檢測結(jié)果仍會存在較大誤差。況且該方法中對算法檢測結(jié)果無人工校核的步驟,只是額外對數(shù)據(jù)進行抽樣人工校核,這樣也會進一步增大檢測結(jié)果的誤差。
本文針對真值和無真值驗證法進行對比分析,討論它們各自的優(yōu)點和不足。
首先,無真值驗證法在合規(guī)性上,要優(yōu)于真值驗證法。前者在測試數(shù)據(jù)準備階段完全不涉及原始數(shù)據(jù)出車,且測試道路不受開放場地和封閉場地的限制;而后者由于在測試數(shù)據(jù)準備階段需要把原始數(shù)據(jù)出車作為真值,可能會涉及汽車數(shù)據(jù)安全、合規(guī)風(fēng)險。根據(jù)數(shù)據(jù)安全相關(guān)法律法規(guī),收集處理個人信息數(shù)據(jù)需要告知個人并獲得同意,即若原始數(shù)據(jù)要出車,需要對數(shù)據(jù)中涉及的個人進行告知同意。要滿足這一條件的話,該類數(shù)據(jù)收集,可能只能在封閉場地中進行測試以達到原始數(shù)據(jù)出車,只有國家出臺明確的針對檢測機構(gòu)的豁免條款才能在開放道路進行測試。
不過,在方法的規(guī)范性上真值驗證法要優(yōu)于無真值驗證法。前者詳細列明了數(shù)據(jù)格式要求、樣本質(zhì)量要求、脫敏功能要求和性能要求,保證了檢測依據(jù)的清晰明確和檢測過程的規(guī)范,這對于檢測方法的最終落地實施具有非常重要的意義;而后者在測試方法、樣本選取、算法指標要求和算法差異性要求等方面都不夠明確,造成了實際落地困難、測試結(jié)果可信度不高等問題。
此外,在成本控制和可操作性上,真值驗證法也要優(yōu)于無真值驗證法。相比于后者需要5種不同的人臉車牌算法,前者只需要1種人臉車牌算法,大大節(jié)省了研發(fā)成本,縮短了開發(fā)周期,同時在后期對算法本身的迭代優(yōu)化和功能維護上也會更加方便,具有更佳的可操作性。
在具備相同算法性能的條件下,真值驗證法結(jié)果的準確性也優(yōu)于無真值驗證法。雖然,兩者都是基于檢測算法和人工校核相結(jié)合的方式,但前者是通過人工校核對算法檢測結(jié)果中可能存在的漏標、誤標進行檢查,以保證識別結(jié)果的可靠性,而后者是算法檢測一遍后,對數(shù)據(jù)進行抽樣人工校核,在結(jié)果的準確性上相對較弱。此外,由于后者人工檢測對象是抽樣的數(shù)據(jù)而不是全量數(shù)據(jù),使其人力消耗低于前者。
本文基于T/CAAMTB 77-2022和TC260-PG-2023XX中對于車外視頻圖像脫敏效果評測的相關(guān)要求,提出真值驗證法更具有規(guī)范性和可操作性,而且其算法少、成本低,檢測結(jié)果也更具有可靠性,但該方法受限于真值數(shù)據(jù)的獲取,被測機構(gòu)可能因為數(shù)據(jù)安全合規(guī)因素而無法提供車外視頻圖像的真值數(shù)據(jù)。無真值驗證法則可以解決這個問題,它只需接受脫敏后的車外視頻圖像數(shù)據(jù)的輸入。但該方法目前無論在規(guī)范性上還是結(jié)果的可靠性上都仍有欠缺,且其需要的多種高質(zhì)量算法,也會增加實際落地應(yīng)用的難度。綜上所述,目前,真值驗證法在多方面都表現(xiàn)較為良好,無真值驗證法有待在未來得到進一步的優(yōu)化與改善,從而解決脫敏效果評測時被測機構(gòu)無法提供原始視頻圖像的問題。