鐘地秀,丁小波,蔡茂貞,彭 琨,吳灼豪
(中移互聯(lián)網(wǎng)有限公司云產(chǎn)品事業(yè)部,廣州 510000)
隨著增強移動寬帶、低時延高可靠海量連接的5G 時代來臨,圖片、視頻、文本等個人數(shù)據(jù)也在不斷激增,個人數(shù)據(jù)的激增勢必讓個人網(wǎng)盤在未來成為強需求。據(jù)艾媒咨詢數(shù)據(jù)顯示,2020 年全球數(shù)據(jù)中心存儲容量將達到272 艾字節(jié),不斷擴大的個人數(shù)據(jù)和云儲存需求加速了個人云服務市場的發(fā)展,預計2020 年中國個人云盤用戶規(guī)模有望超過4億人,未來個人網(wǎng)盤提供商的經(jīng)營實力和服務能力將成為用戶關注的一大焦點。
國內(nèi)個人網(wǎng)盤行業(yè)始于PC 時代,最初以網(wǎng)絡文件存儲、備份的功能為主。隨著互聯(lián)網(wǎng)技術的興起和智能手機的普及,個人手機上的數(shù)據(jù)(特別是照片和視頻)激增,個人網(wǎng)盤產(chǎn)品也不斷進化,照片和視頻的核心場景逐漸從個人網(wǎng)盤中獨立出來,從文件存儲分離出相冊產(chǎn)品。再到人工智能時代,大數(shù)據(jù)和圖像識別技術的引入為多媒體內(nèi)容的識別和分析帶來諸多便利,孵化出如智能相冊、智能P 圖和自動視頻聚合等應用。本文重點關注基于圖像識別的網(wǎng)盤智能相冊系統(tǒng)。
智能相冊基于AI 圖像識別技術,為網(wǎng)盤用戶提供良好的照片管理服務,包括人臉識別、物品分類以及場景理解、智能搜索等功能,通過理解圖片本身的視覺內(nèi)容幫助用戶進行更多維度的分析管理。
(1)人臉識別。應用人臉檢測、人臉特征提取及聚類技術,自動識別出相冊圖片中包含哪些人,并將人物按照身份分組呈現(xiàn)給用戶,便于用戶瀏覽與查找。
(2)物品分類。應用物體檢測、物體分類技術,自動定位并識別出圖片中包含的主體位置和主體屬性標簽,如貓、狗、花、火車等,并基于圖片屬性標簽完成圖片分組展示。
(3)場景理解。應用圖像識別技術,分析圖片中出現(xiàn)的場景主題類別,如天空、海洋、草坪、婚禮等,以主題形式對用戶相冊進行分類管理,便于用戶記錄生活軌跡及美好瞬間。
本文基于圖像識別及目標檢測等技術實現(xiàn)網(wǎng)盤智能相冊,實現(xiàn)的基本功能如圖1所示,針對用戶網(wǎng)盤相冊圖片集數(shù)據(jù),系統(tǒng)可根據(jù)圖片視覺內(nèi)容進行自動識別和自動分組,最后形成以人物個體或其它內(nèi)容標簽為單位的圖片集,從而便于用戶更加快速高效地瀏覽及查找目標對象,實現(xiàn)智能高效管理相冊的目的。
圖1 智能相冊功能示意圖
為實現(xiàn)上述基本功能,本文設計的智能相冊系統(tǒng)架構(gòu)如圖2所示,整體架構(gòu)分為模型訓練和服務應用兩大部分,模型訓練完成各類智能算法模型參數(shù)優(yōu)化訓練,并為服務應用模塊提供算法技術支撐,實現(xiàn)相冊智能分類業(yè)務。本文網(wǎng)盤智能相冊具備人臉識別、物品分類、場景理解三大智能算法能力,基于基礎算法能力可為網(wǎng)盤用戶提供人像聚類及事物分類兩大智能相冊業(yè)務服務。
圖2 智能相冊系統(tǒng)框架圖
模型訓練是整個系統(tǒng)框架的核心部分,智能相冊業(yè)務應用效果都依賴于模型訓練的高準確率,其基本組成部分如圖2 所示,包括用于模型優(yōu)化訓練的圖片數(shù)據(jù)集、圖片數(shù)據(jù)預處理以及智能算法池三個模塊。本文智能相冊實現(xiàn)過程中需完成人臉識別、物體識別及場景理解三個模型訓練優(yōu)化,具體詳情闡述如下。
為完成智能相冊算法模型訓練,本文采用網(wǎng)絡爬蟲及開源數(shù)據(jù)融合方式獲取訓練圖片集。圖片訓練集獲取后進行圖片清洗、篩選標注等一系列工作,并可依據(jù)不同的訓練任務執(zhí)行相應的數(shù)據(jù)預處理操作。圖片數(shù)據(jù)預處理包括通用預處理方法及特定預處理方法兩類,通用預處理方法通常為視覺任務共用的圖像預處理手段,特定預處理可根據(jù)任務模型需求而設定。
通用預處理方法:三個任務均采取均值消除,值域歸一化預處理訓練集數(shù)據(jù)。
特定預處理方法:采取數(shù)值標準化(normal?ize),并使用對比度、色調(diào)擴增預處理人臉圖片集;采取數(shù)值標準化(normalize),并使用隨機剪裁、隨機旋轉(zhuǎn)擴增預處理物體圖片集;針對場景圖片集,實驗對比發(fā)現(xiàn)數(shù)值標準化方法對場景色彩影響較大,易造成大面積色彩相近的場景圖混淆錯分,故本文不采用該方法預處理場景圖片,而是采用隨機灰度化來降低色彩對場景標簽的影響,同時采取亮度、對比度調(diào)整擴增場景圖片集。
2.1.1 人臉識別
人臉識別完成的任務是通過人物面部特征提取分析,實現(xiàn)人臉身份確認,本文系統(tǒng)中人臉識別流程主要由人臉檢測、人臉矯正和人臉特征比對三個部分完成。
(1)人臉檢測。人臉檢測完成從照片中檢測獲得人臉坐標框以及人臉關鍵點坐標的任務,文 本 系 統(tǒng) 采 用 基 于 開 源WIDERFACE和LFPW數(shù)據(jù)集訓練完成的MTCNN實現(xiàn)人臉框和人臉關鍵點生成工作,模型訓練完成后在網(wǎng)絡爬蟲數(shù)據(jù)集上進行測試,測試結(jié)果如表1 所示。測試圖片數(shù)目為1000 張,包含總?cè)四様?shù)目為2503張,測試人臉圖片具備不同光照、膚色、表情及部分遮擋等多種形態(tài),模型作用于圖片預測輸出圖片中所有人臉框4個坐標點以及臉部5個關鍵點坐標。
表1 MTCNN人臉檢測結(jié)果
(2)人臉矯正。為獲得更佳的人臉識別效果,在人臉檢測后需要對部分人臉圖片進行矯正,減小偏轉(zhuǎn)幅度過大的人臉傾斜角度。本文采用仿射變換完成人臉矯正,具體步驟如圖3左圖所示,通過調(diào)整人臉兩眼中心點連線的傾斜角度實現(xiàn)人臉旋轉(zhuǎn)角度矯正,矯正效果如圖3右圖所示。
圖3 人臉矯正方案(左)人臉矯正效果(右)
(3)人臉特征比對。人臉矯正完成后,應用人臉特征提取模型獲取人臉區(qū)域特征作為該人臉身份的表示向量,通過對比兩張人臉的表示向量判定人臉是否為同一人,從而確認人臉身份。本文采取insightface模型作為人臉特征提取模型,并應用歐式距離度量人臉特征表示。模型訓練集采用百度谷歌爬蟲獲得人物圖片集,包含1509 個人物ID,共94764 張圖片,模型主干網(wǎng)絡選擇Resnet50,損失函數(shù)采用基礎的softmax 損失,輸出人臉特征向量維度為512 維。模型訓練收斂后采用微博爬蟲圖片集進行測試,共包含1000 個微博人物ID,測試時隨機抽取3000 對相同人臉圖片及3000 對不同人臉圖片,測試結(jié)果如表2所示。
表2 人臉識別模型測試結(jié)果
2.1.2 物體識別
物體識別分辨出圖片中存在哪些物體,預測輸出圖片中包含的所有物體類別標簽。本文物體識別應用yolov5目標檢測模型實現(xiàn),選擇日常生活中常見標簽(見表3),訓練圖片集由從開源coco數(shù)據(jù)集中抽取的部分標簽樣本集以及網(wǎng)頁爬蟲獲取的部分圖片集組成,訓練模型結(jié)構(gòu)選用yolov5l 模型,并載入release 預訓練權(quán)重完成模型參數(shù)初始化。測試數(shù)據(jù)集由網(wǎng)頁爬蟲獲取,每類測試圖片為100張,測試僅計算物體識別結(jié)果,測試結(jié)果如表3所示。
表3 物體識別測試結(jié)果
續(xù)表3
2.1.3 場景理解
場景理解解析圖像所處的場景環(huán)境,如天空、草地等,與物體識別結(jié)合使用,完成網(wǎng)盤相冊事物分類服務,為網(wǎng)盤用戶提供照片的智能自動分組及管理。場景理解預測輸出圖片所屬場景類別標簽,屬于圖片多標簽識別任務,本文采用經(jīng)典resNet50卷積模型完成場景分類任務。為實現(xiàn)場景多標簽預測,本文替換原resNet 模型中的softmax 激活分類層為sigmoid 激活,同時考慮到樣本不均衡問題,本文采用非對稱損失ASL 進行分類模型優(yōu)化。場景標簽選擇常見的26 類生活場景標簽,通過網(wǎng)頁爬蟲獲得訓練樣本集和測試樣本集,訓練集每類圖片數(shù)目3000~5000 張,測試集圖片每類100 張,模型訓練測試結(jié)果如表4所示。
表4 場景理解測試結(jié)果
網(wǎng)盤智能相冊基于人臉識別、物體識別及場景理解基礎算法技術形成人像聚類及事物聚類兩大類應用,可以根據(jù)圖片標簽屬性將相冊圖片進行分組劃分,例如將相同人物照片劃分為同一組,將事物圖片聚合分為風景、美食、建筑等類別,也可以將人物場景事件分為聚餐、運動、演出等類別。
2.2.1 人像聚類
基于人臉特征向量間歐式距離設置兩層閾值完成相同照片人臉聚合,第一層閾值用于進行相似圖像的聚類組合,可存在一張圖片屬于多種聚類組合中;第二層閾值對于存在聚類組合的圖像進行過濾與整合,輸出結(jié)果保證每張圖像只存在一種聚類組合。聚類流程如圖4 所示。人臉特征向量由人臉識別模型獲得,以特征向量間的歐式距離作為人臉相似度度量。
圖4 人像聚類方案(左)和人像聚類示例(右)
第一層閾值聚類:第一層閾值聚類組合將相似度大于所設定的第一閾值人臉圖片劃分為同一類別;
第一聚類結(jié)果合并:第一層聚類完成后對沒有聚類結(jié)果的圖片進行過濾,并對存在共同人臉圖片的聚類組合進行合并;
第二層閾值聚類:遍歷合并后的第一聚類結(jié)果,計算聚類結(jié)果類別中人臉平均相似度,并基于相似度對聚類結(jié)果進行二重篩選。具體做法是,若一張圖片與類別中的其他圖片最小相似度和平均相似度都不符合設定的第二閾值,則將此圖片剔除出此類別的聚類結(jié)果。
2.2.2 事物聚類
通過圖片物體及場景輸出標簽聚合形成網(wǎng)盤照片事物聚類應用,為便于用戶瀏覽與查找,可根據(jù)圖片細分標簽將圖片聚合為多個主題大類,如表5所示。
表5 事物聚類主題列表
可將物體標簽與場景標簽聚合為交通、動物、美食、建筑等大類,實現(xiàn)網(wǎng)盤智能相冊事物圖片智能分組應用,實現(xiàn)效果如圖5所示。
圖5 事物聚類示例
隨著5G 技術的發(fā)展及人們生活品質(zhì)的不斷提高,用戶對網(wǎng)盤存儲有了更高的要求,即要保證速度與容量,還要足夠智能。本文基于深度學習算法技術設計實現(xiàn)了網(wǎng)盤智能相冊系統(tǒng),包含模型訓練及服務應用兩大模塊,模型訓練模塊訓練輸出人臉識別、物體識別及場景理解系列算法模型用以支撐服務應用模塊的網(wǎng)盤人像聚類及事物聚類業(yè)務應用,該應用服務可根據(jù)圖片視覺內(nèi)容進行自動識別和自動分組,形成以人物個體或其它內(nèi)容主題為單位的圖片集,便于用戶更加快速、高效地瀏覽及查找網(wǎng)盤相冊圖片,實現(xiàn)智能高效的相冊管理。本系統(tǒng)架構(gòu)后續(xù)還可進行擴展以支撐更多網(wǎng)盤智能應用,如擴增智能算法池算法類型以支撐網(wǎng)盤文本、視頻智能分類處理,也可基于基礎算法模型擴展服務應用類型,如可實現(xiàn)基于人臉識別及事物識別的智能搜索應用服務。