周安宏
(1.中通服咨詢?cè)O(shè)計(jì)研究院有限公司,江蘇 南京210000;2.重慶郵電大學(xué),重慶400065)
基于hadoop的分布式架構(gòu)包括:
(1)數(shù)據(jù)采集總線
負(fù)責(zé)數(shù)據(jù)的采集、整合、交互,實(shí)時(shí)、歷史結(jié)構(gòu)化數(shù)據(jù)通過數(shù)據(jù)采集總線進(jìn)入分布式數(shù)據(jù)庫(kù),同時(shí)通過數(shù)據(jù)采集總線能實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)和大數(shù)據(jù)平臺(tái)的分布式數(shù)據(jù)庫(kù)之間的數(shù)據(jù)遷移。
(2)HDFS分布式文件系統(tǒng)
是一個(gè)運(yùn)行在通用硬件上的可擴(kuò)展、高容錯(cuò)的大文件存儲(chǔ)系統(tǒng),能利用多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷,適用于有著超大數(shù)據(jù)集的應(yīng)用程序。
(3)Hbase分布式數(shù)據(jù)庫(kù)
Hbase是一種構(gòu)建在HDFS之上的分布式、面向列的存儲(chǔ)系統(tǒng),它具有高可靠、高性能、面向列和可伸縮的特性,適用于存儲(chǔ)大表數(shù)據(jù)(表的規(guī)模可以達(dá)到數(shù)百億行以及數(shù)百萬(wàn)列),并且對(duì)大表數(shù)據(jù)的讀、寫訪問可以達(dá)到實(shí)時(shí)級(jí)別。
(4)ElasticSearch全文搜索引擎
是一個(gè)基于Lucene的搜索引擎,能夠提供億級(jí)規(guī)模數(shù)據(jù)穩(wěn)定、可靠、快速、實(shí)時(shí)的搜索能力。
(5)YARN分布式資源管理
負(fù)責(zé)計(jì)算、存儲(chǔ)資源的管理,用以提高分布式集群環(huán)境下的資源利用率,例如內(nèi)存、IO、網(wǎng)絡(luò)、磁盤等資源,能為上層應(yīng)用提供統(tǒng)一的資源管理、調(diào)度和監(jiān)督。
(6)Spark內(nèi)存計(jì)算框架
Spark是一套分布式計(jì)算框架,其核心是彈性分布式數(shù)據(jù)集,即在對(duì)同一個(gè)數(shù)據(jù)集反復(fù)運(yùn)算時(shí),能夠?qū)㈩l繁使用的中間數(shù)據(jù)存儲(chǔ)在內(nèi)存中,提升數(shù)據(jù)計(jì)算性能。
(7)Spark Streaming流式計(jì)算引擎
負(fù)責(zé)將流式任務(wù)轉(zhuǎn)換成一段一段的批處理作業(yè),即轉(zhuǎn)換成適用于內(nèi)存計(jì)算的彈性分布式數(shù)據(jù)集,以便在內(nèi)存中進(jìn)行數(shù)據(jù)計(jì)算。
(8)SQL接口
是一套基于Spark SQL支持多種數(shù)據(jù)存儲(chǔ)、多種索引方式,具有良好資源分配與管理的OLAP(online analytical processing,在線聯(lián)機(jī)分析處理)系統(tǒng),可以為上層應(yīng)用提供對(duì)數(shù)據(jù)的各項(xiàng)操作。
(9)分布式協(xié)作服務(wù)ZooKeeper
分布式協(xié)作是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),能提供集群節(jié)點(diǎn)間的事物協(xié)調(diào)服務(wù),保證HDFS、HBase、Spark、Map/Reduce等分布式系統(tǒng)的安全可靠運(yùn)行。
(10)HDH Manager平臺(tái)管理
負(fù)責(zé)為大數(shù)據(jù)平臺(tái)提供高可靠、安全、容錯(cuò)、易用的集群管理服務(wù),包括集群部署、集群管理、服務(wù)管理、任務(wù)管理、狀態(tài)監(jiān)控、用戶管理、告警管理、日志管理等。
云分析系統(tǒng)對(duì)前端采集的人臉圖片進(jìn)行結(jié)構(gòu)化分析處理,實(shí)現(xiàn)人臉結(jié)構(gòu)化和人臉模型建設(shè)。
前端提取是指通過新建的人像感知網(wǎng),部署人臉抓拍單元,實(shí)時(shí)采集現(xiàn)場(chǎng)行人過往畫面,并對(duì)畫面中的人臉特征進(jìn)行結(jié)構(gòu)化描述,實(shí)現(xiàn)前端智能化分析;云端解析是指中心部署云解析系統(tǒng),通過人臉識(shí)別、分布式計(jì)算、CPU+GPU混合處理等技術(shù)方式,實(shí)現(xiàn)視頻流人臉云分析、人臉圖片云分析兩大功能,突破傳統(tǒng)技術(shù)在人臉數(shù)據(jù)分析、信息挖掘等方面的性能瓶頸。其中視頻流人臉云分析負(fù)責(zé)對(duì)前端推送的視頻進(jìn)行智能化分析,通過視頻觸發(fā)方式對(duì)每一幀圖像中的過往行人的人臉進(jìn)行檢測(cè)、抓拍,提取出視頻監(jiān)控中人臉圖片;人臉圖片云分析負(fù)責(zé)對(duì)人臉圖片進(jìn)行特征識(shí)別和人臉模型建模,深度挖掘圖片中有用的人臉信息,系統(tǒng)示意圖如圖1所示。
圖1 人臉圖片云分析系統(tǒng)
采用大數(shù)據(jù)、云存儲(chǔ)技術(shù),在中心設(shè)計(jì)人像資源庫(kù),實(shí)現(xiàn)對(duì)海量人臉圖片類非結(jié)構(gòu)化數(shù)據(jù)、人臉模型類半結(jié)構(gòu)化數(shù)據(jù),以及人臉特征屬性、索引等結(jié)構(gòu)化數(shù)據(jù)的集中存儲(chǔ),提供快速的數(shù)據(jù)比對(duì)分析,挖掘更多地?cái)?shù)據(jù)關(guān)聯(lián)信息,為公安業(yè)務(wù)處理和決策提供信息化技術(shù)支撐。
人臉大數(shù)據(jù)要求是面向海量人臉結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、檢索、分析,通過數(shù)據(jù)分析挖掘,可以提供人臉屬性快速查詢、以臉?biāo)涯槨⑸矸荽_認(rèn)、人臉查重、人員行為軌跡分析等功能。
(1)人臉查詢:支持通過時(shí)間段、監(jiān)控點(diǎn)、人臉屬性等條件進(jìn)行模糊查詢;
(2)以臉?biāo)涯槪褐С滞ㄟ^單個(gè)或多個(gè)人臉模型進(jìn)行相似度的匹配檢索;
(3)身份確認(rèn):支持通過人臉大庫(kù)模型比對(duì)確認(rèn)目標(biāo)人臉身份;
(4)人臉查重:支持在同一人臉庫(kù)或兩個(gè)不同人臉庫(kù)中查詢相似人臉;
(5)分析模塊:支持靜態(tài)庫(kù)、抓拍庫(kù)碰撞(刑嫌人員、涉黑惡人員庫(kù)),支持一人多證分析、串并案分析、軌跡分析等多種應(yīng)用。
人臉圖像云分析系統(tǒng)平臺(tái)架構(gòu)如圖2所示。
人臉大數(shù)據(jù)中心通過視圖庫(kù)網(wǎng)關(guān)級(jí)聯(lián)上下級(jí)人臉數(shù)據(jù)。
如圖3所示,下級(jí)人臉系統(tǒng)通過私有接口把本級(jí)人臉數(shù)據(jù)推送至本級(jí)視頻圖像信息數(shù)據(jù)庫(kù)網(wǎng)關(guān)中,由視頻圖像信息數(shù)據(jù)庫(kù)網(wǎng)關(guān)統(tǒng)一轉(zhuǎn)換成數(shù)據(jù)流,上傳至上級(jí)視頻圖像信息數(shù)據(jù)庫(kù)網(wǎng)關(guān);上級(jí)視頻圖像信息數(shù)據(jù)庫(kù)網(wǎng)關(guān)接收標(biāo)準(zhǔn)轉(zhuǎn)換人臉數(shù)據(jù),按照私有接口推送至本級(jí)人臉平臺(tái)。其中私有接口規(guī)范:公安部GA/T1400.4-2017。
圖2 人臉圖像云分析系統(tǒng)平臺(tái)架構(gòu)
圖3 人臉大數(shù)據(jù)中心共享接口
本文主要介紹了基于hadoop的人臉大數(shù)據(jù)技術(shù),借助大數(shù)據(jù)分析,可有效補(bǔ)齊當(dāng)前行業(yè)場(chǎng)所管理短板,對(duì)于刑嫌、涉黑惡人員做到事先預(yù)警,事后取證,在數(shù)據(jù)采集的深度與廣度、數(shù)據(jù)傳輸?shù)男?、?shù)據(jù)的挖掘與利用等方面得到全方位的擴(kuò)展提升。