記者:作為一名從事警務(wù)大數(shù)據(jù)技術(shù)研發(fā)和應(yīng)用服務(wù)的專業(yè)人士,您怎么看目前的警務(wù)大數(shù)據(jù)現(xiàn)狀和未來?
楊再飛:作為從事警務(wù)科技和服務(wù)的企業(yè),我們深刻感受到了近幾年來公安信息化建設(shè)的飛速發(fā)展,前端感知數(shù)據(jù)快速膨脹,實戰(zhàn)應(yīng)用需求日益增加,民警應(yīng)用技能也明顯提升,可以這么說,科技正在引領(lǐng)整個警務(wù)流程再造。隨著國家大數(shù)據(jù)戰(zhàn)略的確立,警務(wù)大數(shù)據(jù)正逢前所未有的歷史機(jī)遇,以“智慧公安”為核心的大數(shù)據(jù)應(yīng)用正蓬勃發(fā)展,公安機(jī)關(guān)在維護(hù)穩(wěn)定、打擊犯罪、治安防控、民生服務(wù)、風(fēng)險預(yù)測等方面的能力將明顯提升,更將催生警務(wù)模式和運(yùn)行機(jī)制的深刻變革,推動傳統(tǒng)警務(wù)向現(xiàn)代警務(wù)的快速發(fā)展。但總體來看,目前很多地方還處于“數(shù)據(jù)大”的起步階段,離充分實現(xiàn)“大數(shù)據(jù)”的規(guī)模效益還有很多路要走。
記者:“數(shù)據(jù)大”和“大數(shù)據(jù)”的區(qū)別在哪里?您怎么理解“大數(shù)據(jù)”?
楊再飛:從IT時代進(jìn)入DT(數(shù)據(jù)科技)時代以來,大數(shù)據(jù)技術(shù)已經(jīng)從前沿概念階段進(jìn)入到了落地應(yīng)用階段??v觀各行各業(yè)的大數(shù)據(jù)應(yīng)用探索,普遍對大數(shù)據(jù)定義為:“大數(shù)據(jù)”是一種規(guī)模大到在獲取、管理、分析方面超出傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合。綜合來看,“大數(shù)據(jù)”應(yīng)該具有以下六大特征。
一是多類型。指數(shù)據(jù)種類多、涉及面廣、數(shù)據(jù)源豐富、數(shù)據(jù)結(jié)構(gòu)復(fù)雜。二是大規(guī)模。指存儲量巨大、單一數(shù)據(jù)或總體數(shù)據(jù)量大。三是快速度,指數(shù)據(jù)更新頻度高、傳輸實時性強(qiáng)、采集預(yù)處理速度快。四是低密度。由物聯(lián)網(wǎng)采集和各種社會數(shù)據(jù)匯總而來的數(shù)據(jù),相對傳統(tǒng)數(shù)據(jù)而言,價值密度一定是非常低的,數(shù)據(jù)本身質(zhì)量也較差。五是強(qiáng)治理。正因為數(shù)據(jù)量龐雜而價值密度低,因此數(shù)據(jù)治理和分析挖掘的能力,決定了大數(shù)據(jù)究竟能在實戰(zhàn)中發(fā)揮多大、多深的價值。六是多應(yīng)用。只有越來越多地應(yīng)用運(yùn)行在大數(shù)據(jù)系統(tǒng)之上,才能不斷促進(jìn)數(shù)據(jù)的采集和治理臻于完善,形成良性循環(huán),否則大數(shù)據(jù)將只是一種負(fù)擔(dān)而不是財富。
如果數(shù)據(jù)類型單一、關(guān)聯(lián)程度低、更新速度慢、數(shù)據(jù)質(zhì)量差、沒有數(shù)據(jù)治理、沒有分析挖掘,哪怕一類數(shù)據(jù)量有幾千萬甚至是上億條,也只能是“數(shù)據(jù)大”而已,而不是真正意義上的“大數(shù)據(jù)”。規(guī)模和價值是“大數(shù)據(jù)”核心所在,同時,“數(shù)據(jù)大”是“大數(shù)據(jù)”的前提和基礎(chǔ)。
記者:在警務(wù)大數(shù)據(jù)建設(shè)工作中找到痛點很重要。目前你們在服務(wù)客戶過程中,發(fā)現(xiàn)在數(shù)據(jù)方面的主要痛點有哪些?
楊再飛:各個公安機(jī)關(guān)單位實施大數(shù)據(jù)建設(shè)的過程中,所遇到的問題和挑戰(zhàn)不盡相同,發(fā)展水平也不同,但有一些共性的東西值得進(jìn)一步研究加強(qiáng)。一是數(shù)據(jù)種類偏少:主要來自科信數(shù)據(jù)資源平臺和情報平臺的數(shù)據(jù),部門業(yè)務(wù)系統(tǒng)如交警、出入境、經(jīng)偵、禁毒等的數(shù)據(jù)沒有完全融合,政府共享數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)接入量較少,已建的智能門禁、WIFI、水電煤氣、人臉識別、車輛卡口等數(shù)據(jù)又因數(shù)據(jù)量巨大而不能全量接入。數(shù)據(jù)種類偏少對建立人、車、物、案、事的全息檔案和特征畫像會產(chǎn)生較大影響。二是數(shù)據(jù)實時性差:數(shù)據(jù)延時情況比較突出,很多數(shù)據(jù)不是熱數(shù)據(jù),實時更新、動態(tài)更新量不大。三是數(shù)據(jù)質(zhì)量偏低:即使是已經(jīng)接入的數(shù)據(jù),其數(shù)據(jù)質(zhì)量方面也常常存在問題,如系統(tǒng)字典缺失(沒有統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)字典)、數(shù)據(jù)錄入不規(guī)范(如數(shù)據(jù)缺失部分字段,甚至錄入字段錯位)、關(guān)聯(lián)性缺乏(如消費類數(shù)據(jù)只有卡號,缺少卡號與具體個體或家庭的對應(yīng)關(guān)系)等。
記者:您前面講“數(shù)據(jù)大”是“大數(shù)據(jù)”的前提和基礎(chǔ)。那如何才能做到“數(shù)據(jù)大”?
楊再飛:從我的角度來理解,公安大數(shù)據(jù)主要來自于三個方面:首先是公安內(nèi)部的大數(shù)據(jù)。僅各種公安業(yè)務(wù)系統(tǒng)處理、采集、匯聚的結(jié)構(gòu)化數(shù)據(jù),就已經(jīng)構(gòu)成了海量級的數(shù)據(jù),再加上半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),總體數(shù)據(jù)量非??捎^。這些數(shù)據(jù)來源于各類業(yè)務(wù)、各個警種,比如人口數(shù)據(jù)、指紋數(shù)據(jù)、機(jī)動車駕駛員數(shù)據(jù),等等。第二個方面,是互聯(lián)網(wǎng)相關(guān)數(shù)據(jù)。由于互聯(lián)網(wǎng)得到了廣泛的應(yīng)用,網(wǎng)上網(wǎng)下的互動就產(chǎn)生了大量的數(shù)據(jù)?;ヂ?lián)網(wǎng)相關(guān)數(shù)據(jù)處于公安大數(shù)據(jù)應(yīng)用的前沿,包括用戶行為數(shù)據(jù)、用戶消費數(shù)據(jù)、用戶地理位置數(shù)據(jù)、互聯(lián)網(wǎng)金融數(shù)據(jù)等在內(nèi)的一系列互聯(lián)網(wǎng)大數(shù)據(jù),都可以為公安警務(wù)大數(shù)據(jù)所用。第三個方面,是政府部門數(shù)據(jù)。隨著智慧城市建設(shè)力度加大,各地政府部門匯聚了海量數(shù)據(jù)資源。通過有效整合、多種方式共享服務(wù),公安可以接入更多的政府部門數(shù)據(jù),如工商、稅務(wù)、醫(yī)療、交通、國土等。
“數(shù)據(jù)大”是社會發(fā)展、科技進(jìn)步、民生改善的必然產(chǎn)物?!皵?shù)據(jù)大”將是一種常態(tài)并會繼續(xù)發(fā)展,應(yīng)該用一種開放、樂觀、冷靜的心態(tài)來主動擁抱大數(shù)據(jù)、借力大數(shù)據(jù)、融入大數(shù)據(jù)。
記者:如果將“數(shù)據(jù)大”轉(zhuǎn)化為“大數(shù)據(jù)”,有效途徑有哪些?
楊再飛:科技改變未來,大數(shù)據(jù)應(yīng)用為新時代勾勒出美好圖景。對公安機(jī)關(guān)來說,利用大數(shù)據(jù)全面提升打擊犯罪整體效能、助推社會治理邁向精準(zhǔn)化和規(guī)范化、全力提高人民獲得感、幸福感、安全感,正是這幅圖景的最好呈現(xiàn)。我們在與客戶交流和應(yīng)用服務(wù)的過程中,深刻感受到以下幾點。
首先,要全力豐富數(shù)據(jù)種類。無論是海量級的WIFI、人臉、視頻、卡口數(shù)據(jù),還是幾百條的企業(yè)工資明細(xì)表、暫住人口登記表、二手交易信息,都要悉數(shù)整合接入。有些種類的數(shù)據(jù)量雖小,但豐富了種類,完善了整個數(shù)據(jù)體系。
其次,要提升傳遞速度。分類型、分類別、分層級明確數(shù)據(jù)傳遞時限標(biāo)準(zhǔn),公安自建業(yè)務(wù)數(shù)據(jù)要實現(xiàn)分鐘級更新;省內(nèi)共享數(shù)據(jù)實現(xiàn)小時級別的更新;省外數(shù)據(jù)實現(xiàn)2小時更新。最大限度地提升預(yù)警和分析比對的時效性。
第三,要加強(qiáng)數(shù)據(jù)治理。一是制定數(shù)據(jù)采集標(biāo)準(zhǔn),明確必錄項、加強(qiáng)系統(tǒng)間的互通,建立關(guān)聯(lián)關(guān)系,減少基層重復(fù)采集工作量,從源頭上規(guī)范數(shù)據(jù)錄入質(zhì)量。二是嚴(yán)格數(shù)據(jù)清洗,對接入的數(shù)據(jù),按照冷數(shù)據(jù)和熱數(shù)據(jù)的分類,分別進(jìn)行預(yù)處理,對重復(fù)字段去重,對無效、垃圾數(shù)據(jù)進(jìn)行清洗隔離,對多表建立關(guān)聯(lián)翻譯。三是加強(qiáng)數(shù)據(jù)處理,通過語義分析、文本分析、數(shù)據(jù)標(biāo)簽、圖數(shù)據(jù)庫等技術(shù),對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化、標(biāo)簽化、圖譜化、專題化處理。為數(shù)據(jù)分析提供數(shù)據(jù)保障。
最后,要高度重視數(shù)據(jù)的分析應(yīng)用。沒有分析應(yīng)用的大數(shù)據(jù)只是一種資源,而不能提供高價值,只有通過分析挖掘轉(zhuǎn)化成警務(wù)行動指令、服務(wù)實戰(zhàn)的數(shù)據(jù)情報,才能體現(xiàn)大數(shù)據(jù)的核心價值。遺憾的是,很多地方非常重視前端感知采集的投入,但在后端數(shù)據(jù)分析方面卻基本沒有投入,導(dǎo)致海量數(shù)據(jù)處于流失和沉睡狀態(tài),這是需要引起重視的。
記者:您提到?jīng)]有應(yīng)用的大數(shù)據(jù)不是真正的“大數(shù)據(jù)”,你們在服務(wù)實戰(zhàn)中有哪些體會?
楊再飛:大數(shù)據(jù)實戰(zhàn)應(yīng)用的最終落腳點是應(yīng)用。在為全國數(shù)十個省區(qū)市公安機(jī)關(guān)服務(wù)的過程中,每個單位都有十分經(jīng)典的案例和故事,如武漢市局的大學(xué)生落戶政策分析項目、宜昌市局的嫌疑對象分析、南昌市局的預(yù)警分析、十堰市局的綜合預(yù)警、上海市局在涉黃涉毒場所整治中的分析應(yīng)用等,都發(fā)揮了大數(shù)據(jù)的核心價值和驅(qū)動作用,利用大數(shù)據(jù)平臺,提高了對風(fēng)險因素的感知、預(yù)測、防范能力。
新故相推,日生不滯。洶涌澎湃的大數(shù)據(jù)浪潮,撞擊著公安工作的傳統(tǒng)思維和方式。大數(shù)據(jù)在公安領(lǐng)域一定會得到迅猛發(fā)展,我們也希望在這個過程中,發(fā)揮大數(shù)據(jù)企業(yè)的優(yōu)勢,更好地研發(fā)民警愛用、好用、實用的大數(shù)據(jù)分析產(chǎn)品,更貼心地服務(wù)公安客戶。