趙厚理
引言:
大數(shù)據(jù)核心價值:大數(shù)據(jù)情報化。高關聯(lián)度的深度挖掘呈現(xiàn)??v深橫向關聯(lián)挖掘呈現(xiàn)。
隨著學科的深入交叉融合及社會發(fā)展、經(jīng)濟發(fā)展與科技發(fā)展一體化程度的增強,大數(shù)據(jù)情報化研究正從單一領域分析向全領域分析的方向發(fā)展。數(shù)據(jù)精分及呈現(xiàn)結(jié)果都在數(shù)據(jù)計算中凸顯情報化特色,滿足使用者最精準的需求。
各行業(yè)越來越依賴利用數(shù)字化科學數(shù)據(jù)以及借助復雜的數(shù)據(jù)挖掘、集成、分析與可視化工具將其轉(zhuǎn)換為信息和知識的能力。對于大數(shù)據(jù)情報研究來說,應用智能化技術(shù)能自動進行高級、復雜的信息處理分析工作,在很大程度上把研究人員從繁瑣的體力勞動中解放出來,尤其在信息環(huán)境瞬息萬變的今天,及時收集信息分析并反饋已經(jīng)變得非常重要,這都需要智能化技術(shù)加以支撐。
多維度的空間碎片數(shù)據(jù)關聯(lián)是大數(shù)據(jù)情報化呈現(xiàn)的基礎,根據(jù)不同屬性對數(shù)據(jù)進行定制化呈現(xiàn)并通過關聯(lián)計算方式智能化的解析預警,提供判斷依據(jù)是大數(shù)據(jù)情報化的關鍵。在數(shù)據(jù)大爆炸的時代,我們?nèi)绾卫煤么髷?shù)據(jù)呈現(xiàn)其應該具備的價值,是非常值得研究和探索的。
一、大數(shù)據(jù)情報化
大數(shù)據(jù)分析及呈現(xiàn)是將可收集的大數(shù)據(jù)內(nèi)容進行定制化結(jié)果、結(jié)論的可視化呈現(xiàn)過程,如何將有限的數(shù)據(jù)進行高關聯(lián)度延伸分析、縱深橫向關聯(lián)分析、類比資源輸送結(jié)合分析,是業(yè)界的難題,即大數(shù)據(jù)分析呈現(xiàn)的情報化,是特種安全領域、情報分析領域以數(shù)據(jù)為基礎的全新思維,技術(shù)相通,理念一致。
將判斷威脅情報分析的引擎融入大數(shù)據(jù)分析行業(yè)則形成大數(shù)據(jù)情報分析系統(tǒng)。
對信息安全領域威脅的大數(shù)據(jù)情報分析內(nèi)容:黑客、黑客來源、黑客屬性、黑客使用武器、黑客手法、武器基因、變種方式、入侵手段痕跡、隱藏手段、竊密方式、運輸手段、惡意IP庫、跳板、DNS供應商、行為目的輸出等。
對社會安全、生產(chǎn)安全、反恐的大數(shù)據(jù)情報分析內(nèi)容:特殊定向人物、生活生產(chǎn)習性愛好、社交及行為軌跡、地理分布、危險品爆炸物關聯(lián)、消費及生活環(huán)境、學歷及家庭環(huán)境、征信內(nèi)容等。
可以廣泛應用于軍事、反恐、商業(yè)、人文、農(nóng)業(yè)、互聯(lián)網(wǎng)、金融等領域。在數(shù)據(jù)呈現(xiàn)結(jié)果中我們需要的那部分稱之為“畫像”,大數(shù)據(jù)是物理世界在網(wǎng)絡世界的映射,是一場人類空前的網(wǎng)絡畫像運動。
網(wǎng)絡世界與物理世界不是孤立的,網(wǎng)絡世界是物理世界層次的反映。數(shù)據(jù)是無縫連接網(wǎng)絡世界與物理世界的DNA。發(fā)現(xiàn)數(shù)據(jù)DNA、重組數(shù)據(jù)DNA是人類不斷認識、探索、實踐大數(shù)據(jù)的持續(xù)過程。
充分計算關聯(lián)碎片大數(shù)據(jù)形成情報,自由構(gòu)建并呈現(xiàn)給用戶最直觀的數(shù)據(jù)挖掘內(nèi)容。是當今大數(shù)據(jù)以情報分析呈現(xiàn)的必然趨勢及需求點,因受限于運算技術(shù)能力及應用場景,目前很多大數(shù)據(jù)情報資源提供機構(gòu)不能滿足真實需求或不能深度挖掘呈現(xiàn)所需,只能做到大數(shù)據(jù)運算及呈現(xiàn),情報引導引索能力尚待提高,預知呈現(xiàn)預警能力不高。
二、大數(shù)據(jù)情報分析應用相關技術(shù)
2.1數(shù)據(jù)應用平臺和數(shù)據(jù)可視化方案
2.1.1商業(yè)智能(BI)工具
用于比較基本的,格式固定的報表展現(xiàn),具體選型待定,需要根據(jù)郵政總局的實際情況,沿用歷史已購買許可的BI工具,或者另外選型。
2.1.2數(shù)據(jù)分析工具
Hive 在Hadoop、Spark上實現(xiàn)的各種SQL引擎,可以兼容傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫的形式提供數(shù)據(jù)的查詢和計算。為業(yè)務人員提供門檻較低的交互式的數(shù)據(jù)分析工具。
2.1.3情報分析工具
HD300,深度關聯(lián)呈現(xiàn)模型,是最核心的情報呈現(xiàn)工具,也是核心應用模塊。社交網(wǎng)絡分析方法、空間信息分析等其他學科的分析方法,廣泛應用于反恐情報、商業(yè)情報、軍事情報、科技情報等領域,心理學等領域的理論也用于情報分析的認知過程,以指導情報分析及其工具的研發(fā)。
2.2數(shù)據(jù)分析及可視化
2.2.1 Web頁面數(shù)據(jù)查詢和數(shù)據(jù)可視化
架設在HBASE或者Spark SQL之上的高度定制化的數(shù)據(jù)展現(xiàn)和數(shù)據(jù)交互實現(xiàn)。對于定制為情報的數(shù)據(jù)分析和可視化呈現(xiàn),均需要進行代碼開發(fā)??梢赃x用業(yè)界的主流d3.js可視化框架來呈現(xiàn)數(shù)據(jù)。
太有意義有意義亞瑟王十五大
地理空間數(shù)據(jù)分析的分析,由于地理數(shù)據(jù)的抽象度較高,高度依賴于可視化展現(xiàn),實現(xiàn)難度也較高,Esri API和GeoTrellis可在Spark上實現(xiàn)地理數(shù)據(jù)的數(shù)據(jù)分析。
更加炫目的3D動畫式的數(shù)據(jù)展現(xiàn)可用WebGL實現(xiàn),路徑飛線動畫就是基于WebGL實現(xiàn),非常成功??梢猿尸F(xiàn)出更為直觀的效果。其他受好評的數(shù)據(jù)可視化工具如tableau,processing,根據(jù)需要備選。
從技術(shù)上看,可視化、數(shù)據(jù)挖掘等計算機領域的技術(shù),為情報研究提供了有力的技術(shù)視角,情報研究獲得的知識反過來又給予其他技術(shù)領域的發(fā)展以引導。
可見,無論從思想上、方法上、技術(shù)上,各領域之間的交叉點越來越多,雖然這種相互借鑒早就存在,但現(xiàn)在意識更強、手段更為綜合。