黃河燕,曹朝,馮沖
(1.北京理工大學 計算機學院,北京 100081; 2. 北京市海量語言信息處理與云計算應用工程研究中心,北京 100081)
大數據情報分析發(fā)展機遇及其挑戰(zhàn)
黃河燕1,2,曹朝1,2,馮沖1,2
(1.北京理工大學 計算機學院,北京 100081; 2. 北京市海量語言信息處理與云計算應用工程研究中心,北京 100081)
大數據時代,情報信息的分析處理面臨著前所未有的機遇和挑戰(zhàn)。本文從情報學發(fā)展范式的角度闡述了情報分析的現狀;以事實數據、工具方法和專家智慧相融合的情報處理理念為指導,剖析了大數據情報分析在大數據融合、大數據處理技術與工具、信息深度挖掘方面的應用需求和面臨的挑戰(zhàn);最后以大數據情報分析過程中的數據采集、預處理、分析和應用為主線展望了大數據情報分析的應用發(fā)展機遇和技術趨勢。
大數據;情報分析;情報學;機遇與挑戰(zhàn);云計算
大數據時代,隨著數據的爆炸式增長,海洋一般浩瀚的數據已成為一種類似于礦藏的戰(zhàn)略資源。Gartner公司的報告提出大數據是大容量、高速和多樣化的信息資產,它們需要新的處理方式,以提高決策能力、洞察力并進行流程優(yōu)化。另外,如何從這些海洋一般浩瀚的數據中挖掘出有價值的信息、提煉出知識規(guī)律、提供正確的決策如同礦產資源探測、采礦、冶煉一般需要數據科學家和領域專業(yè)人員的共同努力。情報工作是對情報進行科學地、有組織地搜集、整理、加工、存儲、檢索和研究,及時而準確地進行傳播交流,達到充分有效提供使用的目的的一種業(yè)務活動。美國政府已經將大數據技術應用到實際運作中,比如:美國中央情報局(CIA)首席技術官透露美國已經將大數據技術應用于恐怖分子追蹤和社會情緒的監(jiān)控;在“阿拉伯之春”過程中,通過大數據分析可以了解多少人和哪些人正在從溫和立場變得更為激進,并預測出誰可能會采取對某些人有害的行動。由此可以看出,大數據的價值鏈與情報工作的價值鏈完全一致[1]。
大數據時代的來臨,給各個學科帶來了前所未有的機遇和挑戰(zhàn),尤其是以數據采集和信息處理與分析為基礎的情報分析,其發(fā)展也隨著大數據技術的發(fā)展面臨著前所未有的機遇和挑戰(zhàn)。本文結合情報分析的發(fā)展現狀以及當前大數據情報分析的應用需求,闡述大數據技術的發(fā)展給情報分析帶來的重大影響和變革,并且從大數據情報分析過程中涉及到的數據采集、處理、分析和應用各個階段對大數據情報分析的未來應用發(fā)展和技術發(fā)展趨勢進行了詳細的分析和展望。
情報分析也稱為信息分析或者情報研究,是指根據社會用戶的特定需求,以現代信息技術和軟科學研究方法為主要手段,以社會信息的采集、選擇、評價、分析和綜合等系列加工為基本過程,形成新的、增值的情報產品,為不同層次科學決策服務的社會化智能活動[2]。情報分析是社會重大決策規(guī)劃和實施中的“耳目和尖兵”,它研究的重點也始終關注于數據的采集、處理、分析及深層次挖掘,探索從復雜的數據中找到知識之間有效關聯及知識發(fā)現的最佳方法。
從情報學發(fā)展范式來看,情報學發(fā)展經歷了4個階段:
1)基于信息的事實型情報學發(fā)展范式(20世紀40~60年代),這個階段提出了情報學的研究內容和研究方法,形成了最初的情報學思想,也是標志情報學的產生和確立的重要時期;
2)基于信息管理的綜述型情報學發(fā)展范式(20世紀70~90年代),這一時期情報學研究對特定的學科選題進行了分析,具備了明顯的管理學特征;
3)基于智能的智慧型情報學發(fā)展范式(1995~2010年),情報學的研究表現出了智能深度挖掘、數據信息關聯的特征。但是這一時期的情報學研究也有一些限制,比如主要聚焦于單一領域,考慮的數據源和數據類型主要局限于結構化數據,智能情報分析對分析人員要求過高(模型選擇、各種繁雜的參數),需要大量的人工輔助或者人工處理,智能化程度有待進一步提升;
4)基于大數據的情報學發(fā)展范式(21世紀初至今),在大數據技術蓬勃發(fā)展的背景下,本階段情報學的研究范疇明顯符合了數據量巨大、信息源多、數據類型復雜等大數據的典型特征。IBM公司定義的大數據的4V特性:大數據量(Volume)、高數據速率(Velocity)、多樣性(Variety)和真實性(Veracity),在大數據情報學發(fā)展范式中有明顯的體現[3]。
情報分析發(fā)展到基于大數據的階段,大數據技術的應用對情報學的理念、研究內容、主要技術方法等方面產生了深刻而重要的影響,一方面各國的政府機構逐步重視大數據在情報分析方面的應用;另一方面也產生了專門進行情報大數據分析的商業(yè)化公司。以美國的Palantir公司為例,Palantir公司主營情報分析業(yè)務,也是將大數據技術應用于情報分析的典型代表,它的主要客戶包括:中央情報局(CIA)、國土安全部(DHS)、國家安全局(NSA)、聯邦調查局(FBI)、疾病防控中心(CDC)等美國政府機構。有消息稱:“本拉登的行蹤線索是通過情報軟件 Palantir確定的”。
目前大數據情報分析仍然處于初步且快速發(fā)展的階段。以Palantir公司為例,隨著應用于情報分析的大數據技術不斷成熟,Palantir與客戶的合作模式也在發(fā)生轉變。在2010年之前,外派工程師需要花費數十天時間對客戶的大規(guī)模數據進行人工預處理,然后通過該公司的產品將凌亂的數據轉換成直觀的圖表,借助先進的軟件和算法進行分析。而在2010年以后該公司逐步形成軟件對大數據集成、安全等進行統一管理和進一步的分析。由Palantir公司成功的經驗可以看出,大數據情報分析首先需要有高質量的數據基礎,因此數據的清理、預處理也是大數據情報分析重要而且必須的一個環(huán)節(jié)。
情報學研究的重點始終關注數據的處理、分析及深層次挖掘,探索從復雜的數據中找到知識之間有效關聯及知識發(fā)現的最佳方法,大數據情報分析作為其中的一種發(fā)展范式也不能例外。情報分析中傳統的基于“事實數據+工具方法+專家智慧”的研究方法和需求與大數據分析歷年不謀而合:1)事實數據在大數據情報分析中表現為對來自于多個數據源的大量數據的整合和融合利用;2)工具方法體現于大數據情報分析中對各種大數據工具和自動化處理技術的需求;3)而專家智慧則具體體現為通過智能關聯、數據挖掘、深度學習等機器學習方法對數據和信息進行深層挖掘的需求。這些需求印證了大數據分析技術的進步能夠促進情報分析的發(fā)展。
2.1 多種數據的整合和融合利用
在大數據的環(huán)境[4]下,情報分析的數據來源和數據類型表現出空前的多元化特征,其中涉及的數據量越來越大,數據的類型變得更加復雜,尤其是非結構化數據所占的比重明顯增大,數據的處理和分析難度增加,隨之而來的對智能型數據分析工具和數據可視化工具等的要求也越來越高。大數據情報分析中的數據特征明顯符合大數據的 “數據量大(Volume)” 、“多樣性(Variety)”、“數據速率快(Velocity)”和“真實性(Veracity)”特性[5]。
2.1.1 數據量大(Volume)
1)大量數據源。數據的來源多種多樣,而不同的數據源產生出的數據價值密度不盡相同甚至差異巨大,因此要從中篩選出高價值的數據源,或者根據價值密度的高低對不同的數據源設置不同的數據更新采集頻率;另外,每一種數據源內的數據采集點巨大,以社交網絡為例,每個用戶作為一個采集點,Twitter有3億以上的用戶,新浪微博有注冊用戶5億以上、活躍用戶2億以上,因此要從這些潛在的采集點中找到有價值的采集點是一個巨大的挑戰(zhàn)。
2)數據量大。由于大數據情報分析中數據量的巨大,對于大數據情報分析系統來說,一方面需要高效的數據存儲方式作為基礎,另一個重要方面就是必須支持對海量數據進行高效快速地處理和分析,提供對情報分析數據的全生命周期管理,同時需要支持對數據的離線批處理和實時在線分析。
3)冗余/無關數據量大。大數據情報分析的各個數據源每時每刻都在產生大量的數據,其中很可能會包括冗余、無關緊要的數據記錄,正確地判斷并且清除無關數據,消除多數據源之間信息冗余對于數據的高效存儲、有效而準確地分析都顯得非常有必要。
2.1.2 多樣性(Variety)
1)數據來源的多樣性。從傳統的圖書報紙等紙質出版物到網絡化時代的電子出版物,互聯網產生的政府、機構、公司等主頁信息,互聯網新聞信息,各種開放存取數據,近年來涌現出的大量社交網絡(FaceBook、Twitter、微博、微信等)和電商網站信息使得情報分析的數據來源變得前所未有的豐富。
2)數據類型的多樣性。一方面,由于數據來源的多樣性,不同來源通常使用不同的數據類型,比如出版物多采用PDF格式并輔助以一定的元數據、社交網絡數據通常是文本數據和視頻數據的混合、門戶網站和論壇通常是網頁數據;另一方面,不同的行業(yè)通常采用的數據格式不同,比如制造業(yè)中有大量的CAD繪圖文件、出版業(yè)中有對老書籍的掃描件等。各種各樣的數據類型通常包括文本、網頁、圖片、PDF、CAD繪圖、視頻、音頻、掃描件等[6]。
3)行業(yè)多樣性。除了門戶網站、搜索引擎(百度、谷歌等)、電子商務網站(淘寶、亞馬遜等)這些流量巨大、產生數據量也巨大的企業(yè)為代表的互聯網數據外,大數據情報分析還涉及諸如醫(yī)療衛(wèi)生、航空、地理信息、專利標準、影視娛樂、機械、科學研究等行業(yè),情報大數據分析過程中需要統籌考慮來自于各個行業(yè)以及互聯網的數據[7-8]。
4)語言多樣性。語言的多樣性源于大數據情報分析需要處理來自于不同國家、不同語種的信息,比如漢語、英語、德語、法語、韓語、西班牙語等;另外,我國是一個多民族的國家,也要充分考慮民族語言的多樣性,比如藏語、維吾爾語、蒙語等不同民族所特有的語言。需要對來自于這些語言的情報信息處理和分析在統一的框架下進行。
2.1.3 數據速率快(Velocity)特性需求
1)流式數據處理。在大數據時代,數據的變化、變動或者產生的速度非常快,比如從服務器日志到各種各樣的傳感器每時每刻都在源源不斷地產生新數據。大數據情報分析需要對這些流式數據進行實時采集和分析處理。另外,流式數據的高速率導致大數據量,從而難以對完整的數據流進行存儲,因而需要對數據流進行在線分析并對數據進行摘要后存儲。
2)高時效性分析。根據采集到的數據進行處理分析得到結果以快速地響應環(huán)境的變化和需求,特別是對于一些應用來說需要在很短的時間窗口內返回分析結果,超過一定時間窗口后返回的結果將失去應用意義。比如在金融情報分析系統中需要根據市場數據的變化實時快速分析出結果并做出決策。對于另外一些應用來說則需要對實時增量更新的數據進行分析得到結果。
2.1.4 準確性(Veracity)需求
1)歧義/沖突多。大數據情報分析由于其數據源多、數據多樣、數據量巨大的特點,不同的數據源或者不同時刻采集到的數據會產生相互矛盾和沖突的數據記錄,因此智能地消除信息的歧義,自動且智能地處理信息源之間的內容沖突的功能也變得不可或缺。
2)信息互補。單一數據源的數據有時僅提供了情報信息中的某一個側面,如果要獲取完整的情報信息需要融合多個信息源提供的互補信息或者對多個信息源提供的信息進行相互印證。比如:通過一定蜂窩數據能夠分析出我們的住所以及工作單位位置信息,而納稅信息能夠推斷出一個人的收入狀況,通過諸多信息源信息的互補能夠還原一個人的多方面信息。
2.2 大數據處理與分析工具和自動化處理
大數據情報分析需要采集海量的情報素材,然后對對海量的素材進行存儲、預處理和分析,其中數據的存儲包括對結構化和非結構化的數據的存儲。對于不同來源的數據也需要能夠對采集到的數據進行轉化、冗余或者沖突數據的清除,以及對不同來源的數據進行融合,都需要大數據情報分析系統能夠自動地完成,這就對大數據工具以及工具間作業(yè)流轉的自動化提出了要求??傮w來說,大數據情報分析對大數據工具和自動化處理技術的需求主要體現在大數據情報素材采集、大數據分布式存儲、大數據并行計算平臺、大數據分析算法和流程自動化方面。
大數據情報素材采集方面的需求主要包括:1)針對不同的數據源采用不同的采集方法;2)可配置、自適應的大數據情報素材采集系統,比如采集系統能夠適應新的社交媒體內容或者經過簡單配置后能夠處理新的媒體內容;3)對于一些受限的信息源,能夠突破這些限制。
大數據分布式存儲、并行計算平臺、分析算法、流程自動化的研究和發(fā)展為大數據情報分析提供了堅實的技術基礎。目前,已經有很多的大數據技術服務提供商、互聯網企業(yè)、研究機構和開源組織(比如Apache Hadoop和Spark)致力于大數據的處理和分析技術研究與開發(fā),提出了新的大數據存儲與分析的方法和技術,并且開發(fā)除了具備相應功能的大數據存儲和計算處理工具以及完整的通用大數據開源云計算平臺Hadoop、Spark等[9-10]。而且,隨著開源社區(qū)的不斷發(fā)展壯大,這些開源軟件的功能不斷完善并增加。從大數據情報分析的角度來看,主要的需求是充分的利用開源社區(qū)的成果,針對大數據情報分析的特定需求開發(fā)或定制相應的模塊。
2.3 大數據情報深度分析
深度分析是在預處理后的數據基礎之上借助復雜的機器學習、信息關聯、智能分析與可視化工具通過智能的方法將其轉換為信息和知識的能力,這種能力主要體現在信息抽取、多元信息融合和深度挖掘3個方面[11-13]。
在信息抽取方面,在情報研究對象大幅度擴展的情況下,其中可能包含Twitter、微博等社交媒體信息,由不同的用戶產生不同呈現形式的數據,如數值型、文本型、圖形圖像、音頻類型和視頻類型,這些大量涌入的非結構或半結構化數據,必然需要通過預處理技術將這些數據轉化為結構化數據,以供后續(xù)分析[14]。
在多元化信息方面則需要根據分析需求加以融合[15-16]。多源異構是大數據的基本特征之一,多元數據的融合也成為大數據分析處理的重要環(huán)節(jié)。根據實際的問題場景,多元信息的融合有利于進一步挖掘數據的價值,提升信息分析的有效性和準確性的作用;通過多元信息交叉印證,可以減少信息錯誤與疏漏,提供決策的準確性。對于大數據情報分析來說,多元化信息的融合已經成為一個重要的理念和必不可少的需求,具體的表現形式包括傳感數據與社會數據的融合、歷史數據與實時數據的融合、線上數據與線下數據的融合、內部數據與外部數據的融合等。
深度挖掘方面,針對海量的包含豐富而復雜信息的數據,簡單的統計分析已不能滿足決策需求,為了從中發(fā)現潛在模式以及關系,需要利用的算法包括簡單方法、基于概率論的方法、基于模糊推理的方法以及人工智能算法等[17-21]。簡單的算法包括加權平均、單元或者多元線性回歸等[21]。基于概率的算法則有貝葉斯估計、貝葉斯濾波、貝葉斯推理網絡和D-S證據理論等?;谀:评淼姆椒▌t有處理數據模糊性、不完全行和不同粒度的模糊集和粗糙集方法[22-24]。人工智能計算方法如神經網絡、遺傳算法、蟻群算法、機器學習、深度學習算法可以處理不完善的數據,在處理數據的過程中不斷地學習與歸納,從海量的數據中學習知識和發(fā)現規(guī)律。大數據情報分析的數據具有關系復雜、數據漂移、超高維、噪聲多以及屬性稀疏等特點,導致傳統的數據挖掘和機器學習算法難以有效地進行數據處理和情報分析,為此需要研究新的機器學習理論和方法。另外,需要研究適合大數據分布式處理的數據挖掘編程模型和分布式并行化執(zhí)行機制,支持數據挖掘算法中迭代、遞歸、聚合、集成、歸并等復雜算法編程,以及在現有的并行計算平臺上設計和實現復雜度低、并行性高的分布式并行化機器學習與數據挖掘算法。
大數據技術給情報分析的發(fā)展帶來了深刻的影響和變革,也給情報學研究帶來的前所未有的機遇,如圖1所示。在海量情報知識庫構建管理平臺以及高效能情報大數據存儲與并行計算云平臺的支撐之下,本文從情報大數據素材采集、數據預處理、數據分析和應用過程中的各個環(huán)節(jié)展望大數據情報分析將會發(fā)生的巨大變化。
圖1 大數據情報分析展望示意圖Fig.1 Big data intelligence analysis outlook diagram
3.1 大數據情報素材采集
在大數據情報分析的數據和素材的采集階段,海量網絡信息采集系統將是一個具備以下功能和特征的智能系統:
1)通過智能的信息源發(fā)現與管理技術篩選并甄別有價值的信息源。不同的數據源包含的信息價值密度也不盡相同,過濾掉無價值或者價值過低的數據源可以有效地減少數據的存儲與處理開銷,更進一步提高后續(xù)分析的效率和準確度。
2)大規(guī)模網絡信息獲取需要支持實時、高并發(fā)、快速的網絡內容獲取。目前從網絡產生的日志信息到機器傳感器監(jiān)測到的設備數據產生的速度非??欤髷祿閳蠓治鱿到y需要能夠近實時快速地獲取相關的數據。
3)通過受控信息源突破技術獲取受控或者管制的信息,這些受控或受管制的信息可能會蘊含更大的價值,從而為后續(xù)分析提供更全面、更有價值的信息。信息系統中記錄的主要是結果數據,實際上存在大量的過程數據并沒有在數據庫中記錄,而這些過程數據以及中間結果信息對于情報信息分析具有重要作用,智能信息采集系統能夠獲取掩蓋在業(yè)務應用系統之下的過程數據。
4)使用預處理技術移除冗余、無關信息。在采集到的素材經過大數據情報分析系統之前,通過清除無關信息以及不同數據源之間采集到的冗余數據,可以有效地減少下一階段中數據處理的負擔。
3.2 大數據情報預處理
不同的數據來源甚至同一數據來源都會產生格式不盡統一的數據。比如對同一個情報主題,情報數據可以由不同的網站和不同的用戶產生,不僅不同的網站產生的數據模態(tài)不一致,即使同一個網站的每一個用戶所產生的信息也可能會包含不同呈現形式的數據,如音頻、視頻、圖片和文本等格式。這些結構化、半結構化甚至非結構化的多模態(tài)數據組合在一起導致大數據情報分析中的數據呈現出明顯的異構性。數據融合以數據提取、轉換、聚合為基礎的核心技術,完成各異構數據源之間的數據分享與數據歸并。利用異構信息融合技術,實現統一的數據檢索和數據展現,將相互關聯的分布式異構數據源融合后進行提取、轉換、聚合,實現自動化構建專題數據庫、領域數據倉庫等功能。
專題數據庫是以某一種產品或某一類技術為主題,對全部信息進行檢索、下載、存儲,收集到的專題信息數據的集合。發(fā)展專題信息提取技術,實現基于專題的高效檢索、數據提取、數據歸并等功能,根據用戶需求對專題數據進行篩選。專題數據庫將篩選后的專題數據集合進行歸并入庫,實現數據的檢索、統計、分析等功能。
來自于分散的操作型數據,按照一定的主題域(領域)被抽取出來,進行加工與集成,統一與綜合之后形成數據倉庫。領域數據抽取時需要利用領域概念建模方法——需要運用實體建模法從紛繁的數據背后抽象出實體、事件、說明等抽象的實體,從而找出實體間的相互的關聯性。這種方式可以保證數據倉庫所需的數據能按照數據模型達到一致性和關聯性。這些數據定義直接輸入系統中,作為元數據存儲,供數據管理和分析使用。
在數據的預處理階段,由數據中間層在程序應用層與底層數據源之間構建統一的數據層,該層提供一個統一的數據邏輯視圖來隱藏底層數據源的數據細節(jié),使用戶可以把各異構數據源看為一個統一的整體,能夠用透明的方式訪問各類數據。統一的數據中間層可以使得大數據情報分析對類型繁多、結構各異的多模態(tài)數據的訪問和分析更加方便。這些不同類型的信息從不同的角度反映出事物的特征和信息,通過統一的數據接口將這些數據匯聚融合到一起,能夠更加深刻全面地揭示事物之間的聯系,挖掘出新的關聯和模式等有價值的知識和情報信息。多模態(tài)數據的融合可以說是大數據情報分析的固有特征,也是其發(fā)展的必然趨勢。
在數據預處理階段需要進行的另一項重要工作是數據歧義消除和語義標簽的計算。同一個詞在不同的上下文中有不同的含義,以“apple”為例,在談論公司的語境中的語義是生產計算機、手機等設備的美國蘋果公司,在飲食相關語境中的含義則為水果。
3.3 數據分析
大數據情報分析的數據分析階段主要涉及以下幾個方面。
1)大數據情報信息挖掘。以大數據情報信息挖掘理論、方法與工具為基礎,比如數據抽取、聚類分析、時間和空間的序列模式分析、關聯規(guī)則分析以及分類分析等,根據應用需求和數據基礎,構建并綜合應用上述各種模型,從經過預處理的情報素材中有目的地挖掘有價值的信息。并且在此過程中對于情報信息挖掘的共性問題分析逐步減少人工干預,提供探索式大數據情報挖掘環(huán)境,將情報信息挖掘方法與語義技術相結合,提升挖掘深度和準確度。在大數據情報信息挖掘理論的基礎之上,利用大數據情報分析的方法和工具,可以進行包括主題情報聚合分析、趨勢演變分析、社交媒體傾向性分析、線索挖掘以及情報預警等基于大數據情報分析的信息挖掘。
2)新型社交媒體分析。社交媒體服務的興起產生了各種各樣的社交媒體數據,比如:微博類網站的文本信息流數據、媒體分享網站的多媒體數據、社交網站的用戶交互數據、簽到網站的地理位置數據、購物網站的消費數據等[25]。這些社交媒體多源數據從不同角度記錄著人們的網絡生活,并映射著物理世界。社交媒體的多源主要體現在不同社交媒體網絡所關注的異構用戶行為信息, 理解社交媒體多源現象對于社交媒體分析和社交媒體大數據的深度應用具有重要意義。社交媒體數據處理的重點方向包括社交網絡中的多語信息處理(具有數據規(guī)模大、口語化嚴重、需要支持多種語言、社會群體特征明顯等特點[26])、社交網絡多語機器翻譯、社交網絡跨語檢索以及社交網絡情感分析。新型社交媒體的大數據情報分析是深度利用社交媒體大數據的關鍵,隨著大數據情報分析技術的成熟,可以從社交媒體的數據中進行分析并從中挖掘寶貴的信息并為大規(guī)模的社交媒體應用提供有效使用的解決方案。
3)認知計算。情報學的分析方法將從原來的計算機輔助分析為主體轉變?yōu)橛嬎銠C認知為主體的智能分析,從而形成類似于IBM Waston的大數據情報認知計算及分析平臺[27]。認知計算是綜合了多種新興技術的一個領域,并且將會對情報科學的發(fā)展產生深遠的影響,比如認知情報學已經成為了情報學領域理論的一個重要研究方向,在情報分析方法、情報檢索和信息資源建設領域,認知計算的相關技術也在起到日益重要的最用[28]。隨著大數據情報分析技術的發(fā)展,傳統的基于數據計算的挖掘技術正在向基于內容的知識發(fā)現技術發(fā)展,認知計算技術的發(fā)展可以有效的解決情報分析過程中知識處理的困難。
3.4 情報分析應用
大數據情報分析中,在前面數據采集、存儲和處理分析技術的飛速發(fā)展的基礎之上,如何讓海量的數據集的應用變得簡單和易于理解,可視化無疑是最有效的途徑,所以可視化分析也將在大數據情報分析中得到極大應用。情報可視化技術主要以信息可視化分析系統為核心,能夠自動化地實現多維信息可視化、領域知識可視化、情報預測評估可視化。能夠提供強大的圖形展現功能,將大量的、分散的、低關聯的數據抽取整合,轉化為圖形中的節(jié)點數據,再由平臺后臺提供的豐富的圖形分析算法,挖掘出數據之間隱藏著的關聯關系,對各種維度、多層次、時空、動態(tài)、關系等類型的情報信息進行可視化展現。
可視化分析廣泛應用于對于不易形成固定的分析流程或模式的場景,可視化數據分析平臺,可輔助人工操作將數據進行關聯分析交互式可視化分析能夠引導數據探索、自動化實現預測分析,對數據加以可視化解釋。典型的情報可視化分析包括多維信息可視化、領域知識可視化和預測分析的可視化[29-32]。實現可視化技術在海量信息組織方面的應用,能夠利用二維或三維的概念圖、認知地圖、思維導圖、趨勢圖、語義網絡等圖形化方式呈現情報信息,滿足對熱點情報、技術趨勢的聚類信息展示和分析預警,及時感知行業(yè)最新動態(tài)和熱點事件,為快速應對和采取措施提供直觀的判斷與決策依據。
3.5 高效能情報大數據存儲與并行計算云平臺
高效能的情報大數據存儲與計算云平臺是整個大數據情報分析系統的基礎和支撐,提供的主要功能是基于云計算的多源異構大數據存儲和管理,大規(guī)模增量實時數據的并行計算方法和面向異構數據的大規(guī)模并行處理體系結構。
高效能的大數據存儲與并行計算云平臺主要包括兩個方面,一方面是是大數據情報分析中需要的海量數據的存儲,另一方面是在大數據情報分析過程中的對海量數據進行并行分析計算的框架或者平臺[33-36]。
對于大數據情報分析中的數據來說,傳統的關系型數據庫在處理此數量級的數據時候已經開始變得吃力,而分布式的存儲系統可以用來存儲如此海量的數據并對其進行管理。海量的數據系統選擇將數據放在多個機器中,在解決存儲容量問題的同時,也帶來了許多單機系統不曾出現的問題,目前已經出現了很多的分布式數據存儲解決方案,其中包括Hadoop、Spark,各種非關系型數據庫系統(比如HBase、Cassandra、MongoDB等)[37]。這些不同的解決方案針對不同的應用需求解決了滿足了特定的要求,在應用到大數據情報分析中可以根據不同情報分析的具體需求采取不同的解決方案,或者將不同的解決方案組合在一起以滿足特定的需求,隨著大數據技術的發(fā)展,越來越多并且更加成熟的分布式數據存儲解決方案會涌現出來并且被應用于大數據情報分析中去[38]。
大數據情報分析的核心在于對收集到的數據進行分析,從中獲取有價值的信息和情報。對于海量數據的分析必然涉及各種復雜的計算,對于高效的并行計算的需求不言而喻。伴隨著海量數據的存儲方案的出現,各種不同的大數據分布式計算框架也被提出來,其中Hadoop MapReduce、Spark和Storm是目前最重要的三大分布式計算框架,這3種不同的框架側重點不同,解決的問題也不相同[39-40]。Hadoop MapReduce常用于解決離線的復雜的大數據處理,Spark常用于進行離線的快速的大數據處理,而Storm常用于進行實時在線的大數據處理。不同的計算框架具有各自不同的優(yōu)點和缺點:Hadoop MapReduce易于編程、具有良好的擴展性、高容錯性、適合PB級以上的海量數據的離線處理,但是不支持實時計算和流式計算;Spark是一種基于內存的迭代計算框架,通過將中間數據放置于內存中,獲得了更高的迭代計算效率,彈性分布數據集(resilient distributed dataset, RDD)對于數據的抽象更高級,通過Checkpoint實現容錯,Spark的編程模型比Hadoop MapReduce更加靈活,但是Spark并不適合那些需要異步地對數據狀態(tài)進行細粒度更新的應用,也就是說,Spark并不適合需要增量修改的應用模型;Storm適合于流數據處理,可以用來對源源不斷流進來的消息進行處理,并且將處理之后的結果寫入到制定的存儲設備中去,Storm另一個主要應用便是實時對數據進行處理,數據不需要寫入到磁盤等存儲設備中,延遲很低一般在毫秒級,特別適合于大數據情報分析中需要實時在線分析得到結果的場景。
高效的存儲解決方案以及并行計算框架是大數據情報分析的重要基礎支撐,可以保證海量數據的高效存儲,同時支持對海量數據的離線批處理分析以及實時在線交互計算,為情報分析人員提供了強大的分析工具[41]。
3.6 海量情報知識庫構建與管理維護
知識庫是知識的集合,知識庫系統是現代許多智能系統的關鍵基礎部件[42-44]。情報知識庫是基于信息技術建立的情報知識管理系統,是情報分析系統的重要組成部分,特別是對于大數據情報分析來說,完善高效的海量情報知識庫顯得尤為重要[45-46]。海量情報知識庫主要分為3個組件:語言學相關知識庫、行業(yè)情報知識庫和知識庫管理系統。
1)語言學相關知識庫包括語言知識庫,翻譯語料庫和分類語料庫,主要用于獲取語言知識比如詞性標注、詞義標注、搭配規(guī)則和語法規(guī)則等,為行業(yè)情報知識庫分析提供基礎。
2)行業(yè)情報知識庫包括領域本體庫、機構知識庫和敘詞庫等,存儲了海量情報知識庫的數據本體。
3)知識庫管理則主要是通過海量數據根據一定的規(guī)則進行自動學習,從而達到自動動態(tài)更新知識庫的效果。知識庫管理還需要對知識庫的訪問接口(如API等)標準化,以便于知識庫中內容的共享,提高知識庫的利用效率。
海量情報知識庫的高效維護和管理也為大數據情報分析提供堅實的基礎。同時,隨著信息技術以及各個行業(yè)數據的不斷擴充演化,需要知識庫管理系統能夠動態(tài)地自適應學習擴充已有的知識。
在大數據時代,情報分析的發(fā)展正在發(fā)生著重大的變革,大數據情報分析已經在各個方面對傳統的情報分析產生深刻的影響。本文在闡述了大數據情報分析的發(fā)展范式以及現狀以后,對大數據情報分析的所面臨的應用需求和挑戰(zhàn)從多種數據的整合和融合利用、大數據情報分析的方法和工具以及對深度分析方面進行了詳細的分析,最后從大數據情報分析具體過程中數據的采集、處理、分析和應用各個階段對大數據情報分析在技術和發(fā)展機遇方面進行了展望。隨著大數據技術的不斷發(fā)展,大數據情報分析也會越來越成熟、越來越向智能化的方向發(fā)展,從而更好地迎接更加復雜情報分析需求帶來的挑戰(zhàn)。
[1]GINSBERG J, MOHEBBI M H, PATEL R S, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014.
[2]包昌火. 情報研究方法論[M]. 北京: 科學技術文獻出版社, 1990. BAO Changhuo. Information research methodology[M]. Beijing: Science and Technology Literature Publishing House, 1990.
[3]WEISS G. A Modern approach to distributed artificial intelligence[J]. IEEE transactions on systems man & cybernetics-part c applications & reviews, 1999, 22(2).
[4]MANYIKA J, CHUI M, BUGHIN J, et al. Big data: the next frontier for innovation, competition, and productivity[R]. McKinsey Global Institute, 2011.
[5]ETEMADPOUR R, MURRAY P, FORBES A G. Evaluating density-based motion for big data visual analytics[C]//Proceedings of IEEE International Conference on Big Data. Washington, DC, USA, 2014: 451-460.
[6]SONG Jingkuan, YANG Yang, YANG Yi, et al. Inter-media hashing for large-scale retrieval from heterogeneous data sources[C]//Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data. New York, NY, USA, 2013: 785-796.
[7]RAGHUPATHI W, RAGHUPATHI V. Big data analytics in healthcare: promise and potential[J]. Health information science and systems, 2014, 2: 3.
[8]PIRES A J M. Big data analytics in healthcare: are end-users ready[D]. Braga: Universidade Católica Portuguesa, 2014.
[9]SHVACHKO K, KUANG Hairong, RADIA S, et al. The hadoop distributed file system[C]//Proceedings of the 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies. Incline Village, NV, USA, 2010: 1-10.
[10]ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark: cluster computing with working sets[C]//Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing. Berkeley, CA, USA, 2010: 10.
[11]JUNG K, KIM K I, JAIN A K. Text information extraction in images and video: a survey[J]. Pattern recognition, 2004, 37(5): 977-997.
[12]SODERLAND S. Learning information extraction rules for semi-structured and free text[J]. Machine learning, 1999, 34(1/2/3): 233-272.
[13]ZHANG Yongmian, JI Qiang. Active and dynamic information fusion for facial expression understanding from image sequences[J]. IEEE transactions on pattern analysis and machine intelligence, 2005, 27(5): 699-714.
[14]SU Xueyuan, SWART G. Oracle in-database hadoop: when mapreduce meets RDBMS[C]//Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. Scottsdale, AZ, USA, 2012: 779-790.
[15]TAHANI H, KELLER J M. Information fusion in computer vision using the fuzzy integral[J]. IEEE transactions on systems, man, and cybernetics, 1990, 20(3): 733-741.
[16]WANG Jun, HU Yiming. WOLF-a novel reordering write buffer to boost the performance of log-structured file system[C]//Proceedings of the 1st USENIX Conference on File and Storage Technologies. Monterey, CA, USA, 2002: 4.
[17]孟小峰, 慈祥. 大數據管理: 概念、技術與挑戰(zhàn)[J]. 計算機研究與發(fā)展, 2013, 50(1): 146-169. MENG Xiaofeng, CI Xiang. Big data management: concepts, techniques and challenges[J]. Journal of computer research and development, 2013, 50(1): 146-169.
[18]WU Xindong, ZHU Xingquan, WU Gongqing, et al. Data mining with big data[J]. IEEE transactions on knowledge and data engineering, 2014, 26(1): 97-107.
[19]KOVAR L, GLEICHER M. Automated extraction and parameterization of motions in large data sets[J]. ACM transactions on graphics, 2004, 23(3): 559-568.
[20]LAZER D, KENNEDY R, KING G, et al. The parable of Google flu: traps in big data analysis[J]. Science, 2014, 343(6176): 1203-1205.
[21]FAN Jianqing, HAN Fang, LIU Han. Challenges of big data analysis[J]. National science review, 2014, 1(2): 293-314.
[22]SCHMIDHUBER J. Deep learning in neural networks: an overview[J]. Neural networks, 2015, 61: 85-117.
[23]CARLSON A, BETTERIDGE J, KISIEL B, et al. Toward an architecture for never-ending language learning[C]//AAAI 2010 Twenty-Fourth AAAI Conference on Artificial Intelligence. Atlanta, Georgia, USA, 2010: 529-573.
[24]BLUM A L, LANGLEY P. Selection of relevant features and examples in machine learning[J]. Artificial intelligence, 1997, 97(1/2): 245-271.
[25]JIN Songchang, LIN Wangqun, YIN Hong, et al. Community structure mining in big data social media networks with MapReduce[J]. Cluster computing, 2015, 18(3): 999-1010.
[26]TANG Jiliang, LIU Huan. Unsupervised feature selection for linked social media data[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Beijing, China, 2012: 904-912.
[27]CASSIDY A S, MEROLLA P, ARTHUR J V, et al. Cognitive computing building block: a versatile and efficient digital neuron model for neurosynaptic cores[C]//Proceedings of the 2013 International Joint Conference on Neural Networks. Dallas, TX, USA, 2013: 1-10.
[28]PREISSL R, WONG T M, DATTA P, et al. Compass: a scalable simulator for an architecture for cognitive computing[C]//Proceedings of the 2012 International Conference on High Performance Computing, Networking, Storage and Analysis. Salt Lake City, UT, USA, 2012: 1-11.
[29]KEIM D, QU Huamin, MA K L. Big-data visualization[J]. IEEE computer graphics and applications, 2013, 33(4): 20-21.
[30]MEYEROVICH L A, TOROK M E, ATKINSON E, et al. Superconductor: a language for big data visualization[M]. Shenzhen, China: ACM, 2013.
[31]HACHET M, KRUIJFF E. Guest editor's introduction: special section on the ACM symposium on virtual reality software and technology[J]. IEEE transactions on visualization and computer graphics, 2010, 16(1): 2-3.
[32]CHILDS H, BRUGGER E, BONNELL K, et al. A contract based system for large data visualization[C]//Proceedings of VIS 05. IEEE Visualization. Minneapolis, MN, USA, 2005: 191-198.
[33]KANOV K, PERLMAN E, BURNS R, et al. I/O streaming evaluation of batch queries for data-intensive computational turbulence[C]//Proceedings of 2011 International Conference for High Performance Computing, Networking, Storage and Analysis. Seattle, WA, USA, 2011: 1-10.
[34]FRASCA M, PRABHAKAR R, RAGHAVAN P, et al. Virtual I/O caching: dynamic storage cache management for concurrent workloads[C]//Proceedings of 2011 International Conference on High Performance Computing Networking, Storage and Analysis. Seattle, WA, USA, 2011: 1-11.
[35]張建勛, 古志民, 鄭超. 云計算研究進展綜述[J]. 計算機應用研究, 2010, 27(2): 429-433. ZHANG Jianxun, GU Zhimin, ZHENG Chao. Survey of research progress on cloud computing[J]. Application research of computers, 2010, 27(2): 429-433.
[36]WANG Guojun, LIU Qin, WU Jie. Hierarchical attribute-based encryption for fine-grained access control in cloud storage services[C]//Proceedings of the 17th ACM conference on Computer and communications security. Chicago, Illinois, USA, 2010: 735-737.
[37]CHANG F, DEAN J, GHEMAWAT S, et al. Bigtable: a distributed storage system for structured data[J]. ACM transactions on computer systems, 2008, 26(2): 4.
[38]ARMBRUST M, FOX A, GRIFFITH R, et al. Above the clouds: a Berkeley view of cloud computing[R]. Technical Report No. UCB/EECS-2009-28. Berkeley: EECS Department University of California Berkeley, 2009: 50-58.
[39]DEAN J, Ghemawat S. MapReduce: simplified data processing on large clusters[C]//Proceedings of the 6th Conference on Symposium on Opearting Systems Design & Implementation. San Francisco, CA, USA, 2004: 107-113.
[40]IQBAL M H, SOOMRO T R. Big data analysis: apache storm perspective[J]. International journal of computer trends and technology, 2015, 19(1): 9-14.
[41]WANG Cong, CHOW S S M, WANG Qian, et al. Privacy-preserving public auditing for secure cloud storage[J]. IEEE transactions on computers, 2013, 62(2): 362-375.
[42]KATSUNO H, MENDELZON A O. Propositional knowledge base revision and minimal change[J]. Artificial intelligence, 1991, 52(3): 263-294.
[43]HOFFART J, SUCHANEK F M, BERBERICH K, et al. YAGO2: a spatially and temporally enhanced knowledge base from Wikipedia[J]. Artificial intelligence, 2013, 194: 28-61.
[44]LEHMANN D, MAGIDOR M. What does a conditional knowledge base entail[J]. Artificial intelligence, 1992, 55(1): 1-60.
[45]BARBARá D, GARCIA-MOLINA H, PORTER D. The management of probabilistic data[J]. IEEE transactions on knowledge and data engineering, 1992, 4(5): 487-502.
[46]KOUBARAKIS M, SKIADOPOULOS S, TRYFONOPOULOS C. Logic and computational complexity for Boolean information retrieval[J]. IEEE transactions on knowledge and data engineering, 2006, 18(12): 1659-1666.
黃河燕,女,1963年生,教授。任中國人工智能學會和中國中文信息學會副理事長。主要研究方向為機器翻譯、自然語言處理、社會計算。曾獲國家科技進步一等獎、中國科學院科技進步一等獎和北京市科學技術一等獎等獎勵。 發(fā)表學術論文多篇。
曹朝,男,1982年生,副研究員,博士,中國計算機學會數據庫專委會委員。主要研究方向為數據庫管理系統、分布式系統、智能信息處理。發(fā)表學術論文多篇。
馮沖,男,1977年生,副研究員,博士,中文信息學會社會媒體處理專委會委員、語言與知識計算專委會委員。主要研究方向為網絡信息抽取和多語機器翻譯。曾獲部級科技獎勵3項。發(fā)表學術論文30余篇、編著1部,申請專利10余項。
Opportunities and challenges of big data intelligence analysis
HUANG Heyan1,2, CAO Zhao1,2, FENG Chong1,2
(1. School of Computer Science, Beijing Institute of Technology, Beijing 100081, China; 2. Beijing Engineering Research Center of High Volume Language Information Processing and Cloud Computing Applications,Beijing 100081, China)
In the era of big data, information and intelligence analysis is facing unprecedented opportunities and challenges. This paper describes the status of intelligence analysis from the perspective of the information science development paradigm. With the guidance of information processing concepts, which is an integration of factual data, tools, methods and expert wisdom, the application requirements and challenges of big data intelligence analysis were analyzed in terms of big data integration, big data processing technology, tools and deep information mining. Finally, because the big data intelligence analysis process consists of data collection, pre-processing, analysis and application as the main components, the application development opportunities and technical trends of big data intelligence analysis were forecasted.
big data; intelligence analysis; information sciences; opportunities and challenges; cloud computing
10.11992/tis.201610025
2016-10-24.
國家重點研發(fā)計劃項目(2016YFB1000902).
黃河燕.E-mail:hhy63@bit.edu.cn.
TP18
A
1673-4785(2016)06-0719-09
黃河燕,曹朝,馮沖. 大數據情報分析發(fā)展機遇及其挑戰(zhàn)[J]. 智能系統學報, 2016, 11(6): 719-727.
英文引用格式:HUANG Heyan, CAO Zhao, FENG Chong. Opportunities and challenges of big data intelligence analysis[J]. CAAI Transactions on Intelligent Systems, 2016, 11(6): 719-727.