【摘要】物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、社交網(wǎng)、電子商務、電子政務、數(shù)字家庭、遠程教育、遠程醫(yī)療等新一代信息技術的應用不斷產(chǎn)生大數(shù)據(jù),利用好大數(shù)據(jù)已成為提高企業(yè)核心競爭力的關鍵因素。文章首先詳細介紹了大數(shù)據(jù)技術,然后分析了分布式文件管理技術、分布式數(shù)據(jù)處理技術、分布式數(shù)據(jù)庫技術等基于大數(shù)據(jù)的信息系統(tǒng)關鍵技術。
【doi:10.3969/j.issn.2095-7661.2015.03.010】
【文獻標識碼】A
【文章編號】2095-7661(2015)03-0040-03
[收稿日期]2015-07-29
[作者簡介]禹祿君(1963-),女,湖南邵東人,湖南郵電職業(yè)技術學院副教授,研究方向:計算機網(wǎng)絡技術、高等教育。
Research on key technologies of information system based on big data
YULu-jun
(Hunan Post and Telecommunication College, Changsha, Hunan, China 410015)
Abstract:The use of a new generation of information technology such as the Internet of things, mobile Internet, social network, e-commerce, e-government, digital home, remote education and remote medical treatment continuouslyproduce large data. Makinggood use of big data has become the key factor for improving the enterprises' core competitiveness. This paper first introduces the big data technology in detail, and then analyzes the key technologies of information system such as the distributed file management technology, distributed data processingtechnologyand distributed database technologywhich are based on bigdata.
Keywords:large data; information system; keytechnology; data mining
一般認為:大數(shù)據(jù)(bigdata)是超過使用者所能處理和分析能力上限的數(shù)據(jù)集合。大數(shù)據(jù)的特點可總結為4個V,即volume(體量巨大),variety(類型多樣),velocity(生成、處理快速)和value(價值巨大但密度低)。
大數(shù)據(jù)時代,數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。國家可利用極為豐富的數(shù)據(jù)資源,分析經(jīng)濟狀況,幫助政府更好地響應經(jīng)濟運行規(guī)律。企業(yè)可分析、挖掘、運用大數(shù)據(jù),獲取有價值的信息,提供相應的產(chǎn)品,實現(xiàn)精準服務。
1 大數(shù)據(jù)技術
大數(shù)據(jù)技術是指從大數(shù)據(jù)中快速獲取有價值信息的技術。包括數(shù)據(jù)采集、數(shù)據(jù)存儲、基礎架構、數(shù)據(jù)處理、數(shù)據(jù)挖掘和結果呈現(xiàn)等技術。
1.1 數(shù)據(jù)采集技術
大數(shù)據(jù)的數(shù)據(jù)采集技術是指利用多個數(shù)據(jù)庫來接收產(chǎn)自客戶端App、Web或傳感器等的數(shù)據(jù)的技術。在大數(shù)據(jù)的采集過程中,面臨的最大挑戰(zhàn)是并發(fā)數(shù)高,比如淘寶和12306網(wǎng)站在峰值時的并發(fā)訪問量高達數(shù)百萬。為方便大數(shù)據(jù)的有效分析,還應將其導入一個大型分布式數(shù)據(jù)庫或分布式存儲集群,還需在導入過程中做一些簡單的清洗和預處理工作。
互聯(lián)網(wǎng)企業(yè)都有自己的系統(tǒng)日志數(shù)據(jù)采集工具,包括Hadoop的Chukwa,cloudera的flume和facebook 的scribe等,都采用分布式架構,能滿足數(shù)百MBPS的日志數(shù)據(jù)采集和傳輸需求。對于網(wǎng)頁數(shù)據(jù)的采集,常用網(wǎng)絡爬蟲或網(wǎng)站公開API,從網(wǎng)頁中抽取圖片、音頻、視頻文件或附件等非結構化數(shù)據(jù),再以結構化方式存儲為統(tǒng)一的本地數(shù)據(jù)文件。對于網(wǎng)絡流量的采集,可用DPI和DFI等帶寬管理技術。對于科研或企業(yè)經(jīng)營等有保密性要求的數(shù)據(jù),可使用特定系統(tǒng)接口等方式來采集。
1.2 數(shù)據(jù)存取技術
對于數(shù)據(jù)的存取,互聯(lián)網(wǎng)企業(yè)主要使用面向OLTP交易型需求而設計、開發(fā)的Postgre SQL,以滿足人機會話應用為主。其它企業(yè)常用傳統(tǒng)的關系型數(shù)據(jù)庫(RDBMS)。如:Oracle或IBM的DB2和Microsoft的SQLServer,都采用行存儲格式,比較適合頻繁的數(shù)據(jù)增、刪、改操作,但對統(tǒng)計分析類的查詢效率較低。成熟的典型產(chǎn)品有Teradata和Sybase IQ,都定位于高端客戶的數(shù)據(jù)倉庫和決策分析系統(tǒng),且在數(shù)據(jù)分析應用上的性能都優(yōu)于Oracle和DB2。Teradata使用MPP (Massive Parallel Processing)架構,產(chǎn)品以軟硬一體機的方式進行銷售;Sybase IQ是基于列存儲的關系型數(shù)據(jù)庫產(chǎn)品,以軟件方式銷售。
1.3 基礎架構技術
大數(shù)據(jù)主要采用往網(wǎng)絡中添加更多節(jié)點服務器的辦法來達到均衡計算量目的的橫向擴展架構,而非服務器硬件的縱向擴展架構。國際數(shù)據(jù)公司研究發(fā)現(xiàn),數(shù)據(jù)的重復率接近75%,企業(yè)戰(zhàn)略集團指出,在備份和歸檔存儲系統(tǒng)中的數(shù)據(jù)冗余度超過90%。因此,如何高效刪除大數(shù)據(jù)中的重復數(shù)據(jù)是關鍵所在。
分布式重復數(shù)據(jù)刪除系統(tǒng)的架構由客戶端、元數(shù)據(jù)服務器和數(shù)據(jù)服務器三部分組成。其中,客戶端主要提供對外的交互接口,并在其提供的文件操作接口中實現(xiàn)對數(shù)據(jù)的預處理,如數(shù)據(jù)塊的劃分與指紋的提取。元數(shù)據(jù)服務器主要完成對元數(shù)據(jù)的存儲和集群的維護管理,指導路由和負載均衡。數(shù)據(jù)服務器主要負責數(shù)據(jù)去重引擎及其存儲、管理。
1.4 數(shù)據(jù)處理技術
如何根據(jù)業(yè)務需求來處理信息,進而產(chǎn)生商業(yè)價值,是大數(shù)據(jù)研究和應用的關鍵。在大數(shù)據(jù)中,怎樣挖掘出特點,通過科學建模,帶入新數(shù)據(jù),以實現(xiàn)預測功能是大數(shù)據(jù)最重要的應用。大數(shù)據(jù)處理技術起源于Google的Hadoop數(shù)據(jù)處理架構。其核心是MapResuce算法和分布式文件系統(tǒng)HDFS。能可靠地存儲和處理千兆字節(jié)的數(shù)據(jù),可通過數(shù)千節(jié)點的廉價服務器群來分發(fā)和并行處理數(shù)據(jù),能自動維護數(shù)據(jù)的多份備份,且在任務失敗后能自動地重新部署計算任務。但因任務內(nèi)串行、鏈式浪費嚴重、中間結果不可分享、算法不友好,數(shù)據(jù)連接操作、基于圖的算法、需要多倫迭代等而效率低下,且編程復雜。
Skytree結合機器學習算法,為企業(yè)提供大數(shù)據(jù)高級分析,現(xiàn)已用于推薦系統(tǒng)、異常識別、預測分析、聚類、市場細分及相似性搜索等領域。
Spark通用并行計算框架是基于MapReduxe算法實現(xiàn)的分布式計算,但它將中間數(shù)據(jù)放到內(nèi)存中,其迭代運算的效率更高,更適合于迭代運算較多的機器學習和數(shù)據(jù)挖掘。
1.5 數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘是在現(xiàn)有數(shù)據(jù)基礎上進行基于各種算法的計算,達到預測的目的,滿足高級別數(shù)據(jù)分析需求。數(shù)據(jù)挖掘算法是大數(shù)據(jù)分析的理論核心,比較典型的算法有用于聚類的Kmeans,用于統(tǒng)計學的SVM和用于分類的NaiveBayes。面臨的主要挑戰(zhàn)是挖掘算法的復雜性和計算涉及的巨大數(shù)據(jù)量跟計算量。各種數(shù)據(jù)挖掘算法各自基于相應的數(shù)據(jù)類型和數(shù)據(jù)格式,才能深入數(shù)據(jù)內(nèi)部,科學地呈現(xiàn)數(shù)據(jù)本身的特點,挖掘出相應的價值。
1.6 結果呈現(xiàn)技術
直觀、可視化地呈現(xiàn)大數(shù)據(jù)的處理結果是應用大數(shù)據(jù)的需要。通過專業(yè)的數(shù)據(jù)統(tǒng)計分析系統(tǒng)設計方法,理清海量數(shù)據(jù)指標與維度,按主題、成體系呈現(xiàn)復雜數(shù)據(jù)背后的聯(lián)系,除原有的柱狀圖、餅圖、地理信息圖等數(shù)據(jù)展現(xiàn)形式外,還可通過圖像的大小、形狀、顏色、亮度、運動趨勢等多種方式,借助主從屏、多屏聯(lián)動、自動翻屏等大屏展示功能,超清輸出,支持觸控交互,對數(shù)據(jù)進行多維并行分析、展示,呈現(xiàn)不同角度的數(shù)據(jù)走勢、比例和關系,幫助使用者識別事務的發(fā)展趨勢、挖掘數(shù)據(jù)間的關聯(lián)關系,發(fā)現(xiàn)數(shù)據(jù)背后的知識與規(guī)律,高效獲取有價值的信息。
2 基于大數(shù)據(jù)的信息系統(tǒng)關鍵技術分析
信息主要有文本、視頻和音頻三種表達方式,理解和應用各種信息是信息處理系統(tǒng)研究的基本內(nèi)容。信息具備各種屬性,理解、認知、表達和利用其屬性是各類企業(yè)成功的基礎。例如,Google成功利用互聯(lián)網(wǎng)信息的鏈接關聯(lián)性模型完成了搜索引擎的開發(fā)應用;Facebook、新浪微博通過研究信息的社會屬性,構建了類似人際交流的信息流動平臺。基于大數(shù)據(jù)的信息系統(tǒng)的具體功能千差萬別,結構復雜多變,但就其關鍵技術而言,可細分為:分布式大數(shù)據(jù)存儲技術、分布式大數(shù)據(jù)處理技術以及大數(shù)據(jù)運算與管理技術等。其核心技術又可分為處理和分析兩類,每一類中又包含多種大數(shù)據(jù)技術,如數(shù)據(jù)挖掘技術、模式識別技術、信息處理技術、數(shù)據(jù)庫技術、云計算技術、可視化技術等。
2.1 分布式文件管理技術
數(shù)據(jù)存儲與管理是應用大數(shù)據(jù)的基礎之一,目前針對大數(shù)據(jù)信息系統(tǒng)設計的分布式文件管理技術在各大互聯(lián)網(wǎng)企業(yè)中得到了成功地運用。其中,Google提出的GFS文件管理系統(tǒng)技術使用大量價格低廉的服務器,搭建一個具有較高拓展性能的文件管理系統(tǒng)。大數(shù)據(jù)被分塊存儲到不同的服務器中,通過關聯(lián)鏈接、追加更新等方式對數(shù)據(jù)進行存儲與管理。
2.2 分布式數(shù)據(jù)處理技術
大數(shù)據(jù)服務通過將各類大數(shù)據(jù)操作進行封裝,為消費者提供無處不在的、標準化的、隨需的檢索、分析與可視化服務。
分布式數(shù)據(jù)處理系統(tǒng)的主要數(shù)據(jù)處理技術包括批處理技術和流處理技術兩種。批處理技術將需要處理的數(shù)據(jù)先存儲起來,再按照某種特定的分割方法將其分為多個數(shù)據(jù)塊,分別交由多個處理服務器進行并行處理。淡化了數(shù)據(jù)的關聯(lián)關系,極大地提升了數(shù)據(jù)的可調(diào)度性和集群性,其核心在于數(shù)據(jù)的劃分方式、分配方式和處理技術。流處理技術將所需要處理的大數(shù)據(jù)看作是一個不間斷的流,實時地對進入處理系統(tǒng)的數(shù)據(jù)流進行處理和返回結果。明顯地提升了系統(tǒng)的數(shù)據(jù)處理時效性。
2.3 分布式數(shù)據(jù)庫技術
傳統(tǒng)數(shù)據(jù)庫大多是關系型數(shù)據(jù)庫,由于大數(shù)據(jù)的體量巨大且類型多樣,關系型數(shù)據(jù)庫在處理大數(shù)據(jù)時普遍存在著不可忽視的缺陷,再加上大數(shù)據(jù)的價值密度較低,對數(shù)據(jù)庫提出了新的要求。分布式數(shù)據(jù)庫系統(tǒng)采用更加簡單的模型對數(shù)據(jù)信息進行管理,將其管理的數(shù)據(jù)信息看做字符串,且不直接對字符串進行解釋,使被管理的數(shù)據(jù)具有結構化或半結構化特征,從而簡化了數(shù)據(jù)庫系統(tǒng)。
3 結束語
通過對相關大數(shù)據(jù)的分析、挖掘,商家可制定更加精準有效的營銷策略和做出更加高效可行的決策;零售商能及時掌握市場需求情況和發(fā)展動態(tài)并做出適時應對;企業(yè)能為消費者提供更加精準的個性化服務;在公共事業(yè)領域,可促進經(jīng)濟發(fā)展、維護社會穩(wěn)定;在醫(yī)療領域,可提高診斷的準確性和更有效地對癥下藥。通過實時監(jiān)測、跟蹤、分析、挖掘研究對象在互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)上產(chǎn)生的大量行為數(shù)據(jù),可揭示出規(guī)律性的東西,有助研究結論和對策。隨著計算機通信技術的不斷發(fā)展、進步,信息技術已經(jīng)深入到社會經(jīng)濟、國防、教育、交通、醫(yī)療等各個領域。數(shù)據(jù)庫技術在信息系統(tǒng)中承擔著存儲和管理信息的使命,分布式數(shù)據(jù)庫技術是數(shù)據(jù)庫技術發(fā)展的主要方向。