摘? 要:在物聯(lián)網(wǎng)和云技術(shù)的發(fā)展中,對于大數(shù)據(jù)視角下的綜合信息平臺進行構(gòu)建,是為了在數(shù)據(jù)源擴大,存儲技術(shù)不斷進步的基礎(chǔ)上,采用信息化建設(shè)的方式,運用結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)建設(shè)方法,對大數(shù)據(jù)進行處理。建立在大數(shù)據(jù)平臺基礎(chǔ)上的綜合信息分析,能夠?qū)τ谛畔⑦M行更海量的處理,為各行各業(yè)高效發(fā)展提供技術(shù)支撐。
關(guān)鍵詞:信息分析;大數(shù)據(jù)分析;平臺構(gòu)架
中圖分類號:TP311.13? ? ? 文獻標識碼:A 文章編號:2096-4706(2019)07-0160-02
Abstract:In the development of internet of things and cloud technology,the construction of integrated information platform from the perspective of large data is to process large data by using structured and unstructured data construction methods based on the expansion of data sources and the continuous progress of storage technology. Comprehensive information analysis based on big data platform can deal with more information and provide technical support for the efficient development of all walks of life.
Keywords:information analysis;big data analysis;platform architecture
0? 引? 言
隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,海量數(shù)據(jù)處理的時代已經(jīng)到來,對海量數(shù)據(jù)進行分析和處理,已經(jīng)成為各大公司都要面對的非常緊迫的任務(wù)。海量數(shù)據(jù)時代到來之后,數(shù)據(jù)分析公司預(yù)測,數(shù)據(jù)的數(shù)量將是一個天文數(shù)字。如何具有可伸縮性、計算性能和成本上無可替代的運算優(yōu)勢,這需要通過以互聯(lián)網(wǎng)企業(yè)為主流的大數(shù)據(jù)分析平臺來擔當起數(shù)據(jù)挖掘和多維分析以及海量存儲的任務(wù)。作為互聯(lián)網(wǎng)數(shù)據(jù)分析公司,在海量數(shù)據(jù)的分析領(lǐng)域上,應(yīng)對嚴苛的業(yè)務(wù)需求和數(shù)據(jù)壓力,要嘗試盡可能多的大數(shù)據(jù)分析方法,構(gòu)建出大數(shù)據(jù)平臺下的數(shù)據(jù)分析平臺結(jié)構(gòu)。
1? 大數(shù)據(jù)分析平臺的分類
在進行大數(shù)據(jù)平臺的分類的時候,按照當前的業(yè)務(wù)進行多個角度的分析,針對不同的具體需求,可以對數(shù)據(jù)分析架構(gòu)進行不同類別的分類,按照數(shù)據(jù)分析的實時性,可以進行實時和離線數(shù)據(jù)兩個類別的分析。
實時分析用于移動互聯(lián)網(wǎng)產(chǎn)品的分析中,在大量數(shù)據(jù)的分析過程中,不影響用戶體驗,同時又要滿足用戶分析要求,采用精心設(shè)計的傳統(tǒng)的數(shù)據(jù)庫組成方式進行集群的處理,往往需要建設(shè)內(nèi)存計算平臺,但是這樣做的軟硬件成本都是比較高的。
而比較新穎的數(shù)據(jù)分析工具進行反饋的時間則縮短,在這基礎(chǔ)上通過機器學習搜索引擎實現(xiàn)推薦引擎的計算,應(yīng)用離線分析的分析方式,通過數(shù)據(jù)采集工具,將日志加以導入,對海量數(shù)據(jù)運用傳統(tǒng)的工具進行處理,運用其應(yīng)對數(shù)據(jù)轉(zhuǎn)換的開銷過大的問題,在性能上追求滿足海量數(shù)據(jù)采集需求的任何要求?;ヂ?lián)網(wǎng)企業(yè)當前較為先進的包括Facebook等開發(fā)的各種軟件,能夠應(yīng)對每秒數(shù)百兆的日志數(shù)據(jù)采集和傳輸要求。在這種數(shù)據(jù)上傳的過程中,形成了大數(shù)據(jù)分析平臺的中央系統(tǒng)。
按照大數(shù)據(jù)的數(shù)量級進行內(nèi)存級別的含量以及海量級別的分類,這些分類可以看到在大數(shù)據(jù)的分析架構(gòu)平臺上擁有快速的分析能力,能夠適時地進行實時分析,潛力十足,高速數(shù)據(jù)分析已經(jīng)可以實現(xiàn)。
2? 大數(shù)據(jù)分析平臺的應(yīng)用
面對大數(shù)據(jù)分析,大數(shù)據(jù)平臺可以進行表間關(guān)聯(lián)的混合存儲、數(shù)建分組和壓縮延遲加載。傳統(tǒng)數(shù)據(jù)庫中無法應(yīng)用優(yōu)化數(shù)據(jù)庫的技術(shù)方式,采用分片索引的技術(shù),將優(yōu)化后的技術(shù)應(yīng)用在數(shù)據(jù)分析性能中,例如:使用Hadoop平臺,在模仿SQL數(shù)據(jù)分析的功能上,能夠采用優(yōu)化的方式進行多維的分析,應(yīng)用事實表和維度表,關(guān)聯(lián)多維度性能的降低行列混合存儲模式,采用數(shù)據(jù)格式的特定分析方法對業(yè)務(wù)模型進行變動。此時,海量數(shù)據(jù)轉(zhuǎn)換的格式代價相對降低。但是,目前采用這種多維分析的方法,雖然業(yè)務(wù)比較靈活多變,業(yè)務(wù)目鏡可以隨著業(yè)務(wù)維度和度量發(fā)生變化,但是在整個平臺建構(gòu)過程中,業(yè)務(wù)人員進行快速改變,問題分析的角度容易受到影響,無法靈活地處理問題。因此,改用大數(shù)據(jù)分析結(jié)構(gòu),運用Cube支持將維度和度量都交給業(yè)務(wù)人員,由業(yè)務(wù)員自己對維度進行核定,度量,并進行計算和分析,最終形成報表。這種方式可以在自定義維度上具有優(yōu)勢維度,可以根據(jù)業(yè)務(wù)需求進行重新分組和劃分,而數(shù)據(jù)的非結(jié)構(gòu)特征則可以根據(jù)性別和學歷加以自定義。
即便是業(yè)務(wù)模型發(fā)生了變化,依然可以將多維立方體進行重新定義。在Cube上進行多維分析,限制了業(yè)務(wù)人員快速改變問題的思路。采用Hadoop多維分析平臺作為架構(gòu)分析,將海量的小日志文件進行高速合并和傳輸,采用確保數(shù)據(jù)傳輸安全的方式,進行日志數(shù)據(jù)中的維度信息的擴展,將信息寫入數(shù)據(jù)日志中。數(shù)據(jù)冗余模塊在整個系統(tǒng)的瓶頸中進行內(nèi)存的冗余,原始數(shù)據(jù)的設(shè)定,自動生成多維分析語言,提交給集群之后,通過核心模塊,將多維分析命令進行前端模塊的設(shè)置,運用可視化的定義器進行數(shù)據(jù)日志的維度和度量定義,通過多個工作流,根據(jù)業(yè)務(wù)進行定制,數(shù)量輸入后海量數(shù)據(jù)會縮小很多,傳統(tǒng)的數(shù)據(jù)報表中這種難以展現(xiàn)的工作流程在新的數(shù)據(jù)平臺上得到了展現(xiàn)。
3? 智能云數(shù)據(jù)下構(gòu)建的智能樓宇物聯(lián)網(wǎng)大數(shù)據(jù)平臺
利用物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)的方式,將智能建筑中傳統(tǒng)的自動化節(jié)能化技術(shù)加以完善,向著數(shù)字化方向演進。不同門類的海量傳感器組件組成了智能建筑中的神經(jīng)網(wǎng)絡(luò),為建筑賦予了新的生命符號。智能樓宇系統(tǒng)十分復(fù)雜,包括消防、安防、供水、供電等。智能云數(shù)據(jù)構(gòu)建的樓宇物理網(wǎng)大數(shù)據(jù)平臺,在進行構(gòu)建的時候,安裝有各種傳感器,在運行過程中,各類傳感器和模塊通過傳感器,將數(shù)據(jù)信息獲取和上傳,實現(xiàn)大數(shù)據(jù)的挖掘和利用,是傳統(tǒng)的樓宇數(shù)據(jù)運行平臺無法比擬的。
以歷史大數(shù)據(jù)分析為主要功能的樓宇能源管理模型被建立起來,人工智能和人臉識別技術(shù)在智能安防模型中被加以應(yīng)用,通過研發(fā)BDOS大數(shù)據(jù)操作系統(tǒng)搭建出了物聯(lián)網(wǎng)大數(shù)據(jù)處理平臺,將大數(shù)據(jù)底層設(shè)計架構(gòu)進行了產(chǎn)品的整體技術(shù)解決和標準化的技術(shù)解決。應(yīng)用大數(shù)據(jù)平臺和智能云平臺實現(xiàn)大數(shù)據(jù)操作系統(tǒng)的運行,降低用戶在云計算基礎(chǔ)上開發(fā)大數(shù)據(jù)的技術(shù)門檻。
同時,數(shù)據(jù)的計算原則包括了在大量單一數(shù)據(jù)點進行信息的提取,框架中可以包括流處理框架混合框架等等。對于大數(shù)據(jù)進行庫處理,離不開引擎和框架這幾組定義。進行引擎的設(shè)置的時候,需要對所處理的數(shù)據(jù)狀態(tài)進行分類,每一個系統(tǒng)都有批處理方式,運用流方式進行連續(xù)不斷的數(shù)據(jù)的處理。在批處理上,運用大容量靜態(tài)數(shù)據(jù)及完成計算過程,通過數(shù)據(jù)持久地保留在數(shù)據(jù)有限集合中,形成了海量數(shù)據(jù)集的批處理,批處理模式中的數(shù)據(jù)集需要具有計算總數(shù)和平均式的功能。
如果無法從持久存儲設(shè)備中進行數(shù)據(jù)集的處理,則應(yīng)該充分考慮數(shù)量的量,并且提供充足的處理資源。在批處理處上應(yīng)對大量持久數(shù)據(jù)的表現(xiàn),在歷史數(shù)據(jù)進行分析的基礎(chǔ)上節(jié)省時間,對不適合處理的要求,盡量進行離場處理。設(shè)計過程中充分考慮數(shù)據(jù)的量,采用批處理操作的模式,對開源社區(qū)的大數(shù)據(jù)框架進行海量數(shù)據(jù)的處理,對集群節(jié)點帶的存儲和復(fù)制進行協(xié)調(diào),確保節(jié)點故障不會發(fā)生。對于數(shù)據(jù)來源進行存儲中間態(tài)的處理,要求在集群協(xié)調(diào)組建中,運用底層資源和調(diào)度作業(yè)的運行方式,對基層資源接口加以連接。
此時,運用迭代方式運行工作負載最大,批處理模式則對每個鍵進行數(shù)據(jù)子集的計算,將數(shù)據(jù)集成分拆之后,分配給所有可用節(jié)點。從文件系統(tǒng)中讀取數(shù)據(jù)及使用算法進行基本處理,通過對每個節(jié)點進行計算,匯總成相應(yīng)的數(shù)值。這種批處理模式可以對任務(wù)進行多次的寫入和執(zhí)行操作。每個層面磁盤空間上的資源相對較少,因此比起類似技術(shù)來說,這一類技術(shù)不適宜將一切都存儲在內(nèi)存中,在持久存儲上具有劣勢。因此,圍繞智能物聯(lián)網(wǎng)技術(shù)進行了周邊技術(shù)的開發(fā),形成遼闊的生態(tài)系統(tǒng),處理框架和引擎,通過集成使用資源管理器處理的方式,得到了一批久經(jīng)考驗的批處理模型。
這些模型能夠更靈活地運用處理技術(shù),而且集成能力更強,可以在不同技術(shù)的多種工作負載處理平臺上進行底層技術(shù)的運行。流處理系統(tǒng),采用的是與傳統(tǒng)數(shù)據(jù)計算模式不同的處理方式,針對各個數(shù)據(jù)集可以執(zhí)行操作,在對完整數(shù)據(jù)集進行系統(tǒng)的數(shù)據(jù)總量的設(shè)置的時候,在特定時間內(nèi)進行數(shù)據(jù)的更新,同一時間內(nèi)可以處理。不同狀態(tài)下的最少量的狀態(tài),大部分系統(tǒng)可以提供某些狀態(tài)的方法,但流處理主要針對副作用比較少的、功能性的處理進行優(yōu)化,在處理優(yōu)化之后側(cè)重于離散步驟,針對任何一個數(shù)據(jù)執(zhí)行,處理更有優(yōu)勢。
對于不同結(jié)果的結(jié)合體進行類似狀態(tài)管理,可以實現(xiàn)不同狀態(tài)下的管理機制的更高效。在進行相對的業(yè)務(wù)制造處理的時候,關(guān)注一段時間內(nèi)對變化趨勢的數(shù)據(jù)進行的實時處理,選擇最佳的工作負載。此時,技術(shù)具有非常大量的數(shù)據(jù),以及非常好的無邊界數(shù)據(jù)的特點,在流處理模式上可以對應(yīng)應(yīng)用操作,在拓撲的尾部使用相互連接的系統(tǒng)輸入,建立起必要的處理模式,遴選操作是其中比較具有優(yōu)勢的。這種狀態(tài)處理可以不使用。
4? 結(jié)? 論
處理模式優(yōu)化后就可以進行逐項的處理。點擊某個鏈接之后,用戶可以充分發(fā)揮框架與生俱來的優(yōu)勢,提高處理的靈活性。在流處理的處理過程中,配合用戶使用純粹的流處理技術(shù),采用延遲處理數(shù)據(jù)的方法,保證每條信息都能被處理。對不同批次的數(shù)據(jù)進按照順序進行一次性批量處理,通過資源管理器進行集成,為用戶提供了更多的選擇。隨著當前計算機技術(shù)的不斷發(fā)展,目前對于已經(jīng)具備流處理能力以及框架處理能力和批處理和流處理混合處理功能的平臺,多個團隊在經(jīng)過不同處理階段的組織和協(xié)調(diào)之后,已經(jīng)可以實現(xiàn)很多處理工作的大幅簡化,對于性能來說予以提升,對于工作成本來說予以大大的降低。為了滿足用戶科研的需求,在流處理模式上具體的策略方法為:將數(shù)據(jù)流采用小規(guī)模固定數(shù)據(jù)處理方式,實現(xiàn)內(nèi)存計算策略和先進的調(diào)度機制的快速處理,最終形成一個獨立集群部署。這一平臺能夠進行快速的批處理和流處理。對于不同類型的任務(wù),可以運行一個集群加以處理。同時,平臺包括各種庫的生存系統(tǒng),可以實現(xiàn)交互式查詢和機器學習,對于生產(chǎn)力的大幅度提高也有著促進作用。
參考文獻:
[1] 孫雪娟.基于信息分析視角下的大數(shù)據(jù)分析平臺構(gòu)架研究 [J].信息通信,2017(11):96-98.
[2] 肖源,郝杰,劉瑩,等.信息分析視角下的大數(shù)據(jù)分析平臺構(gòu)架研究 [J].情報科學,2016,34(9):83-89.
作者簡介:趙楊晨(1998-),男,漢族,河南三門峽人,本科在讀,研究方向:電子、光電。