文/邢德奇 康樂
大數(shù)據(jù)技術(shù)在北斗用戶管理系統(tǒng)的現(xiàn)狀分析
文/邢德奇 康樂
本文分析了北斗用戶管理系統(tǒng)數(shù)據(jù)工作存在的問題,根據(jù)大數(shù)據(jù)的發(fā)展現(xiàn)狀與趨勢,提出了北斗用戶管理系統(tǒng)對大數(shù)據(jù)技術(shù)的新需求,簡要介紹了大數(shù)據(jù)存儲管理、大數(shù)據(jù)并行計算和大數(shù)據(jù)分析等大數(shù)據(jù)關(guān)鍵技術(shù),并針對北斗用戶管理系統(tǒng)實際大數(shù)據(jù)需求提出了未來大數(shù)據(jù)應(yīng)用的建議。
大數(shù)據(jù) 北斗用戶管理 存儲管理并行計算
大數(shù)據(jù)的應(yīng)用和技術(shù)是在互聯(lián)網(wǎng)快速發(fā)展中誕生的,起點可追溯到2000年前后。伴隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的崛起,這種創(chuàng)新的海量數(shù)據(jù)處理技術(shù)在電子商務(wù)、定向廣告、智能推薦、社交網(wǎng)絡(luò)等方面得到應(yīng)用,取得巨大的商業(yè)成功。這啟發(fā)全社會開始重新審視數(shù)據(jù)的巨大價值,于是金融、電信等擁有大量數(shù)據(jù)的行業(yè)開始嘗試這種新的理念和技術(shù),取得初步成效。與此同時,業(yè)界也在不斷對現(xiàn)有的大數(shù)據(jù)處理體系進行擴展,使之能在更多的場景下使用。
大數(shù)據(jù)是新資源、新工具和新應(yīng)用的綜合體,具體是指隨著信息存儲量的增多,通過數(shù)據(jù)的開放、整合和分析,發(fā)現(xiàn)新的知識、創(chuàng)造新的價值,從而為社會帶來“大科技”、“大利潤”、“大智能”和“大發(fā)展”的新機遇,其具有Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)和Veracity(真實性)5V特征。
隨著北斗用戶管理系統(tǒng)數(shù)據(jù)的飛速增長和數(shù)據(jù)類型的日益多樣化,為了適應(yīng)大數(shù)據(jù)時代的潮流,更好得將數(shù)據(jù)服務(wù)于用戶,北斗用戶管理系統(tǒng)大數(shù)據(jù)工作應(yīng)滿足以下需求:
北斗用戶管理系統(tǒng)多種類結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的集中采集、保存與維護管理,構(gòu)建大數(shù)據(jù)存儲網(wǎng)絡(luò),建立大數(shù)據(jù)集中管理平臺,保證數(shù)據(jù)的“質(zhì)”和“量”。
面向用戶需求,開展北斗用戶管理系統(tǒng)大數(shù)據(jù)的集中處理分析方法研究和深層次分析挖掘技術(shù)研究,用以支撐故障診斷、性能調(diào)優(yōu)、科學研究與輔助決策。
北斗用戶管理系統(tǒng)大數(shù)據(jù)的對外共享開放服務(wù),為各類用戶提供開放的數(shù)據(jù)。
北斗用戶管理系統(tǒng)各部門的數(shù)據(jù)管理維護全部分離,通過各自的數(shù)據(jù)管理系統(tǒng)獨占數(shù)據(jù)資源,各部門之間數(shù)據(jù)交換主要依靠光盤傳輸,未實現(xiàn)真正意義上的數(shù)據(jù)集中統(tǒng)一管理和共享開放,集中處理計算和聯(lián)合分析更是無從談起。
存儲架構(gòu)采用傳統(tǒng)的NAS+SAN結(jié)構(gòu),存儲和計算的物理設(shè)備分離,不適應(yīng)大數(shù)據(jù)的密集型計算,易出現(xiàn)I/O瓶頸現(xiàn)象。數(shù)據(jù)存儲僅依靠數(shù)據(jù)庫入庫軟件和文件存儲,低效,無法適應(yīng)大數(shù)據(jù)海量存儲的要求。
長期歸檔備份的數(shù)據(jù)文件首先要經(jīng)過長時間的解壓縮過程才能篩取獲得,短期數(shù)據(jù)庫數(shù)據(jù)與長期歸檔備份文件數(shù)據(jù)的聯(lián)合使用完全靠人工實現(xiàn)。
目前的數(shù)據(jù)分析主要以系統(tǒng)需求為目標,為了系統(tǒng)的聯(lián)調(diào)聯(lián)試以及穩(wěn)定運行,做了大量的數(shù)據(jù)分析,但缺乏面向用戶需求的數(shù)據(jù)分析,需要開展專題研究用戶對北斗用戶管理系統(tǒng)數(shù)據(jù)的需求。
數(shù)據(jù)分析缺少統(tǒng)籌規(guī)劃,首先分析數(shù)據(jù)“散”,運控系統(tǒng)超過一定時限的歷史數(shù)據(jù)大都以離線方式保存,無法支持長期數(shù)據(jù)的關(guān)聯(lián)分析和深度挖掘;其次分析行為“散”,缺乏先進技術(shù)手段以支持運控海量數(shù)據(jù)的集中分析處理,缺乏數(shù)據(jù)智能自動化分析方法,大量數(shù)據(jù)僅僅是被動地等待用戶,而不是主動綜合分析,無法產(chǎn)生更大的效用。
數(shù)據(jù)的海量化和快增長特征是大數(shù)據(jù)對存儲技術(shù)提出的首要挑戰(zhàn)。這要求底層硬件架構(gòu)和文件系統(tǒng)在性價比上要大大高于傳統(tǒng)技術(shù),并能夠彈性擴展存儲容量。大數(shù)據(jù)存儲管理技術(shù)主要采用分布式架構(gòu)的分布式文件系統(tǒng)HDFS(Hadoop Distributed File System),將計算和存儲節(jié)點在物理上結(jié)合在一起,從而避免在數(shù)據(jù)密集計算中易形成的I/O 吞吐量的制約。
大數(shù)據(jù)的分析挖掘是數(shù)據(jù)密集型計算,需要巨大的計算能力。與傳統(tǒng)“數(shù)據(jù)簡單、算法復雜”的高性能計算不同,大數(shù)據(jù)的計算是數(shù)據(jù)密集型計算,對計算單元和存儲單元間的數(shù)據(jù)吞吐率要求極高,對性價比和擴展性的要求也非常高。傳統(tǒng)依賴大型機和小型機的并行計算系統(tǒng)不僅成本高,數(shù)據(jù)吞吐量也難以滿足大數(shù)據(jù)要求,同時靠提升單機CPU性能、增加內(nèi)存、擴展磁盤等實現(xiàn)性能提升的縱向擴展(Scale Up)的方式也難以支撐平滑擴容,需要研究適應(yīng)大數(shù)據(jù)計算的分布式并行計算技術(shù)。
目前的大數(shù)據(jù)分析主要有兩條技術(shù)路線,一是憑借先驗知識人工建立數(shù)學模型來分析數(shù)據(jù),二是通過建立人工智能系統(tǒng),使用大量樣本數(shù)據(jù)進行訓練,讓機器代替人工獲得從數(shù)據(jù)中提取知識的能力。
針對目前各種分離管理的北斗用戶管理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),結(jié)合大數(shù)據(jù)管理技術(shù),建立大數(shù)據(jù)采集網(wǎng)絡(luò),采用分布式管理的方式管理錯綜復雜的海量數(shù)據(jù),實現(xiàn)北斗用戶管理系統(tǒng)大數(shù)據(jù)的采集、保存、維護、分析、共享與集中管理。
研究調(diào)研北斗用戶管理系統(tǒng)和用戶需求,開展面向系統(tǒng)和用戶的分析研究工作,實現(xiàn)北斗用戶管理系統(tǒng)大數(shù)據(jù)的集中處理計算和深層次分析挖掘,用以支撐故障診斷、科學研究與輔助決策。
通過大數(shù)據(jù)共享平臺的建立,實現(xiàn)北斗用戶管理系統(tǒng)大數(shù)據(jù)的對外共享開放服務(wù);通過標準化的數(shù)據(jù)接口完成信息的交換與整合。
[1]舒文瓊.數(shù)據(jù)量爆發(fā)式增長物聯(lián)網(wǎng)引入大數(shù)據(jù)技術(shù)迫在眉睫[J].通信世界,2013(12).
[2]譚琳.大數(shù)據(jù)技術(shù)初探[J].科技創(chuàng)新導報,2014(04).
[3]熊定鴻.Hadoop平臺下的分布式SVM算法及其應(yīng)用研究[D].西南交通大學,2016.
[4]趙琳琳.云存儲模擬器及資源管理策略研究[D].華南理工大學,2014.
作者單位 中國電子科學研究院 北京市 100041