王立明,李 迎,劉仕偉,翟 優(yōu)
(衡水學(xué)院 河北 衡水 053000)
隨著互聯(lián)網(wǎng)和信息化的發(fā)展,為城市運(yùn)行管理服務(wù)的供水、供電、供氣、供暖、衛(wèi)生等各方面帶來了便利,但這些信息化系統(tǒng)在處理數(shù)據(jù)信息時(shí)產(chǎn)生了很多結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)集,這些數(shù)字化信息在地理空間上不斷向外延展并且需要經(jīng)過復(fù)雜運(yùn)算和數(shù)據(jù)挖掘算法才能滿足管理者預(yù)測分析的需求。 大數(shù)據(jù)技術(shù)就是在上述需求下應(yīng)運(yùn)而生,利用大數(shù)據(jù)的存儲、計(jì)算、處理和可視化技術(shù)解決城市運(yùn)行管理信息化中的突出問題,依托大數(shù)據(jù)技術(shù)能夠有效收集、存儲、整理和挖掘海量數(shù)據(jù),對城市運(yùn)行服務(wù)管理的數(shù)字化、智能化和精細(xì)化具有重要的意義。
大數(shù)據(jù)來源主要是各類信息管理系統(tǒng),此外,大數(shù)據(jù)還包括操作日志、交易信息、音視頻資料以及地理位置信息的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。 在大數(shù)據(jù)技術(shù)成熟之前,人們受限于數(shù)據(jù)收集、存儲和分析能力,樣本數(shù)據(jù)量相對較小,大數(shù)據(jù)技術(shù)的出現(xiàn)讓數(shù)據(jù)存儲和分析能力不再是瓶頸,可以在更大規(guī)模的數(shù)據(jù)上,以更快的速度、更全面有效的方式進(jìn)行數(shù)據(jù)分析,得到數(shù)據(jù)的價(jià)值,為決策提供支持。
城市運(yùn)行服務(wù)管理涉及的部門有水利、電力、交通、供暖、市政、公共安全、氣象、環(huán)境保護(hù)、衛(wèi)生防疫、食品安全、應(yīng)急指揮等。 隨著信息技術(shù)的迅速發(fā)展,城市運(yùn)行服務(wù)管理信息化經(jīng)歷了手工管理、辦公自動化、業(yè)務(wù)系統(tǒng)管理、數(shù)字化城市、智慧化城市五個(gè)階段。 站在信息技術(shù)的角度來看,這些不同階段的改變其實(shí)是對城市運(yùn)行服務(wù)管理數(shù)據(jù)更加完整、更加量化以及更加及時(shí)的改變,在完整的信息基礎(chǔ)上,利用這些數(shù)據(jù)積累構(gòu)建科學(xué)的城市運(yùn)行模型,輔助管理者做出更加科學(xué)的管理決策,提高城市運(yùn)行效率,改善城市公共服務(wù)水平。
充分利用大數(shù)據(jù)技術(shù)對城市交通中的數(shù)據(jù)進(jìn)行分析與計(jì)算,能夠及時(shí)發(fā)現(xiàn)城市交通道路的問題并予以疏導(dǎo)和修復(fù)道路,為廣大市民提供更加便捷的出行服務(wù)。 大數(shù)據(jù)技術(shù)實(shí)時(shí)監(jiān)控車流量情況,與紅綠燈交通指揮系統(tǒng)和車載導(dǎo)航終端設(shè)備等進(jìn)行聯(lián)動和廣播,使城市交通流量管理更加高效和智能。 利用大數(shù)據(jù)技術(shù)服務(wù)于氣象行業(yè),使氣象檢測預(yù)報(bào)工作更準(zhǔn)確更及時(shí),便于農(nóng)業(yè)、電網(wǎng)、電廠、鐵路等多部門快速共享氣象信息,在氣象災(zāi)害防御和氣象資源趨利避害方面發(fā)揮重要作用,有利于提升氣象信息產(chǎn)業(yè)化發(fā)展,為保障地方經(jīng)濟(jì)社會發(fā)展提供更有力的支持。
充分利用大數(shù)據(jù)技術(shù)對城市規(guī)劃提供數(shù)據(jù)支持,將北斗地理信息數(shù)據(jù)、城市人口空間分布數(shù)據(jù)、自然資源信息等基礎(chǔ)數(shù)據(jù)資源進(jìn)行建模分析,通過數(shù)據(jù)挖掘算法生成模型知識庫,為城市規(guī)劃設(shè)計(jì)編制、資源行政審批及自然資源量化等提供科學(xué)的數(shù)據(jù)依據(jù)和支撐。 利用大數(shù)據(jù)技術(shù)將城市中水利、電力、市政、交通等相關(guān)部門各自建立的信息管理系統(tǒng)的數(shù)據(jù)進(jìn)行批量采集和處理,最終達(dá)到有效整合的效果并提供數(shù)據(jù)接口服務(wù)。 解決城市運(yùn)行管理服務(wù)信息中不同行業(yè)不同部門信息不能共享或只能有限共享的難題,最終解決城市運(yùn)行管理信息化中存在信息孤島的問題,讓數(shù)據(jù)實(shí)現(xiàn)有效流通和安全共享。
業(yè)務(wù)部門所建信息系統(tǒng)往往只用于為本部門、本行業(yè)提供業(yè)務(wù)支撐服務(wù),而未對信息的利用進(jìn)行更深層次的挖掘,無法為城市整體運(yùn)行服務(wù)管理提供數(shù)據(jù)支撐,使業(yè)務(wù)信息系統(tǒng)的效能大打折扣。 對于城市運(yùn)行服務(wù)管理者而言,決策缺乏反映整個(gè)城市宏觀運(yùn)行情況的數(shù)據(jù)支持。 大數(shù)據(jù)技術(shù)正是從各行業(yè)部門的基礎(chǔ)數(shù)據(jù)中提取出有價(jià)值的信息的一種技術(shù),并能夠以直觀的方式展現(xiàn)給決策者,綜合各行業(yè)各部門的運(yùn)行情況,形成全市的城市運(yùn)行服務(wù)管理信息,從而讓決策者能夠一目了然地了解整個(gè)城市的運(yùn)行服務(wù)管理的態(tài)勢。
大數(shù)據(jù)技術(shù)能夠在海量信息積累的基礎(chǔ)上[1],實(shí)現(xiàn)對城市運(yùn)行服務(wù)管理中不良情況的智能判斷和預(yù)測,城市管理者通過大數(shù)據(jù)反映的城市運(yùn)行服務(wù)管理的狀態(tài)信息預(yù)測某方面可能發(fā)生的突發(fā)事件和問題,從而提前預(yù)防、處理和應(yīng)對,提高城市應(yīng)急處置能力,讓突發(fā)事件對城市的負(fù)面影響降到最低,使人民的基本服務(wù)得到保障。
城市運(yùn)行管理服務(wù)綜合評價(jià)數(shù)據(jù)指標(biāo)體系包含城市運(yùn)行檢測指標(biāo)數(shù)據(jù)和城市管理監(jiān)督指標(biāo)數(shù)據(jù),其中城市運(yùn)行檢測指標(biāo)數(shù)據(jù)包含市政設(shè)施類指標(biāo)、房屋建筑類指標(biāo)、交通設(shè)施類指標(biāo)、人員密集區(qū)類指標(biāo)、群眾獲得感類指標(biāo)等;城市運(yùn)行檢測數(shù)據(jù)指標(biāo)包含城市運(yùn)行檢測批次、城市運(yùn)行檢測指標(biāo)構(gòu)成和城市運(yùn)行檢測指標(biāo)結(jié)構(gòu)等。 搭建數(shù)據(jù)指標(biāo)治理體系,解決各業(yè)務(wù)數(shù)據(jù)存在的數(shù)據(jù)不準(zhǔn)確、不完整、不一致等數(shù)據(jù)質(zhì)量問題,逐步梳理數(shù)據(jù)資產(chǎn),利用元數(shù)據(jù)屬性,規(guī)范數(shù)據(jù)標(biāo)準(zhǔn),在數(shù)據(jù)源頭進(jìn)行糾錯(cuò)和去重等校驗(yàn)操作,降低數(shù)據(jù)治理和數(shù)據(jù)管理成本,提升基礎(chǔ)數(shù)據(jù)的質(zhì)量,促進(jìn)數(shù)據(jù)共享。
城市運(yùn)行管理服務(wù)信息化大數(shù)據(jù)架構(gòu)主要采用目前主流大數(shù)據(jù)技術(shù),包括數(shù)據(jù)提取工具、數(shù)據(jù)清洗工具、數(shù)據(jù)序列化工具、分布式數(shù)據(jù)庫、分布式數(shù)據(jù)倉庫、大數(shù)據(jù)日志數(shù)據(jù)處理框架、大數(shù)據(jù)文本搜索框架、大數(shù)據(jù)可視化等技術(shù)。 綜合運(yùn)用上述大數(shù)據(jù)技術(shù),對水利、電力、燃?xì)?、市政、交通等?shù)據(jù)、資料文檔、圖片、音視頻等數(shù)據(jù)進(jìn)行存儲,建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),完善數(shù)據(jù)采集機(jī)制,提高數(shù)據(jù)質(zhì)量,構(gòu)建數(shù)據(jù)交換平臺和數(shù)據(jù)倉庫,經(jīng)過一系列的數(shù)據(jù)提取、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)分析和挖掘,實(shí)現(xiàn)對海量數(shù)據(jù)的大數(shù)據(jù)采集、存儲、管理、分析、可視化和服務(wù)應(yīng)用。 其架構(gòu)設(shè)計(jì)如圖1 所示。
圖1 城市運(yùn)行管理服務(wù)信息化大數(shù)據(jù)架構(gòu)圖
基于云計(jì)算平臺方便快捷地管理計(jì)算、存儲資源、網(wǎng)絡(luò)資源等資源。 在云環(huán)境中,主要有硬件集群、網(wǎng)絡(luò)集群、數(shù)據(jù)庫、系統(tǒng)軟件以及操作系統(tǒng)等構(gòu)成,通過對基礎(chǔ)設(shè)施資源池化,可以動態(tài)伸縮地按需提供給城市管理內(nèi)部業(yè)務(wù)人員使用,其中云環(huán)境是指以超融合資源池為基礎(chǔ)的私有云結(jié)合商業(yè)化的公有云所形成的混合云,以實(shí)現(xiàn)資源的整合,大大提高資源利用率,并且能夠保障數(shù)據(jù)的安全管理。
主要包含城市運(yùn)行管理服務(wù)的結(jié)構(gòu)化、半結(jié)構(gòu)數(shù)據(jù)(如JavaScript 對象簡譜數(shù)據(jù))與非結(jié)構(gòu)化數(shù)據(jù),如水利、電力、燃?xì)?、市政等業(yè)務(wù)數(shù)據(jù)以及報(bào)告、文檔、交通流量數(shù)據(jù)、視頻監(jiān)控?cái)?shù)據(jù)等。 城市運(yùn)行服務(wù)管理信息化中數(shù)據(jù)來自不同的產(chǎn)生源,并且數(shù)據(jù)源的結(jié)構(gòu)也不相同,有關(guān)系型、非關(guān)系型和半關(guān)系型。 數(shù)據(jù)來源主要包括業(yè)務(wù)數(shù)據(jù)和過程數(shù)據(jù)。 對于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(如mysql、oracle、mssql等)結(jié)構(gòu)的數(shù)據(jù),可以利用大數(shù)據(jù)開源工具(sql-tohadoopsqoop,Sqoop) 完成關(guān)系型數(shù)據(jù)庫與Hadoop(如Hbase、Hive、分布式文件系統(tǒng)等)之間的數(shù)據(jù)轉(zhuǎn)換,也可以將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)通過數(shù)據(jù)倉庫技術(shù)(Extract-Transform-Load,ETL)工具加載到數(shù)據(jù)倉庫Hive 中,為后續(xù)大數(shù)據(jù)的存儲和處理加工做準(zhǔn)備。 Flume 和Logstach 是用于抽取非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的工具,對于非結(jié)構(gòu)化數(shù)據(jù)(如視頻和語音數(shù)據(jù))和半結(jié)構(gòu)化數(shù)據(jù)(如用戶上網(wǎng)記錄信息),也可以利用大數(shù)據(jù)開源工具Avro 序列化到Hadoop 中進(jìn)行處理。 引入Sqoop、Flume、Kafka 等大數(shù)據(jù)集成技術(shù)共同完成數(shù)據(jù)采集工作,Sqoop 與Flume 是Hadoop 大數(shù)據(jù)生態(tài)圈的數(shù)據(jù)接入工具,適用于傳統(tǒng)數(shù)據(jù)庫與Hadoop 之間數(shù)據(jù)傳輸與交換的利器,能夠在關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫Hive 和Hadoop 之間交換數(shù)據(jù)。
海量城市運(yùn)行管理服務(wù)數(shù)據(jù)從原始采集填報(bào)階段到形成城市運(yùn)行管理服務(wù)大數(shù)據(jù),需要進(jìn)行清洗、整合、集成等綜合處理,包括對傳統(tǒng)關(guān)系型數(shù)據(jù)庫的抽取、轉(zhuǎn)換與裝載、非結(jié)構(gòu)數(shù)據(jù)的序列化與傳輸存儲等。 清洗后的海量數(shù)據(jù)在進(jìn)行傳輸存儲時(shí),通過kafka 分布式發(fā)布訂閱消息系統(tǒng)實(shí)現(xiàn)高吞吐量數(shù)據(jù)交換。 將城市運(yùn)行管理服務(wù)數(shù)據(jù)存放到分布式文件系統(tǒng)(hadoop distributed file system,HDFS)、HBase、Hive 及Druid 中。 大數(shù)據(jù)資源層主要負(fù)責(zé)對數(shù)據(jù)文件進(jìn)行并行抽取、傳輸、加載、轉(zhuǎn)換以及存儲。 數(shù)據(jù)存儲采用具有高擴(kuò)展性的分布式存儲結(jié)構(gòu),數(shù)據(jù)存儲以Hadoop 分布式系統(tǒng)HDFS 為存儲組件,是采用分布式、高擴(kuò)展、高容錯(cuò)、高吞吐量的體系架構(gòu),能夠提供層次化的存儲和計(jì)算服務(wù),可提高大數(shù)據(jù)管理的高擴(kuò)展性、方便性和可靠性。 除此以外,大數(shù)據(jù)存儲還集成了分布式數(shù)據(jù)庫Hbase 和數(shù)據(jù)倉庫Hive,這使其具備海量非結(jié)構(gòu)化數(shù)據(jù)存儲能力以及非結(jié)構(gòu)化數(shù)據(jù)挖掘能力。 HDFS 文件系統(tǒng)存儲文件具備高度容錯(cuò)性能以及高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的數(shù)據(jù)存儲和管理;分布式數(shù)據(jù)庫HBase 具備高可靠性、高性能、面向列、可伸縮的特性,能夠?qū)Σ煌瑪?shù)據(jù)類型的異構(gòu)數(shù)據(jù)進(jìn)行加載和存儲,并使用一種鍵值對的形式處理不同類型數(shù)據(jù),能夠高效解決數(shù)據(jù)后臺請求業(yè)務(wù),為了保障HBase 提供穩(wěn)定服務(wù)和失效轉(zhuǎn)移機(jī)制,同時(shí)啟用了分布式應(yīng)用程序協(xié)調(diào)服務(wù)Zookeeper。
城市運(yùn)行管理服務(wù)大數(shù)據(jù)是基于Hadoop 框架,并配合使用大數(shù)據(jù)子項(xiàng)目Hive 和HBase,能夠?qū)崿F(xiàn)全面的數(shù)據(jù)分析功能,利用Hive 查詢和分析存儲在Hadoop 上的數(shù)據(jù),HBase 可以實(shí)現(xiàn)對音視頻資料的存儲,利用該數(shù)據(jù)庫能夠?qū)﹄x線數(shù)據(jù)進(jìn)行查詢、分析和歸納。 數(shù)據(jù)存儲到HBase 后,通過Hive 進(jìn)行管理數(shù)據(jù),也實(shí)現(xiàn)了對元數(shù)據(jù)的解析,再利用MapReduce 進(jìn)行計(jì)算處理。 在經(jīng)過初步的ETL 之后經(jīng)過大數(shù)據(jù)存儲,再將對海量數(shù)據(jù)進(jìn)行分析計(jì)算與數(shù)據(jù)挖掘。 此時(shí)針對大批量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析,使用建立在Hadoop 生態(tài)圈[2]上的Hive 數(shù)據(jù)倉庫進(jìn)行離線分析。 經(jīng)過Hive 分析處理后提取出來的關(guān)鍵指標(biāo)信息點(diǎn)選用建立在Hadoop 生態(tài)圈上的Mahout 進(jìn)行數(shù)據(jù)挖掘。Hive[3]作為數(shù)據(jù)倉庫也提供了對于海量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的技術(shù),Hive 的核心機(jī)制是HQL 語言,其原理類似于SQL 語言,能夠?qū)QL 轉(zhuǎn)化為MapReduce 程序在分布式集群上進(jìn)行執(zhí)行。 數(shù)據(jù)分析處理層還對城市運(yùn)行管理服務(wù)數(shù)據(jù)建立列索引,進(jìn)行數(shù)據(jù)識別、全文檢索、分析挖掘等操作,然后再利用可視化工具將分析挖掘的結(jié)果進(jìn)行顯示。 數(shù)據(jù)識別可借助HBase 列索引,也可借助全文檢索引擎Elastic Search。 大數(shù)據(jù)挖掘可使用Mahout 數(shù)據(jù)挖掘庫進(jìn)行處理。 數(shù)據(jù)識別、全文檢索等技術(shù)能從海量數(shù)據(jù)中提取蘊(yùn)含的城市運(yùn)行管理服務(wù)信息知識,大數(shù)據(jù)可視化工具如Hue 將結(jié)果進(jìn)行展示[4-5]。
通過大數(shù)據(jù)分析技術(shù)獲取的結(jié)構(gòu)可進(jìn)行可視化、報(bào)表服務(wù)、業(yè)務(wù)智能(business intelligence, BI)服務(wù)、統(tǒng)計(jì)分析結(jié)果展示、數(shù)據(jù)定制等服務(wù)。 對于獲取的大數(shù)據(jù)結(jié)果為第三方提供應(yīng)用程序編程接口(application programming interface,API)或提供統(tǒng)一的服務(wù)化Restful 接口實(shí)現(xiàn)外部應(yīng)用與大數(shù)據(jù)平臺的解耦,同時(shí)對數(shù)據(jù)訪問全過程進(jìn)行監(jiān)控保障數(shù)據(jù)安全,或利用Sqoop、Avro 等工具將大數(shù)據(jù)分析結(jié)果導(dǎo)出到關(guān)系型數(shù)據(jù)庫,供用戶實(shí)時(shí)查詢與統(tǒng)計(jì)分析,從而豐富了服務(wù)方式。
場景1:對某市一段時(shí)間以來每日收集到的危險(xiǎn)貨物車輛電子運(yùn)單和車輛全球定位系統(tǒng)(global positioning system,GPS)數(shù)據(jù)統(tǒng)計(jì)分析,掌握了危險(xiǎn)貨物運(yùn)輸車輛的停留情況,方便執(zhí)法部門精準(zhǔn)性檢查管理工作開展。 大數(shù)據(jù)處理過程為:對于結(jié)構(gòu)化的車輛電子運(yùn)單數(shù)據(jù)和車輛GPS 數(shù)據(jù),利用Sqoop 工具將其進(jìn)行清洗和轉(zhuǎn)換并加載到Hive 中,利用Mahout 數(shù)據(jù)挖掘算法進(jìn)行數(shù)據(jù)挖掘與分析,并利用大數(shù)據(jù)可視化工具如Hue 將結(jié)果進(jìn)行展示。
場景2:通過讀取某地周邊400 余個(gè)地面觀測站近1 h、0.5 h 及近5 s 的觀測數(shù)據(jù)、空氣質(zhì)量數(shù)據(jù),進(jìn)行氣象預(yù)報(bào),方便于交通、電廠、工商等多個(gè)行業(yè)部門快速共享氣象信息。 大數(shù)據(jù)處理過程為:將觀測站原始數(shù)據(jù)通過Flume發(fā)送采集到Hbase 中,利用提前設(shè)定額指標(biāo)進(jìn)行分析和處理,利用Elasticsearch 建立全文索引,基于文本進(jìn)行數(shù)據(jù)查詢。
場景3:為解決電力系統(tǒng)異構(gòu)數(shù)據(jù)存儲困難、可擴(kuò)展性差、吞吐性能低等問題,利用大數(shù)據(jù)技術(shù)框架構(gòu)建基于HBase 的電力數(shù)據(jù)中心,利用Sqoop、Flume、Kafka 等大數(shù)據(jù)技術(shù)完成數(shù)據(jù)的高質(zhì)量采集工作,采用HBase 的“發(fā)布-訂閱”模式實(shí)現(xiàn)數(shù)據(jù)的分發(fā)與共享,使用Mahout 數(shù)據(jù)挖掘算法進(jìn)行大數(shù)據(jù)挖掘與分析,也可以將HBase 與Hive進(jìn)行整合,實(shí)現(xiàn)較快地查看目的。
大數(shù)據(jù)技術(shù)在城市運(yùn)行管理服務(wù)信息化的應(yīng)用,利用大規(guī)模數(shù)據(jù)的快速存儲與處理以及可視化的管理界面等特點(diǎn),有效解決傳統(tǒng)方式難以對大規(guī)模數(shù)據(jù)進(jìn)行分析與管理的難題。 本文以城市運(yùn)行管理服務(wù)信息化大數(shù)據(jù)為例,基于當(dāng)前主流大數(shù)據(jù)技術(shù),設(shè)計(jì)了城市運(yùn)行管理服務(wù)大數(shù)據(jù)框架,該框架為后續(xù)城市運(yùn)行管理服務(wù)大數(shù)據(jù)平臺建設(shè)實(shí)施提供了技術(shù)參考和思路。