當(dāng)前,“城市病”問題日益突出。智慧城市從概念提出到落地實(shí)踐至今,據(jù)不完全統(tǒng)計(jì),中國95%的副省級(jí)城市、89%的地級(jí)城市,總計(jì)至少超過500個(gè)城市,在政府工作計(jì)劃中提出建設(shè)智慧城市[1]。
智慧城市被公認(rèn)是治療“城市病”的最佳途徑[2]。但在實(shí)際建設(shè)中發(fā)現(xiàn),智慧城市建設(shè)具有長期性、間接性、復(fù)雜性等特點(diǎn),城市內(nèi)各組織和部門內(nèi)部存在著多種彼此孤立的應(yīng)用系統(tǒng),系統(tǒng)之間信息無法實(shí)現(xiàn)共享,系統(tǒng)中可復(fù)用的功能被重復(fù)建設(shè),數(shù)據(jù)一致性也無法得到保證,使得應(yīng)用系統(tǒng)成為一個(gè)個(gè)“信息孤島”。
針對(duì)智慧城市建設(shè)中普遍存在的跨單位,跨系統(tǒng)的異構(gòu)數(shù)據(jù)共享及交換的業(yè)務(wù)場景,傳統(tǒng)的點(diǎn)對(duì)點(diǎn)數(shù)據(jù)通訊方式不能滿足安全性,靈活性、可擴(kuò)展性等方面的要求,需要建立一個(gè)高度靈活、快速響應(yīng)、共享協(xié)同、資源集中的數(shù)據(jù)共享和交互的大數(shù)據(jù)系統(tǒng),滿足信息共享和協(xié)同,支持不斷演進(jìn)的智慧城市迭代。
數(shù)據(jù)對(duì)于城市的價(jià)值已經(jīng)不言而喻。隨著城市信息化建設(shè)的不斷發(fā)展,數(shù)據(jù)越來越多,如何建立信息資源采集、處理、交換、共享、運(yùn)營和服務(wù)的機(jī)制和規(guī)程,實(shí)現(xiàn)分布在各業(yè)務(wù)部門的信息資源的有效采集、交換、共享和應(yīng)用,是智慧城市建設(shè)的關(guān)鍵任務(wù)。
因此,迫切需要建設(shè)基于大數(shù)據(jù)技術(shù)的信息共享與交換機(jī)制,通過建設(shè)數(shù)據(jù)共享交換平臺(tái)實(shí)現(xiàn)城市內(nèi)部的信息交換與共享,讓信息資源得到充分的開發(fā)和利用,提高城市的整體信息化水平。
數(shù)據(jù)整合共享只是手段,數(shù)據(jù)分析服務(wù)才是目的。依托于大數(shù)據(jù)系統(tǒng),有效整合政府各部門所掌握的全市經(jīng)濟(jì)社會(huì)信息資源,充分融合物聯(lián)網(wǎng)和互聯(lián)網(wǎng)等城市數(shù)據(jù),提升政府形勢分析預(yù)測水平,給政府在進(jìn)行發(fā)展規(guī)劃、投資布局、資源環(huán)境、管理創(chuàng)新等業(yè)務(wù)提供有力支撐[2]。
當(dāng)前在眾多組織單位被廣泛采用的仍然是人工分析的方法,這種人工分析的方法針對(duì)目前一些信息處理的現(xiàn)狀,往往面臨很大的挑戰(zhàn)。例如分析的數(shù)據(jù)和信息通常分布在許多不同的數(shù)據(jù)源,信息量大且缺少關(guān)聯(lián)性,并且人工的分析手段通常被看作是一種特殊的專業(yè)技能,很難在一個(gè)大的組織中進(jìn)行經(jīng)驗(yàn)的共享和傳遞,因而存在一定的局限性。
因此,便捷、高效的情報(bào)可視化關(guān)聯(lián)分析平臺(tái)將在決策中發(fā)揮重大作用,將已有的信息化業(yè)務(wù)系統(tǒng)中的各類數(shù)據(jù)以圖形的方式展現(xiàn)出來,通過圖形方式對(duì)數(shù)據(jù)與數(shù)據(jù)間的關(guān)聯(lián)進(jìn)行描述和展現(xiàn),更進(jìn)一步地,運(yùn)用眾多圖形分析的方法(關(guān)聯(lián)分析、網(wǎng)絡(luò)分析、路徑分析、時(shí)間序列分析、空間分析等)來發(fā)現(xiàn)和揭示數(shù)據(jù)中隱含的公共要素和關(guān)聯(lián),幫助各部門、各人員將大量的、未知質(zhì)量的、低關(guān)聯(lián)性的、低價(jià)值的信息轉(zhuǎn)化為少量的、易于理解的、高關(guān)聯(lián)性的、高價(jià)值的可操作的情報(bào),從而為分析調(diào)查工作提供幫助。
大數(shù)據(jù)系統(tǒng)建設(shè)內(nèi)容并非一成不變,而是隨著現(xiàn)代城市管理業(yè)務(wù)、信息技術(shù)的發(fā)展和相關(guān)國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)的不斷完善而進(jìn)行充實(shí)和更新,可以在應(yīng)用中不斷由用戶補(bǔ)充和更新功能,具備良好的與其他系統(tǒng)的數(shù)據(jù)交換和功能兼容能力,具備統(tǒng)一的軟件和數(shù)據(jù)接口,為后續(xù)系統(tǒng)的開發(fā)留余地。
系統(tǒng)應(yīng)全面支持XML、SOAP、Web Service、LDAP、UDDI等當(dāng)前受到普遍支持的開放標(biāo)準(zhǔn),系統(tǒng)支持異構(gòu)數(shù)據(jù)庫之間數(shù)據(jù)交換和共享,支持主流關(guān)系型數(shù)據(jù)庫,支持不同操作系統(tǒng)之間信息交換應(yīng)用的互聯(lián)互通。系統(tǒng)應(yīng)能滿足今后人口基礎(chǔ)庫、跨部門協(xié)同辦公等其他應(yīng)用建設(shè)對(duì)信息共享和整合的需要。
國內(nèi)各地智慧城市建設(shè)各有差異,但是大數(shù)據(jù)系統(tǒng)都占據(jù)重要地位[3]。圖1是典型的智慧城市總體框架,其中平臺(tái)層屬于智慧城市的主要建設(shè)范疇,平臺(tái)層是集數(shù)據(jù)交換、信息存儲(chǔ)、大數(shù)據(jù)分析挖掘的綜合中心。
圖1 典型的智慧城市框架圖
平臺(tái)層包括兩部分:
(1)大數(shù)據(jù)系統(tǒng),是一個(gè)高速、安全、可靠、互聯(lián)互通的支撐平臺(tái),實(shí)現(xiàn)相關(guān)部門業(yè)務(wù)之間的相互通信,采集、處理及存儲(chǔ)分散在各部門的相關(guān)數(shù)據(jù),形成基礎(chǔ)數(shù)據(jù)庫、業(yè)務(wù)數(shù)據(jù)庫和分析數(shù)據(jù)庫,實(shí)現(xiàn)信息共享與交換,并通過智慧挖掘和分析海量數(shù)據(jù),為上層業(yè)務(wù)提供決策支撐關(guān)鍵數(shù)據(jù)。
(2)云數(shù)據(jù)中心,建有基礎(chǔ)架構(gòu)云,目前通常采用服務(wù)器虛擬化、數(shù)據(jù)庫高可用集群、存儲(chǔ)虛擬化、網(wǎng)絡(luò)虛擬化和網(wǎng)絡(luò)負(fù)載均衡等技術(shù),使軟硬件資源得到共享和最大化利用,根據(jù)需要提供云基礎(chǔ)設(shè)施服務(wù)等。
本文重點(diǎn)針對(duì)大數(shù)據(jù)系統(tǒng)部分的設(shè)計(jì)及實(shí)現(xiàn)進(jìn)行介紹。
大數(shù)據(jù)系統(tǒng)包括數(shù)據(jù)共享交換子系統(tǒng)、城市基礎(chǔ)數(shù)據(jù)庫子系統(tǒng)、大數(shù)據(jù)挖掘分析子系統(tǒng)。
數(shù)據(jù)共享交換子系統(tǒng):負(fù)責(zé)對(duì)外提供的各類共享數(shù)據(jù)的存儲(chǔ)和共享管理;
城市基礎(chǔ)數(shù)據(jù)庫子系統(tǒng):負(fù)責(zé)存儲(chǔ)和管理外部系統(tǒng)及相關(guān)基礎(chǔ)數(shù)據(jù)的收集及信息管理;
大數(shù)據(jù)挖掘分析子系統(tǒng):負(fù)責(zé)基于基礎(chǔ)的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)分析處理和大數(shù)據(jù)海量信息的分析歸類,并將最終的分析和挖掘結(jié)果提供給共享交換子系統(tǒng)進(jìn)行數(shù)據(jù)共享處理。
圖2是智慧城市大數(shù)據(jù)系統(tǒng)與外部系統(tǒng)之間的關(guān)系示意。
圖2 大數(shù)據(jù)系統(tǒng)與外部系統(tǒng)關(guān)系圖
3.2.1 數(shù)據(jù)共享交換子系統(tǒng)
數(shù)據(jù)共享交換子系統(tǒng)面對(duì)的是數(shù)量繁多的應(yīng)用系統(tǒng),數(shù)據(jù)來源的種類、格式、存儲(chǔ)方式各不相同,需要數(shù)據(jù)共享交換子系統(tǒng)能適配各種不同的數(shù)據(jù)來源。在數(shù)據(jù)提供單位發(fā)布共享資源后,對(duì)于不同的使用單位,希望獲取到的內(nèi)容不完全相同。
數(shù)據(jù)共享交換子系統(tǒng)采用分布式架構(gòu)(如圖3),可以多個(gè)采集服務(wù)器并發(fā)工作,不同的服務(wù)器可以分別運(yùn)行不同的數(shù)據(jù)采集流程。
主控節(jié)點(diǎn)(Master):Master端負(fù)責(zé)任務(wù)的創(chuàng)建與分發(fā),并且根據(jù)各工作節(jié)點(diǎn)(Slave)的執(zhí)行能力智能預(yù)測任務(wù)的調(diào)度分配,提高資源的利用率,實(shí)現(xiàn)系統(tǒng)的負(fù)載均衡。
圖3 分布式架構(gòu)圖
工作節(jié)點(diǎn)(Slave):Slave端負(fù)責(zé)任務(wù)的執(zhí)行,并且根據(jù)資源的情況可以建立多個(gè),所以在邏輯上可以進(jìn)行橫向擴(kuò)展,并構(gòu)成了一個(gè)分布式運(yùn)行網(wǎng)絡(luò),提供了高的系統(tǒng)性能與系統(tǒng)吞吐量。
工作節(jié)點(diǎn)網(wǎng)格(Slave Grid):Slave支持Grid,同一個(gè)Grid的Slave可以并行執(zhí)行相同的任務(wù)。
數(shù)據(jù)共享交換子系統(tǒng)是平臺(tái)的核心組件[4],實(shí)現(xiàn)以下功能:
(1)數(shù)據(jù)采集:可通過前置機(jī)、爬蟲、物聯(lián)網(wǎng)關(guān)等采集委辦局政務(wù)數(shù)據(jù)、社會(huì)眾包數(shù)據(jù)、企業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)。
(2)數(shù)據(jù)清洗:將各種采集起來的數(shù)據(jù)進(jìn)行統(tǒng)一標(biāo)準(zhǔn)、格式轉(zhuǎn)換,保證數(shù)據(jù)的正確性、準(zhǔn)確性,清洗掉冗余數(shù)據(jù)、過期數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)。
(3)數(shù)據(jù)存儲(chǔ):數(shù)據(jù)經(jīng)過清洗后,分門別類地存放在城市基礎(chǔ)數(shù)據(jù)庫中
3.2.2 大數(shù)據(jù)挖掘分析子系統(tǒng)
大數(shù)據(jù)的核心是挖掘業(yè)務(wù)目標(biāo),建立分析模型。大數(shù)據(jù)挖掘分析采用當(dāng)前主流的大數(shù)據(jù)處理和分析技術(shù),對(duì)數(shù)據(jù)進(jìn)行交叉分析,任意組合,設(shè)計(jì)業(yè)務(wù)模型,幫助用戶從大型數(shù)據(jù)集中提取感興趣的知識(shí)。
通常大數(shù)據(jù)挖掘分析流程如圖4所示包括以下六個(gè)步驟:
圖4 大數(shù)據(jù)挖掘分析業(yè)務(wù)流程圖
大數(shù)據(jù)挖掘分析的流程:
(1)業(yè)務(wù)理解:理解業(yè)務(wù)目標(biāo)與需求,將其轉(zhuǎn)化為一個(gè)數(shù)據(jù)挖掘的問題和實(shí)現(xiàn)目標(biāo)的初步計(jì)劃;
(2)數(shù)據(jù)理解:對(duì)挖掘所需所有數(shù)據(jù)的調(diào)查、收集,并熟悉數(shù)據(jù)以便鑒別數(shù)據(jù)質(zhì)量、洞察數(shù)據(jù);
(3)數(shù)據(jù)準(zhǔn)備:將原始數(shù)據(jù)轉(zhuǎn)換為適合挖掘的目標(biāo)數(shù)據(jù)。包括數(shù)據(jù)清洗、選擇、轉(zhuǎn)換;
(4)建立模型:選擇多種不同的建模(數(shù)據(jù)挖掘)技術(shù),通過測試數(shù)據(jù)驗(yàn)證模型質(zhì)量和有效性;
(5)評(píng)價(jià):評(píng)價(jià)模型的計(jì)算結(jié)果是否達(dá)到預(yù)期?是否有還未充分考慮的問題;
(6)實(shí)施:由最終客戶而不是數(shù)據(jù)分析人員來實(shí)施。
大數(shù)據(jù)挖掘分析子系統(tǒng)當(dāng)前主流趨勢是利用Spark在迭代計(jì)算和內(nèi)存計(jì)算上的優(yōu)勢,將并行的機(jī)器學(xué)習(xí)算法與統(tǒng)計(jì)算法運(yùn)行在Spark上。至于Spark的實(shí)現(xiàn)方式,則是集成MLLib。MLlib 是Spark對(duì)常用的機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)庫,支持常見的機(jī)器學(xué)習(xí)問題?,F(xiàn)有常見的機(jī)器學(xué)習(xí)并行算法和并行化統(tǒng)計(jì)算法分別如表1和表2所示。
平臺(tái)一般還集成RStudio Server。Rstudio是R語言的一種強(qiáng)大而便捷的IDE(Integrated Development Environment集成開發(fā)環(huán)境),提供基于web的開發(fā)環(huán)境,同時(shí)提供RStudio并行化后臺(tái)以及并行化執(zhí)行引擎的連接模塊,并將R語言腳本的編寫、編譯、跟蹤執(zhí)行以及中間變量查看和繪圖集于一體,為用戶提供了一個(gè)強(qiáng)大的R的操作環(huán)境。用戶除了可以自行編寫R語言的程序腳本、調(diào)用開源版本R提供了數(shù)千個(gè)R語言的包和函數(shù)之外。
系統(tǒng)需要實(shí)現(xiàn)的并行化機(jī)器學(xué)習(xí)算法包括常用的分類、聚類、回歸等功能,還會(huì)根據(jù)需求在平臺(tái)開發(fā)中進(jìn)一步實(shí)現(xiàn)更多的并行化算法,通過將數(shù)據(jù)裝載入分布式內(nèi)存列式存儲(chǔ),支持對(duì)海量數(shù)據(jù)的交互式數(shù)據(jù)分析,具備在秒級(jí)分析和掃描數(shù)十億條數(shù)據(jù)的能力。
表1 現(xiàn)有機(jī)器學(xué)習(xí)并行算法列表
表2 現(xiàn)有的并行化統(tǒng)計(jì)算法列表
3.2.3 城市基礎(chǔ)數(shù)據(jù)庫子系統(tǒng)
城市基礎(chǔ)數(shù)據(jù)一般會(huì)經(jīng)常被政府各部門所使用。城市基礎(chǔ)數(shù)據(jù)庫由人口數(shù)據(jù)庫、法人數(shù)據(jù)庫、宏觀經(jīng)濟(jì)數(shù)據(jù)庫、地理空間數(shù)據(jù)庫及建筑物數(shù)據(jù)庫等五大類數(shù)據(jù)庫組成[5]。
人口庫是城市基礎(chǔ)數(shù)據(jù)庫之一,是智慧城市必不可少的組成部分,在基礎(chǔ)數(shù)據(jù)庫中最具典型性。下文以人口庫為例說明建庫過程和涉及的信息數(shù)據(jù):
(1)數(shù)據(jù)接收:接收信息來源部門的人口信息;
(2)數(shù)據(jù)檢查清理:對(duì)接收到的人口數(shù)據(jù)進(jìn)行入庫前的檢查,包括數(shù)據(jù)量、數(shù)據(jù)有效性和數(shù)據(jù)格式,以確定數(shù)據(jù)是否符合接受規(guī)范;對(duì)不合格數(shù)據(jù)不予入庫,并將數(shù)據(jù)問題反饋給信息來源單位;
(3)數(shù)據(jù)加載:經(jīng)過檢查符合接受規(guī)范的數(shù)據(jù)裝載入庫;
(4)數(shù)據(jù)質(zhì)量檢驗(yàn)和控制:建立發(fā)現(xiàn)問題、修改問題的循環(huán)回饋機(jī)制,逐步提高人口數(shù)據(jù)的質(zhì)量?;仞佭^程包括發(fā)現(xiàn)數(shù)據(jù)問題;分析問題原因;向責(zé)任單位發(fā)布有關(guān)問題,通知其修改;責(zé)任單位處理問題數(shù)據(jù),返回修改后的數(shù)據(jù),要求保留數(shù)據(jù)質(zhì)量檢驗(yàn)活動(dòng)的記錄和問題數(shù)據(jù),作為評(píng)估數(shù)據(jù)源數(shù)據(jù)質(zhì)量和各部門工作的依據(jù);
(5)數(shù)據(jù)維護(hù):建立數(shù)據(jù)更新維護(hù)機(jī)制,保持人口基礎(chǔ)信息數(shù)據(jù)的鮮活。根據(jù)信息來源和責(zé)任歸屬單位的不同,需要建立不同的維護(hù)機(jī)制,保證人口基礎(chǔ)信息庫中的數(shù)據(jù)與來源數(shù)據(jù)的一致性、完整性和時(shí)效性。圖6是數(shù)據(jù)維護(hù)當(dāng)中,典型的人口庫數(shù)據(jù)比對(duì)業(yè)務(wù)流程圖。
大數(shù)據(jù)是智慧城市的智慧引擎。大數(shù)據(jù)通過對(duì)多個(gè)維度、多種類數(shù)據(jù)的記錄、挖掘、推薦、分類、關(guān)聯(lián)等智慧處理,使城市的發(fā)展有更合理的依據(jù),以便向市民提供方便、精準(zhǔn)和快捷的服務(wù)。同時(shí)大數(shù)據(jù)建立后提供的高速并行運(yùn)算、海量數(shù)據(jù)、更優(yōu)化的算法共同促成了人工智能發(fā)展的突破。
圖6 人口庫數(shù)據(jù)比對(duì)業(yè)務(wù)流程圖
今年的政府工作報(bào)告[6]明確提出:“發(fā)展壯大新動(dòng)能。做大做強(qiáng)新興產(chǎn)業(yè)集群,實(shí)施大數(shù)據(jù)發(fā)展行動(dòng),加強(qiáng)新一代人工智能研發(fā)應(yīng)用,在醫(yī)療、養(yǎng)老、教育、文化、體育等多領(lǐng)域推進(jìn)‘互聯(lián)網(wǎng)+’。發(fā)展智能產(chǎn)業(yè),拓展智能生活。運(yùn)用新技術(shù)、新業(yè)態(tài)、新模式,大力改造提升傳統(tǒng)產(chǎn)業(yè)?!贝髷?shù)據(jù)、人工智能作為當(dāng)前最核心的關(guān)鍵技術(shù),兩者的深度結(jié)合,必將會(huì)推動(dòng)智慧城市向更高層次迭代。