程宇翔,梁均軍,劉洪波,趙翔宇
(1.重慶市地理信息和遙感應(yīng)用中心,重慶 401121)
隨著信息技術(shù)的快速發(fā)展以及互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新興數(shù)據(jù)的高度發(fā)達(dá),新型智慧城市建設(shè)已離不開大數(shù)據(jù)這個(gè)核心引擎[1]。時(shí)空大數(shù)據(jù)是大數(shù)據(jù)的重要組成部分,是時(shí)間、空間、專題屬性相結(jié)合的三維信息,與地理位置有著直接或間接的關(guān)系。通過集成基礎(chǔ)地理信息數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)、公共專題數(shù)據(jù)和空間規(guī)劃數(shù)據(jù),并將其時(shí)空化,形成時(shí)空大數(shù)據(jù)[2]。應(yīng)用多源時(shí)空大數(shù)據(jù)開展城市的感知、分析、模擬、預(yù)測已成為重要的研究方向,時(shí)空大數(shù)據(jù)所具有的高時(shí)空粒度與跨度、多源樣本覆蓋、人本特征顯著等屬性為城市發(fā)展研究帶來了新的契機(jī)[3]。同時(shí),結(jié)合時(shí)空大數(shù)據(jù)開展城市的編制、審批、管理、優(yōu)化、動態(tài)監(jiān)測、評估預(yù)警也成為規(guī)劃實(shí)踐的核心內(nèi)容,改變了傳統(tǒng)規(guī)劃的思維模式[4]。從對象尺度來看,時(shí)空大數(shù)據(jù)的應(yīng)用分析包括建筑、社區(qū)、城市、城鎮(zhèn)群(區(qū)域)、全國乃至全球等不同尺度。在針對大尺度空間、長時(shí)間跨度區(qū)域的國土空間分析中,時(shí)空大數(shù)據(jù)的應(yīng)用具有極大的優(yōu)勢。然而,現(xiàn)階段在生產(chǎn)時(shí)空數(shù)據(jù)的工作中還面臨著兩個(gè)方面的挑戰(zhàn):①目前仍采用傳統(tǒng)的人工處理方式將海量、異構(gòu)的各類數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一基準(zhǔn)的時(shí)空數(shù)據(jù),轉(zhuǎn)換模式單一,時(shí)間成本高昂,數(shù)據(jù)轉(zhuǎn)換效率低下[5-6];②面對不同來源、不同類型的千萬級甚至億級時(shí)空數(shù)據(jù)的存儲和計(jì)算,傳統(tǒng)基礎(chǔ)設(shè)施難以有效 支撐[7-8]。
鑒于此,本文重點(diǎn)研究了數(shù)據(jù)轉(zhuǎn)換方法、流程轉(zhuǎn)換自動化技術(shù)、時(shí)空大數(shù)據(jù)存儲等關(guān)鍵技術(shù),建成了智慧重慶時(shí)空數(shù)據(jù)轉(zhuǎn)換服務(wù)系統(tǒng),實(shí)現(xiàn)了海量、異構(gòu)數(shù)據(jù)從接入、轉(zhuǎn)換、管理、分析、服務(wù)到應(yīng)用的全流程服務(wù)。
時(shí)空數(shù)據(jù)轉(zhuǎn)換服務(wù)系統(tǒng)基于大數(shù)據(jù)平臺建設(shè),利用面向服務(wù)的架構(gòu)(SOA)理念,采用層次化結(jié)構(gòu)建設(shè),包括基礎(chǔ)設(shè)施層、平臺層、數(shù)據(jù)層和應(yīng)用層,如圖1所示。
圖1 時(shí)空數(shù)據(jù)轉(zhuǎn)換服務(wù)系統(tǒng)總體架構(gòu)圖
1)基礎(chǔ)設(shè)施層負(fù)責(zé)構(gòu)建系統(tǒng)所需的數(shù)據(jù)處理、存儲和服務(wù)等硬件基礎(chǔ)設(shè)施和網(wǎng)絡(luò)基礎(chǔ)設(shè)施。
2)平臺層負(fù)責(zé)支撐時(shí)空轉(zhuǎn)換流程的構(gòu)建。該層包括時(shí)空轉(zhuǎn)換模型和時(shí)空轉(zhuǎn)換組件,其中時(shí)空轉(zhuǎn)換模型包含地址匹配模型、數(shù)據(jù)關(guān)聯(lián)模型、實(shí)時(shí)匹配模型和實(shí)體匹配模型;時(shí)空轉(zhuǎn)換組件包含地址匹配、建筑物轉(zhuǎn)換糾偏、道路轉(zhuǎn)換糾偏、實(shí)時(shí)數(shù)據(jù)轉(zhuǎn)換等。
3)數(shù)據(jù)層利用HDFS、PostgreSQL、ElasticSearch等存儲環(huán)境實(shí)現(xiàn)時(shí)空大數(shù)據(jù)的存儲與訪問,支撐平臺的運(yùn)行。針對不同的時(shí)空數(shù)據(jù)類型,采用不同的方式存儲時(shí)空數(shù)據(jù)轉(zhuǎn)換成果。
4)應(yīng)用層面向不同業(yè)務(wù)應(yīng)用方向,提供企業(yè)、人口等時(shí)空主題分析應(yīng)用以及個(gè)性化主題分析應(yīng)用功能,以快速實(shí)現(xiàn)主題分析應(yīng)用搭建。
通過不同類型的數(shù)據(jù)采集系統(tǒng)獲得的非空間數(shù)據(jù),根據(jù)數(shù)據(jù)產(chǎn)生方式和描述的業(yè)務(wù)不同,在空間位置也有不同的描述,如統(tǒng)計(jì)數(shù)據(jù)常以行政區(qū)劃名稱描述其空間內(nèi)容、企業(yè)常以注冊地址描述其空間關(guān)系等,因此對非空間數(shù)據(jù)的空間化轉(zhuǎn)換,也存在不同的轉(zhuǎn)換模式,主要包括地址匹配、關(guān)聯(lián)匹配、實(shí)時(shí)匹配和實(shí)體匹配4種方式。
1)地址匹配主要借助于地名地址數(shù)據(jù)庫成果,通過地址匹配服務(wù)引擎建立地名地址與空間坐標(biāo)的對應(yīng)關(guān)系,能對帶有地名地址描述的數(shù)據(jù)進(jìn)行空間轉(zhuǎn)換,賦予非空間數(shù)據(jù)坐標(biāo)信息。
2)關(guān)聯(lián)匹配主要針對數(shù)據(jù)本身沒有空間描述信息,但與其有關(guān)的其他數(shù)據(jù)存在空間描述信息或已賦予坐標(biāo)的情況,可通過關(guān)聯(lián)數(shù)據(jù)進(jìn)行時(shí)空轉(zhuǎn)換,賦予其相關(guān)數(shù)據(jù)的坐標(biāo)信息。例如,社保數(shù)據(jù)屬性信息中沒有空間描述信息,但社保與人口數(shù)據(jù)有關(guān)聯(lián)關(guān)系,可通過將人口坐標(biāo)賦予社保數(shù)據(jù)的方式,實(shí)現(xiàn)社保數(shù)據(jù)的空間化轉(zhuǎn)換。
3)實(shí)時(shí)匹配主要用于實(shí)時(shí)位置數(shù)據(jù)的接入與數(shù)據(jù)提取轉(zhuǎn)換。實(shí)時(shí)位置數(shù)據(jù)的處理存在特殊性,其本身已具備坐標(biāo)信息,但還附屬了設(shè)備信息以及與設(shè)備相關(guān)的業(yè)務(wù)信息,在位置數(shù)據(jù)轉(zhuǎn)換時(shí),需要同步獲取設(shè)備信息或相關(guān)業(yè)務(wù)狀態(tài)信息,并對設(shè)備數(shù)據(jù)的空間位置和狀態(tài)進(jìn)行更新處理。例如,在出租車實(shí)時(shí)位置數(shù)據(jù)轉(zhuǎn)換中,需要同步獲取出租車信息以及是否空載信息,更新出租車專題數(shù)據(jù)。
4)實(shí)體匹配主要用于描述地理實(shí)體數(shù)據(jù)相關(guān)業(yè)務(wù)的非空間數(shù)據(jù)的空間化轉(zhuǎn)換,需要將非空間數(shù)據(jù)與實(shí)體數(shù)據(jù)進(jìn)行融合,賦予非空間數(shù)據(jù)地理實(shí)體坐標(biāo)。例如,道路施工進(jìn)度信息包含道路實(shí)體描述信息,可通過道路實(shí)體融合施工進(jìn)度信息,形成道路施工數(shù)據(jù)的空間化轉(zhuǎn)換。
在進(jìn)行非時(shí)空數(shù)據(jù)向時(shí)空數(shù)據(jù)的轉(zhuǎn)換過程中,不僅面對的數(shù)據(jù)種類多、類型復(fù)雜,而且各類數(shù)據(jù)均有不同的更新頻率和更新方式,采用傳統(tǒng)匹配或人工處理等空間化處理方式,工作效率低,實(shí)施成本高,無法持續(xù)投入建設(shè),因此實(shí)現(xiàn)數(shù)據(jù)時(shí)空化轉(zhuǎn)換處理的自動化運(yùn)行是時(shí)空數(shù)據(jù)轉(zhuǎn)換服務(wù)系統(tǒng)建設(shè)的核心。
數(shù)據(jù)時(shí)空化處理包括數(shù)據(jù)接入、清洗、轉(zhuǎn)換、存儲等多個(gè)階段,為了滿足處理流程自動化運(yùn)行要求,需完成數(shù)據(jù)接入標(biāo)準(zhǔn)化、數(shù)據(jù)處理流程化、流程運(yùn)行任務(wù)化、任務(wù)執(zhí)行可監(jiān)控等內(nèi)容的設(shè)計(jì)與建設(shè),如圖2所示。
圖2 時(shí)空數(shù)據(jù)轉(zhuǎn)換服務(wù)流程圖
1)數(shù)據(jù)接入標(biāo)準(zhǔn)化主要是指進(jìn)行時(shí)空化轉(zhuǎn)換的數(shù)據(jù)需要建立數(shù)據(jù)描述標(biāo)準(zhǔn),包括元數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)。元數(shù)據(jù)標(biāo)準(zhǔn)主要用于建立數(shù)據(jù)訪問方式、數(shù)據(jù)更新頻率、數(shù)據(jù)關(guān)聯(lián)關(guān)系等信息標(biāo)準(zhǔn);數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)主要用于建立數(shù)據(jù)唯一標(biāo)識、數(shù)據(jù)空間描述字段等信息標(biāo)準(zhǔn),為數(shù)據(jù)時(shí)空化處理提供可自動讀取的信息基礎(chǔ)。
2)數(shù)據(jù)處理流程化主要是指非時(shí)空數(shù)據(jù)時(shí)空化處理過程需要建立一個(gè)可執(zhí)行且固化的數(shù)據(jù)處理流程,但不同的數(shù)據(jù)時(shí)空化處理流程也有各種差別,因此該數(shù)據(jù)處理流程支持自定義,即支持對不同數(shù)據(jù)采用不同的時(shí)空化處理流程進(jìn)行定義。本文將在Geo-ETL建設(shè)成果的基礎(chǔ)上,擴(kuò)充各類數(shù)據(jù)轉(zhuǎn)換組件,實(shí)現(xiàn)數(shù)據(jù)時(shí)空化處理流程的可視化定義與管理,達(dá)到不同數(shù)據(jù)時(shí)空化處理流程化的目的。
3)流程運(yùn)行任務(wù)化主要是指已建立的數(shù)據(jù)時(shí)空化處理流程需根據(jù)不同的更新頻率進(jìn)行任務(wù)化執(zhí)行,能夠任務(wù)化執(zhí)行的流程通過任務(wù)調(diào)度技術(shù),可實(shí)現(xiàn)流程的自動化運(yùn)行。本文將借助在線任務(wù)調(diào)度技術(shù),融合時(shí)空數(shù)據(jù)處理組件,實(shí)現(xiàn)數(shù)據(jù)時(shí)空化處理流程的自動化運(yùn)行與可視化調(diào)度管理。
4)任務(wù)執(zhí)行可監(jiān)控。由于自動化執(zhí)行的數(shù)據(jù)時(shí)空化處理任務(wù)的穩(wěn)定性是任務(wù)能夠常態(tài)化運(yùn)行的關(guān)鍵,因此需要實(shí)現(xiàn)流程執(zhí)行任務(wù)的可視化監(jiān)控與異常排查能力。本文將通過分布式日志收集技術(shù)實(shí)現(xiàn)所有任務(wù)日志的采集、存儲、分析和可視化建設(shè),進(jìn)而實(shí)現(xiàn)自動化執(zhí)行任務(wù)的可視化監(jiān)控、自動化異常告警、處理異常日志分析等功能,保障任務(wù)的常態(tài)化可持續(xù)運(yùn)行。
通過時(shí)空數(shù)據(jù)轉(zhuǎn)換服務(wù)系統(tǒng)得到的海量成果數(shù)據(jù),日積月累已形成時(shí)空大數(shù)據(jù)規(guī)模,傳統(tǒng)的集中式關(guān)系型數(shù)據(jù)庫已無法對TB甚至PB量級數(shù)據(jù)進(jìn)行高效存儲管理,特別是無法對單表億級數(shù)據(jù)進(jìn)行高效處理。傳統(tǒng)的計(jì)算能力一般為單機(jī)單進(jìn)程或單機(jī)多進(jìn)程處理方式,無法應(yīng)用多集群并行計(jì)算的能力。此外,傳統(tǒng)模式中的多終端訪問很多仍以專題地圖、符號化來表達(dá)正常的數(shù)據(jù)規(guī)模,沒有對大數(shù)據(jù)量、多類別、實(shí)時(shí)數(shù)據(jù)有更直觀、更友好的大數(shù)據(jù)展示方式。因此,需要一個(gè)強(qiáng)有力的數(shù)據(jù)處理和承載平臺為大數(shù)據(jù)級別的時(shí)空數(shù)據(jù)提供支撐?;跁r(shí)空大數(shù)據(jù)的數(shù)據(jù)類別、數(shù)據(jù)特征、數(shù)據(jù)時(shí)效性以及數(shù)據(jù)采集的多種接入方式,本文通過融合多種時(shí)空大數(shù)據(jù)存儲技術(shù),實(shí)現(xiàn)了對多源異構(gòu)數(shù)據(jù)的統(tǒng)一存儲和管理。
針對時(shí)空大數(shù)據(jù)體量大、更新頻率快等問題,本文通過大數(shù)據(jù)技術(shù)對時(shí)空大數(shù)據(jù)進(jìn)行分布式存儲,通過地理信息技術(shù)實(shí)現(xiàn)了對ElasticSearch、PostgreSQL、MongoDB以及HDFS等數(shù)據(jù)存儲引擎的擴(kuò)展,使其支持時(shí)空數(shù)據(jù)的存儲與計(jì)算。系統(tǒng)可根據(jù)不同的數(shù)據(jù)類型選擇不同的數(shù)據(jù)存儲方式,以滿足更多數(shù)據(jù)接入場景與應(yīng)用場景的需求。時(shí)空大數(shù)據(jù)存儲引擎通過統(tǒng)一的分布式集群管理方式對多源異構(gòu)數(shù)據(jù)類別進(jìn)行高效管理;同時(shí)通過標(biāo)準(zhǔn)的服務(wù)接口和數(shù)據(jù)API為時(shí)空大數(shù)據(jù)交換、分析、應(yīng)用提供高效的存儲技術(shù)支撐。
在實(shí)際應(yīng)用中,結(jié)構(gòu)化數(shù)據(jù)可采用分布式關(guān)系型數(shù)據(jù)庫PostgreSQL等進(jìn)行存儲,半結(jié)構(gòu)化數(shù)據(jù)可采用ElasticSearch、HBase進(jìn)行存儲,非結(jié)構(gòu)化數(shù)據(jù)可采取文件型數(shù)據(jù)庫HDFS進(jìn)行存儲,以此保障不同類型數(shù)據(jù)能根據(jù)其數(shù)據(jù)特性和應(yīng)用場景,采用合適的存儲介質(zhì),實(shí)現(xiàn)數(shù)據(jù)的便捷管理與高效應(yīng)用。其中,PostgreSQL數(shù)據(jù)庫主要用于存儲千萬級以下的時(shí)空專題數(shù)據(jù),這樣既能滿足其對外提供SQL查詢等正常需求,又能滿足海量數(shù)據(jù)分布式存儲和快速查詢的需求;ElasticSearch主要用于存儲實(shí)時(shí)動態(tài)數(shù)據(jù),以滿足其數(shù)據(jù)量較大、更新頻率快、聚合統(tǒng)計(jì)查詢要求高等需求。
時(shí)空數(shù)據(jù)轉(zhuǎn)換服務(wù)系統(tǒng)形成了一套自動化的數(shù)據(jù)轉(zhuǎn)換流程,實(shí)現(xiàn)了對多個(gè)行業(yè)部門業(yè)務(wù)的有效空間落地,累計(jì)完成1 030余萬條數(shù)據(jù)的時(shí)空轉(zhuǎn)換,已廣泛應(yīng)用于應(yīng)急管理、城鄉(xiāng)規(guī)劃、市場信用監(jiān)管、教育、醫(yī)療、市政管理、地理國情普查、水利、交通、航運(yùn)、生態(tài)環(huán)境保護(hù)等領(lǐng)域的經(jīng)濟(jì)建設(shè)與科學(xué)研究中,為全市地理信息應(yīng)用建設(shè)工作提供了高水平的數(shù)據(jù)轉(zhuǎn)換服務(wù),解決了傳統(tǒng)空間化過程對人工操作依賴程度較高、轉(zhuǎn)換工作費(fèi)時(shí)費(fèi)力的問題,極大地提高了工作效率。
本文從構(gòu)建智慧重慶時(shí)空數(shù)據(jù)轉(zhuǎn)換服務(wù)系統(tǒng)的工作實(shí)際出發(fā),研究了非空間數(shù)據(jù)的自動時(shí)空化模式,設(shè)計(jì)了時(shí)空數(shù)據(jù)轉(zhuǎn)換服務(wù)系統(tǒng)的總體架構(gòu)和轉(zhuǎn)換流程;并利用流程轉(zhuǎn)換自動化、時(shí)空大數(shù)據(jù)存儲、時(shí)空大數(shù)據(jù)計(jì)算、個(gè)性化主題分析等關(guān)鍵技術(shù)實(shí)現(xiàn)了數(shù)據(jù)從接入、轉(zhuǎn)換、管理、分析、服務(wù)到應(yīng)用的全流程服務(wù),有效解決了目前非空間數(shù)據(jù)時(shí)空轉(zhuǎn)換人工依賴程度高、傳統(tǒng)大數(shù)據(jù)環(huán)境無法有效支撐時(shí)空大數(shù)據(jù)的高效存儲與計(jì)算以及時(shí)空數(shù)據(jù)的快速可視化應(yīng)用等問題。目前已開展了人口、企業(yè)、交通等數(shù)據(jù)的時(shí)空化轉(zhuǎn)換,取得了顯著效果,為下一步開展時(shí)空數(shù)據(jù)分析決策奠定了技術(shù)基礎(chǔ)。