蔡紹博,潘 壇,鮑玲玲,蔡同建
(1.武漢市春曉曲農(nóng)業(yè)科技有限公司,武漢 430211;2.武漢建春科技有限公司,武漢 430070;3.武漢市中城事大數(shù)據(jù)有限責(zé)任公司,武漢 430074)
隨著旅游業(yè)的不斷發(fā)展,傳統(tǒng)產(chǎn)業(yè)的調(diào)整及多種技術(shù)的創(chuàng)新應(yīng)用,旅游業(yè)呈現(xiàn)出多元化發(fā)展,作為一個(gè)綜合性的產(chǎn)業(yè),涉及到吃、住、行等多個(gè)領(lǐng)域。在全球化的今天,文化旅游產(chǎn)業(yè)甚至上升至國家層面的戰(zhàn)略高度,促進(jìn)經(jīng)濟(jì)文化交流,實(shí)現(xiàn)旅游資源共享。在形式上,要充分了解游客偏好,是文化旅游推出產(chǎn)品和服務(wù)的必要前提;提供新的產(chǎn)品形態(tài),是不斷實(shí)現(xiàn)經(jīng)濟(jì)價(jià)值轉(zhuǎn)化的關(guān)鍵;降低運(yùn)營成本是文化旅游業(yè)得以持久運(yùn)轉(zhuǎn)的重要保障,因此,需要在大量的數(shù)據(jù)中將用戶的需求進(jìn)行分析了解并進(jìn)行及時(shí)推送,利用現(xiàn)有數(shù)據(jù)獲取其規(guī)律及價(jià)值,全面整合區(qū)域的文化旅游信息。依托大數(shù)據(jù)技術(shù),提供社會(huì)化信息基礎(chǔ)設(shè)施建設(shè),對景區(qū)資源進(jìn)行數(shù)字化和虛擬空間的全面提升和完善,加強(qiáng)資源共建共享,建全旅游資源信息處理機(jī)制,優(yōu)化資源配置,加深游客和景區(qū)的互動(dòng)體驗(yàn)和深度學(xué)習(xí),還可以通過智能導(dǎo)覽系統(tǒng)、物聯(lián)網(wǎng)全局控制,在最大限度之內(nèi)節(jié)省人力和物質(zhì)資源。
在信息爆炸的時(shí)代,數(shù)據(jù)產(chǎn)生由被動(dòng)、主動(dòng)到自動(dòng),數(shù)據(jù)的迅速增長導(dǎo)致了信息的爆炸式增長,傳統(tǒng)的信息處理技術(shù)已經(jīng)不適用于現(xiàn)在大規(guī)模的數(shù)據(jù)空間,大數(shù)據(jù)因此而來。大數(shù)據(jù)分析的觀點(diǎn)是指數(shù)據(jù)規(guī)模巨大且復(fù)雜即數(shù)據(jù)不止是單一的類型,具有5 V特點(diǎn)(Volume、Velocity、Variety、Value、Veracity),以上種種特點(diǎn)使得在現(xiàn)行標(biāo)準(zhǔn)下的數(shù)據(jù)管理工具處理數(shù)據(jù)變得異??嚯y。在大數(shù)據(jù)的加持背景下,需要收集、預(yù)處理和存儲(chǔ)大量的文化旅游數(shù)據(jù)。各種不同結(jié)構(gòu)的海量數(shù)據(jù)不僅需要收集、存儲(chǔ)和資源數(shù)據(jù)共享,還需要進(jìn)行分析、對比或者數(shù)據(jù)挖掘其特點(diǎn),找出其內(nèi)在規(guī)律和實(shí)用價(jià)值。如何獲取有價(jià)值的信息就需要依靠根據(jù)不同應(yīng)用的需求選擇性分析,這也是大數(shù)據(jù)處理的核心。
大數(shù)據(jù)與云計(jì)算的關(guān)系是密不可分的,作為大數(shù)據(jù)的基礎(chǔ)平臺(tái)與支持技術(shù),大數(shù)據(jù)具有更好的發(fā)布擴(kuò)展、調(diào)整補(bǔ)充迭代等特點(diǎn),對于用戶在云平臺(tái)上運(yùn)行的應(yīng)用,不同的應(yīng)用需要不同的服務(wù)器資源作為依托,為特定的應(yīng)用分析匹配從而推薦合適的存儲(chǔ)架構(gòu)和數(shù)據(jù)組織,選擇和拼裝合適的功能模塊,并根據(jù)工作負(fù)載定制系統(tǒng)規(guī)模和高效可靠的負(fù)載分配策略。根據(jù)不同用戶的需求理解應(yīng)用,提取特征,定義模型,實(shí)現(xiàn)靈活、可擴(kuò)展的調(diào)整。其中,作為上層應(yīng)用基礎(chǔ)的文件系統(tǒng)也需要進(jìn)行改變。大數(shù)據(jù)背景下的許多應(yīng)用在大量數(shù)據(jù)的管理上出現(xiàn)問題,于是開始研制適合自己運(yùn)營場景的大數(shù)據(jù)系統(tǒng),GFS是一個(gè)可以應(yīng)用于廉價(jià)普通硬件設(shè)備上的提供容錯(cuò)功能的可擴(kuò)展分布式文件系統(tǒng),其廣泛應(yīng)用于分布式、大型的處理海量數(shù)據(jù)的場景。其可以給大量的用戶提供總體性能較高的服務(wù),針對大文件而設(shè)計(jì)。而TFS是一個(gè)高可伸縮性、高效、面向互聯(lián)網(wǎng)服務(wù)的分布式文件系統(tǒng),主要針對復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),其構(gòu)建在普通的Linux服務(wù)集群上,可為外部提供高效和并發(fā)的存儲(chǔ)訪問功能。
大數(shù)據(jù)背景下的數(shù)據(jù)庫相較于以前的數(shù)據(jù)庫而言,在數(shù)據(jù)規(guī)模與數(shù)據(jù)類型上有所不同,大數(shù)據(jù)背景下的數(shù)據(jù)往往雜亂無章,以非結(jié)構(gòu)化和半結(jié)構(gòu)化為主要類型,異構(gòu)居多,同時(shí),結(jié)構(gòu)化數(shù)據(jù)往往是輔助角色。在此基礎(chǔ)上,不同的數(shù)據(jù)源之間交錯(cuò)復(fù)雜,不同類型的數(shù)據(jù)內(nèi)容的檢索也有交叉。Hadoop是一個(gè)支持對海量數(shù)據(jù)進(jìn)行操作處理的軟件框架,其以并行的方式工作,通過并行處理加快處理速度。此外,其是基于社區(qū)服務(wù)構(gòu)建的,任何人都能夠使用,這些特點(diǎn)使得Hadoop成為了一個(gè)高效、易用、人性化的分布式計(jì)算平臺(tái)。
大數(shù)據(jù)管理系統(tǒng)是一個(gè)容量大、類型多、變化快速、真實(shí)且低質(zhì)量數(shù)據(jù)管理的系統(tǒng)應(yīng)用,是面向分析型的大數(shù)據(jù)應(yīng)用,以數(shù)據(jù)操作為主,所以要對數(shù)據(jù)的分析性能進(jìn)行提高,其中,大數(shù)據(jù)管理系統(tǒng)的價(jià)值之一在于知識(shí)和信息的管理,在大數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,獲取數(shù)據(jù)價(jià)值,所以文化旅游分析系統(tǒng)不僅要滿足對資源的獲取和智能化的分析運(yùn)用,還要依托大數(shù)據(jù)平臺(tái),將文化旅游發(fā)展到新的高度,推動(dòng)文化旅游的跨界融合,形成政府、市場、企業(yè)和社會(huì)等多元主體的共建共享治理格局。將人文景觀和當(dāng)?shù)靥厣约爸苓咅B(yǎng)生、保健等服務(wù)行業(yè)相結(jié)合,開發(fā)不同層次的復(fù)合商業(yè)發(fā)展模式,同時(shí)為用戶提供合理旅游規(guī)劃和路線,隨時(shí)掌握旅游相關(guān)資訊。
目前,旅游行業(yè)在我國仍未建成資源基礎(chǔ)數(shù)據(jù)庫,信息的發(fā)布和更新缺乏時(shí)效性。文化旅游數(shù)據(jù)要?jiǎng)?chuàng)新智慧旅游公共服務(wù)模式,所以文化旅游數(shù)據(jù)包含多項(xiàng),要將海量多種類型多種模式的數(shù)據(jù)資源進(jìn)行整合貫通,在設(shè)計(jì)之初就要嚴(yán)格規(guī)范,高標(biāo)準(zhǔn)去研究制定。在創(chuàng)新過程中要有效地把旅游、交通、氣象和測繪等信息整合到數(shù)據(jù)庫。綜合運(yùn)用地理位置信息、門票信息管理和周邊服務(wù)業(yè)等信息,存儲(chǔ)形式可以為文本、報(bào)表、圖片、XML、HTML、圖像、視頻和音頻等。與政府各級職能部門、社會(huì)組織等建立廣泛密切的聯(lián)系,加大資源管理的整合力度,形成大數(shù)據(jù)信息共享方式下的全覆蓋、多元治理模式的文化旅游大數(shù)據(jù)庫綜合應(yīng)用5G、大數(shù)據(jù)和云計(jì)算等技術(shù),加強(qiáng)旅游預(yù)約平臺(tái)建設(shè),推進(jìn)分時(shí)段預(yù)約游覽、流量監(jiān)測監(jiān)控、科學(xué)引導(dǎo)分流等服務(wù),例如“云上貴州·智慧旅游云”大數(shù)據(jù)平臺(tái)系統(tǒng)。
大數(shù)據(jù)索引技術(shù):數(shù)據(jù)庫最重要的應(yīng)用之一是數(shù)據(jù)查詢,提高數(shù)據(jù)庫查詢效率的重要機(jī)制是索引,海量數(shù)據(jù)在索引過程中會(huì)影響到大數(shù)據(jù)應(yīng)用的檢索和處理效率,所以可以在基于高效的索引結(jié)構(gòu)上提高檢索的效率,例如以有并發(fā)索引結(jié)構(gòu)為核心的高效檢索技術(shù),而本文采用基于Elasticsearch的HBase大數(shù)據(jù)二級索引,采取存儲(chǔ)并查詢二級索引的方式,是一種多網(wǎng)絡(luò)的倒排索引技術(shù)的特殊形式,加上基于Lucene的分布式搜索引擎Elasticsearch,提高HBase的檢索效率。是在Elasticsearch傳輸數(shù)據(jù)過程中配置了BulkProcessor,進(jìn)行批量傳輸機(jī)制的設(shè)置和時(shí)間機(jī)制,在速度傳輸上有所提升;HBase在內(nèi)置的索引是基于行鍵(RowKey)設(shè)計(jì)的,HBase搜索關(guān)鍵詞能力較差,但在RowKey情況下查詢效率具有顯著的提高。此時(shí)系統(tǒng)在滿足海量數(shù)據(jù)的寫入需求的同時(shí),也滿足快速檢索的需求。
大數(shù)據(jù)壓縮技術(shù):數(shù)據(jù)在采集之后會(huì)不可避免地出現(xiàn)數(shù)據(jù)冗余的情況,對數(shù)據(jù)進(jìn)行緊縮處理,可以減少數(shù)據(jù)的存儲(chǔ),設(shè)計(jì)高效快捷、高壓縮率且快速易懂的算法可以使數(shù)據(jù)在傳輸、計(jì)算、分析得到提高。
大數(shù)據(jù)可視化分析技術(shù):可視化是分析和挖掘時(shí)空數(shù)據(jù)的重要手段。借助于圖形手段,可以清晰有效地傳達(dá)和交流信息。在此系統(tǒng)中,可以利用三維可視化技術(shù),讓用戶感受到三維交互的體驗(yàn)效果。三維可視化技術(shù)結(jié)合了數(shù)據(jù)的三維特征分割和重建技術(shù),將采集到的三維數(shù)據(jù)的紋理和材質(zhì)渲染到視覺場景中,以提高數(shù)據(jù)的三維表達(dá)能力,然后通過網(wǎng)絡(luò)數(shù)據(jù)信息管理系統(tǒng)中的三維VR虛擬現(xiàn)實(shí)設(shè)計(jì),提高繪制場景的智能性和逼真度。在基于三維虛擬的海量數(shù)據(jù)信息管理系統(tǒng)中,使用可視化仿真渲染技術(shù)工具Vega Prime實(shí)現(xiàn)三維建模和可視化分析,通過可視化應(yīng)用實(shí)現(xiàn)交叉編譯,并利用Multigen Creator建立了三維虛擬網(wǎng)絡(luò)數(shù)據(jù)設(shè)計(jì)和大型場景模型設(shè)計(jì)的靜態(tài)圖像處理功能,在Vega Prime系統(tǒng)下對視覺信息進(jìn)行分析,實(shí)現(xiàn)了三維虛擬現(xiàn)實(shí)的可視化仿真。
該系統(tǒng)采用Hadoop進(jìn)行構(gòu)建,分為數(shù)據(jù)采集、存儲(chǔ)、分析和呈現(xiàn)4層構(gòu)架,形成大數(shù)據(jù)數(shù)據(jù)層、傳輸層、分析層和呈現(xiàn)層4個(gè)層次,有大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)傳輸、大數(shù)據(jù)智能分析和大數(shù)據(jù)呈現(xiàn)5個(gè)分布于4個(gè)層的功能,如上功能綜合對系統(tǒng)中各用戶的互動(dòng)數(shù)據(jù)進(jìn)行整理和管理分析,在大數(shù)據(jù)技術(shù)的支持下為用戶提供完整的旅游信息,形成智慧旅游模式。如圖1所示。
圖1 基于文化旅游的大數(shù)據(jù)技術(shù)框架
大數(shù)據(jù)采集系統(tǒng):從各種來源采集海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。通過網(wǎng)絡(luò)進(jìn)行爬蟲或者網(wǎng)站公開APⅠ進(jìn)行數(shù)據(jù)批量有效采集的方式,并將數(shù)據(jù)通過內(nèi)存與磁盤兩種形式存儲(chǔ)在客戶端,同時(shí),數(shù)據(jù)被簡單地處理并寫入各種數(shù)據(jù)接收器(例如文本、HDFS、HBase等)。然后對采集到的數(shù)據(jù)進(jìn)行清洗、脫密等環(huán)節(jié)預(yù)處理,包括數(shù)據(jù)精細(xì)化清理、數(shù)據(jù)中心化集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)范。解決了數(shù)據(jù)遺漏、不一致、數(shù)據(jù)冗余和數(shù)值沖突等問題。在最大限度保持?jǐn)?shù)據(jù)原始外觀的基礎(chǔ)上,簡化數(shù)據(jù)量,獲得較小數(shù)據(jù)集的操作,從而提高數(shù)據(jù)質(zhì)量。
大數(shù)據(jù)存儲(chǔ)系統(tǒng):HDFS是基于磁盤的分布式系統(tǒng),面向的對象主要是大文件的存儲(chǔ)管理,以HDFS等為代表的開源系統(tǒng)已成為目前大數(shù)據(jù)存儲(chǔ)的主要標(biāo)準(zhǔn)之一。HDFS以流式數(shù)據(jù)訪問模式來存儲(chǔ)超大文件,運(yùn)行于商業(yè)硬件集群上。HDFS集群分為2大角色,分別為Namenode、Datanode(非HA模式會(huì)存在Secondary Namenode)。在存儲(chǔ)過程中,數(shù)據(jù)以3種方式存儲(chǔ)包括實(shí)時(shí)、批處理和流式。數(shù)據(jù)集群主機(jī)發(fā)起指令并與HBase結(jié)合,實(shí)現(xiàn)添加、刪除、查詢和修改等基本操作。在使用數(shù)據(jù)時(shí),與Hive相結(jié)合,通過ETL工具將數(shù)據(jù)源提取到HDFS進(jìn)行存儲(chǔ)。Hive對原始數(shù)據(jù)進(jìn)行清理、處理和計(jì)算,并通過與HBase配合,將表結(jié)構(gòu)以配置文件的形式存放在云服務(wù)器中,最后結(jié)合Hive在利用被過濾分組后數(shù)據(jù)時(shí),可以使用SQL語句查詢和檢索數(shù)據(jù),方便編程和檢索。如圖2所示。
圖2 大數(shù)據(jù)層
大數(shù)據(jù)智能分析系統(tǒng):研究數(shù)據(jù)挖掘算法是大數(shù)據(jù)技術(shù)的核心。數(shù)據(jù)源和格式來源不同,格式不同,所以基于不同的格式和屬性,數(shù)據(jù)挖掘的算法也應(yīng)當(dāng)做出調(diào)整,如此才能夠更加科學(xué)地展現(xiàn)數(shù)據(jù)本身的特點(diǎn)和屬性。常用的計(jì)算模型包括批處理計(jì)算、流計(jì)算和迭代計(jì)算等,每種計(jì)算類型都有相應(yīng)的抽象接口和相應(yīng)的響應(yīng)組件,如Map-Reduce提供的Map和Reduce接口和相應(yīng)的響應(yīng)組件。根據(jù)數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù),可以使用“批處理+流處理”模式?!芭幚?流處理”的混合處理模式已經(jīng)發(fā)展迅速,Spark便是建立在HDFS之上,通過結(jié)合配置、算法進(jìn)行內(nèi)存計(jì)算模型和執(zhí)行優(yōu)化,極大地提高了數(shù)據(jù)處理能力,形成“批處理+流處理”的混合處理高效模式。Spark適用于交互式數(shù)據(jù)查詢??梢酝ㄟ^Spark框架分析數(shù)據(jù)并輸出結(jié)果。除了數(shù)據(jù)挖掘算法外,大數(shù)據(jù)可視化分析還為用戶提供了清晰的旅游信息視圖和理解。大數(shù)據(jù)預(yù)測分析結(jié)合多種先進(jìn)的分析功能(包括統(tǒng)計(jì)、預(yù)測、數(shù)據(jù)挖掘和文本對比等),為用戶提供新的旅游方案策略和安全預(yù)警判斷,達(dá)到預(yù)測不確定事件的目的。如圖3所示。
圖3 傳輸層和分析層
大數(shù)據(jù)呈現(xiàn)系統(tǒng):對應(yīng)不同的設(shè)備,可分為在Web應(yīng)用、桌面應(yīng)用、手機(jī)應(yīng)用和微信端等的相應(yīng)用戶端實(shí)現(xiàn)數(shù)據(jù)檢索結(jié)果的輸出呈現(xiàn)。
文化產(chǎn)業(yè)和旅游業(yè)的結(jié)合,不僅可以弘揚(yáng)民族文化,加強(qiáng)文化自信,還可以以歷史文脈作為依托,打造特色文化旅游,推動(dòng)相關(guān)旅游景點(diǎn)的周邊商品銷售,進(jìn)一步推動(dòng)藝術(shù)表演、文化館和博物館等文化產(chǎn)業(yè)鏈相關(guān)經(jīng)濟(jì)的發(fā)展。利用多網(wǎng)格數(shù)據(jù)倒排索引、多維度大數(shù)據(jù)場景建模、多層次細(xì)節(jié)LOD模型展示等大數(shù)據(jù)技術(shù),建立文化旅游分析管理系統(tǒng),對文化旅游信息進(jìn)一步分析獲得相應(yīng)的價(jià)值與規(guī)律,為用戶提供高價(jià)值服務(wù)。