KADEN Kenzhekhan,GULIA Altynbek
(新疆大學(xué),烏魯木齊830046)
隨著建設(shè)“新絲綢之路經(jīng)濟(jì)帶”和“21世紀(jì)海上絲綢之路”兩大戰(zhàn)略構(gòu)想的不斷深入,中國與哈薩克斯坦大力發(fā)展了與兩國之間旅游領(lǐng)域的合作伙伴關(guān)系。由于旅游業(yè)的蓬勃發(fā)展,信息化技術(shù)在區(qū)域旅游規(guī)劃、旅游信息管理等領(lǐng)域中具有前所未有的潛能。
國外比較早實(shí)施旅游信息化的國家包括荷蘭(Hol?land)、丹麥(Denmark)、瑞士(Switzerland)等國家。國外比較早的系統(tǒng)包括奧地利(Austria)的羅爾旅游信息系統(tǒng)、瑞士的阿彭策爾(Appenzell)旅游信息[1]。這一時(shí)期的旅游信息管理系統(tǒng)共同的特征是:系統(tǒng)是由旅游設(shè)施、資源、地理環(huán)境等信息庫組成。各個(gè)系統(tǒng)在其數(shù)據(jù)組織結(jié)構(gòu)、內(nèi)容、編碼格式、實(shí)現(xiàn)技術(shù)以及來源等方面都采用了不同的方法。
國內(nèi)的許碧霞[2]提出了基于GIS的旅游信息管理系統(tǒng)設(shè)計(jì)方法,并以北京為對研究對象介紹了與旅游信息相關(guān)的空間數(shù)據(jù)庫的設(shè)計(jì)方法。永壹等人[3]提出了基于Web的B/S結(jié)構(gòu)的旅游信息管理系統(tǒng),楊程介、杜軍平[4]基于JDBC數(shù)據(jù)庫技術(shù)建立了旅游目的地營銷系統(tǒng)(DMS)。陳菁[5]、劉暢、鐘耳順[6]、劉帥[7]、趙躍、張丈君等人基于GIS分別實(shí)現(xiàn)了福建、北京、廣西、峨眉山等地點(diǎn)的旅游信息管理系統(tǒng)。
然而目前哈薩克斯坦旅游行業(yè)尚未實(shí)現(xiàn)為游客提供旅游信息的智能化服務(wù)。與哈薩克斯坦旅游景區(qū)相關(guān)信息分散在各大百科以及政府網(wǎng)站中,對游客帶來極大的不便,絕大部分旅游信息管理系統(tǒng)雖然實(shí)現(xiàn)基于互聯(lián)網(wǎng)的知識表征的手段然而無法進(jìn)行信息共享、信息交換,數(shù)據(jù)的利用率極低。
維基百科(www.wikipedia.org)是一個(gè)網(wǎng)絡(luò)百科全書項(xiàng)目,提供了海量與旅游地名相關(guān)的數(shù)據(jù)。維基百科通過行政區(qū)域劃分的方式收集了哈薩克斯坦的地名信息,包括州名、人口、面積以及編碼等。在維基百科依據(jù)哈薩克斯坦行政區(qū)劃分的數(shù)據(jù),如表1所示。
從表1提供的數(shù)據(jù)可知,哈薩克斯坦劃分為14個(gè)州和3個(gè)直轄市。例如阿克莫拉州的首府為科克雪套,其面積為 146,219km2、人口為 737,495,編碼為 KZ-AKM。
本文通過Crawler+MySQL+d3知識圖譜框架實(shí)現(xiàn)了面向哈薩克斯坦旅游領(lǐng)域的知識圖譜。知識圖譜構(gòu)建流程如圖1所示。
表1 維基百科哈薩克斯坦行政區(qū)劃分?jǐn)?shù)據(jù)
圖1 知識圖譜構(gòu)建流程
(1)數(shù)據(jù)的采集。本文采用Scrapy-Redis框架實(shí)現(xiàn)了互聯(lián)網(wǎng)數(shù)據(jù)的分布式爬取以及存儲。通過Scrapy工具實(shí)現(xiàn)了數(shù)據(jù)的爬取并將所得數(shù)據(jù)存入到了Redis數(shù)據(jù)庫中。
(2)結(jié)構(gòu)化數(shù)據(jù)的構(gòu)建。通過自動化清洗腳本的方法將Redis中的數(shù)據(jù)進(jìn)一步進(jìn)行清洗后保存到文本件中,再把該文本數(shù)據(jù)導(dǎo)入到Neo4j[8]和MySQL數(shù)據(jù)庫中。
(3)可視化系統(tǒng)的構(gòu)建。本文通過Python 3.7實(shí)現(xiàn)了現(xiàn)爬蟲、數(shù)據(jù)清理以及可視化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。
本文通過MySQL關(guān)系型數(shù)據(jù)庫實(shí)現(xiàn)了數(shù)據(jù)的存儲及其管理。數(shù)據(jù)庫包括四張表,其中State表和Dis?tricts兩張實(shí)體表分別存儲了哈薩克斯坦的州和區(qū)(縣)的信息。State_Districts關(guān)系表存州和區(qū)(縣)的對應(yīng)關(guān)系,SPO表存儲了知識圖譜中的三元組。數(shù)據(jù)庫中Districts表和State表是多對多的關(guān)系,通過State_Dis?tricts表實(shí)現(xiàn)了將上述多對多轉(zhuǎn)化為兩個(gè)一對多的關(guān)系,(stat_id,district_id)就表示了這種映射。
圖2 數(shù)據(jù)庫結(jié)構(gòu)
詳細(xì)地說,在數(shù)據(jù)庫中State_Districts和SPO表都表示了映射關(guān)系。State_Districts保存了原始的關(guān)系,而 SPO把關(guān)系映射成“直轄市”或“區(qū)(縣)”,即State_Districts可能需要通過映射才能得到SPO表。知識庫里的關(guān)系其實(shí)有兩種:一種是屬性(property),一種是關(guān)系(relation)。SPO只存實(shí)體間的關(guān)系,屬性由實(shí)體表檢索得到,在SPO表中多加一列type(類型),來區(qū)分這關(guān)系是實(shí)體間關(guān)系還是實(shí)體與屬性的關(guān)系,便于之后的可視化。
本文以Flask Server作為服務(wù)器,通過d3實(shí)現(xiàn)了知識圖譜的可視化實(shí)現(xiàn)。該平臺可以檢索州/區(qū)(縣)獲取相應(yīng)的圖譜,并會更新有向圖版本。本文選取了哈薩克斯坦阿拉木圖17個(gè)州中的5行政區(qū)和阿拉木圖市的旅游景點(diǎn)基本情況演示了系統(tǒng)的結(jié)果如圖3所示。其中藍(lán)色的代表知識圖譜中的實(shí)體,紅色代表屬性,綠色的是實(shí)體和屬性之間的關(guān)系。此外,在此基礎(chǔ)上通過人口、面積、建立日、郵政編碼搜索方式查閱相關(guān)旅游景點(diǎn)的信息。
圖3 旅游景點(diǎn)基本情況圖譜結(jié)果
本文通過屬性值融合的方法研究并實(shí)現(xiàn)了異構(gòu)多數(shù)據(jù)源哈薩克斯坦旅游景點(diǎn)信息的知識圖譜;此外,本文以Flask Server作為服務(wù)器,通過d3為技術(shù)設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)基于中文的哈薩克斯坦旅游景點(diǎn)可視化系統(tǒng);該平臺可以檢索州/區(qū)(縣)獲取相應(yīng)的圖譜,并會更新有向圖版本。哈薩克斯坦阿拉木圖州有17行政區(qū)(縣),本文選取了哈薩克斯坦阿拉木圖17個(gè)州中的5行政區(qū)和阿拉木圖市的旅游景點(diǎn)基本情況演示了系統(tǒng)功能。結(jié)果可說明本文所構(gòu)建的面向哈薩克斯坦旅游領(lǐng)域的知識圖譜及其可視化系統(tǒng)在實(shí)現(xiàn)旅游信息的智能化管理與服務(wù)方面具有潛在的價(jià)值。
未來可以進(jìn)行的工作主要包括知識圖譜屬性以及數(shù)據(jù)量的擴(kuò)充,實(shí)現(xiàn)可視化系統(tǒng)的推理功能等方面。