張宇星 鄭江華
在互聯(lián)網(wǎng)+旅游的時代背景下,為促進景區(qū)的科學化建設與景區(qū)旅游資源的信息共享,實現(xiàn)景區(qū)資源的優(yōu)化配置。本研究以旅游景區(qū)為研究實例,以Java為開發(fā)語言,以SQL Server 2016為存儲數(shù)據(jù)庫,以Apache為服務器設計并實現(xiàn)了基于網(wǎng)絡爬蟲的旅游景區(qū)網(wǎng)絡關注度動態(tài)檢索系統(tǒng)。
引言
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的盛行,線上線下的聯(lián)動發(fā)展,大數(shù)據(jù)的出現(xiàn)促進了旅游產(chǎn)業(yè)融合、旅游體驗智慧化、旅游方式轉(zhuǎn)變和旅游消費升級。各地智慧旅游建設不斷加強,基于互聯(lián)網(wǎng)形成的旅游大數(shù)據(jù)應用主要體現(xiàn)在目的地形象感知、目的地流量預測、目的地偏好度分析等方面,而針對旅游景區(qū)網(wǎng)絡關注度的數(shù)字化動態(tài)檢索系統(tǒng)還未見報道?;诖?,本文展開基于網(wǎng)絡爬蟲的旅游景區(qū)網(wǎng)絡關注度動態(tài)檢索系統(tǒng)研究。
一、系統(tǒng)目標與需求分析
(一)系統(tǒng)目標
系統(tǒng)能夠以互聯(lián)網(wǎng)中游客發(fā)布的各類信息,作為關注度要素的釆集對象,來自動爬取各級別景區(qū)的關注度信息,并進行動態(tài)更新,然后根據(jù)景區(qū)關注度算法建立的索引機制進行景區(qū)關注度綜合排名,并分析出該景區(qū)關注度高低與其所處的級別的一致性,為今后景區(qū)定級和景區(qū)旅游資源的優(yōu)化配置提供決策依據(jù)與信息化服務。
(二)需求分析
1.爬取與下載網(wǎng)頁。系統(tǒng)能夠?qū)ヂ?lián)網(wǎng)中的旅游信息網(wǎng)頁按照一定的搜索規(guī)則進行爬取與下載。
2.判別網(wǎng)頁并提取信息。系統(tǒng)能夠按照一定的判別算法從已下載好的網(wǎng)頁中提取具體的景區(qū)關注度信息,包括景區(qū)名稱、游記、評分和照片等數(shù)據(jù)。
3.實時更新網(wǎng)頁。系統(tǒng)能夠按照一定的更新規(guī)則對已下載的網(wǎng)頁進行更新,確保傳遞給索引模塊的信息都是最新、最有效的信息。
4.建立信息索引。系統(tǒng)能夠?qū)⒉杉降木皡^(qū)關注度信息通過遵循一定的規(guī)則來建立索引,從而快速響應用戶查詢需求。
5.信息檢索并顯示。系統(tǒng)能夠提供一個簡潔友好的景區(qū)關注度信息檢索界面,使用戶可以查詢不同級別景區(qū)的關注度信息,并可以將查詢結(jié)果按照綜合排名顯示給用戶。
二、系統(tǒng)總體構(gòu)架
根據(jù)功能需求分析,系統(tǒng)的主要功能模塊可分為信息采集模塊、數(shù)據(jù)索引模塊、用戶查詢模塊。
(一)信息采集模塊
本模塊負責從互聯(lián)網(wǎng)中收集景區(qū)關注度信息。使用Web Magic對選中的網(wǎng)站進行景區(qū)關注度信息提取,并按照一定的規(guī)則保存在本地數(shù)據(jù)庫中。
(二)數(shù)據(jù)索引模塊
本模塊負責對收集到的數(shù)據(jù)進行檢索。首先要將獲取到的景區(qū)關注度數(shù)據(jù)加工整理,以方便Lucene進行檢索,然后建立的索引以文件的形式保存在本地索引庫。
(三)用戶查詢模塊
本模塊負責接收用戶的查詢語句并顯示結(jié)果,包含檢索和顯示兩個主要功能。檢索過程:用戶在系統(tǒng)前臺輸入查詢語句,系統(tǒng)后臺對查詢語句進行檢索,處理成Lucene可識別的查詢項,用查詢項對索引庫進行搜索,對匹配的結(jié)果進行打分,根據(jù)分數(shù)的高低依次排序返回。顯示過程:采用Spring MVC構(gòu)架,建立景區(qū)關注度索引對檢索結(jié)果進行接收,前端采用JavaScript和EL表達式完成閾值的傳遞,將最終結(jié)果顯示在頁面上。
三、系統(tǒng)功能實現(xiàn)
(一)后臺數(shù)據(jù)管理
系統(tǒng)后臺數(shù)據(jù)管理有動態(tài)爬取數(shù)據(jù)、獲取目標地址、歷史紀錄管理等主要功能模塊。
1.動態(tài)爬取數(shù)據(jù)。網(wǎng)絡搜索引擎需要實時采集數(shù)據(jù),用戶可以根據(jù)實際需要,在系統(tǒng)中選擇動態(tài)采集時間,默認采集時間為24小時,以減少對采集目標地址的訪問壓力。
2.獲取目標地址。網(wǎng)絡爬蟲在抓取數(shù)據(jù)時需要一個指定網(wǎng)址,以避免獲取到無用的數(shù)據(jù),設置一個合適的抓取地址可以使獲取的數(shù)據(jù)更為精確。系統(tǒng)可以獲取合適的目標地址,并填入標題和描述,以判別不同地址的屬性。
3.歷史紀錄管理。用戶可以查詢、添加、刪除和復制歷史記錄,包括序號、標題、描述、狀態(tài)和發(fā)布時間等信息。
(二)前臺頁面設計
系統(tǒng)前臺頁面有景區(qū)信息查詢、關注度排行、關注度異常提示等主要功能模塊。
1.景區(qū)信息查詢。用戶可以根據(jù)景區(qū)目錄下所對應級別的景區(qū)名稱查詢景區(qū)的詳細簡介,同時系統(tǒng)將同一級別的景區(qū),使用同一種標注顏色,在電子地圖上冒泡顯示,方便用戶瀏覽景區(qū)信息。
2.景區(qū)關注度排行。系統(tǒng)根據(jù)景區(qū)關注度的評分高低依次排序后顯示給用戶。
3.景區(qū)關注度異常提示。系統(tǒng)將景區(qū)關注度排行與景區(qū)所處的級別進行比對,如發(fā)現(xiàn)某個景區(qū)的關注度與其所處的景區(qū)級別不一致時,會自動發(fā)出警告提示,提醒用戶其網(wǎng)絡關注度出現(xiàn)異?,F(xiàn)象。經(jīng)過測試,本系統(tǒng)具有性能穩(wěn)定、采集數(shù)據(jù)快、數(shù)據(jù)獲取準確和動態(tài)更新及時等優(yōu)點,達到了系統(tǒng)設計的最初目標。
四、結(jié)語
為促進旅游景區(qū)的信息化建設與旅游資源的信息共享,實現(xiàn)景區(qū)信息資源的可持續(xù)發(fā)展,筆者設計并實現(xiàn)了基于網(wǎng)絡爬蟲的旅游景區(qū)網(wǎng)絡關注度動態(tài)查檢索系統(tǒng),該系統(tǒng)符合預期設計目標,并且具有較高的研究意義與應用價值,可為旅游景區(qū)旅游資源的優(yōu)化配置提供決策依據(jù)。
(作者單位:1.新疆大學資源與環(huán)境科學學院;
2.新疆大學智慧城市與環(huán)境建模普通高校重點實驗室)