郭順利 蘇新寧 房旭輝
摘 要: [目的/ 意義] 為挖掘旅游平臺(tái)游記文本蘊(yùn)含知識(shí), 協(xié)助旅游者高效獲取符合需求的信息和知識(shí),為制定旅游計(jì)劃提供科學(xué)決策的信息支持。[方法/ 過程] 首先面向用戶需求提出基于布爾矩陣和集合邏輯改進(jìn)Apriori 算法的思路; 然后融合命名實(shí)體識(shí)別實(shí)現(xiàn)了游記文本關(guān)聯(lián)知識(shí)挖掘及聚合, 構(gòu)建了基于關(guān)聯(lián)知識(shí)挖掘的個(gè)性化推薦服務(wù)模式, 并以攜程網(wǎng)中杭州相關(guān)的游記文本進(jìn)行了實(shí)證研究。[結(jié)果/ 結(jié)論] 研究發(fā)現(xiàn), 融合命名實(shí)體識(shí)別和改進(jìn)的Apriori 算法, 能夠有效挖掘游記文本蘊(yùn)含知識(shí), 實(shí)驗(yàn)結(jié)果驗(yàn)證了在算法性能及結(jié)果上要優(yōu)于傳統(tǒng)Apriori 算法, 并能夠根據(jù)挖掘結(jié)果向用戶提供個(gè)性化推薦服務(wù), 協(xié)助旅行者科學(xué)、高效地制定旅游計(jì)劃。研究結(jié)論豐富了游記文本挖掘的方法論, 為旅游平臺(tái)服務(wù)推薦優(yōu)化提供了新的思路。
關(guān)鍵詞: 知識(shí)挖掘; 關(guān)聯(lián)規(guī)則; Apriori 算法; 游記文本; 推薦服務(wù)
DOI:10.3969 / j.issn.1008-0821.2023.11.010
〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 11-0123-12
隨著移動(dòng)互聯(lián)網(wǎng)的普及, 越來越多的游客喜歡在旅游平臺(tái)上分享自己的旅游經(jīng)歷。這些記錄旅游經(jīng)歷的游記文本中蘊(yùn)含著大量有價(jià)值的信息, 包括游客的旅行目的地、旅游攻略、景點(diǎn)評(píng)價(jià)和旅行體驗(yàn)等。有效地組織和挖掘游記文本資源, 以直觀、生動(dòng)的可視化方式展示旅游事件知識(shí)單元之間的關(guān)聯(lián)與結(jié)構(gòu), 能夠?yàn)槁糜纹脚_(tái)用戶提供精準(zhǔn)化知識(shí)服務(wù), 為旅游計(jì)劃和決策制定提供幫助[1] 。然而, 隨著旅游平臺(tái)用戶數(shù)量的激增, 游記文本的數(shù)量也呈現(xiàn)指數(shù)性增長。由于游記文本主要由用戶生成, 旅游平臺(tái)缺乏有效的監(jiān)督和管理機(jī)制, 導(dǎo)致文本質(zhì)量良莠不齊, 存在冗余過載、組織無序以及用戶獲取成本高等問題。面對(duì)游記文本的爆炸性增長, 如何利用有效的工具和方法來組織和挖掘其中所蘊(yùn)含的未知的、有價(jià)值的信息和知識(shí), 為用戶提供精準(zhǔn)化知識(shí)服務(wù), 成為當(dāng)前旅游平臺(tái)亟需解決的問題之一。
游記文本的組織與挖掘研究主要涉及旅游文化元素的識(shí)別[2] 、旅游目的地形象感知[3] 、游客感知[4] 、游客行為[5] 等方面。同時(shí), 一些學(xué)者通過游記文本內(nèi)容挖掘?yàn)橛脩籼峁┩扑]服務(wù), 包括旅游路線推薦[6] 、旅游景點(diǎn)推薦[7] 和相關(guān)游記推薦[8] 等。
從游記文本挖掘技術(shù)和方法的角度來看, 學(xué)者們大多采用了文本挖掘的相關(guān)技術(shù)方法, 部分學(xué)者還結(jié)合了知識(shí)圖譜、深度學(xué)習(xí)等前沿技術(shù)。例如, 呂琳露等[9] 利用文本挖掘技術(shù)和相關(guān)方法, 實(shí)現(xiàn)了對(duì)游記文本的知識(shí)發(fā)現(xiàn)與聚合, 為用戶的旅游決策提供依據(jù); 孫文平等[10] 則基于構(gòu)建的知識(shí)圖譜, 采用頻繁序列挖掘算法為用戶推薦旅游路線; 高原等[11] 結(jié)合TF-IDF 和Word2Vec 方法進(jìn)行景點(diǎn)識(shí)別, 并基于馬爾可夫性、先驗(yàn)知識(shí)和空間特征模型實(shí)現(xiàn)了游客游覽行程的重構(gòu)。學(xué)者們應(yīng)用文本挖掘技術(shù)進(jìn)行游記文本知識(shí)挖掘技術(shù)方法中, 關(guān)聯(lián)規(guī)則挖掘是較為常用的方法。部分已有研究實(shí)現(xiàn)了從游記文本中挖掘關(guān)聯(lián)知識(shí)并為旅行者提供路線推薦、景點(diǎn)推薦、關(guān)聯(lián)知識(shí)發(fā)現(xiàn)等服務(wù)。其中, Apriori算法[12] 作為最常用的關(guān)聯(lián)規(guī)則算法之一, 已被廣泛應(yīng)用于政策文本[13] 、學(xué)術(shù)論文[14] 、用戶生成內(nèi)容[15] 等多個(gè)領(lǐng)域。然而, 由于傳統(tǒng)的Apriori 算法運(yùn)行效率較低, 部分學(xué)者采用多種方法融合對(duì)其進(jìn)行改進(jìn)關(guān)聯(lián)知識(shí)挖掘效率和性能[16-17] , 以提高算法的效率。例如, 章成志等[18] 在抽取學(xué)術(shù)論文的細(xì)粒度知識(shí)實(shí)體后, 結(jié)合Apriori 算法和復(fù)雜網(wǎng)絡(luò)分析軟件構(gòu)建了知識(shí)實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)。涂晨等[19] 基于LDA 主題模型與Apriori 算法的旅游數(shù)據(jù)挖掘,從文本中抽取相關(guān)旅游要素。
梳理已有文獻(xiàn)發(fā)現(xiàn), 學(xué)者們多應(yīng)用經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行游記文本知識(shí)挖掘, 但是在知識(shí)特征抽取上存在較大問題。而命名實(shí)體識(shí)別技術(shù)能為解決這一問題提供有效方法。命名實(shí)體識(shí)別(NamedEntity Recognition, NER), 又稱實(shí)體抽取, 是指從非結(jié)構(gòu)化的自然語言文本中識(shí)別出符合定義的實(shí)體。
該技術(shù)基于深度學(xué)習(xí)的方法更有利于自動(dòng)發(fā)現(xiàn)文本中隱藏的知識(shí)特征。此外, 借助大規(guī)模預(yù)訓(xùn)練嵌入的發(fā)展, 基于深度學(xué)習(xí)的命名實(shí)體識(shí)別模型不斷提升性能, 在醫(yī)學(xué)[20] 、數(shù)字人文[21] 、社交媒體[22] 、科技文獻(xiàn)[23] 等多個(gè)領(lǐng)域廣泛應(yīng)用, 取得了顯著的效果。游記文本數(shù)據(jù)中涵蓋了豐富的實(shí)體信息, 基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法能夠?yàn)橛斡浳谋局兄R(shí)實(shí)體信息的提取和分析提供了有效手段。游記文本大多是用戶生成的非結(jié)構(gòu)化文本。如果對(duì)游記文本進(jìn)行關(guān)聯(lián)知識(shí)挖掘, 需要先將非結(jié)構(gòu)化的游記文本轉(zhuǎn)換為結(jié)構(gòu)化的形式。通過應(yīng)用命名實(shí)體識(shí)別方法, 可以從游記文本中抽取出旅游實(shí)體, 將由用戶生成的非結(jié)構(gòu)化游記文本轉(zhuǎn)換為由旅游實(shí)體構(gòu)成的結(jié)構(gòu)化文本。此外, 已有游記文本關(guān)聯(lián)知識(shí)挖掘多基于整體的數(shù)據(jù)挖掘結(jié)果進(jìn)行推薦服務(wù), 而缺乏對(duì)細(xì)粒度屬性的挖掘。基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法能夠從游記文本中提取細(xì)粒度知識(shí)實(shí)體信息, 為后續(xù)細(xì)粒度關(guān)聯(lián)規(guī)則挖掘提供基礎(chǔ)。
鑒于此, 本研究結(jié)合旅游平臺(tái)游記文本的特點(diǎn),提出了一種融合命名實(shí)體識(shí)別和改進(jìn)Apriori 算法的游記文本關(guān)聯(lián)知識(shí)挖掘方法。首先, 通過游記文本分類實(shí)現(xiàn)對(duì)細(xì)粒度關(guān)聯(lián)知識(shí)的挖掘; 然后, 應(yīng)用命名實(shí)體識(shí)別技術(shù), 從游記文本中提取出旅游實(shí)體,將非結(jié)構(gòu)化的游記文本轉(zhuǎn)換為可用于關(guān)聯(lián)規(guī)則挖掘的結(jié)構(gòu)化數(shù)據(jù); 最后, 利用改進(jìn)的Apriori 算法挖掘游記文本中潛在的、未知的、有價(jià)值的關(guān)聯(lián)知識(shí),實(shí)現(xiàn)對(duì)知識(shí)的有效組織和利用。最終, 基于挖掘出的關(guān)聯(lián)知識(shí), 提供面向用戶需求的個(gè)性化推薦服務(wù),以協(xié)助用戶高效獲取符合需求的旅游信息和知識(shí),為用戶的旅游計(jì)劃制定和決策提供幫助。
1 研究基礎(chǔ)
1.1 Apriori 算法
Apriori 算法是關(guān)聯(lián)規(guī)則挖掘領(lǐng)域中的經(jīng)典算法,由Agrawal R 等[12] 在1993 年提出。該算法的核心思想是在給定大數(shù)據(jù)集中尋找頻繁項(xiàng)集, 并進(jìn)一步生成強(qiáng)關(guān)聯(lián)規(guī)則[24] 。Apriori 算法可分為以下3 個(gè)步驟: 首先, 基于用戶指定的最小支持度, 通過對(duì)事務(wù)集的迭代遍歷, 生成滿足最小支持度的頻繁項(xiàng)集; 其次, 根據(jù)頻繁項(xiàng)集及其支持度, 計(jì)算各個(gè)關(guān)聯(lián)規(guī)則的置信度, 從而挖掘出事務(wù)集中滿足用戶指定最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則; 最后, 通過提升度優(yōu)化生成的關(guān)聯(lián)規(guī)則。
然而, 傳統(tǒng)的Apriori 算法存在以下3 個(gè)缺點(diǎn):首先, 在計(jì)算候選項(xiàng)集的支持度時(shí)需要多次掃描數(shù)據(jù)庫, 增加了算法的時(shí)間復(fù)雜度和計(jì)算開銷; 其次,通過頻繁k-項(xiàng)集連接生成候選k+1-項(xiàng)集時(shí), 會(huì)產(chǎn)生大量的候選項(xiàng)集, 增加了算法的空間復(fù)雜度和內(nèi)存開銷; 最后, 傳統(tǒng)的Apriori 算法無法將用戶需求融入到關(guān)聯(lián)規(guī)則的生成過程中, 生成的關(guān)聯(lián)規(guī)則可能并不符合用戶的真實(shí)需求, 導(dǎo)致生成的關(guān)聯(lián)規(guī)則缺乏實(shí)際價(jià)值和意義。
1.2 BERT-BiLSTM-CRF 模型
BERT-BiLSTM-CRF 模型是一種廣泛應(yīng)用且效果良好的深度學(xué)習(xí)命名實(shí)體識(shí)別模型, 該模型由編碼層的BiLSTM 和解碼層的CRF 組成。在嵌入層方面, 采用了BERT 預(yù)訓(xùn)練語言模型作為通用的詞元嵌入。BERT-BiLSTM-CRF 模型的結(jié)構(gòu)如圖1 所示。
BERT 是由Google AI 團(tuán)隊(duì)提出的一種面向自然語言處理任務(wù)的無監(jiān)督預(yù)訓(xùn)練語言模型[25] 。該模型采用Transformer 雙向編碼器表示, 被視為預(yù)訓(xùn)練語言模型的巔峰之作。相較于之前的預(yù)訓(xùn)練模型, BERT 具備強(qiáng)大的特征提取能力和語義理解能力, 因此本文選用BERT 作為游記文本實(shí)體抽取模型的嵌入層。BiLSTM 是雙向長短期記憶網(wǎng)絡(luò), 相較于單向傳遞的LSTM 模型, 它引入了雙向信息傳遞。通過前向LSTM 和后向LSTM 從正序和倒序的角度學(xué)習(xí)文本特征[26] 。CRF 模型結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn), 是一種無向概率圖模型。LSTM 模型只能考慮句子的上下文信息, 無法考慮標(biāo)簽之間的依賴關(guān)系, 而CRF 可以通過學(xué)習(xí)標(biāo)簽之間的相鄰關(guān)系來保證標(biāo)簽的有效性[27] 。因此, 本文選擇BiLSTM 模型作為編碼層, 用于理解文本的語義和結(jié)構(gòu), 并學(xué)習(xí)出表示文本的向量。在BiLSTM 之后, 加入CRF 層作為解碼層, 用于解碼詞元的標(biāo)簽, 從而實(shí)現(xiàn)命名實(shí)體識(shí)別任務(wù)。
2 融合命名實(shí)體識(shí)別和Apriori 算法的游記文本挖掘方法及關(guān)鍵技術(shù)
本文針對(duì)在線旅游平臺(tái)的游記文本特點(diǎn), 提出了一種綜合應(yīng)用命名實(shí)體識(shí)別和改進(jìn)Apriori 算法的游記文本挖掘方法, 并基于挖掘得到的關(guān)聯(lián)知識(shí),為用戶提供個(gè)性化的推薦服務(wù)。研究思路和設(shè)計(jì)如圖2 所示。該方法涉及以下關(guān)鍵技術(shù)功能模塊: 基于標(biāo)簽的游記文本分類、基于BERT-BiLSTM-CRF模型的游記文本實(shí)體抽取、基于改進(jìn)Apriori 算法的游記文本關(guān)聯(lián)知識(shí)挖掘以及基于知識(shí)圖譜的關(guān)聯(lián)知識(shí)推薦。
2.1 基于標(biāo)簽的游記文本分類
為了實(shí)現(xiàn)細(xì)粒度的關(guān)聯(lián)知識(shí)挖掘, 對(duì)游記文本進(jìn)行分類。分類的依據(jù)是根據(jù)游記文本中所涉及的景點(diǎn), 并為其添加相應(yīng)的縣/ 區(qū)級(jí)城市行政區(qū)域標(biāo)簽。具體而言, 對(duì)于每篇游記, 如果其中提及了屬于某個(gè)行政區(qū)的旅游景點(diǎn), 就為該篇游記添加相應(yīng)的行政區(qū)標(biāo)簽。一篇游記可以擁有多個(gè)城市行政區(qū)域標(biāo)簽。標(biāo)簽添加的規(guī)則如表1 所示。在完成城市行政區(qū)標(biāo)簽的添加后, 可以根據(jù)這些城市行政區(qū)域標(biāo)簽對(duì)游記文本進(jìn)行分類。這樣的分類可以為后續(xù)的關(guān)聯(lián)知識(shí)挖掘提供更準(zhǔn)確和細(xì)致的基礎(chǔ)。
2.2 基于BERT-BiLSTM-CRF 模型的游記文本實(shí)體抽取
游記文本實(shí)體抽取的目的是提取游記文本中的旅游實(shí)體。由于目前缺乏適用于游記文本的命名實(shí)體識(shí)別數(shù)據(jù)集, 因此需要首先對(duì)游記文本進(jìn)行命名實(shí)體標(biāo)注。游記文本實(shí)體抽取的具體流程如下:
Step1: 文本分句。對(duì)預(yù)處理后的游記文本數(shù)據(jù)進(jìn)行句子級(jí)別的劃分, 這樣可以更好地訓(xùn)練命名實(shí)體識(shí)別模型。
Step2: 實(shí)體標(biāo)注。隨機(jī)選取句子進(jìn)行實(shí)體標(biāo)注, 采用BIO 方法對(duì)劃分后的句子進(jìn)行實(shí)體標(biāo)注。旅游實(shí)體的標(biāo)簽類型包括景點(diǎn)、酒店和餐飲。完成實(shí)體標(biāo)注后, 剔除不包含旅游實(shí)體的句子, 將剩余的句子作為命名實(shí)體識(shí)別模型所需的訓(xùn)練數(shù)據(jù)集。
Step3: 數(shù)據(jù)集劃分。按照6 ∶2 ∶2 的比例隨機(jī)抽取數(shù)據(jù)集中的句子, 將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。
Step4: 模型構(gòu)建。采用Python 語言基于Ten?sorFlow 框架構(gòu)建BERT-BiLSTM-CRF 模型。
Step5: 模型訓(xùn)練與測試。讀取數(shù)據(jù)集, 分別導(dǎo)入訓(xùn)練集、驗(yàn)證集和測試集, 并設(shè)置超參數(shù)進(jìn)行模型訓(xùn)練。根據(jù)測試集數(shù)據(jù), 評(píng)估模型的抽取效果, 包括準(zhǔn)確率、召回率和F1 值等指標(biāo)。
Step6: 模型調(diào)試。根據(jù)模型測試結(jié)果, 不斷調(diào)整超參數(shù)進(jìn)行訓(xùn)練, 直到模型達(dá)到最佳的測試結(jié)果。
Step7: 模型保存與預(yù)測。將表現(xiàn)最佳的模型保存后, 根據(jù)按城市行政區(qū)域標(biāo)簽分類的游記文本, 分別導(dǎo)入訓(xùn)練好的命名實(shí)體識(shí)別模型進(jìn)行預(yù)測, 根據(jù)模型預(yù)測的標(biāo)簽提取實(shí)體信息。
Step8: 實(shí)體去重。抽取的結(jié)果中, 每一行代表一篇游記中出現(xiàn)的旅游實(shí)體。由于實(shí)體在一篇游記中的重復(fù)出現(xiàn)次數(shù)不會(huì)影響Apriori 算法的結(jié)果,因此需要對(duì)每行實(shí)體數(shù)據(jù)進(jìn)行去重處理。
Step9: 實(shí)體消歧。實(shí)體消歧采用人工與程序相結(jié)合的方法。具體步驟包括編寫程序?qū)Τ槿〕龅乃形臋n中的實(shí)體進(jìn)行去重和排序, 然后通過人工篩選的方式, 為同一實(shí)體確定唯一的實(shí)體名稱。最后, 將存在歧義的實(shí)體名稱替換為唯一的實(shí)體名稱,實(shí)現(xiàn)實(shí)體的融合。
2.3 基于改進(jìn)Apriori 算法的游記文本關(guān)聯(lián)知識(shí)挖掘
2.3.1 Apriori 算法的改進(jìn)思路
針對(duì)傳統(tǒng)Apriori 算法的缺點(diǎn), 并考慮到旅游平臺(tái)中游記文本的特點(diǎn)和關(guān)聯(lián)知識(shí)挖掘的目的, 提出了以下改進(jìn)思路和方法:
1) 解決多次掃描數(shù)據(jù)庫的問題。將事務(wù)數(shù)據(jù)庫映射為布爾矩陣, 不再依賴于事務(wù)數(shù)據(jù)庫, 并對(duì)矩陣的列向量進(jìn)行求和運(yùn)算。假設(shè)求和結(jié)果為m, 如果m 小于或等于用戶給定的最小支持度, 則刪除該列。在生成頻繁k-項(xiàng)集之前, 對(duì)矩陣的行向量進(jìn)行求和運(yùn)算, 假設(shè)結(jié)果為n, 如果n 的值小于k, 則刪除該行。通過這種方式, 只需要對(duì)文本集進(jìn)行一次掃描, 就能夠降低算法的時(shí)間復(fù)雜度和計(jì)算開銷。
2) 解決產(chǎn)生大量候選項(xiàng)集的問題?;诩显?, 提出了一種正向迭代方法, 用于由頻繁k-項(xiàng)集生成候選k+1-項(xiàng)集。假設(shè)頻繁k-項(xiàng)集中包含w 個(gè)k-項(xiàng)集, 每次從這w 個(gè)k-項(xiàng)集中選擇k+1 個(gè)k-項(xiàng)集進(jìn)行合并, 如果合并后的集合是包含k +1個(gè)元素的k+1-項(xiàng)集, 則將其保留作為候選k+1-項(xiàng)集。這樣生成的候選k+1-項(xiàng)集的所有子集都是頻繁k-項(xiàng)集中的項(xiàng)集。通過利用子集組合, 能夠極大地減少候選項(xiàng)集的數(shù)量, 使得候選項(xiàng)集近似于頻繁項(xiàng)集, 從而降低了算法的空間復(fù)雜度和內(nèi)存開銷。
3) 解決可能生成無效關(guān)聯(lián)規(guī)則或用戶不感興趣關(guān)聯(lián)規(guī)則的問題。提出了一種改進(jìn)方法, 將用戶需求融入到關(guān)聯(lián)規(guī)則中。在用戶輸入需求后, 利用詞向量模型標(biāo)記出與用戶需求緊密相關(guān)的項(xiàng)在事務(wù)數(shù)據(jù)庫中的位置。在創(chuàng)建布爾矩陣的過程中, 對(duì)這些項(xiàng)進(jìn)行加權(quán)操作, 以生成融合用戶需求的個(gè)性化關(guān)聯(lián)規(guī)則。這樣可以有效地提高關(guān)聯(lián)規(guī)則的相關(guān)性和針對(duì)性, 避免生成無效或不感興趣的規(guī)則。
2.3.2 基于改進(jìn)Apriori 算法的游記文本關(guān)聯(lián)知識(shí)挖掘流程
將事務(wù)數(shù)據(jù)庫命名為“游記實(shí)體文本集”, 其中每一條事務(wù)對(duì)應(yīng)一篇游記, 而項(xiàng)則對(duì)應(yīng)游記文本中的實(shí)體?;诟倪M(jìn)的Apriori 算法的游記文本關(guān)聯(lián)知識(shí)挖掘流程如下:
Step1: 融合用戶需求。根據(jù)用戶需求, 利用詞向量模型計(jì)算與用戶需求相近的項(xiàng), 并對(duì)相關(guān)項(xiàng)進(jìn)行標(biāo)記。
Step2: 構(gòu)建布爾矩陣M。將游記實(shí)體文本集映射成為布爾矩陣M(m?n), 其中行對(duì)應(yīng)游記文本, 列表示在游記中出現(xiàn)的實(shí)體。矩陣的行數(shù)m表示游記的數(shù)量, 矩陣的列數(shù)n 表示文本中實(shí)體的數(shù)量。對(duì)于矩陣M, 當(dāng)M[i,j] =1 時(shí)表示第i 篇游記文本中出現(xiàn)第j 個(gè)實(shí)體, 而M[i,j] =0 則表示該實(shí)體未出現(xiàn)。同時(shí), 對(duì)標(biāo)記的項(xiàng)進(jìn)行加權(quán), 加權(quán)值與事務(wù)總數(shù)的比值要大于用戶給定的最小支持度。
Step3: 生成頻繁1-項(xiàng)集L1。對(duì)布爾矩陣M 按列求和, 當(dāng)某一列的和大于或等于用戶給定的最小支持度時(shí), 將對(duì)應(yīng)的項(xiàng)加入頻繁1-項(xiàng)集, 并在M中刪除非頻繁的項(xiàng)(即刪除對(duì)應(yīng)的列)。然后, 對(duì)布爾矩陣按行求和, 當(dāng)總數(shù)小于或等于1 時(shí), 刪除該行, 并形成新的布爾矩陣M1。
Step4: 生成頻繁k-項(xiàng)集Lk 。利用前述迭代方法, 基于頻繁項(xiàng)集Lk-1 生成候選k-項(xiàng)集Ck 。在布爾矩陣Mk-1中, 對(duì)Ck 中的每個(gè)k-項(xiàng)集進(jìn)行列求和運(yùn)算, 若某個(gè)k-項(xiàng)集對(duì)應(yīng)的列求和值大于或等于用戶給定的最小支持度, 則該k-項(xiàng)集為頻繁k-項(xiàng)集。對(duì)于布爾矩陣Mk-1 的每一行, 進(jìn)行行求和運(yùn)算, 若總數(shù)小于k, 則刪除該行, 形成新的布爾矩陣Mk 。重復(fù)迭代過程, 直到C(k+1)= ? 時(shí)結(jié)束。
Step5: 生成關(guān)聯(lián)規(guī)則。根據(jù)頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則。在頻繁項(xiàng)集中, 按照逐個(gè)增加元素的方式進(jìn)行分堆排列, 生成前件和后件的組合規(guī)則。然后,計(jì)算每個(gè)規(guī)則的置信度和提升度。
Step6: 生成符合用戶需求且有價(jià)值的關(guān)聯(lián)規(guī)則。根據(jù)關(guān)聯(lián)規(guī)則的置信度, 篩選出大于或等于用戶給定的最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則?;趶?qiáng)關(guān)聯(lián)規(guī)則的提升度和用戶需求, 獲得符合用戶需求且具有價(jià)值的關(guān)聯(lián)規(guī)則。
2.4 基于知識(shí)圖譜的關(guān)聯(lián)知識(shí)推薦服務(wù)
該技術(shù)功能模塊主要是對(duì)關(guān)聯(lián)知識(shí)挖掘生成的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則進(jìn)行分析, 旨在尋找每個(gè)行政區(qū)的熱門旅游實(shí)體及它們之間的關(guān)聯(lián), 并將分析結(jié)果導(dǎo)入Neo4j 圖數(shù)據(jù)庫以構(gòu)建知識(shí)圖譜。以知識(shí)圖譜可視化形式向用戶展現(xiàn), 實(shí)現(xiàn)面向用戶需求的關(guān)聯(lián)知識(shí)推薦服務(wù)。具體步驟如下:
Step1: 頻繁項(xiàng)集數(shù)據(jù)分析。基于頻繁項(xiàng)集數(shù)據(jù), 識(shí)別每個(gè)行政區(qū)的熱門景點(diǎn)、酒店和餐飲。針對(duì)景點(diǎn)和餐飲進(jìn)行細(xì)分, 篩選出景區(qū)、演出、游玩項(xiàng)目、餐廳和美食等相關(guān)實(shí)體。
Step2: 實(shí)體層級(jí)關(guān)系構(gòu)建。建立上述實(shí)體之間的層級(jí)關(guān)系, 其中最高層級(jí)為景區(qū), 其次為景點(diǎn)、餐廳、酒店、演出和游玩項(xiàng)目, 最底層級(jí)為美食。
Step3: 關(guān)聯(lián)規(guī)則數(shù)據(jù)分析。按照關(guān)聯(lián)規(guī)則提升度排序, 依照實(shí)體層級(jí)從高到低的順序, 逐個(gè)檢索高層級(jí)實(shí)體作為前項(xiàng)的關(guān)聯(lián)規(guī)則。對(duì)找到的關(guān)聯(lián)規(guī)則進(jìn)行分析, 如果規(guī)則的后項(xiàng)包含低于該實(shí)體層級(jí)的實(shí)體, 則為高層級(jí)實(shí)體分別建立指向底層級(jí)實(shí)體的關(guān)系。為保持知識(shí)圖譜的清晰、直觀, 同一層級(jí)的實(shí)體不再構(gòu)建關(guān)系。
Step4: 構(gòu)建三元組。完善關(guān)聯(lián)規(guī)則數(shù)據(jù)分析后的實(shí)體關(guān)系, 根據(jù)實(shí)體類型建立關(guān)聯(lián)關(guān)系, 如推薦景點(diǎn)、推薦住宿、推薦餐廳等。完成實(shí)體關(guān)系構(gòu)建后, 形成“實(shí)體, 關(guān)系, 實(shí)體” 的三元組, 并通過在線旅游平臺(tái)的相關(guān)信息完善三元組的內(nèi)容。
Step5: 導(dǎo)入Neo4j 圖數(shù)據(jù)庫。利用Python 編程語言編寫程序, 將三元組數(shù)據(jù)導(dǎo)入Neo4j 圖數(shù)據(jù)庫, 構(gòu)建基于關(guān)聯(lián)知識(shí)挖掘結(jié)果的旅游推薦知識(shí)圖譜。通過該圖譜, 能夠幫助用戶制定旅游計(jì)劃并輔助用戶做出旅行決策。
3 實(shí)證研究
本文選擇攜程網(wǎng)中與杭州市相關(guān)的游記數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù), 以驗(yàn)證本文提出的融合命名實(shí)體識(shí)別和改進(jìn)Apriori 算法的游記關(guān)聯(lián)知識(shí)挖掘方法的有效性和科學(xué)性。相較于其他在線旅游平臺(tái), 攜程網(wǎng)的游記數(shù)據(jù)數(shù)量更多, 內(nèi)容更為豐富且質(zhì)量更高。同時(shí), 杭州作為熱門旅游城市, 擁有眾多景點(diǎn)和豐富的文化歷史, 吸引了大量游客前往, 因此關(guān)于杭州旅游的游記數(shù)量也相當(dāng)豐富?;谝陨峡紤], 本文選擇了攜程網(wǎng)上與杭州市相關(guān)的游記作為研究對(duì)象。
3.1 游記文本數(shù)據(jù)采集和預(yù)處理
使用Python 語言編寫的爬蟲程序, 用于從攜程網(wǎng)上獲取與杭州市相關(guān)的游記文本。爬取內(nèi)容包括城市行政區(qū)域標(biāo)簽和游記正文內(nèi)容, 共獲取了3 293篇游記。首先, 根據(jù)城市行政區(qū)域標(biāo)簽, 篩除與杭州無關(guān)的游記文本, 并刪除游記內(nèi)容為空或重復(fù)的數(shù)據(jù), 最終得到2 634篇游記。對(duì)剩余游記正文內(nèi)容中的繁體字進(jìn)行轉(zhuǎn)換, 統(tǒng)一轉(zhuǎn)為簡體字。接下來, 根據(jù)表1 中的城市行政區(qū)域標(biāo)簽添加規(guī)則, 為每篇游記添加縣/ 區(qū)級(jí)城市行政區(qū)域標(biāo)簽。在添加城市行政區(qū)域標(biāo)簽的過程中, 遇到同一景區(qū)屬于兩個(gè)行政區(qū)的情況, 根據(jù)游記中出現(xiàn)的屬于該景區(qū)的景點(diǎn)來判斷城市行政區(qū)域標(biāo)簽的歸屬。例如, 當(dāng)某篇游記提到西溪時(shí), 如果游記中出現(xiàn)的景點(diǎn)都屬于東區(qū), 那么就給這篇游記添加西湖區(qū)的標(biāo)簽; 如果出現(xiàn)的景點(diǎn)是洪園或其他屬于西區(qū)的景點(diǎn), 那么就添加余杭區(qū)的標(biāo)簽。添加完城市行政區(qū)域標(biāo)簽后, 根據(jù)標(biāo)簽對(duì)游記文本進(jìn)行分類, 分類結(jié)果如表2 所示。
3.2 游記文本實(shí)體抽取
3.2.1 游記文本實(shí)體標(biāo)注
將經(jīng)過預(yù)處理的2 634篇游記正文數(shù)據(jù)進(jìn)行分句處理, 得到114 853個(gè)句子。從中隨機(jī)抽取50%的句子進(jìn)行實(shí)體標(biāo)注。采用BIO 標(biāo)記方法對(duì)旅游實(shí)體進(jìn)行標(biāo)注, 標(biāo)注的實(shí)體類型包括景點(diǎn)、酒店和餐飲。為了方便標(biāo)注和提高實(shí)體抽取效果, 將景區(qū)、景區(qū)演出和景區(qū)的游玩項(xiàng)目等統(tǒng)一標(biāo)記為景點(diǎn)。實(shí)體標(biāo)注示例如圖3 所示, 其中S 表示景點(diǎn), H 表示酒店, C 表示餐飲。完成標(biāo)注后, 共有33 645個(gè)句子含有實(shí)體標(biāo)注。
3.2.2 BERT-BiLSTM-CRF 模型訓(xùn)練
從包含實(shí)體標(biāo)注的33 645個(gè)句子中, 隨機(jī)選擇20%作為測試集, 再從剩余的數(shù)據(jù)中同樣隨機(jī)選擇20%作為驗(yàn)證集, 剩下的數(shù)據(jù)用作訓(xùn)練集。針對(duì)BERT-BiLSTM-CRF 模型的配置方面, BERT 模型使用了Google 訓(xùn)練好的模型, 并在此基礎(chǔ)上進(jìn)行了微調(diào)。具體的模型參數(shù)設(shè)置如下: LSTM 隱藏層神經(jīng)元數(shù)量為256, 批量大?。ǎ拢幔簦悖瑁撸螅椋澹椋保玻福蛄虚L度(Sequence_length)為512, 學(xué)習(xí)率(Learn?ing Rate)為0 001, 訓(xùn)練輪數(shù)(Epochs)為40。將經(jīng)過劃分的數(shù)據(jù)集輸入模型進(jìn)行訓(xùn)練, 并經(jīng)過多次調(diào)試得到了最終的模型結(jié)果, 如表3 所示。
為了獲得最佳的游記文本實(shí)體抽取模型, 本文對(duì)比了BERT-BiLSTM-CRF 命名實(shí)體識(shí)別模型與其他模型在游記文本實(shí)體抽取任務(wù)上的性能, 具體的比較結(jié)果如表4 所示。
從表3 可以看出, 盡管在餐飲實(shí)體識(shí)別方面,該模型的準(zhǔn)確率相對(duì)較低, 然而在游記文本中, 景點(diǎn)實(shí)體是數(shù)量最多的實(shí)體類型, 該模型對(duì)于景點(diǎn)的識(shí)別準(zhǔn)確率高達(dá)92 2%。根據(jù)表4 中不同實(shí)體抽取模型的效果對(duì)比, 雖然BERT-BiLSTM-CRF 方法在準(zhǔn)確率上不如BERT-BiLSTM, 召回率上不如Word2vec-BiLSTM-CRF, 但是性能相差不是很大。BERT-BiLSTM-CRF 的命名實(shí)體識(shí)別模型在F1-score 值上偏大, 整體上取得了顯著的效果。因此,可以將該模型應(yīng)用于游記文本中的實(shí)體抽取任務(wù)。
3.2.3 游記文本實(shí)體抽取結(jié)果及對(duì)比分析
將分類好的游記文本輸入訓(xùn)練完畢的BERTBiLSTM-CRF 模型進(jìn)行實(shí)體預(yù)測, 并保存預(yù)測結(jié)果。在實(shí)體抽取后, 對(duì)所有文檔中的實(shí)體進(jìn)行實(shí)體消歧, 最終發(fā)現(xiàn)了377 個(gè)存在歧義的實(shí)體, 并對(duì)所有文檔中存在歧義的實(shí)體進(jìn)行了替換。經(jīng)過實(shí)體融合后, 模型最終識(shí)別出了2 142個(gè)實(shí)體, 其中包括1 018個(gè)景點(diǎn)實(shí)體、418 個(gè)酒店實(shí)體和706 個(gè)餐飲實(shí)體。游記文本實(shí)體抽取的示例數(shù)據(jù)如圖4 所示。
為了驗(yàn)證融合命名實(shí)體識(shí)別方法進(jìn)行關(guān)聯(lián)規(guī)則挖掘的有效性和科學(xué)性, 本研究從隨機(jī)選取的部分游記文本數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù), 并與其他方法進(jìn)行對(duì)比。對(duì)比實(shí)驗(yàn)結(jié)果如表5 所示。根據(jù)表5 所示的對(duì)比試驗(yàn)結(jié)果可以發(fā)現(xiàn), 基于深度學(xué)習(xí)模型的命名實(shí)體識(shí)別方法在抽取旅游實(shí)體進(jìn)行關(guān)聯(lián)知識(shí)挖掘方面表現(xiàn)出更強(qiáng)的有效性和科學(xué)性。
3.3 游記文本關(guān)聯(lián)知識(shí)挖掘
將13 個(gè)行政區(qū)生成的實(shí)體抽取數(shù)據(jù)分別導(dǎo)入改進(jìn)的Apriori 算法進(jìn)行關(guān)聯(lián)分析, 考慮到不同行政區(qū)的游記數(shù)量差異較大, 根據(jù)每個(gè)行政區(qū)的實(shí)際情況來調(diào)整最小支持度和最小置信度的閾值。為了確保生成關(guān)聯(lián)規(guī)則的效果, 設(shè)置提升度閾值為1.2。經(jīng)過多次調(diào)試, 基于“行政區(qū)” 標(biāo)簽分類的游記文本共挖掘出1 932個(gè)頻繁項(xiàng)集, 4 168條關(guān)聯(lián)規(guī)則,各行政區(qū)游記文本關(guān)聯(lián)知識(shí)挖掘的閾值設(shè)置和結(jié)果統(tǒng)計(jì)如表6 所示。
對(duì)于每個(gè)行政區(qū)的實(shí)體抽取數(shù)據(jù), 采用改進(jìn)后的Apriori 算法進(jìn)行關(guān)聯(lián)分析, 得到對(duì)應(yīng)每個(gè)行政區(qū)的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則文檔。在頻繁項(xiàng)集結(jié)果文檔中, 按照支持度的大小進(jìn)行排序, 而在關(guān)聯(lián)規(guī)則結(jié)果文檔中, 按照提升度的大小進(jìn)行排序。這樣的排序方式能夠使得結(jié)果更加清晰、有序。
3.4 面向用戶需求的關(guān)聯(lián)知識(shí)推薦服務(wù)
根據(jù)第2.4 節(jié)所描述的旅游推薦知識(shí)圖譜構(gòu)建步驟, 構(gòu)建了涵蓋杭州市各個(gè)行政區(qū)劃的旅游推薦知識(shí)圖譜。在13 個(gè)行政區(qū)共挖掘出熱門景區(qū)79 個(gè)、酒店28 家、餐廳27 家、美食31 種和7 場演出以及1 個(gè)游玩項(xiàng)目, 其中79 個(gè)景區(qū)中包含125 個(gè)熱門景點(diǎn)。通過分析確定了6 種實(shí)體類型、6 種關(guān)系和7 種實(shí)體關(guān)系組合方式。為了完善圖譜中相關(guān)旅游實(shí)體的信息, 利用了攜程網(wǎng)提供的數(shù)據(jù), 并將行政區(qū)和旅游城市作為圖譜中的節(jié)點(diǎn), 同時(shí)為它們建立相應(yīng)的關(guān)系。最終, 不同實(shí)體類型之間關(guān)系的三元組表示如表7 所示。
將經(jīng)過完善的三元組數(shù)據(jù)導(dǎo)入Neo4j 圖數(shù)據(jù)庫, 構(gòu)建基于關(guān)聯(lián)知識(shí)挖掘結(jié)果的旅游推薦知識(shí)圖譜。由于篇幅限制, 選取淳安縣的旅游推薦知識(shí)圖譜進(jìn)行可視化展示, 如圖5 所示。
通過旅游推薦知識(shí)圖譜, 用戶可以獲得基于行政區(qū)劃的精細(xì)推薦。用戶可以選擇一個(gè)或多個(gè)行政區(qū)作為旅游目的地, 然后查看相應(yīng)行政區(qū)的推薦景區(qū), 并瀏覽與目標(biāo)景區(qū)相關(guān)的景點(diǎn)、住宿、餐飲等信息。以淳安縣為例, 用戶可以先查看淳安縣推薦的景區(qū), 如圖6 所示。
根據(jù)圖6 可以看到, 淳安縣推薦了5 個(gè)景區(qū)。假設(shè)用戶計(jì)劃前往千島湖國家森林公園游玩, 并想了解該景區(qū)的景點(diǎn)、住宿和餐廳推薦, 用戶可以在游記文本關(guān)聯(lián)知識(shí)圖譜中查詢相關(guān)信息, 如圖7 所示。在圖7 中, 藍(lán)色節(jié)點(diǎn)代表景點(diǎn), 黃色節(jié)點(diǎn)代表酒店, 綠色節(jié)點(diǎn)代表餐廳, 橙色節(jié)點(diǎn)代表演出。通過圖7, 用戶可以獲取該景區(qū)的熱門景點(diǎn)、酒店和餐廳等信息, 為用戶的旅游規(guī)劃和決策提供參考。
用戶還可以繼續(xù)查詢美食推薦。例如, 假設(shè)用戶決定在“好東家” 餐廳就餐, 可以查看該餐廳的美食推薦, 如圖8 所示。在圖8 中, “好東家”餐廳共推薦了5 種美食。用戶可以根據(jù)自身喜好選擇相應(yīng)的美食來品嘗。
通過旅游推薦知識(shí)圖譜, 能夠幫助用戶獲得準(zhǔn)確、個(gè)性化的旅游推薦信息, 協(xié)助用戶高效、便捷地制定旅游規(guī)劃, 為其旅行帶來更好的體驗(yàn)。
4 結(jié) 語
本文旨在挖掘旅游平臺(tái)游記文本所蘊(yùn)含的信息和知識(shí), 以協(xié)助用戶高效獲取符合需求的知識(shí), 并為旅行者在制定旅游計(jì)劃時(shí)提供科學(xué)、可供決策的信息。為了提供更好的個(gè)性化服務(wù), 本文提出了面向用戶需求的融合命名實(shí)體識(shí)別和改進(jìn)Apriori 算法的游記文本關(guān)聯(lián)知識(shí)挖掘方法, 并以此設(shè)計(jì)了基于知識(shí)圖譜的知識(shí)推薦服務(wù)應(yīng)用模式。研究采用攜程網(wǎng)旅游平臺(tái)中與杭州市相關(guān)的游記文本作為數(shù)據(jù)來源進(jìn)行了應(yīng)用研究。實(shí)驗(yàn)結(jié)果表明, 融合用戶需求改進(jìn)的Apriori 算法能夠有效挖掘游記文本蘊(yùn)含的知識(shí), 在算法性能和挖掘結(jié)果方面優(yōu)于傳統(tǒng)Apri?ori 算法。這些挖掘結(jié)果和關(guān)聯(lián)知識(shí)規(guī)則具有一定的實(shí)踐價(jià)值和意義, 能夠向用戶提供個(gè)性化細(xì)粒度的推薦服務(wù), 協(xié)助旅行者科學(xué)高效地制定旅游計(jì)劃。本文的研究結(jié)論對(duì)旅游者、在線旅游平臺(tái)和目的地具有以下的創(chuàng)新服務(wù)應(yīng)用啟示:
1) 面向旅游者方面。旅游者通過查看旅游目的地的關(guān)聯(lián)知識(shí)推薦結(jié)果, 能夠快速獲取旅游目的地的景點(diǎn)、住宿、飲食等推薦信息, 從而更加迅速、直觀地制定旅游計(jì)劃。例如, 當(dāng)旅游者的目的地是千島湖時(shí), 只需查看淳安縣的關(guān)聯(lián)知識(shí)推薦, 就能獲取千島湖的熱門旅游景點(diǎn)推薦, 如“好東家” “淳圓外”, 以及必須品嘗的千島湖魚頭等美食推薦。此外, 關(guān)聯(lián)規(guī)則的置信度或提升度閾值也能輔助旅游者做出更明智的旅游決策。例如, 在選擇千島湖魚頭餐廳時(shí), 旅游者可以比較“好東家” 和“淳圓外” 兩家熱門餐廳之間的關(guān)聯(lián)規(guī)則“千島湖魚頭?好東家” 和“千島湖魚頭?淳圓外” 的置信度或提升度值, 從而做出更明智的旅游決策。因此, 本研究的結(jié)果為旅游者提供了有價(jià)值的服務(wù)應(yīng)用。旅游者能夠通過關(guān)聯(lián)知識(shí)推薦系統(tǒng)高效獲取個(gè)性化的旅游信息, 并借助關(guān)聯(lián)規(guī)則的支持作出理性決策。
2) 面向在線旅游平臺(tái)。針對(duì)當(dāng)前在線旅游平臺(tái)游記文本數(shù)量呈現(xiàn)指數(shù)性增長, 因游記文本缺乏有效的監(jiān)督管理, 質(zhì)量良莠不齊, 從而產(chǎn)生了冗余過載、組織無序、用戶獲取成本高等問題。本文提出的關(guān)聯(lián)知識(shí)挖掘方法能夠挖掘出游記數(shù)據(jù)中的關(guān)聯(lián)知識(shí), 提升旅游平臺(tái)知識(shí)組織與挖掘技術(shù)能力,優(yōu)化平臺(tái)產(chǎn)品, 提升平臺(tái)服務(wù), 進(jìn)而提高用戶滿意度, 推動(dòng)平臺(tái)持續(xù)向前發(fā)展。
首先, 通過應(yīng)用關(guān)聯(lián)規(guī)則挖掘游記文本, 旅游平臺(tái)可以實(shí)現(xiàn)知識(shí)組織與挖掘的目的。關(guān)聯(lián)知識(shí)挖掘技術(shù)可以揭示游記數(shù)據(jù)中的關(guān)聯(lián)知識(shí), 從而為用戶提供一體化的關(guān)聯(lián)知識(shí)推薦服務(wù)。通過分析生成的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則, 平臺(tái)可以了解旅游景點(diǎn)、酒店、餐廳、美食等之間的關(guān)聯(lián)關(guān)系, 提供用戶關(guān)聯(lián)知識(shí)推薦服務(wù)。同時(shí), 通過利用游記文本分類進(jìn)行關(guān)聯(lián)知識(shí)挖掘, 還能夠?qū)崿F(xiàn)更細(xì)粒度的熱門關(guān)聯(lián)知識(shí)推薦, 為用戶提供更精準(zhǔn)的知識(shí)推薦服務(wù)。此外, 本研究提出的游記文本關(guān)聯(lián)知識(shí)挖掘方法還可以反向應(yīng)用于游記文本的組織。平臺(tái)可以根據(jù)挖掘出的頻繁項(xiàng)集匹配相關(guān)游記, 并利用文本相似度計(jì)算來判斷游記文本的相似性。通過處理相似度過高的游記, 平臺(tái)可以減少冗余數(shù)據(jù), 降低運(yùn)營成本。對(duì)于內(nèi)容相似但不完全相同的游記, 平臺(tái)還可以推薦相似游記, 為用戶提供更多選擇。以西湖區(qū)的游記數(shù)據(jù)為例, 在實(shí)驗(yàn)數(shù)據(jù)中, 共有1 115篇游記,其中一個(gè)頻繁6-項(xiàng)集的支持度為0 0452, 因此在西湖區(qū)的游記中就有50 篇游記的數(shù)據(jù)包含6 個(gè)同樣的旅游實(shí)體, 進(jìn)而平臺(tái)可以計(jì)算這50 篇游記的相似度, 去除冗余游記或生成相似游記推薦。
其次, 旅游平臺(tái)可以利用游記文本關(guān)聯(lián)知識(shí)挖掘的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則, 優(yōu)化和開發(fā)旅游產(chǎn)品?;陉P(guān)聯(lián)規(guī)則的原理, 關(guān)聯(lián)知識(shí)挖掘結(jié)果中的景點(diǎn)、酒店、餐廳和飲食等具有一定的熱度。因此, 基于這些關(guān)聯(lián)知識(shí)挖掘結(jié)果開發(fā)的旅游產(chǎn)品能夠滿足大多數(shù)用戶的需求。平臺(tái)可以通過分析關(guān)聯(lián)知識(shí)挖掘結(jié)果, 找出現(xiàn)有旅游產(chǎn)品的不足之處, 并改進(jìn)提升其競爭力。此外, 平臺(tái)還可以利用關(guān)聯(lián)知識(shí)挖掘結(jié)果開發(fā)新的旅游產(chǎn)品。例如: 在蕭山區(qū)旅游產(chǎn)品開發(fā)中, 平臺(tái)可以基于關(guān)聯(lián)規(guī)則{湘湖國家旅游度假區(qū)}?{云曼溫泉, 第一世界大酒店, 爛蘋果樂園, 泰香閣, 杭州樂園}, 構(gòu)建包含湘湖、杭州樂園、第一世界大酒店等熱門景點(diǎn)推薦的旅游產(chǎn)品??紤]到不同類型的用戶有不同的旅游需求, 平臺(tái)還可以采用其他的游記分類方法, 滿足用戶多樣化的需求。例如, 基于出行伴侶的游記文本分類, 平臺(tái)可以為親子、情侶、父母等不同類型的旅行伴侶打造旅游產(chǎn)品。
第三, 基于游記文本關(guān)聯(lián)知識(shí)挖掘結(jié)果, 旅游平臺(tái)可以提升服務(wù)質(zhì)量和水平, 主要體現(xiàn)在關(guān)聯(lián)知識(shí)智能問答、關(guān)鍵詞檢索推薦和關(guān)聯(lián)知識(shí)主動(dòng)推送等方面。首先, 平臺(tái)可以在城市旅游主頁上展示游記文本挖掘出的一體化關(guān)聯(lián)知識(shí)。相較于簡單羅列的展示方式, 基于知識(shí)圖譜的可視化展示能夠更加清晰、明了地呈現(xiàn)關(guān)聯(lián)知識(shí)。因此, 旅游平臺(tái)可以在各個(gè)旅游城市主頁增加一個(gè)關(guān)聯(lián)知識(shí)模塊, 并利用知識(shí)圖譜進(jìn)行關(guān)聯(lián)知識(shí)的可視化呈現(xiàn), 以便用戶瀏覽和獲取旅游知識(shí)。其次, 在關(guān)鍵詞檢索推薦方面, 旅游平臺(tái)可以根據(jù)用戶輸入的檢索詞, 推薦與該檢索詞相關(guān)聯(lián)的旅游實(shí)體作為關(guān)鍵詞。例如, 當(dāng)用戶輸入“千島湖” 作為檢索詞時(shí), 可以將“啤酒小鎮(zhèn)” “千島湖魚頭” “好東家” “開元度假村”等與千島湖相關(guān)聯(lián)的旅游實(shí)體作為檢索推薦, 從而提升用戶的檢索體驗(yàn)。最后, 在關(guān)聯(lián)知識(shí)主動(dòng)推送方面, 平臺(tái)可以根據(jù)用戶最近一段時(shí)間內(nèi)的行為,預(yù)測用戶的旅行目的地, 并將該目的地的關(guān)聯(lián)知識(shí)主動(dòng)推送給用戶。例如, 如果用戶最近一段時(shí)間內(nèi)瀏覽了大量與桐廬旅游相關(guān)的信息, 平臺(tái)可以推測用戶可能有去桐廬旅游的意向, 隨后主動(dòng)將基于桐廬游記挖掘出的關(guān)聯(lián)知識(shí)推薦給用戶, 以提升用戶對(duì)平臺(tái)的滿意度。
3) 面向旅游目的地方面。關(guān)聯(lián)知識(shí)挖掘應(yīng)用能夠提升目的地旅游服務(wù)水平, 促進(jìn)目的地形象管理與維護(hù), 并推動(dòng)目的地旅游業(yè)的持續(xù)健康發(fā)展。具體可以通過以下幾種方式實(shí)現(xiàn): 首先, 應(yīng)用關(guān)聯(lián)知識(shí)挖掘目的地城市的相關(guān)游記, 可以挖掘出目的地的熱門景點(diǎn)、酒店、餐廳以及美食等信息, 發(fā)現(xiàn)目的地旅游的關(guān)聯(lián)知識(shí)。通過對(duì)這些關(guān)聯(lián)知識(shí)的分析, 旅游目的地城市可以制定城市熱門旅游路線,為游客提供城市熱門旅游規(guī)劃, 并完善熱門旅游景點(diǎn)之間的公共交通等方式來提升自身的服務(wù)水平和能力。其次, 熱門景點(diǎn)、酒店、餐廳等場所通常是外來游客到訪最頻繁的地方, 它們的設(shè)備設(shè)施、工作人員態(tài)度以及提供的服務(wù)或產(chǎn)品質(zhì)量都對(duì)城市形象產(chǎn)生重要影響。因此, 目的地城市有必要加強(qiáng)對(duì)這些熱門場所設(shè)備設(shè)施的建設(shè)與維護(hù), 加強(qiáng)對(duì)工作人員的培訓(xùn), 并加強(qiáng)對(duì)酒店和餐廳等場所的監(jiān)督與管理。目的地城市應(yīng)積極主動(dòng)地發(fā)現(xiàn)并解決這些熱門場所中潛在的問題, 以避免負(fù)面輿論事件的發(fā)生,從而促進(jìn)目的地形象的管理與維護(hù)。最后, 旅游目的地城市可以基于關(guān)聯(lián)知識(shí)挖掘推動(dòng)旅游業(yè)的持續(xù)健康發(fā)展。例如, 可以通過多媒體渠道積極宣傳目的地的熱門景點(diǎn), 提升城市的知名度; 挖掘熱門景點(diǎn)之間共同的旅游特色, 發(fā)展自身的旅游特色, 打造城市的旅游名片; 同時(shí), 分析熱門景點(diǎn)、酒店、餐廳等之間關(guān)聯(lián)關(guān)系產(chǎn)生的原因, 尋求有利于促進(jìn)城市旅游業(yè)建設(shè)發(fā)展的經(jīng)驗(yàn)與規(guī)律, 為非熱門景區(qū)的建設(shè)提供參考等。
然而, 本研究還存在著一定的不足。在實(shí)證研究中, 本文僅選取了攜程網(wǎng)作為單一旅游平臺(tái), 并僅針對(duì)一個(gè)城市的數(shù)據(jù)進(jìn)行了分析, 因此數(shù)據(jù)規(guī)模相對(duì)較小。下一步, 筆者將擴(kuò)大數(shù)據(jù)規(guī)模, 進(jìn)行多城市、跨平臺(tái)的多模態(tài)數(shù)據(jù)融合的關(guān)聯(lián)知識(shí)挖掘,以期為用戶提供更廣泛和智能化的知識(shí)服務(wù)。
參考文獻(xiàn)
[1] 鄧君, 彭珺, 孫紹丹, 等. 基于事理圖譜的游記文本知識(shí)發(fā)現(xiàn)———
以康養(yǎng)旅游為例[J]. 現(xiàn)代情報(bào), 2022, 42 (7): 105-113.
[2] 柯健, 華哲銘, 許鑫. 基于網(wǎng)絡(luò)游記挖掘的城市旅游文化元素識(shí)
別———以上海為例[J]. 資源科學(xué), 2022, 44 (1): 127-142.
[3] Li R L, Wang H J, Zhang H. Chinese Tourists Perception of the
Tourism Image of North Korea Based on Text Data from Tourism
Websites [J]. Sustainability, 2021, 13 (21): 12205.
[4] 吳林芝, 周春林, 黃子璇, 等. 網(wǎng)絡(luò)語境下官方目的地宣傳形
象與游客感知形象的差異———以南京市為例[ J]. 地域研究
與開發(fā), 2018, 37 (3): 90-94, 100.
[5] 吳恒, 陳燕翎. 基于UGC 文本挖掘的游客目的地選擇信息研
究———以攜程蜜月游記為例[J]. 情報(bào)科學(xué), 2017, 35 (1):
101-105.
[6] Du S Y, Zhang H, Xu H L, et al. To Make the Travel Healthier:
a New Tourism Personalized Route Recommendation Algorithm [J].
Journal of Ambient Intelligence and Humanized Computing, 2019,
10 (9): 3551-3562.
[7] 呂琳露, 李亞婷. 基于游記主題挖掘與表達(dá)的旅游信息推薦研
究[J]. 現(xiàn)代情報(bào), 2017, 37 (6): 61-67.
[8] 高佳美. 基于文本挖掘的旅游文記個(gè)性化推薦技術(shù)的研究與實(shí)
現(xiàn)[D]. 沈陽: 遼寧大學(xué), 2017.
[9] 呂琳露, 李亞婷. 游記文本中的知識(shí)發(fā)現(xiàn)與聚合———以螞蜂窩
旅行網(wǎng)杭州游記為例[ J]. 情報(bào)雜志, 2017, 36 ( 7): 176-
181, 110.
[10] 孫文平, 常亮, 賓辰忠, 等. 基于知識(shí)圖譜和頻繁序列挖掘
的旅游路線推薦[J]. 計(jì)算機(jī)科學(xué), 2019, 46 (2): 56-61.
[11] 高原, 施元磊, 張蕾, 等. 基于游記文本的游客游覽行程重
構(gòu)[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2020, 4 (Z1): 165-172.
[12] Agrawal R, Imieliński T, Swami A. Mining Association Rules
Between Sets of Items in Large Databases [C] / / Acm Sigmod Re?
cord. ACM, 1993, 22 (2): 207-216.
[13] 馬海群, 劉興麗, 韓娜. 基于關(guān)聯(lián)規(guī)則的開放政府?dāng)?shù)據(jù)主題多
政策協(xié)同性研究[J]. 情報(bào)科學(xué), 2022, 40 (4): 3-8, 17.
[14] 溫芳芳, 鄭詩嘉. 基于關(guān)聯(lián)規(guī)則挖掘的多學(xué)科知識(shí)融合研究———
以新冠肺炎研究領(lǐng)域?yàn)槔郏剩荩?現(xiàn)代情報(bào), 2023, 43 (3): 148-
156.
[15] 吳鵬, 詩童, 凌晨. 基于微博平臺(tái)的新冠疫苗主題發(fā)現(xiàn)研究
[J]. 情報(bào)科學(xué), 2022, 40 (7): 12-18, 26.
[16] 李昌兵, 龐崇鵬, 凌永亮, 等. 基于改進(jìn)特征提取及聚類的
網(wǎng)絡(luò)評(píng)論挖掘研究[J]. 現(xiàn)代情報(bào), 2018, 38 (2): 68-74.
[17] 王倬, 李丹. 基于大數(shù)據(jù)的關(guān)聯(lián)規(guī)則Apriori 算法的研究與改
進(jìn)[J]. 圖書情報(bào)工作, 2016, 60 (S2): 127-130, 142.
[18] 章成志, 謝雨欣, 宋云天. 學(xué)術(shù)文本中細(xì)粒度知識(shí)實(shí)體的關(guān)
聯(lián)分析[J]. 圖書館論壇, 2021, 41 (3): 12-20.
[19] 涂晨, 李鑫, 葉程軼. 基于LDA 主題模型與Apriori 算法的旅
游數(shù)據(jù)挖掘[J]. 物聯(lián)網(wǎng)技術(shù), 2023, 13 (3): 108-112.
[20] 琚沅紅, 牟冬梅, 王書童, 等. 少樣本高質(zhì)量醫(yī)學(xué)知識(shí)的命名
實(shí)體識(shí)別研究———以肺癌診療規(guī)范為例[J]. 現(xiàn)代情報(bào), 2023,
43 (2): 9-19.
[21] 林立濤, 王東波, 劉江峰, 等. 數(shù)字人文視域下典籍動(dòng)物命
名實(shí)體識(shí)別研究———以SikuBERT 預(yù)訓(xùn)練模型為例[ J]. 圖書
館論壇, 2022, 42 (10): 42-50.
[22] 李東升, 鮑玉來, 劉建華, 等. 基于BERT 的高校圖書館微信
信息服務(wù)的命名實(shí)體識(shí)別方法[J]. 現(xiàn)代情報(bào), 2023, 43 (4):
64-76.
[23] 董美, 常志軍. 一種面向中醫(yī)領(lǐng)域科技文獻(xiàn)的實(shí)體關(guān)系抽取
方法[J]. 圖書情報(bào)工作, 2022, 66 (18): 105-113.
[24] 岳俊舉, 馮立杰, 馮奕程, 等. 基于多維技術(shù)創(chuàng)新地圖與關(guān)
聯(lián)規(guī)則挖掘的技術(shù)機(jī)會(huì)識(shí)別方法研究[ J]. 情報(bào)學(xué)報(bào), 2017,
36 (8): 798-808.
[25] Devlin J, Chang M W, Lee K, et al. Bert: Pre - training of
Deep Bidirectional Transformers for Language Understanding [ J].
arXiv Preprint arXiv: 1810 04805, 2018.
[26] 葉佳鑫, 熊回香, 孟璇. 基于細(xì)粒度評(píng)論挖掘的在線圖書相
似度計(jì)算研究[J]. 情報(bào)科學(xué), 2023, 41 (1): 166-173.
[27] 翟羽佳, 田靜文, 趙玥. 基于BERT-BiLSTM-CRF 模型的算
法術(shù)語抽取與創(chuàng)新演化路徑構(gòu)建研究[ J]. 情報(bào)科學(xué), 2022,
40 (4): 71-78.
(責(zé)任編輯: 郭沫含)