楊秀璋,武帥,張苗,夏換,李娜,項美玉,趙紫如,竇悅琪
(1.貴州財經(jīng)大學信息學院,貴陽550025;2.貴州財經(jīng)大學,貴州省經(jīng)濟系統(tǒng)仿真重點實驗室,貴陽550025;3.貴州財經(jīng)大學大數(shù)據(jù)應用與經(jīng)濟學院,貴陽大數(shù)據(jù)金融學院,貴陽550025;4.中國船舶工業(yè)系統(tǒng)工程研究院,北京100094)
貴州作為多民族融合、旅游景區(qū)頗多的省份,發(fā)展生態(tài)旅游行業(yè)尤為重要。該省平原較少,92.5%的面積均為山地和丘陵,為其發(fā)展生態(tài)旅游提供了得天獨厚的優(yōu)勢。旅游發(fā)展不僅能帶動地方經(jīng)濟的增長,也能拓寬當?shù)貙W者的研究領(lǐng)域。貴州省結(jié)合自身獨有的生態(tài)環(huán)境優(yōu)勢,提出“鄉(xiāng)村振興、大數(shù)據(jù)、大生態(tài)”新三大戰(zhàn)略行動,旅游發(fā)展和生態(tài)文明建設(shè)在貴州起著重要作用,這也體現(xiàn)了繼承和發(fā)展的統(tǒng)一。研究貴州旅游發(fā)展歷程及主題不僅能明確貴州省旅游業(yè)的發(fā)展規(guī)律,同時能推動地方經(jīng)濟發(fā)展,為現(xiàn)階段旅游發(fā)展提供可行的方向指引。
文獻作為學者進行學術(shù)研究的重要載體,記錄著相關(guān)研究領(lǐng)域的核心成果。通過文獻分析和文本挖掘能識別出研究領(lǐng)域的核心分類、學科主題,這已成為當下研究熱點,一定程度上反映該領(lǐng)域的前沿動態(tài)和研究水平。傳統(tǒng)的文獻計量方法通過對關(guān)鍵詞統(tǒng)計來確定研究熱點主題,或高被引論文的研究內(nèi)容作為重要參考。僅能從宏觀層面反映研究熱點,缺乏代表性,且不利于深層次挖掘潛在主題的關(guān)聯(lián)關(guān)系和演化趨勢,存在一定的片面性。
因此,本文將從主題挖掘和數(shù)據(jù)分析的角度研究貴州省旅游發(fā)展現(xiàn)狀,以中國知網(wǎng)貴州旅游發(fā)展相關(guān)的期刊文獻為語料,采用層次聚類和社交網(wǎng)絡方法進行深入的文本挖掘。接著,結(jié)合文獻計量分析貴州省旅游發(fā)展的核心主題,從而揭示其旅游發(fā)展的歷程。該方法有效彌補了傳統(tǒng)的文獻分析方法側(cè)重于統(tǒng)計,缺乏量化思維,很難系統(tǒng)發(fā)展研究領(lǐng)域的潛在和語義信息。實驗結(jié)果表明,本文的方法能有效挖掘出貴州旅游發(fā)展熱點主題的分布情況及網(wǎng)絡關(guān)系,并就現(xiàn)階段旅游商業(yè)發(fā)展提供可行的方向指引,具有一定的研究意義和實用價值。
文獻計量是一種運用數(shù)學模式、統(tǒng)計方法進行定量分析的一種文獻研究方式。隨著文獻數(shù)據(jù)庫的開放以及計算機技術(shù)的發(fā)展,文獻計量逐步與之接軌,越來越多的專家學者致力于文獻基礎(chǔ)研究。范少萍等人[1]結(jié)合文獻計量方法,利用密度和熱度開展核心主題識別研究,最終識別醫(yī)學文獻的主題演化路徑。楊秀璋等人[2]運用文獻計量的方法對中國知網(wǎng)有關(guān)清水江文化的文獻進行分析研究,挖掘出核心研究主題,一定程度上對推動清水江流域文化起到積極的作用。王卓玉[3]通過對WOS、CSSC、CNKI數(shù)據(jù)進行文獻計量統(tǒng)計研究出國內(nèi)外STEAM教育研究進度相對持平,主題相似,均集中于教育公平、學科整合、實踐教學、思維養(yǎng)成四大主題。
聚類共詞網(wǎng)絡分析旨在利用文獻集中共同出現(xiàn)的、表征文獻主題的關(guān)鍵詞來反映文獻各主題之間的關(guān)聯(lián),進而確定文獻主題的熱點[4]。當兩個關(guān)鍵詞經(jīng)常同時出現(xiàn)在某一篇文獻中,說明它們之間存在一定的關(guān)聯(lián),共現(xiàn)次數(shù)越多,則兩者的關(guān)系越緊密。石道元[5]通過對近十年CSSCI教育信息化數(shù)據(jù)構(gòu)建共詞網(wǎng)絡,分析出當前研究熱點。DAI Zongming[6]對傳統(tǒng)的共詞網(wǎng)絡進行了一定程度上的優(yōu)化,通過構(gòu)建二分興趣網(wǎng)絡(BNOI),從而將F值提升至93.2%。蔣明敏[7]通過構(gòu)建機構(gòu)合作共現(xiàn)網(wǎng)絡,確認核心中點為中國財政科學研究院和東北財經(jīng)大學會計學院。
部分學者運用社交網(wǎng)絡方法結(jié)合計量統(tǒng)計的方法進行文本主題挖掘。Lee W H[8]構(gòu)建了信息安全領(lǐng)域的關(guān)鍵詞共現(xiàn)網(wǎng)絡,利用社交網(wǎng)絡分析中的中心性指標發(fā)現(xiàn)當前的研究熱點,其認為中心性指標中的度、中間中心性和接近中心性這3項指標不但可以用于發(fā)現(xiàn)某一學科領(lǐng)域中當前的研究熱點,而且還能夠用來識別未來的發(fā)展趨勢[9]。王晰巍[10]運用Canopy和K-means算法進行聚類后,再進行社交網(wǎng)絡分析,提升社區(qū)發(fā)現(xiàn)效果。
本文旨在對中國知網(wǎng)(CNKI)中“貴州旅游”的期刊文獻進行文獻計量統(tǒng)計研究,結(jié)合層次聚類和社交網(wǎng)絡方法深度挖掘中國知網(wǎng)所收錄有關(guān)“貴州旅游”的1565篇期刊文獻。分別從文獻計量統(tǒng)計分析、主題挖掘兩角度挖掘潛在核心研究主題。
本文對中國知網(wǎng)數(shù)據(jù)庫中“貴州旅游”相關(guān)期刊文獻進行分析研究,研究框架圖如圖1所示。主要涉及4個部分,分別是:貴州旅游文獻數(shù)據(jù)采集、數(shù)據(jù)預處理、宏觀層面的文獻計量分析、微觀層面的主題挖掘研究。具體研究步驟如下:
圖1 貴州旅游文獻研究框架
(1)調(diào)用Python環(huán)境下的XPath自定義爬蟲,抓取CNKI數(shù)據(jù)庫中貴州旅游相關(guān)的期刊文獻。將其存于指定CSV文件中,并對存儲好的數(shù)據(jù)進行數(shù)據(jù)清洗,剔除無關(guān)數(shù)據(jù)(期刊廣告和期刊報告),共整理出貴州旅游相關(guān)文獻1565篇。
(2)對整理后的文獻數(shù)據(jù)進行數(shù)據(jù)預處理操作,主要包括中文分詞、去停用詞、殘缺值剔除以及異常值處理。
(3)對預處理后的數(shù)據(jù)進行文獻計量統(tǒng)計分析,結(jié)合時間分布、學科分類、期刊機構(gòu)以發(fā)文機構(gòu)進行有效的文獻分析。
(4)對預處理后的數(shù)據(jù)進行主題挖掘研究,包括共詞網(wǎng)絡分析、層次聚類分析、社交網(wǎng)絡分析和主題演化分析,從而識別貴州旅游核心主題及各主題間的關(guān)聯(lián)關(guān)系。
本文旨在挖掘中國知網(wǎng)數(shù)據(jù)庫中有關(guān)“貴州旅游”的期刊文獻,通過調(diào)用Python環(huán)境下的XPath自定義爬蟲。在中國知網(wǎng)數(shù)據(jù)庫開源供下載頁面,設(shè)定關(guān)鍵詞“貴州旅游”進行相關(guān)文獻數(shù)據(jù)檢索,將檢索文獻數(shù)據(jù)運用XPath自定義爬蟲進行采集,再結(jié)合正則表達式提取和過濾文獻數(shù)據(jù),最終將分類好的數(shù)據(jù)存于CSV本地文件中。
由于CNKI數(shù)據(jù)庫中所采集的數(shù)據(jù)不僅僅只包含期刊文獻,還包含相關(guān)宣傳公告、專欄會議以及活動報告。因此,需對此類文獻信息進行剔除,同時對摘要、作者、關(guān)鍵詞缺失的期刊文獻數(shù)據(jù)進行再判斷,是否為期刊文獻論文。對清洗好的數(shù)據(jù)進行預處理,包括中文分詞、去停用詞、殘缺值剔除以及異常值處理,最終獲得較好的半結(jié)構(gòu)化數(shù)據(jù),便于后續(xù)對“貴州旅游”相關(guān)數(shù)據(jù)進行數(shù)據(jù)分析。
層次聚類分析是利用相似性算法發(fā)現(xiàn)高頻關(guān)鍵詞間親疏程度并進行自動分類的技術(shù)。本文首先將貴州旅游文獻關(guān)鍵詞的共現(xiàn)矩陣轉(zhuǎn)換為相異矩陣,接著使用Python層次聚類分析,簇間距離采用Ward方法統(tǒng)計,最終計算出各主題的樹狀圖。
本文對預處理后的1565篇“貴州旅游”相關(guān)的期刊論文進行文獻計量分析。分析結(jié)果結(jié)合ECharts可視化技術(shù)進行可視化呈現(xiàn)。文獻計量分析主要包括結(jié)合論文發(fā)表時間的時間線統(tǒng)計;結(jié)合論文涉及學科門類的學科統(tǒng)計;結(jié)合論文發(fā)表期刊的熱門期刊統(tǒng)計;結(jié)合論文作者單位的核心發(fā)文單位統(tǒng)計。
本文調(diào)用Python環(huán)境下ECharts模塊對“貴州旅游”相關(guān)文獻進行統(tǒng)計分析,繪制出如圖2所示的時間統(tǒng)計分析圖。其中,2000年以前論文發(fā)表相對較少,共計86篇,歸于2001年進行統(tǒng)計分析研究。
圖2 貴州旅游主題文獻發(fā)文趨勢
由圖2可以觀測出,“貴州旅游”主題期刊文獻年度發(fā)文量總體呈逐年遞增的趨勢,部分年份存在波動情況。2016年,“貴州旅游”相關(guān)文獻發(fā)表最多,共計135篇;其次是2017年發(fā)表的127篇和2012年發(fā)表的122篇。
學科門類統(tǒng)計分析能有效挖掘出該領(lǐng)域的學科關(guān)聯(lián)情況,能有效結(jié)合各學科的優(yōu)勢實現(xiàn)產(chǎn)業(yè)和行業(yè)優(yōu)化,從而更好地推動該領(lǐng)域發(fā)展。本文結(jié)合學科門類統(tǒng)計分析,得出表1所示的學科分類表。
“貴州旅游”主題期刊論文學科分類最多的為“經(jīng)濟類”,共計1268篇;其次是“文化、科學、教育、體育類”共計118篇;之后是“藝術(shù)類”共計37篇。表1可以看出“貴州旅游”類期刊論文主要以“經(jīng)濟類”的“旅游經(jīng)濟”和“綠色經(jīng)濟”為主。
表1 貴州旅游主題文獻的學科分類
本文對CNKI數(shù)據(jù)庫中“貴州旅游”主題的期刊論文進行計量統(tǒng)計分析,其結(jié)果可作為“貴州旅游”研究的重要參考文獻依據(jù),最終統(tǒng)計出發(fā)表“貴州旅游”主題的前十名期刊,如表2所示。
表2 貴州旅游主題文獻的Top10期刊
其中,“貴州旅游”主題發(fā)文最多的期刊為《當代貴州》,共計發(fā)文130篇;其次是《旅游縱覽(下半月)》,共計發(fā)文77篇;再者是《貴州民族研究》,共計發(fā)文64篇。
國內(nèi)發(fā)文機構(gòu)主要以高校、科研院所以及事業(yè)單位為主。本文對抓取的1565篇有關(guān)“貴州旅游”期刊論文的第一作者所屬單位進行計量統(tǒng)計分析,繪制出如表3所示“貴州旅游”核心發(fā)文機構(gòu)前十名。
表3 貴州旅游主題文獻的Top10發(fā)文單位
從表3可以看出前十名機構(gòu)中,大部分機構(gòu)為高校,還有《當代貴州》雜志社。發(fā)文最多的機構(gòu)為“貴州師范大學”,共計發(fā)文174篇;其次為“貴州大學”,共計發(fā)文153篇;再者為“貴州財經(jīng)大學”,共計發(fā)文113篇。由表可知,貴州省本地的高校機構(gòu)長期致力于“貴州旅游”發(fā)展研究,提供著可行的建議,積極推動著當?shù)芈糜螛I(yè)的發(fā)展。
主題關(guān)鍵詞旨在反映論文的研究主題或熱點話題。想要深度挖掘“貴州旅游”相關(guān)文獻,應優(yōu)先考慮研究其主題詞。本文通過構(gòu)建共詞網(wǎng)絡挖掘主題詞間共現(xiàn)關(guān)系,再結(jié)合層次聚類和社交網(wǎng)絡分析方法深度挖掘主題詞間的關(guān)系,進一步發(fā)現(xiàn)潛在主題詞聯(lián)系,從而為貴州省的旅游商業(yè)發(fā)展提供可行的學術(shù)參考。
在中國知網(wǎng)數(shù)據(jù)庫關(guān)于“貴州旅游”主題的1565篇期刊文獻中,共涉及2773個核心主題詞,這些核心主題詞的詞頻數(shù)為5956次,平均每個主題詞出現(xiàn)2.15次。本文統(tǒng)計出如表4所示“貴州旅游”期刊文獻的錢60個核心主題詞。由表4可知,“貴州”出現(xiàn)次數(shù)最多,共計307次;“旅游業(yè)”(119次)、“鄉(xiāng)村旅游”(102次)、“旅游”(97次)、“旅游資源”(85次)、“旅游開發(fā)”(76次)等主題詞的出現(xiàn)次數(shù)均在50次以上,一定程度上可作為“貴州旅游”研究領(lǐng)域的熱點主題。
表4 貴州旅游主題文獻的Top60主題詞
共詞分析法旨在利用文獻集中共同出現(xiàn)的、表征文獻主題的關(guān)鍵詞來反映文獻各主題之間的關(guān)聯(lián),進而確定文獻主題的熱點。當兩個關(guān)鍵詞經(jīng)常同時出現(xiàn)在某一篇文獻中,說明它們之間存在一定的關(guān)聯(lián),共現(xiàn)次數(shù)越多,則兩者的關(guān)系越緊密。
為了更好地分析“貴州旅游”研究的主題,采用共詞網(wǎng)絡法分析,并構(gòu)建關(guān)鍵詞共現(xiàn)矩陣。如公式(1)所示,當兩個關(guān)鍵詞同時出現(xiàn)在一篇文獻中,則認為共現(xiàn)并構(gòu)建關(guān)聯(lián)邊,其邊所對應的權(quán)重加1;反之,兩個關(guān)鍵詞不存在共現(xiàn)關(guān)系,其權(quán)重為0。
經(jīng)過之前的統(tǒng)計分析,共發(fā)現(xiàn)2773個主題關(guān)鍵詞,在此構(gòu)建2773×2773的共詞矩陣,接著進行共現(xiàn)網(wǎng)絡計算,得出8637組(頻次非零)共現(xiàn)主題詞組,其共現(xiàn)頻次為9616次,平均每組共現(xiàn)主題詞組出現(xiàn)1.14次。統(tǒng)計出如表5所示“貴州旅游”主題期刊文獻共現(xiàn)主題詞組前30名。由表可知,“<貴州,旅游資源>”主題詞組共現(xiàn)頻次最高,其值為33次;出現(xiàn)次數(shù)在15次以上的兩兩主題詞組還包括“<貴州,鄉(xiāng)村旅游>”(31次)、“<貴州,旅游>”(29次)、“<貴州,對策>”(15次)、“<貴州,可持續(xù)發(fā)展>”(15次)。它們在一定程度上也反映了“貴州旅游”文獻的研究熱點和關(guān)聯(lián)。
表5 貴州旅游主題文獻的Top30共現(xiàn)主題詞組
針對已構(gòu)建的關(guān)鍵詞共現(xiàn)矩陣,利用Gephi繪制貴州旅游文獻的核心關(guān)鍵詞共現(xiàn)關(guān)系圖譜。為了更加精準地識別該領(lǐng)域文獻的關(guān)鍵詞及主題,本文過濾了較為單一的共現(xiàn)關(guān)系,結(jié)合普萊斯定律對節(jié)點進行篩選,設(shè)置共現(xiàn)閾值為5,共挖掘出36個核心節(jié)點和45條關(guān)鍵共現(xiàn)關(guān)系。通過計算該社交網(wǎng)絡的模塊化為0.214,符合模塊化效果。平均路徑長度2.451,平均聚類系數(shù)0.506,平均度2.5,平均加權(quán)度23。最終繪制出圖3所示“貴州旅游”主題詞社交網(wǎng)絡圖。
由圖3可知“貴州旅游”主題詞共分為4個部分。以主題詞“貴州”為核心的部分占大部分,涉及“鄉(xiāng)村旅游”“旅游產(chǎn)業(yè)”“旅游開發(fā)”“可持續(xù)發(fā)展”等領(lǐng)域;以主題詞“旅游業(yè)”為核心的部分,涉及“旅游產(chǎn)業(yè)發(fā)展”“旅游大省”“旅游者”“戶外運動”“山地旅游”等;以主題詞“旅游資源”為核心的部分,涉及“旅游開發(fā)”“喀斯特”等;以主題詞“民族村寨”為核心的部分,涉及“西江苗寨”“旅游扶貧”等。這些領(lǐng)域一定程度上也反映了貴州省旅游業(yè)的主題演化趨勢及各個時期旅游發(fā)展的熱點關(guān)系,從民族村寨旅游到生態(tài)旅游,從鄉(xiāng)村旅游到鄉(xiāng)村振興。
圖3 貴州旅游主題文獻的社交網(wǎng)絡
文本聚類旨在根據(jù)文檔內(nèi)容的相似性,將無標簽的文檔集進行自動歸類。在將文檔集劃分為若干類過程中,盡可能地使得同類文檔的內(nèi)容相似性較大,不同類文檔的內(nèi)容相似性較小。常見的方法包括基于層次、基于劃分、基于密度和基于網(wǎng)絡的文本聚類方法。
本文通過Python的cluster.hierarch算法實現(xiàn)層次聚類,最終繪制如圖4所示的主題詞層次聚類圖。其橫向坐標軸表示各類別間的距離,縱向坐標軸表示各高頻關(guān)鍵詞。由圖可知,貴州省的旅游文獻主要包括“紅色旅游”“民族旅游”“鄉(xiāng)村旅游”“山地旅游”“全域旅游”“旅游扶貧”等主題詞。
圖4 貴州旅游主題文獻的層次聚類
整個旅游業(yè)的主題演化趨勢如下:
(1)最早以“紅色旅游”和“民族旅游”主題為主,包括“遵義會址”“西江千戶苗寨”“黃果樹瀑布”等著名景區(qū)吸引了大量的游客,與之關(guān)聯(lián)的主題詞包括“對策”“旅游產(chǎn)業(yè)”“發(fā)展”“民族村寨”等。
(2)隨著貴州提出“大生態(tài)”“大旅游”等戰(zhàn)略,并且“縣縣通高速”帶來了良好的交通便利,貴州逐漸以“生態(tài)旅游”和“全域旅游”主題為主,相關(guān)的主題詞包括“卡斯特”“生態(tài)文明建設(shè)”“可持續(xù)發(fā)展”等。
(3)隨著“鄉(xiāng)村振興、大數(shù)據(jù)、大生態(tài)”新三大戰(zhàn)略行動在貴州省的實施,旅游發(fā)展和生態(tài)文明建設(shè)在貴州起著重要作用,該時期出現(xiàn)以“鄉(xiāng)村旅游”和“旅游扶貧”為主題,相關(guān)的核心主題詞包括“鄉(xiāng)村振興”“旅游發(fā)展”“旅游產(chǎn)業(yè)發(fā)展”等。
期刊文獻作為研究成果的重要載體,對其系統(tǒng)分析研究,能夠有效明確貴州旅游的研究分類、研究群體以及核心研究主題,從而揭示貴州旅游戰(zhàn)略發(fā)展過程。本文通過對中國知網(wǎng)數(shù)據(jù)庫有關(guān)“貴州旅游”主題的期刊文獻計量統(tǒng)計分析,得出“貴州旅游”主題期刊論文學科分類最多的為“經(jīng)濟類”,且以“旅游經(jīng)濟”為主。熱門期刊包括《當代貴州》(130篇)、《旅游縱覽(下半月)》(77篇)、《貴州民族研究》(64篇)。核心研究機構(gòu)包括“貴州師范大學”(174篇)、“貴州大學”(153篇)、“貴州財經(jīng)大學”(113篇)。
同時運用層次聚類和社交網(wǎng)絡分析算法對CNKI數(shù)據(jù)庫中1565篇“貴州旅游”期刊文獻進行主題挖掘。研究結(jié)果表明,“貴州旅游”主題詞共分為4個部分,以主題詞“貴州”為核心的部分占大部分,涉及“鄉(xiāng)村旅游”“旅游產(chǎn)業(yè)”“旅游開發(fā)”“可持續(xù)發(fā)展”等領(lǐng)域;以主題詞“旅游業(yè)”為核心的部分,涉及“旅游產(chǎn)業(yè)發(fā)展”“旅游大省”“旅游者”“戶外運動”“山地旅游”;以主題詞“旅游資源”為核心的部分,涉及“旅游開發(fā)”“喀斯特”;以主題詞“民族村寨”為核心的部分,涉及“西江苗寨”“旅游扶貧”。同時,結(jié)合層次聚類挖掘出貴州省旅游發(fā)展經(jīng)歷了“紅色旅游”和“民族旅游”、“生態(tài)旅游”和“全域旅游”、“鄉(xiāng)村旅游”和“旅游扶貧”為主題各個階段。
綜上,本文研究將為貴州旅游發(fā)展提供幫助,該方法能夠有效挖掘出貴州旅游發(fā)展熱點主題的分布情況及網(wǎng)絡關(guān)系,并就現(xiàn)階段旅游業(yè)發(fā)展提供切實可行的潛在發(fā)展方向指引,具有一定的研究意義和實用價值。