川北醫(yī)學(xué)院管理學(xué)院 譚明亮 蔣靜
本文以中國知網(wǎng)數(shù)據(jù)庫收錄的文本挖掘相關(guān)的研究文獻作為研究對象,借助于知識可視化圖譜分析工具CiteSpace 對研究文獻進行多個維度的分析并以科學(xué)知識圖譜的形式呈現(xiàn),主要包括關(guān)鍵詞分析、作者分析、研究機構(gòu)分析和研究趨勢分析。本文通過文獻計量分析發(fā)現(xiàn),2010—2021 年的12 年間,文本挖掘領(lǐng)域研究主題廣泛,研究層次多樣,研究人員數(shù)量眾多,在不同時期有不同的研究重點。
近年來,隨著移動通信和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和廣泛普及,文本數(shù)據(jù)的規(guī)模呈現(xiàn)出急劇增長的趨勢,主要包括研究報告、學(xué)術(shù)論文、電子郵件、網(wǎng)頁、公司內(nèi)部公告等。非結(jié)構(gòu)化文本是非常重要的數(shù)據(jù)資源,為了更好地處理和使用這些數(shù)量龐大、結(jié)構(gòu)多樣的文本數(shù)據(jù),文本挖掘技術(shù)隨之而誕生。文本挖掘作為自然語言處理、機器學(xué)習(xí)和數(shù)據(jù)挖掘等多項技術(shù)的交叉研究領(lǐng)域,其研究熱度也逐年提升。本文從中國知網(wǎng)數(shù)據(jù)庫上獲取文本挖掘領(lǐng)域的相關(guān)研究文獻,基于文獻計量法和CiteSpace軟件,主要從研究人員、研究機構(gòu)、研究內(nèi)容和研究趨勢等多個維度,對收集到的文獻數(shù)據(jù)進行全面綜合的分析,以期為文本挖掘領(lǐng)域的研究人員提供一定的參考和借鑒。
本文的研究數(shù)據(jù)來自于中國知網(wǎng)(CNKI)中文數(shù)據(jù)庫,數(shù)據(jù)采集的檢索條件設(shè)置如下:主題詞設(shè)置為“文本挖掘”,研究文獻的發(fā)表年份設(shè)置為2010—2021 年。經(jīng)過檢索,共得到4853 篇研究文獻,其中包括了2326篇學(xué)術(shù)期刊論文、2222 篇學(xué)位論文和101 篇會議論文,剔除其中與本文研究相關(guān)度低的204 篇文獻(包括年鑒、報紙等),得到有效文獻共計4649 篇。
本文將文獻數(shù)據(jù)以Refworks 的格式下載到本地文件夾data for CiteSpace 下的input 文件夾之中,文獻輸出信息以txt 文本文件形式存儲,txt 文件以download_加數(shù)字命名,例如“download_1”,以download_加數(shù)字的格式命名文件是為了后續(xù)能夠更便捷地將CNKI 文獻導(dǎo)入CiteSpace 數(shù)據(jù)庫中。
文獻計量法是一種定量分析方法,是以科技文獻的各種外部特征作為研究對象,采用數(shù)學(xué)與統(tǒng)計學(xué)的方法來描述、評價和預(yù)測科學(xué)技術(shù)現(xiàn)狀與發(fā)展趨勢的一種方法,文獻計量法的主要特點輸出必是量化的信息內(nèi)容[1]。文獻計量法在科技評價、科研管理等領(lǐng)域有著非常廣泛的應(yīng)用,并在圖書情報領(lǐng)域的應(yīng)用尤為廣泛,如測定學(xué)科核心期刊、建設(shè)情報檢索系統(tǒng)、編制領(lǐng)域主題詞表等[2]。
科學(xué)知識圖譜分析法是文獻計量學(xué)的一種重要分析方法,它將科研活動的主體(如研究人員、研究團隊、研究機構(gòu)等)或具有某種共同特征的學(xué)科領(lǐng)域群體作為研究對象,利用可視化技術(shù)描述知識資源及其載體,通過分析、挖掘和可視化知識及其之間的相互關(guān)系,將相關(guān)研究的發(fā)展進程和結(jié)構(gòu)關(guān)系以直觀圖形的方式展現(xiàn),從而幫助研究者了解領(lǐng)域研究現(xiàn)狀和前沿動態(tài)[3]。
大數(shù)據(jù)背景下,文獻信息的規(guī)模與日俱增,如何在這些文獻中找出值得深入閱讀和作為參考的關(guān)鍵文獻,挖掘?qū)W科前沿,找到相關(guān)領(lǐng)域的研究熱點成為科研工作中的重要問題。為了有效地分析研究文獻,各種繪制科學(xué)知識圖譜的工具紛至沓來。其中,美國德雷塞爾大學(xué)陳超美教授開發(fā)的用于文獻數(shù)據(jù)分析和可視化的Java 應(yīng)用程序CiteSpace(其中文名為“引文空間”)成為了目前最流行的知識圖譜繪制工具之一[4]。
CiteSpace 以共引分析理論(Co-ciation)、尋徑網(wǎng)絡(luò)算法(PathFinder)、結(jié)構(gòu)洞理論(Structural Holes)等理論作為基礎(chǔ),將某一特定領(lǐng)域的文獻進行計量和可視化,以期探求出學(xué)科領(lǐng)域演化的關(guān)鍵路徑和知識拐點,再結(jié)合繪制的一系列可視化知識圖譜,對學(xué)科領(lǐng)域內(nèi)潛在的演化動力機制進行分析和對學(xué)科發(fā)展前沿進行探測[5]。目前,國內(nèi)外的研究者們已經(jīng)將CiteSpace 軟件廣泛應(yīng)用于圖書情報、醫(yī)療衛(wèi)生、經(jīng)濟管理等領(lǐng)域的文獻計量與可視化分析中。
本文對文本挖掘研究文獻的關(guān)鍵詞進行統(tǒng)計分析,篩選出7 個頻次大于100 的關(guān)鍵詞。除去本文選取的檢索詞“文本挖掘(頻次為2340)”,其余的關(guān)鍵詞分別是“數(shù)據(jù)挖掘(頻次為242)”“情感分析(頻次為217)”“文本分類(頻次為204)”“主題模型(頻次為173)”“文本聚類(頻次為168)”“機器學(xué)習(xí)(頻次為102)”,這些關(guān)鍵詞代表了文本挖掘研究領(lǐng)域最核心的問題主要包括文本的分類、聚類、主題分析和情感分析等。
本文利用CiteSpace 軟件繪制2010-2021 年文本挖掘研究文獻關(guān)鍵詞的突現(xiàn)圖譜,選取其中突變率最高的20 個關(guān)鍵詞進行展示,如圖1 所示。2010年,文本挖掘的研究主要集中于文本分類和本體;到2011-2014 年之間,文本挖掘領(lǐng)域的研究熱點逐漸向醫(yī)學(xué)方面傾斜,逐步應(yīng)用于西藥、中成藥以及中藥方面;在2014-2018 年這5 年中,文本挖掘涉及的領(lǐng)域不斷增多,在證候、網(wǎng)絡(luò)評論、短文本、微博、圖書館等領(lǐng)域都有所涉及;在2018-2021 年間,文本挖掘的研究主要集中于人工智能、知識圖譜、情感分析、金融科技、政策評論、政策工具等方面??傮w而言,文本挖掘研究領(lǐng)域的變化,與我國經(jīng)濟迅速發(fā)展和信息技術(shù)日新月異的時代背景緊密相關(guān)。
圖1 關(guān)鍵詞突現(xiàn)圖譜Fig.1 Keywords emergence map
本文利用CiteSpace 軟件對研究文獻的關(guān)鍵詞進行共詞分析,結(jié)果如圖2 所示。在關(guān)鍵詞共現(xiàn)圖譜中分布著許多大小不一的圓圈,圓圈的大小代表著關(guān)鍵詞的頻次,圓圈越大,頻次越多。在圖2中,有5 個明顯的圓圈,其代表的關(guān)鍵詞分別為文本挖掘、主題分類、數(shù)據(jù)挖掘、文本分類和情感分析。關(guān)鍵詞共現(xiàn)圖譜中的線條代表著關(guān)鍵詞之間的聯(lián)系,通過線條顏色能看出哪一年有哪些關(guān)鍵詞,線條顏色越鮮艷標(biāo)志著該研究內(nèi)容的年份越靠近當(dāng)下??梢钥闯?,在文本挖掘領(lǐng)域發(fā)展的各個時間段都有著不同的研究側(cè)重點和研究熱點,在顏色最鮮艷的時間線上的關(guān)鍵詞有深度學(xué)習(xí)、主題模型、語義分析、知識發(fā)現(xiàn)、推薦系統(tǒng)、人工智能、政策工具等,最近幾年文本挖掘領(lǐng)域的研究重點主要集中在智能服務(wù)、語義深度挖掘、政策分析等領(lǐng)域。圖2 線條眾多,連接復(fù)雜,說明在文本挖掘研究領(lǐng)域中各關(guān)鍵詞之間聯(lián)系緊密,文本挖掘研究涉及的領(lǐng)域廣泛。
圖2 關(guān)鍵詞共現(xiàn)圖譜Fig.2 Keywords co-occurrence map
為了發(fā)現(xiàn)文本挖掘領(lǐng)域研究的中堅力量,探尋該領(lǐng)域的核心作者群體,本文利用CiteSpace 軟件繪制了文本挖掘研究領(lǐng)域的作者共現(xiàn)圖譜,如圖3 所示。圖中最突出的合作關(guān)系是以呂愛平為中心的研究團體,該團體中研究人員眾多,包括張弛、姜春燕、趙寧、王耀獻、崔趙麗等人;汪雪鋒、任惠超、劉玉琴、張磊等人組成了一個研究團體,在這個團體中,以作者汪雪峰為中心;除此之外,還有黃敏婷、劉芳羽、趙秉元、李澤、古超等人組成的研究團體;以及白衛(wèi)國、王躍溪、王麗穎、韓學(xué)杰、趙學(xué)堯等人組成的研究團體。
圖3 作者共現(xiàn)圖譜Fig.3 Authors co-occurrence map
從事文本挖掘領(lǐng)域研究的專家學(xué)者不勝枚舉,其中,郭洪濤、姜淼、呂愛平、鄭光、汪雪鋒所發(fā)表的文獻被引次數(shù)最多;呂愛平、鄭光發(fā)表的文獻被引次數(shù)為69次;姜淼發(fā)表的文獻被引次數(shù)為56 次;郭洪濤發(fā)表的文獻被引次數(shù)為45 次。這幾位作者是文本挖掘研究領(lǐng)域的帶頭人,在文本挖掘研究領(lǐng)域內(nèi)具有重要影響。
通過作者突顯分析,可以發(fā)現(xiàn)在2010—2021 年之間各個階段的主要研究人員。在2011—2013 年中,作者郭洪濤、譚勇、楊靜發(fā)表文獻最多;2015—2017年,作者張永安發(fā)表文獻最多;2017—2021 年之間,作者黃名選、黃魯成、崔雷、武帥發(fā)表文獻最多,其中作者黃魯成在2016—2021 年都保持著較高的發(fā)文量。以上這些作者在文本挖掘研究領(lǐng)域都保持著較高的活躍度,在文本挖掘研究領(lǐng)域都具有重要的影響。作者呂愛平、鄭光、姜淼在總體上發(fā)文最多,但論文的主要發(fā)表年限都集中在2013年,論文發(fā)表年限比較早,是文本挖掘研究領(lǐng)域的開拓者之一。
通過對研究機構(gòu)的分析,可以看出哪些機構(gòu)在文本挖掘研究領(lǐng)域發(fā)揮著重要的作用,哪些機構(gòu)之間聯(lián)系比較緊密,哪些機構(gòu)為文本挖掘的研究做出了重要貢獻[6]。本文利用CiteSpace 軟件繪制了文本挖掘研究領(lǐng)域的研究機構(gòu)共現(xiàn)圖譜,如圖4 所示。
從圖4 可以直觀地看出,文本挖掘領(lǐng)域的研究主要以中國科學(xué)院大學(xué)經(jīng)濟與管理學(xué)院、中國科學(xué)院文獻情報中心、中國科學(xué)院大學(xué)、北京理工大學(xué)管理與經(jīng)濟學(xué)院、北京工業(yè)大學(xué)經(jīng)濟與管理學(xué)院、武漢大學(xué)信息管理學(xué)院這幾個研究機構(gòu)為中心。其中,以中國中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所為中心,蘭州大學(xué)信息學(xué)院、蘭州大學(xué)應(yīng)用數(shù)學(xué)與統(tǒng)計學(xué)院、上海中醫(yī)藥大學(xué)、河南中醫(yī)學(xué)院第一附屬醫(yī)院等研究機構(gòu)參與了文本挖掘領(lǐng)域內(nèi)的研究;以北京理工大學(xué)管理與經(jīng)濟學(xué)院為中心,中國船舶信息中心、北京印刷學(xué)院新聞出版學(xué)院、中國政法大學(xué)商學(xué)院等研究機構(gòu)進行了合作;以中國科學(xué)院大學(xué)為中心,中國科學(xué)院國家科學(xué)圖書館、北京大學(xué)信息管理系、上海市浦東新區(qū)人民檢察院、中國科學(xué)院大數(shù)據(jù)挖掘與知識管理重點實驗室等機構(gòu)對文本挖掘進行了研究與合作;以武漢大學(xué)信息管理學(xué)院為中心,武漢大學(xué)信息資源研究中心、武漢大學(xué)遙感信息工程學(xué)院、武漢紡織大學(xué)會計學(xué)院等機構(gòu)進行了合作。
圖4 研究機構(gòu)共現(xiàn)圖譜Fig.4 Research institutions co-occurrence map
本文對文本挖掘領(lǐng)域的主要研究機構(gòu)的文獻發(fā)表數(shù)量進行統(tǒng)計,大連理工大學(xué)發(fā)表了相關(guān)論文112篇,中國中醫(yī)科學(xué)院發(fā)表了相關(guān)論文90篇,北京郵電大學(xué)發(fā)表了相關(guān)論文89篇,電子科技大學(xué)發(fā)表了相關(guān)論文83篇,武漢大學(xué)發(fā)表了相關(guān)論文81篇,北京工業(yè)大學(xué)發(fā)表了相關(guān)論文80篇,吉林大學(xué)發(fā)表了相關(guān)論文72篇,中國科學(xué)院大學(xué)發(fā)表了相關(guān)論文71篇,蘭州大學(xué)發(fā)表了相關(guān)論文71篇,北京交通大學(xué)發(fā)表了相關(guān)論文68 篇。由以上數(shù)據(jù)可以得出,在文本挖掘研究領(lǐng)域文獻的發(fā)表機構(gòu)以高等院校為主,主要集中在理工類院校,也有少部分高等醫(yī)學(xué)院校。在這些高等院校中,大連理工大學(xué)發(fā)表的相關(guān)論文數(shù)量最多。這些研究機構(gòu)主要集中在中國經(jīng)濟發(fā)展水平比較高、學(xué)術(shù)研究力量較為雄厚的大城市,如北京、武漢、大連、長春等。這些研究機構(gòu)學(xué)術(shù)型人才多,學(xué)術(shù)水平較高,研究視野開闊。
為了分析出文本挖掘領(lǐng)域在2010-2021 年的研究趨勢,本文利用CiteSpace 工具,繪制有關(guān)文本挖掘領(lǐng)域的關(guān)鍵詞時區(qū)圖,如圖5 所示??梢钥闯?,在2010年,文本挖掘研究重點在文本分類、情感分析、數(shù)據(jù)挖掘以及主題模型這幾個方面;2011年,文本挖掘研究重點在可視化、主題分析、指標(biāo)體系、西藥、神經(jīng)網(wǎng)絡(luò)等幾個方面;2012年,文本挖掘研究重點在文本分析、數(shù)字人文、情感分類、社交網(wǎng)絡(luò)、情感詞典等幾個方面;2013年,文本挖掘研究重點在股票市場、共詞分析、微博、圖書館、推薦系統(tǒng)等幾個方面;2014年,文本挖掘研究重點在大數(shù)據(jù)、網(wǎng)絡(luò)爬蟲、短文本、社交媒體、知識圖譜等幾個方面;2015年,文本挖掘研究重點在詞向量、復(fù)雜網(wǎng)絡(luò)、主題挖掘等幾個方面;2016年,文本挖掘研究重點在用戶畫像、數(shù)據(jù)分析、協(xié)同過濾、分詞等幾個方面;2017年,文本挖掘研究重點在滿意度、文獻計量、影響因素、用戶要求等方面;2018年,文本挖掘研究重點在人工智能、新浪微博等幾個方面;2019年,文本挖掘研究重點在詞云圖、網(wǎng)絡(luò)新聞、商業(yè)銀行、服務(wù)質(zhì)量等幾個方面;2020年,文本挖掘研究重點在政策文本、電力設(shè)備、金融科技、形象感知等幾個方面;2021年,文本挖掘研究重點在評論數(shù)據(jù)、微博評論等幾個方面。
圖5 關(guān)鍵詞時區(qū)圖Fig.5 Keywords time zone map
本文從關(guān)鍵詞、作者、研究機構(gòu)、研究趨勢這四個方面,對文本挖掘研究領(lǐng)域的相關(guān)文獻進行分析總結(jié)。無論是從時間的橫向還是縱向來看,文本挖掘領(lǐng)域的研究可以總結(jié)如下:文本挖掘的研究熱點主要集中在大數(shù)據(jù)、評論挖掘、情感分析等方面,文本挖掘研究涉及領(lǐng)域廣泛,包括計算機領(lǐng)域、醫(yī)學(xué)領(lǐng)域、管理領(lǐng)域以及政治領(lǐng)域等;文本挖掘的研究人員和研究機構(gòu)眾多,主要研究機構(gòu)為高等院校,也有少部分企業(yè)對文本挖掘進行研究;文本挖掘在社會科學(xué)和自然科學(xué)的研究中得到了充分利用,且呈現(xiàn)不斷上升的趨勢,主要涉及計算機科學(xué)、圖書情報和經(jīng)濟管理等學(xué)科領(lǐng)域,文本分類、文本聚類和情感分析是文本挖掘的核心技術(shù)。
引用
[1] 吳愛芝,肖瓏,張春紅,等.基于文獻計量的高校學(xué)科競爭力評估方法與體系[J].大學(xué)圖書館學(xué)報,2018,36(1):62-67+26.
[2] 朱亮,孟憲學(xué).文獻計量法與內(nèi)容分析法比較研究[J].圖書館工作與研究,2013(6):64-66.
[3] 馮新翎,何勝,熊太純,等.“科學(xué)知識圖譜”與“Google知識圖譜”比較分析——基于知識管理理論視角[J].情報雜志,2017,36 (1):149-153.
[4] 陳悅,陳超美,劉則淵,等.CiteSpace知識圖譜的方法論功能[J].科學(xué)學(xué)研究,2015,33(2):242-253.
[5] 侯劍華,胡志剛.CiteSpace軟件應(yīng)用研究的回顧與展望[J].現(xiàn)代情報,2013,33(4):99-103.
[6] 蔣海剛.詞向量文本挖掘技術(shù)在建筑設(shè)施管理應(yīng)用研究[J].電腦知識與技術(shù),2021,17(33):22-25.