收稿日期:2023-08-19
DOI:10.19850/j.cnki.2096-4706.2024.06.022
摘? 要:在“數(shù)據(jù)爆炸”的當(dāng)代,數(shù)據(jù)的價值與日俱增,數(shù)據(jù)創(chuàng)造價值,數(shù)據(jù)科學(xué)作為一門目前全國最火爆的學(xué)科,其目的是從大量數(shù)據(jù)中提取出有價值的信息用于生產(chǎn)活動。文章基于CiteSpace采用文獻計量法,對CNKI和Web of Science兩大通用主流文獻庫進行分析,總結(jié)了數(shù)據(jù)科學(xué)領(lǐng)域國內(nèi)外近十五年研究熱點與技術(shù)前沿的推進情況。研究結(jié)果顯示,該領(lǐng)域的當(dāng)前熱點有卷積神經(jīng)網(wǎng)絡(luò)等,其熱點算法有分類算法,如支持向量機,熱點框架有PaddlePaddle等。文章還比較了近年國內(nèi)外機器學(xué)習(xí)研究的側(cè)重與發(fā)展規(guī)模,積極探討了數(shù)據(jù)科學(xué)基礎(chǔ)技術(shù)的研究熱點,為該領(lǐng)域今后研究提供了方向借鑒。
關(guān)鍵詞:CiteSpace;數(shù)據(jù)科學(xué);機器學(xué)習(xí);熱點前沿;文獻計量法
中圖分類號:TP391? 文獻標(biāo)識碼:A? 文章編號:2096-4706(2024)06-0095-08
Research Hotspot and Advance of the Frontier of Data Science at Home and Abroad
—Visualization Analysis of CNKI and WOS Literature Based on CiteSpace
ZHANG Jinquan
(School of Information and Communications Engineering, University of Electronic Science and Technology of China,
Chengdu? 611731, China)
Abstract: In the modern era of “data explosion”, the value of data is increasing day by day, and data creates value. Data science, as the most popular subject in China, aims to extract valuable information from a large number of data for production activities. In this paper, based on CiteSpace, the bibliometrics method is used to analyze two general mainstream bibliothems, CNKI and Web of Science, and summarize the advancement of research hotspots and technological frontiers in the field of Data Science at home and abroad in the past 15 years. The research results show that the current hotspots in this field include Convolutional Neural Networks, hotspot algorithms include classification algorithms such as Support Vector Machines, and hotspot frameworks include PaddlePaddle and so on. This paper also compares the focus and development scale of Machine Learning research at home and abroad in recent years, and actively discusses the research hotspot of Data Science basic technology, and provides a reference for future research in this field.
Keywords: CiteSpace; Data Science; Machine Learning; hot frontier; bibliometric method
0? 引? 言
近年來,“大數(shù)據(jù)”逐漸成為大眾耳熟能詳?shù)臒衢T詞匯。當(dāng)“大數(shù)據(jù)”依次取代“信息”成為一個新時代的標(biāo)志[1],大數(shù)據(jù)的價值和重要性也被越來越多人認(rèn)知?!皵?shù)據(jù)科學(xué)”作為一門應(yīng)對大數(shù)據(jù)挑戰(zhàn)的多學(xué)科多技術(shù)融合的新興學(xué)科[2],其實很早就被提及。在20世紀(jì)60年代,“數(shù)據(jù)科學(xué)”一詞就已經(jīng)出現(xiàn)[3],但直到20世紀(jì)90年代,才有了它準(zhǔn)確的名稱——“Data Science”[4]。目前,我國在數(shù)據(jù)科學(xué)領(lǐng)域的研究方興未艾,國外同領(lǐng)域則有著較為深入的研究。同時,作為數(shù)據(jù)科學(xué)門下的一個分支,也是如今非常流行的一種機器學(xué)習(xí),深度學(xué)習(xí)開始盛行并逐漸成為統(tǒng)計學(xué)領(lǐng)域一種重要模型建立理念。深度學(xué)習(xí)的概念起初由多倫多大學(xué)的Hinton教授于2006年提出[5]。此后的同一年里,該教授和他的學(xué)生又提出關(guān)于深度學(xué)習(xí)的另一觀點:含多隱層的人工神經(jīng)網(wǎng)絡(luò)具有很優(yōu)秀的特征學(xué)習(xí)能力,甚至可以對處理后的數(shù)據(jù)有更加直觀的展示,最終得到的網(wǎng)絡(luò)數(shù)據(jù)更有利于分類或可視化;通過研究國內(nèi)外機器學(xué)習(xí)成果,有助于我們反映數(shù)據(jù)科學(xué)的發(fā)展情況,為前沿發(fā)展方向提供新思路。
數(shù)據(jù)科學(xué)的實際操作便是對大量數(shù)據(jù)進行處理,提取得到可以使用的有價值信息。海量數(shù)據(jù)的復(fù)雜性和快速變化給人們檢索提取有效信息帶來了困難,由此可視化方法應(yīng)運而生[6]。目前,國際上被廣泛使用的可視化軟件眾多,如Thomson Reuters公司開發(fā)的Pajek [7],陳超美教授團隊開發(fā)的CiteSpace [8]等。文章基于文獻計量法對數(shù)據(jù)科學(xué)(深度學(xué)習(xí))相關(guān)的論文文獻進行分析,其中包括但不限于關(guān)鍵詞聚類分析、共現(xiàn)分析、突變分析等。通過梳理重要主題及進展,以期為數(shù)據(jù)科學(xué)的相關(guān)研究熱點與前沿提供參考。
1? 基本概念
數(shù)據(jù)科學(xué)、人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)經(jīng)常被科研學(xué)者提及,但事實上,這些概念經(jīng)常被混淆,雖然它們的邊界確實具有一定的模糊性,但其側(cè)重的關(guān)鍵點卻不盡相同,如圖1所示(來源:Towards Data Science)。在此,文章給出一些非權(quán)威但仍具參考價值的定義。
圖1? 數(shù)據(jù)科學(xué)交叉學(xué)科知識簡圖
數(shù)據(jù)科學(xué)側(cè)重于產(chǎn)生見解。在伯克利確立開設(shè)的數(shù)據(jù)科學(xué)本科項目中,學(xué)校對項目給出了如下解釋:數(shù)據(jù)科學(xué)學(xué)位項目結(jié)合了計算推理與推導(dǎo),以某些現(xiàn)實生活中的數(shù)據(jù)為基礎(chǔ)得到結(jié)論。數(shù)據(jù)科學(xué)家來源于社會中的所有領(lǐng)域,所有的研究范疇和各種不同的背景。他們通過數(shù)學(xué)和科學(xué)的思維以及計算編程的力量去理解并解決商業(yè)和社會方向的問題。數(shù)據(jù)科學(xué)的目標(biāo)與人類的目標(biāo)尤為契合:去獲取見解和理解力。
例如,數(shù)據(jù)科學(xué)家可能會使用一些簡單的工具:他們計算報告百分比,并根據(jù)SQL查詢制作線性圖。他們也可以使用非常復(fù)雜的方法:使用分布式數(shù)據(jù)存儲來分析數(shù)以萬億計的數(shù)據(jù)記錄,開發(fā)尖端的統(tǒng)計技術(shù),并構(gòu)建交互式可視化模型。無論他們使用什么,目標(biāo)都是更好地解讀他們的數(shù)據(jù)。
人工智能,可謂稱得上是當(dāng)下最為熱門的科學(xué)開拓領(lǐng)域。特別是21世紀(jì)20年代OpenAI公司開發(fā)的ChatGPT,推動了人工智能領(lǐng)域研究新的熱潮??偟膩碚f,人工智能可以稱得上是計算機科學(xué)的一個子集?!叭斯ぶ悄堋钡母拍钫Q生于20世紀(jì)60年代,它的設(shè)計目的是為了解決對人類而言相對較為困難卻對計算機較為容易的工作[9]。詳細(xì)來說,一般認(rèn)為強人工智能應(yīng)該能做人類所能做的任何事。其中包括但不限于制訂規(guī)劃、到處移動、識別物體與聲音、說話、翻譯、商業(yè)辦公、繪畫、作曲等。
機器學(xué)習(xí)被認(rèn)為是人工智能的一方面:給定一些可用離散術(shù)語描述的人工智能問題,并給出關(guān)于這個世界的大量信息,在沒有程序員進行編程的情況下弄清楚“正確”的行為。典型的是,需要一些外部流程判斷行為是否正確。在數(shù)學(xué)術(shù)語中,也就是函數(shù):饋入輸入,產(chǎn)生正確的輸出。所以整個問題就是以自動化的方式建立該數(shù)學(xué)函數(shù)的模型。機器學(xué)習(xí)涵蓋了多種算法與技術(shù),如樸素貝葉斯、支持向量機、神經(jīng)網(wǎng)絡(luò)、Ensembles、關(guān)聯(lián)規(guī)則、決策樹、邏輯回歸等[10]。
深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域中一個細(xì)微的研究方向,它源于對神經(jīng)網(wǎng)絡(luò)的研究,即通過海量數(shù)據(jù)用以訓(xùn)練從而構(gòu)建相關(guān)模型來學(xué)習(xí)特征數(shù)據(jù),深度學(xué)習(xí)能夠發(fā)現(xiàn)大數(shù)據(jù)中的復(fù)雜結(jié)構(gòu)。其中,較常用的模型或算法有自動編碼器、限制波爾茲曼機、深信度網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。
2? 研究設(shè)計
2.1? 數(shù)據(jù)來源
分析使用的原始數(shù)據(jù)主要來自CNKI(知網(wǎng))及Web of Science平臺上的核心數(shù)據(jù)庫,包括SSCI、ESCI等。為確保研究文獻的客觀性和科學(xué)性,國內(nèi)外資料的收集分別選取了“數(shù)據(jù)科學(xué)”“機器學(xué)習(xí)”和
“Data Science”“Machine Learning”“Datafication”。時間跨度則為過去十五年(2007—2023年),篩選得到了累計82 164條檢索結(jié)果,選擇導(dǎo)出格式為全著錄格式分次導(dǎo)入,作為研究分析的源文件。
2.2? 研究方法與工具
使用文獻計量法,搜集數(shù)據(jù)庫的文獻數(shù)據(jù),對其進行除重清晰,并以不同的視角進行計量分析,并以可視化的圖譜用以輔助分析和直觀表達。使用到的知識圖譜工具為陳超美教授開發(fā)的CiteSpace,該工具在過去的十幾年里已被廣泛應(yīng)用于科學(xué)文獻的計量領(lǐng)域。文章試圖基于CiteSpace挖掘數(shù)據(jù)科學(xué)領(lǐng)域的時空分布、研究熱點及研究前沿。
2.3? 研究流程
如圖2所示,研究流程具體可表示為以下三個步驟。首先,對數(shù)據(jù)樣本進行文獻計量分析并通過CiteSpace軟件進行網(wǎng)絡(luò)圖譜的多維分析,從時空等多重維度,初步了解國內(nèi)外深度學(xué)習(xí)研究熱點的基本情況;其次,對文獻數(shù)據(jù)進行Keyword(關(guān)鍵詞)分析,從可視化的角度展示出數(shù)據(jù)科學(xué)領(lǐng)域當(dāng)前的熱點分析和前沿推進;最后,探討對比國內(nèi)外深度學(xué)習(xí)的研究,并做出總結(jié)展望。
3? 研究熱點基本情況
文章對數(shù)據(jù)科學(xué)領(lǐng)域的研究熱點進行分析?;谀愁I(lǐng)域的研究熱點通常是指在某一時期該領(lǐng)域發(fā)表文獻中出現(xiàn)的高頻次、高中心度和高強度的主題詞。根據(jù)共詞分析法,文章基于數(shù)據(jù)科學(xué)領(lǐng)域近十五年的文獻繪制關(guān)鍵詞共現(xiàn)圖譜,并統(tǒng)計其中的高頻關(guān)鍵詞,明確近十五年(2007—2023年)數(shù)據(jù)科學(xué)領(lǐng)域的研究熱點,進而分析其推進進程。
數(shù)據(jù)科學(xué)領(lǐng)域關(guān)鍵詞共現(xiàn)知識圖譜中共有節(jié)點
N(753)個,連線E(1 696)條,中心度Density=
0.006。依據(jù)分析結(jié)果,近十五年數(shù)據(jù)科學(xué)(涵蓋機器學(xué)習(xí))的研究熱點(火熱程度依次遞減)主要為大數(shù)據(jù)、人工智能、深度學(xué)習(xí)、數(shù)據(jù)挖掘、課程培養(yǎng)、情感分析、隨機森林、知識圖譜、神經(jīng)網(wǎng)絡(luò)、算法、統(tǒng)計學(xué)、數(shù)據(jù)分析、可視化、云計算、學(xué)習(xí)分析、預(yù)測等。
通過對于關(guān)鍵詞的聚類處理,出現(xiàn)了11個類別。其中最大群集(#0)有8個成員,輪廓值為0.84。其聚類標(biāo)簽為機器學(xué)習(xí)。第二大聚類群集(#1)有9個成員,輪廓值為0.823。它被LLR算法標(biāo)記為大數(shù)據(jù)。
以此類推,聚類標(biāo)簽依次為機器學(xué)習(xí)、大數(shù)據(jù)、人工智能、數(shù)據(jù)科學(xué)、知識圖譜、情感分析、信息抽取、數(shù)據(jù)挖掘、金融科技、復(fù)雜網(wǎng)絡(luò)、學(xué)習(xí)科學(xué)。將這些熱點詞進行逐一整理,以找出近十五年的研究熱點。
在最近的十五年范圍內(nèi),數(shù)據(jù)科學(xué)領(lǐng)域流行的熱門詞匯的呈現(xiàn)結(jié)果如表1所示。
分析如下:
表中排名第一的熱點詞匯為大數(shù)據(jù)。海量、高增長率和多樣化大數(shù)據(jù)的信息篩查和有效價值提取離不開新的數(shù)據(jù)處理模式。在國內(nèi),大數(shù)據(jù)與數(shù)據(jù)科學(xué)被劃分為一門高校開設(shè)的本科專業(yè)名稱。對于數(shù)據(jù)科學(xué)的檢索,大數(shù)據(jù)詞匯屢屢被提及。同時,作為21世紀(jì)20年代以來的新興技術(shù),大數(shù)據(jù)成為包括數(shù)據(jù)科學(xué)在內(nèi)的各大領(lǐng)域的研究熱點。
表中排名第二的詞匯為機器學(xué)習(xí)。在前文中已經(jīng)對數(shù)據(jù)科學(xué)和機器學(xué)習(xí)做了一定程度上的定義區(qū)分。機器學(xué)習(xí)與熱點排名第十的算法等均有一些相關(guān)性。對于數(shù)據(jù)科學(xué)中數(shù)據(jù)的處理,升維降維等,均需要機器學(xué)習(xí)的算法原理與技術(shù)支撐。直白來說,數(shù)據(jù)科學(xué)離不開機器學(xué)習(xí),機器學(xué)習(xí)的發(fā)展是數(shù)據(jù)科學(xué)的基礎(chǔ)支撐。
表1? 2007—2023年數(shù)據(jù)科學(xué)領(lǐng)域文獻高頻關(guān)鍵詞統(tǒng)計結(jié)果
排名 頻次/次 關(guān)鍵詞 最早引用時間/年
1 8 642 大數(shù)據(jù) 2012
2 8 126 機器學(xué)習(xí) 2007
3 6 579 人工智能 2007
4 6 249 數(shù)據(jù)科學(xué) 2007
5 4 168 新工科 2018
6 3 522 情感分析 2010
7 3 011 隨機森林 2007
8 2 965 知識圖譜 2017
9 2 234 神經(jīng)網(wǎng)絡(luò) 2008
10 1 876 算法 2009
11 1 552 可視化 2012
12 1 421 分類回歸 2008
13 1 292 支持向量機 2008
14 1 310 深度學(xué)習(xí) 2016
15 1 292 決策樹 2008
16 1 148 預(yù)測模型 2020
17 1 008 因果推斷 2021
18 899 區(qū)塊鏈 2018
19 733 數(shù)據(jù)管理 2016
20 556 復(fù)雜網(wǎng)絡(luò) 2013
表中排名第三的詞匯是人工智能。數(shù)據(jù)科學(xué)對于大數(shù)據(jù)的快速有效處理,大大拓寬了人工智能的發(fā)展前景。毫無疑問,人工智能將是社會發(fā)展和數(shù)據(jù)科學(xué)發(fā)展的熱點方向。當(dāng)下,人工智能已經(jīng)被廣泛應(yīng)用于交通、數(shù)字媒體及服務(wù)行業(yè)[11]。
表中排名第四的是數(shù)據(jù)科學(xué),這是由于我們以數(shù)據(jù)科學(xué)為索引查找文獻,故出現(xiàn)頻次較高,可以忽略。但可以指出的是,數(shù)據(jù)科學(xué)并非頻次最高的排名詞匯,這是由于數(shù)據(jù)科學(xué)在國內(nèi)領(lǐng)域中發(fā)展還不為成熟,文獻中大多采用機器學(xué)習(xí)、大數(shù)據(jù)等其他詞匯對數(shù)據(jù)科學(xué)加以修飾的結(jié)果。
表中排名第七的是隨機森林。隨機森林算法是決策樹算法的一個延伸推進,它選用了隨機的數(shù)據(jù)集來提升決策樹的分析準(zhǔn)確性。自從Leo Breiman開創(chuàng)隨機森林算法后,該算法的研究長期處于推進狀態(tài)[12]。隨機森林可以有效處理大量數(shù)據(jù),包括海量的不相關(guān)數(shù)據(jù),用于進行風(fēng)險評估等。
表中排名第九的熱點詞匯是神經(jīng)網(wǎng)絡(luò)。近年來,神經(jīng)網(wǎng)絡(luò)算法屢屢取得突破。比較出名的有遞歸神經(jīng)網(wǎng)絡(luò),包括時間遞歸與結(jié)構(gòu)遞歸。神經(jīng)網(wǎng)絡(luò)算法的研究推進,無疑為深度學(xué)習(xí)、數(shù)據(jù)科學(xué)的發(fā)展提供了助力。
表中排名第十三的是支持向量機。作為一種二元分類算法,支持向量機主要思想是將一組多類型的N維地方點線性可分成兩種類型。這種劃分使用的直線到各點的最近距離需要盡可能的大。一般來說,支持向量機的發(fā)展經(jīng)歷了三起三落。當(dāng)前,支持向量機被廣泛應(yīng)用于人臉面部識別剪接位點處理及一些特殊圖片處理問題。
4? 研究熱點可視化結(jié)果及分析
4.1? 時空分析圖譜
4.1.1? 時間線圖譜分析
通過對國內(nèi)數(shù)據(jù)科學(xué)文獻的關(guān)鍵詞進行時間線圖譜可視化,可以得到數(shù)據(jù)科學(xué)領(lǐng)域的研究主題隨時間的變化情況,從而得到各個時間段的熱點主題的相關(guān)分布情況。
如圖3所示,在關(guān)鍵詞時間線圖譜中,首先對于眾多關(guān)鍵詞進行了聚類操作,對于11個類別下的關(guān)鍵詞進行了時間上的切分處理。顏色越鮮艷,代表研究的時間越近,同時也說明研究的火熱程度更高。從圖上可以發(fā)現(xiàn),機器學(xué)習(xí)、人工智能、數(shù)據(jù)科學(xué)早在時間線2007年便已經(jīng)出現(xiàn),而大數(shù)據(jù)是在約2012年成為研究的熱點,并在之后保持火熱狀態(tài)。深度學(xué)習(xí)、隨機森林等熱點詞匯也在近十五年內(nèi)頻繁出現(xiàn)。
4.1.2? 發(fā)文機構(gòu)空間圖譜分析
圖4反映了數(shù)據(jù)科學(xué)于國內(nèi)的文獻發(fā)表機構(gòu)情況。其中,出現(xiàn)頻次最高的機構(gòu)是武漢大學(xué)信息管理學(xué)院(89篇),其次是南京大學(xué)信息管理學(xué)院(63篇),如表2所示。
對武漢大學(xué)信息管理學(xué)院合作機構(gòu)進行網(wǎng)絡(luò)分析。如圖5所示,可見武漢大學(xué)信息管理學(xué)院就數(shù)據(jù)科學(xué)的研究與西南大學(xué)計算機與信息科學(xué)學(xué)院、電子科技大學(xué)中國科教評價研究院、華中師范大學(xué)信息管理學(xué)院等多個機構(gòu)開展過合作。可見,這些高校在數(shù)據(jù)科學(xué)領(lǐng)域的合作關(guān)系較為密切。圖中偏紅的色調(diào)代表研究時間距現(xiàn)在越近,因此,中國人民大學(xué)信息資源管理學(xué)院與華中師范大學(xué)信息管理學(xué)院對于數(shù)據(jù)科學(xué)的研究在該圖中表現(xiàn)為近期開展的研究。這些高校間的合作關(guān)系,一定程度上能夠進一步發(fā)揮各高校的優(yōu)勢學(xué)科、促進數(shù)據(jù)科學(xué)的快速發(fā)展。
圖4? 2007—2023年數(shù)據(jù)科學(xué)國內(nèi)發(fā)文機構(gòu)圖譜
表2? 2007—2023年CNKI數(shù)據(jù)科學(xué)相關(guān)文獻機構(gòu)發(fā)文數(shù)排名表
排名 發(fā)文數(shù)/篇 最早發(fā)文時間/年 發(fā)文機構(gòu)
1 89 2010 武漢大學(xué)信息管理學(xué)院
2 63 2013 南京大學(xué)信息管理學(xué)院
3 30 2009 武漢大學(xué)信息資源研究中心
4 28 2014 中國科學(xué)院文獻情報中心
5 27 2013 中國科學(xué)院大學(xué)
6 26 2015 中國人民大學(xué)信息資源管理中心
7 21 2019 中國科學(xué)院大學(xué)經(jīng)濟與管理學(xué)院
8 20 2008 中國人民大學(xué)統(tǒng)計學(xué)院
9 20 2016 南京理工大學(xué)經(jīng)濟管理學(xué)院
10 19 2018 江蘇省數(shù)據(jù)工程和知識服務(wù)中心
11 19 2009 北京大學(xué)信息管理系
圖5? 武漢大學(xué)信息管理學(xué)院機構(gòu)合作網(wǎng)絡(luò)圖譜
4.2? 關(guān)鍵詞共現(xiàn)及突變詞檢測圖譜
4.2.1? 關(guān)鍵詞共現(xiàn)分析
生成熱點關(guān)鍵詞共現(xiàn)圖譜如圖6所示,關(guān)鍵詞的節(jié)點越大,說明該關(guān)鍵詞的被引用頻次就越高。根據(jù)熱點關(guān)鍵詞出現(xiàn)的頻次排名,聯(lián)系表1,在20個熱點關(guān)鍵詞中,除去少數(shù)情況,這些關(guān)鍵詞基本遵循頻次越高中心性越高的規(guī)律。而與研究領(lǐng)域數(shù)據(jù)科學(xué)密切相關(guān)的大數(shù)據(jù)、人工智能、機器學(xué)習(xí)等詞匯,均表現(xiàn)出明顯的高頻高中心性的特點。這些詞匯在數(shù)據(jù)科學(xué)研究領(lǐng)域作用較大,對研究有著舉足輕重的作用。此外,數(shù)據(jù)科學(xué)的構(gòu)建離不開算法、數(shù)據(jù)管理,這些都在關(guān)鍵詞共現(xiàn)圖譜中得到了表現(xiàn)。
圖6? 2007—2023年數(shù)據(jù)科學(xué)領(lǐng)域關(guān)鍵詞共現(xiàn)知識圖譜
如圖7所示,對數(shù)據(jù)科學(xué)關(guān)鍵詞進行基于LLR的聚類,可以得到11個類別。其中“學(xué)習(xí)科學(xué)”一類的論文時間基本集中在2010年左右(連線顏色為灰色),在此不做考慮。由聚類圖可見,數(shù)據(jù)科學(xué)的類別緊靠大數(shù)據(jù)和數(shù)據(jù)挖掘表明這幾類的密切程度極大。同時機器學(xué)習(xí)和人工智能節(jié)點的最外圍表現(xiàn)出明顯的紅色,說明這兩個類別是當(dāng)下數(shù)據(jù)科學(xué)研究的核心熱點主題??梢哉f明,當(dāng)前主流開展的數(shù)據(jù)科學(xué)研究基本在這兩個類別的范圍之內(nèi)。此外,金融科技、知識圖譜、信息抽取沒有表現(xiàn)出明顯的節(jié)點,說明這些是數(shù)據(jù)科學(xué)的廣泛應(yīng)用層面,其熱點程度不如機器學(xué)習(xí)與人工智能,是過去十五年中數(shù)據(jù)科學(xué)應(yīng)用領(lǐng)域的粗略概括。
4.2.2? 突變詞檢測分析
利用CiteSpace的突變檢測(Burst Detection)功能,對數(shù)據(jù)科學(xué)CNKI庫近十五年的文獻的全部關(guān)鍵詞進行探測,利用詞頻的時間分布與變化趨勢,獲得突變詞的演變進展,演進情況如圖8所示。
圖8? 2007—2023年數(shù)據(jù)科學(xué)研究領(lǐng)域突變詞檢測圖譜
在2007—2023年間共出現(xiàn)了28個突變詞,即數(shù)據(jù)挖掘、本體、科學(xué)院、信息抽取、可視化、云計算、數(shù)據(jù)、大數(shù)據(jù)、數(shù)據(jù)科學(xué)、統(tǒng)計學(xué)、第四范式、數(shù)據(jù)分析、社會科學(xué)、學(xué)習(xí)分析……這些突變詞一起組成了近十五年數(shù)據(jù)科學(xué)領(lǐng)域研究的前沿與新興領(lǐng)域。
把這28個突變詞分成三個時期,從而更好地分析數(shù)據(jù)科學(xué)十五年來的演進進程。2007—2012年,國內(nèi)的數(shù)據(jù)科學(xué)主要應(yīng)用在信息抽取、數(shù)據(jù)挖掘等方面,主要由科學(xué)院進行研究;2012—2017年,隨著大數(shù)據(jù)概念被提出[13],數(shù)據(jù)科學(xué)作為一門學(xué)習(xí)分析的新興專業(yè),統(tǒng)計學(xué)等關(guān)鍵詞在這一時期作為研究熱點;2017—2023年,在這一時期,數(shù)字經(jīng)濟、可解釋性、文本分析、預(yù)測模型成為數(shù)據(jù)科學(xué)的研究熱點,至今仍保持著熱度。由此可知,目前數(shù)據(jù)科學(xué)領(lǐng)域的研究側(cè)重點在集成學(xué)習(xí)、機器學(xué)習(xí)領(lǐng)域[14],數(shù)據(jù)科學(xué)仍處于不斷發(fā)展和應(yīng)用階段,也有待更加快速、便捷算法的更新迭代。
5? 國內(nèi)外深度學(xué)習(xí)(數(shù)據(jù)科學(xué))研究比較
5.1? 基于Web of Science核心庫的文獻分析
如圖9所示,WOS數(shù)據(jù)科學(xué)領(lǐng)域關(guān)鍵詞共現(xiàn)知識圖譜中共有節(jié)點N(108)個,連線E(389)條,中心度Density=0.067 3。分析結(jié)果如圖10所示,近十五年數(shù)據(jù)科學(xué)的研究熱點依次為Artificial Intelligence、Machine Learning、Big Data、Deep Learning、Information、Trust、Health Care、Classification、Computer Version等。
圖9? WOS數(shù)據(jù)科學(xué)領(lǐng)域關(guān)鍵詞共現(xiàn)知識圖譜
圖10? WOS數(shù)據(jù)科學(xué)關(guān)鍵詞聚類圖
如表3所示,通過對關(guān)鍵詞的聚類處理,出現(xiàn)了6個類別。
表3? WOS核心期刊庫數(shù)據(jù)科學(xué)文獻關(guān)鍵詞聚類結(jié)果
聚類ID 輪廓值 聚類標(biāo)簽
#0 0.872 Machine learning
#1 0.923 Deep learning
#2 0.887 Molecular imaging
#3 0.992 Comprehensibility
#4 0.907 Causability
#5 0.963 Synapses
5.2? 研究比較
對比CNKI和Web of Science核心期刊庫的可視化結(jié)果,可以發(fā)現(xiàn)以下特點。
國內(nèi)數(shù)據(jù)科學(xué)的研究熱點基本涵蓋國外研究的熱點,如機器學(xué)習(xí)、大數(shù)據(jù)、深度學(xué)習(xí)、可理解性等,同時其分析結(jié)果也含有新工科等一些偏學(xué)科建設(shè)的關(guān)鍵詞信息[15]。一方面,這是因為文獻去臟化處理作篩除時保留了一些關(guān)聯(lián)性不強的文獻,具有一定的客觀性;另一方面,國內(nèi)將“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”列為二級學(xué)科,是其研究索引結(jié)果中包含了較多教育學(xué)的文獻內(nèi)容所致。
國內(nèi)數(shù)據(jù)學(xué)科研究更多偏向于現(xiàn)有原理的技術(shù)應(yīng)用,因此結(jié)果降維聚類后含有交叉學(xué)科的聚類標(biāo)簽。而國外數(shù)據(jù)學(xué)科研究更多專注于理論方向上的研究,如深度學(xué)習(xí)、機器學(xué)習(xí)算法等。
6? 前沿研究難題
新的科學(xué)的范式往往來源于數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn),即大數(shù)據(jù)問題[16]。雖然大量的數(shù)據(jù)中常常隱藏著非常多的有用價值,能夠為科學(xué)進步和社會生產(chǎn)提供幫助,但同時大數(shù)據(jù)也面臨著許多的挑戰(zhàn)。隨著信息增長的速度以指數(shù)函數(shù)速度增長,海量數(shù)據(jù)對人們造成極大困擾,無論是數(shù)據(jù)收集、數(shù)據(jù)存儲,還是數(shù)據(jù)分析、數(shù)據(jù)可視化,都存在著眾多的挑戰(zhàn)與困難[17]。文章結(jié)合一些綜述性文獻,對數(shù)據(jù)科學(xué)前沿面臨的難題作一個簡單整理。
數(shù)據(jù)的初步處理。大數(shù)據(jù)樣本的獲得,往往需要多個來源,而多數(shù)的來源彼此獨立。它們匯集而形成大量、復(fù)雜且不斷增長的數(shù)據(jù)集[18],這就使得如何選擇最有價值的來源并有效融合信息成了數(shù)據(jù)科學(xué)領(lǐng)域的核心問題。
數(shù)據(jù)的深度挖掘。圖片、音頻、視頻等文件數(shù)據(jù)大多屬于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),對于這類數(shù)據(jù)的挖掘處理,需要通過大數(shù)據(jù)的語義理解與分析。大數(shù)據(jù)語義分析技術(shù)將為基于網(wǎng)絡(luò)大數(shù)據(jù)的理解提供關(guān)鍵支持,是眾多大數(shù)據(jù)應(yīng)用的基礎(chǔ)[19]。這就需要在大數(shù)據(jù)自然語言識別和非結(jié)構(gòu)化數(shù)據(jù)的集成技術(shù)上取得突破。
數(shù)據(jù)的分析與利用。數(shù)據(jù)采集、存儲、管理與深度處理等最終目的是要挖掘出數(shù)據(jù)的價值,這也是數(shù)據(jù)科學(xué)興起與發(fā)展的根本[20]。數(shù)據(jù)科學(xué)的研究目的是為了對海量數(shù)據(jù)進行處理和分析,從異構(gòu)數(shù)據(jù)中獲取有價值的知識,為決策服務(wù),而決策通常是多維的,需要數(shù)據(jù)分析人員能夠從數(shù)據(jù)的多維角度對數(shù)據(jù)進行處理分析,并整合成能夠為決策提供有效價值服務(wù)的信息,因此數(shù)據(jù)科學(xué)如何進行可視化輔助分析人員提取有效信息也就非常關(guān)鍵了。
個人數(shù)據(jù)的保護。數(shù)據(jù)科學(xué)的發(fā)展,可以較大程度提高對以往看似無用數(shù)據(jù)的利用率,提取有價值的可處理信息。因此,伴隨著數(shù)據(jù)科學(xué)的不斷迭代進步,就給如何保護原始個人數(shù)據(jù)庫信息帶來了挑戰(zhàn)。
7? 結(jié)? 論
文章對國內(nèi)CNKI和國外Web of Science核心庫2007—2023年期間數(shù)據(jù)科學(xué)、機器學(xué)習(xí)領(lǐng)域為關(guān)鍵詞進行了知識圖譜分析,使用CiteSpace軟件工具繪制了時空分析圖譜、關(guān)鍵詞共現(xiàn)圖譜以及突變詞檢測圖譜,并對各個圖譜進行分析,得出了數(shù)據(jù)科學(xué)領(lǐng)域的研究進展和研究熱點。從國內(nèi)研究的關(guān)鍵詞共現(xiàn)來看,數(shù)據(jù)科學(xué)的研究熱點集中在大數(shù)據(jù)、人工智能、數(shù)據(jù)挖掘、算法、隨機森林、神經(jīng)網(wǎng)絡(luò)和預(yù)測等。突變詞檢測圖譜則表明數(shù)據(jù)科學(xué)的當(dāng)前熱點集中在集成學(xué)習(xí)、文本分析和預(yù)測模型。其中深度學(xué)習(xí)的深度置信網(wǎng)絡(luò),也是該領(lǐng)域目前的研究熱點之一。此外文章還對比分析了國內(nèi)外深度學(xué)習(xí)研究熱點的區(qū)別,陳述了當(dāng)前數(shù)據(jù)科學(xué)領(lǐng)域前沿面臨的難題。
總體而言,數(shù)據(jù)科學(xué)領(lǐng)域的一些理論尚待完善,各種新型應(yīng)用也處于探索研究階段。同時,文章還存在著一定局限性,主要受限于期刊數(shù)據(jù)仍存在“去臟化”的上限空間,使用CiteSpace的一些剪枝功能的參數(shù)還能做到進一步優(yōu)化與調(diào)試等。文章對文獻的關(guān)鍵詞等基本信息進行現(xiàn)有篩除,獲得了數(shù)據(jù)科學(xué)當(dāng)前的熱點方向,后續(xù)前沿領(lǐng)域的前進方向還需在文章結(jié)果的基礎(chǔ)上做進一步的優(yōu)化分析,總而得到更具指導(dǎo)意義的結(jié)論。
參考文獻:
[1] 周傲英,錢衛(wèi)寧,王長波.數(shù)據(jù)科學(xué)與工程:大數(shù)據(jù)時代的新興交叉學(xué)科 [J].大數(shù)據(jù),2015,1(2):90-99.
[2] 陳振沖,賀田田.數(shù)據(jù)科學(xué)人才的需求與培養(yǎng) [J].大數(shù)據(jù),2016,2(5):95-106.
[3] DONOHO D. 50 Years of Data Science [J].Journal of Computational and Graphical Statistics,2017,26(4):745-766.
[4] CAO L B. Data Science: A Comprehensive Overview [J].ACM Computing Surveys,2017,50(3):1-42.
[5] HINTON G E,OSINDERO S,TEH Y-W. A Fast Learning Algorithm for Deep Belief Nets [J].Neural Computation,2006,18(7):1527-1554.
[6] 史紀(jì)元.基于CiteSpaceⅢ輸血醫(yī)學(xué)研究領(lǐng)域知識圖譜分析 [D].西安:第四軍醫(yī)大學(xué),2015.
[7] 李杰,陳超美.CiteSpace:科技文本挖掘及可視化 [M].北京:首都經(jīng)濟貿(mào)易大學(xué)出版社,2016.
[8] 劉則淵,陳超美,侯海燕,等.邁向科學(xué)學(xué)大變革的時代 [J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2009,30(7):5-12.
[9] 陳悅,陳超美,劉則淵,等.CiteSpace知識圖譜的方法論功能 [J].科學(xué)學(xué)研究,2015,33(2):242-253.
[10] 周金俠.基于Citespace Ⅱ的信息可視化文獻的量化分析 [J].情報科學(xué),2011,29(1):98-101+112.
[11] 莊詩夢,王東波.深度學(xué)習(xí)領(lǐng)域研究熱點與前沿分析——基于CiteSpace的信息可視化分析 [J].河北科技圖苑,2018,31(1):73-82.
[12] 葉文豪,王東波.基于知識圖譜的國外數(shù)據(jù)科學(xué)研究狀況分析 [J].河北科技圖苑,2017,30(6):73-83.
[13] 張???,趙文斌,葉權(quán)慧,等.機器學(xué)習(xí)領(lǐng)域研究熱點與前沿演進——基于CiteSpace的可視化分析 [J].軟件導(dǎo)刊,2019,18(9):5-8+225.
[14] 徐建國,劉泳慧,劉夢凡.國內(nèi)深度學(xué)習(xí)領(lǐng)域研究進展與熱點分析——基于CiteSpace與VOSviewer的綜合應(yīng)用 [J].軟件導(dǎo)刊,2021,20(1):234-237.
[15] 李嘉雯,李玉斌,袁子涵.國外近十年深度學(xué)習(xí)研究進展——基于CiteSpace知識圖譜的可視化研究 [J].軟件,2019,40(2):147-151.
[16] 朝樂門,邢春曉,張勇.數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢 [J].計算機科學(xué),2018,45(1):1-13.
[17] CHEN C L P,ZHANG C-Y. Data-intensive Applications, Challenges, Techniques and Technologies: A Survey on Big Data [J].Information Sciences,2014,275:314-347.
[18] WU X D,ZHU X Q,WU G-Q,et al. Data Mining with Big Data [J].IEEE Transactions on Knowledge and Data Engineering,2014,26(1):97-107.
[19] 唐杰,陳文光.面向大社交數(shù)據(jù)的深度分析與挖掘 [J].科學(xué)通報,2015,60(Z1):509-519.
[20] 王曰芬,謝清楠,宋小康.國外數(shù)據(jù)科學(xué)研究的回顧與展望 [J].圖書情報工作,2016,60(14):5-14.
作者簡介:張錦佺(2002—),男,漢族,湖南長沙人,本科在讀,研究方向:數(shù)據(jù)科學(xué)與大數(shù)據(jù)、深度學(xué)習(xí)、信息化應(yīng)用。