(武漢船舶職業(yè)技術(shù)學(xué)院,湖北武漢 430050)
文本挖掘是近些年來(lái)一個(gè)新興研究領(lǐng)域,主要是從大量的、無(wú)結(jié)構(gòu)的文本信息中發(fā)現(xiàn)潛在的、可能的數(shù)據(jù)模式、內(nèi)在聯(lián)系、規(guī)律、發(fā)展趨勢(shì)等,抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí),并且利用這些知識(shí)更好地組織信息的過(guò)程[1]。文本挖掘的研究領(lǐng)域范圍較廣,主要涉及自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、信息檢索等多個(gè)內(nèi)容,而不同領(lǐng)域的研究者對(duì)文本挖掘的應(yīng)用目的也不同。
本文以Web of Science 數(shù)據(jù)庫(kù)為數(shù)據(jù)源,利用CiteSpace軟件對(duì)2007~2016年間文本挖掘主題有關(guān)的文獻(xiàn)進(jìn)行可視化分析,以了解文本挖掘領(lǐng)域的研究現(xiàn)狀,探測(cè)文本挖掘領(lǐng)域研究前沿的發(fā)展趨勢(shì)。
本文選取WOS數(shù)據(jù)庫(kù)為數(shù)據(jù)源,以2007-2016年共10年為時(shí)間跨度,以“text mining”或“text analysis”為檢索詞進(jìn)行主題檢索,將文獻(xiàn)類型設(shè)定為“Article OR Review”,共得到4015條文獻(xiàn)記錄。統(tǒng)計(jì)得到2007-2016年文本挖掘領(lǐng)域每年出版文獻(xiàn)量情況分布圖(見(jiàn)圖1)。從圖中可以看出,文本挖掘相關(guān)的論文持續(xù)增加,到2015年有明顯上漲,當(dāng)年出版文獻(xiàn)超過(guò)600篇,這說(shuō)明隨著技術(shù)的進(jìn)步和研究工具的發(fā)展,進(jìn)行文本挖掘研究的人越來(lái)越多,文本挖掘的影響力在逐步攀升,文本挖掘技術(shù)的作用也越來(lái)越不能被忽視。
圖1 2007-2016年文本挖掘相關(guān)論文數(shù)量的年度分布
使用當(dāng)前國(guó)際信息可視化分析工具CiteSpace[2-4]軟件,運(yùn)用文獻(xiàn)共被引分析方法,對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行計(jì)量和可視化分析,探測(cè)文本挖掘領(lǐng)域的發(fā)展趨勢(shì)、前沿主題及其演化規(guī)律。
CiteSpace是Citation Space的簡(jiǎn)稱,可譯為“引文空間”。CiteSpace軟件是一款著眼于分析科學(xué)分析中蘊(yùn)含的潛在知識(shí),并在科學(xué)計(jì)量學(xué)、數(shù)據(jù)和信息可視化背景下逐漸發(fā)展起來(lái)的一款引文分析軟件,可以通過(guò)可視化的手段來(lái)呈現(xiàn)科學(xué)知識(shí)的結(jié)構(gòu)、規(guī)律和分布情況[5]。軟件基于引文分析的原理,通過(guò)對(duì)文獻(xiàn)數(shù)據(jù)信息的計(jì)量和可視化處理,探測(cè)學(xué)科研究前沿隨著時(shí)間的變化趨勢(shì)以及研究前沿與其知識(shí)基礎(chǔ)之間的關(guān)系,發(fā)現(xiàn)不同研究前沿之間的內(nèi)在聯(lián)系,使研究者能夠直觀地辨識(shí)學(xué)科知識(shí)結(jié)構(gòu)與知識(shí)基礎(chǔ)的演進(jìn)。
在功能與參數(shù)設(shè)置區(qū)的Node Type選擇為Institution,得到文本挖掘研究的機(jī)構(gòu)合作網(wǎng)絡(luò)(圖2)。其中節(jié)點(diǎn)的大小代表了發(fā)表論文的數(shù)量,連線反映合作關(guān)系強(qiáng)度。從圖中可以看出各機(jī)構(gòu)間有較多合作。
圖2 2007-2016年文本挖掘研究機(jī)構(gòu)合作可視化結(jié)果圖
按照中心性強(qiáng)度排名,得到近10年發(fā)表研究成果有影響力的前15名研究機(jī)構(gòu)(表1)。
表1 按中心性強(qiáng)度排名的機(jī)構(gòu)
從表格可以看出,排名靠前的15所科研機(jī)構(gòu)中,有7所位于美國(guó),5所位于中國(guó),2所位于英國(guó),1所位于比利時(shí)。就單個(gè)科研機(jī)構(gòu)來(lái)看,英國(guó)曼徹斯特大學(xué)的發(fā)文頻次最大中心性最高,這表明曼徹斯特大學(xué)在文本挖掘的研究較為活躍,發(fā)文貢獻(xiàn)最大;從整體來(lái)看,在文本挖掘領(lǐng)域有較大影響力和控制力的機(jī)構(gòu)多在美國(guó),其次在中國(guó)。國(guó)內(nèi)研究文本分析的機(jī)構(gòu)較多,有一定影響力和控制力的機(jī)構(gòu)分別是:微軟亞洲研究院、清華大學(xué)、中國(guó)科學(xué)院、臺(tái)灣中央研究院以及香港城市大學(xué)。
共被引分析是指兩篇文獻(xiàn)共同出現(xiàn)在第三篇施引文獻(xiàn)的參考文獻(xiàn)目錄中,則這兩篇文獻(xiàn)形成共被引關(guān)系[6]。Cite Space軟件開(kāi)發(fā)者陳超美博士曾在論文中表示,通過(guò)文獻(xiàn)共被引分析,一組突現(xiàn)的動(dòng)態(tài)概念和潛在的研究問(wèn)題即可用于探尋該領(lǐng)域的研究前沿。利用聚類分析等多元統(tǒng)計(jì)分析方法,可以把眾多的分析對(duì)象之間錯(cuò)綜復(fù)雜的網(wǎng)狀關(guān)系簡(jiǎn)化為數(shù)目相對(duì)較少的若干類群之間的關(guān)系并直觀地表示出來(lái)。
在 Cite Space 中選擇“cited reference”為網(wǎng)絡(luò)節(jié)點(diǎn),先用系統(tǒng)預(yù)定閾值,然后根據(jù)選入節(jié)點(diǎn)的數(shù)量再進(jìn)行調(diào)整,經(jīng)調(diào)整得到共被引分析圖譜(圖3)。
圖3 2007-2016年文本挖掘共被引文獻(xiàn)分析可視化結(jié)果圖
其中每一個(gè)節(jié)點(diǎn)表示一篇文獻(xiàn),節(jié)點(diǎn)的大小反映了被引用的次數(shù),根據(jù)被引用次數(shù)列出引用次數(shù)大于75次的14篇文獻(xiàn)(表2),這14篇文獻(xiàn)也是整個(gè)研究領(lǐng)域的知識(shí)基礎(chǔ)。
表2 經(jīng)典文獻(xiàn)(共被引頻次>75次)
從表2可以看出,盡管引用次數(shù)大于75次的有14篇文獻(xiàn),但涉及到的作者只有10位,其中有3位作者各自有2篇文獻(xiàn)被引用次數(shù)大于80次,分別是:Salton Gerard、Pang Bo、C Manning。
Salton Gerard是信息檢索之父,也是信息檢索向量空間模型的創(chuàng)始人。他開(kāi)發(fā)了著名的 SMART 文本檢索系統(tǒng),并將向量空間模型應(yīng)用于這個(gè)系統(tǒng)。1988年,Salton Gerard總結(jié)各種不同的自動(dòng)術(shù)語(yǔ)加權(quán)方法的,并以此為基礎(chǔ)提出了單個(gè)術(shù)語(yǔ)的標(biāo)引模型。
Pang Bo的兩篇文章都是關(guān)于情感分析,一篇介紹了實(shí)現(xiàn)觀點(diǎn)挖掘和情感分析的技術(shù)和方法,另一篇?jiǎng)t采用樸素貝葉斯,最大熵分類和支持向量機(jī)三種機(jī)器學(xué)習(xí)算法確定電影評(píng)論所表達(dá)的態(tài)度是積極還是消極,并將情感分類與傳統(tǒng)的主題分類進(jìn)行對(duì)比,探討了情感分類所面臨的挑戰(zhàn)。
Christopher Manning是斯坦福大學(xué)計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)教授,也是自然語(yǔ)言處理領(lǐng)域的領(lǐng)導(dǎo)者。表2中被引用的兩本都是Christopher Manning與人合著的教科書,一本是信息檢索的教材,從計(jì)算機(jī)科學(xué)領(lǐng)域的角度出發(fā),介紹了信息檢索的基礎(chǔ)知識(shí)、搜索引擎的核心技術(shù),如文檔分類和文檔聚類問(wèn)題,以及機(jī)器學(xué)習(xí)和數(shù)值計(jì)算方法;另一本是關(guān)于自然語(yǔ)言處理的教材,主要是結(jié)合數(shù)學(xué)和語(yǔ)言學(xué)基礎(chǔ),采用統(tǒng)計(jì)方法介紹了構(gòu)建自然語(yǔ)言處理工具所需的理論與算法。
而14篇中引用次數(shù)最多是關(guān)于LDA模型的一篇文獻(xiàn)。D. M. Blei在2003年提出了LDA(Latent Dirichlet Allocation)模型,即潛在狄利克雷分配模型。LDA模型是一個(gè)三級(jí)分層貝葉斯模型,包含詞、主題和文檔三層結(jié)構(gòu),可以用于收集離散數(shù)據(jù)(如文本語(yǔ)料庫(kù))以生成主題,而文本建模中的主題概率提供文檔的顯式表示[7]。D. M. Blei等人提出基于變分方法的有效近似推理技術(shù)和用于參數(shù)經(jīng)驗(yàn)貝葉斯估計(jì)的EM算法,并將LDA模型與MU模型、LSA模型對(duì)比。LDA模型現(xiàn)在已經(jīng)成為了主題建模中的一個(gè)標(biāo)準(zhǔn),自誕生之后LDA模型有了蓬勃的擴(kuò)展,可以應(yīng)用于情感分析、學(xué)術(shù)文章挖掘、社會(huì)媒體、時(shí)序文本流、網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)等,近幾年在社會(huì)網(wǎng)絡(luò)和社會(huì)媒體研究領(lǐng)域最為常見(jiàn)。
主題模型常常與自然語(yǔ)言處理一起使用,Porter stemmer 算法就是自然語(yǔ)言處理算法的一種。M.F. Porter在1980年建立了Porter stemmer 算法,并在其網(wǎng)站上公布了各種語(yǔ)言的實(shí)現(xiàn)版本,其中C語(yǔ)言的版本是作者編寫的最權(quán)威的版本。Porter stemmer是一種高效的詞干提取算法,可以用來(lái)還原英文單詞的詞性和詞形變化,去掉前綴、后綴等[8]。目前可以通過(guò)互聯(lián)網(wǎng)獲取對(duì)應(yīng)的Porter stemmer 算法版本,M.F. Porter為文本挖掘研究人員提供了極大的便利。
機(jī)器學(xué)習(xí)的任務(wù)是從數(shù)據(jù)中歸納或發(fā)現(xiàn)規(guī)律,自1986年關(guān)于機(jī)器學(xué)習(xí)的研究再次興起,越來(lái)越多的學(xué)者將機(jī)器學(xué)習(xí)應(yīng)用到自己的研究領(lǐng)域,F(xiàn) Sebastiani于2002年討論了應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行文本分類的主要方法,主要集中在文件的表示,分類器的構(gòu)建和分類器的評(píng)估[9]。
文本挖掘在信息分析中的應(yīng)用較多,在客觀需求和條件具備的雙重推動(dòng)下,最為活躍的領(lǐng)域是生物醫(yī)藥領(lǐng)域。生物醫(yī)藥領(lǐng)域開(kāi)發(fā)了一系列文本挖掘和信息提取工具,以從日益增長(zhǎng)的文獻(xiàn)中提取相關(guān)信息。
2000年M Ashburner探討了基因本體論,通過(guò)構(gòu)建生物過(guò)程、分子功能和細(xì)胞組分三種獨(dú)立的本體,建立了可以用于研究真核細(xì)胞細(xì)胞內(nèi)基因和蛋白質(zhì)功能的自動(dòng)可控詞表[10]。
生物醫(yī)學(xué)命名實(shí)體識(shí)別就是對(duì)存在大量生物醫(yī)學(xué)專業(yè)實(shí)例和術(shù)語(yǔ)的生物醫(yī)學(xué)文本進(jìn)行詳細(xì)、有效的分析,進(jìn)而抽取有用的信息。2004年開(kāi)始舉辦第一屆BioCreative競(jìng)賽, BioCreative是致力于生物信息的探索競(jìng)賽,旨在通過(guò)全社會(huì)的共同努力,促進(jìn)生物醫(yī)學(xué)領(lǐng)域信息抽取和文本挖掘技術(shù)的發(fā)展。BioCreative 2004評(píng)測(cè)包括生物命名實(shí)體識(shí)別任務(wù)、實(shí)體命名規(guī)范化的任務(wù)等。BioCreative 2006包括基因提及識(shí)別、基因名標(biāo)準(zhǔn)化以及蛋白質(zhì)——蛋白質(zhì)交互關(guān)系抽取三項(xiàng)任務(wù)。LHirschman和M Krallinger分別概述了BioCreative 2004的任務(wù)以及BioCreative 2006面臨的挑戰(zhàn)。
截至2006年,由于文本挖掘和數(shù)據(jù)集成仍處于起步階段,可用于生物醫(yī)學(xué)文獻(xiàn)挖掘的工具不多,LJ Jensen列舉了一些可以用于生物醫(yī)學(xué)文獻(xiàn)挖掘的在線工具和資源,概述了信息檢索、實(shí)體識(shí)別、信息提取三個(gè)任務(wù),文本挖掘的基本流程和方法,以及如何將挖掘的數(shù)據(jù)與生物醫(yī)藥領(lǐng)域相結(jié)合[11]。
綜合這14篇文獻(xiàn)的主題,其中有4篇是關(guān)于生物醫(yī)學(xué)領(lǐng)域基因知識(shí)、文本文獻(xiàn)的挖掘,2篇是關(guān)于信息的獲取及索引,剩下的8篇主要涉及自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、情感分析、文本聚類及文本分類。
關(guān)鍵詞的共現(xiàn)分析就是對(duì)數(shù)據(jù)集中作者提供的關(guān)鍵詞的分析,關(guān)鍵詞共現(xiàn)的頻次越多,文獻(xiàn)所研究的主題越接近,在知識(shí)圖譜上它們之間的距離就越接近。在 CiteSpace 上將節(jié)點(diǎn)選擇為“key words”,連線強(qiáng)度選擇Cosine,網(wǎng)絡(luò)裁剪使用MST+ Pruning the merged network+ Pruning the sliced networks,調(diào)整閾值,繪制關(guān)鍵詞共現(xiàn)知識(shí)圖譜。首次繪制發(fā)現(xiàn)關(guān)鍵詞中有很多詞是同義詞或者一個(gè)詞有不同的寫法,例如“text mining”一詞出現(xiàn) “text-mining”、“textmining”等多種寫法,諸如此類的情況較多,因此需要手動(dòng)合并同義關(guān)鍵詞。經(jīng)調(diào)整,繪制出數(shù)據(jù)挖掘領(lǐng)域關(guān)鍵詞共現(xiàn)知識(shí)圖譜(圖4)。
圖4 2007-2016年關(guān)鍵詞共現(xiàn)分析可視化結(jié)果圖
統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)頻次,列出出現(xiàn)頻次>100的關(guān)鍵詞,共有27個(gè)(表3)。
表3 關(guān)鍵詞(出現(xiàn)頻次>100)
結(jié)合聚類結(jié)果以及出現(xiàn)的關(guān)鍵詞進(jìn)行分析,發(fā)現(xiàn)近 10 年來(lái)文本挖掘的研究熱點(diǎn):(1)文本數(shù)據(jù)挖掘的基礎(chǔ)領(lǐng)域研究,包括機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、情感分析、主題建模等;(2)文本數(shù)據(jù)挖掘的技術(shù)研究,包括文本信息抽取、文本分類、文本聚類、文本數(shù)據(jù)處理等;(3)具體應(yīng)用領(lǐng)域研究,包括知識(shí)發(fā)現(xiàn)、文獻(xiàn)計(jì)量研究、生物醫(yī)學(xué)研究、文本挖掘工具研究、Web研究、社交媒體數(shù)據(jù)研究等。
對(duì)文本挖掘的技術(shù)研究主要集中在信息檢索、信息提取、文檔分類、文檔聚類、自然語(yǔ)言處理和Web挖掘6個(gè)方面,包括關(guān)鍵詞搜索、關(guān)鍵詞查詢、索引、鏈接分析、文本分類、文檔標(biāo)準(zhǔn)化為主、短語(yǔ)聚類、主題模型、拼寫糾正、詞法化、語(yǔ)法解析和詞義消歧、Web鏈接分析等內(nèi)容。
從關(guān)鍵詞出現(xiàn)的時(shí)間可以看出,隨著大數(shù)據(jù)時(shí)代的來(lái)臨、新興技術(shù)的出現(xiàn),文本挖掘被應(yīng)用到各種不同的領(lǐng)域。例如將文本挖掘用于網(wǎng)絡(luò)新聞及輿情分析、電子商務(wù)用戶評(píng)論以及社交網(wǎng)絡(luò)用戶生成數(shù)據(jù)分析、商業(yè)流程優(yōu)化、醫(yī)療健康分析等。而比較熱門的應(yīng)用領(lǐng)域有4個(gè):學(xué)術(shù)科研領(lǐng)域、生命科學(xué)領(lǐng)域、社交媒體、商務(wù)智能。
進(jìn)入21世紀(jì)的信息化時(shí)代以來(lái),數(shù)據(jù)的規(guī)模正以指數(shù)的速度與日俱增,幾乎所有的組織、機(jī)構(gòu)都在存儲(chǔ)電子數(shù)據(jù),同時(shí)互聯(lián)網(wǎng)上的電子圖書館、社交媒體應(yīng)用也生成了大量的數(shù)據(jù),這使得文本挖掘成為一大熱點(diǎn),無(wú)論是學(xué)術(shù)界還是產(chǎn)業(yè)界都對(duì)其抱以相當(dāng)積極的關(guān)注。本文基于CiteSpace軟件分析了Web of Science 數(shù)據(jù)庫(kù)采集到的4015條文獻(xiàn)記錄,綜合對(duì)機(jī)構(gòu)合作圖譜、文獻(xiàn)共被引圖譜和關(guān)鍵詞共現(xiàn)圖譜進(jìn)行的可視化分析得到以下結(jié)論:
(1)從整體來(lái)看,在文本挖掘領(lǐng)域有較大影響力和控制力的研究機(jī)構(gòu)多在美國(guó),其次在中國(guó)。
(2)文本挖掘的研究主要涉及情感分析與主題分析、文本挖掘理論及主要算法模型、生物醫(yī)學(xué)研究、概念與語(yǔ)義關(guān)系發(fā)現(xiàn)、其它領(lǐng)域應(yīng)用5大類。其中對(duì)文本挖掘的技術(shù)研究主要集中在信息檢索、信息提取、文檔分類、文檔聚類、自然語(yǔ)言處理和Web挖掘6個(gè)方面,包括關(guān)鍵詞搜索、關(guān)鍵詞查詢、索引、鏈接分析、文本分類、文檔標(biāo)準(zhǔn)化為主、短語(yǔ)聚類、主題模型、拼寫糾正、詞法化、語(yǔ)法解析和詞義消歧、Web鏈接分析等內(nèi)容。
(3)文本挖掘的應(yīng)用領(lǐng)域較為廣泛,從研究趨勢(shì)來(lái)看,未來(lái)的文本挖掘應(yīng)用將集中在4個(gè)方面:學(xué)術(shù)科研領(lǐng)域、生命科學(xué)領(lǐng)域、社交化媒體、商務(wù)智能。
總體來(lái)說(shuō),文本挖掘相關(guān)的研究在不斷深入,相關(guān)的算法和模型在不斷調(diào)整優(yōu)化。未來(lái)在基于新方法和新技術(shù)的文本挖掘研究方面,以及在更多學(xué)科和領(lǐng)域中的信息分析中,文本挖掘?qū)?huì)得到更多的關(guān)注和更廣闊的研究空間。