葉 穎
(中南財經(jīng)政法大學圖書館 湖北武漢 430073)
新技術(shù)的發(fā)展在為人文研究帶來機遇的同時也對人文研究的科學性提出了新要求[1],當代人文研究已經(jīng)擴展到了前所未有的廣度,而數(shù)字人文便是描述這類研究的重要術(shù)語[2]。數(shù)字人文發(fā)展的開端源于二十世紀四十年代對中世紀時期哲學以及神學作品的數(shù)字化處理[3],而隨著學科交叉融合越來越受到科研人員的重視,如今的數(shù)字人文正將先進的數(shù)字化計算工具應用到更大范圍的學科研究中[4],通過數(shù)字技術(shù)與人文價值的互動,推動人文研究進入到新的領域。
國外學者對于數(shù)字人文研究的標志性事件是21世紀初“數(shù)字人文”這一名詞的提出[5],起初該名詞只是為了區(qū)分數(shù)字技術(shù)應用于人文學科的研究與人文資料的簡單數(shù)字化。然而隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)字技術(shù)在人文領域的思維、寫作與教學過程中顯示出的技術(shù)優(yōu)勢與引導作用越來越大[6],互聯(lián)網(wǎng)、語義網(wǎng)、尤其是Web2.0的發(fā)展,使得數(shù)字技術(shù)的交互性、網(wǎng)絡化和定制能力不斷提高[7],數(shù)字人文項目從數(shù)字化和文本分析逐漸擴展到了可視化、空間地理標示和網(wǎng)絡分析[8]。數(shù)字人文逐漸成為了一個范圍廣泛、核心含義與邊界都無固定模式的學科[9]。
國內(nèi)有關(guān)數(shù)字人文的研究開始于數(shù)字化進程與人文精神關(guān)系的討論[10]。而后數(shù)字人文的相關(guān)研究逐漸被國內(nèi)研究者們重視,從對國外數(shù)字人文前沿案例的分析[11]發(fā)展到以數(shù)據(jù)為驅(qū)動的人文學科研究模式轉(zhuǎn)型[12],國內(nèi)數(shù)字人文的相關(guān)研究在2016年后形成了“井噴式”發(fā)展[13],數(shù)字人文思想被越來越多的研究者所接受。
然而“數(shù)字人文”研究的發(fā)展正在隨技術(shù)的更新而不斷變化,從“人文計算”的以計算機技術(shù)對文本進行數(shù)字化處理[14],到人文學科研究對象數(shù)據(jù)的存儲和索引以及語料庫的建立[15],再到計算工具在所有文化產(chǎn)品交叉領域中的應用[16]。數(shù)字技術(shù)作為人文學科的研究工具已然成為了人文學科的中心[6]被應用到人文領域的寫作、思維、教學中,因此研究數(shù)字人文學科領域的發(fā)展情況和學科知識結(jié)構(gòu)對人文學科研究內(nèi)容的廣度和深度的擴展有著至關(guān)重要的作用。
文章以Web of Science核心全集(1986—2019)數(shù)據(jù)庫作為國外研究數(shù)據(jù)來源,選取“digital humanities”為主題進行檢索,中國學術(shù)期刊(網(wǎng)絡版)全文數(shù)據(jù)庫(1915—2019)為國內(nèi)研究數(shù)據(jù)來源,選取“數(shù)字人文”為主題進行檢索??紤]到2019年度數(shù)據(jù)尚不完整,僅檢索2018年及以前的數(shù)據(jù),Web of Science選取文獻類型為“Article”“Proceedings Paper”“Review”,并在機構(gòu)中篩除國內(nèi)科研機構(gòu),得到檢索結(jié)果1 275條。中國學術(shù)期刊(網(wǎng)絡版)全文數(shù)據(jù)庫選取來源類別為“CSSCI”的文獻,得到檢索結(jié)果232條,經(jīng)去除通知、啟示等后得到檢索結(jié)果220條。
共詞網(wǎng)絡分析方法是探究學科熱點的常見方法,最為普遍的是利用文獻中關(guān)鍵詞的共現(xiàn)關(guān)系構(gòu)建共詞網(wǎng)絡,使用網(wǎng)絡分析方法對學科發(fā)展脈絡進行梳理、對熱點進行分析。詞頻分析通過統(tǒng)計不同時期關(guān)鍵詞出現(xiàn)次數(shù)對學科研究熱點的發(fā)現(xiàn)進行挖掘,以此探究研究領域熱點的變化、知識結(jié)構(gòu)的變遷。通常的共詞網(wǎng)絡分析通過選擇高頻關(guān)鍵詞來達到減少無關(guān)詞干擾的目的,然而由于某些研究熱點在初期快速增長時詞頻計數(shù)可能無法達到高頻閾值,而獲取這些正在增長的熱點又恰恰是科研人員最需要的,因此文章結(jié)合詞頻分析與共詞分析法,在按時序統(tǒng)計關(guān)鍵詞的情況下,引入關(guān)鍵詞頻度演化變量At,對指定時間段t的關(guān)鍵詞頻Ft進行分析,即。若At在t時間段內(nèi)持續(xù)大于1,則表明該關(guān)鍵詞持續(xù)增長,有可能成為研究熱點,小于1則說明頻率減少,表明此類關(guān)鍵詞熱點呈下降趨勢,等于0意味著關(guān)鍵詞在當前統(tǒng)計時間段已沒有出現(xiàn),表明該關(guān)鍵詞已經(jīng)不再被科研人員所關(guān)注。因此At的大小表示關(guān)鍵詞在某一時段中頻度的演化情況,能夠從數(shù)量上衡量關(guān)鍵詞及關(guān)鍵詞所代表研究領域的發(fā)展變化情況。同時文章基于可視化圖模型G=(V,E),V∈(k1×kn),提出基于時序的圖模型Ti來描述關(guān)鍵詞頻度演化過程中的共詞網(wǎng)絡,即Ti=(Vk(At),Ek)。其中表示指定時間段內(nèi)關(guān)鍵詞k的頻度的演化情況,ak是關(guān)鍵詞節(jié)點在可視化時的控制系數(shù),取值為關(guān)鍵詞在開始時間段頻率的值,用來表示關(guān)鍵詞節(jié)點的初始大小,m表示關(guān)鍵詞的種類個數(shù),Vk(At)是在時間段內(nèi)詞頻持續(xù)增長關(guān)鍵詞的集合。Ek={Vk(At)×Vl(At)},由于詞頻隨時間段不同而變化,Ek表示關(guān)鍵詞k與其在同一篇文獻中出現(xiàn)的關(guān)鍵詞的關(guān)聯(lián)關(guān)系,是這些關(guān)鍵詞頻度演化過程中的共現(xiàn)關(guān)系矩陣。
Ti的網(wǎng)絡規(guī)??梢愿鶕?jù)關(guān)鍵詞詞頻At閾值的設定而變化,在提取研究熱點時At值越大表明篩選出的關(guān)鍵詞增長率越高,發(fā)展情況也越迅速。At閾值的選取對研究結(jié)果有著重要影響,閾值偏低會造成可視化結(jié)果的節(jié)點和連線數(shù)過多,影響數(shù)據(jù)挖掘效果,閾值偏高會過濾掉大量信息,使新興研究熱點的出現(xiàn)時間延長,影響數(shù)據(jù)挖掘效率。文章根據(jù)詞頻與時間的比例設定閾值,以一種關(guān)鍵詞在單位時間段內(nèi)最少出現(xiàn)1次為依據(jù),利用這樣的關(guān)鍵詞在所有關(guān)鍵詞中的比例決定閾值,即
文章共提取外文文獻的關(guān)鍵詞2 622個和中文文獻的英文關(guān)鍵詞325個,經(jīng)去重及合并單復數(shù)等篩選過程后得到關(guān)鍵詞2 867個,時間跨度為2004—2018年。
研究主題能夠反映學科領域內(nèi)的主要研究內(nèi)容,對研究熱度的變化進行動態(tài)分析有利于及時把握學科領域的研究重點和熱點[17]。文章選取文獻數(shù)、學科分布的宏觀維度和關(guān)鍵詞頻度變化的微觀維度對“數(shù)字人文”主題的國內(nèi)外研究文獻進行分析。
如表1的文獻分布表所示,國外針對數(shù)字人文研究領域的研究文獻數(shù)量逐年增加,這些文獻所涉及的學科類別也同步增加,而且研究文獻的增長勢頭在近5年內(nèi)更是突飛猛進。相比較而言,國內(nèi)學者對于數(shù)字人文研究領域的關(guān)注在近5年內(nèi)才開始,雖然研究文獻數(shù)量低于國外,但近2年的增加幅度較為明顯,可以推斷出國內(nèi)學者越來越重視數(shù)字人文研究領域。由于國內(nèi)數(shù)據(jù)庫與國外數(shù)據(jù)庫學科類別分類上具有明顯差異,無法直接將兩種類別數(shù)據(jù)進行比較。國內(nèi)數(shù)字人文相關(guān)研究主要集中在圖書情報領域,而國外的相關(guān)研究在信息科學與圖書館、人文綜合、文學、語言學、歷史、計算機等學科均有涉及,這說明國外數(shù)字人文相關(guān)研究已經(jīng)廣泛開展,國內(nèi)外研究在參與學科上具有顯著差異。
表1 數(shù)字人文研究主題文獻分布表
關(guān)鍵詞是研究文獻主題的濃縮與概括,研究關(guān)鍵詞頻度的變化能夠判斷學科領域研究的集中度情況。如圖1的關(guān)鍵詞數(shù)量變化表所示,2014年以前國內(nèi)外研究文獻關(guān)鍵詞的個數(shù)與關(guān)鍵詞的種類數(shù)基本相同,研究文獻的研究主題基本沒有重復,學科的研究重點還在探究之中。國外研究文獻自2014年,國內(nèi)自2015年開始關(guān)鍵詞的個數(shù)與種數(shù)之間差距開始顯現(xiàn),這說明學科研究熱點逐步形成,具備探尋學科知識結(jié)構(gòu)的條件。到最近的2018年,國外文獻關(guān)鍵詞種數(shù)與個數(shù)的比值為0.73,國內(nèi)文獻關(guān)鍵詞種數(shù)與個數(shù)的比值為0.61,相較于國外,國內(nèi)數(shù)字人文研究的集中度更高,學科研究熱點更為密集,但2018年國內(nèi)外相關(guān)研究在關(guān)鍵詞個數(shù)與種數(shù)上存在明顯不同的增長趨勢,國內(nèi)的相關(guān)研究的范圍正在逐步擴大,研究熱度在不斷上升。
圖1 關(guān)鍵詞數(shù)量變化圖
關(guān)鍵詞代表了文獻的研究主題、內(nèi)容和方法,同一篇文獻中關(guān)鍵詞擁有一定的關(guān)聯(lián)關(guān)系,而通過關(guān)鍵詞共現(xiàn)關(guān)系的耦合能夠?qū)⒉煌墨I聯(lián)系在一起,便于探尋學科知識結(jié)構(gòu)。同時,通過時間序列構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡能夠挖掘?qū)W科研究主題的發(fā)展狀況與成熟度。
文章將外文文獻的關(guān)鍵詞與中文文獻的英文關(guān)鍵詞分別進行提取,而后構(gòu)建2004—2018年數(shù)字人文研究領域共詞網(wǎng)絡,共提取出2 867個關(guān)鍵詞、4 529條關(guān)鍵詞共現(xiàn)關(guān)系,關(guān)鍵詞構(gòu)成了共詞網(wǎng)絡的節(jié)點,共現(xiàn)關(guān)系形成了連接關(guān)鍵詞的邊。由于節(jié)點和邊的數(shù)量較多,對分析存在一定的干擾,文章根據(jù)前文中閾值計算方法,統(tǒng)計時間段內(nèi)關(guān)鍵詞頻數(shù)超過統(tǒng)計時間段t的關(guān)鍵詞約為2%,故閾值Threshold(Ft)=2,于是將同一年度時間內(nèi)共現(xiàn)頻次小于2,即無法在關(guān)鍵詞耦合中發(fā)揮作用的詞視為無效關(guān)鍵詞,得到國內(nèi)外數(shù)字人文研究文獻共詞網(wǎng)絡。通過對共詞網(wǎng)絡的分析,發(fā)現(xiàn)關(guān)鍵詞出現(xiàn)重復的最早時間為2010年,這說明自2010年以后,數(shù)字人文研究領域的學者開始出現(xiàn)研究內(nèi)容上的重疊。通過節(jié)點數(shù)和弧線密度的對比可以發(fā)現(xiàn),國外面向數(shù)字人文領域的研究在內(nèi)容數(shù)量及范圍廣度上均超過國內(nèi),如人文和文學的相關(guān)關(guān)鍵詞形成研究熱點的時間甚至早于數(shù)字人文,但國內(nèi)在近兩年的研究中也取得了極大的發(fā)展,研究主題的密集程度較國外更為集中。文章根據(jù)關(guān)鍵詞的分布情況分別選取2009年—2012年、2013年—2015年、2016年—2018年這三個時間段共現(xiàn)頻率大于2的關(guān)鍵詞共現(xiàn)網(wǎng)絡進行聚類和學科知識結(jié)構(gòu)分析。如表2所示。
表2 共詞網(wǎng)絡高頻關(guān)鍵詞聚類結(jié)果
由表2的經(jīng)高頻詞篩選后的可視化聚類結(jié)果可以發(fā)現(xiàn),國外數(shù)字人文相關(guān)研究文獻早期的研究關(guān)注點有文學、數(shù)字和人文、數(shù)字圖書館。而后隨著數(shù)字人文研究的發(fā)展,文學逐漸向文化的方向發(fā)展,最近更是出現(xiàn)了后人文主義的相關(guān)研究。數(shù)字和人文逐漸擴展到數(shù)字歷史和開放存取以及數(shù)據(jù)可視化。數(shù)字人文在數(shù)字圖書館中著重的研究則是文本挖掘和文檔存儲。同時地理信息系統(tǒng)、關(guān)聯(lián)數(shù)據(jù)、本體則是國外數(shù)字人文近年來新出現(xiàn)的發(fā)展主題。
相比較而言,國內(nèi)數(shù)字人文的相關(guān)研究范圍要小于國外,起步時間也晚于國外。研究內(nèi)容與國外部分研究方向一致且更偏向應用研究,如圖書館服務和科研支持等。2018年高校圖書館、文本分析、莎士比亞、關(guān)聯(lián)數(shù)據(jù)等相關(guān)研究開始出現(xiàn),在研究范圍上逐步與國外研究一致,同時也有諸如馬克思主義等富有中國特色的數(shù)字人文研究。
數(shù)字人文是一個隨數(shù)字技術(shù)不斷發(fā)展的研究領域,數(shù)字技術(shù)的革新對數(shù)字人文研究方向的發(fā)展有著重要的指引作用,因此了解數(shù)字人文研究主題的發(fā)展情況對科研人員進行下一步研究工作至關(guān)重要。
研究主題變化的一個重要特征就是文獻關(guān)鍵詞詞頻的增加與減少,文章通過計算文獻關(guān)鍵詞頻度演化與共現(xiàn)關(guān)系間的變化關(guān)系,從而挖掘數(shù)字人文研究領域不同主題自身研究熱度和關(guān)聯(lián)關(guān)系的變化情況。
通過統(tǒng)計及分析發(fā)現(xiàn)國外數(shù)字人文的相關(guān)研究最早在2006年由數(shù)字圖書館主題開始,隨后增加到開放存取、新媒體、教育學等。國內(nèi)數(shù)字人文2016年左右才開始形成一定的類團,從關(guān)鍵詞關(guān)聯(lián)關(guān)系來看,數(shù)字人文開始階段的研究主題是針對美國高校圖書館數(shù)字人文案例的分析,隨后擴展到數(shù)字人文思想在圖書館資源管理與服務創(chuàng)新工作中的應用,如圖書館參與數(shù)字人文的實踐與推廣和圖書館推進人文知識的數(shù)字化與交流等,而在2018年出現(xiàn)了通過數(shù)字人文研究方法進行有關(guān)莎士比亞作品的可視化相關(guān)研究。
如表3所示,關(guān)鍵詞后的括號表示該關(guān)鍵詞增長峰值出現(xiàn)的時間,通過聚類和時間標引后的關(guān)鍵詞類團可以發(fā)現(xiàn):國外數(shù)字人文相關(guān)研究早期集中在人文領域研究的數(shù)字化工作中,研究學科對象有教育學、歷史學等。而后,隨著數(shù)字化應用以及數(shù)字化開發(fā)工作的深入,數(shù)字人文逐漸形成了自己獨立的理論體系,如數(shù)字策展、數(shù)字歷史等,這些理論的提出為數(shù)字化工具應用于人文研究提供了指引。近幾年,國外學者的研究已經(jīng)開始將大量的數(shù)字化、社會網(wǎng)絡相關(guān)概念和計算方法融合進人文學科的相關(guān)研究中,如文獻計量、社會網(wǎng)絡分析、機器學習、空間地理可視化等,數(shù)字人文工具在人文學科研究中的作用已經(jīng)進入到了廣泛的實踐階段。
表3 研究主題類團發(fā)展情況表
國內(nèi)數(shù)字人文相關(guān)研究則主要集中在圖書情報領域,開始階段主要集中在對國外,尤其是美國大學圖書館數(shù)字人文案例的分析與研究。而后數(shù)字人文、人文計算相關(guān)思想被應用于國內(nèi)高校圖書館的轉(zhuǎn)型和科研支持工作中,在圖書情報領域取得了不小的突破。但在其他學科,數(shù)字人文的思想還沒有在國內(nèi)全面展開,應用學科范圍和研究深度還不及國外人文學科相關(guān)研究。
文章通過提取數(shù)字人文領域研究文獻關(guān)鍵詞共現(xiàn)關(guān)系和頻度變化數(shù)據(jù),對Web of Science核心全集(1986—2018)數(shù)據(jù)庫和中國學術(shù)期刊(網(wǎng)絡版)全文數(shù)據(jù)庫(1915—2018)中數(shù)字人文的國內(nèi)外研究文獻,從關(guān)鍵詞頻度演化角度對研究熱度、熱點和學科主題發(fā)展情況進行了分析。共挖掘出5個國外數(shù)字人文研究持續(xù)十年以上的主題類團,分析了研究不同發(fā)展階段的發(fā)展路線,展示了學科知識結(jié)構(gòu)和主題的變化情況。同時通過國內(nèi)外對比研究,探究了國內(nèi)數(shù)字人文研究的發(fā)展特點與不足,為科研人員研究方向的選擇提供了客觀的參考。