陳 苗 劉晗月
(中山大學資訊管理學院 廣東廣州 510006)
數(shù)字人文是近年來中外學界研究的熱點領域之一,有不少學者對這一領域的研究情況給予了高度關注,對數(shù)字人文研究狀況進行總結梳理的文章也越來越多。例如,柯平等人研究了數(shù)字人文的演化路徑和發(fā)展趨勢,提出數(shù)字人文領域的研究熱點包括基本理論研究、技術驅(qū)動下的人文學術實踐轉向、新合作模式引發(fā)的人文學術文化變革、面向數(shù)字人文研究的基礎設施建設[1];肖鵬等人總結了學術型圖書館館員開展數(shù)字人文研究時應遵循的基本原則和應注意的關鍵問題[2];還有學者指出,數(shù)字人文的研究重點在于文化遺產(chǎn)數(shù)字化保護、數(shù)字歷史項目開發(fā)、數(shù)字人文基礎設施和相關的圖書館服務[3]。
在我國,由于原創(chuàng)性研究相對滯后,大部分數(shù)字人文研究相關論文帶有綜述性質(zhì)。其中最有價值的是針對國外文獻的分析,但目前相關分析多以Web of Science核心數(shù)據(jù)集為數(shù)據(jù)源,采用純粹的文獻計量方法,往往以揭示宏觀趨勢為目標,對于微觀的考察反而有所不足。最典型的是,當前有許多關于數(shù)字人文發(fā)展方向的討論,但缺乏對具體的數(shù)字人文研究的開展、每個方向之下的研究范式的討論。
本文將選用兩本典型的數(shù)字人文期刊為研究對象,通過文獻計量和內(nèi)容分析的方法,結合相關文獻,既從宏觀的視角分析、整理和歸納本領域的研究熱點和發(fā)展趨勢,同時也嘗試以微觀視域,在一定范圍內(nèi)探討數(shù)字人文研究的知識基礎,分析具體內(nèi)容及主要領域的研究范式。
本文選擇《數(shù)字人文季刊》(Digital Humanities Quarterly)和《人文學科中的數(shù)字計算》(Digital Scholarship in the Humanities)兩本典型的數(shù)字人文期刊作為數(shù)據(jù)源。
所謂典型的數(shù)字人文期刊,本文的理解是:以整個數(shù)字人文學科領域的學術文章作為主要收錄范圍的期刊。以典型數(shù)字人文期刊為數(shù)據(jù)源,相比在數(shù)據(jù)庫中進行主題檢索獲取相關數(shù)據(jù)的方式,可以將研究數(shù)據(jù)更準確地鎖定在數(shù)字人文領域內(nèi),從而更準確地揭示數(shù)字人文的發(fā)展狀況。此外,期刊時效性強、專業(yè)性強,加上較高的收錄標準,其提供的數(shù)據(jù)也具有較高的質(zhì)量。《數(shù)字人文季刊》發(fā)布有關數(shù)字人文學科各方面的文章、評論、案例研究和觀點,收錄范圍覆蓋“人文學科”和“數(shù)字學”領域,并為數(shù)字人文的從業(yè)者、研究人員和教師提供交流分享的論壇?!度宋膶W科中的數(shù)字計算》(原用名《文學與語言計算》)是數(shù)字人文領域歷史最悠久的期刊之一,收錄的不僅限于數(shù)字人文領域的學術文章,也包括數(shù)字人文學科相關領域的其他學術作品,為數(shù)字人文和人文領域的發(fā)展服務。這兩本期刊從收錄范圍和作用定位上看,都是當前較為典型的數(shù)字人文期刊。
當前在世界范圍內(nèi),已出現(xiàn)了若干專門以數(shù)字人文為主題的期刊,選擇這兩本期刊作為研究對象的主要原因有以下幾點。
(1)兩本期刊都是綜合性的數(shù)字人文刊物。由于不同刊物的主要編輯團隊有著不同的學科立場和學術訴求,因此,不少數(shù)字人文刊物都存在一定的學術偏好。文章所選擇的兩本刊物接收數(shù)字人文各個方面的學術作品,所涉及的數(shù)字人文領域較為全面,相對來說偏向性較不明顯。當我們準備通過研究有限的數(shù)字人文期刊來推測數(shù)字人文整體發(fā)展狀況時,選擇內(nèi)容更全面、偏向性更弱的期刊可以減少期刊學術偏好的影響,使研究結果具有更強的代表性。
(2)兩本期刊數(shù)據(jù)的時間跨度包含數(shù)字人文快速發(fā)展時期。根據(jù)搜集到的歷年文獻發(fā)表量來看,數(shù)字人文在最近十年才得到更多的關注,在2008年后文獻增長率顯著提高,因此本文將數(shù)字人文的快速發(fā)展時期界定為2008年至今。從創(chuàng)刊時間來看,《數(shù)字人文季刊》創(chuàng)刊于2007年,《人文學科中的數(shù)字計算》創(chuàng)刊于1986年,二者距今已有超過10年的歷史,因此較為完整地記錄了整個數(shù)字人文快速發(fā)展時期的發(fā)展狀況。而其他大部分數(shù)字人文期刊的創(chuàng)刊時間是在2012年以后,在反映數(shù)字人文快速發(fā)展時期時有缺失。
(3)這兩本數(shù)字人文期刊在學界的認可度較高。大部分數(shù)字人文的文獻集中在這兩本期刊即是一個證明。舉例說明:筆者在Web of Science核心數(shù)據(jù)集上,以“digital humanities”為主題進行搜索,檢索時間為2018年11月7日,得到檢索結果2 135條。根據(jù)期刊收錄的文獻數(shù)量對各個期刊進行排序,排序結果如表1所示?!稊?shù)字人文季刊》排名第一,相關文章數(shù)量為79篇;《人文學科中的數(shù)字計算》及其前身《文學與語言計算》分別排名第四和第三,相關文章數(shù)量為55篇和56篇。盡管《計算機科學系列講義》(Lecture Notes In Computer Science)排名第二,但由于其本身是發(fā)文量巨大的會議論文集,所以從比例上講,這本期刊相對其他兩本期刊相關度較低,也不是學者們發(fā)表數(shù)字人文學術文章的優(yōu)先選擇。因此,數(shù)字人文的研究成果在這兩本期刊的集中程度可見一斑。
本文的數(shù)據(jù)來自Web of Science核心數(shù)據(jù)集,檢索出版物名為Digital Humanities Quarterly、Digital Scholarship in the Humanities或Literary and Linguistic Computing的文獻,時間跨度選擇“所有年份”,共得到757條檢索結果。其中,《數(shù)字人文季刊》共有151篇,時間跨度為2015—2017年,數(shù)據(jù)更新至第11卷第4期;《人文學科中的數(shù)字計算》及其前身(《文學與語言計算》)共有606篇,時間跨度為2008—2018年,數(shù)據(jù)更新至第33卷第3期。檢索時間為2018年11月7日。本文使用Citespace 5.3進行數(shù)據(jù)分析。
表1 相關文章數(shù)量最多的期刊(TOP 10)
本文通過選擇期刊作為數(shù)據(jù)源,規(guī)避了手工檢索的局限,選擇近十年的數(shù)據(jù)進行具體分析,彌補了對數(shù)字人文快速發(fā)展階段描述分析的空缺,但也存在著不足:①數(shù)據(jù)不完整。受Web of Science核心數(shù)據(jù)集中數(shù)據(jù)資源的限制,本文未能收集到《數(shù)字人文季刊》和《人文學科中的數(shù)學計算》(含《文學與語言計算》)的所有數(shù)據(jù),數(shù)據(jù)缺失較為嚴重,但是由于未找到將期刊官網(wǎng)上的數(shù)據(jù)轉化成WOS格式的方法,無法統(tǒng)一爬取數(shù)據(jù)和數(shù)據(jù)庫數(shù)據(jù)的格式,集中分析。②代表性不足。只以兩本期刊作為數(shù)據(jù)源,在代表數(shù)字人文整體上不夠有力。③當前仍然處于數(shù)字人文的快速發(fā)展階段,在這個階段尚未成為歷史之前就進行分析,難免存在不全面的地方。
研究數(shù)字人文具體如何展開,了解主要方向下的研究范式,可以從數(shù)字人文領域的高被引文獻和高頻關鍵詞入手。通過閱讀高被引文獻,可以發(fā)現(xiàn)數(shù)字人文領域的研究重點和理論來源;高頻關鍵詞代表了這一領域?qū)W者主要關注的方向,其變遷一定程度上反映了該領域的發(fā)展趨勢。通過研究高被引文獻和高頻關鍵詞,可以從理論來源、研究熱點和發(fā)展趨勢三個角度展示數(shù)字人文的具體發(fā)展狀況。在微觀層面,通過對同一方向的高頻關鍵詞下的文獻進行閱讀,可以歸納出研究領域主要方向的研究范式。
高被引文獻構成了知識基礎,高頻關鍵詞揭示了研究熱點及其發(fā)展趨勢。本文將結合知識圖譜,從知識基礎和研究熱點及其發(fā)展趨勢兩方面,對兩本典型的數(shù)字人文期刊進行分析。
研究領域的發(fā)展狀況,即研究前沿,它的引文就是該研究領域的知識基礎[4]。在從宏觀層面分析組成知識基礎的所有引文的特征時,著重研究高被引文獻,可以實現(xiàn)從微觀的視角考察數(shù)字人文的知識基礎。將Citespace時間切片設置為1年,得到參考文獻共現(xiàn)網(wǎng)絡圖譜,如圖1所示。
圖1 參考文獻共現(xiàn)網(wǎng)絡圖譜
圖中共有18 191篇被引參考文獻,但被引頻次大于10次(包括10次)的文獻只有9篇(如表2所示),可見在這一時期高影響力的文獻數(shù)量較少。如圖2所示,被引文獻出版的年份主要集中在2009—2013年,被引文獻數(shù)量在2012年以前基本呈遞增的態(tài)勢,學術活躍度較高,學科發(fā)展迅速。在對兩本期刊參考文獻的整體有了部分宏觀認識之后,結合9篇高被引文獻,從微觀的角度考察數(shù)字人文研究的內(nèi)容。
表2 高被引文章(被引頻次>=10)信息表
圖2 出版時間分布圖
被引頻次最高的9篇文獻中,有4本是數(shù)字人文專著,其他5篇都是期刊論文,說明這個領域已經(jīng)得到較為系統(tǒng)、專業(yè)的研究。這些文獻根據(jù)內(nèi)容可以分為理論研究和應用研究兩類。理論研究中,包括對整個數(shù)字人文領域的綜述性著作[5-6]、文學計算領域的開創(chuàng)性著作[7]和文化組學的開創(chuàng)性著作[8]。應用研究中,最受關注的是作者身份識別方法的研究及其應用,如作者身份自動識別方法的最新進展的綜述[9]、尋找分辨作者特點或風格的最佳分類器[10]、對作者身份識別實際操作中遇到的候選作者不確定和機器學習分類法訓練不足問題的解決方法研究[11]等等。此外,數(shù)字人文應用程序[12]等數(shù)字人文應用領域的主題也受到重視,體現(xiàn)了數(shù)字人文與其他學科的深度交融正在進行,數(shù)字人文正盡力發(fā)揮本身對其他人文學科的服務價值。
關鍵詞在一定程度上體現(xiàn)文獻關注的方向,因此研究高頻關鍵詞可以展現(xiàn)學科研究的熱點。圖3中共有39個關鍵詞,圖中節(jié)點大小與對應關鍵詞共現(xiàn)頻次呈正相關。由圖3可知,作者身份識別(authorship attribution)是最大的節(jié)點。其次,文本(text)、語言(language)、歸屬(attribution)、信息(information)等節(jié)點也相對較大,反映出數(shù)字人文的研究熱點。節(jié)點外有紫圈突出的是突現(xiàn)性較高的關鍵詞,突現(xiàn)性高意味著共現(xiàn)頻次快速增加。圖3中突現(xiàn)性高的節(jié)點有信息(information)、識別(recognition),同時,這兩個節(jié)點之間存在較粗的連線,共現(xiàn)頻次高,表明信息識別是數(shù)字人文的研究前沿之一。
圖3 關鍵詞共現(xiàn)圖
從圖4可看到,低頻關鍵詞占主要部分,關鍵詞間的頻次差距較小,最高頻次的關鍵詞也只有10次,說明研究主題廣,跨學科特性較明顯。高頻關鍵詞在時間上的分布揭示了研究熱點的變遷,預示著學科的發(fā)展趨勢。如圖5所示,從節(jié)點的數(shù)量上看,隨著時間發(fā)展,兩本期刊反映的數(shù)字人文的研究范圍擴大,研究的對象、方法更加豐富,廣度與深度進一步得到拓展。數(shù)字人文研究早期主要是對文本,包括文字、談話等信息材料本身的研究。之后,利用信息技術對人文學科的研究增多,學者們嘗試從新的角度理解人文學科知識,拓展人文學科的研究領域,創(chuàng)新人文學科的研究方法。
圖4 關鍵詞頻次分布圖
圖5 關鍵詞時區(qū)圖
在對關鍵詞進行總體分析之后,結合具體的關鍵詞,總結歸納出主要研究方向,并結合知識圖譜和具體文獻進行分析。
(1)作者身份識別問題的研究
在高頻關鍵詞中,作者身份識別(authorship attribution,10)、歸屬(attribution,7)、識別(recognition,4)揭示了作者身份識別是這兩本數(shù)字人文期刊中最熱門的應用研究。這一領域主要有兩大方向,一是探索作者身份識別的技術與方法,其中,文體學是很重要的一個角度;二是作者身份識別方法的應用,主要是在文學領域。
作者身份識別的技術研究方面,機器學習方法和詞頻分析是主要的方法。具體的研究有探究機器學習分類計數(shù)訓練集的文本選擇問題[13]、用機器學習方法檢測作者欺騙[14]等等。在詞頻分析上,有學者討論了詞頻方法的一些基本問題和特點,包括如何定義一個詞,使用什么參考語料庫,或采取什么頻率截止[15]等等。
作者身份識別的主要應用領域之一是文學研究。傳統(tǒng)的文學研究具有高度的主觀性,缺乏保證成果有效性的方法,面臨存在危機。采用文學計算等遠距離閱讀的方式,做可重復的研究,是文學研究的新方向[16]。隨著作者身份識別方法的發(fā)展,作者身份識別已經(jīng)擴展到新的應用領域,如作者身份剖析和計算社會語言學[17]。學者們研究作者身份識別的技術和方法,嘗試盡可能降低識別過程中噪音或無關信息的影響,致力于提高自動識別的準確率。作者身份識別也和語言學相結合,研究在不同語言中識別理論與方法的推廣。2016—2018年,以作者身份識別和語言學為主要領域的數(shù)字人文應用與實踐成為數(shù)字人文學科的研究前沿。
(2)數(shù)字人文的研究對象
文本(text,9)、文字(word,6)、信息(information,5)、英語(english,4)揭示了數(shù)字人文的研究對象,即各種形式的信息。信息是圖書館學的研究對象,“信息”一詞體現(xiàn)了圖書館學與數(shù)字人文學科存在交叉。在實踐上,許多數(shù)字人文項目也是由圖書館承擔的。在研究廣度和深度上,“信息”也拓展了數(shù)字人文的研究基礎,使數(shù)字人文研究擴展到更多領域。在2008—2012年,對信息資源本身的研究是熱點,對這些信息的處理,包括信息管理和整合、信息內(nèi)容分析等。其中,運用技術對信息進行解讀和表達是重要的研究方向,應用的主要領域是計算語言學和自然語言處理。
隨著信息技術和數(shù)字化的發(fā)展,研究不僅包括書面的“文本”,也包括非傳統(tǒng)意義上的“文本”,比如演講(speech,2)、口語(discourse,2)。人文資料的數(shù)字化是數(shù)字人文研究的前提。數(shù)字化也是這一時期的研究熱點。谷歌圖書(google book,2)就是這一時期數(shù)字化的代表性成果之一。
(3)數(shù)字人文的技術研究
信息技術的發(fā)展使得網(wǎng)絡(web,5)這一基礎設施更加完善,許多基于網(wǎng)絡的研究方法也得以實現(xiàn),許多基于網(wǎng)絡的研究工具被發(fā)明出來。在2016—2018年間,語料庫(corpus,2)、模型(model,2)、算法(algorithm,2)等關鍵詞顯示信息技術在數(shù)字人文的應用更為深入和廣泛。語料庫既是數(shù)字化的成果之一,也是語言學研究的基礎資源。模型是對現(xiàn)實的抽象與簡化。它既可以抽象出信息和信息運動的特征,也可以輔助信息分析、提取、生成等操作,如將計算模型應用于敘事語篇的生成系統(tǒng)[18],建立基于距離的手勢相似模型進行手勢研究[19]。算法是對人文學科進行計算機分析的重要基礎。圖像(image,2)、表格(graph,2)等關鍵詞體現(xiàn)了可視化技術的應用。這些技術、工具、理論結合網(wǎng)絡,創(chuàng)造了許多新的研究人文學科的方法。這既是信息技術與人文學科深度融合的實踐,也促進了人文學科的發(fā)展。
(4)數(shù)字人文應用領域
21世紀初人文學科的主要變革因素之一是從模擬材料向數(shù)字材料的轉變,這種轉變將以多種方式影響人文學科[20]。其中數(shù)字人文在人文學科的應用是重要方式之一。語言(language,7)所代表的語言學是數(shù)字人文主要應用的領域。在語言學上,數(shù)字人文學者主要是利用語料庫進行實證研究和定量研究,同時信息技術帶來的語言變化也擴展了語言學的領域。此外,在非高頻關鍵詞中,還有歷史(history,2)、社會科學(social science,2)等人文學科,可見這些人文領域也出現(xiàn)了數(shù)字人文應用。結合關鍵詞時區(qū)圖可以發(fā)現(xiàn),2013—2015年,社會科學、人文學科(humanity,5)成為高頻關鍵詞,數(shù)字人文在人文學科應用更為廣泛、深入。數(shù)字人文不僅給傳統(tǒng)的社會科學和人文科學研究帶來了新的研究工具,也催生出新的研究方法和研究范式,成為社會科學和人文學科發(fā)展的新的驅(qū)動力,文學研究中遠距離閱讀的興起就是一例。
本研究選擇綜合程度較高、收錄范圍較廣、時間跨度適當,同時具有一定權威性的典型數(shù)字人文期刊作為數(shù)據(jù)源,對數(shù)字人文期刊的內(nèi)容和形式進行分析,展示近十年數(shù)字人文的發(fā)展狀況。本研究不僅從宏觀的角度進行分析,也做了微觀的考察,對該領域的重要文獻進行了單篇的閱讀和分析,結合單篇文獻的具體內(nèi)容,展現(xiàn)近十年數(shù)字人文具體是如何發(fā)展的。通過本次研究,本文主要總結得到以下結論。
(1)知識基礎分為理論和應用研究兩類,理論研究包括數(shù)字人文及其分支領域,如文學計算、文化組學的基礎理論研究;應用研究包括各種具體實踐方法的研究,其中作者身份識別是一個重要的研究方向,主要有兩個研究問題:探索作者身份識別的技術、方法,與作者身份識別方法的應用。
(2)快速發(fā)展階段的數(shù)字人文相較以往,研究范圍進一步擴大,研究對象更加豐富,研究方法更加多樣,廣度與深度進一步得到拓展,并且這些變化的速度都比以前更快。總體而言,兩本期刊反映的數(shù)字人文研究熱點主要可以分為四類:一是作者身份識別;二是數(shù)字人文研究對象的分析;三是相關的技術研究;四是數(shù)字人文在各個學科的應用實踐。文本內(nèi)容分析是早期的研究熱點;作者身份識別是一個新的研究熱點,并成為研究前沿;數(shù)字人文實踐在各個時期都是研究的熱點,只是其內(nèi)容在不斷擴展、深化。數(shù)字人文技術隨信息技術的發(fā)展更加先進、更加多樣化,應用對象更加廣泛,應用方式更加成熟,這些應用既促進了人文學科的發(fā)展,也提出了新的研究理論和研究方法??傮w來說,數(shù)字人文正在致力于實現(xiàn)信息技術與人文學科更深度的結合,研究與實踐相較于以往更具突破性,并出現(xiàn)由技術應用引領的研究范式變革。數(shù)字人文從簡單的輔助人文學科研究到開始對人文學科研究發(fā)展施加影響。人文計算向數(shù)字人文的轉變在這一時期體現(xiàn)得尤為明顯。展望未來,數(shù)字人文還將為更多領域的研究服務,比如在非遺數(shù)字化研究方面,參考MIDAS Heritage,思考我國國家級非物質(zhì)文化遺產(chǎn)元數(shù)據(jù)標準設計的方法[21];在人文學者信息行為和數(shù)字行為的研究方面,運用數(shù)字人文研究方法,揭示人文研究者在線文獻求助與交流行為的特征[22]。
通過對《數(shù)字人文季刊》和《人文學科中的數(shù)字計算》兩本數(shù)字人文領域較為典型的期刊的研究,本文對數(shù)字人文進行了比較近距離的觀察,并且認為對數(shù)字人文期刊的研究是非常必要的。但本文僅反映了這兩本期刊的特點,在未來的研究中,還需要對更多的數(shù)字人文期刊進行研究,對更廣泛的數(shù)據(jù)集進行分析,以探索在更大數(shù)據(jù)范圍里數(shù)字人文的具體發(fā)展狀況。