李 娜
(華南理工大學(xué)圖書館 廣州 510640)
數(shù)字人文(Digital Humanities)是一種將計(jì)算機(jī)方法與技術(shù)融入人文研究,進(jìn)而提出并回答人文問題的新范式?!皵?shù)字人文”一詞在英美學(xué)術(shù)界相關(guān)期刊陸續(xù)出現(xiàn),相關(guān)研究課題層出不窮,其名稱和定位也經(jīng)歷了由“人文計(jì)算(humanities computing)”到“數(shù)字人文”的轉(zhuǎn)變。究其大略,其演進(jìn)與計(jì)算機(jī)技術(shù)的發(fā)展呈正相關(guān)關(guān)系,20世紀(jì)90年代起個(gè)人電腦的廣泛普及促進(jìn)了其研究的豐富,近年人工智能技術(shù)的興起,對(duì)其發(fā)展起到了推波助瀾的作用。在這種新技術(shù)的強(qiáng)大沖擊下,國內(nèi)外學(xué)者積極投身于數(shù)字人文理論和實(shí)踐的研究中,從不同角度探討數(shù)字人文領(lǐng)域存在的問題及其解決方案。本研究采用專業(yè)的檢索策略,同時(shí)進(jìn)行主題檢索、標(biāo)題檢索和期刊檢索,依托科技文本挖掘及信息可視化技術(shù),對(duì)2001—2020年國際數(shù)字人文研究文獻(xiàn)進(jìn)行定量和定性分析,既從微觀視域在一定范圍內(nèi)探討數(shù)字人文研究的知識(shí)基礎(chǔ),又同時(shí)嘗試以宏觀的視角分析、整理和歸納數(shù)字人文領(lǐng)域的研究熱點(diǎn)和演化路徑,以期為未來我國數(shù)字人文理論研究和實(shí)踐探索提供有價(jià)值的參考。
本研究以Web of Science核心合集中的姊妹版數(shù)據(jù)庫組合SCIE數(shù)據(jù)庫和SSCI數(shù)據(jù)庫為數(shù)據(jù)源。這兩個(gè)數(shù)據(jù)庫收錄的均是經(jīng)過嚴(yán)格遴選的核心學(xué)術(shù)期刊中的世界一流學(xué)術(shù)文獻(xiàn),這樣可以最大限度地保證研究樣本的權(quán)威性和代表性。為了避免樣本數(shù)據(jù)出現(xiàn)漏檢和誤檢的情況,我們將檢索詞進(jìn)行不同方式的組合與檢索,判讀檢索結(jié)果的合理性,設(shè)計(jì)和調(diào)整出更加有效的檢索策略。例如,簡單地采用“digital humanities”或者“humanities computing”進(jìn)行檢索,檢索結(jié)果會(huì)出現(xiàn)漏檢情況;采用“digital” and“humanities”或者“humanities” and “computing”進(jìn)行檢索,這樣的檢索范圍過大,又會(huì)出現(xiàn)數(shù)據(jù)誤檢情況。鑒于此,本研究最終確定在檢索式中應(yīng)用位置算符(NEAR),同時(shí)解決了漏檢和誤檢問題。表面上看,這樣的檢索策略是合理的,其實(shí)檢索結(jié)果仍存在很大問題,主要是文獻(xiàn)數(shù)據(jù)過于單一,僅檢索到了涉及相關(guān)檢索詞的文獻(xiàn),更多與研究主題相關(guān)的深層次數(shù)據(jù)未能檢索出來,所以必須考慮相關(guān)領(lǐng)域?qū)I(yè)期刊的檢索。Literary and Linguistic Computing(《文學(xué)與語言計(jì)算》)是國際上數(shù)字人文領(lǐng)域的主要期刊,該期刊于2008年創(chuàng)刊,2015年更名為Digital Scholarship in the Humanities(《人文領(lǐng)域的數(shù)字學(xué)術(shù)》),作為歐洲數(shù)字人文協(xié)會(huì)的同行評(píng)議學(xué)術(shù)期刊,收錄了計(jì)算和信息技術(shù)應(yīng)用于藝術(shù)和人文研究各個(gè)方面的原創(chuàng)性文獻(xiàn)。Computers and the Humanities(《計(jì)算與人文》)創(chuàng)刊于1966年,旨在刊載將計(jì)算機(jī)方法應(yīng)用于人文科學(xué)領(lǐng)域的重大研究,但是SCI數(shù)據(jù)庫僅收錄了該刊2001—2004年的文獻(xiàn)。這兩種期刊均有較高的收錄標(biāo)準(zhǔn),具有較強(qiáng)的專業(yè)性和時(shí)效性,提供的數(shù)據(jù)也具有較高的質(zhì)量。本研究將主題檢索、標(biāo)題檢索和出版物名稱檢索相結(jié)合,以確保檢索結(jié)果的合理性和有效性。檢索內(nèi)容與檢索結(jié)果如表1所示。
表1 研究數(shù)據(jù)獲取方式
本研究利用VOSviewer工具將浩如煙海的文獻(xiàn)數(shù)據(jù)轉(zhuǎn)換成可視化知識(shí)圖譜。VOSviewer中VOS的含義是visualization of similarities,即相似的可視化。運(yùn)行VOSviewer生成的可視化圖譜為網(wǎng)絡(luò)圖,分析的對(duì)象既可以是施引文獻(xiàn)也可以是被引文獻(xiàn)。首先,選擇對(duì)被引文獻(xiàn)進(jìn)行分析,國際數(shù)字人文研究領(lǐng)域的知識(shí)基礎(chǔ)演進(jìn)歷程集中展現(xiàn)在共被引(co-citations)分析網(wǎng)絡(luò)中,作為知識(shí)基礎(chǔ)的引文節(jié)點(diǎn)文獻(xiàn)(cited references)根據(jù)親緣關(guān)系自動(dòng)形成聚類。這種引文分析有助于捋清國際數(shù)字人文知識(shí)的發(fā)展脈絡(luò),以及在其演變過程中起關(guān)鍵作用的文獻(xiàn)。其次,選擇對(duì)施引文獻(xiàn)進(jìn)行分析,通過共現(xiàn)(co-occurrence)網(wǎng)絡(luò)分析揭示國際數(shù)字人文研究領(lǐng)域的知識(shí)單元或知識(shí)群之間的網(wǎng)絡(luò)、結(jié)構(gòu)、互動(dòng)、交叉等諸多隱含的復(fù)雜關(guān)系,在VOSviewer中使用節(jié)點(diǎn)來表達(dá)所分析的知識(shí)單元,節(jié)點(diǎn)顏色表達(dá)所屬的不同聚類,每個(gè)聚類代表了一個(gè)研究主題,進(jìn)而形成了國際數(shù)字人文研究領(lǐng)域的熱點(diǎn)主題群。再次,利用CiteSpace軟件考察詞頻的時(shí)間分布,選擇時(shí)區(qū)顯示功能,生成反映近二十年國際數(shù)字人文研究的知識(shí)演進(jìn)的時(shí)區(qū)圖譜,確定國際數(shù)字人文研究的前沿領(lǐng)域和發(fā)展趨勢。
本研究應(yīng)用VOSviewer工具,選擇科技文獻(xiàn)共被引分析功能,默認(rèn)以引證次數(shù)≥20為條件進(jìn)行數(shù)據(jù)篩選,從35 137篇參考文獻(xiàn)中,選出滿足閾值的16篇文獻(xiàn),得到文獻(xiàn)共被引分析的可視化結(jié)果,如圖1所示。在文獻(xiàn)共被引分析網(wǎng)絡(luò)中,自動(dòng)生成2個(gè)聚類知識(shí)群,表示從兩個(gè)角度展示出“數(shù)字人文”研究領(lǐng)域的基礎(chǔ)文獻(xiàn)知識(shí)分布情況。節(jié)點(diǎn)的大小反映文獻(xiàn)被引用總頻次的高低,節(jié)點(diǎn)的顏色表示所屬的聚類,聚類I(紅色標(biāo)識(shí))由9個(gè)關(guān)鍵節(jié)點(diǎn)組成(即9篇文獻(xiàn)),聚類II(綠色標(biāo)識(shí))由7個(gè)關(guān)鍵節(jié)點(diǎn)組成(即7篇文獻(xiàn)),根據(jù)文獻(xiàn)的被引頻次對(duì)16篇文獻(xiàn)進(jìn)行排序,詳見表2。
圖1 文獻(xiàn)共被引分析的可視化結(jié)果
高被引文獻(xiàn)通常在其研究領(lǐng)域具有較大的影響力,也是學(xué)術(shù)同行極為關(guān)注的文獻(xiàn),具有奠基意義。從表2可以發(fā)現(xiàn),在數(shù)字人文的發(fā)展過程中,有大批優(yōu)秀的學(xué)者可謂數(shù)字人文基礎(chǔ)研究的領(lǐng)軍人物,例如Burrows J、Jockers M L、Moretti F等學(xué)者,在排名前16的高被引文獻(xiàn)中每人分別有2篇代表性著作或文獻(xiàn),可見他們不僅僅是數(shù)字人文基礎(chǔ)研究的高產(chǎn)學(xué)者,而且其研究成果及學(xué)術(shù)思想對(duì)后期的學(xué)術(shù)研究也產(chǎn)生了不容小覷的影響,成為數(shù)字人文研究領(lǐng)域的知識(shí)基礎(chǔ)。筆者結(jié)合圖1和表2,從學(xué)術(shù)研究思想的角度對(duì)高被引文獻(xiàn)兩個(gè)知識(shí)集群進(jìn)行總體分析。
表2 國際數(shù)字人文研究領(lǐng)域高被引參考文獻(xiàn)統(tǒng)計(jì)(Top16)
“作者身份識(shí)別”研究歷史由來已久,1994年英國西英格蘭大學(xué)學(xué)者Holmes D I就開始關(guān)注作者身份識(shí)別,考慮了文學(xué)風(fēng)格的量化問題,探討了可作為作家文體“指紋”的幾個(gè)變量,并將這些變量作為作者風(fēng)格的識(shí)別指標(biāo)[1],該研究在數(shù)字人文研究領(lǐng)域具有開創(chuàng)性意義。澳大利亞紐卡斯?fàn)柎髮W(xué)學(xué)者Burrows J有兩篇經(jīng)典文獻(xiàn)被引頻次均排名前列,其中一篇被引頻次雄居首位,可謂數(shù)字人文研究領(lǐng)域的奠基之作。該學(xué)者從計(jì)算語言學(xué)的視角出發(fā),提出了基于詞頻受控對(duì)比的作者身份識(shí)別方法,即Delta,并驗(yàn)證了該檢測方法的準(zhǔn)確性,在一定程度上有助于深入挖掘科學(xué)研究背后的學(xué)者身份信息,也有助于拓展語言學(xué)研究的視野[2-3]。其后,美國紐約大學(xué)學(xué)者Hoover D L對(duì)Burrows J提出的“Delta”方法進(jìn)行了檢測,明確了該檢測方法的有效性和準(zhǔn)確性,并指出其在散文和詩歌上的檢測效果差不多,以及刪除人稱代詞可以提高Delta檢測的準(zhǔn)確性[4]。Grieve J對(duì)作者身份歸屬研究中常用的39種不同類型的文本測量結(jié)果進(jìn)行比較,以確定哪些是作者身份的最佳指標(biāo),提出了一種更準(zhǔn)確的定量化作者身份識(shí)別的方法,該方法可以對(duì)多種不同文本進(jìn)行度量分析[5]。希臘愛琴海大學(xué)學(xué)者Stamatatos E從文本表示和文本分類特征來研究作者身份識(shí)別,并進(jìn)一步討論作者身份識(shí)別研究的評(píng)估方法和標(biāo)準(zhǔn)[6]。美國斯坦福大學(xué)學(xué)者Jockers M L提出了基于機(jī)器學(xué)習(xí)的作者身份識(shí)別方法,主要對(duì)有爭議的論文和通常被認(rèn)為是共同撰寫的論文進(jìn)行分類。測試過程由兩個(gè)單獨(dú)的功能集執(zhí)行:其一是“原始”功能集,包含所有作者共有的所有單詞和單詞二元組;其二是“預(yù)處理”功能集,將原始功能集簡化為包含僅滿足最小相對(duì)頻率閾值的單詞,測試結(jié)果良好[7]。
美國斯坦福大學(xué)學(xué)者M(jìn)oretti F有兩本關(guān)于“遠(yuǎn)距離閱讀”研究的經(jīng)典著作均躋身被引頻次排名前列,可謂數(shù)字人文研究領(lǐng)域既高產(chǎn)又高質(zhì)的學(xué)者。Moretti F是最早提出“遠(yuǎn)距離閱讀”這一術(shù)語的學(xué)者,他認(rèn)為文學(xué)研究是隨機(jī)的、不是系統(tǒng)的,強(qiáng)調(diào)文學(xué)學(xué)者應(yīng)該停止閱讀書籍,開始計(jì)算、繪圖和映射,這一舉動(dòng)可能會(huì)給學(xué)科領(lǐng)域帶來新的光彩[8]。他將“遠(yuǎn)距離閱讀”定義為“遠(yuǎn)遠(yuǎn)超出作者預(yù)期的解讀”,提出用Z值、主分量分析和聚類系數(shù)等備受爭議的文學(xué)分析模式,認(rèn)為這將是非主流文學(xué)研究一個(gè)正在興起的領(lǐng)域[9]。2003年,美國加州大學(xué)伯克利分校學(xué)者Blei D M等提出了潛在狄利克雷分布(LDA)模型,這是一種用于收集離散數(shù)據(jù)(例如文本語料庫)的概率模型,同時(shí)還提出了基于變分方法和經(jīng)驗(yàn)貝葉斯參數(shù)估計(jì)的EM算法的有效近似推理技術(shù)[10]。此后,美國馬里蘭大學(xué)學(xué)者Susan Schreibman等研究了計(jì)算方法在文學(xué)研究中的應(yīng)用,介紹了人文計(jì)算的基本原理、方法和應(yīng)用以及文本生產(chǎn)、傳播和存檔的內(nèi)容,這些均屬于人文計(jì)算方法的基礎(chǔ)性研究[11];英國倫敦國王學(xué)院學(xué)者M(jìn)cCarty W結(jié)合哲學(xué)、歷史、人種學(xué)和批判性觀點(diǎn),闡述了如何通過計(jì)算幫助完成人文科學(xué)的基本任務(wù),并提出更多具有挑戰(zhàn)性的學(xué)術(shù)問題[12];美國哈佛大學(xué)學(xué)者M(jìn)ichel JB構(gòu)建了一個(gè)數(shù)字化文本語料庫,定量分析了1800年至2000年英語數(shù)字書籍所反映的語言和文化現(xiàn)象,并為詞典編纂、語法演變、集體記憶等領(lǐng)域的研究提供見解[13]。2012年,美國紐約城市大學(xué)學(xué)者Gold M K撰寫的《數(shù)字人文學(xué)科辯論》的出版,標(biāo)志著數(shù)字人文已經(jīng)成為一個(gè)學(xué)科領(lǐng)域。數(shù)字人文不僅具有傳統(tǒng)學(xué)科領(lǐng)域的數(shù)字檔案、定量分析和工具構(gòu)建的特征,還涵蓋了更廣泛的方法和實(shí)踐內(nèi)容,即大型圖像集的可視化、歷史文物的3D建模、“天生數(shù)字學(xué)位論文、移動(dòng)創(chuàng)客空間等[14]。同年,美國藝術(shù)中心設(shè)計(jì)學(xué)院學(xué)者Burdick A回答了“什么是數(shù)字人文科學(xué)?”這一經(jīng)典問題,進(jìn)一步探討了與傳統(tǒng)的人文探究模式所不同的方法和技術(shù),其中包括地理空間分析、數(shù)據(jù)挖掘、語料庫語言學(xué)、可視化和模擬[15]。次年,美國斯坦福大學(xué)學(xué)者Jockers M L基于大規(guī)模的文學(xué)計(jì)算和宏觀分析方法,提出一種文學(xué)研究的新方法,幫助讀者更好地理解文學(xué)作品并對(duì)其進(jìn)行情境化[16]。
本研究利用CiteSpace軟件構(gòu)建國際數(shù)字人文研究的共現(xiàn)網(wǎng)絡(luò)關(guān)系,再將其轉(zhuǎn)換成從時(shí)間維度來表示知識(shí)演進(jìn)的時(shí)區(qū)視圖,以便清晰地展示出文獻(xiàn)的更新和相互關(guān)系。將高頻關(guān)鍵詞定位在一個(gè)橫軸為時(shí)間的二維坐標(biāo)系中,一個(gè)從左到右、自上而下的知識(shí)演進(jìn)圖就直觀呈現(xiàn)了,可以清晰地描繪出2001—2020年國際數(shù)字人文研究的動(dòng)態(tài)演化歷程,詳見圖2。依據(jù)關(guān)鍵詞分布的親疏程度,將國際數(shù)字人文研究大致劃分為3個(gè)時(shí)期,詳細(xì)分析如下。
圖2 國際數(shù)字人文研究演化路徑圖譜
從圖2可以看出,2005—2007年這段時(shí)間的關(guān)鍵詞明顯變少,這是由于期刊Computers and the Humanities被SCIE數(shù)據(jù)庫收錄的截止時(shí)間是2004年,故時(shí)區(qū)圖譜上顯示出一段空白區(qū)域。這一時(shí)期相對(duì)活躍的研究主題是“digital library(數(shù)字圖書館)”“database(數(shù)據(jù)庫)”“corpus(語料庫)”“corpus linguistics(語料庫語言)”“dialectology(方言學(xué))”“dialectometry(方言學(xué))”“dialect(方言)”“l(fā)anguage(語言)”“authorship attribution(作者身份識(shí)別)”。2002年國際數(shù)字人文組織聯(lián)盟(The Alliance of Digital Humanities Organizations,ADHO)成立,2005年國際數(shù)字人文中心網(wǎng)絡(luò)(Center Net)成立。上述組織的相繼成立向全球知識(shí)界傳遞了一個(gè)重要信號(hào),明確將著力拓展數(shù)字人文研究的深度和廣度。隨著數(shù)字圖書館的不斷發(fā)展,大規(guī)?!罢Z料庫”和“數(shù)據(jù)庫”的建設(shè)成為現(xiàn)實(shí)?!罢Z料庫”與“方言學(xué)”是相互支撐、相互促進(jìn)的關(guān)系,“語料庫”的發(fā)展為“方言學(xué)”研究提供了得力的手段和工具,“方言學(xué)”的發(fā)展反過來促進(jìn)“語料庫”的完善?!白髡呱矸葑R(shí)別”與“語料庫”之間也存在著內(nèi)容聯(lián)系,傳統(tǒng)“作者身份識(shí)別”研究通常是對(duì)特定“語料庫”中的文學(xué)作品進(jìn)行作者分析,這些早期研究主要基于一元文體特征,限于長文體的文學(xué)作品以及作者人數(shù)較少的情況。
與上一時(shí)期相比,這一時(shí)期的關(guān)鍵詞明顯驟增,是因?yàn)槠诳疞iterary and Llinguistic Computing于2008年創(chuàng)刊,收錄了大量數(shù)字人文領(lǐng)域的研究成果。這一時(shí)期“digital humanities(數(shù)字人文)”的主導(dǎo)地位已然無法撼動(dòng),充分彰顯了其學(xué)術(shù)影響力。隨著數(shù)字化技術(shù)的迅猛發(fā)展,數(shù)字人文研究逐漸由表象走向具體,“semantic web(語義網(wǎng))”“big data(大數(shù)據(jù))”“social network(社交網(wǎng)絡(luò))”“ontology(本體論)”“digital history(數(shù)字歷史)”“interdisciplinarity(跨學(xué)科)”等熱點(diǎn)詞匯頻繁涌現(xiàn)。語義網(wǎng)、大數(shù)據(jù)、社交網(wǎng)絡(luò)的發(fā)展開啟了數(shù)字人文研究的新模式,利用語義技術(shù)將分散異構(gòu)的大數(shù)據(jù)轉(zhuǎn)換成機(jī)器可讀、關(guān)聯(lián)共享可理解的優(yōu)質(zhì)數(shù)據(jù),為人文學(xué)者提供龐大的、開放的數(shù)字資源。與此同時(shí),數(shù)字人文各個(gè)分支領(lǐng)域的學(xué)者試圖顯性地勾勒出學(xué)科“本體論”的理論輪廓和框架,明確學(xué)科研究的基本面貌,還原學(xué)科研究之“本”,構(gòu)建學(xué)科研究之“論”。同時(shí),數(shù)字人文方法賦予了歷史科學(xué)全新的空間感和立體感,拓展了歷史傳播的深度、廣度與維度,歷史科學(xué)與數(shù)字人文“跨學(xué)科”融合成為已然之實(shí),“數(shù)字歷史”這一新學(xué)科的誕生也是必然之勢。
當(dāng)科學(xué)技術(shù)發(fā)生顛覆性創(chuàng)新時(shí)都會(huì)涌現(xiàn)出大量的研究主題,這種客觀規(guī)律是符合事物發(fā)展方向的,數(shù)字人文研究也不例外。“mapping(圖像)”“modeling(建模)”“model(模型)”“visualization(可視化)”“cultural heritage(文化遺產(chǎn))”“crowdsourcing(眾包)”“l(fā)iteracy(素養(yǎng))”“twitter(推特)”代表了這一時(shí)期的主題特征。由于GIS技術(shù)、網(wǎng)絡(luò)媒體、人工智能技術(shù)等前沿科技的發(fā)展,數(shù)字人文研究的范式正在發(fā)生深刻變革,打破了時(shí)間和空間的束縛,實(shí)現(xiàn)了由“文本”到“圖像”“地圖”“模型”的動(dòng)態(tài)的“可視化”轉(zhuǎn)變,散見于世界各地的“文化遺產(chǎn)”實(shí)現(xiàn)共建和共享,使研究者和公眾有了一個(gè)完整的視野來看待相互連接的文化和歷史。為了解決海量計(jì)算、大規(guī)模樣本采集、多樣性分析等問題,基于群眾智慧的“眾包”模式將極大地促進(jìn)數(shù)字人文研究的深化和突破。隨著數(shù)字人文研究的深入,數(shù)據(jù)“素養(yǎng)”必然會(huì)成為關(guān)注熱點(diǎn),數(shù)字人文快速發(fā)展為數(shù)據(jù)“素養(yǎng)”的深化提供了契機(jī)與沃土,兩者相互融合與促進(jìn)。另外,Twitter社交網(wǎng)絡(luò)平臺(tái)因其對(duì)數(shù)據(jù)下載的開放和友好,逐漸成為數(shù)字人文學(xué)術(shù)圈(至少是西方學(xué)術(shù)圈)最受歡迎的社交網(wǎng)絡(luò)平臺(tái),不僅支持學(xué)者間的學(xué)術(shù)交流,還支持學(xué)術(shù)活動(dòng)的實(shí)時(shí)討論。
另外,縱觀上述三個(gè)時(shí)期的階段圖可以看出,圖書館是貫穿數(shù)字人文研究全過程的熱點(diǎn)話題。“digital library(數(shù)字圖書館)”“l(fā)ibrary(圖書館)”“academic library(學(xué)術(shù)圖書館)”這三個(gè)關(guān)鍵詞分布于不同時(shí)段,由“數(shù)字圖書館”過渡到“學(xué)術(shù)圖書館”,體現(xiàn)了圖書館與數(shù)字人文研究在共同成長。數(shù)字人文與圖書館服務(wù)轉(zhuǎn)型有著較強(qiáng)的關(guān)聯(lián)性,這種關(guān)聯(lián)不僅涉及文獻(xiàn)保存、信息資源開發(fā)、出版發(fā)行、學(xué)術(shù)交流等層面,還引發(fā)了學(xué)術(shù)界人文項(xiàng)目開發(fā)等各類議題,包括文本挖掘、圖像處理、地理信息系統(tǒng)、數(shù)字化存儲(chǔ)與檢索等項(xiàng)目的展開,數(shù)字人文所產(chǎn)生的創(chuàng)新賦能對(duì)引導(dǎo)和維護(hù)圖書館服務(wù)定位起到關(guān)鍵性作用。
關(guān)鍵詞是對(duì)文獻(xiàn)主題的高度概括和凝練,通過對(duì)某學(xué)科領(lǐng)域文獻(xiàn)高頻關(guān)鍵詞的提煉分析,可以全面了解和把握文獻(xiàn)的內(nèi)容結(jié)構(gòu)及相互聯(lián)系,同時(shí)還可以推斷出大致研究方向和熱點(diǎn)主題。本研究利用VOSviewer可視化軟件工具對(duì)樣本數(shù)據(jù)的關(guān)鍵詞進(jìn)行提取,統(tǒng)計(jì)出共現(xiàn)頻率閾值為5的有實(shí)際意義的高頻關(guān)鍵詞(共83個(gè)),構(gòu)建出關(guān)鍵詞共現(xiàn)分析的可視化網(wǎng)絡(luò),根據(jù)關(guān)鍵詞之間的關(guān)聯(lián)強(qiáng)度自動(dòng)生成主題聚類,各個(gè)聚類的節(jié)點(diǎn)和連線以不同顏色加以區(qū)分,如圖3所示。
圖3 國際數(shù)字人文高頻關(guān)鍵詞共現(xiàn)圖譜
表3 國際數(shù)字人文熱點(diǎn)主題歸納
從圖3可以看出,國際數(shù)字人文關(guān)鍵詞主要分為7個(gè)知識(shí)群,即7個(gè)熱點(diǎn)聚類。本文分別對(duì)每個(gè)聚類構(gòu)建密度視圖,根據(jù)各個(gè)關(guān)鍵詞的密度分布情況,歸納出熱點(diǎn)主題,詳見表3。在密度視圖中,主要區(qū)域用藍(lán)色和黃色來表示密度分布,藍(lán)色表示低密度區(qū)域,黃色代表高密度區(qū)域,某個(gè)關(guān)鍵詞周圍的其他關(guān)鍵詞越多、權(quán)重越大、與其他關(guān)鍵詞的距離越近,那么該關(guān)鍵詞的密度越大。在分析過程中,筆者刻意忽略一些無特殊意義的關(guān)鍵詞,重點(diǎn)關(guān)注帶有明顯學(xué)科特征的關(guān)鍵詞,再結(jié)合對(duì)大量“數(shù)字人文”相關(guān)文獻(xiàn)的閱讀和理解,對(duì)國際數(shù)字人文研究的熱點(diǎn)主題進(jìn)行整理與歸納。
在大數(shù)據(jù)時(shí)代,人文學(xué)和社會(huì)科學(xué)的發(fā)展更加注重定量化和空間化。GIS(地理信息科學(xué))與人文學(xué)、社會(huì)科學(xué)進(jìn)行了深度融合,以其強(qiáng)大的空間數(shù)據(jù)管理、空間分析和地圖可視化功能有效地支撐了人文學(xué)和社會(huì)科學(xué)的研究,并成為數(shù)字人文研究的重要組成部分[17]。GIS可以有效地處理空間實(shí)體,并提供復(fù)雜的建模和分析功能來處理空間問題,有學(xué)者基于GIS中的點(diǎn)、線和多邊形技術(shù)研究語言和文化的表達(dá)形式[18]。Zhu Suoling將GIS技術(shù)應(yīng)用于中國古代地方志的開發(fā)和利用,以實(shí)現(xiàn)有關(guān)廣東省地方志中分散的歷史數(shù)據(jù)的挖掘和可視化[19]。另外,人文地理信息系統(tǒng)(Humanities GIS)位于藝術(shù)與科學(xué)的交匯處,Charles Travis討論了兩個(gè)HumGIS模型的概念化和可操作性,第一個(gè)模型用于執(zhí)行可視化的地理歷史分析,第二個(gè)模型將Ulysses整合到社交媒體地圖中,以解釋全球范圍內(nèi)的數(shù)字生態(tài)系統(tǒng)空間表現(xiàn)[20]。為了測試GIS是否可以用來繪制主觀空間經(jīng)驗(yàn)的表達(dá)所提供的定性數(shù)據(jù),David Cooper等使用GIS探索兩個(gè)英格蘭湖區(qū)旅行地圖中文本說明之間的空間關(guān)系[21]。
文化遺產(chǎn)是人類社會(huì)在歷史實(shí)踐中所創(chuàng)造的具有文化價(jià)值的財(cái)富遺存,具有不可再生性。數(shù)字技術(shù)的發(fā)展,推動(dòng)了文化遺產(chǎn)數(shù)字化傳播與保護(hù)的進(jìn)程[22]。A. Marco Fiorucci等學(xué)者對(duì)機(jī)器學(xué)習(xí)在文化遺產(chǎn)中的應(yīng)用進(jìn)行了批判性研究,分析了機(jī)器學(xué)習(xí)、監(jiān)督、半監(jiān)督和無監(jiān)督之間的主要分歧,并對(duì)各種算法的廣泛應(yīng)用進(jìn)行深入思考[23]。Kim Seulah等學(xué)者建議使用數(shù)字技術(shù)促進(jìn)韓國非物質(zhì)文化遺產(chǎn)的可持續(xù)性發(fā)展,提出利用虛擬現(xiàn)實(shí)技術(shù)創(chuàng)建博物館的展覽內(nèi)容,以鼓勵(lì)公眾參與和了解非物質(zhì)文化遺產(chǎn)[24]。Emanuela Grifoni研究了3D多源多波段模型在文化遺產(chǎn)中的應(yīng)用,采用3D多波段/多光譜重建技術(shù),構(gòu)建和比較使用常規(guī)數(shù)碼相機(jī)(RGB和UV)和多波段相機(jī)(IR)獲得的3D多波段模型,并對(duì)兩幅世界名畫進(jìn)行重建繪畫[25]。Francesca Tomasi探討了模型和建模在數(shù)字人文科學(xué)領(lǐng)域中的作用,并特別關(guān)注文化遺產(chǎn)的研究,采用了二維視角將建模視為抽象過程,并使用可由機(jī)器處理的語言實(shí)現(xiàn)此抽象過程[26]。
語料庫是以電子計(jì)算機(jī)為載體承載語言知識(shí)的基礎(chǔ)資源,是需要經(jīng)過科學(xué)取樣和加工的大規(guī)模電子文本庫,人文學(xué)者可借助計(jì)算機(jī)分析工具開展相關(guān)語言理論及其應(yīng)用的研究。ArchiMob是一種基于口述歷史訪談而免費(fèi)提供的通用瑞士德語口語語料庫,Scherrer Yves描述了ArchiMob語料庫文檔如何被轉(zhuǎn)錄、分割和與聲源對(duì)齊,并鼓勵(lì)將語料庫用于一般的數(shù)字人文科學(xué),特別是方言學(xué)[27]。Aynat Rubinstein描述了第一個(gè)開放式多類型現(xiàn)代希伯來語歷史語料庫的創(chuàng)建,在語料庫的管理、編碼和分發(fā)過程中實(shí)施數(shù)字人文方法,同時(shí)演示了語料庫在歷史語言研究中的用途[28]。另外,還有西方文學(xué)經(jīng)典著作的語料庫(1.0版),Clarence Green描述了該語料庫的發(fā)展、組織和原始資料形式,證明其在文化學(xué)和語料庫文體學(xué)(分別屬于傳統(tǒng)人文學(xué)科和數(shù)字人文學(xué)科)兩個(gè)跨學(xué)科領(lǐng)域中的潛在用途[29]。Christopher Donaldson等學(xué)者采用一種跨學(xué)科的方法調(diào)查歷史文本語料庫,在這項(xiàng)調(diào)查中,利用地理信息系統(tǒng)(GIS)分析了美學(xué)理論與描述湖泊地區(qū)的空間美學(xué)術(shù)語之間的對(duì)應(yīng)關(guān)系,最后探討了基于地理和語料庫的方法如何加強(qiáng)文學(xué)、美學(xué)和自然地理之間的聯(lián)系[30]。
檔案是人類社會(huì)實(shí)踐活動(dòng)的原始記錄,作為一種具有真實(shí)性、原始性、憑證價(jià)值與情報(bào)價(jià)值的固化信息,是數(shù)字人文研究的重要對(duì)象和信息資源之一。美國廢奴主義者莎莉·霍利(Sallie Holley)(1818—1893)演講語音檔案缺失,Pamela VanHaitsma通過數(shù)字替代和元數(shù)據(jù)重建莎莉·霍利的廢奴主義言論,這些數(shù)字方法不僅可以還原她的職業(yè)和演講時(shí)間,還可以揭示她的演講方式以及公開演講的性別意義[31]。Robledano-Arillo Jesus等學(xué)者基于鏈接開放數(shù)據(jù)技術(shù)構(gòu)建了一個(gè)概念模型,用于編碼和傳播與西班牙內(nèi)戰(zhàn)攝影檔案有關(guān)的數(shù)據(jù),該模型促進(jìn)了用于歷史研究的圖像數(shù)據(jù)的傳播和檢索系統(tǒng)的生成,突破了遺產(chǎn)照片檔案內(nèi)容與上下文信息表示方法方面的一些限制[32]。紐約大學(xué)一個(gè)跨學(xué)科研究團(tuán)隊(duì)啟動(dòng)了“藝術(shù)家檔案計(jì)劃”,采用數(shù)字人文方法構(gòu)建相關(guān)信息庫,以展示和保存當(dāng)代藝術(shù),便于將來處理和重新激活藝術(shù)作品[33]。CABDHRP是一個(gè)支持中國歷史研究的中國古代書籍?dāng)?shù)字人文研究平臺(tái),這項(xiàng)研究采用開放源代碼機(jī)構(gòu)存儲(chǔ)系統(tǒng)DSpace,作為對(duì)歸檔的圖像、元數(shù)據(jù)和全文進(jìn)行掃描的數(shù)字檔案系統(tǒng),以支持?jǐn)?shù)字人文研究[34]。
在所有的學(xué)術(shù)探索中,數(shù)字人文最為生動(dòng)地重現(xiàn)了古代圖書館的精髓,它追求的是形式多樣的信息呈現(xiàn)、知識(shí)組織、技術(shù)交流與傳播,正是這些追求讓數(shù)字圖書館變得生機(jī)勃勃[35]。Biligsaikhan Batjargal基于自動(dòng)元數(shù)據(jù)映射為日本人文數(shù)字圖書館構(gòu)建聯(lián)合搜索系統(tǒng),其目的是為非日語人文數(shù)字圖書館自動(dòng)執(zhí)行元數(shù)據(jù)映射,以及讓用戶僅使用一個(gè)查詢輸入即可訪問多個(gè)人文數(shù)字圖書館[36]。Mnemosyne是一個(gè)開放式數(shù)字圖書館,允許對(duì)特定館藏進(jìn)行數(shù)據(jù)建模,該項(xiàng)目借助工具Clavy進(jìn)行開發(fā),該工具是一個(gè)豐富的互聯(lián)網(wǎng)應(yīng)用程序,能夠從數(shù)字對(duì)象的大數(shù)據(jù)集合中導(dǎo)入、保存和編輯信息,從而在機(jī)構(gòu)之間建立橋梁和數(shù)字存儲(chǔ)庫,并創(chuàng)建豐富的數(shù)字內(nèi)容的集合[37]。George Buchanan研究了人文學(xué)科領(lǐng)域的學(xué)者如何利用數(shù)字圖書館進(jìn)行信息查詢,以及如何通過更新人文學(xué)者的信息搜索技術(shù)來提升工作效率,觀察了人文學(xué)者在查詢和術(shù)語使用中運(yùn)用的模式,指出了人文學(xué)者在信息搜索技術(shù)方面存在的問題[38]。
數(shù)字歷史是數(shù)字技術(shù)與歷史科學(xué)融合的結(jié)果,已經(jīng)在人文科學(xué)中得到了廣泛應(yīng)用,主要是對(duì)舊內(nèi)容進(jìn)行數(shù)字分析。Christopher D. Green認(rèn)為數(shù)字歷史方法可以有效闡明心理學(xué)過去的某些內(nèi)容,這種成功并不意味著數(shù)字歷史對(duì)傳統(tǒng)歷史學(xué)構(gòu)成某種威脅,相反,兩者可以有效互補(bǔ)[39]。Ivan Flis討論了數(shù)字歷史與傳統(tǒng)歷史之間的關(guān)系,指出數(shù)字方法不是取代歷史學(xué)家的工作,而是加以補(bǔ)充并將其轉(zhuǎn)化為新的受眾,同時(shí)認(rèn)為數(shù)字歷史的作用是充當(dāng)量化學(xué)科(如心理學(xué))科學(xué)家與非量化學(xué)科(如歷史)科學(xué)家之間的“trading creole”[40]。在加拿大“Trading Consequences”項(xiàng)目中,歷史學(xué)家、計(jì)算語言學(xué)家和計(jì)算機(jī)科學(xué)家合作開發(fā)了一種文本挖掘系統(tǒng),該系統(tǒng)從19世紀(jì)大量英文版數(shù)字化出版物中提取信息,確定事件、地理位置、日期三者之間的文本關(guān)系,基于該研究項(xiàng)目,Jim Clifford解釋了數(shù)字人文技術(shù)應(yīng)用于歷史研究的方法、用途和局限性[41]。Jacy L.Young 對(duì)早期的兩個(gè)姊妹刊《美國心理學(xué)雜志》和《教育學(xué)院》進(jìn)行了探索性數(shù)字分析,揭示了兩種期刊的許多特征和關(guān)鍵屬性,并指出期刊內(nèi)容之間的界線是流動(dòng)的,而不是絕對(duì)的[42]。
主題建模是一種結(jié)合機(jī)器學(xué)習(xí)和自然語言處理等相關(guān)方法的統(tǒng)計(jì)技術(shù),其基本思想認(rèn)為文本是由多個(gè)主題混合而成的, 而主題是特征詞上的一種概率分布[43]。Zef M.Segal使用主題建模的計(jì)算工具研究了19世紀(jì)希伯來語報(bào)紙HaTzfira中每周和每天時(shí)間周期之間的主題差異,分析了周期更改前后的主題情況,顯示出期刊主題的不同變化模式[44]。Quintus Van Galen討論了如何使用主題建模工具來分析歷史報(bào)紙檔案,該案例研究了19世紀(jì)大英圖書館報(bào)紙檔案中對(duì)美國的引用,結(jié)果表明主題建模通過“遠(yuǎn)程讀取”檔案的方式,為傳統(tǒng)問題提供了一種潛在的解決方案[45]。Hu Yuening提出了一種向用戶發(fā)出聲音的機(jī)制,將用戶對(duì)主題模型的反饋編碼作為主題模型中單詞之間的相關(guān)性,這個(gè)框架是交互式主題建模,它使未經(jīng)培訓(xùn)的用戶可以輕松地、反復(fù)地將其編碼反饋到主題模型中[46]。Nektaria Potha 系統(tǒng)地研究主題建模在作者驗(yàn)證中的有效性,研究了涵蓋主要范式的幾種作者驗(yàn)證方法,包括內(nèi)在和外在方法以及基于概要和基于實(shí)例的方法,并與潛在語義索引(LSI)和潛在狄利克雷分配(LDA)這種著名主題建模方法相結(jié)合[47]。
本文以SCIE數(shù)據(jù)庫和SSCI數(shù)據(jù)庫為數(shù)據(jù)源,通過對(duì)數(shù)字人文研究文獻(xiàn)的施引文獻(xiàn)和關(guān)鍵詞進(jìn)行分析,探討了國際數(shù)字人文研究的知識(shí)基礎(chǔ)、演化路徑和研究熱點(diǎn),對(duì)2001—2020年近二十年國際數(shù)字人文研究的來龍去脈有了更加清晰的認(rèn)識(shí)。在知識(shí)基礎(chǔ)方面,數(shù)字人文知識(shí)來源可分為兩大知識(shí)集群,一是作者身份識(shí)別,二是遠(yuǎn)距離閱讀,這兩個(gè)知識(shí)集群側(cè)重于數(shù)字人文學(xué)科的研究方法與實(shí)踐,在數(shù)字人文研究領(lǐng)域具有開創(chuàng)性和標(biāo)志性意義。在演化路徑方面,國際數(shù)字人文研究經(jīng)歷了初始期、發(fā)展期和深化期的發(fā)展歷程。在初始期,“數(shù)字圖書館”“語料庫”“作者身份識(shí)別”是最為活躍的主題詞;進(jìn)入發(fā)展期,“數(shù)字歷史”、“社交網(wǎng)絡(luò)”和“本體論”研究表現(xiàn)得較為積極;到了深化期,“文化遺產(chǎn)”、“可視化”、“圖像”和“建?!钡戎黝}詞充分彰顯其優(yōu)勢地位。由此可見,數(shù)字人文研究逐漸由單一走向多元,由淺層思考趨向深入研究。研究熱點(diǎn)主要集中為7個(gè)研究主題,分別是 GIS技術(shù)、文化遺產(chǎn)、語料庫建設(shè)、數(shù)字檔案、數(shù)字圖書館、數(shù)字歷史和主題建模。其中,文化遺產(chǎn)和數(shù)字歷史是數(shù)字人文研究的核心命題;數(shù)字檔案、數(shù)字圖書館和語料庫建設(shè)是數(shù)字人文生態(tài)系統(tǒng)良好運(yùn)行的基礎(chǔ)建設(shè);GIS技術(shù)和主題建模是數(shù)字人文研究強(qiáng)勁的技術(shù)支持。
上述國際數(shù)字人文的分析結(jié)果為我國數(shù)字人文研究領(lǐng)域的發(fā)展提供了些許啟示,具體如下:
一是夯實(shí)圖書館的學(xué)術(shù)地位。圖書館可依托現(xiàn)有的信息技術(shù)、數(shù)字資源和存儲(chǔ)優(yōu)勢,創(chuàng)建專業(yè)性的數(shù)據(jù)集或大規(guī)模結(jié)構(gòu)化數(shù)據(jù),擴(kuò)大人文學(xué)者的研究樣本;圖書館需要轉(zhuǎn)變角色定位,突破輔助支持型服務(wù)模式的限制,以研究者身份介入數(shù)字人文的科研實(shí)踐中,開展相關(guān)理論研究。圖書館應(yīng)與人文學(xué)者保持密切聯(lián)系,結(jié)合具體的人文教學(xué)科研情境,嵌入人文學(xué)者的教學(xué)和科研過程中,擴(kuò)大“數(shù)字人文”實(shí)踐的受眾范圍。
二是加強(qiáng)數(shù)字檔案資源建設(shè)。在理論方面,需要厘清數(shù)字人文與檔案工作的邏輯關(guān)系和相關(guān)理論,尋找數(shù)字人文和檔案管理的內(nèi)涵契合點(diǎn),探究數(shù)字技術(shù)的發(fā)展前沿和跨界結(jié)合的難點(diǎn)。在實(shí)踐方面,檔案機(jī)構(gòu)可以依托資源優(yōu)勢開發(fā)基于檔案內(nèi)容挖掘與知識(shí)發(fā)現(xiàn)的數(shù)字人文項(xiàng)目,促進(jìn)我國檔案領(lǐng)域數(shù)字人文項(xiàng)目的資助和認(rèn)證體系建設(shè),推動(dòng)檔案工作者參與“國家數(shù)字人文基礎(chǔ)設(shè)施建設(shè)工程”的規(guī)劃,助力“數(shù)字中國”的建設(shè)。
三是注重跨學(xué)科交流與合作。在跨學(xué)科研究領(lǐng)域中,數(shù)字人文是典型的存在,需要人文學(xué)科專家、計(jì)算機(jī)技術(shù)專家、數(shù)據(jù)處理專家或其他專家共同協(xié)作研究。這不僅需要跨學(xué)科、跨空間甚至跨機(jī)構(gòu),還要最大程度最高效率地實(shí)現(xiàn)交流與合作。國內(nèi)數(shù)字人文的發(fā)展需要在繼續(xù)發(fā)展已有研究方向、創(chuàng)新研究方法的同時(shí)深入挖掘新的研究領(lǐng)域,將文化遺產(chǎn)和數(shù)字歷史作為數(shù)字人文項(xiàng)目的重點(diǎn)課題,同時(shí)加強(qiáng)藝術(shù)作品和語料庫的數(shù)字化建設(shè)。
四是構(gòu)建數(shù)字人文學(xué)術(shù)環(huán)境。數(shù)字人文研究深入開展,需要大到國家,中到機(jī)構(gòu),小到個(gè)人的全方位重視和關(guān)注,從國家政策、機(jī)制等方面著手營造數(shù)字人文氛圍。國家建立了支撐數(shù)字人文研究的政策和基金扶持、機(jī)構(gòu)平臺(tái)搭建、資源提供、技術(shù)支持等機(jī)制,使得科研人員可以進(jìn)行跨學(xué)科、跨機(jī)構(gòu)、跨地區(qū)甚至全球性質(zhì)的數(shù)字人文研究和實(shí)踐。這對(duì)于提高科研效率、促進(jìn)我國數(shù)字人文研究高速發(fā)展具有重要意義。