曾熙 王曉光
(1.武漢大學(xué)信息管理學(xué)院,武漢 430072;2.武漢大學(xué)信息資源研究中心,武漢 430072)
數(shù)字技術(shù)的發(fā)展與應(yīng)用為學(xué)術(shù)研究帶來了深刻的變化。一方面,移動(dòng)網(wǎng)絡(luò)、自媒體的發(fā)展和數(shù)字出版的普及使得互聯(lián)網(wǎng)中可獲取的原生與非原生數(shù)字學(xué)術(shù)資源急速增長(zhǎng);另一方面,數(shù)字環(huán)境下傳統(tǒng)研究問題的拓展與新興研究問題的涌現(xiàn)推動(dòng)了學(xué)術(shù)研究視角、研究思維與研究方法的變革。在此背景下,“數(shù)字學(xué)術(shù)”這一概念應(yīng)運(yùn)而生。近年來,國(guó)外眾多圖書館紛紛開始創(chuàng)建數(shù)字學(xué)術(shù)中心,開展數(shù)字學(xué)術(shù)研究項(xiàng)目,并為研究人員提供數(shù)字學(xué)術(shù)支持。這一現(xiàn)象引起了國(guó)內(nèi)外圖情界的廣泛關(guān)注,有關(guān)數(shù)字學(xué)術(shù)的研究層出不窮。然而,當(dāng)前關(guān)于數(shù)字學(xué)術(shù)的研究主要集中在數(shù)字學(xué)術(shù)中心的空間建設(shè)、人員設(shè)置、服務(wù)方式、服務(wù)特色等實(shí)踐問題上,對(duì)數(shù)字學(xué)術(shù)的歷史沿革、基本概念、主要特征等理論問題則鮮有涉及。理論研究的不足制約了數(shù)字學(xué)術(shù)的深入化、系統(tǒng)化發(fā)展。因此,有必要對(duì)數(shù)字學(xué)術(shù)的概念進(jìn)行科學(xué)明確的界定,對(duì)其特征進(jìn)行合理的闡釋。
數(shù)字學(xué)術(shù)這一概念興起于20世紀(jì)90年代末,但它并不是一個(gè)全新的事物,而是繼數(shù)字人文(digital humanities)、電子科研(e-science)、社會(huì)計(jì)算(social-computing)、電子學(xué)術(shù)(e-scholarship)等術(shù)語(yǔ)之后,隨著數(shù)字技術(shù)在學(xué)術(shù)活動(dòng)中的應(yīng)用不斷發(fā)展成熟起來的[1]。事實(shí)上,將數(shù)字技術(shù)應(yīng)用于學(xué)術(shù)研究已經(jīng)有很長(zhǎng)的歷史。
1949年,Busa神父利用IBM穿孔機(jī)計(jì)算機(jī)為圣托馬斯?阿奎那的神學(xué)著作編制索引被認(rèn)為是最早的數(shù)字學(xué)術(shù)活動(dòng)[2]。1951年,Baglev嘗試?yán)糜?jì)算機(jī)檢索代碼制作文摘,這一研究被稱作“電子出版物雛形”的誕生[3]。1959年,美國(guó)匹茲堡大學(xué)建立全文法律信息檢索系統(tǒng)[4]。1972年,IBM公司開始研制實(shí)驗(yàn)型關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng),Nelson和Lancaster提出了未來研究人員在大型計(jì)算機(jī)網(wǎng)絡(luò)中存儲(chǔ)和檢索學(xué)術(shù)研究文獻(xiàn)的美好設(shè)想[5];一些出版商也看到了學(xué)術(shù)檢索的商機(jī),開始構(gòu)建學(xué)術(shù)數(shù)據(jù)庫(kù)。20世紀(jì)70年代末,美國(guó)的DIALOG系統(tǒng)向公眾提供聯(lián)機(jī)全文數(shù)據(jù)庫(kù)檢索服務(wù)[4]。1980年,新聞組Usenet誕生,用戶可以在新聞組上就特定主題進(jìn)行自由討論。20世紀(jì)80年代初,UMI、OVID、EBSCO等出版商紛紛開始電子出版物的制作與發(fā)行;80年代中期,隨著個(gè)人電腦的興起,電子郵件開始被廣泛用于學(xué)術(shù)交流。20世紀(jì)90年代初,互聯(lián)網(wǎng)的應(yīng)用為來自世界各地的研究人員開展網(wǎng)絡(luò)協(xié)作創(chuàng)作了條件;90年代末,研究者開始利用數(shù)字技術(shù)實(shí)現(xiàn)可視化、地理空間展示、模擬空間,以及復(fù)雜系統(tǒng)的網(wǎng)絡(luò)分析[6]。進(jìn)入21世紀(jì),隨著大數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算等數(shù)字技術(shù)的出現(xiàn),多樣化的數(shù)字研究方法與研究工具逐漸滲透到學(xué)術(shù)研究的各個(gè)環(huán)節(jié),學(xué)術(shù)研究環(huán)境發(fā)生巨大的變化:跨時(shí)空、跨學(xué)科研究問題與各種新興研究問題不斷涌現(xiàn);數(shù)字期刊、書籍、圖像、音頻、視頻、3D模型等形式多樣的數(shù)字文獻(xiàn)層出不窮;文本分析、數(shù)據(jù)挖掘、GIS數(shù)字地圖、三維建模等功能豐富的數(shù)字研究方法駢興錯(cuò)出;多媒體出版物、微型出版物、納米出版物、增強(qiáng)型出版物等語(yǔ)義豐富的數(shù)字出版物屢見不鮮;開放獲取、學(xué)術(shù)論壇、學(xué)術(shù)信息門戶、學(xué)術(shù)社交網(wǎng)站等學(xué)術(shù)傳播與交流方式層見迭出。數(shù)字學(xué)術(shù)時(shí)代已然到來。
從數(shù)字學(xué)術(shù)的發(fā)展進(jìn)程可以看出,數(shù)字學(xué)術(shù)是一個(gè)仍在不斷發(fā)展的新興領(lǐng)域,從簡(jiǎn)單的索引編制到研究問題、研究材料、研究方法、研究成果與交流方式的巨大改變,數(shù)字學(xué)術(shù)在數(shù)字技術(shù)的進(jìn)步與應(yīng)用中不斷改寫著其內(nèi)涵與邊界,其概念也在不斷豐富。
鑒于數(shù)字學(xué)術(shù)尚未完全成熟,其內(nèi)涵與外延仍在不斷演變與擴(kuò)充,目前學(xué)界尚未對(duì)其定義形成統(tǒng)一的認(rèn)識(shí),不同學(xué)者對(duì)此給出了不同看法(見表1)。
表1 數(shù)字學(xué)術(shù)的定義
在數(shù)字學(xué)術(shù)的定義方面,一部分學(xué)者強(qiáng)調(diào)數(shù)字技術(shù)與工具對(duì)學(xué)術(shù)活動(dòng)的介入,另一部分學(xué)者則通過列舉具體的數(shù)字研究技術(shù)與研究實(shí)踐來界定其范圍??傮w來看,盡管學(xué)者們對(duì)數(shù)字學(xué)術(shù)的理解各不相同,但都強(qiáng)調(diào)數(shù)字技術(shù)與工具對(duì)學(xué)術(shù)研究的滲透。在數(shù)字學(xué)術(shù)的側(cè)重點(diǎn)方面,有學(xué)者聚焦于數(shù)字技術(shù)對(duì)學(xué)術(shù)交流模式的影響,也有學(xué)者側(cè)重于討論數(shù)字環(huán)境下研究范式與研究方法的變革,還有學(xué)者認(rèn)為數(shù)字學(xué)術(shù)貫穿于學(xué)術(shù)研究全過程。本文認(rèn)為學(xué)術(shù)研究是一項(xiàng)復(fù)雜的系統(tǒng)性工作,各個(gè)環(huán)節(jié)緊密相連,不可分割,數(shù)字技術(shù)的介入必將帶來學(xué)術(shù)活動(dòng)全過程的深刻變化,而不是僅僅影響其中某一個(gè)或幾個(gè)環(huán)節(jié)。因此,綜合上述觀點(diǎn),本文將數(shù)字學(xué)術(shù)定義為利用數(shù)字技術(shù)與方法介入學(xué)術(shù)研究全過程的新型研究模式。
除數(shù)字學(xué)術(shù)外,數(shù)字人文、社會(huì)計(jì)算、e-science等概念也常被用來形容利用數(shù)字技術(shù)進(jìn)行學(xué)術(shù)研究,厘清這些概念之間的區(qū)別與聯(lián)系對(duì)正確認(rèn)識(shí)與理解數(shù)字學(xué)術(shù)至關(guān)重要。
數(shù)字人文這一概念源自“人文計(jì)算”,是指在數(shù)字技術(shù)支撐下開展人文研究而形成的新型跨學(xué)科研究領(lǐng)域[16]。社會(huì)計(jì)算是指面向社會(huì)科學(xué)的計(jì)算理論和方法[17]。e-science是一種計(jì)算密集型的科學(xué)研究模式,強(qiáng)調(diào)在分布式研究網(wǎng)絡(luò)下,利用海量數(shù)據(jù)集和網(wǎng)格計(jì)算開展科學(xué)研究[18]。盡管概念中并未刻意強(qiáng)調(diào)e-science適用的學(xué)科范圍,但是對(duì)e-science項(xiàng)目的調(diào)研發(fā)現(xiàn),目前e-science的應(yīng)用領(lǐng)域主要集中在生物科學(xué)、醫(yī)藥衛(wèi)生、工業(yè)技術(shù)、物理學(xué)、地球科學(xué)、天文學(xué)等自然科學(xué)領(lǐng)域[19]。
通過對(duì)數(shù)字人文、社會(huì)計(jì)算、e-science和數(shù)字學(xué)術(shù)概念與應(yīng)用的分析,發(fā)現(xiàn)它們都強(qiáng)調(diào)數(shù)字技術(shù)對(duì)學(xué)術(shù)研究的介入。而這些概念的不同之處在于其涵蓋的學(xué)科范圍不同:數(shù)字人文專注于文學(xué)、歷史、藝術(shù)、哲學(xué)等人文學(xué)科;社會(huì)計(jì)算聚焦于經(jīng)濟(jì)、政治、法律、民族、宗教等社會(huì)科學(xué);e-science關(guān)注自然科學(xué);數(shù)字學(xué)術(shù)的學(xué)科范圍則更廣,自然科學(xué)、社會(huì)科學(xué)與人文學(xué)科領(lǐng)域都在其研究范圍之內(nèi)。
數(shù)字技術(shù)的利用貫穿于學(xué)術(shù)研究全過程,是數(shù)字學(xué)術(shù)的前提與基礎(chǔ)。因此,數(shù)字化是數(shù)字學(xué)術(shù)的核心特征。為了更準(zhǔn)確、更深入地闡釋數(shù)字化特征的具體表現(xiàn),本文從學(xué)術(shù)生命周期的角度出發(fā),探討數(shù)字技術(shù)與工具的介入對(duì)學(xué)術(shù)研究各個(gè)環(huán)節(jié)的影響。英國(guó)聯(lián)合信息系統(tǒng)委員會(huì)(JISC)認(rèn)為學(xué)術(shù)研究生命周期包括提出問題、組織團(tuán)隊(duì)、課題申請(qǐng)、研究探索、成果產(chǎn)出5個(gè)環(huán)節(jié)[20],英國(guó)科學(xué)與技術(shù)設(shè)施研究理事會(huì)(STFC)提出數(shù)字環(huán)境下的科研模型包含分析研究趨勢(shì)、形成思路、設(shè)計(jì)和組織項(xiàng)目、申請(qǐng)項(xiàng)目、進(jìn)行實(shí)驗(yàn)、收集組織數(shù)據(jù)、分析數(shù)據(jù)、發(fā)布成果、保存成果9個(gè)階段[21]。參照上述模型,本文將從研究問題、研究材料、研究方法、研究成果、學(xué)術(shù)交流5個(gè)方面闡述數(shù)字學(xué)術(shù)的特征。
研究問題是整個(gè)學(xué)術(shù)研究工作的核心。互聯(lián)網(wǎng)、大數(shù)據(jù)等數(shù)字技術(shù)的出現(xiàn)極大地拓展了學(xué)者的研究視野,也帶來了各式各樣的新興研究問題。
傳統(tǒng)學(xué)術(shù)研究中,學(xué)者可獲得的研究數(shù)據(jù)有限,數(shù)據(jù)處理能力也有限。因此,多圍繞具體、微觀的研究問題展開,通過對(duì)具體現(xiàn)象的研究達(dá)到以小見大的目的。數(shù)字環(huán)境下,互聯(lián)網(wǎng)與數(shù)據(jù)庫(kù)的興起減輕了學(xué)者獲取數(shù)據(jù)與處理數(shù)據(jù)的負(fù)擔(dān),拓寬了學(xué)者的研究視野,推動(dòng)了跨時(shí)空、跨學(xué)科研究問題的出現(xiàn)。從時(shí)間維度來看,不同時(shí)間、不同來源的多模態(tài)數(shù)據(jù)融合與關(guān)聯(lián)使得全面深入理解事物的歷史變遷成為可能。如Alison[22]從宏大的歷時(shí)性角度出發(fā),對(duì)一千多年的威尼斯歷史檔案進(jìn)行數(shù)字化處理與分析,將威尼斯古城千年間的歷史演變以動(dòng)態(tài)的數(shù)字化形式展現(xiàn)出來。歷時(shí)性研究盛行的同時(shí),地理信息可視化技術(shù)的發(fā)展促進(jìn)了基于海量數(shù)據(jù)的跨區(qū)域、跨文化探索,通過提取數(shù)據(jù)中的時(shí)間特征與空間特征進(jìn)行歷史、地理可視化的跨時(shí)空研究不斷出現(xiàn)。如Schich等[23]繪制了公元前600年到2012年間15萬人的出生和死亡地圖,通過可視化的形式展示了近三千年歐洲和北美文化中心的形成與遷徙,以及與之相對(duì)應(yīng)的帝國(guó)興衰。此外,文學(xué)領(lǐng)域的地理信息可視化研究、考古學(xué)領(lǐng)域的GIS結(jié)合應(yīng)用研究,以及Google地圖與文學(xué)的融合展示等跨學(xué)科領(lǐng)域的交叉研究也愈發(fā)流行。
除了傳統(tǒng)研究問題的不斷擴(kuò)展,數(shù)字技術(shù)的發(fā)展也帶來了許多新的研究問題。如大數(shù)據(jù)、物聯(lián)網(wǎng)與云計(jì)算等技術(shù)背景下,涉及海量數(shù)據(jù)的所有權(quán)、控制權(quán)、管轄權(quán)和使用權(quán)的“數(shù)據(jù)主權(quán)”[24]問題已經(jīng)引起各國(guó)重視;公民在互聯(lián)網(wǎng)、社交媒體訪問中留下的持久性、全面性且涉及個(gè)人隱私的數(shù)據(jù)“被遺忘權(quán)”[25]問題引發(fā)了諸多討論;由于網(wǎng)絡(luò)的虛擬性、匿名性、法治與道德約束有限性等問題導(dǎo)致的“網(wǎng)絡(luò)暴力”[26]問題引起了社會(huì)各界的反思;以技術(shù)為支撐,以數(shù)字為內(nèi)核,以獲取剩余價(jià)值、實(shí)現(xiàn)資本積累為目的,對(duì)生產(chǎn)力和生產(chǎn)關(guān)系產(chǎn)生重大影響的“數(shù)字資本主義”[27]問題已經(jīng)成為政治經(jīng)濟(jì)學(xué)家的研究熱點(diǎn)。此外,“數(shù)字孿生”“人工智能倫理學(xué)”“數(shù)據(jù)捐贈(zèng)”等諸多前所未有的新興研究問題正隨著數(shù)字技術(shù)的發(fā)展不斷涌現(xiàn),極大地?cái)U(kuò)展了學(xué)術(shù)研究范圍。
研究材料是構(gòu)成學(xué)術(shù)研究的基本要素,是產(chǎn)生、表現(xiàn)主題的基礎(chǔ)[28]。數(shù)字技術(shù)與工具的利用使得研究材料數(shù)字化成為數(shù)字學(xué)術(shù)的基本特征。
傳統(tǒng)學(xué)術(shù)研究材料主要包括各類圖書、期刊、報(bào)紙、檔案等紙質(zhì)文獻(xiàn)。數(shù)字環(huán)境下,從文本的電子錄入、圖像與表格的掃描與識(shí)別到原生數(shù)字資源的形成,內(nèi)容豐富、形式多樣的原生與非原生數(shù)字材料已經(jīng)逐漸成為學(xué)術(shù)資源的主角。從內(nèi)容看,數(shù)字學(xué)術(shù)資源涵蓋著作、期刊、研究報(bào)告、專利、標(biāo)準(zhǔn)、學(xué)位論文、學(xué)術(shù)發(fā)現(xiàn)等學(xué)術(shù)成果數(shù)據(jù),教材、工具書、參考書、課件講稿、教學(xué)視頻、學(xué)術(shù)講座等學(xué)術(shù)教學(xué)資料,書目、文摘、索引等圖書情報(bào)數(shù)據(jù),以及學(xué)術(shù)會(huì)議安排、講座信息、研究機(jī)構(gòu)、研究人員、研究項(xiàng)目等學(xué)術(shù)資訊數(shù)據(jù)等。從媒介形式看,數(shù)字學(xué)術(shù)資源包含文本、圖像、音頻、視頻、3D模型等。除了這些典型的數(shù)字學(xué)術(shù)文獻(xiàn)外,規(guī)模巨大、類型豐富、變化速度快、價(jià)值密度低的大數(shù)據(jù)也是數(shù)字學(xué)術(shù)資源的重要組成部分,來自各種智能傳感設(shè)備與計(jì)算機(jī)系統(tǒng)實(shí)時(shí)產(chǎn)生的傳感數(shù)據(jù),政府部分和其他組織公布的開放數(shù)據(jù)等也逐漸成為重要的數(shù)字學(xué)術(shù)資源。
傳統(tǒng)學(xué)術(shù)研究中,研究者一般通過購(gòu)買、借閱、租借等方式獲取紙質(zhì)研究材料。然而,紙質(zhì)文獻(xiàn)固有的復(fù)本不足、存放空間有限、查找困難、攜帶不便等問題為學(xué)術(shù)研究的順利開展造成了一定的障礙。數(shù)字時(shí)代,研究材料的獲取變得越來越便捷。隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,全文數(shù)據(jù)庫(kù)、書目庫(kù)、文摘庫(kù)、索引庫(kù)、事實(shí)庫(kù)、事物庫(kù)等多種數(shù)據(jù)庫(kù)開始應(yīng)用于學(xué)術(shù)活動(dòng)中,為世界各地的研究人員提供全天候的資源服務(wù),打破了研究資料獲取在時(shí)間、空間、復(fù)本數(shù)量上的限制,極大地提高了資源的利用效率。云計(jì)算理念與技術(shù)的應(yīng)用催生了Google Scholar、百度學(xué)術(shù)等一站式學(xué)術(shù)文獻(xiàn)獲取工具,這些工具在數(shù)據(jù)庫(kù)的基礎(chǔ)上進(jìn)一步整合了來自全球范圍內(nèi)的圖書館、高校、研究機(jī)構(gòu)存儲(chǔ)的學(xué)術(shù)資源,簡(jiǎn)化了學(xué)者查找和獲取研究資源的步驟,為學(xué)者提供包括資源檢索、查詢、獲取與共享在內(nèi)的一站式學(xué)術(shù)資源服務(wù)[29]。
數(shù)字時(shí)代的到來產(chǎn)生了海量的數(shù)字學(xué)術(shù)研究材料,為研究人員進(jìn)行理論拓展與創(chuàng)新、實(shí)踐驗(yàn)證與推廣提供了更廣泛的研究空間,也促進(jìn)了學(xué)術(shù)研究范式與研究工具的變革。
傳統(tǒng)學(xué)術(shù)研究一般預(yù)先提出假設(shè)或構(gòu)想,并利用文獻(xiàn)調(diào)研、觀察、實(shí)驗(yàn)等方法收集相關(guān)研究材料,通過對(duì)材料的分析、思辨與詮釋來驗(yàn)證假設(shè)。然而,假設(shè)的提出往往高度依賴于研究人員的經(jīng)驗(yàn)、直覺與判斷,研究材料的獲取與詮釋也有較強(qiáng)的主觀性與隨意性,因此這種理論驅(qū)動(dòng)研究范式在很大程度上限制了學(xué)術(shù)研究的精度、深度與廣度[6]。數(shù)字技術(shù)的出現(xiàn)為學(xué)術(shù)研究提供了新的思路與方法。文本挖掘、社會(huì)網(wǎng)絡(luò)分析、復(fù)雜網(wǎng)絡(luò)分析、認(rèn)知計(jì)算、社會(huì)感知計(jì)算、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘[30]等研究方法的利用催生了一種全新的學(xué)術(shù)研究范式——數(shù)據(jù)驅(qū)動(dòng)研究范式,即不預(yù)先提出假設(shè),而是通過對(duì)全面、完整的全樣本數(shù)據(jù)進(jìn)行分析挖掘來總結(jié)過去規(guī)律、描述現(xiàn)狀、預(yù)測(cè)未來發(fā)展。相比理論驅(qū)動(dòng)研究范式,數(shù)據(jù)驅(qū)動(dòng)研究范式的研究材料更全面,材料分析更客觀。兩種研究范式的結(jié)合彌補(bǔ)了傳統(tǒng)學(xué)術(shù)研究的不足,提高了學(xué)術(shù)研究的科學(xué)性,極大地?cái)U(kuò)展了學(xué)術(shù)研究的精度、深度與廣度。
日益復(fù)雜的研究問題、類型多樣的海量研究數(shù)據(jù)催生了多種功能豐富、高效易用的數(shù)字化研究工具。根據(jù)研究工具的載體形式,可以將其劃分為硬件設(shè)備與軟件工具。當(dāng)前在學(xué)術(shù)領(lǐng)域應(yīng)用較廣泛的硬件設(shè)備主要包括高性能計(jì)算機(jī)、3D打印機(jī)、3D掃描儀、虛擬現(xiàn)實(shí)眼鏡、全景相機(jī)、智能傳感器等,這些設(shè)備的應(yīng)用使得學(xué)術(shù)數(shù)據(jù)獲取與計(jì)算變得更加便捷。學(xué)術(shù)研究軟件工具的類型則更加豐富,EndNote、Mendeley、Zotero等文獻(xiàn)收集、組織、管理與共享軟件,TEI、GATE、DocuSKY等文本編碼與標(biāo)注工具,Content DM、Mirador、Digital Scanners等圖像內(nèi)容管理與分析工具,ABBYY Fine Reader、ATLAS.ti、Oxygen等文本挖掘工具,ArcGIS、GRASS、GoogleEarth、Story Maps等地理空間系統(tǒng)分析工具,TensorFlow、RapidMiner等機(jī)器學(xué)習(xí)工具,UCINET、Gephi、NVivo等數(shù)據(jù)可視化工具,Scalar、Omeka、Drupal等數(shù)字出版工具,Dataverse、Dspace等數(shù)據(jù)管理與發(fā)布工具的發(fā)明與使用為學(xué)術(shù)研究活動(dòng)帶來了極大的便利,使學(xué)術(shù)研究達(dá)到事半功倍的效果。
數(shù)字環(huán)境下,研究人員利用豐富的數(shù)字化方法對(duì)數(shù)字研究材料進(jìn)行研究與加工,形成的研究成果同樣呈現(xiàn)出數(shù)字化特征。
傳統(tǒng)學(xué)術(shù)研究成果一般以紙質(zhì)的專業(yè)書籍、期刊論文等方式呈現(xiàn),隨著出版技術(shù)與工具的發(fā)展,數(shù)字學(xué)術(shù)出版物開始出現(xiàn)并逐漸普及,占據(jù)了學(xué)術(shù)出版的半壁江山。數(shù)字學(xué)術(shù)出版物從無到有、從單一到多元的發(fā)展過程,同樣也是其載體形式不斷變化與更新的過程。最早的電子出版物載體是20世紀(jì)80年代出現(xiàn)的軟磁盤;隨后,只讀光盤成為電子出版物的主流載體[4];90年代中期,無須物理存儲(chǔ)載體、直接通過網(wǎng)絡(luò)閱讀的首批互聯(lián)網(wǎng)期刊開始發(fā)行[5];90年代后期,國(guó)內(nèi)外開始出現(xiàn)專門的手持電子書閱讀器。2014年,大多數(shù)學(xué)術(shù)出版已經(jīng)轉(zhuǎn)移到線上,超過90%的期刊都可以在線獲取[5]。
除了載體形式的變化,研究成果的內(nèi)容表現(xiàn)形式也在不斷豐富。早期的數(shù)字出版物多是直接對(duì)紙質(zhì)文獻(xiàn)進(jìn)行數(shù)字化處理得到的PDF文檔。隨后,集成了文字、圖像、音頻和視頻等要素的多媒體文獻(xiàn),3D模型,動(dòng)漫,軟件,游戲,信息系統(tǒng),可視化圖表等多種形式逐步被應(yīng)用于學(xué)術(shù)研究成果的內(nèi)容呈現(xiàn)。進(jìn)入21世紀(jì),文本結(jié)構(gòu)理論與本體技術(shù)在出版領(lǐng)域的應(yīng)用催生了大批規(guī)范定義論文內(nèi)容組件及其語(yǔ)義關(guān)系的學(xué)術(shù)論文內(nèi)容本體,促進(jìn)了學(xué)術(shù)研究成果的結(jié)構(gòu)化表達(dá)。2009年,Shotton[31]提出了語(yǔ)義出版的概念。眾多出版機(jī)構(gòu)紛紛利用語(yǔ)義網(wǎng)、XML技術(shù)、自然語(yǔ)義處理、本體等多種先進(jìn)數(shù)字技術(shù)開發(fā)了諸如增強(qiáng)型出版物、納米出版物、微型出版物等語(yǔ)義豐富、關(guān)聯(lián)關(guān)系明確的語(yǔ)義出版物模型。語(yǔ)義出版物的出現(xiàn)與發(fā)展不僅有利于提高讀者的知識(shí)獲取與理解效率,還能提高研究成果的機(jī)器可讀性,促進(jìn)知識(shí)單元的機(jī)器自動(dòng)處理與重組再利用,實(shí)現(xiàn)更高級(jí)的知識(shí)服務(wù)[32]。
從1665年世界上第一本科技期刊Journal Des Scavans誕生,傳統(tǒng)學(xué)術(shù)交流模式已有三百多年的歷史[33]。進(jìn)入20世紀(jì)中期,數(shù)字技術(shù)與工具的介入極大地豐富了學(xué)術(shù)交流的渠道與方式,使其呈現(xiàn)出數(shù)字化的特點(diǎn)。
傳統(tǒng)學(xué)術(shù)交流模式主要包括面對(duì)面對(duì)話、學(xué)術(shù)研討會(huì)、學(xué)術(shù)演講、學(xué)術(shù)沙龍、書信往來等直接交流方式和學(xué)術(shù)書籍、期刊出版等間接交流方式[34]。其中,直接交流受眾規(guī)模有限、時(shí)間經(jīng)濟(jì)成本較高,間接交流也存在出版周期長(zhǎng)、互動(dòng)性不足、費(fèi)用高等問題。數(shù)字技術(shù)的普及催生了電子郵件、即時(shí)通信工具、數(shù)字出版、網(wǎng)絡(luò)資源發(fā)布和學(xué)術(shù)社交網(wǎng)絡(luò)等多種基于互聯(lián)網(wǎng)的學(xué)術(shù)交流方式。電子郵件、即時(shí)通信工具等直接交流方式通過網(wǎng)絡(luò)將世界各地的人連接在一起,交流雙(各)方不僅能即時(shí)免費(fèi)傳遞文本、圖片等信息,還能通過語(yǔ)音通話、視頻通話達(dá)到面對(duì)面交流的效果。間接交流方式也各有所長(zhǎng),數(shù)字圖書與期刊出版是當(dāng)前學(xué)術(shù)界最重要的交流方式,內(nèi)容豐富、獲取便捷的數(shù)字出版物已經(jīng)成為學(xué)術(shù)研究的基礎(chǔ)。學(xué)術(shù)網(wǎng)站、學(xué)術(shù)博客、學(xué)科信息門戶、wiki資源和其他網(wǎng)絡(luò)學(xué)術(shù)資源的發(fā)布是數(shù)字出版的有力補(bǔ)充,它最大程度地打破了學(xué)術(shù)交流的時(shí)空和篇幅限制,擴(kuò)展了學(xué)術(shù)交流的受眾規(guī)模和范圍。學(xué)術(shù)論壇、網(wǎng)絡(luò)新聞組、學(xué)術(shù)評(píng)論與社交平臺(tái)等學(xué)術(shù)社交網(wǎng)絡(luò)是互動(dòng)性較強(qiáng)的學(xué)術(shù)交流方式。研究人員可以借助學(xué)術(shù)社交網(wǎng)絡(luò)進(jìn)行一對(duì)多、多對(duì)多的學(xué)術(shù)交流,達(dá)到取長(zhǎng)補(bǔ)短、激發(fā)靈感、啟迪智慧的作用。
傳統(tǒng)學(xué)術(shù)期刊具有出版周期長(zhǎng)、費(fèi)用高等問題。數(shù)字技術(shù)與工具的介入帶來了學(xué)術(shù)出版流程的優(yōu)化和出版成本的縮減,然而,數(shù)字期刊與圖書的價(jià)格卻在不斷飆升。針對(duì)這一情況,20世紀(jì)90年代末,學(xué)術(shù)界興起了旨在促進(jìn)學(xué)術(shù)文獻(xiàn)免費(fèi)獲取,推動(dòng)學(xué)術(shù)信息廣泛交流的開放獲取(Open Access,OA)運(yùn)動(dòng)。近年來,開放獲取的理念席卷出版界、圖書情報(bào)界和學(xué)術(shù)界,取得了豐碩的成果。截至2019年3月,開放獲取期刊目錄(Directory of Open Access Journals)共收錄來自129個(gè)國(guó)家和地區(qū)的12 877種OA期刊[35];在OpenDOAR注冊(cè)的OA存儲(chǔ)庫(kù)已達(dá)4 062個(gè)[36]。開放獲取運(yùn)動(dòng)突破了學(xué)術(shù)文獻(xiàn)的價(jià)格與使用權(quán)限障礙,對(duì)促進(jìn)學(xué)術(shù)交流、提高學(xué)術(shù)資源的公共利用率和研究效率意義重大。
上文基于學(xué)術(shù)生命周期闡述了數(shù)字學(xué)術(shù)的數(shù)字化特征在學(xué)術(shù)研究各環(huán)節(jié)的具體表現(xiàn)。通過對(duì)當(dāng)前主要的數(shù)字學(xué)術(shù)研究中心網(wǎng)站及相關(guān)文獻(xiàn)進(jìn)行調(diào)研,本文選取埃默里大學(xué)數(shù)字學(xué)術(shù)中心的“貝爾法斯特團(tuán)隊(duì)詩(shī)歌|網(wǎng)絡(luò)”項(xiàng)目為例進(jìn)行案例分析,對(duì)數(shù)字學(xué)術(shù)的研究過程與核心特征進(jìn)行驗(yàn)證。
1963年,時(shí)任貝爾法斯特女王大學(xué)英語(yǔ)講師的Hobsbaum組織了一個(gè)由學(xué)生、教師和作家組成的寫作研討會(huì),與會(huì)成員每周舉辦一次會(huì)議并在會(huì)上閱讀、分享、討論他們的作品(以詩(shī)歌為主)。貝爾法斯特研討會(huì)持續(xù)了9年,期間偶爾中斷,最終由于北愛爾蘭政治動(dòng)蕩于1972年完全停止。期間有多個(gè)成員出版了他們的第一批作品,并在之后成為著名詩(shī)人。
有關(guān)貝爾法斯特研討會(huì)的成員名單、成員交往程度、成員活動(dòng)范圍的認(rèn)識(shí)存在很多分歧。為解決這一問題,埃默里大學(xué)數(shù)字學(xué)術(shù)中心聯(lián)合校內(nèi)外多個(gè)研究機(jī)構(gòu)開展了“貝爾法斯特團(tuán)隊(duì)詩(shī)歌|網(wǎng)絡(luò)”項(xiàng)目,對(duì)貝爾法斯特研討會(huì)相關(guān)的歷史文獻(xiàn)進(jìn)行數(shù)字化處理,并通過文本挖掘、語(yǔ)義標(biāo)識(shí)等手段進(jìn)行研討會(huì)成員、詩(shī)人社交網(wǎng)絡(luò)、詩(shī)人地理空間的數(shù)據(jù)挖掘與可視化展示。
本項(xiàng)目的研究材料主要包括來自Stuart A.Rose手稿檔案與珍本圖書館、貝爾法斯特女王大學(xué)圖書館、大英圖書館、美聯(lián)社、畫廊出版社、維克森林大學(xué)出版社、其他知識(shí)庫(kù)館藏以及個(gè)人收藏的貝爾法斯特團(tuán)隊(duì)歷史文獻(xiàn)信息,具體來看其囊括了研討會(huì)中閱讀的詩(shī)歌草稿,團(tuán)隊(duì)成員的簡(jiǎn)歷、傳記,會(huì)議記錄,團(tuán)隊(duì)成員發(fā)表的詩(shī)歌,團(tuán)隊(duì)成員間的通信記錄,有關(guān)貝爾法斯特團(tuán)隊(duì)及其成員的新聞報(bào)道和照片等多種類型的數(shù)字化材料。多來源、多類型的數(shù)字化研究材料互為補(bǔ)充、互為印證,使得全面深入地挖掘研討會(huì)成員名單、詩(shī)人交往情況與地理位置等史實(shí)成為可能。研究材料的跨時(shí)空在線獲取節(jié)省了大量的時(shí)間與精力,為研究的進(jìn)一步開展奠定了堅(jiān)實(shí)的基礎(chǔ)。
本項(xiàng)目并未預(yù)先作出假設(shè),而是采用數(shù)據(jù)驅(qū)動(dòng)研究范式,通過對(duì)研究材料的整理和組織,綜合采用Python、Django、exist-db、d3.js、EAD/TEI、Twitter Bootstrap、DBpedia Spotlight、oXygen XML Editor、VIAF、Geo Names等多種開源數(shù)字技術(shù)與自行開發(fā)的TEI與EAD增強(qiáng)軟件對(duì)研究材料中的人物、機(jī)構(gòu)、地理位置等實(shí)體進(jìn)行識(shí)別與標(biāo)記,并通過建立實(shí)體的外部鏈接來增強(qiáng)數(shù)據(jù)的語(yǔ)義內(nèi)涵,為用戶提供互動(dòng)式可視化體驗(yàn)。
具體來看,該項(xiàng)目主要從以下角度深入挖掘了研討會(huì)歷史信息。
(1)貝爾法斯特團(tuán)隊(duì)成員名單。該模塊通過對(duì)研討會(huì)歷史文獻(xiàn)進(jìn)行挖掘,提取出與研討會(huì)有直接聯(lián)系的人員,通過網(wǎng)絡(luò)圖展示出來。網(wǎng)絡(luò)圖中的每個(gè)節(jié)點(diǎn)代表每位團(tuán)隊(duì)成員,節(jié)點(diǎn)之間的連線代表成員之間有直接聯(lián)系。因此,該網(wǎng)絡(luò)圖還能顯示團(tuán)隊(duì)成員之間的社交關(guān)系。本模塊提供了兩幅網(wǎng)絡(luò)圖,其中圖1展示了參與研討會(huì)的所有成員[37],圖2分階段展示了1963—1966年及1966—1972年兩個(gè)階段的成員[37](1966年Hobsbaum離開貝爾法斯特女王大學(xué),團(tuán)隊(duì)成員也不斷更替)。
圖1 貝爾法斯特團(tuán)隊(duì)成員網(wǎng)絡(luò)圖[37]
圖2 貝爾法斯特1963—1966年及1966—1972年團(tuán)隊(duì)成員網(wǎng)絡(luò)圖[37]
(2)貝爾法斯特團(tuán)隊(duì)成員之間的社交網(wǎng)絡(luò)(見圖3)[37]。該模塊與第一模塊使用了相同的數(shù)據(jù),只是在側(cè)重點(diǎn)與可視化方式上有所區(qū)別。該模塊以余弦圖的方式展示團(tuán)隊(duì)成員之間的社交關(guān)系(主要包括通信關(guān)系、婚姻關(guān)系、作品提及關(guān)系等)。其中,弦的厚度表示成員之間的交流頻率,弦越粗說明成員之間的交流越密切;弦的顏色表示交流雙方的主動(dòng)程度。如表示Philip Hobsbaum和Hannah Hobsbaum社交關(guān)系的弦的顏色為紫色[37](代表Philip),這是因?yàn)檠芯坎牧巷@示Philip寫給Hannah的信件更多,或者Philip在作品中提及Hannah的次數(shù)更多。
(3)貝爾法斯特團(tuán)隊(duì)成員地理位置(見圖4)[37]。該模塊主要通過對(duì)研討會(huì)歷史文獻(xiàn)中的地理位置數(shù)據(jù)進(jìn)行提取,并與具體的人物進(jìn)行關(guān)聯(lián),以地圖與圖標(biāo)的形式展示團(tuán)隊(duì)成員的地理位置。其中,文檔圖標(biāo)表示詩(shī)人在詩(shī)歌作品中提到的地點(diǎn),人像圖標(biāo)表示詩(shī)人居住的地點(diǎn),“人像+文檔”圖標(biāo)則表示詩(shī)人居住過且在作品中提到過的地點(diǎn)。讀者點(diǎn)擊圖標(biāo)則可以跳轉(zhuǎn)到相應(yīng)的歷史文獻(xiàn)。
圖3 貝爾法斯特團(tuán)隊(duì)成員社交網(wǎng)絡(luò)[37]
圖4 貝爾法斯特團(tuán)隊(duì)成員地理位置[37]
數(shù)據(jù)驅(qū)動(dòng)研究范式的使用,研究材料的深入挖掘使得用傳統(tǒng)理論驅(qū)動(dòng)研究范式無法解決的問題得以解決。文獻(xiàn)中人物、社交關(guān)系和地理位置等實(shí)體的識(shí)別、提取與語(yǔ)義增強(qiáng)為準(zhǔn)確認(rèn)定貝爾法斯特團(tuán)隊(duì)的成員名單與團(tuán)隊(duì)中詩(shī)人的社交網(wǎng)絡(luò)、活動(dòng)范圍提供了保障,網(wǎng)絡(luò)圖、余弦圖、地理信息圖等多種形式的可視化圖像更是直觀清晰地展示了項(xiàng)目的研究結(jié)論??梢?,數(shù)字化研究方法已經(jīng)成為實(shí)現(xiàn)更準(zhǔn)確、更科學(xué)、更深入學(xué)術(shù)研究的有力支撐。
通過對(duì)相關(guān)歷史文獻(xiàn)的深入分析與挖掘,該項(xiàng)目取得了多種數(shù)字化研究成果。如詳細(xì)介紹項(xiàng)目研究過程,包含文本、圖片和大量外部鏈接的項(xiàng)目介紹網(wǎng)頁(yè);介紹項(xiàng)目研究背景、研究細(xì)節(jié)的長(zhǎng)篇隨筆文章;展示研究結(jié)論的互動(dòng)式可視化圖像;介紹研究過程與研究結(jié)論的期刊論文;用于增強(qiáng)TEI和EAD的數(shù)字內(nèi)容自動(dòng)語(yǔ)義增強(qiáng)軟件等。這些內(nèi)容豐富、形式多樣的研究成果多角度、全方位、深層次地展現(xiàn)了貝爾法斯特研究項(xiàng)目從立項(xiàng)到研究結(jié)論發(fā)布的全過程,有助于讀者深入了解項(xiàng)目的研究情況,為類似研究提供理論、實(shí)踐與技術(shù)支持。
該項(xiàng)目采取直接交流與間接交流相結(jié)合的方式進(jìn)行學(xué)術(shù)傳播與交流。其中,直接交流方式主要包括研究團(tuán)隊(duì)進(jìn)行的學(xué)術(shù)演講,2013—2015年,該項(xiàng)目的負(fù)責(zé)人、技術(shù)顧問等分別在數(shù)字人文會(huì)議、美國(guó)檔案工作者協(xié)會(huì)年會(huì)等多個(gè)學(xué)術(shù)會(huì)議中進(jìn)行演講。間接交流方式包括通過網(wǎng)頁(yè)發(fā)布項(xiàng)目研究情況,通過可視化展示方案與讀者進(jìn)行互動(dòng),通過OA期刊發(fā)表期刊論文等。學(xué)術(shù)演講有利于增強(qiáng)受眾與研究者之間的互動(dòng),項(xiàng)目介紹網(wǎng)頁(yè)能幫助來自全球各地的受眾隨時(shí)了解項(xiàng)目執(zhí)行情況,研究結(jié)論的可視化表示提高了閱讀的易讀性和趣味性,開放獲取論文的發(fā)表打破了學(xué)術(shù)論文的價(jià)格與使用權(quán)限障礙??傮w來看,直接交流與間接交流相結(jié)合的多渠道交流模式極大地?cái)U(kuò)展了研究項(xiàng)目的受眾群體,增強(qiáng)了研究成果的易獲取程度,提高了該項(xiàng)目的交流效率。
值得注意的是,該項(xiàng)目的研究背景中提到“學(xué)術(shù)界對(duì)貝爾法斯特研討會(huì)在培養(yǎng)北愛爾蘭新一代詩(shī)人中的重要作用這一問題存在爭(zhēng)論,希望通過該項(xiàng)目解決這一爭(zhēng)論”。其中難度可想而知:參加研討會(huì)一定能對(duì)詩(shī)人的創(chuàng)作有促進(jìn)作用嗎?這些促進(jìn)作用體現(xiàn)在哪里?如何量化?即使利用最先進(jìn)的技術(shù)也難以回答這些問題。在項(xiàng)目的研究過程與成果中均未提到這一爭(zhēng)論,究竟是研究團(tuán)隊(duì)未進(jìn)行相關(guān)研究,還是研究過但未能得出可靠結(jié)論,筆者無法得知。但是這一案例也充分說明數(shù)字學(xué)術(shù)并非無所不能。
通過對(duì)數(shù)字學(xué)術(shù)的起源、發(fā)展和定義進(jìn)行梳理,本文將數(shù)字學(xué)術(shù)定義為利用數(shù)字技術(shù)與方法介入學(xué)術(shù)研究全過程的新型研究模式。在此基礎(chǔ)上,提出數(shù)字學(xué)術(shù)的核心特征是數(shù)字化,并基于學(xué)術(shù)生命周期理論深入闡釋了數(shù)字化特征在學(xué)術(shù)研究各環(huán)節(jié)的具體表現(xiàn)。通過對(duì)“貝爾法斯特團(tuán)隊(duì)詩(shī)歌|網(wǎng)絡(luò)”項(xiàng)目的案例分析進(jìn)一步驗(yàn)證了數(shù)字學(xué)術(shù)的數(shù)字化特征。
作為一個(gè)仍在發(fā)展與演變的新興概念,數(shù)字學(xué)術(shù)通過擴(kuò)展研究問題范圍,提供易獲取的海量研究材料,創(chuàng)新學(xué)術(shù)研究范式與高效研究工具,豐富學(xué)術(shù)成果的內(nèi)容與形式,提高學(xué)術(shù)交流效率等方式為研究人員開展學(xué)術(shù)研究帶來了諸多便利。但是,數(shù)字學(xué)術(shù)也存在很多局限。如數(shù)據(jù)驅(qū)動(dòng)研究范式下的學(xué)術(shù)研究對(duì)模型與算法依賴性強(qiáng),選擇不同的模型與算法很可能得出截然不同甚至相反的結(jié)論;人類情感的復(fù)雜性和語(yǔ)言的歧義性帶來的研究材料解讀難題目前無法通過技術(shù)解決;研究人員多年積累的問題提出、分析與解決的經(jīng)驗(yàn)無法使用數(shù)字技術(shù)替代;“遠(yuǎn)距離閱讀”“文學(xué)模式識(shí)別”等文本量化分析僅能分析詞頻、語(yǔ)法等表層特征,無法對(duì)文學(xué)作品的情感與精神內(nèi)涵進(jìn)行深層次解讀等。
總之,面對(duì)數(shù)字學(xué)術(shù)的熱潮,學(xué)者既要以開放包容的態(tài)度接受新觀念、新事物,也要冷靜客觀地看待其局限性,在學(xué)術(shù)研究中綜合利用數(shù)字技術(shù)與傳統(tǒng)方法,達(dá)到揚(yáng)長(zhǎng)避短的效果。