• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    數(shù)字人文的研究范式與平臺建設

    2022-04-01 01:57:08劉圣嬰王麗華劉煒劉倩倩
    圖書情報知識 2022年1期
    關鍵詞:研究

    劉圣嬰 王麗華 劉煒 劉倩倩

    (1.華東師范大學圖書館,上海,200062; 2.上海大學文化遺產與信息管理學院,上海,200444; 3.上海圖書館,上海,200031)

    1 引言

    人文學科是所有科學之肇始,是人文精神之依托,被稱為知識分子的必備和基礎素養(yǎng)。無論是古希臘的七藝(文法、修辭、邏輯、算數(shù)、幾何、天文、音樂),還是春秋的六藝(詩、書、禮、樂、易、春秋),其所創(chuàng)立的知識教育體系在今天多歸屬于人文學科范疇,致力于培養(yǎng)區(qū)別于萬物的所謂“人性”。而當今社會建立起與工業(yè)文明相匹配的極其復雜又高深的現(xiàn)代教育,看似造就了大量知識豐富的“專家”,但卻帶來了知識分子整體上的消失,不僅缺乏對人的價值以及人類未來命運的思考者,連培養(yǎng)基本的責任與擔當都成了奢望。在這個機器智能和生命編輯的時代,人文主義遭遇越來越嚴重的危機,我們比任何時候都更加需要和呼喚世界意義的守護者[1]。

    在這樣的背景下,數(shù)字人文誕生了。

    作為信息技術在人文領域的應用,數(shù)字人文目前仍處于非常早期的發(fā)展階段。雖然其歷史可以追溯到計算機剛開始用來做文字處理的上世紀中葉,迄今已有七十余年,但“數(shù)字人文”一詞是2004年隨著A Companion to Digital Humanities一書的出版才得以定名的,當前還不具有公認的定義,甚至連邊界在哪里也眾說紛紜、莫衷一是。即便如此,鑒于數(shù)字化社會的到來已勢不可擋,印刷品不再是知識生產與傳播的主要媒介。在這個背景下,圖靈獎獲得者Tony Hey等敏銳地提出“科學研究的第四范式”概念[2],指出當所有的研究素材和方法都數(shù)字化之后,“數(shù)據(jù)驅動型研究”就水到渠成,人文科學也概莫能外,數(shù)字人文必然是人文研究的未來。

    數(shù)字人文是各門具體人文科學采用數(shù)字方法的匯聚和總結,是一種“方法論共同體”(Methodological Commons)。目前這個共同體已開始具備庫恩所說的共同的“學科范式”特征,隨著專業(yè)教育和學科體系的建立,數(shù)字人文逐漸從各種方法、技術的大雜燴,開始形成具有一定理論結構和研究規(guī)律的獨特領域,該領域的研究者正在從對數(shù)字人文能不能成為一門“學科”心存疑慮而爭論不休,轉而開始專注于各類專門問題的探討和整體共性方法論的總結。當然這與近年來數(shù)字人文研究基礎設施的不斷完善有關,除了大量的數(shù)據(jù)資源以最新的技術不斷賦能研究人員之外,我們還擁有了頗具影響力的協(xié)會、學會和專業(yè)期刊,定期召開國際或地區(qū)性會議,具有穩(wěn)定的基金支持,尤其是形成了本-碩-博的專業(yè)教育體系。目前的薄弱環(huán)節(jié)是基礎設施的建設和提供者與新興的數(shù)字人文研究者之間缺乏溝通對話,導致數(shù)據(jù)資源相關的平臺建設和系統(tǒng)的標準規(guī)范尚未建立,正在成形的方法論體系缺乏實踐檢驗,因此未能盡快成熟并得到公認。

    以漢學(中國傳統(tǒng)學術)研究為代表的中文數(shù)字人文研究也處在一個剛剛起步的階段。早期的數(shù)字圖書館或數(shù)字典藏成果為當下的數(shù)字人文研究提供了重要的數(shù)據(jù)支持,然而從整體上看仍不系統(tǒng),缺乏規(guī)劃,各學科發(fā)展也很不平衡,研究成果較為零散、微觀,多是對數(shù)字技術的簡單應用、對過去研究的重復驗證,或者是對西方研究的一種單純模仿,還缺乏有影響力的、獨創(chuàng)性的成果。究其原因,圖書館等人類記憶機構在數(shù)據(jù)基礎設施建設方面的滯后是一個重要瓶頸[3]。相比西方國家,我們在數(shù)據(jù)獲取方面的困難要大得多:數(shù)據(jù)系統(tǒng)之間缺乏聯(lián)通,付費墻壁壘高聳,造成數(shù)據(jù)獲取的不充分和不完整,或者缺乏必須的數(shù)據(jù)格式(如中文文獻大多以圖像方式提供,文本奇缺),影響到項目的成本、成果的水平,以及對數(shù)字人文研究方法的歸納總結和教育機構相關人才的培養(yǎng)等,這已成為中文數(shù)字人文發(fā)展的嚴重制肘。

    本文試圖基于中國目前對于數(shù)字人文的理論研究,探討一種開放的數(shù)字人文服務平臺設計,將數(shù)字人文研究范式與提供其支撐的基礎設施建設聯(lián)系起來,使其互相借鑒和促進,不僅滿足一般人類記憶機構將數(shù)字典藏系統(tǒng)升級為基于數(shù)據(jù)的服務設施,發(fā)揮其全部潛能。重點在通過靈活可遷移的云平臺架構設計,以及可互操作、熱插拔、容器化的應用App生態(tài)建設,使所有機構的平臺之間能夠實現(xiàn)互聯(lián)互通,并探討應用關聯(lián)數(shù)據(jù)、知識圖譜、實體識別、機器學習等技術,提供人文研究各類文本、圖像、社交網絡、地理信息和可視化等通用工具的支持,長遠支持數(shù)字人文項目的全生命周期管理。相信這樣的總體性設計能夠有助于數(shù)字人文方法論體系的豐富探索和盡快成型,從而幫助數(shù)字人文研究范式盡早確立。

    2 數(shù)字人文:一種人文研究的新范式

    2.1 數(shù)字人文催生人文研究范式轉型

    人文研究一般是人文學者針對特定問題,綜合利用各種材料,透過一定方法,經過研究過程而得出結論并發(fā)表交流的完整流程。素材和方法是人文研究的兩大要素。傳統(tǒng)人文研究的素材可分為文獻(文本或圖像)、實物和抽象物(概念、角色等)等。傳統(tǒng)人文研究的方法通常不是非常嚴格,一般依靠思辨和寫作就能得出結論、完成研究,這也是為什么人們經常詬病“人文學科”缺乏科學性的原因。數(shù)字人文帶來了方法學的進步,我們首先可以從方法研究入手,從中找出數(shù)字人文研究可重復、可循證的一般規(guī)律。

    數(shù)字人文來自于對人文研究進入數(shù)字時代所產生的方法學共同體的歸納,而根據(jù)提出科學范式概念的科學哲學大師托馬斯·庫恩的理論,學科共同體是學科范式的主要特征,因此我們可以認為,研究數(shù)字人文方法其實就是在探討人文科學研究的一種新范式。從分析人文研究的素材和方法入手,我們可以初步掌握數(shù)字人文研究范式的基本輪廓。

    把人文研究方法分為技術、行為和過程三個方面,有助于考察人文研究的基本方法范式。傳統(tǒng)人文研究雖然很少涉及技術,但也絕非沒有,例如考古研究中的探方、測量,以及在人文研究中被普遍采用的卡片摘錄技術等,如果把社會科學也算上(社會科學與人文科學本身并無明顯界限),各類調查、訪談、口述歷史、民族志等研究方法都涉及大量的技術,早期數(shù)字人文的許多方法其實都來自于用計算機實現(xiàn)手工的工作。研究過程可以認為是研究行為的按一定順序的組合,相同的技術和行為可以組合成不同的過程,對不同人文學科研究所產生的效果是不同的。以下會有文字專門討論具體的研究“行為”(見2.3)。

    圖1 ?人文研究的基本范式:數(shù)據(jù)+方法Fig. 1 Fundamental Paradigms of Humanities Research: Data + Method

    人文研究方法的技術、行為和過程在數(shù)字人文中借助信息技術的進步得到很大的發(fā)展,尤其是層出不窮的信息處理技術,可以說這三個部分正在成為數(shù)字人文研究新范式的重要內容,成為數(shù)字人文領域最重要的主題之一。圖1展示了對這種人文研究范式的解構。

    數(shù)字人文研究的“原料”可以分為數(shù)字文本、數(shù)碼圖像或由數(shù)字對象構成的“模型”,有學者稱之為“數(shù)據(jù)態(tài)”。其中數(shù)字模型可以很簡單,某個文本數(shù)據(jù)庫可以代表某個人文主題的全部素材,也可以很復雜,復雜到作為某個真實系統(tǒng)的模擬(即所謂數(shù)字孿生,Digital Twins)。

    數(shù)字人文的方法有兩類,一是傳統(tǒng)方法的計算機實現(xiàn),例如搜索、分析、比較等,利用計算機只是比傳統(tǒng)方法要快很多而已,最著名的數(shù)字人文研究案例—羅伯特·布薩神父編制托馬斯·阿奎納全集索引就是這樣的例子;二是由計算機技術產生的特殊方法,例如統(tǒng)計、分析、聚類和可視化等,布薩神父最后建立了托馬斯·阿奎納索引服務,就屬于對傳統(tǒng)人文方法的一種突破。

    從研究過程來看,數(shù)字技術和網絡交流對過去從收集資料到成果發(fā)表簡單的線性過程帶來了很大沖擊,其過程比傳統(tǒng)人文研究要復雜得多,可以是來回反復的交互過程,成果發(fā)表和交流形式也多利用網絡或社交媒體,具有迅速、便捷、容易追蹤但轉瞬即逝的特點,目前甚至還沒有很好的計量與評價方法[4]。

    無論是傳統(tǒng)方法的計算機實現(xiàn),還是由于計算機技術發(fā)展帶來的新方法,如果從目前各類具體數(shù)字人文研究項目來考察,或者從不同具體人文學科在走向數(shù)字人文過程中的表現(xiàn)來看,其技術、過程和行為三個方面都可以歸納出許多不同的特征。圖1雖然呈現(xiàn)了包括傳統(tǒng)人文和數(shù)字人文在內的人文研究的統(tǒng)一范式,然而它并沒有區(qū)分這些不同特征。應該說不同人文學科在邁向數(shù)字人文過程中的不同特點,不同學科在使用素材或研究方法方面的不同,都會對該學科領域基于數(shù)據(jù)的研究范式帶來影響。例如文學或語言學偏重于利用文本處理技術,歷史學則關注實體對象的時空呈現(xiàn)及相互關系,哲學需要將文本抽象為特定語義的概念,等,當然這類不同可以看成是數(shù)字人文通用方法細分要素的不同配方組合。這里引入圖2,就是要展示數(shù)字人文方法受到技術體系和方法體系(指過程和行為)的雙重影響,而作用于各門不同人文學科。當然這里討論的還只是數(shù)字人文研究方法的一個一般性思考框架,目前無論是具體的人文學科,還是一般性的數(shù)字人文,其方法體系都沒有定型,還處在發(fā)展變化中,也有待進一步挖掘整理。

    2.2 傳統(tǒng)人文與數(shù)字人文的比較

    (1)研究過程方面

    圖2 ?數(shù)字人文相關技術體系和方法體系 Fig. 2 Technology System and Method System Related to Digital Humanities

    傳統(tǒng)人文研究對于素材的收集、加工、處理是研究過程的開始,這是人文研究很重要的有機組成部分;而數(shù)字人文可以將資料匯集、處理的通用部分獨立出來,作為研究基礎設施的一部分,由專門的圖書館、檔案館等相關機構去完成,這就區(qū)分了基礎設施建設工作和數(shù)字人文研究工作。目前數(shù)字人文領域大量的工作其實是基礎設施建設工作,可以看到中文期刊數(shù)字人文的論文發(fā)表中大量來自圖書館信息檔案學科,就是這個道理。但基礎設施建設并不能代替數(shù)字人文研究,前者的目的是為了促進后者。

    (2)素材內容方面

    傳統(tǒng)人文通常通過管理和操控載體化的文獻取得內容,限于手工處理的效率,研究的廣度、深度都受到限制;而數(shù)字人文研究基于數(shù)據(jù),平臺通常就能提供細粒度的知識組織,甚至建立了語義聯(lián)系,使得材料的操控變得較為容易,能夠進行更大范圍深入研究,跨學科研究也更為容易。

    (3)研究方法方面

    傳統(tǒng)人文研究大都采用定性的思辨方法,通過聯(lián)想、比較、邏輯推理、思想實驗等進行敘事或闡釋;而數(shù)字人文可以采用建立模型和定量方法,進行文本分析、內容分析、時空分析、社會關系分析、統(tǒng)計聚類、可視化展示等,從某種程度上為人文研究提供了一定的可重復可驗證的科學性保證。

    (4)技術應用方面

    傳統(tǒng)人文研究可能會采用田野調查、問卷訪談等;而數(shù)字人文可以運用更多計算機技術,如機器學習、神經網絡、語義標注、文本分析、量化分析、聚類算法等。

    (5)科研協(xié)作方面

    傳統(tǒng)的人文研究大多是學者個人或小規(guī)模團隊透過多年皓首窮經、苦思冥想,忽然頓悟,取得些許進展;而數(shù)字人文更強調大規(guī)模協(xié)同和社會網絡交互,甚至大量采用眾包方式,網絡平臺能否提供相應能力就顯得非常重要。

    (6)成果交流方面

    傳統(tǒng)人文基本上以出版圖書或發(fā)表論文為最高標準;而數(shù)字人文可以同時推出網站、數(shù)據(jù)集、工具、軟件、課件、博客文章、可視化作品、多媒體電子書等,專著和論文可以只是副產品。當然數(shù)字人文的基礎設施可以更豐富和全面,包含計算設施、云平臺、資源庫、語料庫等。

    2.3 數(shù)字人文研究的行為范式

    人文學者的研究行為可以類比于自然科學研究中的實驗行為,是數(shù)字人文研究范式的重要來源。本文把數(shù)字人文方法區(qū)分成技術、過程和行為三個方面,研究方法是由研究行為在技術的支持下通過一定的過程組合和迭代而實現(xiàn),因此人文學者的行為范式非常值得研究,可以認為人文學者在使用數(shù)字方法進行學科問題的研究過程中,其共性的行為方式就構成了行為范式。傳統(tǒng)人文研究者可能都有獨特的行為方式,同一個學派可能會基于相同的方式,而數(shù)字人文的價值就在于將其一般化,提取出共性的行為并以一定的技術進行實現(xiàn),同時進行標準化。因此研究行為成為數(shù)字人文研究范式中非常獨特的組成部分,本文稱之為數(shù)字人文研究的行為范式,具體的行為國外稱為“學術原語”(scholarly primitives)[5],可區(qū)分為搜索、收集、閱讀、協(xié)作、比較、發(fā)布等類型,每一種行為類型還可進一步分為子行為,例如搜索可以分直接搜索、瀏覽、探索、存取、鏈接等;收集可以分為爬取、匯聚、組織等;閱讀有瀏覽、評價、遠讀、細讀、互讀等;協(xié)作有建立網絡、咨詢、分享等,如表1所示。

    人文研究的具體行為在數(shù)字人文平臺中都可以以一定的技術加以實現(xiàn),這些行為與實現(xiàn)技術之間的關系參見表2。每一個子行為都可以開發(fā)成目前業(yè)界流行的“微服務”,以更加適應靈活先進的云原生計算環(huán)境。

    傳統(tǒng)人文的研究過程通常是從占有材料開始,然后經過發(fā)現(xiàn)事實、提出假設、收集資料、分析比較、歸納整理,得出結論并進行發(fā)表交流。數(shù)字人文研究由于素材更多、數(shù)據(jù)量更大、時空跨度都可能不同以往,因此研究過程可能會變得非常復雜,更多的在提出假設之后需要建立模型,然后將分析比較等研究過程,透過技術手段操控模型中的數(shù)據(jù)和各類參數(shù)來驗證、修改或推翻假設,最后得出結論。因而如何利用計算技術實現(xiàn)研究目標也需要有一定的計算思維基礎。當然,其前提是數(shù)字人文平臺能夠支持這樣的復雜性。

    表1 ?基本的研究行為Table 1 Basic Research Behaviors

    表2 ?數(shù)字人文研究行為及其技術實現(xiàn)Table 2 Digital Humanities Research Behavior and CorrespondingTechnical Implementation

    什么是數(shù)字人文或什么是好的數(shù)字人文,目前還很難劃定一個清晰的邊界或給出明確的標準。盡管很多人認為,僅僅采用搜索引擎查找資料,或用文字處理軟件從事研究而撰寫的人文研究成果并不能算是數(shù)字人文,但為什么搜索了專門的數(shù)據(jù)庫、用了可視化軟件或一些分析工具就可以是數(shù)字人文成果呢?Unsworth認為[6]需要利用數(shù)字技術對人文問題進行“表征、建?;蚰7隆保╝ practice of representation, a form of modeling or mimicry),才算數(shù)字人文(人文計算),然而這個界線也是模糊的,可能未來我們能夠劃清界線,但那時可能設定界線已經變得沒有意義了。但無論如何我們可以認為,從現(xiàn)在開始,人文研究賴以進行的基礎已經不是“文獻”,而是數(shù)據(jù),由此帶來基礎設施、平臺方法乃至評價標準都開始完全不同。我們現(xiàn)在還站在數(shù)字人文的門口,新的“范式”正在成型,生逢其時,這是我們的幸運。

    2.4 數(shù)字人文平臺建設現(xiàn)狀

    數(shù)字人文平臺是為數(shù)字人文研究服務的,也是實現(xiàn)數(shù)字人文研究范式的重要的基礎設施之一。平臺建得好不好最終要通過數(shù)字人文研究成果來檢驗。因此在建立之初首先需要了解數(shù)字人文研究人員的需求,了解數(shù)字人文研究的一般規(guī)律,以及方法、過程和行為,否則也無法設計出好的數(shù)字人文平臺。當然,數(shù)字人文平臺“兼容”傳統(tǒng)的人文研究是一個前提條件,在很大程度上數(shù)字典藏系統(tǒng)應該就能滿足需求,然后可以進一步升級開發(fā)“真正的”數(shù)字人文平臺,向人文學者全面提供基于數(shù)據(jù)的研究基礎設施服務。

    目前的數(shù)字圖書館系統(tǒng)可以看成是一種初級版本的數(shù)字人文平臺。由于其大都只是將傳統(tǒng)的文獻掃描成圖像,結合元數(shù)據(jù)庫提供有限途徑的查詢,功能十分有限,基本上只是傳統(tǒng)圖書館的一種載體轉換,無法滿足數(shù)字人文研究的進一步需要。雖然有一些平臺已開始提供一些工具,例如分詞、標點、批注、詞云、格式轉換、實體提取、人物關系呈現(xiàn)及可視化等,并采用了眾包理念,但總體上還較為簡單,集成了一些成熟度不一的功能,沒有結合人文學者的領域和場景,用戶體驗不夠好。

    現(xiàn)有的數(shù)字人文平臺存在的最大問題還是技術上的,在內容管理上尚未采用知識圖譜為代表的語義數(shù)據(jù)管理技術,還是關系數(shù)據(jù)庫或者全文數(shù)據(jù)庫;在體系結構上雖然已注意借鑒云計算技術,但還沒有充分考慮以微服務和容積技術為基礎的云原生架構,也沒有考慮技術架構和內容架構分離的設計。因此很難滿足人物、地點、時代、事件或特定事實主題的資料查詢需求,人物或實體之間邏輯或關聯(lián)關系的延伸查詢需求,時空主題范圍的統(tǒng)計分析需求以及可視化呈現(xiàn)的需求等?,F(xiàn)在的認知計算技術結合了機器學習和人工智能,已經能夠提供語詞概念或圖像實體的提取與分析、特征比較、相似性聚類等,數(shù)字人文平臺完全可以應用最新技術,實現(xiàn)最新功能。從平臺的角度來看,還有較大的提升空間。

    3 數(shù)字人文研究的中文資源與研究方法

    人工智能專家李飛飛曾說:“作為科學家,最吸引我的是能夠不斷去拓寬人類知識的邊界,不斷問新的問題,并且發(fā)明工具來解決這些問題”。數(shù)字人文帶給人文研究最有價值的地方,也就是它能夠極大地拓展我們提問題的能力,從而拓展人文研究的新疆域。它使研究者能夠面對海量甚至是“全量”數(shù)據(jù)進行研究,能夠利用各種工具對數(shù)據(jù)進行分析、比較、挖掘、關聯(lián)。這些數(shù)據(jù)是傳統(tǒng)人文學者終其一生都不可能看完的,方法手段也是傳統(tǒng)手工所無法想象的。因此,數(shù)字人文的價值不僅在于它提供了研究的素材,同時也給予了強大的工具和新的方法。以下從中文研究資源和方法兩個角度,簡述數(shù)字人文相關情況。

    3.1 中文數(shù)字人文基礎資源現(xiàn)狀

    史料乃人文研究之本,而所有人類活動紀錄皆可為史料。圖書館等記憶機構自古以來不僅是人類思想紀錄的保留地,也同時是人文思想的孵化所。著名的亞歷山大圖書館以收藏人類所有知識為己任,但其鴻富的收藏是為了聚集天下英才從事研究寫作和知識傳授,在其不長的歷史時期聚集了數(shù)百位先賢哲人,為中世紀乃至一千多年后的文藝復興留下了非常寶貴的知識財富。海量的資源提供了極其豐富的知識基礎,使暢游其中的學者具有完全不同的起點,站在巨人的肩上他們才更有智慧。中文資源亦是如此,淵遠流長,歷經兩千余年流傳,培育并滋養(yǎng)了燦爛的中華文明。

    自上世紀九十年代以來,中國傳統(tǒng)學術相關資源的數(shù)字化已獲得長足發(fā)展,目前通過網絡已基本上皆可盡知。然而中文數(shù)字典藏的最大特點是以掃描圖像為主,總體上轉換成文本的數(shù)量不及三成,且質量良莠不齊;另一個特點是大多數(shù)典藏資源都分散于各家出版機構或數(shù)據(jù)庫廠商,研究機構很少提供典藏資源的開放服務;第三個特點是所有系統(tǒng)提供的功能都很簡單,大多只能進行少量字段的查檢。雖然也有部分商業(yè)化特藏庫做得不錯,提供全文搜索,并且從文本質量到圖文對照都比較人性化,然而總體來說與國外一些數(shù)字人文平臺的水平無法比肩。當下的技術已經提供了可能性,我們理應做得更好。

    2018年3月,哈佛大學包弼德教授在上海哈佛中心組織召開了“中國歷史研究的網絡基礎設施國際研討會(International Conference on a Cyberinfrastructure for Historical China Studies)”[7],遍請當今與中文資源及平臺界相關人士和機構代表,進行了為期三天的研討,共有近60場各類會議(sessions and panel discussions),142人次發(fā)言,幾乎將中文傳統(tǒng)學術資源一網打盡。包教授將主要的中文傳統(tǒng)學術資源庫分為三類(見文末附表1):平臺與工具類、文字/文本圖像數(shù)據(jù)庫類以及數(shù)據(jù)庫類(主要是專題或文本庫),悉數(shù)邀請其代表參會。

    包弼德教授的列表展示了中文數(shù)字人文資源的建設現(xiàn)狀,應該是非常全面了。傳統(tǒng)人文學者在從事研究時大部分時間都在遍訪資源,常常必須通過打聽或者高人指點,有時是偶然機緣,才有可能獲得一些線索,是不是合用還要經過人工實際翻看,查找資料與研究者本人的學養(yǎng)、經驗都很有關系,沒有經驗的初學者甚至都無法查到合適的資料,查到了有時也不能判斷。對于傳統(tǒng)人文研究來說,檢索材料的過程經常是作為正式研究過程的一部分,而不是準備。

    中文傳統(tǒng)學術資源其實是有限的,轉換成數(shù)據(jù)庫之后也不會增加。但是轉化成數(shù)據(jù)庫之后能夠在很大程度上降低人工檢索的難度。因此數(shù)字人文學者能夠在更大范圍、更準確地查到所需資料,消除專家與普通研究者存在的信息不對稱,讓“資料(平臺)面前人人平等”。這樣的話,查找資料的過程可以從研究過程中獨立,學者能夠把更多的時間和精力花在本學科的問題研究上,而不是數(shù)據(jù)獲取上。這是數(shù)字人文的最大好處之一。

    據(jù)筆者不完全估計,目前中國傳統(tǒng)學術研究常用的資源大致有:

    古籍:根據(jù)目前對于古籍的定義,不重復的應不超過20萬種,版本數(shù)不超過50萬種,已基本完成數(shù)字化掃描,其中四分之一(約5-6萬種)大致完成了文本化,約不超過100億字。已實現(xiàn)文本化的古籍有很多失去了版本信息(或被加工出版機構根據(jù)一種或數(shù)種所謂“權威版本”進行加工)。

    民國圖書:保守估計不重復約有15萬種,已基本完成數(shù)字化掃描,文本化數(shù)量應在300-400億字,但大多分散在各出版機構。

    現(xiàn)代圖書:不重復至少500萬種,基本都有數(shù)字化版本,但并非文本化,其中一多半以CEBX(Common e-Document of Blending XML,基于混合XML的公共電子文檔)格式存在,總量約上千億字。

    近代期刊:至少2萬種,約800萬頁,基本完成數(shù)字化掃描,但文本化只有50億字左右。

    近代報紙:總量約100萬拍,基本完成數(shù)字化、文本化(如申報等一些大報)約30億字左右。

    現(xiàn)代期刊:近30年的期刊基本都已經文本化,主要為CNKI等數(shù)據(jù)庫商所掌握。

    現(xiàn)代報紙:近30年經漢字照排的報紙基本都有文本,一些大報(如人民日報)也已完成了文本化,但因格式和版權問題,能得到開放應用的很少。

    檔案館藏:經過近十多年來國家的大力投入,數(shù)字化已基本完成,而且絕大多數(shù)在數(shù)字化時已經完成了文本化。

    博物館(美術館)館藏:真正的數(shù)字化(保存級)近年來剛剛開始,許多藏品需要3D建模,隨著技術的成熟成本逐漸降低,規(guī)模逐漸增大。

    如果說包弼德教授的中文傳統(tǒng)學術資源列表還不能包羅萬象的話,近年來各類收藏機構的中國傳統(tǒng)學術資源數(shù)字化已經全面展開,數(shù)據(jù)庫已成為中國傳統(tǒng)學術研究者檢索資料的主要途徑。但矛盾的是學者們并沒有感到查找資料比以往更方便。這主要有如下問題:

    (1)系統(tǒng)較為封閉。就如同古代藏書樓,寶貝秘不示人,是無法得到充分利用的。很多系統(tǒng)甚至不開放元數(shù)據(jù),無法讓學者查詢是否有某些資料。雖然大量的中國傳統(tǒng)學術資料都已過了版權保護期,但國內的公藏機構也大都不開放,恐怕被人盜取,還有不少出版機構拿來影印或重新出版,使其又變成“有版權”出版品,依舊在“付費墻”后面,依然沒解決開放問題。而中國大陸以外地區(qū)的典藏機構近年來逐漸公開了大量資源(見附表2)。

    (2)系統(tǒng)之間互不聯(lián)通。資料分散在各處,必須分別去查,很多甚至沒有上網,尋訪依舊不易,找到后經常需要手工抄錄,然后再進行對比、分析等工作,有時只查元數(shù)據(jù)并不能滿足需求,系統(tǒng)中缺乏研究所需的關鍵信息,如版本、格式等。

    (3)資料準確率低。訛誤很多,數(shù)字化會放大錯誤,且缺少修正機制。

    (4)使用便捷性差。只是解決了“知道”和“得到”問題,后續(xù)所有工作都還是手工的,并不能體驗到計算機能夠提供的更多好處,例如保存、統(tǒng)計分析等。

    以中文數(shù)字圖書館(或稱為數(shù)字典藏)建設為主的數(shù)字人文基礎設施建設正方興未艾,目前幾乎所有的人文研究都需要從數(shù)據(jù)獲取和整理開始做起,因此大量的數(shù)字人文項目其實還是數(shù)字典藏項目,這類項目被David Golumbia稱為狹義的數(shù)字人文,是最容易獲得資助的。我們從2020年中國數(shù)字人文年會(2020 China Digital Humanities Conference ,CDH2020)的獲獎項目(見表3)中可以看到這類項目的一些特點:

    (1)數(shù)字化逐漸讓位于數(shù)據(jù)化;知識庫逐漸增多。

    (2)獨特的領域應用做得更好,利用技術也很到位,能夠提供更多的研究支持。

    (3)“低端果實”(low hanging fruit)較多,主要是一些以數(shù)字化方式重復已知的結果,或以可視化方式展示歷史、人物、事件等主題等。當然其中做得好的,也包含大量的研究成份,以及很多設計和數(shù)據(jù)處理工作量,也不是沒有意義。

    (4)以教育、普及和技術培訓為目的的項目也有不少。這類項目經常會曇花一現(xiàn),無法在基礎設施中沉淀下來。

    從總體上看,當前中國傳統(tǒng)學術研究相關材料分布極廣,技術各異,標準不一,數(shù)據(jù)質量良莠不齊,整合有相當難度,利用極為不便。

    數(shù)字人文研究的素材其實不止于歷史資料。當今數(shù)字時代大量的數(shù)字原生材料,例如美國國會圖書館收藏的Twitter檔案和中國國家圖書館保存的新浪微博,都是很有價值的資源,很多人文社會科學研究都可以在其中找到寶貴的數(shù)據(jù)資料,但對這些原生數(shù)字資源如何收集組織管理,并提供利用,目前似乎并沒有找到很好的方法,而且從各國的實踐來看當前也不是圖書館檔案館等人類記憶機構當然的職責所在,將來有可能與傳統(tǒng)數(shù)字人文素材之間的歷史聯(lián)系會中斷,產生一段材料的真空期。我們現(xiàn)在應該開始重視這個問題,把數(shù)字資源的保存組織也納入到數(shù)字人文平臺建設的內容中去統(tǒng)一考量。

    表3 ?CDH2020獲獎項目情況Table 3 Some Information about the Award-winning Projects at CDH2020

    3.2 中文數(shù)字人文主要研究方法

    分析CDH2020的獲獎優(yōu)秀論文(見表4),可以大致了解目前國內數(shù)字人文研究通常采用的方法和研究水平。年會一共評出18篇獲獎論文,其中一等獎3篇,二等獎5篇,三等獎10篇。18篇獲獎論文中有10篇關于基礎設施或技術研究,后者涉及建模技術、語義化聚類等,只有8篇可以算做人文主題的探討,包括闡釋學或敘事研究、色彩研究、文化批評等,其中有一篇嚴格算來也并非數(shù)字人文研究,只是它以“數(shù)字人文研究”這一現(xiàn)象作為研究的對象,是一篇以非數(shù)字人文方法研究數(shù)字人文主題的文章。

    從表中可以看到,有不少論文是關于資料收集、建庫、開發(fā)系統(tǒng)、提供功能或方法研究的論文,如編號09130001、06190011等,其中一等獎的三篇論文都是關于數(shù)字人文方法、平臺和框架研究,并深入到具體人文學科內部,以學科特征為立足點的探討,比過去泛泛而談數(shù)字化、平臺開發(fā)或研究方法進了一步,但依舊是數(shù)字人文基礎設施建設探討,而不是嚴格意義上的、以數(shù)字方法針對人文問題的研究。這些論文也呈現(xiàn)了一個有意思的現(xiàn)象,即基礎設施與技術探討常常是由跨學科團隊完成,而人文主題則多由領域專家獨自實現(xiàn)。

    這種以基礎設施和方法探討為主的研究現(xiàn)象說明,當前的數(shù)字人文研究還處于一個尚未成熟的初始階段,說明基礎設施建設尚未到位,數(shù)字人文方法也沒有系統(tǒng)成型。不論是人文學者、技術專家,還是資源提供者,都熱衷于探討如何建立更好的研究平臺。目前數(shù)據(jù)獲取、加工、組織和平臺工具的開發(fā)和提供還是主要矛盾,在可以預見的未來,一旦基礎設施基本到位,數(shù)字人文的研究將真正由人文學者主導,并以人文學科的問題為引領。

    當然這也要求基礎設施建設與人文學者研究之間逐漸形成一個明確的界線,人文研究的一般方法與具體人文學科的特定方法之間也需要有一定的分野,這樣才有利于形成規(guī)模和分工協(xié)作,而傳統(tǒng)人文研究是沒有這個界線的,人文學者承擔了從資料收集整理到結果交流發(fā)布的所有過程,使得研究一直處于零散、瑣碎、憑借個體經驗和難以合作的原始狀態(tài)。

    表4 ?CDH2020獲獎論文主題及研究方法Table 4 Topics and Research Methods of the Award-winning Papers at CDH2020

    不同人文學科的研究對象和問題不同,對應于計算機所存儲的媒體類型和處理方式也不同,這或許是造成研究方法是否具有通用性的根本分歧。例如文本是幾乎所有人文學科進行研究最常用的材料類型,它也是計算機所能處理的最常見的信息類型,這一點數(shù)字人文界毫不陌生,因為羅伯特·布撒神父的工作幾乎伴隨了計算機文本處理技術進步的全過程,而布撒神父的專業(yè)是神學,卻是利用計算機實現(xiàn)了屬于圖書館學的索引編制技術。文本對于語言學來說就是最直接的素材,理所當然地會利用各類查詢(例如追溯肇始源頭)、統(tǒng)計(頻度研究如詞云,或共現(xiàn)研究)、比較(詞性、變化)等“行為”來研究語言現(xiàn)象,中文自然就有切詞、句讀的需求;文學稍有不同,它更多地涉及文體、風格、修辭、情感方面的問題,有時也會引伸出去,探討作者或虛構人物的關系、時代背景或文學批評;文學有時也會涉及到文獻版本的比較、考證、鑒定等,這卻又是圖書館學的傳統(tǒng)內容;哲學、神學、政治學等雖然也是通過文本進行研究,但更多的卻是將文本當作一種抽象概念,思想史、觀念史研究中需要應用大量的抽象概念,這些概念常??梢越⑵鹨环N復雜的語義或邏輯聯(lián)系,從而辨別社團、思潮及流派譜系等,這種聯(lián)系正好是語義技術的強項,應用本體語言完全可以將復雜的語義聯(lián)系進行代碼化,從而就具備了“機讀”的能力,可以充分利用計算機的優(yōu)勢進行管理和利用。歷史學、考古學等相對來說就更加復雜,它們通常是將文本作為實體對象及其關系的容器,從中可以提取豐富的場景和事件,提供敘事和闡釋的根據(jù),或構建社群、譜系。對于這類文本,計算機也可以利用機器學習和知識圖譜等技術,構建一系列“數(shù)字孿生”模型,從而可以讓歷史學家像坐上時光機器一般穿越到歷史故事中去,甚至可以利用不同的假設來推演可能的結果。

    圖像是藝術、考古、人類學、民族學等人文學科不可或缺的資源類型,計算機可以從色彩、圖案、紋理等風格特點進行研究,也可以對其進行模式識別,或者對各類實體對象進行識別、比較、分析統(tǒng)計等,幫助得出結論。圖像資源尤其對于中國傳統(tǒng)學術研究有著無比重要的意義,比西方數(shù)字人文研究的意義要大很多。首先,因為中文傳統(tǒng)學術典籍目前還不可能都轉為文字,OCR的準確度不夠,成本巨大,而且操作系統(tǒng)對漢字標準字符集的支持數(shù)量也不夠用;其次,中文數(shù)字人文研究通常只依靠純文本是不夠的,還需要有圖像所負載的豐富信息作為輔佐,才具有“循證”價值;最后,最新數(shù)字人文平臺如IIIF所提供的圖像管理能力,能夠使圖像比純文本更方便研究。IIIF對圖像的管理方式還可以進一步應用于視頻、音頻等媒體形態(tài),將來還可以有3D模型、交互式數(shù)據(jù)格式等,這樣就完全超越了僅僅由文本組成的平臺,成為一個多模態(tài)服務平臺,數(shù)字技術提供的強大工具能夠使人文學者超越傳統(tǒng)人文研究基本上只是依賴文本和少量圖像的局限,對素材的操控能力得到很大的增強。

    大數(shù)據(jù)技術目前在社會關系分析和可視化呈現(xiàn)方面已經非常成熟,另外機器學習及人工智能技術提供了大量數(shù)據(jù)加工的自動化能力,這使得數(shù)字人文更適合進行跨學科、地域、族裔、語言的大規(guī)模比較和綜合研究,這在傳統(tǒng)人文的研究中是不可想象的。

    上述討論的大多是計算機技術賦能人文研究的通用能力,這種通用與專用的分野是不確定的,隨著計算機信息處理能力的提高,所能提供的工具肯定會發(fā)生變化,最極端的方式說不定是人工智能方法能夠取代一切,學者所需做的只是提出并闡釋問題而已,余下的工作都交給機器即可,或者至少可以半自動地幫助學者一步步獲得結論或解決問題。

    4 平臺需求與方案設計

    當今時代已不再可能舉全國之力窮天下收藏,興建四庫全書那樣的項目,開發(fā)包羅萬象的知識平臺,現(xiàn)在甚至連某一學科或主題領域的資源都不可能一網打盡。因此我們在構建數(shù)字人文平臺或開發(fā)人文資料數(shù)據(jù)庫時首先應考慮自身的優(yōu)勢和特點,選取一定的文獻類型或學科主題,充分考慮服務對象特點和需求,設定有限目標,并做好長期建設的準備。

    目前很多中文傳統(tǒng)學術資源收藏機構已經開發(fā)了一些頗具特色的數(shù)字人文平臺,如CBDB、DocuSky、MARKUS等,應用了許多先進理念和最新技術。本文希望著眼于未來互聯(lián)互通,對構建一個整體化的中文數(shù)字人文研究的基礎設施提出一些設想。包弼德教授曾在2018年提出過類似的想法,他建議構建一個“中國研究的基礎設施網絡”,希望通過各國中文資料收藏機構的密切合作,開發(fā)一個通用平臺[3],使中文資源能夠互聯(lián)互通,進一步促成共建共享。

    這是一個非常有遠見、有現(xiàn)實意義和可行的建議,但這個平臺不必是“一個”平臺,而可以是整個中文基礎設施共同構成的分布式網絡服務,即可以由相關中文資源收藏和研究機構各自建設,但遵循共同制訂的技術標準和互操作協(xié)議,這樣就保證了資源獲取和服務的互聯(lián)互通;同時制訂一定的合作機制和業(yè)務模式,這樣又能夠促進互惠互利和可持續(xù)發(fā)展。

    因此,本文探討的平臺即是一個在功能上力求完善、能夠滿足當下需求的獨立的數(shù)字人文平臺,又同時在體系架構上兼顧了基于最新語義互聯(lián)網技術的互聯(lián)互通,是一個尚未實現(xiàn)但完全具有可操作性的設計方案(如圖3所示)。以下分系統(tǒng)先進性(4.1)、資源完整性(4.2.1)、功能完備性(4.2.2)、用戶友好性(4.2.3)和工具豐富性(4.3)等5個方面進行闡述。

    4.1 應用系統(tǒng)先進性

    應用系統(tǒng)的先進性可以從兩個維度來考察:系統(tǒng)維度和應用維度。系統(tǒng)維度主要指系統(tǒng)架構的先進性,又可以分為技術架構和內容架構。應用維度是指所開發(fā)的應用系統(tǒng)是否能提供滿足機構需求的完整的解決方案。技術架構提供基于計算機技術的功能實現(xiàn),內容架構主要提供基于數(shù)據(jù)管理的知識視圖,這兩者共同滿足數(shù)字人文研究需求,解決數(shù)字人文研究的痛點問題。應用系統(tǒng)則主要包括館藏業(yè)務管理系統(tǒng)、長期保存/典藏系統(tǒng)、知識庫系統(tǒng)、服務應用展示系統(tǒng)四個方面(見圖4)。

    圖3 ?數(shù)字人文平臺的需求設計Fig. 3 Demand Design of the Digital Humanities Platforms

    圖4 應用系統(tǒng)先進性Fig. 4 Advanced Systems of the Digital Humanities Platforms

    4.1.1 系統(tǒng)維度

    (1)技術架構

    系統(tǒng)維度首先看技術架構。目前以微服務、容器、容器編排、服務網格、開發(fā)運維一體化(DevOps)、無服務器架構等理念為特征的新一代“云原生”技術正在席卷互聯(lián)網應用。擁有傳統(tǒng)IT無法比擬的優(yōu)勢,可以幫助用戶高效享受云技術的靈活性,使應用進一步微型化、輕型化,支持更加靈活的松散耦合,更加獨立于底層基礎設施平臺,從而能實現(xiàn)熱插拔、平滑、快速開發(fā)、迅速擴展、穩(wěn)定運維、高容錯等,大大降低應用成本,提高運行效率。目前云原生已經成為云時代最新的技術標準。

    當前還沒有數(shù)字人文機構采用云原生技術,但圖書館領域正在流行的“下一代圖書館服務平臺”(Next Generation Library Service Platform,NGLSP)普遍采用微服務架構,尤其是美國開放圖書館基金會(Open Library Foundation,OLF)支持的開源FOLIO平臺(Future of Libraries Is Open,F(xiàn)OLIO)更是支持了云原生技術進行部署實施,其前后臺分離的設計和“平臺+App”的架構有助于形成一個開放的軟件應用生態(tài)(見圖5),數(shù)字人文平臺可以作為圖書館服務平臺的一個有機組成部分,共用其中某些模塊(例如用戶管理、資源管理等),也可以單獨拆分出去完全獨立,通過API進行互操作。

    該設計可以進一步支持目前如日中天的技術概念,即“中臺”技術(見圖6),可形成獨立的業(yè)務中臺、技術中臺、數(shù)據(jù)中臺和AI中臺。所謂中臺,可以理解為將一些能夠重復調用的系統(tǒng)資源(數(shù)據(jù)資源、計算資源、軟件及算法模塊等資源)獨立并共享出來,支持平臺中的各類前臺或其他應用模塊靈活調用,在技術架構上具有無可比擬的先進性。當然該技術畢竟發(fā)展還不到十年,其成熟度和標準化程度還不是太高,微服務帶來的應用復雜性還難以預料和掌控,這也是新技術必然帶來的風險。

    參考上述圖書館服務平臺的系統(tǒng)架構,一個獨立的數(shù)字人文平臺可以包含文獻層、數(shù)據(jù)層、接口層、業(yè)務層(或稱服務層,包含各類工具調用)以及展現(xiàn)層等,依次提供技術、資源、平臺、服務和界面等相關功能,如圖7所示。隨著基于文獻的數(shù)字人文服務逐漸向基于數(shù)據(jù)的服務轉變,文獻也可以看成一種特殊的數(shù)據(jù)類型,納入數(shù)據(jù)管理統(tǒng)一的數(shù)據(jù)格式模塊,內外部文獻和數(shù)據(jù)可以通過一定的協(xié)議規(guī)則進行發(fā)現(xiàn)和獲取,并通過標準接口進行整合,各類平臺內服務和外部服務也可以通過制定行業(yè)標準進行規(guī)范化整合,從而達成數(shù)字人文平臺的互操作,于是可以很好地實現(xiàn)包弼德教授關于人文資源互聯(lián)互通、共建共享的設想。

    圖5 ?下一代圖書館服務平臺FOLIO的系統(tǒng)架構Fig. 5 System Architecture of the Next Generation Library Service Platform FOLIO

    圖6 ?下一代圖書館服務平臺FOLIO的中臺設計Fig. 6 The Middle Platform Design of the Next Generation Library Service Platform FOLIO

    圖7 ?數(shù)字人文平臺系統(tǒng)架構圖示Fig. 7 System Architecture of the Digital Humanities Platforms

    從數(shù)字人文的應用場景來看,上述系統(tǒng)架構有一定的獨特性,可以很好地支持和解決一些其它技術很難解決的問題:

    ① 知識單元的標識及其管理問題。所有對人文研究具有獨立意義的實體或信息單元,如文獻,或人、地、時、事、物、事件、概念,以及各類屬性和取值詞表等,都需要有獨立的標識(即ID),并統(tǒng)一ID編碼標準,通常用http URI,其相互之間的關系如有必要可以通過建立本體知識庫來管理。當然建立過程可以采用自動抽取加人工輔助校驗方式。

    ② 支持多種協(xié)議的跨網域搜索發(fā)現(xiàn)或獲取鏈接。例如OAI-PMH規(guī)范,各類RESTful+JSON的API規(guī)范、聯(lián)邦檢索頁面分析規(guī)范等。

    ③ 微服務的容器及編排規(guī)范。

    ④ 多種數(shù)據(jù)類型的管理,包括底層關系數(shù)據(jù)庫、圖數(shù)據(jù)庫(包括三元組語義數(shù)據(jù))、對象數(shù)據(jù)、流媒體的管理。

    ⑤ 復雜但統(tǒng)一的用戶及授權管理,包括遠程訪問管理。

    云計算的極致狀態(tài)是完全去中心化的分布式計算,目前的最新發(fā)展是以區(qū)塊鏈應用為特征、被稱為Web3.0的一套新的網絡平臺,這使得所有人文資源在底層都可以應用區(qū)塊鏈技術進行確權和保護,包括二次文獻上鏈,對象數(shù)據(jù)采用IPFS、Arweave等去中心化網絡存儲方式提供永久存儲,同時對每一個館藏單元賦予非同質化通證(Non-Fungible Token,NFT),這就解決了既要保護,又要最大程度開放的矛盾。只要設計出合理的運作模式,就能以某種智能合約方式形成去中心化自治組織(Decentralized Autonomous Organization,DAO),從而實現(xiàn)完全的自我運作,其他對于數(shù)字人文平臺所有的附加需求都可以圍繞這個Web3.0的資源體系進行設計開發(fā)。目前這種設計還十分超前,雖然技術都已成熟,但應用尚屬首次,有些還是紙上談兵,尤其在文化遺產領域尚未有任何具體實現(xiàn)。目前整個以Web3.0為基礎的元宇宙應用非常缺乏具體的應用場景,人類記憶機構的文化資源正好可以為其提供豐富的想象和精彩的實現(xiàn)。

    (2)內容架構

    內容架構是數(shù)字人文應用系統(tǒng)非常獨特的架構,也是語義技術逐漸成熟帶來的一種能力,它通常通過領域驅動設計(Domain Driven Design,DDD)而獲得。數(shù)字人文平臺的內容架構反映了平臺中的數(shù)字化知識內容的語義結構,這個結構可以以知識本體、關聯(lián)數(shù)據(jù)、知識圖譜等方式進行形式化描述和表達,例如以各類描述詞表對人物、地點、時間、事件和各類對象的各類屬性和關系進行編碼,使計算機可以對表達知識的這些語義數(shù)據(jù)(可以理解為RDF數(shù)據(jù))進行操作,從而可以認為這些數(shù)據(jù)是機器可“理解”的,以至于可以認為整個知識庫中的大量內容都是真實世界的一種映射,甚至可以能夠讓機器進行一定的“事實推理”。傳統(tǒng)的數(shù)據(jù)庫只能對字符串或二進制數(shù)據(jù)(如圖像數(shù)據(jù))進行操控,如全文檢索也就是一種完全基于字符的匹配。數(shù)字人文平臺對于信息資源的描述和組織可以認為是一種“數(shù)據(jù)化”過程,這一過程不一定完全依靠人類來做,很多都可以通過目前越來越成熟的機器學習和人工智能來實現(xiàn)。一旦機器能夠讀“懂”存儲的信息所蘊含的知識內容,數(shù)字人文平臺就能幫人文學者做很多事情,可以成為能力超強的“研究助理”,它不會遺忘任何一個知識細節(jié),并且具有超快的計算能力。

    有這樣一些需求涉及內容框架:

    ① 一致性/相似性計算。

    ② 工作流定義對研究流程的支持。

    ③ 各類圖像功能(如圖像查詢、對比、標注等)的支持。

    ④ 文本與圖像關聯(lián)(可提供加工平臺,或研究對比)。

    ⑤ 提供證據(jù)鏈服務(記錄從底層文獻到研究結果的整個過程中實體來源及變化,包括引用參考等)。

    ⑥ 海量數(shù)據(jù)可視化支持(遠讀)。

    ⑦ 事實的可信度計算及排序(需建立可迭代的可信度模型)。

    ⑧ 眾包數(shù)據(jù)加工平臺的數(shù)據(jù)管理。

    ⑨ 數(shù)據(jù)系統(tǒng)迭代進化的支持(數(shù)字化、文本化、數(shù)據(jù)化(實體提取、建立關聯(lián)等))。

    內容架構是以“數(shù)據(jù)”為基本單位,這里的數(shù)據(jù)是指能夠被計算機處理的(即經過形式化,或至少是代碼化的)、具有獨立標識(例如URI)的最小語義單元,目前表示為RDF的關聯(lián)數(shù)據(jù)是一種最佳實踐,其它有不少簡化方法(例如采用圖數(shù)據(jù)庫技術實現(xiàn)的、不要求數(shù)據(jù)有全網域唯一標識的“知識圖譜”)雖然也能實現(xiàn)一些功能,但并不屬于具有一定完備性的知識庫系統(tǒng)?;跀?shù)據(jù)的系統(tǒng)能夠進行組合、嵌套、遞歸從而成為更大的“數(shù)據(jù)”,也可以有自己的標識,從而可以以各種格式組合成各種知識單元發(fā)布于各類媒體中。

    人文平臺中的知識內容既然以“數(shù)據(jù)”的方式存在,就應該符合當前在研究數(shù)據(jù)管理實踐中被廣泛認可的FAIR原則,即科學數(shù)據(jù)應具有可查詢(Findable)、可 獲 ?。ˋccessible)、可 互 操 作(Interoperable)并且可重利用(Reusable)等性質:

    ① 可查詢指數(shù)字人文平臺中的數(shù)據(jù)應該很容易被人或者機器查詢到。這有賴于相關的數(shù)據(jù)集或者數(shù)據(jù)服務是否以清晰明確的方式進行標識、描述、注冊和索引。給數(shù)字資源分配一個唯一永久標識符是一項基本要求,同時數(shù)字資源應該有充分的元數(shù)據(jù)注釋,數(shù)字資源的主要特征應該以標準格式被記錄,應該在公開的數(shù)據(jù)庫存儲和索引等。

    ② 可獲取指數(shù)字人文平臺中的數(shù)字資源的獲取方式應該進行清晰定義,包括如何獲得受保護數(shù)據(jù)的使用授權。在理想情況下應該是一種自動化的方式進行獲取數(shù)據(jù)的驗證,判斷是否符合授權條件,至少元數(shù)據(jù)應該是無條件可獲取的,即使在原始數(shù)據(jù)已經不再提供服務的情況下也應該能夠獲取元數(shù)據(jù)。

    ③ 可互操作是指如果同一個實體對象有兩個或者更多的數(shù)據(jù)進行表達,系統(tǒng)應該可以自動進行指代或整合。網絡服務可以自動判斷它與目標數(shù)據(jù)之間是否兼容。這要求數(shù)據(jù)資源或者網絡服務的描述具有語義上足夠的清晰度。

    ④ 可重用是指要根據(jù)研究領域的標準,對數(shù)據(jù)的來源信息進行記錄和跟蹤。這些來源出處信息包括準確的數(shù)據(jù)描述、取用方式和應用許可等。這樣,無論人還是機器都可以判斷目標數(shù)據(jù)資源是否可以重用,可以以怎樣的方式進行重用等。

    這四個原則與關聯(lián)數(shù)據(jù)的五星原則很類似,因此如果采用關聯(lián)數(shù)據(jù)技術,則很容易滿足FAIR原則。但并不是所有數(shù)字人文平臺都能夠很方便地利用關聯(lián)數(shù)據(jù)技術,其中涉及實現(xiàn)的復雜性、效率和成本等問題,以及語義技術本身的成熟度問題,因此目前的數(shù)字人文平臺大多采用最成熟可用的技術,以關聯(lián)數(shù)據(jù)甚至智慧數(shù)據(jù)為代表的語義技術是一個未來發(fā)展方向。

    4.1.2 應用維度

    數(shù)字人文平臺大多由人類記憶機構,如圖書館、博物館、美術館、檔案館等進行建設和維護。作為數(shù)字人文基礎設施的主要組成機構,他們的主要業(yè)務和服務都是圍繞人文資源展開的,一個較為完整的平臺通??梢苑譃樗膫€層次:

    (1)館藏業(yè)務管理系統(tǒng)

    這主要指對物理藏品或數(shù)字藏品的載體,從收集、入藏到轉移、剔除或損毀的整個生命周期過程的管理,包括藏品管理系統(tǒng)。它提供了所有館藏內容最初的來源和版本信息,是循證研究的源頭,并通過業(yè)務過程的管理保證整個館藏體系是一個不斷發(fā)展變化的“活”的有機體。

    (2)長期保存/典藏系統(tǒng)

    即上述業(yè)務管理系統(tǒng)中的藏品管理系統(tǒng)的數(shù)字化版本,通常是能夠保留最真實和完整信息的保存級數(shù)字文件,借助顯示或其它設備,能夠還原物理藏品的內容或形態(tài),高級形式可以看成是每個館藏的“數(shù)字孿生”,可供研究人員進行各種實驗、模擬和深度研究。當然,任何數(shù)字化版本都不可能保留原始對象的所有信息,總是會有所損失,所以依賴技術的不斷進步,未來可能需要對館藏進行再次數(shù)字化。這類系統(tǒng)目前主要采用關系型數(shù)據(jù)庫加文件系統(tǒng)的方式實現(xiàn),更為先進的采用了NoSQL數(shù)據(jù)庫的大數(shù)據(jù)方式,基于云服務架構。而現(xiàn)在應該采用云原生架構加數(shù)據(jù)中臺方式,這樣就能夠提供底層藏品管理系統(tǒng)與上層知識庫系統(tǒng)之間的橋梁,同時提供大量的API供知識庫系統(tǒng)和服務應用展示前臺調用[8],這些API可以以標準方式發(fā)布于互聯(lián)網,從而實現(xiàn)數(shù)字人文平臺的全網域互操作。鑒于將來的數(shù)字人文研究都是基于數(shù)據(jù)的研究,有了這樣的典藏系統(tǒng),就可以解決絕大多數(shù)人文學者在研究、教學中的需要。

    (3)知識庫系統(tǒng)

    目前似乎還沒有一個恰當?shù)男g語來描述這樣一種系統(tǒng),最接近的詞匯可能就是“語義知識庫系統(tǒng)”,指應用了語義萬維網技術對領域知識建立相互關聯(lián)的知識體系,其知識單元是采用RDF形式(即主-謂-賓結構)描述的語義判斷,而整個知識大廈是用知識本體語言OWL或OWL2組織起來,其背后的數(shù)學基礎是一元謂詞邏輯。數(shù)字人文平臺的內容架構主要是由知識庫系統(tǒng)提供的。其簡化版就是采用關聯(lián)數(shù)據(jù)的系統(tǒng),更簡化的一個版本是目前十分熱門的利用“知識圖譜”技術所支持的系統(tǒng)。這類系統(tǒng)在人工智能領域屬于“符號學派”,與過去的專家系統(tǒng)同屬一類,是將人的知識代碼化形成規(guī)模之后,就具備了某種智能,現(xiàn)在與連結學派和概率學派有融合的趨勢,作為人工標注或結構化的數(shù)據(jù)提供機器學習,從而具有自動獲取知識的能力。數(shù)字人文平臺需要大量的底層“知識庫”來支撐各類數(shù)據(jù)的語義解釋和關聯(lián)關系,例如人名、地名、機構名、朝代、官職、譜系、辭典、詞表等,幾乎所有的工具書都可以提供知識關聯(lián),所有的知識生產都是建立在過去知識的基礎上,與這些底層知識庫都可以建立起邏輯聯(lián)系,最強大的是這些知識庫都是以某種方式在整個互聯(lián)網上提供共享,所有基于知識庫和標準描述方式的術語詞表都可以達成全網域的語義互操作。

    (4)服務應用展示系統(tǒng)

    這是數(shù)字人文平臺中絕大多數(shù)功能得以實現(xiàn)和展現(xiàn)的前臺,也是各類工具與后臺數(shù)據(jù)進行連結的中介,通常以桌面或移動應用,以及瀏覽器方式提供。所有的搜索、瀏覽、展示(包括可視化)、眾包和用戶空間功能都在這里以App方式提供,這樣有助于達成大量的第三方應用App的開發(fā)和發(fā)布,形成一個開放強大的數(shù)字人文應用和工具的生態(tài)環(huán)境,從而很容易實現(xiàn)包弼德教授提出的為第三方數(shù)據(jù)、第三方工具、第三方圖書館定制免費公開的元數(shù)據(jù)訪問和數(shù)據(jù)共享的規(guī)范和方案[3]。

    4.2 平臺的資源、功能和界面需求

    資源完整、功能完備、界面友好,是任何一個信息系統(tǒng)的基本要求。當然,不同的系統(tǒng)對這三個方面的具體需求是不同的。一個好的數(shù)字人文平臺至少要在這三個方面達到最低要求,同時要注意三者之間的平衡。

    4.2.1 資源完整性

    人文研究者在選定了研究問題之后,第一步就是要查詢資料。很多機構在建設數(shù)據(jù)庫或提供查詢時只從自己已有的或訂購的資源入手,這是不夠的,還必須考慮到是否有辦法提供外部資源的發(fā)現(xiàn),甚至直接獲取。要實現(xiàn)這一點,就要應用元數(shù)據(jù)收割方案,例如OAI-PMH,或開發(fā)標準或個性化的API,其中涉及很多考慮因素和資源互操作的具體技術,包括利用知識庫系統(tǒng)實現(xiàn)不同系統(tǒng)間的語義互操作,如圖8所示。

    4.2.2 功能完備性

    數(shù)字人文平臺需要考慮很多與過去數(shù)據(jù)庫檢索系統(tǒng)不同的功能,過去的系統(tǒng)主要是以文獻為主要內容,根據(jù)數(shù)據(jù)庫字段(即高級檢索)或全文檢索能夠定位到具體的文獻,再通過鏈接解析或其他方式獲得原文。而數(shù)字人文系統(tǒng)由于提供了以“數(shù)據(jù)”為基礎的存儲、關聯(lián)和查詢能力,因此多了與“知識庫”相關的很多語義功能,而且在搜索、瀏覽、管理等方面都能夠全面支持基于知識的操作(例如SPARQL查詢、分面組配等),有時甚至還包含邏輯推理的功能實現(xiàn)(如啟發(fā)式搜索),如圖9所示。

    圖8 ?數(shù)字人文平臺的資源要素Fig.8 Resources Constituents of the Digital Humanities Platforms

    數(shù)字人文平臺還有一個特質是要利用眾包讓用戶參與到系統(tǒng)的建設中來,這是當前幾乎所有數(shù)字人文應用都采取的方式,因為僅僅通過圖書館或相關機構工作人員的工作是不可能實現(xiàn)海量高質量數(shù)據(jù)加工的。

    4.2.3 用戶友好性

    當前的信息系統(tǒng)對用戶友好性的要求越來越高,這也是對系統(tǒng)界面提出的要求,除了一般的方便友好、美觀簡潔之外,能否提供良好的個性化服務成為系統(tǒng)能否留住用戶的重要特性,而且個性化服務大量采用了人工智能技術(見圖10)。當然,由于個性化的前提是需要有用戶注冊登錄等用戶管理功能,且對用戶的行為也會進行一定的收集,這涉及到用戶隱私問題,平臺在設計開發(fā)時必須考慮到隱私保護與個性化之間的平衡,很多研究工具的提供應該能同時支持本地脫機版和上傳網絡版兩種不同的運行方式,當然兩者在功能細節(jié)上可以有所不同。

    圖9 ?數(shù)字人文平臺的功能Fig. 9 Comprehensive Functions of the Digital Humanities Platformst

    4.3 平臺的工具開發(fā)

    利用大量的數(shù)字人文工具進行研究是數(shù)字人文區(qū)別于傳統(tǒng)人文最重要的特點之一。工具是方法的重要組成,成熟的方法往往通過工具的開發(fā)而得以固化,并且負載了大量前人的經驗總結。傳統(tǒng)人文研究能夠獨立的工具不多,且資料的收集、閱讀和加工處理往往是一體化、個人化的,工具很難獨立于資料,有的甚至很難獨立于研究團隊。這也是為什么有許多人文社會科學學派往往是得益于獨特的方法。

    工具要求越豐富越好,但這里討論的只是人文研究可能用到的具有一定通用性的工具,以及這些工具的常見功能,數(shù)字人文學者可以通過這些工具的組合,結合資源和研究過程,發(fā)展出自己獨特的方法。這些工具可以有一定的獨立性,但依附于平臺能夠更好地發(fā)揮作用,因此平臺將致力于深入研究人文學者的需求,推出大量的標準規(guī)范,從而讓大量第三方都能夠開發(fā)自己的獨特工具,甚至工具與資源或知識庫的結合體,從而有助于形成一個應用生態(tài),以及工具App市場。

    這里將工具劃分為平臺性工具(包括數(shù)據(jù)工具、IIIF、GIS、文獻計量工具、閱讀工具、社會關系工具)、文本工具、圖像工具、知識圖譜工具、機器學習工具和可視化工具等六大類(如圖11所示)。上述分類的合理性需要進一步探討,其中涉及的內容也遠不是對各類工具的窮盡例舉,僅僅作為一個討論的基礎,供具體進行工具開發(fā)和平臺建設時參考。

    (1)平臺性工具

    這里的平臺是指網絡上可以實現(xiàn)一定的功能、有特定輸入輸出的環(huán)境,平臺性工具就是依附于平臺的軟件工具,或自身就是一個獨立的工具,它通常需要結合一定的數(shù)據(jù),與一些組件配合,并經過一定的流程才能達到目的。例如IIIF(國際圖像互操作框架)就是一個功能強大的綜合性圖片平臺,由多個服務器靈活組合而成,它本身就可以成為數(shù)字人文的服務平臺,這里之所以作為一種工具,因為它提供了大量的關于圖像的操作功能,如搜索、縮放、旋轉、標注、比較等,可以應用于人文研究,非常強大。類似的還有數(shù)據(jù)處理平臺工具、GIS平臺工具、文獻計量平臺工具、社會網絡分析工具以及閱讀平臺工具等。

    (2)文本工具

    文本是數(shù)字人文利用最多的資源類型,文本工具也是數(shù)字人文工具中種類最多、使用最頻繁的工具,也是目前開發(fā)最成熟的工具類型。上圖列出的是常用工具,一些綜合性的文本工具,如“遠讀”“細讀”則列在平臺性工具類目下。

    (3)圖像工具

    通常所有的圖像掃描、處理軟件都可以作為數(shù)字人文的圖像工具,這里僅列出數(shù)字人文項目非常常用的工具類型,如圖像特征提取工具、圖像分類/聚類工具和基于圖像的搜索工具等,圖像平臺IIIF已作為平臺類工具列出。

    (4)知識圖譜工具

    知識圖譜是數(shù)字典藏向數(shù)字人文進化的關鍵技術之一,這里將關聯(lián)數(shù)據(jù)、語義萬維網技術都歸入知識圖譜。這類工具包括了實體提取、URI賦值、詞表模式、本體構建等語義化工具,本體/詞表管理、語義映射、RDF語義數(shù)據(jù)存儲等語義管理工具以及SPARQL、啟發(fā)式搜索、分面呈現(xiàn)等語義搜索、展示和利用工具等。

    (5)機器學習工具

    當前,數(shù)字人文的大量應用都用到了人工智能領域的機器學習技術。從OCR到實體提取,從神經網絡到深度學習,無一不能應用于數(shù)字人文研究的各個過程。機器學習最大的特點是離不開數(shù)據(jù),尤其是海量的數(shù)據(jù),因此數(shù)字人文平臺中的數(shù)據(jù)是其產生作用的前提條件,而由數(shù)據(jù)訓練出來的機器學習模型又可以應用于更廣泛的數(shù)據(jù)中,這是它的運作方式,也是它的價值所在。

    (6)可視化工具

    可視化是數(shù)字人文進行數(shù)據(jù)操控、展示和結果呈現(xiàn)必不可少的工具,也是數(shù)字人文區(qū)別于傳統(tǒng)人文的重要特質??梢暬m然有很多工具,但現(xiàn)在基于互聯(lián)網的工具已成為主流,正在成熟起來。它后臺連接的數(shù)據(jù)可以是平臺上已有的數(shù)據(jù),或者挖掘出來的數(shù)據(jù),或者是用戶上載的數(shù)據(jù),是否支持多種應用方式取決于平臺架構設計的靈活性。

    圖10 ?數(shù)字人文平臺的用戶體驗Fig. 10 User Experience of the Digital Humanities Platforms

    圖11 ?數(shù)字人文研究工具Fig. 11 Tools of the Digital Humanities Research Platforms

    5 案例:歷史人文大數(shù)據(jù)平臺

    上海圖書館正在建設的歷史人文大數(shù)據(jù)平臺,就是應用上述理念和技術,依托自身資源,向全社會提供一個先進、開放、全面的數(shù)字人文服務平臺。打造這個平臺主要有三個目的:一是升級原有的數(shù)字圖書館系統(tǒng);二是提供基于“知識”的數(shù)字人文服務;三是試驗一些互聯(lián)互通共建共享的新協(xié)議與新模式。其實就是作為對前述數(shù)字人文發(fā)展趨勢進行應對的一種嘗試。

    實現(xiàn)這三個目的有兩條現(xiàn)實可行的路徑:其一,從現(xiàn)有的數(shù)字圖書館系統(tǒng)出發(fā),也就是從目前上海圖書館館藏特色資源出發(fā),升級技術架構和內容架構:技術架構全面微服務化、容器化和平臺化,支持外部資源與服務通過各種標準或非標準方式(推薦RESTful API)接入;內容架構進行“數(shù)據(jù)化”改造,支持“基于知識的服務”。其二,從數(shù)字人文研究者的角度出發(fā),規(guī)劃所有人文資源的整合方案,從提供資源到提供平臺環(huán)境(包括工具),努力實現(xiàn)主要數(shù)字人文應用場景的“一站式”服務。

    5.1 平臺的建設規(guī)劃

    上海圖書館走上數(shù)字化道路已經有四分之一個世紀。從1996年位于上?;春V新返摹靶吗^”開館,就開始古籍數(shù)字化項目,并且參與了中國最早的由國家圖書館牽頭的“試驗性數(shù)字圖書館計劃”,成立專門部門,每年耗費巨資進行特色資源的數(shù)字化工作,從無間斷。

    僅僅數(shù)字化是不夠的,提供知識服務是圖書館的根本宗旨。早期重視數(shù)字化,但對于數(shù)字典藏系統(tǒng)的建設并沒有充分重視,因此數(shù)字資源的整合服務一直沒有充分開展。到2016年,上海圖書館嘗試以最具特色的館藏家譜資源為案例,開始了以服務為導向的系統(tǒng)開發(fā)嘗試,取得了不錯的效果,迄今家譜系統(tǒng)一直是數(shù)字典藏中利用效果最好的資源之一。

    為了建設具有知識關聯(lián)的數(shù)字人文服務系統(tǒng),底層知識庫平臺建設是必不可少的,這也是數(shù)字人文基礎設施最困難的內容。近幾年我們還陸續(xù)構建了人名規(guī)范、地名規(guī)范、地理名稱規(guī)范、機構規(guī)范等規(guī)范知識庫,可以支持目前列入計劃的特色資源庫的底層知識關聯(lián),并開始開發(fā)一些工具,提供眾包、標注、分析、可視化等功能。

    正是由于有了底層知識庫的支持,上海圖書館的特色資源庫才有可能做一個全面規(guī)劃,將來各類數(shù)字人文系統(tǒng)可以在一個統(tǒng)一的平臺上,我們稱之為歷史人文大數(shù)據(jù)平臺。雖然這一平臺尚未建成,但已經經過了初步嘗試,證明了技術和工程上的可行性和可能性,且數(shù)據(jù)也有一定規(guī)模。目前,我們除家譜庫外,正在開發(fā)的還有古籍庫(包括精品善本庫)、碑帖庫、地方志庫、手稿尺牘庫、名人檔案庫(如盛宣懷檔案、張佩綸檔案等)、民國資源庫(包括書刊報)等,這些文獻如按照數(shù)字人文研究的要求,可以建立無數(shù)個基于各類學科或主題的知識庫,可以匯總在一個平臺上提供滿足各類需求的統(tǒng)一服務,通過一定的開放鏈接協(xié)議,可以將全網域的各類資源連為一體,組成一個虛擬中文數(shù)字人文平臺。

    5.2 平臺的應用場景

    對于一個資源眾多、用戶復雜、目標多重的服務平臺來說,“主頁”概念是不適用的。歷史人文大數(shù)據(jù)平臺雖然設計了一個主入口,但它的作用只相當于“游客中心”甚至是“疏散中心”,主要起到宣傳、導航、資源發(fā)現(xiàn)和用戶培訓的作用。任何一個簡單的搜索,都可以返回所有資源庫中(甚至外部聯(lián)邦檢索或搜索引擎)的命中內容,這樣能夠讓隨便逛逛的讀者也有所收獲,同時用戶對自己感興趣的主題可以通過哪些資源庫獲得有一個非常直觀的認識,使帶有目的的讀者能夠迅速找到屬于自己的入口。

    平臺對所有的專題庫(包括文獻庫、知識庫和工具庫三類)都有一個入口,其中大多數(shù)文獻庫都以元數(shù)據(jù)庫加掃描圖片方式提供,個別有全文,知識庫和工具庫都支持響應式H5接口,可嵌入各類App。

    我們把平臺用戶分為四類:普通用戶、專業(yè)用戶、系統(tǒng)用戶和機器用戶,普通用戶是無需用戶認證即可來“隨便逛逛”的用戶,平臺會有很多線上展覽、人文講座、推廣活動、技能培訓等內容發(fā)布。專業(yè)用戶是平臺服務的主體,通常是經過注冊的研究人員或大學師生,也可能是相關機構中的個人用戶(登錄為單位用戶或以IP控制方式提供權限管理),這類用戶除非使用主頁中的搜索框進行資源發(fā)現(xiàn)(搜索框在各相關頁面也都會出現(xiàn)),一般無須從主入口進入,只要瀏覽器保留了登錄Cookie,域名會直接將其定位到他自己的個性化頁面,該頁面已經將其經常使用或可能用到的專業(yè)資源入口與各類服務功能集成在一起了,每個用戶的專業(yè)入口都是個性化的,與“我的空間”捆綁,用戶如果不滿意,也可以在“我的空間”中修改參數(shù)設定。系統(tǒng)用戶是那種參與數(shù)據(jù)加工或項目研發(fā)的用戶,這是“平臺性”的具體體現(xiàn),作為平臺,不是一個私有的封閉系統(tǒng),而應該有一定的開放性,屬于整個社區(qū),允許大家參與共建、分享成果,因此必然有一類用戶通過貢獻內容、參與數(shù)據(jù)加工或功能開發(fā)而具有更多的權限。最后一類“機器用戶”就是指通過API或其他接口直接消費數(shù)據(jù)的計算機程序,這樣能將平臺與互聯(lián)網上其他應用連為一體,使“一站式”服務成為可能。

    表5 ?歷史人文大數(shù)據(jù)平臺提供的服務Table 5 Services Provided by the Digital Humanities Platform of Shanghai Library

    續(xù)表5

    平臺提供的所有服務可以分為“場景”“故事”和“功能”三個層次,分別對應三類用戶,提供不同的功能組合,詳細如表5所示?!皥鼍啊笨纱致缘貙谇笆鰯?shù)字人文研究的“行為”,例如搜索、瀏覽、下載、閱讀等,故事是組成場景的若干種應用,而“功能”是平臺提供的最小單位的模塊,通常對應于目前云原生應用架構中的“微服務”。這里的服務基本都還是用戶直接可用的部分內容,后臺其實還有大量的微服務,由于與平臺用戶并無直接關系,這里就不詳述了。

    6 結語

    數(shù)字人文平臺建設的愿景是讓人文研究不再困難。從雅典學園到文藝復興,從魯國杏壇到康梁變法,兩千年來人文學者的創(chuàng)造性思考從來都是依靠個體的博覽群書與博聞強記,依靠師徒私授或學派論戰(zhàn),思想的誕生、學說的完善,以及對社會實踐的影響主要依靠的是個人的能力,人文知識的產生、發(fā)展和傳播的整個過程是偶然、不清晰和不確定的,每位學者都要從最原始的篇章學起,遍歷所有典籍并考察整個源流,窮極一生只能成為專家而無法成就大家,而數(shù)字人文正在第一次給人文研究帶來革命。針對人文研究的完整過程,數(shù)字人文已能夠分而治之:首先,使資料查詢和獲取不再困難,然后使知識存儲、傳播和利用不再困難;其次,讓分析、比較,形成觀點不再困難;最后,使結果展示、交流和爭鳴不再困難。人文學者不再是單打獨斗而是集團作戰(zhàn),無須管中窺豹而是直接綜攬全局盡情把握,人文研究的規(guī)律與方法將得到更好的揭示,人文成果的發(fā)表形式將不限于書刊,人文學說的比較與評價將更方便地在實踐中得到檢驗和反饋,為人文研究提供的服務能力將更快地得到迭代和提高。照此發(fā)展下去,那么問題來了:如果數(shù)字人文充分采用了人工智能技術,推向極致,可能機器也能自動進行人文研究。此時的人文,還是人文嗎?其實數(shù)字人文的終極意義還是在于以科技強化人文,而不是將人文變成被動機械的對象,進行去價值化和無意義化。最終的意義呈現(xiàn),其主體是人類自身。當所有的人文都是數(shù)字人文時,“數(shù)字”與“人文”才能夠真正合為一體,那時“數(shù)字”的工具性特征便不再重要,人文研究此時便能回歸本源,真正彰顯人類的價值和生命的意義。這也是我們要用盡所有先進技術,推進數(shù)字人文平臺的開發(fā)與建設的根本原因所在。

    作者貢獻說明

    劉圣嬰,王麗華:提出研究思路,論文撰寫與修改;

    劉煒:論文擬題,修改與定稿;

    劉倩倩:收集資料,撰寫論文。

    附表1?中文數(shù)字人文代表性數(shù)據(jù)庫和資源網站Appendix 1 Representative Digital Humanities Databases and Sites for China Studies

    續(xù)附表1

    續(xù)附表1

    附表2?中國大陸以外地區(qū)主要數(shù)字人文數(shù)據(jù)庫名錄Appendix 2 List of Major Digital Humanities Databases Outside China's Mainland

    猜你喜歡
    研究
    FMS與YBT相關性的實證研究
    2020年國內翻譯研究述評
    遼代千人邑研究述論
    視錯覺在平面設計中的應用與研究
    科技傳播(2019年22期)2020-01-14 03:06:54
    關于遼朝“一國兩制”研究的回顧與思考
    EMA伺服控制系統(tǒng)研究
    基于聲、光、磁、觸摸多功能控制的研究
    電子制作(2018年11期)2018-08-04 03:26:04
    新版C-NCAP側面碰撞假人損傷研究
    關于反傾銷會計研究的思考
    焊接膜層脫落的攻關研究
    電子制作(2017年23期)2017-02-02 07:17:19
    久久久国产精品麻豆| 最新美女视频免费是黄的| 亚洲天堂国产精品一区在线| 成人国产综合亚洲| 美女大奶头视频| 美女高潮喷水抽搐中文字幕| 少妇裸体淫交视频免费看高清| 一区二区三区免费毛片| 一级黄片播放器| 色视频www国产| 九色国产91popny在线| 99久久九九国产精品国产免费| 国产精品久久久久久亚洲av鲁大| 久久香蕉国产精品| 青草久久国产| 国产色婷婷99| 国内精品美女久久久久久| 99久久精品热视频| 日韩欧美精品免费久久 | 少妇人妻精品综合一区二区 | 在线观看舔阴道视频| 一区二区三区高清视频在线| 国产成人福利小说| 毛片女人毛片| 最新美女视频免费是黄的| 色老头精品视频在线观看| 亚洲精品一区av在线观看| 丰满人妻一区二区三区视频av | 欧美高清成人免费视频www| 国产免费一级a男人的天堂| 国产蜜桃级精品一区二区三区| 制服丝袜大香蕉在线| 亚洲人成电影免费在线| 亚洲天堂国产精品一区在线| av在线蜜桃| 欧美黄色片欧美黄色片| 男人的好看免费观看在线视频| 又爽又黄无遮挡网站| 一级毛片高清免费大全| 伊人久久大香线蕉亚洲五| 99精品欧美一区二区三区四区| 亚洲精品影视一区二区三区av| 看片在线看免费视频| av专区在线播放| 麻豆久久精品国产亚洲av| 精品国产三级普通话版| 五月玫瑰六月丁香| 亚洲性夜色夜夜综合| 免费电影在线观看免费观看| 日韩 欧美 亚洲 中文字幕| 国产一区二区在线av高清观看| 九色成人免费人妻av| 最新中文字幕久久久久| 人人妻人人澡欧美一区二区| 在线观看一区二区三区| 久久久久久国产a免费观看| 欧美性猛交黑人性爽| 精品久久久久久久毛片微露脸| 极品教师在线免费播放| 91在线精品国自产拍蜜月 | svipshipincom国产片| 久久精品国产自在天天线| 国产精品永久免费网站| 99久久精品一区二区三区| 搡老熟女国产l中国老女人| 熟妇人妻久久中文字幕3abv| 国产精品99久久99久久久不卡| 国产一区二区三区视频了| 成人三级黄色视频| 高清日韩中文字幕在线| 淫秽高清视频在线观看| 母亲3免费完整高清在线观看| 欧美成人性av电影在线观看| 国产精品久久久久久人妻精品电影| 色av中文字幕| 精品久久久久久久久久久久久| 色尼玛亚洲综合影院| 国产精品乱码一区二三区的特点| 小说图片视频综合网站| 亚洲精品日韩av片在线观看 | 国产国拍精品亚洲av在线观看 | 国产精品嫩草影院av在线观看 | 看黄色毛片网站| 天堂av国产一区二区熟女人妻| 可以在线观看毛片的网站| 又黄又粗又硬又大视频| 精品福利观看| 日本熟妇午夜| 日韩欧美免费精品| 免费搜索国产男女视频| 国产精品久久久久久人妻精品电影| 成人午夜高清在线视频| 一级作爱视频免费观看| 首页视频小说图片口味搜索| 很黄的视频免费| 午夜福利成人在线免费观看| 免费在线观看日本一区| 国产免费男女视频| 国内精品美女久久久久久| 婷婷精品国产亚洲av在线| 亚洲精品成人久久久久久| 夜夜看夜夜爽夜夜摸| 亚洲一区高清亚洲精品| www国产在线视频色| 精品久久久久久久久久免费视频| 国产免费男女视频| 精品国产超薄肉色丝袜足j| 在线观看av片永久免费下载| 免费无遮挡裸体视频| 动漫黄色视频在线观看| 亚洲av成人不卡在线观看播放网| av中文乱码字幕在线| 在线观看一区二区三区| 久久久精品欧美日韩精品| 最近在线观看免费完整版| 欧美成人免费av一区二区三区| 人人妻人人看人人澡| 国产精品久久久久久久电影 | 搡女人真爽免费视频火全软件 | 亚洲在线自拍视频| 中文字幕久久专区| 黄色成人免费大全| 欧美日本亚洲视频在线播放| АⅤ资源中文在线天堂| 午夜福利免费观看在线| 香蕉丝袜av| 久久久久国内视频| 国产v大片淫在线免费观看| 成人一区二区视频在线观看| 国语自产精品视频在线第100页| 午夜免费成人在线视频| 精品国产美女av久久久久小说| a级毛片a级免费在线| 男人的好看免费观看在线视频| 婷婷丁香在线五月| 亚洲中文日韩欧美视频| 亚洲 欧美 日韩 在线 免费| 亚洲精品成人久久久久久| a级毛片a级免费在线| 国产精品久久视频播放| 超碰av人人做人人爽久久 | 国产精品影院久久| 亚洲精华国产精华精| 国产色爽女视频免费观看| 国产爱豆传媒在线观看| 俄罗斯特黄特色一大片| xxx96com| 精品久久久久久,| 亚洲av第一区精品v没综合| 亚洲人与动物交配视频| 国产97色在线日韩免费| 综合色av麻豆| 午夜精品在线福利| 国产成人啪精品午夜网站| 色综合婷婷激情| 久久精品人妻少妇| 亚洲精品色激情综合| 最近视频中文字幕2019在线8| 国产黄色小视频在线观看| 一个人观看的视频www高清免费观看| 18禁裸乳无遮挡免费网站照片| 久久久国产成人精品二区| 国产探花在线观看一区二区| 国语自产精品视频在线第100页| 97人妻精品一区二区三区麻豆| or卡值多少钱| 99精品久久久久人妻精品| 成人av在线播放网站| 久99久视频精品免费| 久久国产精品人妻蜜桃| 国产乱人伦免费视频| 欧美日韩综合久久久久久 | 亚洲成人精品中文字幕电影| 18美女黄网站色大片免费观看| 亚洲在线观看片| 在线观看av片永久免费下载| 国模一区二区三区四区视频| 国产亚洲精品一区二区www| 黄色女人牲交| 在线看三级毛片| 国产精品一区二区三区四区免费观看 | www.色视频.com| 国产亚洲精品久久久com| 久久精品国产综合久久久| 草草在线视频免费看| 亚洲欧美日韩高清专用| 网址你懂的国产日韩在线| 床上黄色一级片| 久久草成人影院| 久久精品91蜜桃| 深爱激情五月婷婷| 精品一区二区三区av网在线观看| 丁香欧美五月| 麻豆成人午夜福利视频| av福利片在线观看| 偷拍熟女少妇极品色| 国产精品永久免费网站| 无遮挡黄片免费观看| 亚洲精品影视一区二区三区av| a级一级毛片免费在线观看| 97人妻精品一区二区三区麻豆| 国产精华一区二区三区| 婷婷亚洲欧美| www.999成人在线观看| 久久精品国产99精品国产亚洲性色| 日韩中文字幕欧美一区二区| а√天堂www在线а√下载| 亚洲不卡免费看| 欧美最新免费一区二区三区 | 日韩国内少妇激情av| 男人舔女人下体高潮全视频| 国产成人影院久久av| av专区在线播放| 在线观看av片永久免费下载| 亚洲精品成人久久久久久| 欧美一区二区国产精品久久精品| 一进一出好大好爽视频| 亚洲精品国产精品久久久不卡| 无人区码免费观看不卡| 欧美最黄视频在线播放免费| 精品人妻偷拍中文字幕| 麻豆国产97在线/欧美| 日韩亚洲欧美综合| 99久久成人亚洲精品观看| 国产伦精品一区二区三区四那| 国产精品99久久99久久久不卡| 日本与韩国留学比较| 国产国拍精品亚洲av在线观看 | 午夜福利成人在线免费观看| 网址你懂的国产日韩在线| 亚洲自拍偷在线| 超碰av人人做人人爽久久 | 亚洲成av人片在线播放无| 亚洲精品在线美女| 亚洲18禁久久av| 国产美女午夜福利| 两个人看的免费小视频| 日本黄大片高清| 中文字幕熟女人妻在线| 国产精品 国内视频| 久久久久精品国产欧美久久久| 国语自产精品视频在线第100页| 亚洲精品色激情综合| 久久天躁狠狠躁夜夜2o2o| 亚洲av不卡在线观看| 天天一区二区日本电影三级| 国产精品免费一区二区三区在线| 一本一本综合久久| 亚洲在线自拍视频| 久久久久久人人人人人| 香蕉丝袜av| 国产美女午夜福利| 中文字幕av在线有码专区| 亚洲精品在线观看二区| 久久久精品欧美日韩精品| 国产单亲对白刺激| 亚洲成av人片在线播放无| 嫩草影视91久久| 偷拍熟女少妇极品色| 成人无遮挡网站| 亚洲中文日韩欧美视频| 欧美日韩综合久久久久久 | 99视频精品全部免费 在线| 欧美日韩黄片免| 国产精品影院久久| 天美传媒精品一区二区| 国产视频内射| 国产午夜精品论理片| 国产三级在线视频| 观看美女的网站| 青草久久国产| 黄色丝袜av网址大全| 日韩国内少妇激情av| 亚洲成人中文字幕在线播放| 夜夜爽天天搞| 国产高清三级在线| 老汉色∧v一级毛片| 色综合站精品国产| 桃色一区二区三区在线观看| 欧美+日韩+精品| 国产成人系列免费观看| 91久久精品国产一区二区成人 | 国产精品99久久99久久久不卡| 国产欧美日韩一区二区三| 欧美激情在线99| 欧美成人一区二区免费高清观看| 午夜精品在线福利| 国产av一区在线观看免费| 国产精品久久久久久久电影 | 日本一本二区三区精品| 国内少妇人妻偷人精品xxx网站| or卡值多少钱| 成人18禁在线播放| 国产乱人视频| 亚洲黑人精品在线| 国产激情欧美一区二区| 精品久久久久久,| 亚洲黑人精品在线| 美女被艹到高潮喷水动态| 成人国产一区最新在线观看| 色吧在线观看| 19禁男女啪啪无遮挡网站| 精品国内亚洲2022精品成人| 18+在线观看网站| 网址你懂的国产日韩在线| 老熟妇仑乱视频hdxx| 亚洲国产欧洲综合997久久,| 狂野欧美激情性xxxx| 国产午夜福利久久久久久| 岛国在线免费视频观看| 色综合婷婷激情| 免费电影在线观看免费观看| 国产精品久久久久久久久免 | 夜夜躁狠狠躁天天躁| 两个人的视频大全免费| 九九热线精品视视频播放| 可以在线观看的亚洲视频| 欧美绝顶高潮抽搐喷水| 一进一出好大好爽视频| 亚洲成人久久爱视频| 少妇高潮的动态图| 午夜影院日韩av| 丁香六月欧美| 2021天堂中文幕一二区在线观| 亚洲精华国产精华精| 成人一区二区视频在线观看| 欧美日本亚洲视频在线播放| 性色av乱码一区二区三区2| 亚洲av不卡在线观看| 三级男女做爰猛烈吃奶摸视频| 亚洲av免费在线观看| 国产中年淑女户外野战色| 伊人久久精品亚洲午夜| 亚洲真实伦在线观看| 性色avwww在线观看| 无限看片的www在线观看| 久久精品国产自在天天线| 国产真实乱freesex| 9191精品国产免费久久| 国产三级在线视频| 欧美xxxx黑人xx丫x性爽| 中文字幕久久专区| 成人三级黄色视频| 日韩亚洲欧美综合| 搞女人的毛片| 最新中文字幕久久久久| 99久久无色码亚洲精品果冻| 精品99又大又爽又粗少妇毛片 | 久久精品国产清高在天天线| 男人的好看免费观看在线视频| 国内精品久久久久精免费| 亚洲 国产 在线| 亚洲性夜色夜夜综合| 亚洲av不卡在线观看| 动漫黄色视频在线观看| 国产成人福利小说| x7x7x7水蜜桃| 日韩欧美在线乱码| 亚洲激情在线av| 韩国av一区二区三区四区| 男人舔奶头视频| а√天堂www在线а√下载| 两个人看的免费小视频| av中文乱码字幕在线| 午夜老司机福利剧场| 天堂av国产一区二区熟女人妻| 久久精品夜夜夜夜夜久久蜜豆| 国产美女午夜福利| 成人高潮视频无遮挡免费网站| 在线免费观看的www视频| 在线观看日韩欧美| 757午夜福利合集在线观看| 国产一区二区激情短视频| 一卡2卡三卡四卡精品乱码亚洲| 精品一区二区三区人妻视频| 国产一区二区激情短视频| 国产精品永久免费网站| 国产男靠女视频免费网站| 别揉我奶头~嗯~啊~动态视频| 国产午夜福利久久久久久| 国产亚洲精品久久久com| 国产亚洲精品久久久久久毛片| 夜夜爽天天搞| 欧美区成人在线视频| 黄片大片在线免费观看| 1000部很黄的大片| 亚洲人与动物交配视频| 午夜影院日韩av| 狂野欧美激情性xxxx| 午夜福利18| xxxwww97欧美| 国产成人系列免费观看| 精品日产1卡2卡| 最新中文字幕久久久久| 欧美大码av| 色吧在线观看| 日日夜夜操网爽| 国产一区二区激情短视频| a级一级毛片免费在线观看| 久久精品综合一区二区三区| 18+在线观看网站| 亚洲精品国产精品久久久不卡| 精品99又大又爽又粗少妇毛片 | 99国产精品一区二区三区| 波多野结衣高清作品| 亚洲在线观看片| 国产一区二区在线av高清观看| 99精品在免费线老司机午夜| 色综合站精品国产| 欧美乱色亚洲激情| 一个人观看的视频www高清免费观看| 波野结衣二区三区在线 | 欧美精品啪啪一区二区三区| 男女视频在线观看网站免费| 欧美日韩综合久久久久久 | 老汉色av国产亚洲站长工具| 中文字幕久久专区| 久久久精品欧美日韩精品| 国产免费男女视频| 国产精品 国内视频| 久久香蕉精品热| 好男人在线观看高清免费视频| 99久久久亚洲精品蜜臀av| 午夜激情欧美在线| 精华霜和精华液先用哪个| 国产久久久一区二区三区| 丰满人妻一区二区三区视频av | 久久精品国产亚洲av香蕉五月| 国产aⅴ精品一区二区三区波| www.999成人在线观看| 脱女人内裤的视频| 18禁在线播放成人免费| 国产黄片美女视频| 国产精品嫩草影院av在线观看 | 亚洲国产日韩欧美精品在线观看 | 久久香蕉精品热| 男人的好看免费观看在线视频| 12—13女人毛片做爰片一| or卡值多少钱| 中文字幕av在线有码专区| 免费看美女性在线毛片视频| 国产精品99久久99久久久不卡| 午夜免费激情av| 人妻夜夜爽99麻豆av| bbb黄色大片| 午夜免费成人在线视频| 亚洲男人的天堂狠狠| 国产精品,欧美在线| 日韩大尺度精品在线看网址| 一个人免费在线观看的高清视频| 天天一区二区日本电影三级| 俺也久久电影网| 色哟哟哟哟哟哟| 精品无人区乱码1区二区| 精华霜和精华液先用哪个| 高清在线国产一区| 一二三四社区在线视频社区8| 免费一级毛片在线播放高清视频| 免费看美女性在线毛片视频| av福利片在线观看| 精品熟女少妇八av免费久了| 丁香欧美五月| 久久国产精品人妻蜜桃| 欧美日韩中文字幕国产精品一区二区三区| 一个人看视频在线观看www免费 | 日韩人妻高清精品专区| 又爽又黄无遮挡网站| 久久久成人免费电影| 欧美最黄视频在线播放免费| 观看美女的网站| 一级黄色大片毛片| 禁无遮挡网站| 男人舔奶头视频| 欧美极品一区二区三区四区| 亚洲国产欧洲综合997久久,| 国产伦在线观看视频一区| 亚洲av熟女| 国产精品1区2区在线观看.| 在线观看午夜福利视频| 又粗又爽又猛毛片免费看| 又爽又黄无遮挡网站| 一进一出好大好爽视频| 小蜜桃在线观看免费完整版高清| 91久久精品国产一区二区成人 | 色精品久久人妻99蜜桃| 老汉色∧v一级毛片| 亚洲成a人片在线一区二区| 久久这里只有精品中国| 国产激情偷乱视频一区二区| 日本免费a在线| 九九在线视频观看精品| 51国产日韩欧美| 色噜噜av男人的天堂激情| 亚洲在线自拍视频| 少妇裸体淫交视频免费看高清| 一级黄色大片毛片| 非洲黑人性xxxx精品又粗又长| 91av网一区二区| 国产高清三级在线| 国内毛片毛片毛片毛片毛片| av福利片在线观看| 无人区码免费观看不卡| 国产精品av视频在线免费观看| 淫妇啪啪啪对白视频| 国产精品爽爽va在线观看网站| 又黄又爽又免费观看的视频| 久久性视频一级片| 女人高潮潮喷娇喘18禁视频| svipshipincom国产片| 天堂√8在线中文| 欧美日韩国产亚洲二区| 黄片大片在线免费观看| 国产三级在线视频| 九色国产91popny在线| 国产精品爽爽va在线观看网站| 一个人看的www免费观看视频| 给我免费播放毛片高清在线观看| 午夜免费成人在线视频| 午夜久久久久精精品| 国产精品爽爽va在线观看网站| 一个人看的www免费观看视频| 日韩有码中文字幕| 久久亚洲精品不卡| 成人精品一区二区免费| 91久久精品国产一区二区成人 | 高清毛片免费观看视频网站| 免费看a级黄色片| 亚洲天堂国产精品一区在线| 国产精品精品国产色婷婷| 国产精品亚洲一级av第二区| 桃色一区二区三区在线观看| 99热只有精品国产| 亚洲成av人片在线播放无| 一个人免费在线观看的高清视频| 精品福利观看| 在线免费观看不下载黄p国产 | 午夜影院日韩av| 久久国产精品人妻蜜桃| 制服丝袜大香蕉在线| 国产一级毛片七仙女欲春2| 亚洲成a人片在线一区二区| 国产精品,欧美在线| 国产亚洲精品一区二区www| 午夜免费激情av| 久久国产乱子伦精品免费另类| 国产精品一区二区免费欧美| 性色av乱码一区二区三区2| 亚洲一区二区三区色噜噜| 欧美一级毛片孕妇| 国产成人福利小说| 一个人看的www免费观看视频| 无人区码免费观看不卡| 香蕉av资源在线| 99久久99久久久精品蜜桃| 色精品久久人妻99蜜桃| 女人高潮潮喷娇喘18禁视频| 久久久久久久亚洲中文字幕 | 亚洲第一欧美日韩一区二区三区| 国产成年人精品一区二区| 天天一区二区日本电影三级| 国产真实乱freesex| 亚洲精品日韩av片在线观看 | 精品一区二区三区视频在线观看免费| 99久久无色码亚洲精品果冻| 成人鲁丝片一二三区免费| 一级a爱片免费观看的视频| 成人亚洲精品av一区二区| 成人国产一区最新在线观看| 非洲黑人性xxxx精品又粗又长| 欧美日本亚洲视频在线播放| 久久草成人影院| 亚洲激情在线av| 啦啦啦观看免费观看视频高清| 亚洲av日韩精品久久久久久密| 亚洲午夜理论影院| 淫秽高清视频在线观看| 国产 一区 欧美 日韩| 久久国产精品影院| 热99在线观看视频| 国产欧美日韩精品一区二区| 最近最新中文字幕大全免费视频| 国产极品精品免费视频能看的| 好男人在线观看高清免费视频| 午夜福利18| 精品日产1卡2卡| 神马国产精品三级电影在线观看| 青草久久国产| 91字幕亚洲| 精品99又大又爽又粗少妇毛片 | 中出人妻视频一区二区| 欧美av亚洲av综合av国产av| 蜜桃久久精品国产亚洲av| 精华霜和精华液先用哪个| 首页视频小说图片口味搜索| 久久人人精品亚洲av| 亚洲第一电影网av| 久久香蕉国产精品| 两性午夜刺激爽爽歪歪视频在线观看| 亚洲五月天丁香| 在线a可以看的网站| 亚洲欧美日韩高清专用| 国产野战对白在线观看| 久久草成人影院| 一a级毛片在线观看| 中文在线观看免费www的网站| 女生性感内裤真人,穿戴方法视频| 国产伦一二天堂av在线观看| 中国美女看黄片| 身体一侧抽搐| 亚洲成a人片在线一区二区| 精品国产三级普通话版| 亚洲在线观看片| 国产精品精品国产色婷婷| 国产精品1区2区在线观看.| 99在线视频只有这里精品首页|