歐陽劍
(1. 上海外國語大學圖書館,上海 201620;2. 上海外國語大學數(shù)字學術中心,上海 201620)
數(shù)字人文是一個將現(xiàn)代計算機和網(wǎng)絡技術深入應用于傳統(tǒng)的人文研究與教學的新型跨學科研究領域,它的產(chǎn)生與發(fā)展得益于數(shù)字技術的進步及其在科學領域的普及應用,近年來,傳統(tǒng)文史哲等人文學科和社會科學都在不同程度上開展了數(shù)字人文研究的探索。數(shù)字人文研究的興起給人文學者帶來了新的研究視角與思維模式,也為傳統(tǒng)的人文研究帶來了新的方法、工具和平臺。數(shù)據(jù)、研究方法、工具與平臺是數(shù)字人文研究的重要組成部分,數(shù)據(jù)是數(shù)字人文研究的基礎,基礎數(shù)據(jù)庫很大程度上緩解了人文研究數(shù)據(jù)缺乏的狀況,而數(shù)字人文研究方法主要通過應用工具及平臺來實現(xiàn),應用工具及平臺體現(xiàn)出數(shù)字人文研究的基本理論、方法與技術等。隨著人文數(shù)據(jù)建設越來越受到重視,基于數(shù)據(jù)融合的多維度數(shù)據(jù)應用平臺應時而生,傳統(tǒng)數(shù)字化資源的建設也逐漸由資源庫向數(shù)字研究平臺轉變,以不斷滿足人文學者提出的輔助其研究的新需求[1]。
近年來,各種數(shù)字人文應用平臺建設此起彼伏,由于數(shù)字人文應用平臺構建的理念不同,出現(xiàn)了不同的應用平臺構建模式,與傳統(tǒng)應用平臺不同,數(shù)字人文應用平臺集數(shù)據(jù)、方法及工具為一體,其構建模式的選擇也會給人文數(shù)據(jù)及研究工具的使用方式帶來影響。因此,數(shù)字人文應用平臺模式及構建研究對數(shù)字人文資源的開發(fā)與利用具有重要意義,同時對我國數(shù)字人文基礎設施的建設模式選擇也具有實際的參考價值。
在美術館、圖書館、檔案館與博物館(GLAM)領域,“基礎設施”的提法由來已久,數(shù)字人文基礎設施是一種支持人文學科研究活動的基礎設施,是數(shù)字環(huán)境下開展人文研究的基本條件,包括與研究主題相關的文獻、數(shù)據(jù)、軟件工具、學術交流和出版的公用設施及相關服務等[2],通過平臺化的架構為人文學者提供各類量化分析工具與可視化數(shù)據(jù)服務。數(shù)字人文基礎設施對于學者的研究與實踐至關重要,數(shù)字人文基礎設施作為一種技術平臺,將工具、服務、資源和方法用于數(shù)字研究之中,通過標準化協(xié)議將異構的數(shù)字人文基礎設施相互關聯(lián)成本地節(jié)點,有助于在不同基礎設施系統(tǒng)之上建立一個包容性的資源獲取網(wǎng)絡,從而實現(xiàn)人文數(shù)據(jù)的開放獲取,由此可見,數(shù)字人文基礎設施具有高連接性、標準化及易訪問的特點[3]。
數(shù)字人文基礎設施的建設為數(shù)字環(huán)境下開展人文研究提供必備的基本條件,相關項目的建設如火如荼,涌現(xiàn)出一批優(yōu)秀的數(shù)字人文基礎設施。上海圖書館歷史人文大數(shù)據(jù)平臺以關聯(lián)數(shù)據(jù)的方式向外公開發(fā)布了上海圖書館數(shù)字人文項目所組織的基礎知識庫(人、地、時、事、物)、文獻知識庫(家譜、手稿檔案、古籍等)、本體詞表,以及數(shù)字人文項目建設過程中所用到的各種數(shù)據(jù)清洗和轉換工具[4]。哈佛大學東亞語言文明系教授包弼德(K. B. Peter)負責的中國歷代人物傳記資料庫(China Biographical Database,CBDB)項目提供了多個涵蓋人物信息的關聯(lián)數(shù)據(jù)集[5],已成為歷史領域數(shù)字人文研究的典范。類似的還有中國臺灣地區(qū)“中研院”創(chuàng)建的基礎地理信息系統(tǒng)“中華文明之時空基礎架構”(Chinese Civilization in Time and Space,CCTS)[6],該系統(tǒng)以中國地圖為基礎底圖,整合了“中研院”的漢籍電子文獻系統(tǒng)、清代糧價資料庫、明清地方志聯(lián)合目錄資料庫等專業(yè)應用系統(tǒng)或資料庫。此外,還有陜西師范大學出版總社、首都師范大學張萍教授和西安云圖電子信息有限公司合作打造的絲綢之路歷史地理信息開放平臺[7],王兆鵬教授主持的“唐宋文學編年地圖”項目[8],等等。這些數(shù)字人文基礎設施的建設極大地促進了數(shù)字人文的發(fā)展,豐富了人文學科研究的基礎數(shù)據(jù)。
數(shù)字人文基礎設施與傳統(tǒng)資源庫的本質差別在于:數(shù)字人文基礎設施嵌入了數(shù)字人文學者需要的數(shù)據(jù),提供人文學者需要的研究及分析手段、算法、工具,實現(xiàn)基礎數(shù)據(jù)與人文學者的無縫連接,數(shù)字人文應用平臺是數(shù)字人文基礎設施的重要組成部分。近年來,數(shù)字人文應用平臺也不斷涌現(xiàn),其典型代表有中國臺灣地區(qū)“中研院”的數(shù)位人文研究平臺[9]、中國臺灣大學的DocuSky數(shù)位人文學術研究平臺[10]、復旦大學歷史地理研究中心的數(shù)字禹貢[11]、Gale數(shù)字學術實驗室研發(fā)的基于云服務的歷史文獻分析平臺[12]、HathiTrust研究中心(HathiTrust Research Center,HTRC)的“數(shù)據(jù)膠囊”(Data Capsule)項目等,一些專有數(shù)據(jù)庫廠商如Jstor Constellate、ProQuest(TDM studio)等開發(fā)了文本和數(shù)據(jù)挖掘工具,使人文學者可以使用詞頻統(tǒng)計、術語提煉及主題模型等工具對專有數(shù)據(jù)庫的數(shù)據(jù)進行研究,進一步促進了數(shù)字人文研究的發(fā)展,給普通人文學者的研究帶來了極大的便利。數(shù)字人文研究平臺的建立使人文研究者不必再完全依賴于信息技術專家,為人文學者提供了一個友好互動的數(shù)字人文研究環(huán)境,提供了個性化的服務、協(xié)同合作的機制以及開放的資源,很大程度上克服了人文數(shù)據(jù)匱乏的困難,使得人文學者自由地融合數(shù)字人文技術與方法進行相關人文研究,加速人文研究進程。
作為數(shù)字人文基礎設施的核心,數(shù)字人文應用平臺與傳統(tǒng)的數(shù)字圖書館服務平臺的顯著區(qū)別在于:數(shù)字人文應用平臺以文本化、數(shù)字化的數(shù)據(jù)為主,并輔以相關的數(shù)字化研究工具等,為人文學者提供一個數(shù)字化的研究環(huán)境??偟膩碚f,數(shù)字人文應用平臺以數(shù)字化、數(shù)據(jù)化、文本化為主要方式對各種類型人文資料進行組織與重構,將圖書館、檔案館、博物館、文化遺產(chǎn)機構等分散的數(shù)字化館藏資源進行整合作為應用平臺的基礎數(shù)據(jù),通過平臺化的架構為人文學者提供各類量化分析工具與可視化數(shù)據(jù)服務。數(shù)字人文應用平臺是在傳統(tǒng)資源庫的基礎上發(fā)展而來的,保留著諸多傳統(tǒng)資源庫的特征,特別是在人文數(shù)據(jù)的組成方面更是以傳統(tǒng)的特藏資源為基礎,通過對傳統(tǒng)文獻進行標注、融合和重組等工作使傳統(tǒng)資源轉化為數(shù)據(jù)形式,從而實現(xiàn)人文數(shù)據(jù)服務。
數(shù)字人文中的人文數(shù)據(jù)建設主要有人文數(shù)據(jù)復原與人文數(shù)據(jù)重構兩種形式[13],即通過對傳統(tǒng)文獻資源轉錄、改編、轉換、重組以及發(fā)布等一系列加工處理,并實現(xiàn)人文數(shù)據(jù)之間的關聯(lián),從而構建完整、權威的人文數(shù)據(jù)集,人文數(shù)據(jù)建設不僅包含數(shù)字化,還包含文本、圖像、音視頻的多角度、顆粒化深度標引與元數(shù)據(jù)描述、數(shù)據(jù)化、數(shù)據(jù)融合、知識關聯(lián)等工作,而這些工作與著作權法中的使用權、復制權、改編權等密切相關。當屬于著作權法允許的少量、適當引用他人作品,且在自主加工成數(shù)據(jù)的過程中投入智力勞動這一情況時,一般不涉及著作權問題,版權風險相對較低。然而著作權法對原始的、非結構化的數(shù)據(jù)的版權保護比較薄弱,因為一些原始數(shù)據(jù)可能不符合“原創(chuàng)性作品”的創(chuàng)造性要求,而通過對原始數(shù)據(jù)進行開發(fā)或加工產(chǎn)生的分析數(shù)據(jù)或匯編數(shù)據(jù)才應當被視為著作權客體,現(xiàn)有的法律對數(shù)據(jù)的版權保護還不完善,在有些情況下,法院愿意將版權保護范圍擴大到涉及數(shù)據(jù)且具有足夠創(chuàng)造性的作品[14],因此,在人文數(shù)據(jù)建設的過程中很容易因為版權不明確而產(chǎn)生糾紛。
數(shù)字人文應用服務平臺是以“數(shù)據(jù)化”為主要方式對各種類型人文資料進行組織與揭示,其中的人文數(shù)據(jù)更多來自文獻原始數(shù)據(jù)或匯編數(shù)據(jù)。人文數(shù)據(jù)除了來自傳統(tǒng)的特藏資源外還有其他來源渠道,如自建特色數(shù)據(jù)、研究機構的開放數(shù)據(jù)以及數(shù)字人文中的眾包數(shù)據(jù)等,這些來源的數(shù)據(jù)大部分具有明確的數(shù)字版權。盡管一些發(fā)布的數(shù)據(jù)已申明遵從知識共享許可協(xié)議,但使用者依然需要遵守作者的意愿,其中就涉及是否需要署名、是否可以被商用、能否修改后重新發(fā)布等問題。
與數(shù)字人文基礎設施類似,數(shù)字人文應用平臺也具有高連接性、標準化及易訪問的特點,數(shù)字人文應用平臺往往涉及數(shù)據(jù)開放獲取及共享,在數(shù)據(jù)開放獲取及共享的過程中也會涉及版權問題,可能會為數(shù)字人文應用服務平臺帶來侵權風險。由此可見,人文數(shù)據(jù)的創(chuàng)建與組織、數(shù)據(jù)使用方式、數(shù)據(jù)安全等成為數(shù)字人文應用平臺建設中影響數(shù)字版權的重要因素。
數(shù)字人文應用平臺對數(shù)字人文研究的實現(xiàn)具有重要意義,數(shù)字人文應用平臺是數(shù)據(jù)版權的最后把關“人”,數(shù)據(jù)使用的合法性、安全性等都通過應用服務平臺實現(xiàn)。數(shù)據(jù)版權與人文數(shù)據(jù)開放理念存在一定的矛盾,作為研究者來說,希望方便、快捷地獲取自己需要的人文數(shù)據(jù),實現(xiàn)內外部數(shù)據(jù)的整合與關聯(lián)訪問,得到“一站式”的數(shù)據(jù)服務,但這種高度開放性的數(shù)據(jù)服務增加了數(shù)據(jù)侵權的風險;而對數(shù)字人文應用服務管理者來說,數(shù)據(jù)版權則是主要考慮的因素。因此,雙方利益平衡是數(shù)字人文應用平臺版權保護的根基。
數(shù)字人文應用平臺的建設旨在實現(xiàn)數(shù)據(jù)開放共享,為人文學者構建一個數(shù)字研究環(huán)境,使其專注于學術問題研究。人文數(shù)據(jù)已成為人文學科研究的關鍵生產(chǎn)要素和基礎資源,數(shù)據(jù)也是數(shù)字人文基礎設施建設的重要內容,因此數(shù)字版權成為各數(shù)字人文應用平臺構建的核心影響因素,進而使得各平臺數(shù)據(jù)的開放及使用出現(xiàn)差異。根據(jù)數(shù)據(jù)開放程度,數(shù)字人文應用平臺構建模式主要分為開放型、封閉型和混合型。
數(shù)字人文應用平臺作為數(shù)字人文基礎設施的重要組成部分,起到數(shù)據(jù)基礎設施的作用,數(shù)據(jù)開放共享成為數(shù)字人文應用平臺的重要特征之一,數(shù)據(jù)開放型數(shù)字人文應用平臺成為最基本的構建模式。數(shù)據(jù)開放型數(shù)字人文應用平臺以無版權或被授權的數(shù)據(jù)開放利用為目的,實現(xiàn)數(shù)據(jù)的廣泛共享。首先,用戶可以根據(jù)自己的需求將平臺數(shù)據(jù)進行組合、重構、瀏覽及下載;其次,平臺的數(shù)據(jù)對外開放,或提供相應的數(shù)據(jù)API接口供其他用戶及平臺使用;除此之外,也允許導入及調用其他平臺的數(shù)據(jù),連接及共享其他平臺的數(shù)據(jù),并利用平臺工具進行閱讀、分析及可視化利用。
目前,諸多數(shù)字人文應用平臺呈現(xiàn)出數(shù)據(jù)開放型模式特征。中國臺灣大學數(shù)位人文研究中心研發(fā)的DocuSky數(shù)位人文學術研究平臺是典型的數(shù)據(jù)開放型平臺,該平臺基于個人化資料庫構建及數(shù)字工具分析理念,致力于開放鏈接技術支持人文學者上傳各種不同來源、格式相異的文本數(shù)據(jù),并且學者可以利用平臺所提供的各種數(shù)字工具滿足自己的個性化需求。在DocuSky平臺中,學者無須求助專業(yè)技術人員就可以自主構建個人的多功能云端數(shù)據(jù)庫,可以自由選用豐富的工具與材料,在上傳個人文本與權威文檔的同時,還可以導入其他開放資料庫的文本,如中國哲學書電子化計劃Ctext[15]、日本京都大學的漢籍文本Kanripo[16]、中國臺灣地區(qū)“中研院”史語所漢籍文本等權威文檔等。
數(shù)據(jù)開放型平臺側重數(shù)字人文研究數(shù)據(jù)及工具的集成與共享,主要提供各種數(shù)據(jù)處理及分析工具,通過定義一套標準化的API數(shù)據(jù)訪問接口或關聯(lián)數(shù)據(jù)技術進行鏈接,具有高度的數(shù)據(jù)開放性及易訪問性。同時,由于數(shù)據(jù)開放型平臺可以引入外部數(shù)據(jù)進行分析,使得平臺的研究方法及工具也具有極高的共享性,這都為學者的研究帶來了極大的便利,因而數(shù)據(jù)開放型平臺具有良好的開放性、公共性和可持續(xù)性。
從版權角度來說,有的數(shù)字人文應用平臺又具有一定的封閉性及排他性——既不開放數(shù)據(jù),也不接收外部數(shù)據(jù),這種數(shù)字人文應用平臺形成一種數(shù)據(jù)封閉型模式。數(shù)據(jù)封閉型數(shù)字人文應用平臺是一種基于數(shù)字版權保護機制的封閉平臺,其將版權(私有)數(shù)據(jù)封裝到一個可控制訪問權限的系統(tǒng)中,從而實現(xiàn)數(shù)據(jù)版權保護。數(shù)據(jù)封閉型平臺通過軟件、硬件系統(tǒng)來隔離用戶與數(shù)據(jù)之間的直接聯(lián)系,通過基于策略接口和網(wǎng)絡訪問的控制限制他人對版權數(shù)據(jù)的非法操作與訪問,用戶可以選擇具有自定義功能的模塊或工具用于數(shù)據(jù)分析。相對于數(shù)據(jù)開放型數(shù)字人文應用平臺,數(shù)據(jù)封閉型平臺側重數(shù)據(jù)版權保護的運作模式,并以平臺數(shù)據(jù)及分析工具為研究者構建一個數(shù)字學術研究環(huán)境。
數(shù)據(jù)封閉型數(shù)字人文應用平臺模式是一種較好的平臺數(shù)據(jù)版權解決方案,并在實踐中被廣泛應用。隨著數(shù)字研究環(huán)境的發(fā)展,內容分析研究逐漸興起,文本內容挖掘策略較好地解決了版權數(shù)據(jù)使用限制。HathiTrust是美國一個長期保存數(shù)字資源的公共平臺,HathiTrust數(shù)字圖書館擁有1 500多萬卷/冊資源,但有900多萬卷/冊因受到版權限制,而不能被HathiTrust成員館用戶公開使用。為解決此問題,HathiTrust研究中心(HathiTrust Research Center,HTRC)一直希望創(chuàng)建一套能讓這些受版權限制的資源更加開放地被學者使用的模式,為了滿足數(shù)字人文的需要,HTRC提出了“非消費型研究”(non-consumptive research)服務理念[17]?;谶@種服務理念,HTRC為版權數(shù)據(jù)開發(fā)了封閉的應用環(huán)境[18-19],這既為學者訪問這些受版權保護資源開辟了新的訪問方式,又尊重了版權限制。所謂“數(shù)據(jù)膠囊”,簡單來說就是將受版權保護的數(shù)據(jù)通過技術手段封裝起來,避免用戶直接讀取原始全文,再基于特定的算法對封裝的原始全文進行計算分析,并返回分析結果供研究人員使用,這種運作機制打破了數(shù)字版權的屏障,滿足了研究人員的數(shù)據(jù)需求,又較好地保護了原始數(shù)據(jù)的版權。
數(shù)據(jù)膠囊服務為研究人員提供虛擬計算及分析功能,研究人員可以根據(jù)需要選擇適合需求的分析工具及分析數(shù)據(jù)集進行分析。數(shù)據(jù)膠囊支持研究人員靈活配置運算環(huán)境,將不同的運算機制嵌入數(shù)據(jù)膠囊中,用戶可以在該運算機制下生成分析結果,目前數(shù)據(jù)膠囊支持越來越多的分析類型,并且內置各種通用的分析工具。此外,HTRC與Google實驗室合作開發(fā)了“Bookworm”文本分析和可視化工具[20],旨在幫助學者應對大規(guī)模的HathiTrust文本數(shù)據(jù)所帶來的挑戰(zhàn),在尊重版權的基礎上充分服務學者。Bookworm以一種簡單而強大的方式對數(shù)字化文本庫中的語言使用趨勢進行可視化,通過一組強化的基于內容和元數(shù)據(jù)的特性來支持數(shù)據(jù)的多面“切片和切塊”,從而幫助學者更好地建立他們的工作集。HathiTrust與Bookworm可視化工具可供研究人員繪制HathiTrust語料庫中的單詞趨勢圖,并通過書目元數(shù)據(jù)對其進行搜索。Gale數(shù)字學術實驗室也將Gale 1.7億頁、跨越500多年的原始檔案文字識別數(shù)據(jù)與文本構建用于研究的語料庫,并將挖掘和可視化工具整合在一個平臺之下,為學者提供了可對歷史、文化、社會、政治等眾多領域數(shù)據(jù)進行分析與挖掘的人文計算工具[21]。
數(shù)據(jù)封閉型數(shù)字人文應用平臺側重人文數(shù)據(jù)的版權保護,對數(shù)據(jù)的合理使用進行了嚴格的規(guī)范,在未被授權的情況下用戶不能直接訪問平臺的數(shù)據(jù),用戶可以通過分析及挖掘工具獲得分析及處理結果。數(shù)據(jù)封閉型數(shù)字人文應用平臺對用戶來說具有單向性,大多只能分析平臺提供的數(shù)據(jù)集,不能鏈接分析平臺外部的數(shù)據(jù),因此平臺分析工具及數(shù)據(jù)共享功能差,不利于人文數(shù)據(jù)及研究工具的開放及共享。
在實踐中,數(shù)字人文應用平臺中的數(shù)據(jù)組成形式呈多樣化,既包含開放共享數(shù)據(jù),也包含版權數(shù)據(jù),因而需要一種兼顧這兩種形式的混合模式數(shù)字人文應用平臺?;旌闲推脚_介于數(shù)據(jù)封閉型與數(shù)據(jù)開放型之間,這種平臺在以開放共享為主導模式的基礎上對一些受保護的數(shù)據(jù)進行封裝,借鑒“數(shù)據(jù)膠囊”式建設理念構建數(shù)據(jù)分析環(huán)境,通過建立合理的數(shù)據(jù)應用機制保護版權(私有)數(shù)據(jù),從而以實現(xiàn)數(shù)據(jù)版權(私有)保護與數(shù)據(jù)利用之間的利益平衡,對于無版權限制的數(shù)據(jù)則開放共享,同時研究工具也可對應用平臺的所有數(shù)據(jù)進行分析。
混合型數(shù)字人文應用平臺注重數(shù)據(jù)的共享,以筆者開發(fā)的中國古籍基礎數(shù)據(jù)應用平臺[22]為例,數(shù)據(jù)版權風險是古籍數(shù)字人文應用服務體系構建面臨的現(xiàn)實挑戰(zhàn)之一,也是影響古籍數(shù)字人文健康發(fā)展的關鍵因素。從理論上來說,古籍文獻本身已超過50年的版權保護期,使用上無版權限制,但古籍數(shù)字人文應用平臺的古籍數(shù)據(jù)更多來自古籍的標點、注釋、匡正、補遺等整理作品,依據(jù)我國《著作權法》第十二條規(guī)定,“改編、翻譯、注釋、整理已有作品而產(chǎn)生的作品,其著作權由改編、翻譯、注釋、整理人享有”,按此項規(guī)定,如果整理的新作品具有獨創(chuàng)性,則理應受著作權保護[23]。此外,古籍數(shù)據(jù)及知識的整理是一件費時、費力的工作,整理者對古籍數(shù)據(jù)及知識的整理付出了智力勞動,因而擁有所有權,也具有版權。就目前來說,應用于古籍數(shù)字人文平臺的數(shù)據(jù)主要來源于傳統(tǒng)數(shù)字資源的數(shù)據(jù)化,因此古籍數(shù)字人文應用平臺需要具有完善的版權(私有)數(shù)據(jù)保護機制,從而對版權及私有數(shù)據(jù)進行保護。同時,古籍數(shù)字人文應用平臺的開放數(shù)據(jù)服務對人文數(shù)據(jù)的互聯(lián)互通具有重要意義,是推動人文研究創(chuàng)新的重要基礎,需要考慮研究者的使用需求,需要選擇合適的古籍數(shù)字人文應用平臺構建模式,從而促進古籍數(shù)據(jù)在更大范圍內共建共享。
綜上所述,為了尋求古籍數(shù)據(jù)保護與數(shù)據(jù)開放之間的平衡關系,中國古籍基礎數(shù)據(jù)應用平臺采用混合型模式構建,混合型古籍數(shù)字人文應用平臺中的數(shù)據(jù)來源渠道多元化,混合模式既對含有版權的數(shù)據(jù)進行了保護,又為人文學者提供了相對開放的數(shù)據(jù)服務應用環(huán)境,同時也實現(xiàn)了其他數(shù)據(jù)的開放與共享,有力地支持了人文研究。
混合型古籍數(shù)字人文應用平臺主要由數(shù)據(jù)中臺、算法中臺等組成(見圖1)。數(shù)字人文研究加速了人文學科數(shù)據(jù)驅動型研究的發(fā)展,數(shù)據(jù)建設是數(shù)字人文的重要內容,通過建立古籍數(shù)據(jù)中臺,聚合和治理跨域數(shù)據(jù),從而驅動數(shù)據(jù)服務的轉型,滿足人文學者研究需求。古籍數(shù)據(jù)中臺的核心思想是數(shù)據(jù)共享與數(shù)據(jù)版權保護,古籍數(shù)據(jù)中臺作為一個數(shù)據(jù)共享的核心,在混合型古籍數(shù)字人文應用平臺構建的過程中對有版權(私有)的古籍數(shù)據(jù)進行封裝,通過將圖像、文本、數(shù)據(jù)、知識等進行結構化處理,進而聚合跨域多源數(shù)據(jù),解決人文研究中面臨的古籍數(shù)據(jù)孤島問題,建立數(shù)據(jù)挖掘、數(shù)據(jù)管理、數(shù)據(jù)利用與共享等機制,最終滿足人文學者研究的多維數(shù)據(jù)需求,實現(xiàn)不同古籍應用場景的人文研究。古籍數(shù)據(jù)中臺存儲受保護的版權(私有)數(shù)據(jù),也存儲開放共享數(shù)據(jù),從而實現(xiàn)數(shù)據(jù)版權(私有)與數(shù)據(jù)利用之間的利益平衡。
圖1 混合模式的古籍數(shù)字人文應用平臺框架
算法中臺不但為人文學者提供各種古籍研究場景的分析方法及工具,也為人文計算提供高性能硬件計算服務,為人文學者構建一個流暢、穩(wěn)定、可擴展的研究環(huán)境,提供更加個性化的服務,增強用戶體驗。算法中臺將用戶與易于使用的工具相連接,實現(xiàn)分析方法工具化、平臺化,其接收用戶的計算分析及數(shù)據(jù)調度請求,通過內置的文本分析和可視化工具等進行數(shù)據(jù)分析,并向用戶返回計算及分析結果,而計算及分析與數(shù)據(jù)調度都由算法中臺完成,用戶根據(jù)自己的研究需要配置相應參數(shù)并選擇對應功能模塊即可完成分析及計算,為人文學者實現(xiàn)數(shù)據(jù)與應用的無縫對接。人文學者既可以通過應用分析與計算接口對平臺受保護的圖像、文本、數(shù)據(jù)、知識進行間接訪問,系統(tǒng)把分析及計算的結果返回給人文學者,避免了人文學者直接訪問平臺的版權(私有)數(shù)據(jù);人文學者也可以直接訪問平臺的開放數(shù)據(jù),分析與計算接口是聯(lián)系古籍數(shù)據(jù)與人文學者的橋梁。
數(shù)據(jù)開放型、數(shù)據(jù)封閉型及混合型數(shù)字人文應用平臺模式各自的特點不同(見表1),側重不同的應用場景。從數(shù)據(jù)的開放性來說,數(shù)據(jù)開放型數(shù)字人文應用平臺的開放程度最好,也是人文學者比較喜歡的模式,學者可以共享平臺數(shù)據(jù),人文學者參與程度高,但也因為數(shù)據(jù)的保護性差,學者上傳個人數(shù)據(jù)的意愿降低,也限制了版權數(shù)據(jù)的發(fā)布與共享,從而限制了平臺的數(shù)據(jù)類型和數(shù)量。數(shù)據(jù)封閉型數(shù)字人文應用平臺則更強調對數(shù)據(jù)的保護,數(shù)據(jù)的開放程度不夠,難以對數(shù)據(jù)進行共享,實踐中也缺乏人文學者的廣泛參與,目前,商業(yè)性數(shù)字人文應用平臺多為數(shù)據(jù)封閉型模式,大多采用付費方式供用戶使用。而混合型數(shù)字人文應用平臺模式則兼顧前兩種的優(yōu)點,既可以對版權(私有)數(shù)據(jù)進行保護,又可以實現(xiàn)廣泛的數(shù)據(jù)共享;既滿足學者的需要,也符合數(shù)據(jù)管理者的需求;既能吸引人文學者的廣泛參與,也對商業(yè)性數(shù)據(jù)參與具有吸引力。但從平臺實現(xiàn)角度來看,混合型數(shù)字人文應用平臺構建復雜程度也較前兩種高。
表1 平臺模式比較
數(shù)字人文應用平臺是開展數(shù)字人文服務的重要組成部分,也是數(shù)字人文重要的基礎設施,近年來各種數(shù)字人文應用平臺建設不斷涌現(xiàn),從現(xiàn)有數(shù)字人文應用平臺構建模式來看,數(shù)字版權是目前數(shù)字人文應用平臺構建模式的主要影響因素,數(shù)字版權的授權與獲取直接影響著人文數(shù)據(jù)及研究工具的使用方式與使用范圍,也影響著數(shù)字人文應用平臺構建模式的選擇。目前的數(shù)字人文應用平臺可分為數(shù)據(jù)開放型、數(shù)據(jù)封閉型、混合型3種,不同的構建模式其側重點不同,適用于不同的應用場景,數(shù)據(jù)開放型側重數(shù)據(jù)及工具共享,數(shù)據(jù)封閉型則側重數(shù)字版權的保護,而混合型既對版權(私有)數(shù)據(jù)進行了保護,又給傳統(tǒng)的人文研究帶來數(shù)據(jù)、工具的共享。
從數(shù)字人文應用平臺構建實踐來看,目前數(shù)字人文應用平臺的數(shù)據(jù)有3種類型:①以傳統(tǒng)數(shù)字資源為基礎,通過數(shù)據(jù)化的形式把傳統(tǒng)數(shù)字資源轉化為人文數(shù)據(jù),平臺對這類數(shù)據(jù)具有明確的數(shù)字版權;②人文學者在數(shù)字人文的實踐中加工、整理的數(shù)據(jù),這類數(shù)據(jù)屬于私有數(shù)據(jù),加工即整理者擁有所有權;③無版權的公共數(shù)據(jù)。由此可見,混合型數(shù)字人文應用平臺是解決目前數(shù)字版權問題的首選構建模式。
本文從數(shù)字人文的人文數(shù)據(jù)版權角度出發(fā)對數(shù)字人文應用平臺模式進行了研究,由于人文數(shù)據(jù)的組成復雜,其版權也存在特殊性與復雜性,對于版權風險的論述還不夠具體,有待進一步對引發(fā)版權糾紛的因素進行進一步闡述,并提出應對措施。