徐志瑋(天津理工大學圖書館)
大數(shù)據(jù)時代,人文社科研究數(shù)據(jù)量增長迅速,如何創(chuàng)新地運用基于計算的研究方法對這些數(shù)據(jù)進行智能搜索和深度解析,改變和拓寬人文社科的研究思維和方向是目前的重要課題之一。同時,網(wǎng)絡化平臺連接著世界各地的用戶,從國際化的宏觀視角探討人文社科課題,得到新的國際觀點,也是目前的重要課題。為此,本文分析了美國國家人文基金會(National Endowment for the Humanities,NEH)專為數(shù)字人文研究設立的國際合作項目“挖掘數(shù)據(jù)挑戰(zhàn)”,為我國的相關研究提供參考。
基于數(shù)字人文的大數(shù)據(jù)挖掘研究帶有明顯的應用性特點,大部分以軟件開發(fā)和升級、工具使用、算法優(yōu)化和實驗等成果為主,部分已發(fā)表在學術期刊上。本文以SCI、SSCI和中國知網(wǎng)為數(shù)據(jù)來源進行檢索,盡管不能涵蓋所有研究成果,但也能了解目前的研究現(xiàn)狀。
① 從學科分布看,國外利用歷史數(shù)據(jù)開展的實證性研究最多。Phillips MG等[1]利用數(shù)字技術和傳統(tǒng)定性研究方法,挖掘20世紀初澳大利亞婦女通過遠程方式進行閱讀的特點;Hinrichs U等[2]聯(lián)合環(huán)境歷史學家、計算語言學家和可視化專家,挖掘了四個世界知名歷史數(shù)據(jù)集中收藏的商品交易數(shù)據(jù);Linn AR[3]利用在線3D虛擬技術,繪制了挪威人移民到美國的歷史路徑;Van Eijnatten J等[4]解析了1863-1940年間荷蘭和德國出版的有關毒品、販毒和吸毒者內(nèi)容的報紙,挖掘了整個跨大西洋地區(qū)存在的毒品問題;Grubert E等[5]探討了文本挖掘分析技術在人文環(huán)境科學和國家政策相互影響方面的價值。② 從數(shù)據(jù)來源看,針對社交媒體開展的大數(shù)據(jù)挖掘是熱點之一。Hsu WF[6]以一個著名的朋克樂隊Kominas在社交媒體Myspace和Twitter上進行互動的數(shù)據(jù)為對象,研究音樂數(shù)據(jù)的地理空間可視化技術的實現(xiàn),以及數(shù)據(jù)的標注和分析。③ 從技術層面看,語義元數(shù)據(jù)成為數(shù)據(jù)挖掘的關鍵技術之一。Van Hooland S等[7]探討了“描述”等非結(jié)構化元數(shù)據(jù)在數(shù)據(jù)挖掘中的命名實體識別和術語提取方面的問題。
國外圖書館也在嘗試實驗性的實踐研究。Green HE[8]對伊利諾伊大學圖書館研發(fā)的數(shù)據(jù)挖掘軟件MONK進行實證研究,揭示人文學者使用數(shù)字工具追求創(chuàng)新研究方法的能力;Morgan EL[9]分析了將文本挖掘和其他數(shù)字人文計算技術整合到圖書館目錄和“發(fā)現(xiàn)系統(tǒng)”中的可能性。
國內(nèi)的主要研究者為圖書館館員。① 歷史學科方面,Zhu SL等[10]將地理信息系統(tǒng)應用于我國古代地方志的開發(fā)和利用,實現(xiàn)了“廣東地方志”產(chǎn)品分布歷史數(shù)據(jù)的挖掘和可視化;趙思淵[11]介紹了《中國地方歷史文獻數(shù)據(jù)庫》的元數(shù)據(jù)結(jié)構、交叉導航和數(shù)據(jù)統(tǒng)計等功能。② 古籍方面,歐陽劍[12,13]對古籍文本的數(shù)據(jù)挖掘進行了探索。③ 藝術史方面,范楨[14]利用計算機自然語言處理工具對《白石老人自傳》進行詞頻統(tǒng)計、高頻分布和語義網(wǎng)絡的細讀,確認《白石老人自傳》的核心內(nèi)容;夏翠娟等[15,16]探討了家譜和地理數(shù)據(jù)在圖書館數(shù)字人文項目的應用,以及關聯(lián)數(shù)據(jù)在家譜服務中的應用。
綜上所述,國內(nèi)外都取得了一些實踐成果。國內(nèi)基本上是以圖書館和歷史專業(yè)為主導的實踐研究,國外涉及的學科范圍更加寬泛,數(shù)據(jù)來源也更加豐富。
“挖掘數(shù)據(jù)挑戰(zhàn)”(Digging into Data Challenge,DiD)是NEH于2009年設立的一個資助數(shù)字人文研究的國際合作項目,[17]由美國、英國、加拿大、德國等11個歐美國家的18個國家級別的基金組織提供資助(見表1),基本上每兩年舉行一輪,目前已經(jīng)成功舉辦4輪,共有50個項目獲得了大額資金的支持。2016年,DiD被重新命名為“T-AP數(shù)據(jù)挖掘挑戰(zhàn)”,T-AP即根據(jù)歐盟第七框架研究與開發(fā)框架計劃(授權號613167)而建立的“跨大西洋平臺Trans-Atlantic Platform”。
DiD會在網(wǎng)站上公布已經(jīng)完成項目的最終成果白皮書(2016年獲得資助的14個項目只有標題和摘要),筆者對全部項目進行了仔細閱讀及分析。由于篇幅有限,本文只列出2016年公布的14個最新獲獎項目的名稱、合作單位和研究內(nèi)容摘要(見表2)。
表1 DiD合作國家和資助組織名稱表
2009年,DiD規(guī)定每個項目要有2個及以上國家的3個機構參與,2016年變?yōu)槊總€項目至少需要3個國家的合作。申請機構需要在國際人文社科領域有顯著的影響力,且希望項目最終能夠達到世界領先水平。如,“挖掘符號:制定針對符號語言數(shù)據(jù)進行交叉語言量化分析的標準注釋實踐”項目(Digging into Signs:Developing Standard Annotation Practices for Cross-Linguistic Quantitative Analysis of Sign Language Data)的目的在于打造世界最大的聾啞語言語料庫并制定世界標準;“挖掘生物多樣性”項目(Mining Biodiversity)對當前世界最大生物多樣性系統(tǒng)“生物多樣性文獻圖書館”(Biodiversity Heritage Library,BHL)進行升級,以期將其打造成下一代生物多樣性社會數(shù)字資源平臺;“Field Mapping:An Archival Protocol for Social Science Research Findings”項目的目標則是構建世界上最全面的全球跨學科科學發(fā)現(xiàn)的搜索引擎。
值得一提的是,“中文文本自動化數(shù)據(jù)抽取”項目 (Automating Data Extraction from Chinese Texts) 是來源于十年前由哈佛大學費正清研究中心、北京大學中國古代史中心和臺灣“中央研究院”歷史語言研究所聯(lián)合主持的“中國歷代人物傳記數(shù)據(jù)庫”的一個子課題,旨在解決數(shù)據(jù)采集、整理和轉(zhuǎn)換等方面遇到的難點。
(1)明顯的跨學科研究范式。DiD項目往往由多個學科的專家共同參與。如,“挖掘考古學數(shù)據(jù):圖像搜索和標記”項目(Digging Archaeological Data:Image Search and Marking,DADAISM)集合了考古學、圖像處理和檢索、文本挖掘技術等專家,開發(fā)了一個序列模型的人機交互系統(tǒng);“Analyzing Child Language Experiences Around the World(ACLEW)”項目由語言學、語音科學工程、計算機技術等專家參與,開發(fā)自動標注大規(guī)模嬰兒語料庫的軟件;“Understanding Opinion and Language Dynamics Using Massive Data”項目的研究團隊擁有數(shù)據(jù)科學、物理、語言學、哲學和法律等領域?qū)I(yè)人才。
表2 獲得2016年DiD資助的14個項目
(2)開拓人文社科研究的創(chuàng)新思路和方法。研究人員將數(shù)字技術運用到人文社科研究中,就是希望得到手工模式無法獲得的信息。如,“Analyzing Child Language Experiencesaround the World(ACLEW)”項目挖掘海量嬰兒語言,探討文化/跨國文化和語言之間的相互關系,并預測這種關系對嬰兒語言成長過程中所造成的影響和差異;“Cascades,Islands,or Streams?Time,Topic,and Scholarly Activities in Humanities and Social Science Research”項目挖掘社交媒體上那些被忽視、但有價值的非正式學術活動數(shù)據(jù),預測未來的創(chuàng)新研究課題;“全球趨勢:文學網(wǎng)絡文化(1050-1900)”項目 (Global Currents:Culturesof Literary Networks(1050-1900))運用圖像處理技術和社會網(wǎng)絡分析方法,研究不同文化時期的知識交流網(wǎng)絡特點,揭示世界文化的差異;“Digging by Debating”項目運用主題建模和半形式的話語分析技術,自動抽取HathiTrust學術論文中的論據(jù),并以可視化方式標識哲學和科學之間的關系。
NEH要求數(shù)字人文項目的申請者承諾免費公開研究成果。NEH認為,研究成果的開放獲取有助于其他學者開展相似研究,同時,能夠培養(yǎng)公眾的人文素養(yǎng),提高其哲學批判思維的能力。獲得DiD資助的已完成項目開發(fā)的軟件都可以免費下載,且研究者必須在項目結(jié)束后公開一份詳細說明研究成果的白皮書。如,“Trees and Tweets:Mining Billions to Understand Human Migration and Regional Linguistic Variation”項目允許公眾免費使用研發(fā)的軟件Word Mapper,并承諾會公開完整的定量數(shù)據(jù)集。
DiD是一個跨大西洋的國際合作專項基金,因此,探討歐美在文化、經(jīng)濟、法律等人文社科方面的國家級問題是其主要研究課題之一。如,“Digging into High Frequency Data:Present and Future Risks and Opportunities(Atlantis)”項目建立了一個整合的歐美股市高頻交易數(shù)據(jù)模型,以便在全球范圍內(nèi)控制股市風險;“Intelligent Search Engine for Belief Legends(ISEBEL)”項目對荷蘭、丹麥和美國三國收藏的本國最大的民間傳說數(shù)據(jù)庫進行搜索和分析,比較三國民眾在文化信仰方面的差異;“SPeech Across Dialects of English(SPADE):Large-Scale Digital Analysis of A Spoken Language across Space and Time”項目對英國、加拿大和美國三國不同的英語系語言的語音數(shù)據(jù)進行大數(shù)據(jù)分析,探討英語語言的變化規(guī)律;“Trees and Tweets:Mining Billions to Understand Human Migration and Regional Linguistic Variation”項目分析英國和美國在社交媒體上的語言變化,了解英美兩國語言變遷的形成過程和原因,以及語言變化和移民之間的關系,“Digging into Linked Parliamentary Data”項目對加拿大、荷蘭和英國的議會數(shù)據(jù)進行分析,闡述不同國家在政治和制度方面的發(fā)展和異同。
手稿、古籍和報紙等紙質(zhì)資源是人文社科研究中最有價值的紙本資源,也是DiD項目的主要數(shù)據(jù)來源。如,“An Epidemiology of Information:Data Mining the 1918 Influenza Pandemic,”項目對美國國會圖書館和阿爾伯塔省圖書館收藏的1918年發(fā)表的有關西班牙流感疫情的100多份報刊進行數(shù)據(jù)挖掘,探索疾病和信息傳播之間的關系;“Digging into the Enlightenment:Mapping the Republic of Letters”項目對18世紀以紙質(zhì)信件進行通訊的數(shù)據(jù)進行分析,得到知識史網(wǎng)絡圖,并解析知識傳播的軌跡;“Oceanic Exchanges:Tracing Global Information Networks in Historical Newspaper Repositories,1840-1914(OcEx)”項目對 1840-1914年,美國、德國、墨西哥、芬蘭、英國、荷蘭六國報紙上的消息、流行信息、詩歌和小說等內(nèi)容進行大數(shù)據(jù)分析,探索文化的世界傳播特點。
除了對紙本資源進行數(shù)據(jù)挖掘,DiD還非常重視兩類網(wǎng)絡資源的研究:學術數(shù)據(jù)庫和網(wǎng)絡化社交媒體。
數(shù)字圖書館、檔案館和博物館是創(chuàng)建、存儲、管理和保存學術性數(shù)字數(shù)據(jù)的重要平臺,是數(shù)據(jù)挖掘的重要數(shù)據(jù)來源,DiD一直鼓勵申請者對這些重要的且已經(jīng)數(shù)字化的數(shù)據(jù)庫進行深度挖掘。為此,DiD專門在網(wǎng)站上發(fā)布了重要數(shù)據(jù)倉庫的列表:ARTstor、Biodiversity Heritage Library、 JSTOR、 National Library of Medicine(NLM)、National Science Digital Library(NSDL)、National Technical Information Service(NTIS)、Pro ject MUSE等。如,“Digging by Debating”項目以Hathi Trust Digital Library收藏的數(shù)字資源為數(shù)據(jù)來源;“Integrating Data Mining and Data Management Technologies for Scholarly Inquiry”項目對JSTOR進行分析;“Mining Biodiversity”項目對Biodiversity Heritage Library平臺進行升級改造;“THEMIS.COG:Theoretical and Empirical Modeling of Identity and Sentiments in Collaborative Groups”項目對世界上最大的社交編程和托管平臺GitHub的用戶進行研究,“Dig That Lick:Analysing Large-Scale Data for Melodic Patternsin Jazz Performances”項目對世界知名爵士樂數(shù)據(jù)庫開展跨學科的音樂分析。
社交媒體是最大的公眾在線交流平臺,對這些大數(shù)據(jù)進行用戶行為研究,能從公眾視角分析世界格局。DiD主要采用三種研究方法。① 傳統(tǒng)媒體和社交媒體的比較研究?!癠nderstanding Opinion and Language Dynamics Using Massive Data”項目比較了傳統(tǒng)雜志《紐約時報》和新型在線媒體Twitter上發(fā)表的政治新聞數(shù)據(jù),探討大數(shù)據(jù)信息環(huán)境改變?nèi)祟惖幕顒?、行為和決策過程,尤其是意見擴散和語言演變的軌跡。② 專業(yè)學者的用戶研究。“Digging by Debating”項目對學術書目數(shù)據(jù)庫和專家撰寫的綜述論文進行研究,分析學者在跨學科研究方面的行為特點;“Cascades,Islands,or Streams?Time,Topic,and Scholarly Activities in Humanities and Social Science Research”項目探討了學者使用Twitter社交媒體開展非正式學術活動的特點,探討社交媒體對學術研究的影響。③ 一般公眾的用戶行為研究。“Treesand Tweets:Mining Billionsto Understand Human Migration and Regional Linguistic Variation”項目比較了美國和英國公眾利用Twitter的語言差異,探討語言和移民之間的關系。
目前,國內(nèi)還沒有一個國家級別的數(shù)字人文資助機構,沒有統(tǒng)一的宏觀布局,缺乏國際合作的條件和資金支持。國家自然科學基金委員會在2015年設立了“大數(shù)據(jù)驅(qū)動的管理與決策研究”重大研究基金,2017年該基金在指南中指出:“在大數(shù)據(jù)背景下,傳統(tǒng)的管理與決策正從以管理流程為主的線性范式逐漸向以數(shù)據(jù)為中心的扁平化范式轉(zhuǎn)變,管理與決策中各參與方的角色和相關信息流向更趨于多元和交互”,[18]這說明,國家已經(jīng)意識到大數(shù)據(jù)研究的重要性,只是該基金主要面向自然科學研究領域。筆者也查詢過國家人文社科基金,有關數(shù)字人文和大數(shù)據(jù)的項目近年來增長較快,但是還沒有基于人文社科的數(shù)據(jù)挖掘?qū)嵺`內(nèi)容的基金立項,更沒有國際合作項目。為此,需從國家層面進行宏觀規(guī)劃,建立國際合作專項基金,有效利用全球的數(shù)字資源,打造國際化的創(chuàng)新團隊,增強國家層面的人文社科研究實力。
數(shù)據(jù)挖掘研究一般以實踐應用為目標,軟件是最普遍的研究成果,如何對這種成果進行學術評價,國內(nèi)還沒有一套完善的評價標準,也就難以鼓勵研究者開展相關的實踐探索。2017年9月,浙江大學頒布了《優(yōu)秀網(wǎng)絡文化成果認定實施辦法(試行)》,提出將優(yōu)秀網(wǎng)絡文化成果納入學??蒲谐晒y(tǒng)計、各類晉升評聘和評獎評優(yōu)范圍,但這也只是少數(shù)高校的嘗試性做法,還未普及,不足以激勵技術人員和人文社科研究者的合作意向。因此,需要改變國內(nèi)學術評價機制,并鼓勵跨學科的研究者開展創(chuàng)新性實踐探索。
數(shù)字資源的長期保存、復用和增值日益受到學術界的重視。數(shù)據(jù)挖掘研究勢必產(chǎn)生大量計算生成的非線性、多維度的“大數(shù)據(jù)”,需要對這些數(shù)據(jù)進行合理的管護。美國國立衛(wèi)生研究院要求,2003年開始,申請經(jīng)費在50萬美元以上的申請者必須提交一份數(shù)據(jù)共享管理計劃;美國國家科學基金會在2011年要求申請者提交“數(shù)據(jù)管理計劃”;[19]NEH在資助數(shù)字人文項目時,明確提出申請者需要附上2頁的“數(shù)據(jù)管理計劃”。在數(shù)據(jù)管護越來越受到重視的學術研究背景下,國內(nèi)基金管理部門應積極設立類似的數(shù)據(jù)保護計劃。
開放獲取模式對培養(yǎng)公眾的人文素養(yǎng)有積極作用,基于數(shù)字人文的數(shù)據(jù)挖掘項目往往涉及公眾的文化、生活、經(jīng)濟、法律等內(nèi)容,這些研究成果對公眾開放,可以提高公眾對人文社科問題的批判思維能力,也能了解公眾對這些問題的認知程度,還能掌握學者和公眾對這些問題的理解差異。同時,對人文社科學者也有幫助。大部分數(shù)據(jù)挖掘項目的研究成果是軟件和工具,這些成果可以幫助其他學者分析數(shù)據(jù),而無需投入精力開發(fā)系統(tǒng),起到了事半功倍的效果。
網(wǎng)絡時代,圖書館需要把數(shù)字資源的管護納入自己的服務范圍。數(shù)字人文研究讓數(shù)據(jù)管護工作變得更加重要,尤其是人文社科研究者經(jīng)常使用計算建模方法開展數(shù)字人文研究,會產(chǎn)生很多數(shù)據(jù),對這些數(shù)據(jù)進行合理的存檔、保存、監(jiān)護和管理,是圖書館參與數(shù)字人文實踐研究的一個重要職責。另外,圖書館一直承擔著信息素養(yǎng)的培訓工作,有豐富經(jīng)驗。大數(shù)據(jù)時代,數(shù)據(jù)素養(yǎng)教育可以作為圖書館的一個服務方向。首先,對館員進行數(shù)據(jù)素養(yǎng)教育,鼓勵館員學習信息技術知識,有條件的圖書館可以設立數(shù)據(jù)館員職位,與其他專業(yè)的學者進行數(shù)據(jù)管護合作;其次,對人文社科研究者和公眾進行數(shù)據(jù)素養(yǎng)培訓,幫助用戶提高數(shù)據(jù)管護的能力。另外,高校圖書館還可以拓寬學科服務范圍,如搜集整理學科科研數(shù)據(jù)、分析學科的學術發(fā)展態(tài)勢等。
社交網(wǎng)絡平臺是目前大數(shù)據(jù)研究的重要數(shù)據(jù)來源。社交媒體將人類信息傳播的速度帶入了一個嶄新的時代,也為人文社科研究貢獻了大量的網(wǎng)絡數(shù)據(jù)。為此,圖書館可以拓寬以下兩方面的研究。①社交媒體環(huán)境下的學術性評價研究。目前,大量學術活動通過社交媒體進行傳播,這些數(shù)據(jù)能洞察創(chuàng)新性學術內(nèi)容的最初端倪,屬于有學術價值的早期指標。但是,至今還沒有太多的科學證據(jù)對此予以證明。因此,對于社交媒體產(chǎn)生的非正式性學術傳播數(shù)據(jù)進行學術性評價研究,可以在一定程度上成為網(wǎng)絡資源評價機制的依據(jù)。② 社交媒體情景下的公眾輿情研究。公眾利用社交媒體發(fā)表大量有關人文社科問題的數(shù)據(jù),社交媒體成為學者和公眾知識分享的平臺。通過數(shù)據(jù)挖掘,可以獲得公眾對人文社科問題的認知,掌握學者與公眾在人文社科問題理解上的差異。
同時,圖書館也要加強對已有數(shù)字語料庫的研究。開放獲取數(shù)據(jù)庫、企業(yè)數(shù)據(jù)庫、數(shù)字圖書館、檔案館和博物館等都保存了大量有學術價值的數(shù)字資源,圖書館不僅要對這些資源進行合理管理,還需要加強對這些數(shù)據(jù)的分析研究,開展知識發(fā)現(xiàn)的咨詢服務和情報分析。為此,圖書館主管部門可以列出一些高質(zhì)量的數(shù)字語料庫,尤其是具有中國特色的語料庫,鼓勵人文社科專家、計算機專家和圖書館等合作開展數(shù)字人文挖掘研究。
目前,圖書館與信息技術的關系越來越緊密,圖書館的技術人員和管理者需要了解數(shù)字技術的內(nèi)容和發(fā)展趨勢,才能更好地開展創(chuàng)新的服務工作。筆者對DiD項目運用的數(shù)字技術進行歸類,發(fā)現(xiàn)常用的技術包括文本挖掘、機器學習、數(shù)據(jù)模型、聚類、神經(jīng)機器翻譯、光學字符識別、可視化、圖像處理技術、地理信息系統(tǒng)和關聯(lián)數(shù)據(jù)等,機器學習技術中的自然語言處理和自動語義標注是關鍵技術。這些技術的專業(yè)性很強,圖書館需要與專業(yè)人員開展合作才能開展數(shù)字人文研究。同時,圖書館可以在元數(shù)據(jù)技術方面開展研究,如,元數(shù)據(jù)的自動標注技術、異構元數(shù)據(jù)的互操作技術、關聯(lián)數(shù)據(jù)技術等。