岑炅蓮 歐陽(yáng)劍 曾輝
摘 ? 要:數(shù)據(jù)驅(qū)動(dòng)研究成為人文學(xué)科研究的主流,數(shù)據(jù)是數(shù)字人文項(xiàng)目實(shí)施的基礎(chǔ)和核心之一。文章分析了新網(wǎng)絡(luò)環(huán)境下數(shù)字人文數(shù)據(jù)眾包的概念和現(xiàn)狀,從數(shù)據(jù)眾包發(fā)起者的角度出發(fā)論述了數(shù)據(jù)眾包項(xiàng)目的運(yùn)作模式及任務(wù),并針對(duì)性地提出數(shù)字人文數(shù)據(jù)眾包的實(shí)施方式、數(shù)據(jù)管理、質(zhì)量管理、激勵(lì)政策、誠(chéng)信問(wèn)題和成果發(fā)布及版權(quán)等問(wèn)題的應(yīng)對(duì)策略。研究認(rèn)為,數(shù)字人文數(shù)據(jù)眾包對(duì)人文數(shù)據(jù)的建設(shè)是有益的補(bǔ)充,數(shù)據(jù)眾包給數(shù)字人文工作提供了數(shù)據(jù)化的平臺(tái)和工具,數(shù)字人文數(shù)據(jù)眾包可以加深公眾對(duì)文化和歷史的理解。
關(guān)鍵詞:數(shù)字人文;數(shù)據(jù)眾包;人文數(shù)據(jù);眾包策略
中圖分類號(hào):G255 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? DOI:10.11968/tsyqb.1003-6938.2020090
Abstract Data-driven research becomes the mainstream of humanities research. And data is one of the foundation and core of digital humanities project implementation. This paper analyses the concept and status of data crowdsourcing in digital humanities research under new network environment. From the perspective of data crowdsourcing initiators, this paper analyses the operation mode and tasks of data crowdsourcing, and proposes the corresponding strategies for implementation methods, data management, quality management, incentive policies, integrity issues, achievement publication and copyright issues of digital humanities data crowdsourcing. Digital humanities data crowdsourcing is a useful supplement to the construction of humanities data. Data crowdsourcing provides data platform and tool for digital humanities work. Digital humanities data crowdsourcing deepens the public's understanding of culture and history.
Key words digital humanities; data crowdsourcing; humanities data; cowdsourcing strategies
1 ? 引言
數(shù)字人文是充分運(yùn)用計(jì)算機(jī)技術(shù)開(kāi)展的合作性、跨學(xué)科的研究、教學(xué)與出版的新型學(xué)術(shù)模型和組織形式[1]。數(shù)字人文最顯著的特點(diǎn)就是借助計(jì)算機(jī)進(jìn)行量化分析,數(shù)據(jù)是數(shù)字人文項(xiàng)目實(shí)施的基礎(chǔ)和核心之一,數(shù)據(jù)驅(qū)動(dòng)研究成為人文學(xué)科研究的主流。目前大部分人文數(shù)據(jù)由圖書(shū)館和數(shù)據(jù)供應(yīng)商所擁有,由于人文數(shù)據(jù)建設(shè)需要花費(fèi)大量的時(shí)間及經(jīng)費(fèi),因此學(xué)者能自由使用的人文數(shù)據(jù)非常有限,人文數(shù)據(jù)匱乏已成為數(shù)字人文研究者的共識(shí)。面對(duì)人文數(shù)據(jù)匱乏的局面,近年來(lái),數(shù)字人文研究者嘗試了多種人文數(shù)據(jù)建設(shè)的方式,數(shù)據(jù)眾包就是幫助數(shù)字人文研究者獲取人文數(shù)據(jù)的有效方式之一。
隨著信息技術(shù)的發(fā)展,新的網(wǎng)絡(luò)環(huán)境不斷演進(jìn),形成了一個(gè)分散式共享、合作和傳播的全球化、網(wǎng)絡(luò)化的世界。在新的網(wǎng)絡(luò)環(huán)境下,公眾通過(guò)社交互動(dòng)、參與式的知識(shí)創(chuàng)造形式來(lái)表達(dá)他們的需求。然而,目前對(duì)于數(shù)字人文類眾包項(xiàng)目的研究側(cè)重于用戶參與數(shù)字人文眾包的意愿、績(jī)效影響因素、運(yùn)作流程和平臺(tái),缺少對(duì)人文數(shù)據(jù)特點(diǎn)的分析,數(shù)據(jù)眾包的整體運(yùn)作策略研究較少,對(duì)數(shù)據(jù)眾包過(guò)程中負(fù)面問(wèn)題的解決策略研究也相對(duì)匱乏。因此有必要對(duì)數(shù)字人文數(shù)據(jù)眾包的運(yùn)作策略進(jìn)行研究,了解新網(wǎng)絡(luò)環(huán)境下數(shù)字人文數(shù)據(jù)眾包的主要任務(wù),分析數(shù)據(jù)眾包發(fā)起者如何選擇實(shí)施方式、實(shí)施平臺(tái)和任務(wù)發(fā)布方式,以及對(duì)運(yùn)行管理、成果管理中可能遇到的問(wèn)題提出應(yīng)對(duì)策略,從而為今后的數(shù)字人文數(shù)據(jù)眾包項(xiàng)目提供一定的借鑒意義。
2 ? 數(shù)字人文數(shù)據(jù)眾包的概念和研究現(xiàn)狀
2.1 ? ?數(shù)字人文數(shù)據(jù)眾包的概念
杰夫·豪[2]于2006年6月在《連線》雜志的一篇文中首次正式提出“眾包”一詞,并指出眾包是一個(gè)公司或機(jī)構(gòu)將過(guò)去由員工執(zhí)行的工作任務(wù)以自由自愿的形式外包給非特定(通常是大型的)大眾網(wǎng)絡(luò)的做法。眾包是利用大型在線社區(qū)對(duì)特定任務(wù)進(jìn)行創(chuàng)建內(nèi)容或收集想法的實(shí)踐,它是互聯(lián)網(wǎng)技術(shù)關(guān)鍵文化轉(zhuǎn)變的產(chǎn)物,也適用于數(shù)字人文的數(shù)據(jù)眾包項(xiàng)目。
數(shù)字人文數(shù)據(jù)眾包是一種創(chuàng)新實(shí)踐活動(dòng),它根據(jù)數(shù)字人文項(xiàng)目的需要,采用大眾共建的方式,實(shí)現(xiàn)定制化的數(shù)據(jù)獲取與數(shù)據(jù)加工方案設(shè)計(jì)與執(zhí)行服務(wù),為數(shù)字人文項(xiàng)目提供標(biāo)準(zhǔn)化、結(jié)構(gòu)化的可用數(shù)據(jù),其中數(shù)據(jù)采集及數(shù)據(jù)標(biāo)注的類型涵蓋文本、圖像、音頻、視頻、網(wǎng)頁(yè)等。數(shù)字人文項(xiàng)目的主要工作量消耗在數(shù)據(jù)處理上,僅僅依靠有限的項(xiàng)目人員無(wú)法完成大規(guī)模數(shù)據(jù)整理、加工及組織工作,因此有必要利用大眾智慧進(jìn)行數(shù)據(jù)眾包來(lái)共同完成數(shù)字人文項(xiàng)目研究。
2.2 ? ?數(shù)字人文數(shù)據(jù)眾包的研究現(xiàn)狀
學(xué)術(shù)領(lǐng)域的眾包可以稱為公眾科學(xué),目前公眾科學(xué)研究引起不少學(xué)者關(guān)注。而數(shù)字人文類眾包屬于公眾科學(xué)的一種,研究主要集中在四個(gè)方面:(1)用戶參與數(shù)字人文眾包的意愿和影響因素研究。如張軒慧等[3]通過(guò)S-O-R理論構(gòu)建公眾參與數(shù)字人文類眾包動(dòng)因的實(shí)證模型,提出志愿者的感知有用性、自我效能、娛樂(lè)享受和使命感是參與眾包的主要?jiǎng)訖C(jī);Seitsonen和Oula[4]通過(guò)對(duì)芬蘭的文化遺產(chǎn)機(jī)構(gòu)的眾包案例分析發(fā)現(xiàn)用戶的自我滿足感是主要參與動(dòng)機(jī);(2)數(shù)字人文眾包績(jī)效的影響因素研究。如韓文婷等[5]提出任務(wù)復(fù)雜度和領(lǐng)域知識(shí)水平是影響數(shù)字人文類眾包任務(wù)績(jī)效的主要原因;(3)數(shù)字人文眾包的運(yùn)作流程研究。如趙宇翔[6]在傳統(tǒng)的眾包活動(dòng)的三個(gè)主體(發(fā)包方、平臺(tái)和接包方)基礎(chǔ)上加入第三方組織機(jī)構(gòu),構(gòu)建矩陣式項(xiàng)目管理機(jī)制,指出公眾科學(xué)項(xiàng)目運(yùn)作基本流程包含八個(gè)行動(dòng);Oomen和Aroyo[7]利用數(shù)字內(nèi)容生命周期模型提出了數(shù)字人文領(lǐng)域眾包的運(yùn)行包括篩選、創(chuàng)造、管理、發(fā)現(xiàn)、使用和保存;(4)數(shù)字人文眾包平臺(tái)研究。如肖奕[8]以數(shù)字人文項(xiàng)目在線合作平臺(tái)DHCOMMONS為例,提出資助機(jī)構(gòu)、學(xué)科領(lǐng)域、隸屬機(jī)構(gòu)、合作類型與合作者類型影響數(shù)字人文項(xiàng)目合作平臺(tái)的發(fā)展。
綜上所述,目前學(xué)者對(duì)于數(shù)字人文類眾包研究主要集中在公眾參與意愿、績(jī)效影響因素、運(yùn)作流程和平臺(tái)方面,然而缺少對(duì)于人文數(shù)據(jù)的分析,以及人文數(shù)據(jù)如何進(jìn)行眾包,人文數(shù)據(jù)眾包過(guò)程中可能出現(xiàn)的數(shù)據(jù)管理、質(zhì)量管理、激勵(lì)政策、誠(chéng)信和版權(quán)等問(wèn)題和障礙提出的應(yīng)對(duì)策略研究較少。因此有必要對(duì)數(shù)字人文數(shù)據(jù)眾包的運(yùn)作策略進(jìn)行研究。
3 ? 數(shù)字人文數(shù)據(jù)眾包主要任務(wù)
數(shù)字人文項(xiàng)目中的人文數(shù)據(jù)具有的特點(diǎn)及人文學(xué)者研究對(duì)人文數(shù)據(jù)的需求構(gòu)成了人文數(shù)據(jù)組織及重構(gòu)的基本要素,其中主要有人文數(shù)據(jù)的完整性、可計(jì)算性、可用性及重用性、可發(fā)現(xiàn)及獲得性等[9]。數(shù)字人文項(xiàng)目對(duì)人文數(shù)據(jù)提出了獨(dú)特的要求,人文數(shù)據(jù)的構(gòu)建很大程度上由學(xué)科規(guī)范和方法論所決定,人文數(shù)據(jù)的組織通常需要有人文素養(yǎng)的介入,即需要了解人文數(shù)據(jù)特點(diǎn)及符合人文學(xué)者研究的需求才能確保人文數(shù)據(jù)的有效性。
開(kāi)展數(shù)字人文數(shù)據(jù)眾包,首先要從人文數(shù)據(jù)研究者的需要去界定任務(wù)類型,不同的數(shù)字人文研究者或研究機(jī)構(gòu)有不同的數(shù)據(jù)眾包需求,Oomen和Aroyo[7]從文化遺產(chǎn)機(jī)構(gòu)的大量眾包實(shí)踐中,提出了美術(shù)館、圖書(shū)館、檔案館及博物館(GLAMs)存在校正和轉(zhuǎn)錄任務(wù)、語(yǔ)境化、補(bǔ)充收藏、分類、聯(lián)合策展、眾籌等六種眾包類型。借助數(shù)據(jù)生命周期模型可以幫助我們更好地理解數(shù)字人文數(shù)據(jù)眾包不同階段的活動(dòng)。典型的數(shù)據(jù)生命周期模型包括數(shù)據(jù)的創(chuàng)建/收集、描述、存儲(chǔ)、發(fā)現(xiàn)、分析和重用[10]。目前,在數(shù)字人文數(shù)據(jù)眾包實(shí)踐活動(dòng)中,多數(shù)志愿者參與了人文數(shù)據(jù)的創(chuàng)建/收集和描述工作,其可以利用數(shù)字人文研究者提供的原始人文資料進(jìn)行人文數(shù)據(jù)的創(chuàng)建,或者自行提供原始人文資料,并轉(zhuǎn)化為完整的人文數(shù)據(jù),此外他們還積極利用Web2.0技術(shù)對(duì)一些人文資料進(jìn)行標(biāo)簽化或者評(píng)論,從而為數(shù)字人文項(xiàng)目提供元數(shù)據(jù)。這些工作可以分別對(duì)應(yīng)轉(zhuǎn)錄校正型任務(wù)、補(bǔ)充收集型任務(wù)和標(biāo)記分類型任務(wù)。而存儲(chǔ)、發(fā)現(xiàn)、分析和重用工作往往由數(shù)字人文數(shù)據(jù)眾包的發(fā)起者或平臺(tái)執(zhí)行,隨著數(shù)字人文數(shù)據(jù)眾包實(shí)踐的不斷發(fā)展,未來(lái)志愿者可以參與更深層次的人文數(shù)據(jù)管理。
3.1 ? ?轉(zhuǎn)錄校正型任務(wù)
轉(zhuǎn)錄校正型任務(wù)是最受歡迎的數(shù)據(jù)眾包任務(wù)之一,它對(duì)已有的大量人文資料進(jìn)行人工轉(zhuǎn)錄和校正,從而創(chuàng)建可供數(shù)字人文項(xiàng)目所需的集成化、細(xì)?;?、關(guān)聯(lián)化及可計(jì)算化的數(shù)據(jù)。雖然光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition,OCR)可以通過(guò)電子設(shè)備檢查紙上打印的字符,然后將形狀翻譯成計(jì)算機(jī)文字[11]。但它只針對(duì)印刷體字符,對(duì)掃描的圖像有很高的質(zhì)量要求,然而一些手稿、照片、古籍等無(wú)法通過(guò)OCR識(shí)別技術(shù)獲得準(zhǔn)確率高的可計(jì)算文本數(shù)據(jù)。因此,可以將無(wú)法OCR識(shí)別或OCR識(shí)別準(zhǔn)確率較低的圖像信息通過(guò)大量人工干預(yù)的方式轉(zhuǎn)錄、校正成數(shù)字人文項(xiàng)目所需的人文數(shù)據(jù)。邊沁手稿轉(zhuǎn)錄項(xiàng)目利用對(duì)手稿轉(zhuǎn)錄有興趣的志愿者對(duì)哲學(xué)家邊沁的手稿進(jìn)行人工轉(zhuǎn)錄,建立可搜索的數(shù)據(jù)庫(kù)[12]。美國(guó)史密森尼轉(zhuǎn)錄中心為志愿者提供19個(gè)博物館和檔案館的材料進(jìn)行轉(zhuǎn)錄[13]。上海圖書(shū)館歷史文獻(xiàn)眾包中心開(kāi)展的盛宣懷檔案抄錄項(xiàng)目,選取盛宣懷檔案中與辛亥革命相關(guān)的信函、電報(bào)、公牘、奏折等若干,以供抄錄[14]。澳大利亞國(guó)家圖書(shū)館借助專門的數(shù)字資源呈現(xiàn)系統(tǒng),招募志愿者對(duì)數(shù)字化了的1803-1954年間沒(méi)有版權(quán)的歷史報(bào)紙進(jìn)行校正,以提高文本質(zhì)量[15]。
3.2 ? ?補(bǔ)充收集型任務(wù)
補(bǔ)充收集型任務(wù)是在缺少現(xiàn)有人文資料的情況下,通過(guò)志愿者收集可參考的人文數(shù)據(jù),一般志愿者可以在日常生活中獲取這些數(shù)據(jù),從而保證項(xiàng)目數(shù)據(jù)的完備性。紐約公共圖書(shū)館開(kāi)展“建筑檢查員”(Building Inspector)項(xiàng)目,利用公民在日常環(huán)境中尋找舊地圖所需的數(shù)據(jù),并提交紐約公共圖書(shū)館的數(shù)據(jù)庫(kù)中[16]。上海圖書(shū)館家譜知識(shí)服務(wù)平臺(tái)支持用戶貢獻(xiàn)內(nèi)容的形式,吸引眾多網(wǎng)絡(luò)用戶撰寫(xiě)反饋家譜信息,平臺(tái)不斷更新,使數(shù)據(jù)在使用過(guò)程中增值[17]。
3.3 ? ?標(biāo)記分類型任務(wù)
標(biāo)記分類型任務(wù)要求志愿者利用元數(shù)據(jù)描述數(shù)字化信息資源的屬性,通過(guò)添加標(biāo)簽、評(píng)論的方式,評(píng)價(jià)、追蹤資源,協(xié)助數(shù)據(jù)有效檢索。視頻是人文研究中較為復(fù)雜的資料,獲取它的內(nèi)容信息較為困難。紐約公共圖書(shū)館引入用戶標(biāo)簽系統(tǒng),通過(guò)志愿者瀏覽口述歷史視頻,從菜單中選擇關(guān)鍵詞,將標(biāo)簽映射到視頻中的時(shí)間碼,同時(shí)可以對(duì)缺失的字幕視頻進(jìn)行標(biāo)記,此外還可以將非英語(yǔ)視頻翻譯成英文字幕視頻[18]。英國(guó)國(guó)家檔案館開(kāi)展“戰(zhàn)爭(zhēng)日記”項(xiàng)目,希望志愿者對(duì)第一次世界大戰(zhàn)英國(guó)士兵的日記進(jìn)行標(biāo)記和分類[19],志愿者可以從受控詞表中選擇關(guān)鍵詞進(jìn)行標(biāo)記。豆瓣網(wǎng)則允許用戶對(duì)圖書(shū)、電影、音樂(lè)等添加標(biāo)簽、評(píng)分,從而獲得圖書(shū)、電影的關(guān)鍵詞信息,并用這些信息改善網(wǎng)站的推薦效果。
由于不同任務(wù)對(duì)于志愿者專業(yè)水平要求和限定完成時(shí)間不同,三種類型的數(shù)據(jù)眾包任務(wù)難易度不同(見(jiàn)表1)。其中,轉(zhuǎn)錄校正型任務(wù)通常要求轉(zhuǎn)錄者具有轉(zhuǎn)錄內(nèi)容的背景知識(shí),如“籍合網(wǎng)”招募校正古籍的志愿者時(shí),要求志愿者實(shí)名注冊(cè),具有文史哲相關(guān)專業(yè)及背景,并有古籍整理的經(jīng)驗(yàn),這類轉(zhuǎn)錄校正任務(wù)通常消耗的時(shí)間較長(zhǎng)。補(bǔ)充收集型任務(wù)雖然要求志愿者對(duì)某方面研究具有一定的了解,但通過(guò)項(xiàng)目發(fā)起者的培訓(xùn)或者志愿者自我學(xué)習(xí),可以較快掌握任務(wù)操作流程。而大多數(shù)標(biāo)記分類型任務(wù)不需要志愿者具備專深的背景知識(shí),他們可以注冊(cè)登錄,也可以匿名訪問(wèn),一般標(biāo)記、分類和評(píng)論不會(huì)花費(fèi)志愿者太長(zhǎng)的時(shí)間。
4 ? 數(shù)字人文數(shù)據(jù)眾包策略
傳統(tǒng)的眾包運(yùn)作流程包括3個(gè)階段:任務(wù)準(zhǔn)備、任務(wù)執(zhí)行和任務(wù)答案整合。其中任務(wù)準(zhǔn)備階段包括:發(fā)起者設(shè)計(jì)任務(wù)、發(fā)布任務(wù),志愿者選擇任務(wù);任務(wù)執(zhí)行階段包括:志愿者接收任務(wù)、解答任務(wù)、提交答案;任務(wù)答案整合階段包括:發(fā)起者接收/拒絕答案、整合答案[20]。數(shù)字人文領(lǐng)域數(shù)據(jù)眾包主要由數(shù)據(jù)眾包發(fā)起者、志愿者和平臺(tái)這三個(gè)主體組成,三個(gè)主體之間相互制約、相互影響,共同推動(dòng)數(shù)據(jù)眾包的運(yùn)行(見(jiàn)圖1)。從數(shù)據(jù)眾包發(fā)起者的角度來(lái)說(shuō),需要考慮發(fā)起者在數(shù)據(jù)眾包的前期、中期和后期的主要工作,將數(shù)據(jù)眾包的運(yùn)作流程分為數(shù)據(jù)眾包設(shè)計(jì)、數(shù)據(jù)眾包運(yùn)行管理、數(shù)據(jù)眾包成果管理[21]。其中,數(shù)據(jù)眾包設(shè)計(jì)包括界定任務(wù)類型,選擇任務(wù)實(shí)施方式、選擇平臺(tái)和發(fā)布任務(wù);數(shù)據(jù)眾包運(yùn)行管理則需解決數(shù)據(jù)管理、質(zhì)量管理、激勵(lì)政策和誠(chéng)信倫理等問(wèn)題;數(shù)據(jù)眾包成果管理對(duì)版權(quán)和成果發(fā)布問(wèn)題進(jìn)行討論。
4.1 ? ?數(shù)字人文數(shù)據(jù)眾包實(shí)施方式選擇
傳統(tǒng)的眾包模式主要包括眾包競(jìng)賽和協(xié)作社區(qū)兩種類型[22]。數(shù)據(jù)眾包項(xiàng)目的最終目的是為了解決數(shù)字人文項(xiàng)目的數(shù)據(jù)短缺問(wèn)題,而解決問(wèn)題可以有唯一最優(yōu)解和無(wú)窮多最優(yōu)解,分別對(duì)應(yīng)著眾包競(jìng)賽和協(xié)作社區(qū)。
眾包競(jìng)賽以比賽競(jìng)爭(zhēng)的形式對(duì)人文數(shù)據(jù)進(jìn)行眾包,發(fā)起者根據(jù)不同參與者的解決方案,進(jìn)行排名并對(duì)最佳解決方案發(fā)放獎(jiǎng)勵(lì),它強(qiáng)調(diào)解決方案的優(yōu)選性,主要由外部動(dòng)機(jī)即項(xiàng)目發(fā)起者所推動(dòng),采取自上而下的組織方式[23]。InnoCentive眾包創(chuàng)新平臺(tái)把需要解決的眾包任務(wù)標(biāo)準(zhǔn)化成一個(gè)或若干個(gè)競(jìng)賽,并提出優(yōu)勝的標(biāo)準(zhǔn),每個(gè)項(xiàng)目的獎(jiǎng)金額度為5000美元至100萬(wàn)美元不等[24]。2018年南京大學(xué)信息管理學(xué)院和上海圖書(shū)館歷史文獻(xiàn)眾包中心聯(lián)合開(kāi)展了文化遺產(chǎn)數(shù)字化競(jìng)賽,參賽者選取盛宣懷檔案中進(jìn)行抄錄,經(jīng)過(guò)專家審核評(píng)分,共17個(gè)團(tuán)隊(duì)獲獎(jiǎng)[25]。
眾包協(xié)作社區(qū)則是在一個(gè)和諧的環(huán)境內(nèi)允許志愿者提交的不同解決方案同時(shí)存在,它強(qiáng)調(diào)解決方案的聚合性,主要由內(nèi)部動(dòng)機(jī)即志愿者所推動(dòng),采取自下而上的組織方式[23],維基百科是利用協(xié)作社區(qū)進(jìn)行數(shù)據(jù)眾包的典型例子。維基百科將多名貢獻(xiàn)者的成果進(jìn)行編排,整合成一個(gè)連貫的整體,實(shí)現(xiàn)價(jià)值的創(chuàng)造,通過(guò)自動(dòng)化流程來(lái)協(xié)調(diào)和整合大眾的編輯工作,跟蹤所有的改動(dòng),由于維基百科大眾規(guī)模龐大,任何一條詞條都需經(jīng)過(guò)多重人員的審查,從而保障了內(nèi)容質(zhì)量,由此可見(jiàn),協(xié)作社區(qū)最適用于解決編排相對(duì)簡(jiǎn)單的項(xiàng)目,大眾協(xié)作依靠廣泛的任務(wù)模塊化、標(biāo)準(zhǔn)化程序和技術(shù)來(lái)實(shí)現(xiàn)合作的順暢。
因此,數(shù)字人文數(shù)據(jù)眾包任務(wù)發(fā)起者應(yīng)該根據(jù)所需的數(shù)據(jù)解決方案而選擇合適的數(shù)據(jù)眾包實(shí)施方式(見(jiàn)表2),以獲取符合人文學(xué)者研究的人文數(shù)據(jù)。在數(shù)字人文的數(shù)據(jù)眾包中任務(wù)難度較大的轉(zhuǎn)錄校正型眾包任務(wù)可以通過(guò)眾包競(jìng)賽的方式實(shí)施,獲取解決眾包任務(wù)的最優(yōu)方案。而對(duì)于任務(wù)難度較小的標(biāo)記分類型任務(wù)、補(bǔ)充收集型任務(wù)則適合采用協(xié)作社區(qū)的方法,一方面不必花費(fèi)過(guò)多的精力設(shè)計(jì)專項(xiàng)眾包平臺(tái),另一方面,協(xié)作社區(qū)以多元化的屬性,整合盡可能多的成果。
4.2 ? ?數(shù)字人文數(shù)據(jù)眾包平臺(tái)選擇及任務(wù)發(fā)布
眾包任務(wù)的發(fā)布和數(shù)據(jù)的收集是通過(guò)眾包平臺(tái)來(lái)完成的。數(shù)字人文數(shù)據(jù)眾包的平臺(tái)主要分為三大類[6,21]:一是項(xiàng)目發(fā)起者設(shè)計(jì)的專項(xiàng)平臺(tái),這類數(shù)據(jù)眾包平臺(tái)雖然前期耗費(fèi)一定的時(shí)間與精力設(shè)計(jì),但是它能較好地保障項(xiàng)目的專業(yè)性和數(shù)據(jù)的完整性,有利于多維性數(shù)據(jù)的收集與數(shù)據(jù)之間關(guān)聯(lián)的建立;二是Facebook、Twitter、微博、校內(nèi)論壇等社交媒體平臺(tái),這類平臺(tái)收集到的人文數(shù)據(jù)雜亂且碎片化,但是可以節(jié)約項(xiàng)目經(jīng)費(fèi),快速部署,對(duì)參與者的門檻較低,成果傳播范圍更廣;三是商用的眾包平臺(tái),如國(guó)外的Amazon Mechanical Turk、CloudCrowd、InnoCentive等,國(guó)內(nèi)的豬八戒、腦力庫(kù)、三打哈等,這類平臺(tái)有豐富的眾包經(jīng)驗(yàn),可以縮短項(xiàng)目實(shí)施時(shí)間,優(yōu)化項(xiàng)目管理效率。
本文提到的邊沁手稿轉(zhuǎn)錄項(xiàng)目、史密森尼轉(zhuǎn)錄項(xiàng)目、盛宣懷檔案抄錄項(xiàng)目、上海圖書(shū)館家譜知識(shí)服務(wù)項(xiàng)目等都是設(shè)立了專門的眾包平臺(tái)或系統(tǒng);美國(guó)國(guó)會(huì)圖書(shū)館利用Flickr社區(qū)進(jìn)行圖片標(biāo)記分類,則吸引了眾多志愿者參與,傳播范圍較廣。因此數(shù)字人文數(shù)據(jù)眾包平臺(tái)的選擇需要根據(jù)發(fā)布者的需求來(lái)選擇,對(duì)數(shù)據(jù)專業(yè)性和數(shù)據(jù)的完整性有特殊要求、或眾包數(shù)據(jù)量較大的眾包項(xiàng)目可以自行設(shè)計(jì)自己的眾包平臺(tái),不但能保證數(shù)據(jù)的完整性,而且有利于后續(xù)數(shù)據(jù)眾包的繼續(xù)開(kāi)展,而對(duì)于數(shù)據(jù)要求不嚴(yán)格或眾包數(shù)據(jù)量不多的眾包項(xiàng)目則可以選擇第三方的數(shù)據(jù)眾包平臺(tái)。
4.3 ? ?數(shù)字人文數(shù)據(jù)眾包運(yùn)行管理
4.3.1 ? 數(shù)據(jù)管理
數(shù)字人文項(xiàng)目進(jìn)行數(shù)據(jù)眾包離不開(kāi)對(duì)龐大的數(shù)據(jù)管理。數(shù)字人文數(shù)據(jù)眾包的啟動(dòng)離不開(kāi)大量的原始數(shù)據(jù)基礎(chǔ),數(shù)字人文數(shù)據(jù)眾包實(shí)施過(guò)程中數(shù)據(jù)的管理直接關(guān)系到項(xiàng)目實(shí)施的效率和完成的質(zhì)量,此外,成功的數(shù)字人文數(shù)據(jù)眾包也積累了大量的數(shù)據(jù)。因此數(shù)據(jù)的可持續(xù)發(fā)展問(wèn)題值得我們思考,數(shù)據(jù)眾包項(xiàng)目需要考慮項(xiàng)目成果將在哪里進(jìn)行存儲(chǔ)和維護(hù)?持續(xù)研究項(xiàng)目的資金如何解決?如果要進(jìn)行長(zhǎng)期持續(xù)開(kāi)發(fā),可能的資助來(lái)源有哪些?哪些機(jī)構(gòu)長(zhǎng)期備份或存儲(chǔ)項(xiàng)目的數(shù)據(jù)?與我們熟悉的商業(yè)活動(dòng)眾包項(xiàng)目相比,數(shù)字人文領(lǐng)域的數(shù)據(jù)眾包在數(shù)據(jù)容量、數(shù)據(jù)種類、數(shù)據(jù)有效性及數(shù)據(jù)完整性上更加難以有效管理。因此,數(shù)字人文領(lǐng)域的數(shù)據(jù)眾包項(xiàng)目對(duì)數(shù)據(jù)質(zhì)量管理有更高層次的需求。
趙宇翔[6]提出以往的公眾科學(xué)項(xiàng)目缺乏對(duì)數(shù)據(jù)的關(guān)注和深入挖掘,沒(méi)有將產(chǎn)生的科研數(shù)據(jù)作為一種資產(chǎn)進(jìn)行有效管理和利用,同時(shí)提倡將元數(shù)據(jù)構(gòu)建、關(guān)聯(lián)數(shù)據(jù)以及數(shù)據(jù)監(jiān)護(hù)等圖書(shū)情報(bào)學(xué)科的理論和方法應(yīng)用在數(shù)字人文平臺(tái)的管理中。數(shù)字人文數(shù)據(jù)眾包中的數(shù)據(jù)組織及重構(gòu)方法包括數(shù)據(jù)化、數(shù)據(jù)融合、數(shù)據(jù)關(guān)聯(lián)及發(fā)布,首先,在OCR識(shí)別文本的基礎(chǔ)上,加強(qiáng)對(duì)文獻(xiàn)內(nèi)容的重組,將文獻(xiàn)內(nèi)容轉(zhuǎn)化為可制表分析的量化數(shù)據(jù),滿足數(shù)字人文研究者對(duì)數(shù)據(jù)的屬性要求[26];其次,通過(guò)異構(gòu)融合、多源融合、多模融合三種不同的形式對(duì)人文數(shù)據(jù)進(jìn)行融合,形成有效的多視角分析數(shù)據(jù)集,從而進(jìn)行多維度挖掘和分析,幫助人文學(xué)者發(fā)現(xiàn)新規(guī)律、新價(jià)值[27]。此外,利用數(shù)據(jù)關(guān)聯(lián)技術(shù)建立人文數(shù)據(jù)集。近年來(lái)上海圖書(shū)館家譜關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺(tái)及歷史地理數(shù)據(jù)的開(kāi)放方面應(yīng)用關(guān)聯(lián)數(shù)據(jù)技術(shù)進(jìn)行大量實(shí)踐研究,采用關(guān)聯(lián)數(shù)據(jù)從以圖書(shū)館為中心的知識(shí)組織系統(tǒng)向跨領(lǐng)域公開(kāi)可用和易于訪問(wèn)的知識(shí)圖譜轉(zhuǎn)變,可提高人文數(shù)據(jù)的可用性和重用性。
4.3.2 ? 質(zhì)量管理
由于數(shù)字人文數(shù)據(jù)眾包項(xiàng)目的志愿者大多數(shù)是普通大眾而不是具備專深理論知識(shí)的研究者,高質(zhì)量的成果往往數(shù)量不多。因此,數(shù)據(jù)眾包項(xiàng)目發(fā)起者應(yīng)該均衡任務(wù)的成本、任務(wù)的質(zhì)量、任務(wù)完成時(shí)間三者的關(guān)系,以提高項(xiàng)目質(zhì)量。
首先,在數(shù)據(jù)眾包實(shí)施之前可以對(duì)志愿者進(jìn)行相關(guān)知識(shí)調(diào)查和測(cè)試,這不僅可以過(guò)濾不符合工作要求的志愿者,還可以讓志愿者進(jìn)一步了解工作任務(wù),進(jìn)而提高工作質(zhì)量。如“籍合網(wǎng)”招募校正古籍的志愿者時(shí),要求志愿者實(shí)名注冊(cè),具有文史哲相關(guān)專業(yè)及背景。
其次,對(duì)通過(guò)測(cè)試的志愿者進(jìn)行培訓(xùn),使志愿者更加熟悉任務(wù),提高工作效率和工作質(zhì)量。對(duì)于難度較大的轉(zhuǎn)錄校正型項(xiàng)目,如邊沁轉(zhuǎn)錄項(xiàng)目為志愿者提供了詳細(xì)的轉(zhuǎn)錄指南,并定期開(kāi)展轉(zhuǎn)錄培訓(xùn)。補(bǔ)充收集型項(xiàng)目由于難度不大,管理者可以適量提供一些工具類的培訓(xùn)。如紐約公共圖書(shū)館“Building Inspector”項(xiàng)目開(kāi)展計(jì)算機(jī)培訓(xùn),鼓勵(lì)參與者利用計(jì)算機(jī)軟件更方便地收集地理信息。對(duì)于分類標(biāo)記型項(xiàng)目,管理者會(huì)提供一定的受控詞表,志愿者以此進(jìn)行分類和標(biāo)記,避免分類過(guò)大,提高項(xiàng)目質(zhì)量。
最后,合理設(shè)計(jì)任務(wù)過(guò)期時(shí)間,使志愿者在適度的時(shí)間內(nèi)完成任務(wù)。Ipeirotis[28]發(fā)現(xiàn),大多數(shù)任務(wù)請(qǐng)求者都將任務(wù)的“過(guò)期時(shí)間”設(shè)置為12小時(shí)或7天,在12小時(shí)這個(gè)時(shí)間節(jié)點(diǎn),只有大約50%的任務(wù)被完成,如果等到7天,大約90%的任務(wù)被完成。
4.3.3 ? 激勵(lì)政策
數(shù)據(jù)眾包的參與志愿者多樣化,因此任務(wù)發(fā)起者必須花費(fèi)更多的精力來(lái)平衡志愿者的需求。完善的激勵(lì)政策才能保證數(shù)據(jù)眾包項(xiàng)目順利實(shí)施。目前,用戶參與的激勵(lì)政策分為物質(zhì)金錢激勵(lì)方式和非物質(zhì)金錢激勵(lì)方式。
其中,物質(zhì)金錢激勵(lì)可以在短期內(nèi)招募大量志愿者,但是很多數(shù)字人文項(xiàng)目屬于非營(yíng)利性項(xiàng)目,長(zhǎng)期采用物質(zhì)金錢激勵(lì)方式不太現(xiàn)實(shí)。因此,數(shù)據(jù)眾包項(xiàng)目可以支付志愿者小部分工資,同時(shí)使數(shù)據(jù)眾包的志愿者對(duì)工作內(nèi)容產(chǎn)生興趣或?qū)崿F(xiàn)自我滿足。Mason和Watts[29]研究發(fā)現(xiàn),只有合適的任務(wù)回報(bào)才能吸引志愿者參與數(shù)字人文眾包項(xiàng)目。偏高的回報(bào)導(dǎo)致吸引過(guò)多的參與者,從而降低了任務(wù)質(zhì)量同時(shí)給發(fā)包商增加成本壓力;偏低的回報(bào)則會(huì)導(dǎo)致志愿者的興趣點(diǎn)下降,對(duì)眾包工作產(chǎn)生懈怠心理,導(dǎo)致任務(wù)時(shí)間周期較長(zhǎng)。眾包競(jìng)賽中經(jīng)常利用物質(zhì)金錢激勵(lì)志愿者參與項(xiàng)目,InnoCentive眾包平臺(tái)根據(jù)不同難度的眾包任務(wù)設(shè)置不同的獎(jiǎng)勵(lì),一般難度的項(xiàng)目要求志愿者提交方案的時(shí)間為1-2個(gè)月,獎(jiǎng)金取決于完成情況,最高為數(shù)萬(wàn)美元;中等難度的項(xiàng)目提交方案時(shí)間為2-3個(gè)月,獎(jiǎng)金為數(shù)萬(wàn)至數(shù)十萬(wàn)美元;難度較大的項(xiàng)目提交方案的時(shí)間為3個(gè)月以上,獎(jiǎng)金最高達(dá)100萬(wàn)美元。
麥肯錫的研究表明,推動(dòng)Web2.0用戶進(jìn)行無(wú)條件構(gòu)建知識(shí)的主要?jiǎng)恿Σ皇俏镔|(zhì)激勵(lì),而是興趣和聲譽(yù)[30]。非物質(zhì)金錢激勵(lì)方式主要包括積分制和排行榜公示。虛擬積分可以激發(fā)志愿者一定程度的興趣和積極性。排行榜公式激勵(lì)方式即在項(xiàng)目網(wǎng)站上公布參與用戶的貢獻(xiàn)度。同時(shí)進(jìn)行貢獻(xiàn)度認(rèn)證,各參與用戶需提供一份說(shuō)明在各階段的作用和付出的時(shí)間。根據(jù)馬斯洛需求層次理論,排行榜公式方式正好滿足了參與用戶尊重需求和自我實(shí)現(xiàn)需求等高層次需求,同時(shí)排行榜能夠激發(fā)參與志愿者之間的競(jìng)爭(zhēng),這種競(jìng)爭(zhēng)可以良性推動(dòng)數(shù)據(jù)眾包工作的開(kāi)展。邊沁手稿轉(zhuǎn)錄項(xiàng)目采用積分和排行榜公式的方式激勵(lì)志愿者,網(wǎng)站上公布了前五十名志愿者的積分,并根據(jù)積分將上榜者劃分不同稱號(hào)。盛宣懷檔案抄錄項(xiàng)目在平臺(tái)首頁(yè)右側(cè)清晰地展示了前十名的用戶名和積分。
此外,從外部激勵(lì)和內(nèi)部激勵(lì)角度激發(fā)志愿者的積極性,數(shù)字人文數(shù)據(jù)眾包項(xiàng)目還應(yīng)針對(duì)不同階段靈活采取不同的激勵(lì)政策。張軒慧[3,31]對(duì)數(shù)字人文類眾包項(xiàng)目初期和中后期公眾參與動(dòng)因進(jìn)行了探討,提出在眾包項(xiàng)目實(shí)施初期,應(yīng)該增強(qiáng)平臺(tái)的易用性和社交性,提高任務(wù)的自主性、有趣性和情境性,從而激發(fā)參與者的感知有用性和使命感,從而吸引更多用戶參與數(shù)據(jù)眾包項(xiàng)目,保證項(xiàng)目的正常啟動(dòng)。在眾包項(xiàng)目實(shí)施中后期,項(xiàng)目發(fā)起者應(yīng)該將物質(zhì)獎(jiǎng)勵(lì)和精神獎(jiǎng)勵(lì)有機(jī)結(jié)合,同時(shí)創(chuàng)建志愿者交流社區(qū),將游戲化元素融入平臺(tái),同時(shí)增加反饋和協(xié)助機(jī)制,增強(qiáng)志愿者參與信心;此外在任務(wù)設(shè)計(jì)方面,循序漸進(jìn)的任務(wù)難度和不斷更新的任務(wù)種類,才能保持志愿者的持續(xù)執(zhí)行動(dòng)力,增加志愿者與項(xiàng)目的粘性,保障數(shù)據(jù)眾包項(xiàng)目的順利完成。
4.3.4 ? 倫理誠(chéng)信
由于公眾參與眾包的方式包括匿名訪問(wèn)、注冊(cè)登錄、實(shí)名參與。因此,一方面數(shù)據(jù)眾包平臺(tái)可能泄露參與用戶個(gè)人隱私。如“籍合網(wǎng)”在招募古籍校正志愿者時(shí),要求志愿者填寫(xiě)真實(shí)姓名、身份證號(hào)以及發(fā)放報(bào)酬用的銀行卡號(hào)等,此外,一些地理空間眾包工作任務(wù)可能會(huì)暴露志愿者的地理位置;另一方面,由于參與用戶可以直接接觸研究者的研究資料,因此可能會(huì)歪曲眾包的信息,或者將研究者的眾包信息泄露給其他研究者,阻礙數(shù)字人文眾包項(xiàng)目的有效實(shí)施。因此,眾包項(xiàng)目發(fā)起者應(yīng)該與志愿者在實(shí)行任務(wù)前簽訂同意書(shū)和保密協(xié)議,避免知識(shí)產(chǎn)權(quán)糾紛,眾包發(fā)起者和志愿者自覺(jué)維護(hù)雙方權(quán)利,才能促進(jìn)眾包項(xiàng)目的順利實(shí)施。
4.4 ? ?數(shù)字人文數(shù)據(jù)眾包成果管理
4.4.1 ? 成果宣傳
眾包成果可以分為階段性成果和最終成果。在眾包項(xiàng)目運(yùn)行中,項(xiàng)目方通常會(huì)發(fā)布相關(guān)文章或報(bào)告,分享階段性成果,同時(shí)也起到項(xiàng)目宣傳的效果,吸引更多的志愿者參與。在項(xiàng)目結(jié)束后,除了發(fā)表相關(guān)文章,項(xiàng)目成果通常還有開(kāi)放數(shù)據(jù)庫(kù)、開(kāi)源工具等公開(kāi)性成果。如邊沁手稿轉(zhuǎn)錄項(xiàng)目每個(gè)月都會(huì)在其網(wǎng)站上公布轉(zhuǎn)錄的進(jìn)度和成果,并定期向?qū)W術(shù)界和公眾發(fā)布演講。“籍合網(wǎng)”對(duì)于完成轉(zhuǎn)錄校正的古籍,匯總成開(kāi)放的古籍?dāng)?shù)據(jù)庫(kù)供大眾查閱,服務(wù)公眾和社會(huì)。上海圖書(shū)館家譜知識(shí)服務(wù)平臺(tái)將收集到的家譜信息集合成檔案供公眾瀏覽和搜索。
4.4.2 ? 版權(quán)管理
從某種角度上講,眾包模式推動(dòng)了文化和歷史的傳播。為了加快知識(shí)的有效流傳,資源所有者應(yīng)該積極樹(shù)立開(kāi)放意識(shí),主動(dòng)推進(jìn)人文學(xué)科資源的數(shù)據(jù)化工作。Cooper等[31]提出應(yīng)該在志愿者參與科學(xué)研究的成果中清晰地標(biāo)注“公眾科學(xué)”的字樣,這不僅可以認(rèn)同公眾參與科學(xué)研究的積極作用,還能提醒未來(lái)學(xué)者歸納此領(lǐng)域的研究成果。數(shù)字人文項(xiàng)目人員逐漸從個(gè)體轉(zhuǎn)變?yōu)榭珙I(lǐng)域?qū)W者和志愿者合作團(tuán)隊(duì)組成,數(shù)字人文的數(shù)據(jù)眾包成果也應(yīng)該轉(zhuǎn)變著述模式,以“我”為核心的單一著述模式轉(zhuǎn)變?yōu)橐浴拔覀儭睘橹行牡暮献餍灾瞿J?,打破傳統(tǒng)的以版權(quán)保護(hù)和專屬授權(quán)限制為中心的著作權(quán)理念,限制程度最低的共享與授權(quán)模式應(yīng)該成為主流。邊沁手稿轉(zhuǎn)錄項(xiàng)目每月更新成果版本,上海圖書(shū)館家譜知識(shí)服務(wù)平臺(tái)實(shí)時(shí)對(duì)家譜目錄進(jìn)行補(bǔ)充。以數(shù)字手段出版和發(fā)表的作品不再是最終版本,而是處于不斷迭代過(guò)程中的更新版,新的知識(shí)和發(fā)現(xiàn)可以隨時(shí)被補(bǔ)充進(jìn)來(lái)。
5 ? 結(jié)語(yǔ)
本文從數(shù)字人文數(shù)據(jù)眾包發(fā)起者的角度論述了數(shù)據(jù)眾包運(yùn)作策略,在數(shù)據(jù)眾包的設(shè)計(jì)、運(yùn)行管理和成果管理三個(gè)階段中,具體介紹了轉(zhuǎn)錄校正型、標(biāo)記分類型、補(bǔ)充收集型這三種任務(wù),區(qū)分了眾包競(jìng)賽和協(xié)作社區(qū)的實(shí)施方式和不同眾包平臺(tái)的特點(diǎn),并對(duì)可能出現(xiàn)的數(shù)據(jù)管理、質(zhì)量管理、激勵(lì)政策、誠(chéng)信問(wèn)題和成果發(fā)布與版權(quán)問(wèn)題提出了應(yīng)對(duì)策略。
目前,我國(guó)數(shù)字人文領(lǐng)域應(yīng)用眾包形式的案例逐漸增多,我們應(yīng)當(dāng)積極吸取國(guó)外數(shù)字人文眾包項(xiàng)目的成功經(jīng)驗(yàn),充分利用眾包的力量,加速人文數(shù)據(jù)的建設(shè),推動(dòng)數(shù)字人文研究。數(shù)字人文數(shù)據(jù)眾包對(duì)人文數(shù)據(jù)的建設(shè)是有益的補(bǔ)充,數(shù)據(jù)眾包給數(shù)字人文工作提供了數(shù)據(jù)化的平臺(tái)和工具,通過(guò)數(shù)字人文數(shù)據(jù)眾包活動(dòng),不僅幫助人文學(xué)者獲取研究所需的人文數(shù)據(jù),還進(jìn)一步加深公眾對(duì)文化和歷史的理解,達(dá)到了宣傳的效果[32]。我們?cè)谒茉炱脚_(tái)、工具和技術(shù)的同時(shí),這些平臺(tái)、工具和技術(shù)也在塑造我們,由此形成了數(shù)字人文的社會(huì)生活。
參考文獻(xiàn):
[1] ?(美)安妮·伯迪克,約翰娜·德魯克,彼得·倫恩費(fèi)爾德,等.馬林青,韓若畫(huà),譯.數(shù)字人文:改變知識(shí)創(chuàng)新與分享的游戲規(guī)則[M].北京:中國(guó)人民大學(xué)出版社,2018:121.
[2] ?HOWE J.The rise of crowdourcing[J].Wired,2006,14(6):176-183.
[3] ?張軒慧,趙宇翔,王曰芬.數(shù)字人文類公眾科學(xué)項(xiàng)目冷啟動(dòng)階段的公眾參與動(dòng)因研究[J].圖書(shū)與情報(bào),2019(3):61-72.
[4] ?Seitsonen,Oula.Crowdsourcing Cultural Heritage:Public Participation and Conflict Legacy in Finland[J].Journal of Community Archaeology & Heritage,2017:1-19.
[5] ?韓文婷,宋士杰,趙宇翔,等.數(shù)字人文類眾包抄錄平臺(tái)中任務(wù)績(jī)效的影響因素研究——基于任務(wù)復(fù)雜度與領(lǐng)域知識(shí)視角[J].圖書(shū)與情報(bào),2019(3):73-84.
[6] ?趙宇翔.科研眾包視角下公眾科學(xué)項(xiàng)目芻議:概念解析、模式探索及學(xué)科機(jī)遇[J].中國(guó)圖書(shū)館學(xué)報(bào),2017,43(5):42-56.
[7] ?Oomen J,Aroyo L.Crowdsourcing in the cultural heritage domain:opportunities and challenges[C].International Conference on Communities and Technologies.ACM,2011:138-149.
[8] ?肖奕.數(shù)字人文項(xiàng)目合作平臺(tái)分析——以DHCOMMONS為例[J].知識(shí)管理論壇,2017,2(6):464-476.
[9] ?歐陽(yáng)劍,彭松林,李臻.數(shù)字人文背景下圖書(shū)館人文數(shù)據(jù)組織與重構(gòu)[J].圖書(shū)情報(bào)工作,2019,63 (11):15-24.
[10] ?DCC Curation Lifecycle Model[EB/OL].[2019-11-23].http://www.dcc.ac.uk/resources/curation-lifecycle-model.
[11] ?梁連高.淺析紙質(zhì)文書(shū)檔案數(shù)字副本OCR識(shí)別方法[J].科技與創(chuàng)新,2018(4):129-130.
[12] ?邊沁手稿轉(zhuǎn)錄項(xiàng)目[EB/OL].[2019-03-20].https://blogs.ucl.ac.uk/transcribe-bentham/.
[13] ?史密森尼轉(zhuǎn)錄中心[EB/OL].[2019-03-20].https://transcription.si.edu/.
[14] ?盛宣懷檔案抄錄項(xiàng)目[EB/OL].[2019-03-20].http://zb.library.sh.cn/index.jhtml.
[15] ?澳大利亞國(guó)家圖書(shū)館數(shù)字報(bào)紙項(xiàng)目[EB/OL].[2019-03-20].http://www.nla.gov.au/content/newspaper-digitisation-program.
[16] ?紐約公共圖書(shū)館“建筑檢查員”項(xiàng)目[EB/OL].[2019-03-20].http://buildinginspector.nypl.org/.
[17] ?上海圖書(shū)館家譜知識(shí)服務(wù)平臺(tái)[EB/OL].[2019-03-20].http://search.library.sh.cn/jiapu/.
[18] ?紐約公共圖書(shū)館“社區(qū)口述歷史項(xiàng)目”[EB/OL].[2019-03-20].http://oralhistory.nypl.org/.
[19] ?英國(guó)國(guó)家檔案館“戰(zhàn)爭(zhēng)日記”項(xiàng)目[EB/OL].[2019-03-20].http://www.operationwardiary.org/.
[20] ?馮劍紅,李國(guó)良,馮建華.眾包技術(shù)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2015,38(9):1713-1726.
[21] ?練靖雯,張軒慧,趙宇翔.國(guó)外數(shù)字人文領(lǐng)域公眾科學(xué)項(xiàng)目的案例分析及經(jīng)驗(yàn)啟示[J].情報(bào)資料工作,2018(5):32-40.
[22] ?邢文明,司莉.Web2.0環(huán)境下用戶參與圖書(shū)館信息組織的可行性分析——基于用戶接受的實(shí)證研究[J].圖書(shū)館建設(shè),2012(4):31-35.
[23] ?喬健.美國(guó)眾包懸賞競(jìng)賽創(chuàng)新模式剖析[J].全球科技經(jīng)濟(jì)瞭望,2017,32(10):8-12.
[24] ?InnoCentive眾包創(chuàng)新平臺(tái)[EB/OL].[2019-03-20].https://www.innocentive.com/.
[25] ?南京大學(xué)信息管理學(xué)院主辦的文化遺產(chǎn)數(shù)字化競(jìng)賽活動(dòng)落幕[EB/OL].[2019-03-20].http://im.nju.edu.cn/content.do?mid=3&mmid=34&cid=7bf6abc0-1634-11e9-b5d3-40a8f01ece83.
[26] ?趙思淵.地方歷史文獻(xiàn)的數(shù)字化、數(shù)據(jù)化與文本挖掘:以《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》為例[J].清史研究,2016(4):26-35.
[27] ?歐陽(yáng)劍.面向數(shù)字人文研究的多源數(shù)據(jù)融合[R].第十三屆數(shù)字圖書(shū)館前沿問(wèn)題高級(jí)研討班(ADLS2016),上海,2016.
[28] ?Ipeirotis P G.Analyzing the amazon mechanical turk marketplace[J].ACM Crossroads,2010,17(2):16-21.
[29] ?Mason W A,Watts D J.Financial incentives and the “performance of crowd”.Proceedings of the ACM SIGKDD Workshop on the Human Computation[J].Paris,F(xiàn)rance,2009:77-85.
[30] ?Michael Chui,Six ways to make Web 2.0 work[EB/OL].[2019-03-20].https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/six-ways-to-make-web-20-work.
[31] ?Cooper C B,Dickinson J,Phillips T,et al.Citizen Science as a tool for conservation in residential ecosystems[J].Ecology&Society,2007,12(2):375-386.
[32] ?S Schreibman,R Siemens,J Unsworth.Crowdsourcing in the Digital Humanities[M].John Wiley & Sons,Ltd,2015.
作者簡(jiǎn)介:岑炅蓮,女,廣西民族大學(xué)管理學(xué)院碩士研究生;歐陽(yáng)劍,男,上海外國(guó)語(yǔ)大學(xué)圖書(shū)館研究館員;曾輝,男,廣西民族大學(xué)管理學(xué)院碩士研究生。