蔡棟梁/上海大學(xué)圖書(shū)情報(bào)檔案系
數(shù)字人文是一個(gè)新型跨學(xué)科領(lǐng)域,強(qiáng)調(diào)將現(xiàn)代信息技術(shù)和計(jì)算機(jī)技術(shù)應(yīng)用于傳統(tǒng)人文研究。數(shù)字人文的提出與發(fā)展,給傳統(tǒng)人文研究帶來(lái)了新的研究方法與研究范式[1]?;诨ヂ?lián)網(wǎng)誕生的新興模式眾包(Crowdsourcing),使得數(shù)字人文的發(fā)展有了新的方向。檔案資源數(shù)字眾包項(xiàng)目是由檔案館、圖書(shū)館等人文機(jī)構(gòu)發(fā)起,通過(guò)互聯(lián)網(wǎng)平臺(tái)組織社會(huì)群眾加入,共同完成某項(xiàng)旨在深入挖掘檔案信息資源的數(shù)字人文項(xiàng)目,有利于促進(jìn)檔案信息資源的深度開(kāi)發(fā)與利用。
國(guó)外目前最具影響力的數(shù)字眾包項(xiàng)目是英國(guó)倫敦大學(xué)學(xué)院(UCL)圖書(shū)館開(kāi)展的邊沁手稿轉(zhuǎn)錄項(xiàng)目(Transcribe Bentham)[2],于2010年向公眾推出,旨在征集學(xué)生、研究人員和公眾對(duì)杰里米·邊沁(Jeremy Bentham,1748—1832)的手稿進(jìn)行查閱和轉(zhuǎn)錄,以便更多人了解和傳播邊沁的生活與思想;國(guó)內(nèi)最出名的數(shù)字眾包項(xiàng)目為盛宣懷(1844—1916)檔案抄錄項(xiàng)目(后文簡(jiǎn)稱為“盛宣懷項(xiàng)目”),由上海圖書(shū)館(后文簡(jiǎn)稱“上圖”)歷史文獻(xiàn)眾包中心于2017年開(kāi)展,旨在征集公眾對(duì)經(jīng)過(guò)數(shù)字化處理的盛宣懷檔案進(jìn)行抄錄和標(biāo)注,從而充分地利用這些珍貴的史料。
盛宣懷項(xiàng)目和邊沁手稿轉(zhuǎn)錄項(xiàng)目是國(guó)內(nèi)外典型的檔案資源數(shù)字眾包項(xiàng)目,二者眾包項(xiàng)目類型相同,均是針對(duì)某一個(gè)名人的檔案史料進(jìn)行文本化加工,且二者的資源基礎(chǔ)豐富完備、開(kāi)展規(guī)模相當(dāng),因此十分適合做比較研究。通過(guò)對(duì)其運(yùn)行情況的比較,可以分析我國(guó)數(shù)字眾包項(xiàng)目的開(kāi)展現(xiàn)狀,審視我國(guó)眾包研究的發(fā)展形勢(shì),并針對(duì)不足提出相應(yīng)的對(duì)策。本文將從項(xiàng)目的資源基礎(chǔ)、平臺(tái)機(jī)制、項(xiàng)目運(yùn)營(yíng)三個(gè)角度切入,對(duì)二者進(jìn)行對(duì)比分析。
種類多且數(shù)量大的檔案資源是眾包抄錄項(xiàng)目應(yīng)用的主要素材,也是其重要基礎(chǔ)。邊沁手稿轉(zhuǎn)錄項(xiàng)和目的資源來(lái)源于倫敦大學(xué)學(xué)院圖書(shū)館和大英圖書(shū)館,手稿有6萬(wàn)多本,主要包括作品集的草稿筆記、未出版的文集、往來(lái)信件等;盛宣懷項(xiàng)目的資源來(lái)源于上圖,約17.5萬(wàn)件,主要包括日記、文稿、信札等。
UCL圖書(shū)館和上圖分別針對(duì)兩個(gè)項(xiàng)目的數(shù)字化資源建設(shè)了邊沁論文數(shù)字資料庫(kù)和盛宣懷檔案知識(shí)庫(kù),二者均保存了數(shù)字化檔案資源,且提供檢索查詢。在邊沁手稿轉(zhuǎn)錄項(xiàng)目中,抄本會(huì)同步上傳到資料庫(kù);盛宣懷項(xiàng)目則暫無(wú)此功能,其眾包平臺(tái)與知識(shí)庫(kù)的數(shù)據(jù)相對(duì)獨(dú)立,抄錄結(jié)果直接呈現(xiàn)在眾包平臺(tái)中。相比之下邊沁手稿轉(zhuǎn)錄項(xiàng)目的整體資源更顯集中化,更有利于提高獲取該專題人文研究數(shù)據(jù)的效率。
2.2.1 用戶參與方式
邊沁手稿轉(zhuǎn)錄項(xiàng)目的用戶會(huì)得到一份數(shù)字化圖像,以及一個(gè)實(shí)現(xiàn)文字轉(zhuǎn)錄的文本框;盛宣懷項(xiàng)目用戶在認(rèn)領(lǐng)任務(wù)后,在抄錄界面進(jìn)行抄錄任務(wù),抄錄形式是按頁(yè)抄錄,根據(jù)頁(yè)面左側(cè)圖片中的文字內(nèi)容,輸入進(jìn)頁(yè)面右側(cè)的抄錄欄中即可。邊沁手稿轉(zhuǎn)錄項(xiàng)目的用戶在進(jìn)行標(biāo)記時(shí)需要用到一個(gè)特定的轉(zhuǎn)錄工具欄,直接對(duì)手稿圖像進(jìn)行標(biāo)注;盛宣懷項(xiàng)目中標(biāo)記的實(shí)現(xiàn)只需使用界面右側(cè)的留言欄即可。兩個(gè)項(xiàng)目的用戶在轉(zhuǎn)錄過(guò)程中均可隨時(shí)保存文字記錄。邊沁手稿轉(zhuǎn)錄項(xiàng)目平臺(tái)還允許用戶之間互相查閱抄錄記錄,做出更正和補(bǔ)充。
盛宣懷項(xiàng)目的眾包平臺(tái)用戶友好性更高。首先,可視化效果精美,相比于只有單調(diào)文字的邊沁手稿轉(zhuǎn)錄項(xiàng)目平臺(tái)頁(yè)面更美觀;其次,使用流程和抄錄工作便捷,而邊沁手稿轉(zhuǎn)錄項(xiàng)目的轉(zhuǎn)錄操作較為復(fù)雜,尤其是用以標(biāo)記的轉(zhuǎn)錄工具欄;最后,平臺(tái)特設(shè)的元數(shù)據(jù)集管理機(jī)制允許導(dǎo)入元數(shù)據(jù)信息,用戶可以更好地理解檔案文獻(xiàn),以提高抄錄效率;而邊沁手稿轉(zhuǎn)錄項(xiàng)目平臺(tái)尚未加入元數(shù)據(jù)集管理,邊沁手稿數(shù)字檔案的元數(shù)據(jù)主要用在邊沁論文數(shù)字資料庫(kù)中數(shù)據(jù)庫(kù)目錄的編制。
2.2.2 質(zhì)量控制手段
邊沁手稿轉(zhuǎn)錄項(xiàng)目的質(zhì)量控制主要從文本的準(zhǔn)確性和編碼的一致性(來(lái)源于標(biāo)記功能所產(chǎn)生的XML代碼)兩個(gè)方面進(jìn)行。符合標(biāo)準(zhǔn)的抄本會(huì)被鎖定,以防止被篡改,并上傳到資料庫(kù);不符合標(biāo)準(zhǔn)的抄本則打回重新修改。
盛宣懷項(xiàng)目的質(zhì)量控制手段有三:第一,平臺(tái)設(shè)置時(shí)限,有助于提高用戶的抄錄效率;第二,平臺(tái)采用專家審核制度,審核階段由專家對(duì)用戶的抄錄情況進(jìn)行審核并打分,留言功能也給專家對(duì)用戶的意見(jiàn)提供了渠道,這是平臺(tái)質(zhì)量控制的核心手段;第三,平臺(tái)支持多人抄錄,進(jìn)一步保證抄錄質(zhì)量。
邊沁手稿轉(zhuǎn)錄項(xiàng)目和盛宣懷項(xiàng)目的質(zhì)量控制都是采取專業(yè)人員審核為核心手段,盛宣懷項(xiàng)目側(cè)重點(diǎn)在于內(nèi)容準(zhǔn)確性,而邊沁手稿轉(zhuǎn)錄項(xiàng)目還要同時(shí)關(guān)注編碼一致性,且需要兼顧上傳資料庫(kù)等工作,所以質(zhì)量控制的工作量更大、更具技術(shù)性。
提高項(xiàng)目的質(zhì)量控制效率是項(xiàng)目?jī)?yōu)化的重中之重。2013年,邊沁手稿轉(zhuǎn)錄項(xiàng)目啟用了第二代轉(zhuǎn)錄平臺(tái),此后抄本的合格率明顯提高,主要原因是原本占據(jù)了大量時(shí)間的編碼審核工作效率有了大幅度的提高[3],這一進(jìn)步主要來(lái)源于第二代轉(zhuǎn)錄平臺(tái)用戶友好性的提高,可見(jiàn)轉(zhuǎn)錄平臺(tái)和轉(zhuǎn)錄方式的改進(jìn)有助于減少用戶抄錄和標(biāo)記時(shí)出錯(cuò)的頻率,從而提高抄錄工作的質(zhì)量。
2.2.3 用戶激勵(lì)機(jī)制
為了鼓勵(lì)用戶積極參與,邊沁手稿轉(zhuǎn)錄項(xiàng)目設(shè)置了積分機(jī)制,用戶完成轉(zhuǎn)錄任務(wù)時(shí)可獲取積分,用戶的積分排行榜會(huì)發(fā)布在平臺(tái)主頁(yè)上;盛宣懷項(xiàng)目同樣也設(shè)置了積分排行榜。除此之外,用戶積分達(dá)到一定的標(biāo)準(zhǔn)后,管理員會(huì)根據(jù)其專業(yè)水準(zhǔn)賦予專家頭銜及任務(wù)審核權(quán)限,從而提高用戶的積極性,而邊沁手稿轉(zhuǎn)錄項(xiàng)目因涉及的技術(shù)手段,無(wú)法將審核工作交給用戶。
2.3.1 宣傳途徑
邊沁手稿轉(zhuǎn)錄項(xiàng)目選擇與權(quán)威的報(bào)刊媒體《紐約時(shí)報(bào)》合作,作為宣傳手段。2010年12月,《紐約時(shí)報(bào)》發(fā)表了一篇邊沁手稿轉(zhuǎn)錄項(xiàng)目的專題文章。報(bào)道后,平臺(tái)的抄錄活動(dòng)急劇增加,僅用了10天就抄寫(xiě)了187份手稿,相比于報(bào)道前10天增加了43%[4]。
盛宣懷項(xiàng)目則選擇與南京大學(xué)合作的方式進(jìn)行項(xiàng)目推廣。2018年,上圖與南大聯(lián)合舉辦了“文化遺產(chǎn)數(shù)字化”競(jìng)賽活動(dòng),旨在征集各高校大學(xué)生,對(duì)上圖發(fā)布的“盛宣懷檔案”主題資源進(jìn)行抄錄。上圖針對(duì)高校大學(xué)生舉辦了競(jìng)賽活動(dòng),希望在特定人群中將眾包活動(dòng)展開(kāi),再推廣到大眾中,提高社會(huì)知名度。
整個(gè)競(jìng)賽期間,參數(shù)賽人數(shù)達(dá)到60多人,共計(jì)完成200多件抄錄任務(wù)。競(jìng)賽結(jié)束后,平臺(tái)平均每月抄錄任務(wù)為5—10份。截止至2019年,平臺(tái)用戶數(shù)為171,共計(jì)完成任務(wù)346件[5]。
從二者的結(jié)果來(lái)看,邊沁手稿轉(zhuǎn)錄項(xiàng)目的宣傳手段效果更好。盛宣懷項(xiàng)目后期并未達(dá)到預(yù)期效果,其原因主要為宣傳范圍不夠廣泛。邊沁手稿轉(zhuǎn)錄項(xiàng)目宣傳的渠道是閱讀人群基數(shù)龐大的《紐約時(shí)報(bào)》,覆蓋到了各個(gè)年齡層和各個(gè)職業(yè)圈的人,而盛宣懷項(xiàng)目的推廣只有前期的大學(xué)生群體,并沒(méi)有后續(xù)推廣活動(dòng)的跟進(jìn)。
2.3.2 參與人數(shù)
邊沁手稿轉(zhuǎn)錄項(xiàng)目向全世界開(kāi)放。Google Analytics的報(bào)告顯示,有來(lái)自全球91個(gè)國(guó)家的人訪問(wèn)了抄錄平臺(tái),大多數(shù)來(lái)自美國(guó),其次是英國(guó)[6];盛宣懷項(xiàng)目初期選擇與高校合作,因此該項(xiàng)目早期的用戶很大一部分是高校學(xué)生。隨著項(xiàng)目的發(fā)展,用戶人群逐漸擴(kuò)展到社會(huì)層面,如一些能接觸到該項(xiàng)目的圖書(shū)館館員、關(guān)注上圖動(dòng)向的人等等。
截至2013年,已有2454名用戶在邊沁手稿轉(zhuǎn)錄項(xiàng)目平臺(tái)注冊(cè)了賬戶,遍布全球90多個(gè)國(guó)家;截至2019年,同樣是項(xiàng)目開(kāi)展的第3年,盛宣懷項(xiàng)目的平臺(tái)用戶數(shù)量?jī)H達(dá)到171,其中大部分是高校學(xué)生。
二者的差距較為懸殊,主要原因可能有二:首先,項(xiàng)目主辦機(jī)構(gòu)的影響力存在差距。倫敦大學(xué)學(xué)院是世界著名的頂尖高等學(xué)府,其排名一直穩(wěn)居世界前十;而上圖作為一個(gè)綜合性研究型公共圖書(shū)館,雖在中國(guó)發(fā)展迅速,但其國(guó)際影響力還無(wú)法與倫敦大學(xué)學(xué)院圖書(shū)館相比。其次,抄錄對(duì)象的影響力存在差距。邊沁一生在哲學(xué)、法學(xué)、經(jīng)濟(jì)學(xué)上都有很高成就,他的思想不僅吸引了眾多學(xué)者研究,也吸引了普羅大眾的關(guān)注;而同樣在政治、商業(yè)、教育等方面有極高建樹(shù)的盛宣懷,其保存完備的檔案史料雖然吸引了研究中國(guó)近代史的學(xué)者,但對(duì)普通社會(huì)群眾來(lái)說(shuō)影響力和吸引力還不夠。
2.3.3 參與動(dòng)因
根據(jù)調(diào)查,邊沁手稿轉(zhuǎn)錄項(xiàng)目的參與者多為對(duì)邊沁個(gè)人本身感興趣,想通過(guò)該項(xiàng)目更深入地了解邊沁;其次是對(duì)哲學(xué)和歷史感興趣,或者是對(duì)眾包模式的新鮮感以及對(duì)項(xiàng)目背后技術(shù)的好奇;少部分用戶希望該項(xiàng)目可以幫助更多人了解到邊沁。
綜合整個(gè)項(xiàng)目的發(fā)展過(guò)程來(lái)看,盛宣懷項(xiàng)目用戶的動(dòng)因可分為外因和內(nèi)因。外因可歸納為外部獎(jiǎng)勵(lì)、反饋機(jī)制、社會(huì)規(guī)范,如完成任務(wù)獲取的積分、完成情況的評(píng)價(jià)、平臺(tái)給用戶設(shè)置的任務(wù)時(shí)限等;內(nèi)因可歸納為興趣、情感、個(gè)人價(jià)值的滿足,如對(duì)歷史人文主題的興趣、完成任務(wù)時(shí)的成就感、識(shí)別古文字能力的提升等[7]。
兩個(gè)項(xiàng)目的用戶參與動(dòng)因不盡相同,邊沁手稿轉(zhuǎn)錄項(xiàng)目的用戶更多是靠發(fā)自內(nèi)心對(duì)邊沁感興趣和對(duì)哲史熱愛(ài)作為參與驅(qū)動(dòng)力,即是以內(nèi)部動(dòng)因?yàn)閷?dǎo)向的;而盛宣懷項(xiàng)目用戶的參與則需要靠一定的獎(jiǎng)勵(lì)機(jī)制,即是以外部動(dòng)因?yàn)閷?dǎo)向的??梢钥闯鑫覈?guó)群眾對(duì)盛宣懷這一歷史人物不夠了解,也呈現(xiàn)出我國(guó)國(guó)民對(duì)歷史人文領(lǐng)域的關(guān)注和參與程度過(guò)低的現(xiàn)狀。
我國(guó)數(shù)字眾包項(xiàng)目發(fā)展仍在起步階段,上圖的眾包嘗試時(shí)期還比較短暫,盛宣懷項(xiàng)目中存在的問(wèn)題也是我國(guó)眾包發(fā)展存在的問(wèn)題。針對(duì)目前存在的資源不夠集中、宣傳力度不夠等問(wèn)題,筆者從幾個(gè)角度提出了幾點(diǎn)發(fā)展策略。
第一,加強(qiáng)內(nèi)容挖掘。值得一提的是,邊沁手稿轉(zhuǎn)錄項(xiàng)目開(kāi)展過(guò)程中,出現(xiàn)過(guò)三次參與者數(shù)量明顯上升的現(xiàn)象:第一次是《紐約時(shí)報(bào)》的報(bào)道;第二次是轉(zhuǎn)錄平臺(tái)的升級(jí)優(yōu)化;第三次是大英圖書(shū)館提供了一批新手稿,此次參與率上升最明顯。這批手稿大多是邊沁的往來(lái)信件,通常比一般的手稿更短更易讀,且有完整的事件描述,因此吸引了更多人的加入。由此可見(jiàn),在群眾對(duì)邊沁的興趣基礎(chǔ)上,生動(dòng)的故事和完整的信息更能激起群眾對(duì)項(xiàng)目的熱情。這體現(xiàn)了眾包項(xiàng)目?jī)?nèi)容的重要性,如何最大程度地發(fā)揮項(xiàng)目主題內(nèi)容的最大吸引力,是機(jī)構(gòu)思考的重點(diǎn)。平臺(tái)可以加強(qiáng)和知識(shí)庫(kù)的聯(lián)系,利用關(guān)聯(lián)數(shù)據(jù)技術(shù)對(duì)已獲取的抄錄文本和原有的數(shù)字資源進(jìn)行數(shù)據(jù)挖掘,輔以可視化技術(shù),從而實(shí)現(xiàn)更深層次的內(nèi)容挖掘。
第二,優(yōu)化質(zhì)量控制手段。質(zhì)量控制是眾包抄錄項(xiàng)目的重要環(huán)節(jié),也是技術(shù)難度最大的環(huán)節(jié)。為了在保障質(zhì)量的前提下降低審核成本,可以嘗試引入自動(dòng)化的審核功能。如在多人抄錄環(huán)節(jié)中,可以考慮引入機(jī)器自動(dòng)對(duì)比合并功能,以減少專家工作量,提高審核效率。
第一,關(guān)注用戶需求。大多數(shù)用戶希望獲得一定的物質(zhì)獎(jiǎng)勵(lì),以當(dāng)作持續(xù)參與項(xiàng)目的動(dòng)力。因此,組織機(jī)構(gòu)可以在調(diào)研志愿者需求的基礎(chǔ)上,適當(dāng)?shù)卦O(shè)置物質(zhì)獎(jiǎng)勵(lì),使物質(zhì)獎(jiǎng)勵(lì)和精神獎(jiǎng)勵(lì)有機(jī)結(jié)合。
第二,增強(qiáng)幫助機(jī)制。眾包抄錄項(xiàng)目有其特殊性,平臺(tái)上發(fā)布的抄錄任務(wù)具有一定的難度,需要用戶有一定的知識(shí)背景和能力水平,在這種情況下,想要使用戶持續(xù)在平臺(tái)參與抄錄任務(wù)且不被難度勸退,增強(qiáng)平臺(tái)的反饋機(jī)制和幫助機(jī)制是關(guān)鍵。
第三,營(yíng)造參與者社群。有用戶表示在參與的過(guò)程中,認(rèn)識(shí)到了志同道合的朋友,且對(duì)這個(gè)圈子產(chǎn)生了歸屬感,因此可以通過(guò)營(yíng)造參與者社群,增強(qiáng)用戶的這種歸屬感和使命感。機(jī)構(gòu)可以定期組織用戶進(jìn)行線上或線下的交流討論活動(dòng),如線上的歷史文獻(xiàn)研討會(huì)、線下的真跡手稿展覽觀摩等。
第一,繼續(xù)加強(qiáng)機(jī)構(gòu)間合作力度。歷史文獻(xiàn)眾包平臺(tái)作為一個(gè)開(kāi)放眾包平臺(tái),本身就可以供其他有需求的機(jī)構(gòu)開(kāi)展眾包活動(dòng),若能與此類機(jī)構(gòu)建立長(zhǎng)期且穩(wěn)定的合作關(guān)系,就能把其本身自帶的用戶轉(zhuǎn)換為整個(gè)平臺(tái)的用戶,以達(dá)到擴(kuò)大用戶群體的目的;與社會(huì)機(jī)構(gòu)的活動(dòng)性合作,可以豐富抄錄活動(dòng)的內(nèi)容,增強(qiáng)趣味性,以達(dá)到提高吸引力的目的,如項(xiàng)目初期與南大的合作。
第二,進(jìn)行多渠道宣傳。多渠道宣傳可分為線下宣傳和線上宣傳,線下如舉辦展覽、參觀等,線上特指社交媒體,機(jī)構(gòu)可以利用社交媒體在信息傳播方面的獨(dú)特優(yōu)勢(shì),吸引公眾參與,如在微博、微信公眾號(hào)等大眾社交平臺(tái)進(jìn)行項(xiàng)目的前期宣傳、參與者報(bào)名以及成果展示等活動(dòng);又如在知乎等網(wǎng)絡(luò)社群類軟件中,開(kāi)設(shè)專題版塊,為參與眾包項(xiàng)目的用戶提供專屬討論空間,以便其相互交流心得體驗(yàn)。
第三,創(chuàng)新個(gè)性化推廣。在推廣上不要只局限于項(xiàng)目本身,有時(shí)應(yīng)跳脫出來(lái),從資源內(nèi)容上著手。盛宣懷檔案資源以形式多樣、保存完備著稱,機(jī)構(gòu)應(yīng)多加利用現(xiàn)有的檔案資源,如書(shū)信、日記等,還原出一個(gè)個(gè)生動(dòng)有趣的故事,同時(shí)可以與傳媒行業(yè)合作,把盛宣懷的歷史故事制作成紀(jì)錄片等影視作品,將冷冰冰的歷史檔案賦予溫度,以一種個(gè)性化的形象呈現(xiàn)在大眾面前,從而提升知名度。
當(dāng)前我國(guó)國(guó)民科學(xué)人文素養(yǎng)還有待加強(qiáng),而提升國(guó)民的科學(xué)人文素養(yǎng)也是人文眾包的訴求之一。大眾科學(xué)人文素養(yǎng)的積累是個(gè)漫長(zhǎng)的過(guò)程,上圖已經(jīng)踏出了堅(jiān)實(shí)的一步,舉辦的開(kāi)放數(shù)據(jù)競(jìng)賽旨在征集社會(huì)大眾利用開(kāi)放數(shù)據(jù)和各種技術(shù)做出具有創(chuàng)意和可用性的人文產(chǎn)品,在參與競(jìng)賽的過(guò)程中和產(chǎn)品的落地推廣過(guò)程中都起到了向大眾傳播優(yōu)秀文化的效果。