陳超天
(廣州圖書(shū)館,廣東 廣州 510632)
大數(shù)據(jù)概念提出人阿爾文·托夫勒(Alvin Toffler)早在1980年指出 “社會(huì)記憶永久存在”[1]。Web Archive(網(wǎng)絡(luò)信息資源存檔,簡(jiǎn)稱(chēng)WA)則是實(shí)踐意義上的社會(huì)記憶。對(duì)于社會(huì)記憶的管理與塑造是網(wǎng)絡(luò)意識(shí)形態(tài)工作的重中之重。傳統(tǒng)意義上的WA是指一種在 “原生性” 網(wǎng)絡(luò)信息資源的整個(gè)生命周期內(nèi)對(duì)其進(jìn)行有目的地評(píng)價(jià)、選擇、采集、描述、元數(shù)據(jù)表示、存儲(chǔ)、發(fā)布和維護(hù)等一系列工作,以確保其當(dāng)前可用和未來(lái)價(jià)值增值的管理活動(dòng)[2]。筆者所討論的社交媒體Web Archive則是僅對(duì)于社交媒體方面的內(nèi)容進(jìn)行這些管理活動(dòng)。
社交媒體(SocialMedia)一般意義上是指建立在互聯(lián)網(wǎng)技術(shù)基礎(chǔ)上的互動(dòng)社區(qū)[3]。其數(shù)據(jù)有著數(shù)據(jù)來(lái)源(用戶(hù))龐雜[4]、非結(jié)構(gòu)化[5]、數(shù)量大(占互聯(lián)網(wǎng)大數(shù)據(jù)的80%[6])、具有完善的研究框架(如SNA)等特征。
社交媒體對(duì)于世界的政治、經(jīng)濟(jì)、文化都有著極強(qiáng)的影響力。在政治方面,David S.Morris在ACM上指出,Twitter等社交媒體平臺(tái)在特朗普當(dāng)選美國(guó)總統(tǒng)的競(jìng)選過(guò)程中發(fā)揮了關(guān)鍵作用[7]。在經(jīng)濟(jì)方面,學(xué)者常通過(guò)針對(duì)社交媒體的情緒分析維護(hù)商業(yè)名譽(yù)[8]。在文化方面,清博大數(shù)據(jù)2018年12月19日微信公眾號(hào)影響力總榜[9]可知各類(lèi)社群媒體篇均閱讀量大多已為10萬(wàn)以上,榜首月總閱讀量已達(dá)到0.7億次,也即年總閱讀量約為8.4億次,遠(yuǎn)遠(yuǎn)超越了普通紙質(zhì)資源和普通電子資源的文化影響力。此外,其還能作為歷史研究的研究基礎(chǔ)[10]。
基于社交媒體在各領(lǐng)域的巨大價(jià)值,國(guó)際社會(huì)早已建立了諸如美國(guó)國(guó)會(huì)圖書(shū)館Twitter檔案館項(xiàng)目[11]、英國(guó)國(guó)家圖書(shū)館的UKWA[12]等先驅(qū)WA項(xiàng)目。WA項(xiàng)目在國(guó)內(nèi)外發(fā)展迅速,截至2018年4月,據(jù)維基百科不完全統(tǒng)計(jì),國(guó)際上已有約80余個(gè)成功實(shí)施的WA項(xiàng)目。在國(guó)內(nèi)相關(guān)領(lǐng)域,白美程等通過(guò)普賴(lài)斯邏輯曲線(xiàn)增長(zhǎng)理論指出,國(guó)內(nèi)WA項(xiàng)目領(lǐng)域整體已從引入期和發(fā)展期過(guò)渡到相對(duì)成熟的探索期[13]。因此,構(gòu)建適應(yīng)我國(guó)發(fā)展實(shí)際的可持續(xù)的社交媒體WA項(xiàng)目是必要的。
2.1.1 社交媒體的控制主體
2.1.2 社交媒體的執(zhí)行主體
社交媒體的執(zhí)行主體應(yīng)以圖書(shū)館、檔案館為主,以民間機(jī)構(gòu)及個(gè)人為輔。圖書(shū)館、檔案館是國(guó)外社交媒體WA項(xiàng)目的現(xiàn)行執(zhí)行主體,但卻存在隱私權(quán)法律法規(guī)變更、成本愈加增大、品種單調(diào)、不能完全開(kāi)放給公眾使用等問(wèn)題。哪怕國(guó)際上最有代表性的社交媒體WA項(xiàng)目——美國(guó)國(guó)會(huì)圖書(shū)館Twitter存檔項(xiàng)目也不例外。在諸如美國(guó)加州第568號(hào)法案(著名的 “橡皮檫” 法案[15])、《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,簡(jiǎn)稱(chēng)GDPR)[16]等保護(hù)用戶(hù)的 “被遺忘權(quán)” 的法律與條例被頒布后,社交媒體WA項(xiàng)目更是舉步維艱?!吨腥A人民共和國(guó)網(wǎng)絡(luò)安全法》[17]頒布后,基于民間有著良好的珍貴文獻(xiàn)(包括紙質(zhì)和電子文獻(xiàn))保存習(xí)慣,民間機(jī)構(gòu)與個(gè)人通過(guò)Pagefreezer,WebPreserver等統(tǒng)一化保存解決方案也能在合乎現(xiàn)有法律法規(guī)的前提下對(duì)于官方社交媒體WA項(xiàng)目提供補(bǔ)充。
2.2.1 存儲(chǔ)架構(gòu)設(shè)計(jì)
存儲(chǔ)架構(gòu)設(shè)計(jì)是目前所有WA項(xiàng)目建設(shè)時(shí)最先需要考慮的技術(shù)問(wèn)題,其整體架構(gòu)設(shè)計(jì)主要需要考慮如何規(guī)劃存儲(chǔ)空間、如何確定存儲(chǔ)數(shù)據(jù)的格式以及如何保證 “被遺忘權(quán)” 。
2.2.1.1 存儲(chǔ)空間規(guī)劃
存儲(chǔ)架構(gòu)設(shè)計(jì)是目前所有WA項(xiàng)目建設(shè)時(shí)最先考慮到的技術(shù)問(wèn)題。不妨將整體架構(gòu)設(shè)計(jì)問(wèn)題細(xì)化為幾個(gè)容易解決的問(wèn)題——存儲(chǔ)哪些內(nèi)容、所需存儲(chǔ)空間是否能夠承受、如何規(guī)劃存儲(chǔ)空間、存儲(chǔ)數(shù)據(jù)的格式如何以及如何保證 “被遺忘權(quán)” 。
以合法為前提,應(yīng)盡可能存儲(chǔ)所有可開(kāi)放獲取的原始社交媒體數(shù)據(jù),而不是加工后的成品數(shù)據(jù)或需要額外授權(quán)的媒體數(shù)據(jù)(如付費(fèi)、隱私等)。盡管IFLA在國(guó)際圖聯(lián)圖書(shū)館員和其他信息工作者道德規(guī)范中說(shuō)明,圖書(shū)館員和其他信息工作者的目標(biāo)是為用戶(hù)提供公平、快速、經(jīng)濟(jì)和有效的信息訪(fǎng)問(wèn)[18]。但實(shí)際情況是,國(guó)際上包含美國(guó)國(guó)會(huì)圖書(shū)館(Library of Congress,簡(jiǎn)稱(chēng)LOC)、中國(guó)國(guó)家圖書(shū)館、澳大利亞國(guó)家圖書(shū)館等WA項(xiàng)目執(zhí)行主體在內(nèi)的多家機(jī)構(gòu),都逐漸開(kāi)始僅收集政治或社會(huì)性事件的社交媒體數(shù)據(jù)[19-20],而不再選擇全量保存原始數(shù)據(jù)或不再開(kāi)放訪(fǎng)問(wèn)。眾所周知,已經(jīng)匯聚成專(zhuān)題的數(shù)據(jù)的潛在可挖掘價(jià)值遠(yuǎn)不如原始數(shù)據(jù)大。是什么原因?qū)е赂鞔髨?zhí)行主體放棄收集全量數(shù)據(jù)呢?是成本。在能夠承受成本的前提下,理應(yīng)盡可能多、盡可能全地存儲(chǔ)原始數(shù)據(jù)。這樣才能在未來(lái)希望研究新的主題時(shí),更好地建立專(zhuān)題數(shù)據(jù)研究庫(kù)。那么,我們是否能夠存儲(chǔ)如此海量的數(shù)據(jù)呢?
如果需要盡可能多地存儲(chǔ)原始數(shù)據(jù),所需的存儲(chǔ)空間筆者認(rèn)為是完全能夠承受的。以2013年LOC TwitterWA項(xiàng)目白皮書(shū)[21]內(nèi)的存儲(chǔ)方案為例,其存儲(chǔ)的方式分為三步:每收集1小時(shí)的數(shù)據(jù)上傳一次臨時(shí)服務(wù)器、檢查新生成的文件完整性并歸檔至數(shù)據(jù)磁帶、刪除臨時(shí)服務(wù)器內(nèi)的文件。該項(xiàng)目2006年至2010年的1700億條全量源數(shù)據(jù)也不過(guò)66.2TB,而2022年7月Quantum Ultrium LTO 9數(shù)據(jù)磁帶的單價(jià)約1200元人民幣,每個(gè)可存儲(chǔ)45TB數(shù)據(jù),也即存儲(chǔ)6份LOC Twitter項(xiàng)目的5年備份也不過(guò)1萬(wàn)元人民幣而已。按照第六次全國(guó)縣級(jí)以上公共圖書(shū)館評(píng)估中省級(jí)(副省級(jí))圖書(shū)館等級(jí)必備條件可知[22],1萬(wàn)元僅為東部省級(jí)一級(jí)圖書(shū)館的年度最低撥款的16.7‰。如果僅是全量保存數(shù)據(jù)的,這是中國(guó)任意一個(gè)省級(jí)(含副?。^都完全能夠承受。但若全部數(shù)據(jù)都存放在數(shù)據(jù)磁帶,又會(huì)面臨和LOC一樣的問(wèn)題——如何保證讀取速度。
計(jì)算機(jī)存儲(chǔ)介質(zhì)的存取數(shù)據(jù)越快、可靠性越高,則價(jià)格一般也就越貴。目前業(yè)界高可用系統(tǒng)的存儲(chǔ)方案一般以訪(fǎng)問(wèn)頻次將數(shù)據(jù)分為三類(lèi)處理:熱數(shù)據(jù)、溫?cái)?shù)據(jù)、冷數(shù)據(jù)。訪(fǎng)問(wèn)頻次越高代表數(shù)據(jù)越 “熱” ,越要把昂貴的存儲(chǔ)介質(zhì)分配給它。但是對(duì)于WA數(shù)據(jù)而言,大多是低價(jià)值密度數(shù)據(jù),必然會(huì)存在海量的長(zhǎng)時(shí)間內(nèi)不會(huì)被訪(fǎng)問(wèn)的數(shù)據(jù)。如果放在磁帶庫(kù)讀取過(guò)于慢、放在廠(chǎng)家的高可用存儲(chǔ)又太貴、放在圖書(shū)館自有的較廉價(jià)的存儲(chǔ)可能又不夠穩(wěn)定。IPFS(Inter Planetary File System,星際文件系統(tǒng))則在可靠性、讀寫(xiě)速率、成本三者之間達(dá)成了平衡。IPFS是一種結(jié)合了區(qū)塊鏈、版本控制系統(tǒng)Git、BitTorrent、系統(tǒng)分布式哈希和自認(rèn)證文件系統(tǒng)的分布式文件存儲(chǔ)協(xié)議。國(guó)內(nèi)已有學(xué)者嘗試性地將IPFS運(yùn)用于短視頻分享平臺(tái)的構(gòu)建上,并取得了良好的理論數(shù)據(jù)結(jié)果[23]。綜上,將不同價(jià)格的存儲(chǔ)整合在一起(見(jiàn)表1),則可建立起一套以熱度區(qū)分的存儲(chǔ)空間規(guī)劃方案。
幾天過(guò)后,成績(jī)發(fā)下來(lái)了,其他成績(jī)還行,唯有英文不及格。媽媽若有所悟地說(shuō):“這也難怪,孔夫子不懂英文,下次我再去求求上帝保佑就好了”
表1 以熱度區(qū)分的存儲(chǔ)空間規(guī)劃方案
2.2.1.2 確定存儲(chǔ)數(shù)據(jù)的格式
抖音、微博、知乎的社交媒體的數(shù)據(jù)一般由人員信息(發(fā)布人員、交互人員)、發(fā)布內(nèi)容(含多媒體信息,如文本、視頻、地點(diǎn)等)、交互行為(如點(diǎn)贊、轉(zhuǎn)發(fā)等)共3個(gè)部分組成。不妨針對(duì)上述3個(gè)部分建立實(shí)體,以人員、內(nèi)容、行為為基礎(chǔ)構(gòu)建最基礎(chǔ)的通用元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)來(lái)進(jìn)行儲(chǔ)存。因?yàn)樵紨?shù)據(jù)較為完整,用戶(hù)需要使用時(shí),可實(shí)時(shí)通過(guò)ETL框架抽取并建立特殊的專(zhuān)題格式或者其他類(lèi)型的數(shù)據(jù)形式。當(dāng)專(zhuān)題數(shù)據(jù)擁有商業(yè)或科研價(jià)值后,如果有用戶(hù)愿意支付存儲(chǔ)的成本,可再以該專(zhuān)題的特有格式建立數(shù)據(jù)更新機(jī)制,保證專(zhuān)題數(shù)據(jù)的穩(wěn)定性。
2.2.1.3 “被遺忘權(quán)” 的保護(hù)
社交媒體WA項(xiàng)目中用戶(hù) “被遺忘權(quán)” 的保護(hù)也是諸多法律學(xué)界、圖書(shū)情報(bào)學(xué)界學(xué)者[24]的關(guān)注重點(diǎn)。 “被遺忘權(quán)” 在我國(guó)的實(shí)現(xiàn)方式是通過(guò)用戶(hù)的舉證來(lái)刪除用戶(hù)曾公開(kāi)的或被公開(kāi)信息。盡管IFLA曾呼吁在歷史記錄中保存?zhèn)€人身份信息[25],但對(duì)于大規(guī)模的社交媒體WA項(xiàng)目,最好能對(duì)人員信息實(shí)體附加可舉證但不可破解的特征,如將用戶(hù)ID等內(nèi)容通過(guò)摘要函數(shù)隱藏起來(lái)等。一方面,當(dāng)WA項(xiàng)目用戶(hù)使用數(shù)據(jù)時(shí)無(wú)法將已經(jīng)通過(guò)摘要函數(shù)隱藏的用戶(hù)信息還原成實(shí)際可讀的信息,保證了讀者的隱私權(quán);另一方面,用戶(hù)能夠通過(guò)原有的ID信息舉證自身對(duì)于信息的擁有權(quán),從而向項(xiàng)目方提出刪除申請(qǐng),保證了讀者的 “被遺忘權(quán)” 。需要注意的是,中國(guó)關(guān)于 “被遺忘權(quán)” 的法律條文,沒(méi)有對(duì)刪除的時(shí)間進(jìn)行要求。對(duì)于用戶(hù)提出的刪除請(qǐng)求,項(xiàng)目執(zhí)行主體完全可以維護(hù)一條刪除消息隊(duì)列,根據(jù)技術(shù)架構(gòu)特點(diǎn)和存儲(chǔ)數(shù)據(jù)的冷熱流動(dòng)情況定期完成刪除操作。
綜上所述,筆者從幾個(gè)方面簡(jiǎn)要描述了整體的存儲(chǔ)架構(gòu),但實(shí)際上仍存在部分問(wèn)題沒(méi)有被提及,比如如何讓用戶(hù)加入基于IPFS的存儲(chǔ)共享平臺(tái)、整體存儲(chǔ)架構(gòu)與圖書(shū)館無(wú)關(guān)、整體服務(wù)與系統(tǒng)的運(yùn)營(yíng)成本由誰(shuí)承擔(dān)等。這些問(wèn)題應(yīng)該通過(guò)社交媒體WA項(xiàng)目的開(kāi)放平臺(tái)架構(gòu)設(shè)計(jì)來(lái)解決。
無(wú)論是出于商業(yè)、科研、政治安全還是其他的原因,所有的社交媒體WA項(xiàng)目的最終目的還是為了提供給用戶(hù)使用。在上述提到的存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)的基礎(chǔ)上,還需要有完整的數(shù)據(jù)層、業(yè)務(wù)層、前端展示層,才能完成從數(shù)據(jù)儲(chǔ)存到用戶(hù)的使用。
在數(shù)據(jù)層,需要實(shí)現(xiàn)存、轉(zhuǎn)、納、用4個(gè)功能。首先,存是指能夠被動(dòng)接收或主動(dòng)拉取社交媒體數(shù)據(jù)存入數(shù)據(jù)磁帶,保證所有的社交媒體數(shù)據(jù)至少有一個(gè)以上的數(shù)據(jù)磁帶備份。其次,轉(zhuǎn)是指當(dāng)有數(shù)據(jù)被申請(qǐng)調(diào)用時(shí),能夠支持冷數(shù)據(jù)(數(shù)據(jù)磁帶)向溫?cái)?shù)據(jù)(IPFS)的轉(zhuǎn)換,也即將數(shù)據(jù)磁帶里的數(shù)據(jù)轉(zhuǎn)換到IPFS內(nèi)可供快速讀寫(xiě)的分布式數(shù)據(jù)。再次,納是指參加WA項(xiàng)目的所有圖書(shū)館或志愿參加的其他用戶(hù)能夠支持IPFS的存儲(chǔ)介質(zhì)需要納入整體的IPFS體系中。最后,用是指能夠提供數(shù)據(jù)ETL功能的能力接口,可供用戶(hù)調(diào)用ETL接口生成知識(shí)圖譜、社交網(wǎng)絡(luò)分析等高級(jí)應(yīng)用。此外,需要注意的是,負(fù)責(zé)統(tǒng)籌項(xiàng)目圖書(shū)館僅需要保存不可直接使用的極度廉價(jià)的數(shù)據(jù)磁盤(pán)內(nèi)的全量源數(shù)據(jù)。當(dāng)有科研任務(wù)到達(dá)時(shí),需要支付代幣作為酬勞,而志愿加入IPFS的圖書(shū)館或其他機(jī)構(gòu)或用戶(hù)提供存儲(chǔ)空間并獲得代幣。當(dāng)志愿加入的個(gè)體不足時(shí),數(shù)據(jù)層應(yīng)該按照使用量從低到高的順序刪除IPFS體系內(nèi)的數(shù)據(jù)。IPFS的特性是,覆蓋網(wǎng)絡(luò)越大整個(gè)存儲(chǔ)系統(tǒng)越穩(wěn)定,需要用于 “激勵(lì)” 參與用戶(hù)的代幣(同樣任務(wù)情況下)越少。這樣就能保證在用戶(hù)增多的情況下,成本變少。
在數(shù)據(jù)層之上的業(yè)務(wù)層,需要有一套完整的類(lèi)似于BOINC的分布式計(jì)算平臺(tái),需要能夠基于數(shù)據(jù)層提供的接口和協(xié)議完成計(jì)算任務(wù)的分發(fā),且實(shí)現(xiàn)用戶(hù)激勵(lì)機(jī)制。當(dāng)用戶(hù)量和使用量增加時(shí),所需要的技術(shù)支撐成本也將增加。隨著項(xiàng)目的使用群體越來(lái)越多,總會(huì)超出執(zhí)行主體能夠承受的極限。因此,需要考慮建立一種可持續(xù)的存儲(chǔ)和開(kāi)放平臺(tái)技術(shù)架構(gòu),能夠?qū)崿F(xiàn)使用群體越多成本越低的目標(biāo)。美國(guó)加州大學(xué)伯克利分校運(yùn)營(yíng)的伯克利開(kāi)放式網(wǎng)絡(luò)計(jì)算平臺(tái)(Berkeley Open Infrastructure for Network Computing,簡(jiǎn)稱(chēng)BOINC)和IPFS是目前最為符合使用群體越多成本越低的開(kāi)放平臺(tái)和存儲(chǔ)底層技術(shù)架構(gòu)。BOINC采用的是具有分散通信、計(jì)算和存儲(chǔ)但又控制集中的分布式計(jì)算網(wǎng)絡(luò)。用戶(hù)自愿加入網(wǎng)絡(luò)后,可以將個(gè)人PC的算力共享給BOINC,而B(niǎo)OINC會(huì)將用戶(hù)做出的貢獻(xiàn)轉(zhuǎn)化為積分(或者可以稱(chēng)為代幣)。在此過(guò)程中,算力任務(wù)在分布式計(jì)算引擎的規(guī)劃下,下發(fā)給各個(gè)節(jié)點(diǎn)進(jìn)行運(yùn)算,最終整合為項(xiàng)目所需的計(jì)算結(jié)果。IPFS也支持通過(guò)開(kāi)發(fā)方式增加代幣激勵(lì)機(jī)制。隨著項(xiàng)目的使用群體越來(lái)越多,每個(gè)科研或商業(yè)項(xiàng)目的平均成本就會(huì)降低,而由于使用用戶(hù)負(fù)擔(dān)了項(xiàng)目的成本,作為執(zhí)行主體的圖書(shū)館只需要支撐整個(gè)平臺(tái)的 “交易” 服務(wù)即可。
代幣機(jī)制的運(yùn)營(yíng)一般基于一個(gè)已存在的用戶(hù)群體,需要能夠有一套完整的代幣消耗閉環(huán),而圖書(shū)館就是一個(gè)能夠提供用戶(hù)群體和閉環(huán)的完美執(zhí)行主體。中國(guó)有969個(gè)擁有 “一級(jí)圖書(shū)館” 等級(jí)的公共圖書(shū)館和147所雙一流高校的高校圖書(shū)館[26],公共圖書(shū)館擁有龐大的用戶(hù)群體,而高校館擁有龐大的科研用戶(hù)群體。以高校項(xiàng)目資金為代幣購(gòu)買(mǎi)方,以圖書(shū)館用戶(hù)群體為算力與存儲(chǔ)基礎(chǔ),輔以圖書(shū)館的冷數(shù)據(jù)存儲(chǔ)和較高要求的高可用存儲(chǔ)集群,足以支撐起整體的技術(shù)框架運(yùn)營(yíng)。
故此,結(jié)合存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)部分的內(nèi)容,可以建立一個(gè)整體架構(gòu)(如圖1)。
圖1 系統(tǒng)架構(gòu)
盡管類(lèi)似于BOINC的分布式科研計(jì)算平臺(tái)已經(jīng)在學(xué)術(shù)界非常著名,但是在國(guó)內(nèi)圖書(shū)館界還少有人知曉。不僅如此,我國(guó)雖然擁有較大的圖書(shū)館用戶(hù)群體,但愿意志愿提供存儲(chǔ)與算力的用戶(hù)應(yīng)不會(huì)太多。因此,在項(xiàng)目開(kāi)展的前期,作為執(zhí)行主體的圖書(shū)館不僅需要支出構(gòu)建整個(gè)平臺(tái)的存儲(chǔ)和算力成本,還需要提供強(qiáng)有力的運(yùn)營(yíng)推廣支持。