吳振新,寇晶晶,單嵩巖,張潤(rùn)杰
(1.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心;2.中國(guó)科學(xué)院大學(xué)圖書情報(bào)與檔案管理系;3.國(guó)際關(guān)系學(xué)院圖書館;4.首都經(jīng)濟(jì)貿(mào)易大學(xué)信息學(xué)院)
隨著全球數(shù)字化進(jìn)程進(jìn)一步加快,越來(lái)越多行業(yè)、領(lǐng)域的信息以數(shù)字方式生成,并以唯一形式存在,但數(shù)字信息資源的保存和使用面臨生命周期短、易被更改、嚴(yán)重依賴環(huán)境等風(fēng)險(xiǎn),同時(shí)還易受自然災(zāi)害、戰(zhàn)爭(zhēng)和國(guó)際政治秩序變革等因素的影響。因此,數(shù)字信息資源的長(zhǎng)期保存已經(jīng)成為各機(jī)構(gòu)戰(zhàn)略資源管理的重要舉措,并逐步成為各國(guó)國(guó)家信息安全的重要內(nèi)容。
2004年起,數(shù)字資源長(zhǎng)期保存國(guó)際會(huì)議[1](Inter nationalConferenceonDigitalPreservation,iPRES) 每年一屆在亞、美、歐三大洲輪流舉辦,成為數(shù)字資源長(zhǎng)期保存領(lǐng)域展示成果、宣傳理念、學(xué)術(shù)推介、合作共享的專業(yè)平臺(tái),對(duì)全球數(shù)字資源長(zhǎng)期保存理論和實(shí)踐發(fā)展起到了積極的推動(dòng)作用。我國(guó)研究人員一直關(guān)注和追蹤著該會(huì)議的情況。[2-8]鑒于iPRES在長(zhǎng)期保存領(lǐng)域的重要作用和前瞻性,本文旨在通過(guò)對(duì)2008-2017年iPRES會(huì)議論文的統(tǒng)計(jì)和分析,把握國(guó)際長(zhǎng)期保存的研究重點(diǎn)和發(fā)展趨勢(shì),揭示研究熱點(diǎn)、難點(diǎn)、未來(lái)發(fā)展趨勢(shì)和國(guó)際合作狀況,以期為我國(guó)數(shù)字資源長(zhǎng)期保存的發(fā)展提供參考。
文章以2008-2017年的iPRES會(huì)議論文為數(shù)據(jù)來(lái)源,使用分析工具對(duì)其進(jìn)行初步分析和挖掘。
對(duì)2008-2017年iPRES的會(huì)議成果(不包含PPT等非論文性質(zhì)的產(chǎn)出)進(jìn)行初步統(tǒng)計(jì)(見(jiàn)表1)??梢钥闯?,iPRES的論文產(chǎn)出在2016年之前處于較為平穩(wěn)的上升狀態(tài),2017年出現(xiàn)了急劇下滑。
表1 2008-2017年論文發(fā)表數(shù)量
為了更準(zhǔn)確地了解當(dāng)前數(shù)字資源長(zhǎng)期保存領(lǐng)域的概況,文章在表1的基礎(chǔ)上進(jìn)行了更深層次、更多角度的挖掘和分析,旨在挖掘出具有研究潛力和較強(qiáng)學(xué)術(shù)發(fā)展趨勢(shì)的個(gè)人、機(jī)構(gòu)和國(guó)家,為研究數(shù)字資源長(zhǎng)期保存領(lǐng)域的學(xué)者或關(guān)注長(zhǎng)期保存領(lǐng)域的個(gè)人提供參考。合作分析是掌握當(dāng)前研究發(fā)展趨勢(shì)的重要途徑之一,主要研究不同作者、國(guó)家及機(jī)構(gòu)之間的合作情況,通過(guò)合作分析可以發(fā)現(xiàn)當(dāng)前研究的聚焦點(diǎn)。
1.2.1 作者發(fā)文及合作分析
筆者對(duì)534篇文章的作者進(jìn)行了統(tǒng)計(jì)(對(duì)同一作者不同署名進(jìn)行了確認(rèn)和歸一),得到了2008-2017年長(zhǎng)期保存領(lǐng)域發(fā)文量Top20的作者(見(jiàn)表2),并對(duì)發(fā)文量Top10的作者其歷年發(fā)文量做了統(tǒng)計(jì)和分析(見(jiàn)表 3)。
表2 2008-2017年發(fā)文量Top20的作者
(1)分析2008-2017年發(fā)文量Top20作者可知,德國(guó)費(fèi)賴堡大學(xué)共4人發(fā)文50篇/次,奧地利維也納技術(shù)大學(xué)共2人發(fā)文25篇/次,英國(guó)樸次茅斯大學(xué)共2人發(fā)文16篇/次,英國(guó)數(shù)字保存中心DPC共2人發(fā)文15篇/次,此外還涉及國(guó)家級(jí)圖書館4個(gè)、大學(xué)4所。從國(guó)家層面看,美國(guó)、英國(guó)、德國(guó)、奧地利獨(dú)領(lǐng)風(fēng)騷,均有高產(chǎn)作者。
(2)由近五年發(fā)文比重可以快速得知近五年來(lái)較為活躍的作者,避免因過(guò)度關(guān)注發(fā)文總量和長(zhǎng)期積累量而忽略現(xiàn)實(shí)活躍度的情況,相當(dāng)于從時(shí)效性角度對(duì)發(fā)文總量做了補(bǔ)充。由表3可知,Andrea Goethals雖然總發(fā)文量?jī)H有8篇,但有7篇發(fā)表在了近五年的會(huì)議上,基本上可以認(rèn)為是近五年內(nèi)崛起的領(lǐng)域新秀;此外,還有A.Lee Christopher(總發(fā)文量13篇,近五年發(fā)文10篇)、Eld Zierau(總發(fā)文量13篇,近五年發(fā)文9篇)、Rudolf Mayer(總發(fā)文量8篇,近五年發(fā)文5篇)等人,在今后的研究中都值得重點(diǎn)關(guān)注。
表3 2008-2017年發(fā)文量Top10作者歷年發(fā)文統(tǒng)計(jì)
(3)筆者分析了作者之間的合作共現(xiàn)情況,進(jìn)一步發(fā)現(xiàn)了有跟蹤價(jià)值的團(tuán)體。如,英國(guó)科學(xué)與技術(shù)設(shè)施理事會(huì)(Science and Technology Facilities Council,STFC)的BrianMatthews所在的小組、丹麥皇家圖書館的Eld Zierau所在的小組、英國(guó)數(shù)字保存聯(lián)盟(Digital Preservation Coalition,DPC) 的 Angela Dappert所在的小組等。
1.2.2 國(guó)家發(fā)文及合作分析
分析國(guó)家發(fā)文及合作情況有助于了解當(dāng)前哪些國(guó)家在該領(lǐng)域的投入和產(chǎn)出較多,有助于尋求國(guó)外的合作伙伴,借鑒其成功經(jīng)驗(yàn)。在對(duì)國(guó)家發(fā)文進(jìn)行統(tǒng)計(jì)之前,筆者對(duì)國(guó)家名稱數(shù)據(jù)進(jìn)行了清洗:① 對(duì)同一國(guó)家名稱寫法不同的問(wèn)題進(jìn)行了處理,如合并Netherlands和the Netherlands;② 對(duì)聯(lián)邦國(guó)家的名稱進(jìn)行了合并,如將北愛(ài)爾蘭、威爾士、英格蘭、蘇格蘭以及聯(lián)合王國(guó)等統(tǒng)一著錄為United Kingdom。
(1)表4為2008-2017年發(fā)文量Top20的國(guó)家,與高產(chǎn)作者情況非常一致,美國(guó)、英國(guó)、德國(guó)、奧地利等位居前列。
表4 2008-2017年發(fā)文量Top20的國(guó)家
(2)筆者研究了國(guó)家之間的合作共現(xiàn)情況(見(jiàn)圖1)。圖中畫圈代表該國(guó)家的中心度較高,即在一定程度上與其他國(guó)家的合作較頻繁??梢园l(fā)現(xiàn),美國(guó)、德國(guó)、新西蘭、荷蘭和丹麥的中心度較高,與世界其他國(guó)家合作相對(duì)頻繁,在世界范圍內(nèi)具有較高的影響力。其中,丹麥雖然發(fā)文總量較上述幾個(gè)國(guó)家處于弱勢(shì),但其中心度最高,也就是說(shuō)其合作強(qiáng)度高于其他國(guó)家,在世界范圍內(nèi)比較活躍,合作范圍比較廣泛。相比之下,我國(guó)的發(fā)文量少,合作國(guó)家僅有德國(guó)。發(fā)文量少說(shuō)明我國(guó)對(duì)數(shù)字資源長(zhǎng)期保存領(lǐng)域的關(guān)注度、投入和產(chǎn)出都處于劣勢(shì);合作國(guó)家單一說(shuō)明了我國(guó)在該領(lǐng)域的國(guó)際影響力和國(guó)家合作度均較低,未來(lái)應(yīng)努力加強(qiáng)與世界其他國(guó)家的合作。
圖1 國(guó)家合作共現(xiàn)
1.2.3 機(jī)構(gòu)發(fā)文及合作分析
在對(duì)機(jī)構(gòu)發(fā)文進(jìn)行統(tǒng)計(jì)之前,依據(jù)文章貢獻(xiàn)歸屬原則對(duì)機(jī)構(gòu)名稱數(shù)據(jù)進(jìn)行清洗,主要針對(duì)同一個(gè)機(jī)構(gòu)多種名稱寫法、不同語(yǔ)種、不同簡(jiǎn)稱等情況進(jìn)行合并,如一所高校的學(xué)院、分校、圖書館等都署名為該高校。由此,得到2008-2017年發(fā)文量Top20的機(jī)構(gòu)(見(jiàn)表 5)。
表5 2008-2017年發(fā)文量Top20的機(jī)構(gòu)
(1)由表5可以看出,發(fā)文量比較靠前的機(jī)構(gòu)有大英圖書館、北卡羅來(lái)納州立大學(xué)和維也納技術(shù)大學(xué)等。值得注意的是,大英圖書館的作者并未進(jìn)入作者發(fā)文Top20行列,這反映了大英圖書館的機(jī)構(gòu)發(fā)文量并不主要依靠個(gè)人,而是依賴于工作人員的廣泛參與,而北卡羅來(lái)納州立大學(xué)和維也納技術(shù)大學(xué)的機(jī)構(gòu)發(fā)文量則更加依賴于小團(tuán)隊(duì)的產(chǎn)出。因此,筆者認(rèn)為,雖然這3個(gè)機(jī)構(gòu)的發(fā)文量相當(dāng),但由于大英圖書館參與數(shù)字資源長(zhǎng)期保存研究的人員較多、與其他機(jī)構(gòu)的合作也更為廣泛而更具優(yōu)勢(shì)。在全球化的趨勢(shì)之下,這種機(jī)構(gòu)的生命力更強(qiáng),具有較強(qiáng)的研究可持續(xù)性,出現(xiàn)研究斷層的風(fēng)險(xiǎn)相對(duì)更低。
(2)從機(jī)構(gòu)類型上看,包括10所大學(xué)、7所國(guó)家級(jí)圖書館和3個(gè)研究機(jī)構(gòu)。10所大學(xué)中美國(guó)占了7所,英國(guó)、德國(guó)、奧地利各1所;3所研究機(jī)構(gòu)都屬歐盟國(guó)家。僅從數(shù)量上看,美國(guó)的參與機(jī)構(gòu)更為廣泛且成果較多,歐盟次之。而國(guó)家級(jí)圖書館正逐漸成為開(kāi)展數(shù)字資源長(zhǎng)期保存實(shí)踐的主力。
(3)筆者根據(jù)機(jī)構(gòu)間合作共現(xiàn)情況將其大致劃分為以下4個(gè)團(tuán)體。① 大英圖書館所在的機(jī)構(gòu)團(tuán)體。2008-2017年,主要與特塞拉(Tessella)公司、利茲大學(xué)、巴斯大學(xué)、Caixa Magica軟件開(kāi)展了合作。②北卡羅來(lái)納州立大學(xué)所在的機(jī)構(gòu)團(tuán)體。主要與印第安納大學(xué)、密歇根大學(xué)、布萊頓大學(xué)、DuraSpace等開(kāi)展了合作。③ 維也納技術(shù)大學(xué)的機(jī)構(gòu)團(tuán)體。主要與丹麥皇家圖書館、奧地利科技學(xué)院、INESC-ID、Secure Business Austria等開(kāi)展了合作。④ 德國(guó)費(fèi)賴堡大學(xué)的機(jī)構(gòu)團(tuán)體。主要與荷蘭國(guó)家檔案館、荷蘭國(guó)家圖書館、IBM、德國(guó)國(guó)家圖書館等開(kāi)展了合作。
為了進(jìn)一步窺探2008-2017年數(shù)字資源長(zhǎng)期保存領(lǐng)域的關(guān)注熱點(diǎn),并預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì),筆者通過(guò)可視化工具對(duì)關(guān)鍵詞的分布情況進(jìn)行了分析,并揭示了2008-2017年iPRES的研究主題。
在進(jìn)行關(guān)鍵詞統(tǒng)計(jì)時(shí),考慮到iPRES是一個(gè)關(guān)于長(zhǎng)期保存領(lǐng)域的會(huì)議,“長(zhǎng)期保存”出現(xiàn)的頻次會(huì)遠(yuǎn)超其他詞匯,為了避免遮蓋其他重要詞匯,筆者對(duì)“(long-term)preservation”做了過(guò)濾處理,得到關(guān)鍵詞頻次分布圖(見(jiàn)圖2)。可以看出,2008-2017年iPRES會(huì)議論文的關(guān)鍵詞主要有:digital repositories、 digital archives、metadata、OAIS、digitalcuration、digital objects、 software、 emulation、access等,并呈現(xiàn)出逐漸弱化的趨勢(shì),其他關(guān)鍵詞呈現(xiàn)“長(zhǎng)尾”狀,這在一定程度上說(shuō)明iPRES會(huì)議論文既顯示了比較集中的研究主題,同時(shí)涵蓋的研究?jī)?nèi)容也比較廣泛,形成了較為分散的“長(zhǎng)尾”型研究發(fā)展?fàn)顟B(tài)。
圖2 關(guān)鍵詞分布
關(guān)鍵詞是文獻(xiàn)核心內(nèi)容的集中概括,可以較好地反映某一研究領(lǐng)域的主題分布。關(guān)鍵詞和主題詞共現(xiàn)都可稱為共詞,是指利用文獻(xiàn)集中詞匯對(duì)或名詞短語(yǔ)共同出現(xiàn)的情況,確定該文獻(xiàn)集所代表學(xué)科中各主題之間的關(guān)系。一般認(rèn)為,詞匯對(duì)在同一篇文獻(xiàn)中出現(xiàn)的次數(shù)越多,則代表這兩個(gè)主題的關(guān)系越緊密,這種關(guān)系在可視化分析時(shí)會(huì)以網(wǎng)絡(luò)節(jié)點(diǎn)和邊的形式體現(xiàn)在共詞網(wǎng)絡(luò)中,用于反映主題內(nèi)容的親疏關(guān)系。[9]關(guān)鍵詞的共現(xiàn)可以幫助研究者預(yù)測(cè)當(dāng)前的研究熱點(diǎn)和趨勢(shì)。在圖2的基礎(chǔ)上,筆者利用CiteSpace軟件對(duì)關(guān)鍵詞的共現(xiàn)情況做了可視化分析(見(jiàn)圖3),發(fā)現(xiàn)中心性較高的關(guān)鍵詞有:digital repositories、digital curation、digital archives、 metadata、 infrastructure、 workflow、authenticity等,筆者選取中心性大于0.5的關(guān)鍵詞作為關(guān)鍵節(jié)點(diǎn)(見(jiàn)表6)。
圖3 關(guān)鍵詞可視化
2.2.1 數(shù)字資源長(zhǎng)期保存的系統(tǒng)和工具
從上述分析中可以發(fā)現(xiàn),“digital repositories(數(shù)字倉(cāng)儲(chǔ))”頻次最高、中心性較強(qiáng),數(shù)字倉(cāng)儲(chǔ)的重要性不言而喻?!癲igital repositories”實(shí)際上代表了長(zhǎng)期保存領(lǐng)域一個(gè)非常重要的研究問(wèn)題,本文將這部分研究稱為“長(zhǎng)期保存的系統(tǒng)和工具”,其中涉及的主要關(guān)鍵詞 包 括 “ digitalrepositories”“ tools”“systems”“software”,筆者以這幾個(gè)詞為代表,對(duì)數(shù)字資源長(zhǎng)期保存的系統(tǒng)和工具在2008-2017年間的變化做了統(tǒng)計(jì)分析(見(jiàn)圖4)。在這期間,以“數(shù)字倉(cāng)儲(chǔ)”為代表的系統(tǒng)和工具研究發(fā)展較為穩(wěn)定,呈現(xiàn)出螺旋上升的態(tài)勢(shì)。
表6 2008-2017年關(guān)鍵詞共現(xiàn)關(guān)鍵節(jié)點(diǎn)
圖4 2008-2017年會(huì)議系統(tǒng)和工具代表詞匯統(tǒng)計(jì)
值得注意的是,“software”的關(guān)注度在2008-2011年一直處于較低水平,但于2012年陡然升高且持續(xù)處于較高的水平。筆者認(rèn)為出現(xiàn)這種現(xiàn)象的一個(gè)重要原因是,隨著數(shù)字信息體量和類型的增加、技術(shù)的不斷更新,新一代或者滿足特殊需求的軟件及相關(guān)工具在逐漸更新,如 e-depot、Fedora、DAITSS、DSpace、ELAK、arxiv等系統(tǒng);同時(shí),許多新系統(tǒng)也在不斷出現(xiàn),如商業(yè)Ex Libris Rosetta長(zhǎng)期保存系統(tǒng),葡萄牙米尼奧大學(xué)開(kāi)發(fā)的兼具格式轉(zhuǎn)換、質(zhì)量評(píng)估和元數(shù)據(jù)生成服務(wù)的CRiB倉(cāng)儲(chǔ)系統(tǒng),[10]斯坦福大學(xué)開(kāi)發(fā)的、能夠支持存檔存儲(chǔ)庫(kù)和其他存儲(chǔ)機(jī)構(gòu)的電子郵件的評(píng)估、處理、發(fā)現(xiàn)和交付開(kāi)源軟件ePADD,[11]芬蘭CSC-IT科學(xué)中心開(kāi)發(fā)的可以滿足不同需求的模塊化預(yù)攝取工具,[12]可信賴的便攜式數(shù)字保存仿真平臺(tái)等。[13]
2.2.2 數(shù)字資源長(zhǎng)期保存的技術(shù)方法
技術(shù)方法作為數(shù)字資源長(zhǎng)期保存工作的實(shí)踐基礎(chǔ),是該領(lǐng)域研究的重要組成部分,長(zhǎng)期保存的技術(shù)方法是一個(gè)復(fù)雜多元的集合體,涉及技術(shù)流程、認(rèn)證評(píng)估、永久標(biāo)識(shí)符等方面。[14]根據(jù)對(duì)2008-2017年iPRES文獻(xiàn)的分析,筆者對(duì)數(shù)字資源長(zhǎng)期保存的技術(shù)和方法做了分類,每個(gè)類目的主要關(guān)鍵詞如下,歷年的關(guān)鍵詞頻次見(jiàn)圖5。
(1) 認(rèn)證評(píng)估:authenticity、audit、evaluation、qu ality assurance、 trust、 appraisal、 certification、 assessment。
(2)遷移取證仿真:migration/virtualization、digital forensics、emulation。
(3)永久標(biāo)識(shí)符PID:persistentidentifiers、Smarter Persistent Identifiers、Web Persistent Identifiers(wPID)、PURL、ARK、DOI、URN、HANDLE。
(4) 訪問(wèn):access、webaccess、permanentaccess。
(5) 云:cloud&cloudcomputing、Grid。
(6) 技術(shù)流程:pre-ingest、ingest、storage、acquisition、digitization、file format identification、 format identification、workflow。
(7)封裝格式:METS5、Bagit2。
(8) 語(yǔ)義:linkeddata、text processinganddatamining、ontologies、semantics。
(9) 監(jiān)測(cè):watch、monitoring、characterization、validation、characterization。
圖5 2008-2017年會(huì)議技術(shù)方法代表詞匯統(tǒng)計(jì)
可見(jiàn),“遷移取證仿真”“認(rèn)證評(píng)估”“技術(shù)流程”的出現(xiàn)頻次遠(yuǎn)超其他?!斑w移取證仿真”和“認(rèn)證評(píng)估”出現(xiàn)頻次在2011年之前趨于一致,并在2011年達(dá)到頂峰;之后“遷移取證仿真”的出現(xiàn)頻次有所下降,但趨于平穩(wěn),2016年關(guān)注度又一次陡升;“認(rèn)證評(píng)估”在2011年之后與“遷移取證仿真”的出現(xiàn)頻次拉開(kāi)了距離,但2012-2017年間受關(guān)注程度一直處于上升趨勢(shì),這與可信賴性一直是數(shù)字資源長(zhǎng)期保存持續(xù)關(guān)注的問(wèn)題有關(guān)。[15]技術(shù)流程作為保存?zhèn)}儲(chǔ)系統(tǒng)研發(fā)的主要內(nèi)容,其受關(guān)注度基本與保存?zhèn)}儲(chǔ)系統(tǒng)趨同,隨著新系統(tǒng)新工具的研發(fā),其關(guān)注度也在2016年達(dá)到最高。
“訪問(wèn)”“云技術(shù)”“永久標(biāo)識(shí)符”“封裝格式”“語(yǔ)義”“監(jiān)測(cè)”等的關(guān)注度相對(duì)低一些,其中,“封裝格式”的關(guān)注度在2009-2011年、2014-2016年內(nèi)出現(xiàn)了斷層,其他類目則一直或多或少地作為研究點(diǎn)活躍在歷年的iPRES會(huì)議上。這些類目雖然為數(shù)不多,但正在作為研究點(diǎn)逐漸受到研究人員的關(guān)注,很有可能成為未來(lái)研究的重點(diǎn)。數(shù)字資源長(zhǎng)期保存技術(shù)和方法的不斷擴(kuò)充和更迭告訴我們,隨著長(zhǎng)期保存面臨的挑戰(zhàn)增多、保存需求的日趨復(fù)雜,研究的技術(shù)方法會(huì)更加多樣、深入,更新也將更加頻繁。
2.2.3 長(zhǎng)期保存數(shù)字對(duì)象與元數(shù)據(jù)
數(shù)字對(duì)象與元數(shù)據(jù)一直以來(lái)都是數(shù)字資源長(zhǎng)期保存領(lǐng)域的基礎(chǔ)研究?jī)?nèi)容。在2008-2017年iPRES的會(huì)議論文中,數(shù)字對(duì)象的研究包括:digital objects、data dictionary、data model、content model、significant properties、conceptual models、SIP、AIP、DIP 等,雖然數(shù)量并不多,但每年的會(huì)議上都有所涉及。
相對(duì)數(shù)字對(duì)象,元數(shù)據(jù)受到了更多關(guān)注。從表6可知,“metadata”的中心性最高,與之密切相關(guān)的還有“PREMIS”“METS”“metadata extraction”“descriptive metadata”“representation information”等。其中,“PREMIS”保存元數(shù)據(jù)是目前數(shù)字信息資源長(zhǎng)期保存領(lǐng)域公認(rèn)的保存元數(shù)據(jù)標(biāo)準(zhǔn),在歷屆會(huì)議上都有相關(guān)主題的論文,近幾年以研討會(huì)(Workshop)或?qū)?chǎng)培訓(xùn)(Tutorial)的形式出現(xiàn),更大范圍地推廣使用PREMIS元數(shù)據(jù)體系。圖6統(tǒng)計(jì)了2008-2017年iPRES會(huì)議元數(shù)據(jù)的代表詞匯。
圖6 2008-2017年會(huì)議元數(shù)據(jù)代表詞匯統(tǒng)計(jì)
2.2.4 數(shù)字資源長(zhǎng)期保存標(biāo)準(zhǔn)規(guī)范
標(biāo)準(zhǔn)規(guī)范是數(shù)字資源長(zhǎng)期保存各個(gè)環(huán)節(jié)之間互操作的基礎(chǔ)和根基,它貫穿于長(zhǎng)期保存的整個(gè)生命周期,對(duì)長(zhǎng)期保存系統(tǒng)的建設(shè)具有重要意義。目前,全球范圍內(nèi)公認(rèn)的長(zhǎng)期保存核心標(biāo)準(zhǔn)有:① 開(kāi)放檔案信息系統(tǒng)參考模型(Open Archival Information System,OAIS),它不僅界定和規(guī)范了長(zhǎng)期保存的相關(guān)概念和術(shù)語(yǔ),還建立了長(zhǎng)期保存系統(tǒng)規(guī)劃和設(shè)計(jì)的概念框架,并對(duì)保存系統(tǒng)的存在環(huán)境、功能組織以及信息基礎(chǔ)架構(gòu)等做了描述,對(duì)全球范圍內(nèi)的長(zhǎng)期保存活動(dòng)和實(shí)踐起到了重要的指導(dǎo)作用,是長(zhǎng)期保存的基礎(chǔ)標(biāo)準(zhǔn);② ISO 16163,即《可信賴倉(cāng)儲(chǔ)的審計(jì)及認(rèn)證:指標(biāo)與列表》(,TRAC),于2012年被認(rèn)定為國(guó)際長(zhǎng)期保存系統(tǒng)可信賴認(rèn)證標(biāo)準(zhǔn);③ PREMIS作為保存元數(shù)據(jù)的標(biāo)準(zhǔn),在前文中已經(jīng)提及。
圖7為“standards”“OAIS”和“PREMIS”歷年出現(xiàn)的頻次:“standards”在2008年出現(xiàn)過(guò)一次,直到2012年作為關(guān)鍵詞又一次被提及,此后相關(guān)研究就從未中斷,并在2014年達(dá)到頂峰;“OAIS”出現(xiàn)頻次則遠(yuǎn)高于“standards”和“PREMIS”,且呈現(xiàn)一種增長(zhǎng)型的發(fā)展趨勢(shì),歷年來(lái)圍繞這一基礎(chǔ)標(biāo)準(zhǔn)的討論從未間斷,尤其在2014年和2016年修訂OAIS 2.0期間;ISO16363作為核心標(biāo)準(zhǔn),經(jīng)常以研討會(huì)(Workshop)或?qū)?chǎng)培訓(xùn)(Tutorial)的形式出現(xiàn)。
圖7 2008-2017年會(huì)議標(biāo)準(zhǔn)規(guī)范代表詞匯統(tǒng)計(jì)
2.2.5 數(shù)字資源長(zhǎng)期保存宏觀規(guī)劃與管控
保存計(jì)劃作為OAIS標(biāo)準(zhǔn)中一個(gè)重要內(nèi)容,定義了長(zhǎng)期保存的整個(gè)生命周期及保存活動(dòng)中對(duì)數(shù)字對(duì)象所采取的一系列保存行為的規(guī)劃和政策,關(guān)系到長(zhǎng)期保存活動(dòng)實(shí)施的成功與否。長(zhǎng)期保存宏觀規(guī)劃與管控的內(nèi)容涵蓋了國(guó)家層面的戰(zhàn)略規(guī)劃和政策、機(jī)構(gòu)層面的長(zhǎng)期保存計(jì)劃、整個(gè)保存環(huán)境的監(jiān)控管理等,需要綜合考慮政策、法律、組織和技術(shù)限制、用戶需求、保存目標(biāo)等因素,并進(jìn)行定期評(píng)價(jià)、更新相關(guān)規(guī)劃與策略。
在iPRES的會(huì)議論文中,長(zhǎng)期保存宏觀規(guī)劃與管控涉及到的詞匯主要有“strategies”“policies”“planning”(見(jiàn)圖 8)。其中,“policies”“planning”的波動(dòng)不大,而“strategies”的關(guān)注度出現(xiàn)了較大的起伏,在2008年和2009年處于巔峰,之后幾年迅速下降,2014年才逐漸回歸大眾視野,在近年的關(guān)注度也有所增長(zhǎng)。數(shù)據(jù)分析結(jié)果表明,隨著大數(shù)據(jù)的發(fā)展,數(shù)字信息長(zhǎng)期保存的規(guī)劃和策略也在隨之調(diào)整,以應(yīng)對(duì)變化中的挑戰(zhàn)。
圖8 2008-2017年會(huì)議宏觀規(guī)劃與管控代表詞匯統(tǒng)計(jì)
2.2.6 數(shù)字資源長(zhǎng)期保存的基礎(chǔ)架構(gòu)
長(zhǎng)期保存的基礎(chǔ)架構(gòu)是長(zhǎng)期保存活動(dòng)在最開(kāi)始階段就要設(shè)計(jì)和確定的,對(duì)長(zhǎng)期保存活動(dòng)尤其是長(zhǎng)期保存系統(tǒng)的建設(shè)具有指導(dǎo)意義。2008-2017年iPRES的論文中研究長(zhǎng)期保存基礎(chǔ)架構(gòu)的不在少數(shù),主要涉及的關(guān) 鍵 詞有“infrastructure”“architectures”“frameworks”。
圖9 2008-2017年會(huì)議基礎(chǔ)架構(gòu)代表詞匯統(tǒng)計(jì)
由圖9可知,3個(gè)基礎(chǔ)架構(gòu)關(guān)鍵詞的變化趨勢(shì)基本相同,開(kāi)始都處于較高的水平,之后出現(xiàn)了2-3年的低谷,于2014/2015年達(dá)到一個(gè)小的峰值,近兩年有所下滑。這個(gè)結(jié)果表明,在基礎(chǔ)性技術(shù)研究方面,長(zhǎng)期保存是與整個(gè)技術(shù)大環(huán)境一起發(fā)展的,新的技術(shù)將不斷地應(yīng)用于長(zhǎng)期保存,因此造成了基礎(chǔ)架構(gòu)和技術(shù)系統(tǒng)的周期性更新。當(dāng)一種新的基礎(chǔ)架構(gòu)逐步成熟后,該領(lǐng)域也隨之進(jìn)行研究和探索,并進(jìn)入應(yīng)用和改進(jìn)階段。信息技術(shù)的更新?lián)Q代勢(shì)必對(duì)數(shù)字資源長(zhǎng)期保存領(lǐng)域帶來(lái)同樣的影響。
2.2.7 專門領(lǐng)域和不同類型的數(shù)字資源長(zhǎng)期保存
大數(shù)據(jù)時(shí)代,數(shù)字資源格式、類型的復(fù)雜化為數(shù)字資源的長(zhǎng)期保存帶來(lái)了挑戰(zhàn)。同時(shí),由于對(duì)保存數(shù)字資源的意識(shí)在不斷提升,越來(lái)越多的行業(yè)、領(lǐng)域都開(kāi)始關(guān)注數(shù)字資源的長(zhǎng)期保存管理。保存的資源類型從傳統(tǒng)館藏延伸到檔案、文化遺產(chǎn)、社交媒體、軟件工具、郵件、視聽(tīng)資源等,保存研究和保存實(shí)踐也更加專門化和特性化。在2008-2017年的iPRES論文中,涉及多種不同類型對(duì)象的長(zhǎng)期保存研究,既包括傳統(tǒng)物理載體的館藏資源,也包括原生數(shù)字資源,如軟件、音視頻、社交媒體、郵件、文化遺產(chǎn)、數(shù)字檔案、博客、研究數(shù)據(jù)、科學(xué)數(shù)據(jù)和地理信息數(shù)據(jù)等。
圖10 專門領(lǐng)域和不同類型數(shù)字資源代表詞匯統(tǒng)計(jì)
由圖10可見(jiàn),除了通用詞“digital objects”處于較高水平外,具體到每種類型數(shù)字資源的論文數(shù)量并不多。一方面是因支持相關(guān)研究的機(jī)構(gòu)和項(xiàng)目相對(duì)較少;另一方面是由于數(shù)字對(duì)象本身比較復(fù)雜,長(zhǎng)期保存的研究和實(shí)踐發(fā)展尚處于探索階段。值得注意的是 ,“ cultural heritage”“ audiovisual”“ research data”(即文化遺產(chǎn)、視聽(tīng)資源和研究數(shù)據(jù))的長(zhǎng)期保存和管理發(fā)展勢(shì)頭強(qiáng)勁,尤其是研究數(shù)據(jù)的管理于2011年被提出之后,得到了廣泛的關(guān)注。
iPRES所關(guān)注的問(wèn)題清晰地反映了數(shù)字保存領(lǐng)域的發(fā)展趨勢(shì),隨著全球數(shù)字化的飛速發(fā)展以及各國(guó)、各機(jī)構(gòu)對(duì)于數(shù)字資產(chǎn)的重視,數(shù)字保存將會(huì)迎來(lái)飛速發(fā)展的時(shí)機(jī)。
從iPRES會(huì)議看,我國(guó)在數(shù)字資源長(zhǎng)期保存領(lǐng)域的投入和產(chǎn)出都較少,缺乏國(guó)際間的交流、合作、共享。但實(shí)際上,國(guó)內(nèi)很多領(lǐng)域和學(xué)者很早就開(kāi)展了相關(guān)理論研究,也有少數(shù)機(jī)構(gòu)進(jìn)行了實(shí)踐探索。其中,以國(guó)家科技圖書文獻(xiàn)中心(National Science and Technology Library,NSTL)的“國(guó)家數(shù)字科技文獻(xiàn)資源長(zhǎng)期保存體系”[16]最為突出。作為國(guó)家級(jí)的科技文獻(xiàn)信息服務(wù)和保障機(jī)構(gòu),NSTL于2004年就開(kāi)展了具有前瞻性的研究工作,于2014年啟動(dòng)了“國(guó)家數(shù)字科技文獻(xiàn)資源長(zhǎng)期保存示范系統(tǒng)”項(xiàng)目,帶領(lǐng)中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心、中國(guó)科學(xué)技術(shù)信息研究所和北京大學(xué)圖書館等機(jī)構(gòu),在國(guó)內(nèi)率先開(kāi)展商業(yè)數(shù)字資源的長(zhǎng)期保存實(shí)踐探索,取得了一系列建設(shè)成果,同時(shí)在全國(guó)范圍開(kāi)展了一系列頗具影響的宣傳和推廣活動(dòng)。特別是2016年底舉辦的香山科學(xué)會(huì)議,對(duì)國(guó)內(nèi)數(shù)字資源長(zhǎng)期保存研究與實(shí)踐的發(fā)展產(chǎn)生了積極的推動(dòng)作用。
第1屆iPRES由中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心發(fā)起舉辦,[17]之后在2007年與 NSTL共同承辦了第4屆iPRES。[18]近日,NSTL和中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心成功獲得聯(lián)合承辦2020年第17屆iPRES會(huì)議(iPRES 2020)的許可。[19]必將對(duì)我國(guó)數(shù)字資源長(zhǎng)期保存的全面發(fā)展產(chǎn)生積極的推動(dòng)作用,對(duì)加強(qiáng)國(guó)際合作共享、共同發(fā)展產(chǎn)生深遠(yuǎn)影響。