●張 莉 (寧夏回族自治區(qū)圖書(shū)館,銀川 950001)
圖書(shū)館數(shù)字信息的長(zhǎng)期有效保存一直是圖書(shū)館管理的難點(diǎn),也吸引了越來(lái)越多圖書(shū)館機(jī)構(gòu)和學(xué)者的關(guān)注。在該領(lǐng)域中,一系列國(guó)際會(huì)議iPRES[1]更推動(dòng)了從理論研究到實(shí)踐推廣的進(jìn)程,為數(shù)字信息的長(zhǎng)期保存提供了指導(dǎo)。本文就圖書(shū)館數(shù)字信息長(zhǎng)期保存中存在的問(wèn)題進(jìn)行探討,明確提出解決這些問(wèn)題的一個(gè)可持續(xù)的方式,即通過(guò)改變操作系統(tǒng)處理的方式,為用戶提供一個(gè)處理數(shù)字內(nèi)容的接口,以一種普及的文檔格式保存文件,以便于文檔的長(zhǎng)期保存。
鑒于微軟擁有最大的操作系統(tǒng)市場(chǎng)份額,國(guó)內(nèi)大多數(shù)圖書(shū)館都在使用,因此本文以微軟Windows操作系統(tǒng)為例進(jìn)行討論。
當(dāng)圖書(shū)館需要持久和準(zhǔn)確地保存大量數(shù)字對(duì)象時(shí),會(huì)遭遇一些特定的問(wèn)題,這些問(wèn)題增加了保存的難度。
通常情況下,文件格式的過(guò)期速度非???,[2]遠(yuǎn)遠(yuǎn)超出我們的預(yù)期。有些格式在設(shè)計(jì)時(shí)可能就是過(guò)時(shí)的,比如一個(gè)格式的最后版本跟新軟件的格式有沖突,新格式可能會(huì)不支持舊的格式。如果這些舊格式存放在長(zhǎng)期訪問(wèn)的知識(shí)庫(kù)中,甚或這種舊格式的文件正在用戶的計(jì)算機(jī)中被使用,這將產(chǎn)生嚴(yán)重的問(wèn)題,即隨著新軟件的運(yùn)用,舊格式文件將無(wú)法使用。如果因?yàn)槟撤N原因,用戶無(wú)法訪問(wèn)源格式的文件,就可能丟失該格式保存的文件。但這并不是說(shuō)沒(méi)有可供長(zhǎng)期保存使用的格式。例如,對(duì)源內(nèi)容(例如音頻、視頻、靜態(tài)圖像)就有專門設(shè)計(jì)的用于長(zhǎng)期保存的格式。然而,在這些源格式與相對(duì)普及便利的格式之間存有差距。因?yàn)?,通常這些源格式很少大范圍使用。這就是為什么我們更有可能會(huì)遇到一個(gè)Word 97格式的文件,而不是PDF/A格式的文件(Word格式比PDF格式更加便利)。
對(duì)于許多用戶來(lái)說(shuō),文件格式只不過(guò)是暫時(shí)承載特定內(nèi)容的一個(gè)載體,但是對(duì)于保存機(jī)構(gòu)而言,有時(shí)收集來(lái)的文件的格式卻有些神圣不可侵犯。因此,大量的理論研究和資源都耗費(fèi)在確保文件收到時(shí)的格式可以能夠使用上。
為了有意義地保護(hù)數(shù)字對(duì)象(例如,保存在Word 97格式的手稿),不僅要了解文件格式,而且也要了解數(shù)字對(duì)象的數(shù)據(jù)以及元數(shù)據(jù)中沒(méi)有的大量信息。例如作者之類的信息,應(yīng)當(dāng)以元數(shù)據(jù)呈現(xiàn),而實(shí)際上在許多情況下,這種信息嵌入在文件中。在圖書(shū)館里,我們可以發(fā)現(xiàn)很多舊文檔只有很少的關(guān)聯(lián)背景的信息,但它卻很重要。
即使可以一直準(zhǔn)確地識(shí)別數(shù)字對(duì)象的文件格式,并且可以從文件中提取元數(shù)據(jù),但仍然有一些信息是無(wú)法在文件的元數(shù)據(jù)中體現(xiàn)出來(lái)的。例如,一張照片的元數(shù)據(jù)描述了攝影者使用的相機(jī)以及照片的拍攝地點(diǎn),但可能無(wú)法顯示這個(gè)文件是否是原始文件,還是其他文件的復(fù)制文件。同樣,也無(wú)法知道這個(gè)文件是否有多個(gè)版本,還是就只有這一個(gè)版本。對(duì)于文檔,我們很難知道接收的是草稿,還是最終的版本。給定一個(gè)文件夾,其中的文件命名都類似,我們自然不能知道這些文件之間的關(guān)系。還有,在許多領(lǐng)域,這樣的文檔也無(wú)法提供相應(yīng)的背景資料。在許多情況下,獲得這些背景信息有助于保存對(duì)象,但是一般都很難找到。
目前,識(shí)別文件格式的工具正變得愈加可靠。比如DROID[3]之類的工具,能夠很好地識(shí)別很大范圍內(nèi)的格式。然而,雖然通過(guò)這種軟件的功能,我們能總體知道現(xiàn)在文件都使用了什么樣的格式,但是,由于消費(fèi)者使用文件格式的方式以及目前正在使用的文件格式的數(shù)量眾多,對(duì)于一些要求準(zhǔn)確識(shí)別的并要求基本上進(jìn)行自動(dòng)保存的大規(guī)模的文件我們通常都不能識(shí)別。
盡管一些程序?qū)嶋H上已在文件格式中存儲(chǔ)了元數(shù)據(jù),但是,由于各種原因,檢索這些數(shù)據(jù)將會(huì)遇到問(wèn)題。不同的文件格式存儲(chǔ)的元數(shù)據(jù)不同(即使對(duì)同一個(gè)文件格式的不同實(shí)例,不同的軟件也有可能會(huì)儲(chǔ)存不同的元數(shù)據(jù))。另外,對(duì)于某些文件格式,擁有者未必愿意披露如何存儲(chǔ)元數(shù)據(jù)。這意味著,在許多情況下,即使該文件可以識(shí)別,可能也沒(méi)有辦法準(zhǔn)確地提取所有可用的元數(shù)據(jù)。目前有一個(gè)新機(jī)制是讓每個(gè)新的文件格式包含所有形式的元數(shù)據(jù)。但面對(duì)眾多的格式,以其排列組合以及增長(zhǎng)率來(lái)看,意味著這根本是一個(gè)不具有可持續(xù)性的做法。
即使文件格式識(shí)別及確認(rèn)的程序的性能是最先進(jìn)的,但仍然存在瓶頸。例如,澳大利亞圖書(shū)館從PANDORA網(wǎng)絡(luò)檔案館中采集了一大組樣本數(shù)據(jù),并運(yùn)用了DROID系統(tǒng)來(lái)處理和識(shí)別。這些樣本數(shù)據(jù)的文件都相當(dāng)?。ňW(wǎng)站的片段),卻花了近40天來(lái)處理大約17萬(wàn)份文件,這樣的效率顯然是不可接受的。
當(dāng)我們討論數(shù)字資源的長(zhǎng)期保存的解決方案時(shí),通常是聚焦在解決問(wèn)題的結(jié)果方面,由此產(chǎn)生了大量的數(shù)字資源長(zhǎng)期保存系統(tǒng),例如基于OAIS模型[4]的成熟系統(tǒng) Fedora、DSpace、EPrint和開(kāi)源系統(tǒng)DAITSS。[5]不過(guò),這些解決方案是否能夠解決所有問(wèn)題的根源,還有待驗(yàn)證。另外,單從圖書(shū)館等收集機(jī)構(gòu)的技術(shù)系統(tǒng)入手,是無(wú)法解決長(zhǎng)期保存數(shù)字資源的所有問(wèn)題的。有研究者提出,問(wèn)題的解決需要數(shù)字信息長(zhǎng)期保存的相關(guān)主體,包括數(shù)字信息創(chuàng)造者、出版商、保存機(jī)構(gòu)、軟硬件開(kāi)發(fā)者、非盈利組織和政府部門等系統(tǒng)合作。
本文著眼于數(shù)字信息長(zhǎng)期保存問(wèn)題的一個(gè)特別方面,即一個(gè)保存機(jī)構(gòu)長(zhǎng)時(shí)間接收和保存外部來(lái)源文件的能力。例如,一個(gè)圖書(shū)館需要數(shù)字保存一份著名作家捐贈(zèng)的手稿,雖然有許多理論上可行的長(zhǎng)期保存數(shù)字對(duì)象的解決方案,如仿真或遷移,但大部分長(zhǎng)期保存的解決方案依賴于該機(jī)構(gòu)的能力。該機(jī)構(gòu)必須具有準(zhǔn)確地識(shí)別數(shù)字對(duì)象使用的文件格式并記錄這些數(shù)字對(duì)象的背景含義的能力。本文重點(diǎn)介紹通過(guò)改進(jìn)圖書(shū)館操作系統(tǒng)的功能來(lái)解決數(shù)字信息長(zhǎng)期保存問(wèn)題。這種改進(jìn)系統(tǒng)不僅是讓圖書(shū)館等保存機(jī)構(gòu)使用,也可以讓終端用戶使用。
為了長(zhǎng)期保存圖書(shū)館接收到的文件的數(shù)字對(duì)象,需要做到以下三點(diǎn):①文件格式是一直普及的格式;②元數(shù)據(jù)可以隨時(shí)提??;③關(guān)聯(lián)的背景信息始終可以提取。
正如前面所述,處理后繼的問(wèn)題是數(shù)字信息長(zhǎng)期保存時(shí)必要的工作,但我們無(wú)法試圖讓工程師解決所有出現(xiàn)的問(wèn)題。從上面提出的解決方案來(lái)看,均需要投入更多的資金和資源到我們已經(jīng)開(kāi)拓的領(lǐng)域,如文件標(biāo)識(shí)或元數(shù)據(jù)提取。不過(guò),至少現(xiàn)在,對(duì)于圖書(shū)館之類的機(jī)構(gòu),應(yīng)該可以預(yù)見(jiàn)到,這種方案的實(shí)現(xiàn)和支撐有許多的技術(shù)障礙。
即使人們不會(huì)為了長(zhǎng)期讀取而預(yù)先分類排序他們所得的數(shù)據(jù),但通常至少會(huì)為了短期的查找和使用而組織自己的文件。例如,許多人都會(huì)確保當(dāng)前使用的文檔在本地磁盤上保存,甚至手工做一份不同名字的備份。不過(guò),一旦該文件結(jié)束了使用期,人們就會(huì)將內(nèi)容復(fù)制到一個(gè)CD中,或者全部刪掉。總之,如果數(shù)字對(duì)象包含了用戶能夠感受到的價(jià)值,那么用戶還是希望確保它依然可以訪問(wèn)。這就表明,在某一個(gè)時(shí)間段,上面提到的三點(diǎn)要求在任何類型的文件中都可以體現(xiàn)到。具體來(lái)說(shuō),當(dāng)文件正在使用時(shí),最容易找到這些信息。
此外,在許多情況下,當(dāng)文件正在使用時(shí),用戶不僅需要擁有更多關(guān)于文件的知識(shí),同時(shí)也需要更多關(guān)于操作系統(tǒng)的知識(shí)。對(duì)于用戶常用的大多數(shù)文件類型,操作系統(tǒng)會(huì)通過(guò)其內(nèi)部注冊(cè)機(jī)制來(lái)關(guān)聯(lián)相應(yīng)的應(yīng)用程序。比如說(shuō),用戶雙擊一個(gè).DOC文件,它就會(huì)直接在Word中打開(kāi)并可編輯,而不需要用戶首先加載Word程序,然后再?gòu)闹写蜷_(kāi)該.DOC文件。盡管這些關(guān)聯(lián)關(guān)系是基于一個(gè)基礎(chǔ)范圍的,而且在個(gè)體層面上不太可靠(可以將一個(gè)DOC文件的擴(kuò)展名改為PDF),這仍然在理論上是一個(gè)潛在的寶貴的資料。但是,此信息只保存在操作系統(tǒng)內(nèi)。如果這些文件轉(zhuǎn)移到其他介質(zhì),比如轉(zhuǎn)移到一張備份CD光盤上,那么在用戶的非當(dāng)前工作環(huán)境中使用時(shí),這種信息可能會(huì)丟失。
因此,解決問(wèn)題需要了解文件格式是如何構(gòu)建的。作為一個(gè)自我包含的對(duì)象,設(shè)計(jì)者將其認(rèn)為最重要的元數(shù)據(jù)直接嵌入了這個(gè)對(duì)象。雖然這足以讓一般用戶利用文件進(jìn)行工作,但只有少數(shù)文件格式詳細(xì)記錄了其保存類型。例如,很難遇到一個(gè)文件格式,其中包含該文件的歷史事件。對(duì)于收集機(jī)構(gòu),這意味著除非伴隨文件有一些人們可讀的描述文檔,否則這種信息是根本沒(méi)有存儲(chǔ)的。
在收集機(jī)構(gòu)之外,也有很多實(shí)際案例表明,文件中存儲(chǔ)的元數(shù)據(jù)并不能充分滿足用戶的需求。例如,用戶可以在一張CD上再次存儲(chǔ)他們的文件備份。假設(shè)他們可能卸載許多應(yīng)用,甚至更換一臺(tái)新計(jì)算機(jī),在需要看那張CD的內(nèi)容之前,他們不再知道存儲(chǔ)的文檔是什么。有時(shí)用戶可能還記得他們以前使用的軟件,并通過(guò)手動(dòng)重新安裝來(lái)訪問(wèn)。另外,在某些情況下,內(nèi)部存儲(chǔ)的元數(shù)據(jù)處理復(fù)雜信息時(shí)效率不高,即使文件格式中數(shù)據(jù)非常豐富,如使用的ID3的MP3文件;即使ID3包含了有關(guān)文件本身的信息范圍非常大,一定程度上還包含一組給定文件的屬性,如“專輯”字段等的背景信息,它并沒(méi)有明確包含單一的文件與其他關(guān)聯(lián)文件的信息。因此,如果用戶要建立一個(gè)更復(fù)雜的歌曲隊(duì)列,比如一系列的播放列表,這樣的信息需要在MP3之外生成、維護(hù)和說(shuō)明。
真正的問(wèn)題是在文件離開(kāi)原作者的環(huán)境中后如何維持這些信息。例如在閃存設(shè)備上,當(dāng)文件被帶到一個(gè)新的計(jì)算機(jī)上時(shí),由于新計(jì)算機(jī)沒(méi)有與相應(yīng)應(yīng)用的關(guān)聯(lián)關(guān)系或者有完全不同的關(guān)聯(lián)關(guān)系,文件間的關(guān)聯(lián)將會(huì)丟失。因此,使其在單個(gè)應(yīng)用或者多個(gè)應(yīng)用組合上不適用。不過(guò),理論上,操作系統(tǒng)通過(guò)文件系統(tǒng),其實(shí)是能夠負(fù)責(zé)這類信息的。微軟之前曾以各種題目探討過(guò)這個(gè)概念,例如前一陣的WinFS文件系統(tǒng),[6]是個(gè)小型的半公開(kāi)測(cè)試版,而且未被發(fā)布。盡管WinFS似乎主要關(guān)注如何返回豐富的搜索結(jié)果,而不是集中提供背景數(shù)據(jù),但它仍可能維護(hù)一個(gè)終端用戶電腦上所有的文件環(huán)境,并且在技術(shù)上它是朝這個(gè)方向發(fā)展的。
因此,相比儲(chǔ)存標(biāo)簽信息,或分析哪些歌曲屬于同一藝術(shù)家,文件系統(tǒng)本身可以存儲(chǔ)更復(fù)雜的信息,例如事件的跟蹤以及用戶定義或者生成的一組文件之間的關(guān)系(例如,同一個(gè)圖片的重復(fù)版本)。
如果我們可以找到有效的方法在用戶的操作環(huán)境外來(lái)傳播元數(shù)據(jù),并將其和數(shù)據(jù)記錄方法結(jié)合,那么收集機(jī)構(gòu)不必進(jìn)行鑒定或元數(shù)據(jù)提取,就能直接存檔和保存大多數(shù)接收的文件。
從文件系統(tǒng)的發(fā)展中可以看到,這種解決方案的實(shí)現(xiàn)是有價(jià)值的,但這需要我們重新思考該如何對(duì)待和設(shè)計(jì)操作系統(tǒng)上的文件,也需要改變應(yīng)用程序和操作系統(tǒng)之間的交互。另外,操作系統(tǒng)的這種改進(jìn)也不是某一個(gè)公司單獨(dú)實(shí)施后傳播給其他人,而是要在所有操作系統(tǒng)一致性地實(shí)現(xiàn)這種改進(jìn)。
對(duì)于保存機(jī)構(gòu)以及供應(yīng)商和最終用戶,這樣改進(jìn)產(chǎn)生的顯著好處,遠(yuǎn)遠(yuǎn)超過(guò)其弊端。
(1)針對(duì)我們遷移的文件,一個(gè)包含元數(shù)據(jù)的附屬文件(也許類似XML),即使在不支持附加元數(shù)據(jù)的文件系統(tǒng)上也能夠在遷移過(guò)程中生成包含元數(shù)據(jù)的附屬文件。如果這是通過(guò)標(biāo)準(zhǔn)方式實(shí)現(xiàn)的,那么圖書(shū)館及其他收集機(jī)構(gòu)就可以方便地利用這一應(yīng)用來(lái)支持其收集文檔。
(2) 如果給一個(gè)易用的API(應(yīng)用接口),在用戶擁有這個(gè)文件的同時(shí),翻譯和寫(xiě)作程序可以幫助其檢查文件的完整性。這樣有助于減少由于接受損壞信息引起的相關(guān)問(wèn)題(比如定期生成文件的校驗(yàn)碼)。
(3)當(dāng)用戶無(wú)法訪問(wèn)其計(jì)算機(jī)上的文件時(shí)(例如,用戶的文件相對(duì)于處理軟件已經(jīng)超出有效使用期),文件系統(tǒng)可以通知他們,促使他們將文件的格式轉(zhuǎn)換為可以訪問(wèn)的格式,同時(shí)提醒用戶是否會(huì)丟失一些文件元數(shù)據(jù)或文件格局。這可能會(huì)讓某些遷移更為特殊。例如,同一個(gè)供應(yīng)商文件格式之間的遷移可能使信息損失最少,這對(duì)于用戶來(lái)說(shuō)非常重要,尤其是那些閉源文件。
(4)通過(guò)網(wǎng)絡(luò)檢索瀏覽路徑。即當(dāng)用戶正在使用的電腦沒(méi)有一個(gè)可用的文件瀏覽路徑,但他可以通過(guò)共享其使用過(guò)的其他計(jì)算機(jī)上的瀏覽信息找到可用的瀏覽路徑。即使用戶的任何一臺(tái)計(jì)算機(jī)上瀏覽路徑都不可用,仍然有其他途徑可以訪問(wèn),比如可以通過(guò)在線服務(wù),或者購(gòu)買新軟件。
(5)對(duì)于用戶提交的文件,在提交之前,需要確認(rèn)提交的文件是否已經(jīng)使用了最合適的格式。這需要圖書(shū)館及其他收集機(jī)構(gòu)制定嚴(yán)格的數(shù)字文件提交標(biāo)準(zhǔn)與政策,這將減少圖書(shū)館需要處理的未知文件的數(shù)量。
(6)圖書(shū)館應(yīng)使用用戶將更有可能使用的操作系統(tǒng)。這將降低保持舊文件的復(fù)雜性,對(duì)陳舊內(nèi)容的獲取更加容易。對(duì)于保存大量數(shù)字化信息資料的圖書(shū)館,這種改進(jìn)將促進(jìn)特定供應(yīng)商提供更有價(jià)值的解決方案,其吸引力將遠(yuǎn)遠(yuǎn)超過(guò)沒(méi)有提供這種附加信息存儲(chǔ)的其他方案。
(7)如果圖書(shū)館及其他收集機(jī)構(gòu)能夠更加嚴(yán)格地定義其接收的文件格式,并在文件提交之前的任何標(biāo)準(zhǔn)化工作都由內(nèi)容的作者代為實(shí)現(xiàn),這樣可以確保重要數(shù)據(jù)不會(huì)丟失。
如何解決舊的文獻(xiàn)資料永遠(yuǎn)都會(huì)是一個(gè)問(wèn)題。對(duì)現(xiàn)代操作系統(tǒng)的這種改進(jìn),不可能解決已接收到的所有材料的問(wèn)題,也不能完全解決目前一些用戶的計(jì)算機(jī)上的舊文件格式的問(wèn)題。然而,這種解決方案可以做的是,幫助我們擺脫目前這種困難的局面。事實(shí)上,如果對(duì)操作系委統(tǒng)不著手做一些改進(jìn),以促進(jìn)實(shí)現(xiàn)長(zhǎng)期的數(shù)字保存,那么我們就將會(huì)一直需要處理前面所提到的那些問(wèn)題。從根本上講,這并不在于文件格式的識(shí)別程序有多好,它們不可能永遠(yuǎn)保持更新到最新的狀態(tài),它們只能以當(dāng)前標(biāo)準(zhǔn)來(lái)處理接收的文檔。對(duì)圖書(shū)館及文獻(xiàn)信息收集機(jī)構(gòu)來(lái)說(shuō),已經(jīng)投入了大量的資金來(lái)處理這類問(wèn)題,但是如果我們只是不斷地進(jìn)行被動(dòng)的補(bǔ)救工作,那我們所做的一切最終將是徒勞的。我們應(yīng)該把工作重點(diǎn)放在真正重要的東西上——確保我們擁有的數(shù)據(jù)能夠長(zhǎng)期讀取,這樣我們可以將我們的精力和資金用于實(shí)現(xiàn)能夠真正保存這些內(nèi)容的方案上。
[1]李丹,向菁. 協(xié)作與實(shí)踐:數(shù)字資源長(zhǎng)期保存工具及方法——2008年數(shù)字資源長(zhǎng)期保存國(guó)際會(huì)議(iPRES2008) 綜述 [J].圖書(shū)館理論與實(shí)踐,2009 (11): 70-72.
[2] Pearson D,Webb C.2008,Defining file formatobsoles cence:A risky journey [J].The International Journal ofDigitalCuration, 2005, 1(3): 89 106.
[3] DROID (DigitalRecordObjectIdentification) [EB/OL].[2010-01-20].http://droid.sourceforge.net/wiki/index.php/Introduction.
[4]吳振新.開(kāi)源長(zhǎng)期保存系統(tǒng)DAITSS研究 [J/OL].現(xiàn)代圖書(shū)情報(bào)技術(shù),2009(7/8): 18-22 http://www.dlib.org/dlib/november04/stanescu/11stanescu.html.
[5]李克征.數(shù)字信息長(zhǎng)期保存的技術(shù)方法分析 [J].圖書(shū)館工作與研究, 2006(2): 58-60.
[6] Rizzo,T.WinFS101:IntroducingtheNewWindowsFileSystem [J/OL] .MicrosoftCorporation, 2004 (3) [2010-01-20] .http://msdn.microsoft.com/library/default.asp?url=/library/enus/dnwin-fs/html/winfs03112004.asp.