臧國全 臧弘毅 李 哲
(1 鄭州大學(xué)信息管理學(xué)院 鄭州 450001;2 鄭州大學(xué)公共管理學(xué)院 鄭州 450001)
可用性指目標(biāo)用戶群體所需的數(shù)字對象被保存系統(tǒng)收錄,并在長期保存過程中對其適時(shí)實(shí)施必要的保存活動(dòng),使其處于持續(xù)的可用狀態(tài)。為此,保存系統(tǒng)需制定合適的收錄政策,確保對目標(biāo)用戶群體具有長期使用價(jià)值的數(shù)字對象得到收錄;與產(chǎn)權(quán)擁有者或數(shù)字對象提交者簽署許可協(xié)議,獲取受產(chǎn)權(quán)保護(hù)的數(shù)字對象的保存使用權(quán)和傳播權(quán);提供充足的檢索點(diǎn),滿足目標(biāo)用戶群體的各種檢索需求;給予數(shù)字對象的合理描述和管護(hù),被目標(biāo)用戶群體發(fā)現(xiàn);提供最佳的瀏覽環(huán)境,確保用戶有效瀏覽使用;實(shí)施必要的保存活動(dòng),使長期保存過程中遭到損壞的數(shù)字對象得到有效維護(hù)。
可用性風(fēng)險(xiǎn)指保存系統(tǒng)影響數(shù)字對象可用性的因素。歸納起來,有下述類型:
(1)數(shù)字對象沒有被收錄,致使用戶無法使用??赡茉蛴校翰辉诒4嬲叩氖珍浄秶粩?shù)字對象有產(chǎn)權(quán)限制,保存系統(tǒng)無法獲得保存許可;獲得保存許可成本過高,保存系統(tǒng)無法承擔(dān);數(shù)字對象收錄者有意無意的疏忽。這類可用性風(fēng)險(xiǎn),在本文設(shè)計(jì)的檢測方法中不予檢測,因?yàn)樵摲椒ǖ臋z測對象是保存系統(tǒng)已收錄的數(shù)字對象。
(2)數(shù)字對象雖被收錄,但無法被目標(biāo)用戶群體檢索到??赡茉蛴校簷z索點(diǎn)設(shè)置不充分,導(dǎo)致從未設(shè)置檢索點(diǎn)的檢索需求無法找到數(shù)字對象;數(shù)字對象唯一標(biāo)識(shí)符沒有賦值,導(dǎo)致無法識(shí)別數(shù)字對象;數(shù)字對象存儲(chǔ)位置沒有賦值,導(dǎo)致無法獲取數(shù)字對象;受產(chǎn)權(quán)保護(hù)的數(shù)字對象,未獲得授權(quán)許可的用戶無法訪問;保存系統(tǒng)執(zhí)行“去索引”事件(Deaccession Event),導(dǎo)致數(shù)字對象雖在存儲(chǔ)系統(tǒng)中但用戶無法發(fā)現(xiàn)。
(3)目標(biāo)用戶群體雖能檢索到,但無法有效瀏覽和使用。可能原因有:經(jīng)過編碼的數(shù)字對象無法有效還原,導(dǎo)致難以瀏覽;文件系統(tǒng)不能被操作系統(tǒng)識(shí)別,導(dǎo)致數(shù)字對象不能被讀??;瀏覽軟件不能支持最佳效果瀏覽,導(dǎo)致瀏覽結(jié)果出現(xiàn)瑕疵;操作系統(tǒng)不支持瀏覽軟件的運(yùn)行,導(dǎo)致數(shù)字對象無法瀏覽;邏輯保存功能缺失,導(dǎo)致數(shù)字遷移無法實(shí)施,致使格式過時(shí)的數(shù)字對象不能被持續(xù)使用。
(4)長期保存過程中,數(shù)字對象無法被用戶繼續(xù)使用。可能原因有:由于不可抗拒因素導(dǎo)致數(shù)字對象被不可逆轉(zhuǎn)地毀壞;存儲(chǔ)介質(zhì)遭到破壞,導(dǎo)致數(shù)字對象部分甚至全部無法繼續(xù)使用;刪除事件被執(zhí)行,導(dǎo)致數(shù)字對象從存儲(chǔ)系統(tǒng)中消失。
依據(jù)可用性風(fēng)險(xiǎn)的類型,可從下述四個(gè)方面設(shè)置可用性的風(fēng)險(xiǎn)點(diǎn)。
(1)數(shù)字對象標(biāo)識(shí)符(Object Identifier)。用于數(shù)字對象的識(shí)別。若該標(biāo)識(shí)符內(nèi)容缺失,雖保存系統(tǒng)已收錄,但無法找到具體數(shù)字對象,用戶仍不可使用,也無法實(shí)施下述風(fēng)險(xiǎn)點(diǎn)的檢測。
(2)數(shù)字對象類型(Object Category)。有知識(shí)實(shí)體、表現(xiàn)、文件、比特流。用戶的使用是通過瀏覽實(shí)現(xiàn)的,只有表現(xiàn)和文件可被瀏覽,所以可用性僅限于表現(xiàn)和文件兩類數(shù)字對象。作用是篩選可用性風(fēng)險(xiǎn)檢測的數(shù)字對象。
(3)檢索點(diǎn)信息(Retrieval Point Information)。向用戶提供數(shù)字對象被發(fā)現(xiàn)的途徑的描述。包括:①數(shù)字對象的文獻(xiàn)類型,如期刊論文、專利文獻(xiàn)等。②檢索點(diǎn),不同類型文獻(xiàn)的檢索點(diǎn)設(shè)置不同,有的差別很大,如專利文獻(xiàn)的檢索點(diǎn)有申請?zhí)枴⒐_號等,碩博論文的檢索點(diǎn)有導(dǎo)師、學(xué)位授予單位等。③檢索方式,有兩種,一是全文掃描,如檢索點(diǎn)為全文、參考文獻(xiàn)的檢索方式;二是基于索引,如檢索點(diǎn)為關(guān)鍵詞、作者的檢索方式。④賦值內(nèi)容,有兩種,一是針對檢索方式為全文掃描的,無需賦值;二是針對檢索方式為索引的,需自動(dòng)從文獻(xiàn)中抽取或人工賦值??刹捎弥貜?fù)上述元素的方式描述具有多個(gè)檢索點(diǎn)信息的數(shù)字對象。
用戶能檢索到,則數(shù)字對象具有可用性,否則,不具有可用性。但是,影響用戶能否檢索到的因素有很多,主要有兩個(gè):①用戶個(gè)體差異,這種差異主要體現(xiàn)在用戶的構(gòu)成復(fù)雜、檢索行為多樣、檢索技能參差不齊等。一般來說,綜合性保存系統(tǒng)的目標(biāo)用戶群體有多個(gè),所以,針對一件數(shù)字對象,有些用戶能找到,有些用戶找不到,屬正常現(xiàn)象。②保存系統(tǒng)提供的檢索點(diǎn),業(yè)已存在的保存系統(tǒng)提供的檢索點(diǎn)不完全一致,除了一些常規(guī)的檢索點(diǎn)外(如作者、關(guān)鍵詞等),還有一些不太常用的檢索點(diǎn)。如果一個(gè)用戶習(xí)慣于某一檢索點(diǎn),而保存系統(tǒng)的檢索界面不提供這個(gè)檢索途徑,那么,對該用戶來說保存系統(tǒng)中數(shù)字對象的可用性就低。因此,一件數(shù)字對象是否可用因人而異,純粹從用戶角度,很難制定一個(gè)指標(biāo)判斷其是否可用。
檢測項(xiàng)目:①根據(jù)數(shù)字對象的文獻(xiàn)類型,對比保存政策中該類型數(shù)字對象應(yīng)設(shè)置的檢索點(diǎn)與“檢索點(diǎn)”元素的內(nèi)容(即保存系統(tǒng)實(shí)際設(shè)置的檢索點(diǎn))。若不完全相同,產(chǎn)生風(fēng)險(xiǎn),如標(biāo)準(zhǔn)文獻(xiàn),若保存政策中設(shè)置的檢索點(diǎn)有起草人,而該類文獻(xiàn)的檢索點(diǎn)信息中沒有設(shè)置起草人檢索點(diǎn),那么用戶從起草人角度就無法找到該類數(shù)字對象。②若基于索引的檢索點(diǎn)沒有賦值內(nèi)容,用戶從該檢索點(diǎn)找不到數(shù)字對象。③若基于索引的檢索點(diǎn)的賦值內(nèi)容出現(xiàn)錯(cuò)誤,也找不到所需的數(shù)字對象。上述三種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上出現(xiàn)的風(fēng)險(xiǎn)。
(4)文件系統(tǒng)(File System)。保存數(shù)字對象的存儲(chǔ)設(shè)備組織文件方法的描述,由操作系統(tǒng)建立。同類存儲(chǔ)設(shè)備,不同操作系統(tǒng)建立的文件系統(tǒng)可能不同,如磁性存儲(chǔ)設(shè)備,Window建立的文件系統(tǒng)是FAT或NTFS,Linux建立的是EXT,Solaris建立的是ZFS,UNIX建立的是UFS。因此,一種文件系統(tǒng)可以被多種操作系統(tǒng)識(shí)別,如ExFAT文件系統(tǒng)可以被Windows CE 6、Vista SP1、Windows8識(shí)別,一種操作系統(tǒng)可識(shí)別多種文件系統(tǒng),如 Linux可識(shí)別 EXT、XFS、ReiserFS、Ext3文件系統(tǒng)。但是,一種文件系統(tǒng)不可能被所有操作系統(tǒng)識(shí)別,同樣,一種操作系統(tǒng)也不可能識(shí)別所有文件系統(tǒng)。
檢測項(xiàng)目:①檢測保存系統(tǒng)的操作系統(tǒng)對該風(fēng)險(xiǎn)點(diǎn)賦值的支持情況,若不支持,數(shù)字對象無法讀取。②該風(fēng)險(xiǎn)點(diǎn)內(nèi)容為空,無法識(shí)別讀取數(shù)字對象所需的操作系統(tǒng)。③該風(fēng)險(xiǎn)點(diǎn)內(nèi)容賦值錯(cuò)誤,導(dǎo)致基于該風(fēng)險(xiǎn)點(diǎn)內(nèi)容識(shí)別出的文件系統(tǒng)選擇的操作系統(tǒng)可能無法讀取數(shù)字對象。上述三種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上出現(xiàn)風(fēng)險(xiǎn)。
(5)瀏覽軟件信息(Browsing Software Information)。瀏覽數(shù)字對象(未壓縮和未加密)所需的應(yīng)用軟件及其運(yùn)行環(huán)境和瀏覽效果的描述。數(shù)字對象文件格式有通用(源代碼公開)和專用(源代碼不公開),有些保存系統(tǒng)為了便于用戶使用將收錄數(shù)字對象的格式統(tǒng)一為一種通用格式(如PDF),有些為了保護(hù)產(chǎn)權(quán)設(shè)計(jì)使用一種專用格式(如CAJ),還有些為了確保數(shù)字對象的真實(shí)性完全保留原始格式,因此,一個(gè)保存系統(tǒng)可能需要多種瀏覽軟件。包括:軟件名稱、軟件版本、軟件生產(chǎn)日期、軟件生產(chǎn)商、運(yùn)行的最佳操作系統(tǒng)、瀏覽效果(最佳、可以、無法判斷)等。
檢測項(xiàng)目:①檢查“瀏覽效果”元素的賦值,若不是“最佳”,數(shù)字對象可用性可能受到影響;②檢查“運(yùn)行的最佳操作系統(tǒng)”元素的內(nèi)容與保存系統(tǒng)運(yùn)行的操作系統(tǒng)是否相符,若不相符,瀏覽結(jié)果可能出現(xiàn)瑕疵。上述兩種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)出現(xiàn)的風(fēng)險(xiǎn)。
(6)保存級別(Preservation Level)。為實(shí)現(xiàn)數(shù)字對象的可用性而設(shè)置的保存功能。包括:①保存級別類型,分為“比特保存”和“邏輯保存”兩種,前者用于描述實(shí)現(xiàn)數(shù)字對象可用性的物理安全保障,后者用于描述實(shí)現(xiàn)數(shù)字對象可用性的用戶瀏覽保障。②保存級別值,針對前者,取值有:低、中、高,“低”表示僅進(jìn)行常規(guī)本地同步備份,“中”表示兩個(gè)同步異地(距離不作要求)備份且存儲(chǔ)在不同介質(zhì)上,“高”表示至少五個(gè)同步異地(有距離要求)備份且存儲(chǔ)在不同介質(zhì)上,以保障數(shù)字對象的恢復(fù)能力;針對后者,取值有:遷移、仿真,以保障數(shù)字對象的用戶持續(xù)使用能力。
檢測項(xiàng)目:①若類型為“比特保存”,值為“低”,則數(shù)字對象遭到破壞時(shí)可能無法通過備份進(jìn)行恢復(fù);②若類型為“邏輯保存”,值為空,則過時(shí)格式的數(shù)字對象無法被繼續(xù)使用。上述兩種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上出現(xiàn)的風(fēng)險(xiǎn)。
(7)編碼信息(Composition Information)。為了降低存儲(chǔ)空間或防止非法使用,需對數(shù)字對象進(jìn)行壓縮或加密,該過程為編碼。編碼后的數(shù)字對象不具可用性,用戶無法直接使用,需解碼為原始數(shù)字對象。包括:①編碼類型,取值有壓縮、加密。②編碼層次,描述數(shù)字對象編碼過程的次序,原始數(shù)字對象可經(jīng)過多個(gè)層次的編碼形成最終的保存對象,如一件數(shù)字對象首先使用Winzip壓縮,然后使用數(shù)字簽名加密,前者的編碼層次為1,編碼類型為壓縮,后者的編碼層次為2,編碼類型為加密。③解碼程序,描述一個(gè)層次解碼所用的軟件。④密碼,描述加密型數(shù)字對象解密所需的密鑰。若數(shù)字對象經(jīng)過多層次編碼,需重復(fù)上述各元素以描述每個(gè)層次的編碼信息。
解碼后生成的數(shù)字對象的可用性風(fēng)險(xiǎn)檢測需使用本文設(shè)計(jì)的其他風(fēng)險(xiǎn)點(diǎn),該風(fēng)險(xiǎn)點(diǎn)僅用于檢測能否正確解碼。
檢測項(xiàng)目:①檢測編碼類型為加密的編碼層次,若該層次的密碼為空,導(dǎo)致無法對該層次對象解碼;②檢測每一層次的解碼程序,若為空或賦值錯(cuò)誤,同樣導(dǎo)致無法實(shí)施該層次對象的解碼;③檢測每一層次的上述四個(gè)元素,若出現(xiàn)錯(cuò)位,也會(huì)導(dǎo)致解碼錯(cuò)誤。上述三種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上出現(xiàn)的風(fēng)險(xiǎn)。
(8)存儲(chǔ)信息(Storage Information)。描述數(shù)字對象在存儲(chǔ)系統(tǒng)中存放位置和存儲(chǔ)介質(zhì)的信息。元素有:存儲(chǔ)位置、存儲(chǔ)介質(zhì)。
檢測項(xiàng)目:①檢查“存儲(chǔ)位置”元素的值,若為空或賦值錯(cuò)誤,則數(shù)字對象無法找出或出現(xiàn)錯(cuò)位;②檢查“存儲(chǔ)介質(zhì)”,若已超出有效期限,則數(shù)字對象可能不再可用。上述兩種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上出現(xiàn)的風(fēng)險(xiǎn)。
(1)去索引(Deaccession)。屏蔽數(shù)字對象的所有檢索點(diǎn)信息,暫時(shí)不提供用戶對該數(shù)字對象的訪問,但仍保存在存儲(chǔ)系統(tǒng)中。這是一個(gè)規(guī)避產(chǎn)權(quán)糾紛或處置數(shù)字對象的常規(guī)保存活動(dòng),但執(zhí)行結(jié)果導(dǎo)致被屏蔽的數(shù)字對象暫時(shí)不可使用。
(2)刪除(Deletion)。物理刪除數(shù)字對象,且所有描述信息同時(shí)也被刪除。執(zhí)行結(jié)果導(dǎo)致被刪除的數(shù)字對象不再可用。
(3)介質(zhì)刷新(Storage Medium Refresh)。根據(jù)保存政策設(shè)置的介質(zhì)刷新頻率對存儲(chǔ)介質(zhì)進(jìn)行定期刷新。若該事件沒有按照保存政策中設(shè)置的刷新頻率執(zhí)行,則可能產(chǎn)生風(fēng)險(xiǎn)。
(4)病毒檢測(Virus Check)。若該事件沒有按照保存政策中設(shè)置的病毒檢測周期執(zhí)行,則可能產(chǎn)生風(fēng)險(xiǎn)。
(1)版權(quán)信息(Copyright Information)。數(shù)字對象的版權(quán)狀態(tài)及其判斷依據(jù)和適用的時(shí)間空間范圍的描述。包括:①版權(quán)狀態(tài),取值有“受版權(quán)保護(hù)”“公共領(lǐng)域”“未知”。②適用的版權(quán)法,判定數(shù)字對象的版權(quán)狀態(tài)所依據(jù)的法律文本。③版權(quán)法的管轄范圍,不同國家和地區(qū),適用的版權(quán)法可能不同,賦值應(yīng)來自ISO3166。④版權(quán)時(shí)間區(qū)間,版權(quán)狀態(tài)適用的時(shí)間范圍,若版權(quán)狀態(tài)是“受版權(quán)保護(hù)”,記錄開始日期(一般為原始信息資源的發(fā)布日期)和終止日期(若永久受版權(quán)保護(hù),記錄為“OPEN”);若版權(quán)狀態(tài)屬于“公共領(lǐng)域”,開始日期為進(jìn)入公共領(lǐng)域的日期,終止日期為“OPEN”;若版權(quán)狀態(tài)是“未知”,該元素不賦值。
檢測項(xiàng)目:①檢查版權(quán)狀態(tài)元素,若值為“受版權(quán)保護(hù)”,則無授權(quán)的用戶無法訪問使用;②檢查版權(quán)狀態(tài)和時(shí)間區(qū)間兩個(gè)元素,若前者的值為“受版權(quán)保護(hù)”,且后者的終止日期已過,則數(shù)字對象應(yīng)對所有用戶開放使用,但由于沒有及時(shí)更新終止日期,仍不可使用;③檢查版權(quán)狀態(tài)元素,若值為“未知”,保存系統(tǒng)為了規(guī)避侵權(quán)風(fēng)險(xiǎn),可能設(shè)置為用戶不可訪問;④檢查管轄范圍元素,若賦值錯(cuò)誤,則可能導(dǎo)致本應(yīng)進(jìn)入公共領(lǐng)域的數(shù)字對象并未進(jìn)入。上述四種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上出現(xiàn)的風(fēng)險(xiǎn)。
(2)許可信息(License Information)。許可協(xié)議中有關(guān)數(shù)字對象可用性條款的信息。包括:①許可的類型,取值有“允許”“限制”,前者表示產(chǎn)權(quán)擁有者或數(shù)字對象提交者允許保存系統(tǒng)實(shí)施后續(xù)元素描述的保存活動(dòng),后者表示限制實(shí)施后續(xù)元素描述的保存活動(dòng);②保存活動(dòng),有傳播(允許下載離線使用)、瀏覽(只許在線使用)、修改(改變數(shù)字對象的外觀和內(nèi)容)、刪除(從保存系統(tǒng)中移除數(shù)字對象)、格式遷移(改變數(shù)字對象的格式,但不改變內(nèi)容)等;③時(shí)間區(qū)間,包括開始日期和終止日期,若為永久許可,則后者標(biāo)記為“OPEN”。若一件數(shù)字對象存在多項(xiàng)許可信息,可重復(fù)上述三個(gè)元素分別給予描述。
檢測項(xiàng)目:①檢查許可類型和保存活動(dòng),若類型為“允許”,活動(dòng)為“刪除”“修改”,第一種許可操作導(dǎo)致數(shù)字對象無法使用,第二種許可操作可能導(dǎo)致因過度修改致使數(shù)字對象失真;②檢查許可類型和保存活動(dòng),若類型為“限制”,活動(dòng)為“傳播”“瀏覽”“格式遷移”,第一種限制操作導(dǎo)致無法離線使用,第二種限制操作導(dǎo)致無法在線使用,第三種限制操作會(huì)導(dǎo)致格式過時(shí)致使現(xiàn)有瀏覽軟件無法呈現(xiàn);③同時(shí)檢查上述三個(gè)元素,若相應(yīng)操作不在時(shí)間區(qū)間元素描述的范圍,導(dǎo)致可能一些操作已過期,但因沒有及時(shí)更新仍限制數(shù)字對象的使用或?qū)е聰?shù)字對象的失真或消失。上述三種情況均歸為在該風(fēng)險(xiǎn)點(diǎn)上出現(xiàn)的風(fēng)險(xiǎn)。
是與數(shù)字對象、保存事件和產(chǎn)權(quán)管理方面的可用性風(fēng)險(xiǎn)點(diǎn)檢測所需的保存系統(tǒng)設(shè)置的相關(guān)指標(biāo),為上述三個(gè)方面的風(fēng)險(xiǎn)點(diǎn)檢測提供參考依據(jù)。所以,從本質(zhì)上講,該類風(fēng)險(xiǎn)點(diǎn)都是為可用性風(fēng)險(xiǎn)點(diǎn)檢測提供服務(wù)的,并不直接用于檢測。包括:
(1)檢索點(diǎn)(Retrieval Point)。保存系統(tǒng)為每種類型文獻(xiàn)設(shè)置的檢索途徑。用于“檢索點(diǎn)信息”風(fēng)險(xiǎn)點(diǎn)的檢測。
(2)存儲(chǔ)介質(zhì)的使用壽命(Media Life)。每種存儲(chǔ)介質(zhì)的有效期記錄。用于“存儲(chǔ)信息”的“存儲(chǔ)介質(zhì)”風(fēng)險(xiǎn)點(diǎn)的檢測。
(3)介質(zhì)刷新頻率(Media Refresh Rate)。用于“介質(zhì)刷新”保存事件風(fēng)險(xiǎn)點(diǎn)的檢測。
(4)病毒檢測周期(Virus Check Period)。用于“病毒檢測”保存事件風(fēng)險(xiǎn)點(diǎn)的檢測。
為了簡化敘述和方便圖示,本實(shí)驗(yàn)界定和使用下述術(shù)語。由于本實(shí)驗(yàn)樣本采自于中國知網(wǎng)(以下簡稱“知網(wǎng)”),故下述術(shù)語結(jié)合知網(wǎng)說明。
(1)相(Phase):指數(shù)字對象的特征。知網(wǎng)中數(shù)字對象特征有時(shí)間特征、文獻(xiàn)類型特征、學(xué)科特征。
(2)TP(Time Phase):時(shí)間區(qū)間相。為便于風(fēng)險(xiǎn)檢測,將知網(wǎng)的TP分為7個(gè):1990年之前(用TP1表示)、1991—1995年(用TP2表示)、1996—2000年(用TP3表示)、2001—2005年(用TP4表示)、2005—2010年(用TP5表示)、2011—2015年(用TP6表示)、2016年之后(用TP7表示)。
(3)CP(Category Phase):文獻(xiàn)類型相?;谥W(wǎng),將CP分為10個(gè):期刊(用CP1表示)、碩博論文(用CP2表示)、會(huì)議論文(用CP3表示)、年鑒(用CP4表示)、統(tǒng)計(jì)數(shù)據(jù)(用CP5表示)、專利(用CP6表示)、標(biāo)準(zhǔn)文獻(xiàn)(用CP7表示)、古籍(用CP8表示)、工具書(用CP9表示)、外文文獻(xiàn)(用CP10表示)。
(4)SP(Subject Phase):學(xué)科類型相。基于知網(wǎng)的學(xué)科大類,將SP劃分為8個(gè):基礎(chǔ)學(xué)科(用SP1表示)、工程技術(shù)(用SP2表示)、農(nóng)業(yè)科技(用SP3表示)、醫(yī)療衛(wèi)生科技(用SP4表示)、哲學(xué)與人文科學(xué)(用SP5表示)、社會(huì)科學(xué)(用SP6表示)、信息科學(xué)(用SP7表示)、經(jīng)濟(jì)與管理科學(xué)(用SP8表示)。
(5)RP(Risk Point):用于檢測的風(fēng)險(xiǎn)點(diǎn)。包括12個(gè):檢索點(diǎn)信息(用RP1表示)、文件系統(tǒng)(用RP2表示)、瀏覽軟件信息(用RP3表示)、保存級別(用RP4表示)、編碼信息(用RP5表示)、存儲(chǔ)信息(用RP6表示)、去索引事件(用RP7表示)、刪除事件(用RP8表示)、介質(zhì)刷新事件(用RP9表示)、病毒檢測(用RP10表示)、版權(quán)信息(用RP11表示)、許可信息(用RP12表示)。
采集自知網(wǎng),樣本總量1萬件(用ST表示),使用分層隨機(jī)抽樣法采集。步驟:
(1)層次單元(Hierarchical Unit)的構(gòu)建。表示為:HU(TPi,CPj,SPk)。其中:TPi為 TP 相中第 i個(gè)單元,且i∈[1,7];CPj為CP相中第j個(gè)單元,且j∈[1,10];SPk為SP相中第k個(gè)單元,且k∈[1,8]。層次單元共計(jì)7×8×10=560個(gè)。
(2)樣本量的計(jì)算。計(jì)算公式(1):SES [HU( TPi,CPj,SPk)]=TS [HU( TPi,CPj,SPk)]÷TT×ST。其中:SES[HU( TPi,CPj,SPk)]是 HU(TPi,CPj,SPk)的樣本抽取量;TS [HU( TPi,CPj,SPk)是 HU( TPi,CPj,SPk)的數(shù)字資源總量;TT是知網(wǎng)數(shù)字資源總量;ST是設(shè)定的樣本總量。
(3)樣本的抽取。以第一個(gè)層次單元HU(TP1,CP1, SP1)為取例。首先,根據(jù)公式(1),計(jì)算出SES[HU( TP1,CP1,SP1)]的值(如為 50);其次,檢索知網(wǎng),得到TS [HU( TP1,CP1,SP1)]值為571 203;再次,使用無重復(fù)隨機(jī)數(shù)生成軟件,設(shè)置最小數(shù)為1,最大數(shù)為571 203,生成50個(gè)無重復(fù)的數(shù)字;最后,下載該50個(gè)數(shù)字對應(yīng)的數(shù)字對象。重復(fù)上述步驟560次,抽取每個(gè)單元 HU(TPi,CPj,SPk)(i∈ [1,7],j∈ [1,10],k∈[1,8])的樣本。
風(fēng)險(xiǎn)點(diǎn)內(nèi)容的生成。完全為了研究的用途,知網(wǎng)提供本實(shí)驗(yàn)所需的相關(guān)元數(shù)據(jù)(包括保存型、管理型和描述型等三種類型)元素的賦值。針對每件樣本對象,將本研究設(shè)計(jì)的風(fēng)險(xiǎn)點(diǎn)元素與知網(wǎng)提供的元素進(jìn)行對應(yīng)映射,若映射成功,前者的值直接復(fù)制后者,否則,前者的賦值為空。
(1)檢測樣本的形成?;谏鲜鰳?gòu)建的數(shù)字對象的樣本集,去除標(biāo)識(shí)符無賦值的、類型為“知識(shí)實(shí)體”和“比特流”的三類數(shù)字對象,剩余樣本為檢測樣本。
(2)檢測單元的形成。根據(jù)TP、CP、SP三個(gè)相,將檢測樣本劃分為560個(gè)檢測單元,即HU(TPi,CPj,SPk)(i∈ [1,7],j∈ [1,10],k ∈ [1,8])。
(3)檢測單元的風(fēng)險(xiǎn)檢測算法。①對風(fēng)險(xiǎn)點(diǎn)的元素賦值進(jìn)行編碼;②采用微軟的VFP9.0數(shù)據(jù)庫管理系統(tǒng)構(gòu)建檢測單元的數(shù)字對象數(shù)據(jù)庫、風(fēng)險(xiǎn)點(diǎn)元素內(nèi)容(經(jīng)過編碼)數(shù)據(jù)庫、保存政策方面的風(fēng)險(xiǎn)點(diǎn)數(shù)據(jù)庫;③采用VFP9.0編制每個(gè)風(fēng)險(xiǎn)點(diǎn)的各個(gè)檢測項(xiàng)目的檢測代碼;④針對檢測單元中每件數(shù)字對象,運(yùn)行檢測代碼,輸出各檢測項(xiàng)目的檢測結(jié)果,為了方便統(tǒng)計(jì),本實(shí)驗(yàn)設(shè)定一件數(shù)字對象的一個(gè)風(fēng)險(xiǎn)點(diǎn)上的任一檢測項(xiàng)目出現(xiàn)風(fēng)險(xiǎn),則該數(shù)字對象在該風(fēng)險(xiǎn)點(diǎn)上輸出風(fēng)險(xiǎn),一個(gè)風(fēng)險(xiǎn)點(diǎn)的檢測項(xiàng)目出現(xiàn)風(fēng)險(xiǎn)不累計(jì);⑤統(tǒng)計(jì)一個(gè)檢測單元中在各個(gè)風(fēng)險(xiǎn)點(diǎn)上產(chǎn)生風(fēng)險(xiǎn)的數(shù)字對象數(shù)量。針對每個(gè)檢測單元,采用該算法,輸出檢測結(jié)果。
(4)零相檢測算法。零相指不基于數(shù)字對象的任何特征對檢測樣本進(jìn)行劃分。算法是:將上述560個(gè)檢測單元的檢測結(jié)果,在各個(gè)風(fēng)險(xiǎn)點(diǎn)上進(jìn)行疊加,形成所有檢測單元在各個(gè)風(fēng)險(xiǎn)點(diǎn)上的風(fēng)險(xiǎn)值。
(5)單相檢測算法。單相指基于數(shù)字對象的一個(gè)特征,將檢測樣本劃分為若干個(gè)單元。算法是:將上述560個(gè)檢測單元,基于一個(gè)相進(jìn)行合并,同時(shí)對各個(gè)風(fēng)險(xiǎn)點(diǎn)上的風(fēng)險(xiǎn)值進(jìn)行疊加,形成每個(gè)合并單元在各個(gè)風(fēng)險(xiǎn)點(diǎn)上的風(fēng)險(xiǎn)值。
(6)雙相檢測算法。雙相指基于數(shù)字對象的兩個(gè)特征,將檢測樣本劃分為若干個(gè)單元。算法是:將上述560個(gè)檢測單元,基于兩個(gè)相進(jìn)行合并,同時(shí)對各個(gè)風(fēng)險(xiǎn)點(diǎn)上的風(fēng)險(xiǎn)值進(jìn)行疊加,形成每個(gè)合并單元在各個(gè)風(fēng)險(xiǎn)點(diǎn)上的風(fēng)險(xiǎn)值。
(7)三相檢測算法。三相指基于數(shù)字對象的三個(gè)特征,將檢測樣本劃分為若干個(gè)單元。本算法步驟(3)中的檢測單元就是按照三相劃分的結(jié)果,故也是三相檢測算法。
3.4.1 零相檢測結(jié)果
執(zhí)行檢測算法中的零相檢測算法,檢測結(jié)果見圖1。風(fēng)險(xiǎn)值較高的風(fēng)險(xiǎn)點(diǎn)為:RP1、RP4、RP5、RP7、RP11、RP12。
圖1 零相檢測結(jié)果
3.4.2 單相檢測結(jié)果
根據(jù)檢測樣本的特征,該類檢測有三種。
(1)TP的單相檢測結(jié)果。執(zhí)行檢測算法中的單相檢測算法,并將單相設(shè)置為TP相(時(shí)間區(qū)間),檢測結(jié)果見圖2。主要風(fēng)險(xiǎn)點(diǎn)分布為:
(2)CP的單相檢測結(jié)果。執(zhí)行檢測算法中的單相檢測算法,并將單相設(shè)置為CP相(文獻(xiàn)類型),檢測結(jié)果見圖3。主要風(fēng)險(xiǎn)點(diǎn)分布為:
(3)SP的單相檢測結(jié)果。執(zhí)行檢測算法中的單相檢測算法,并將單相設(shè)置為SP相(學(xué)科類型),檢測結(jié)果見圖4。主要風(fēng)險(xiǎn)點(diǎn)分布為:
圖2 TP的單相檢測結(jié)果
圖3 CP的單相檢測結(jié)果
圖4 SP的單相檢測結(jié)果
3.4.3 雙相檢測結(jié)果
根據(jù)檢測樣本的特征,該類檢測有三種。
(1)[TP,CP]的雙相檢測結(jié)果。執(zhí)行檢測算法中的雙相檢測算法,并將雙相設(shè)置為TP相(時(shí)間區(qū)間)和CP相(文獻(xiàn)類型),檢測結(jié)果見圖5。主要風(fēng)險(xiǎn)點(diǎn)分布為:
圖5 [TP,CP]的雙相檢測結(jié)果
(2)[TP,SP]的雙相檢測結(jié)果。執(zhí)行檢測算法中的雙相檢測算法,并將雙相設(shè)置為TP相(時(shí)間區(qū)間)和SP相(學(xué)科類型),檢測結(jié)果見圖6。主要風(fēng)險(xiǎn)點(diǎn)分布為:
圖6 [TP,SP]的雙相檢測結(jié)果
(3)[CP,SP]的雙相檢測結(jié)果。執(zhí)行檢測算法中的雙相檢測算法,并將雙相設(shè)置為CP相(文獻(xiàn)類型)和SP相(學(xué)科類型),檢測結(jié)果見圖7。主要風(fēng)險(xiǎn)點(diǎn)分布為:
圖7 [CP,SP]的雙相檢測結(jié)果
3.4.4 三相檢測結(jié)果
根據(jù)檢測樣本的特征,該類檢測有一種。
[TP,CP,SP]的三相檢測。執(zhí)行檢測算法中的三相檢測算法,檢測結(jié)果圖太大,省略。主要風(fēng)險(xiǎn)點(diǎn)分布為:
風(fēng)險(xiǎn)檢測的最終作用在于為風(fēng)險(xiǎn)規(guī)避提供參考?;诒卷?xiàng)試驗(yàn),檢測單元的粒度隨著檢測相數(shù)的增加而變小,由此使得風(fēng)險(xiǎn)的識(shí)別也更為方便。具體分析如下。
(1)檢索點(diǎn)信息。檢測結(jié)果與學(xué)科無關(guān),集中在1995年之前的期刊文獻(xiàn)上,可根據(jù)檢測項(xiàng)目分析原因。針對第一個(gè)檢測項(xiàng)目,由于產(chǎn)生風(fēng)險(xiǎn)的數(shù)字對象集中在1995年之前的期刊,其他時(shí)間區(qū)間的期刊文獻(xiàn)很少產(chǎn)生風(fēng)險(xiǎn),因此,與“檢索點(diǎn)”的設(shè)置無關(guān),該檢測項(xiàng)目不產(chǎn)生風(fēng)險(xiǎn)。針對第二個(gè)和第三個(gè)檢測項(xiàng)目,基于索引的檢索點(diǎn)沒有賦值內(nèi)容或所賦內(nèi)容不正確,風(fēng)險(xiǎn)應(yīng)該來自這兩個(gè)檢測項(xiàng)目。原因可能是1995年之前的期刊文獻(xiàn)大多通過數(shù)字掃描生成,數(shù)字對象都是圖片,檢索點(diǎn)的賦值內(nèi)容無法從數(shù)字對象中自動(dòng)析出,需人工提取,導(dǎo)致有些檢索點(diǎn)沒有賦值或賦值差錯(cuò)。降低和規(guī)避這類風(fēng)險(xiǎn)的方法是針對該層次單元數(shù)字對象,逐一檢查核對和完善檢索點(diǎn)的賦值內(nèi)容。
(2)保存級別。檢測結(jié)果與時(shí)間無關(guān)。集中在除了哲學(xué)與人文科學(xué)、社會(huì)科學(xué)、經(jīng)濟(jì)與管理科學(xué)等三個(gè)學(xué)科之外的5個(gè)學(xué)科的專利文獻(xiàn)中。原因可從兩個(gè)方面分析:一是學(xué)科類型方面,由于哲學(xué)與人文科學(xué)、社會(huì)科學(xué)、經(jīng)濟(jì)與管理科學(xué)等3個(gè)學(xué)科很少有專利文獻(xiàn),所以該風(fēng)險(xiǎn)點(diǎn)的風(fēng)險(xiǎn)產(chǎn)生與學(xué)科無關(guān);二是檢測項(xiàng)目,比特保存的級別設(shè)置較低或邏輯保存缺失,這應(yīng)該是風(fēng)險(xiǎn)的產(chǎn)生之處。為此,保存系統(tǒng)需針對性地提高保存級別,增加邏輯保存功能。
(3)編碼信息。檢測結(jié)果與時(shí)間無關(guān),集中在除了工程技術(shù)和信息科學(xué)之外的其他六個(gè)學(xué)科的古籍中。原因可從方面分析:一是學(xué)科類型方面,工程技術(shù)和信息科學(xué)的學(xué)科文獻(xiàn)主要產(chǎn)生于近現(xiàn)代,古籍很少,所以該風(fēng)險(xiǎn)點(diǎn)的風(fēng)險(xiǎn)產(chǎn)生與學(xué)科無關(guān)。二是檢測項(xiàng)目方面,第一個(gè)和第三個(gè)檢測項(xiàng)目都涉及加密,而古籍無需加密,所以,該兩個(gè)項(xiàng)目不產(chǎn)生風(fēng)險(xiǎn);第二個(gè)檢測項(xiàng)目包含了壓縮,一些古籍?dāng)?shù)字對象體積較大,存儲(chǔ)時(shí)可能需壓縮,這可能是產(chǎn)生風(fēng)險(xiǎn)的原因。為此,保存系統(tǒng)需對該類檢測結(jié)果中相應(yīng)的壓縮型數(shù)字對象的壓縮描述信息進(jìn)行核實(shí)和糾正。
(4)去索引事件。檢測結(jié)果與時(shí)間、文獻(xiàn)類型、學(xué)科均無關(guān),出現(xiàn)在所有數(shù)字對象中。從檢測項(xiàng)目分析,該風(fēng)險(xiǎn)點(diǎn)只有一個(gè)項(xiàng)目,即數(shù)字對象的檢索點(diǎn)信息被屏蔽,這可能是保存系統(tǒng)對數(shù)字對象實(shí)施一些維護(hù)操作而執(zhí)行的一項(xiàng)正常保存活動(dòng),但從可用性角度,導(dǎo)致數(shù)字對象暫時(shí)無法訪問。
(5)版權(quán)信息。集中在1995年之前的基礎(chǔ)學(xué)科、工程科技、信息科學(xué)的外文文獻(xiàn)中。基于檢測項(xiàng)目分析,可能原因是這個(gè)集合中的文獻(xiàn)較早,一些文獻(xiàn)的版權(quán)保護(hù)期可能已過,但沒有及時(shí)更改版權(quán)狀態(tài);也可能是該集合中的一些文獻(xiàn)版權(quán)狀態(tài)標(biāo)記為“未知”;還可能是管轄范圍識(shí)別有誤,或者一些元素未賦值。為此,保存系統(tǒng)應(yīng)該核實(shí)、完善和糾正該集合數(shù)字對象的版權(quán)信息各個(gè)元素的賦值。
(6)許可信息。集中在2000年之前的基礎(chǔ)學(xué)科的外文文獻(xiàn)中。基于檢測項(xiàng)目分析,可能原因是允許一些保存活動(dòng)(如刪除、修改),限制一些使用方式(如傳播、瀏覽),這些許可都是數(shù)字對象長期保存的正常管理活動(dòng),但的確會(huì)妨礙用戶的使用,因此,僅從可用性角度,產(chǎn)生了風(fēng)險(xiǎn)。另外,如果上述許可已過期(這種情況很可能存在,因?yàn)槌霈F(xiàn)風(fēng)險(xiǎn)的文獻(xiàn)產(chǎn)生時(shí)間大都較早),但未及時(shí)更改,也會(huì)導(dǎo)致可用性風(fēng)險(xiǎn)。
本項(xiàng)研究設(shè)計(jì)了數(shù)字保存風(fēng)險(xiǎn)之一的可用性風(fēng)險(xiǎn)的檢測方法,該方法的準(zhǔn)確性依賴于設(shè)計(jì)的可用性風(fēng)險(xiǎn)點(diǎn),因此,完善該類風(fēng)險(xiǎn)點(diǎn)是后續(xù)研究的一項(xiàng)內(nèi)容。
(來稿時(shí)間:2017年6月)