趙雷
(山東大學(xué)圖書館,山東濟南 250100)
在圖書館資源存儲平臺中,由于數(shù)據(jù)覆蓋現(xiàn)象的存在,導(dǎo)致其存在明顯的信息孤島,從而使數(shù)字資源間的實時互聯(lián)互通效果受到影響[1]。傳統(tǒng)的云計算型資源整合策略利用目錄體系整合圖書館數(shù)字資源,再利用門戶平臺將這些信息參量整合成新型的數(shù)據(jù)流傳輸格式[2]。然而該方法解決信息孤島問題的能力有限,很難建立全新的數(shù)字資源實時互聯(lián)互通關(guān)系。
深度挖掘是指從大量應(yīng)用數(shù)據(jù)中提取隱含信息參量。由于網(wǎng)絡(luò)主機事先難以獲知數(shù)據(jù)信息的實際傳輸方向,因此深度挖掘指令的執(zhí)行方向往往是復(fù)雜且多元化的。在實際應(yīng)用過程中,網(wǎng)絡(luò)主機首先需要確定與挖掘任務(wù)相關(guān)的目標(biāo)數(shù)據(jù)對象所處位置;然后根據(jù)預(yù)處理節(jié)點中所包含的具體數(shù)據(jù)信息量確定深度挖掘指令的實際作用范圍[3];最后在數(shù)據(jù)庫主機的作用下,將相關(guān)暫存數(shù)據(jù)全部調(diào)整至快速轉(zhuǎn)錄的實時傳輸狀態(tài)。
為解決傳統(tǒng)的云計算型資源整合策略存在的不足,文中提出了基于深度挖掘的圖書館數(shù)字資源整合與共享算法,在權(quán)重樣本時間衰減周期參量的支持下,準(zhǔn)確設(shè)定實值挖掘參數(shù),再借助數(shù)字資源目錄體系實現(xiàn)對圖書館數(shù)字資源共享元信息的實時編碼。
圖書館數(shù)字資源的深度挖掘處理包括計算權(quán)重樣本時間衰減周期、數(shù)據(jù)集表達、實值挖掘參數(shù)設(shè)定3 個執(zhí)行環(huán)節(jié),具體操作方法如下。
權(quán)重樣本時間衰減周期是一個相對較為寬泛的物理系數(shù)指標(biāo)。在圖書館數(shù)字資源存儲空間中,由于深度挖掘框架體系的影響,權(quán)重樣本時間衰減周期往往會對數(shù)據(jù)參量指標(biāo)的實時存儲行為造成直接影響。
對于圖書館數(shù)字資源來說,深度挖掘框架體系的實際覆蓋面積越大,數(shù)據(jù)信息參量所具備的應(yīng)用存儲能力就越強[4]。簡單來說,權(quán)重樣本時間衰減周期的長度值水平并不完全固定,隨待存儲圖書館數(shù)字資源量的增大,該項物理指標(biāo)的數(shù)量級水平也會有所提升。但為了不影響最終的信息參量整合與分享結(jié)果,權(quán)重樣本時間衰減周期指標(biāo)也包含一定的約束能力,即在固定數(shù)值空間內(nèi),權(quán)重樣本時間衰減周期指標(biāo)能夠影響圖書館數(shù)字資源的整合與共享處理結(jié)果[5-6]。
假設(shè)s、e分別代表兩個不同的圖書館數(shù)字資源權(quán)重樣本系數(shù),n代表圖書館數(shù)字資源信息的樣本采集系數(shù),聯(lián)立上述物理量,可將權(quán)重樣本時間的衰減周期表達式定義為如下形式:
其中,Ws代表樣本系數(shù)為s時的圖書館數(shù)字資源信息特征值,We代表樣本系數(shù)為e時的圖書館數(shù)字資源信息特征值,| ΔT|代表圖書館數(shù)字資源信息的單位整合時長。
在實施信息參量整合與共享指令的過程中,數(shù)據(jù)集能夠?qū)⑺形炊x的圖書館數(shù)字資源信息囊括在內(nèi),并按照權(quán)重樣本時間衰減周期的具體數(shù)值水平,更改已存儲信息參量的實際傳輸速率。
數(shù)據(jù)集是一個相對寬泛的信息參量定義條件。為更有效地滿足深度挖掘框架的實際應(yīng)用需求,應(yīng)在順向轉(zhuǎn)存圖書館數(shù)字資源信息參量的同時,將剩余數(shù)據(jù)指標(biāo)整合成全新的傳輸形式,一方面滿足圖書館主機對于數(shù)字資源信息的整合與分享需求,另一方面也可暫時緩解由權(quán)重樣本時間衰減周期所引起的信息參量存儲及時性較差的問題[7-8]。設(shè)u代表圖書館數(shù)字資源的信息共享系數(shù),聯(lián)立式(1)可將圖書館數(shù)字資源的數(shù)據(jù)集表達式定義為:
式中,ε1、ε2分別代表兩個不同的圖書館數(shù)字資源信息參量定義條件,xu代表既定的數(shù)字資源信息整合基向量。
實值挖掘參數(shù)設(shè)定是深度挖掘的關(guān)鍵處理步驟之一,可在已知權(quán)重樣本時間衰減周期與數(shù)據(jù)集表達條件的基礎(chǔ)上,對圖書館數(shù)字資源信息的整合與共享能力進行初步約束,從而不斷提升圖書館主機的數(shù)據(jù)參量查詢能力。圖書館數(shù)據(jù)存儲平臺同時管理著大量的數(shù)字資源信息,且由于參量整合與共享模式的不同,這些信息文件的最終傳輸方向也有所不同。但大多數(shù)情況下,其傳輸行為都有利于參量深度挖掘指令的進行與實施[9-10]。
假設(shè)pmin代表圖書館數(shù)字資源挖掘深度值的最小值,pmax代表圖書館數(shù)字資源挖掘深度值的最大值。一般情況下,上述兩者之間的物理差值水平越大,實值挖掘參數(shù)的設(shè)定結(jié)果也就越精準(zhǔn)。在上述物理量的支持下,聯(lián)立式(2)可將實值挖掘參數(shù)設(shè)定結(jié)果表示為:
其中,f代表深度挖掘系數(shù),λ代表數(shù)字資源信息的共享特征值,I1、I2分別代表不同的圖書館數(shù)字資源信息挖掘權(quán)限值。
在深度挖掘原理的支持下,按照數(shù)字資源目錄體系搭建、共享元信息編碼、資源整合維度確定的操作流程,實現(xiàn)新型圖書館數(shù)字資源整合與共享算法的順利應(yīng)用。
數(shù)字資源目錄體系由一級單元、次級單元兩部分共同組成。其中,一級單元也叫圖書館數(shù)字資源的總目錄。受到深度挖掘框架的影響,該目錄體系下級同時管理多個分目錄組織,可在準(zhǔn)確記錄圖書館數(shù)字資源信息傳輸行為的基礎(chǔ)上,對次級目錄單元發(fā)出數(shù)據(jù)信息的整合與共享指令[11-12]。次級單元也叫作圖書館數(shù)字資源的二級目錄,其下級連接結(jié)構(gòu)也同時管理多個分目錄組織,能夠準(zhǔn)確接收圖書館主機反饋而來的數(shù)字資源信息參量,并可以數(shù)據(jù)傳輸流的方式,將未完全消耗的數(shù)字資源信息傳輸回主目錄結(jié)構(gòu)體之中,從而較好地滿足待傳輸數(shù)據(jù)信息參量的整合與共享需求。圖書館數(shù)字資源目錄體系如圖1 所示。
圖1 圖書館數(shù)字資源目錄體系
為降低圖書館體系的維修成本、提高數(shù)字資源信息參量的開發(fā)效率,建立良好的共享元信息編碼條件就顯得極為必要。良好的編碼規(guī)范不僅可以使圖書館數(shù)字資源信息的排列行為變得更加簡單,也可以大幅節(jié)省數(shù)據(jù)參量的存儲時間。
共享元信息是指圖書館數(shù)字資源中未被完全轉(zhuǎn)存的數(shù)據(jù)參量,具有極強的傳輸靈活性[13-14]。因此,在實施共享元信息編碼的過程中,應(yīng)同時注意命名約束、歧義避免、設(shè)計原則等多方面問題。一般情況下,命名約束可采用Pascal 標(biāo)記的方式對圖書館數(shù)字資源信息進行命名,一方面實現(xiàn)對資源信息參量的實時編碼,另一方面也可避免資源信息堆積行為的產(chǎn)生。共享元信息的編碼原理如表1 所示。
表1 共享元信息的編碼原理
整合維度從空間角度闡述了圖書館數(shù)字資源所具備的共享能力,在已知元信息編碼條件的情況下,可按照數(shù)字資源的目錄體系結(jié)構(gòu),對數(shù)據(jù)信息參量在圖書館主機中的傳輸能力進行精準(zhǔn)定義,從而使得圖書館數(shù)字資源信息的整合與共享能力得到最大化提升[15-16]。
整合維度是一個相對獨立的物理量。在深度挖掘框架的作用下,待傳輸?shù)膱D書館數(shù)字資源信息量越大,與之匹配的整合維度覆蓋面積也就越大。且由于共享元信息編碼條件的存在,這些待整合的信息參量可在圖書館主機中進行自行傳輸。這樣不僅能夠較好地解決資源參量的不平等分布問題,也可以實現(xiàn)對數(shù)字資源信息共享傳輸范圍的不斷擴展。設(shè)代表待共享的圖書館數(shù)字資源信息量均值,代表信息資源參量的整合特征值,聯(lián)立式(3)可將資源整合維度結(jié)果表示為:
其中,μ代表圖書館數(shù)字資源的整合維度定義系數(shù),k′代表既定的資源信息特征整合指標(biāo)。至此,實現(xiàn)各項實用系數(shù)指標(biāo)的計算與處理,在深度挖掘框架的支持下,完成圖書館數(shù)字資源整合與共享算法的設(shè)計。
文中設(shè)計如下實驗驗證該研究的有效性。建立相關(guān)的圖書館數(shù)字資源調(diào)度模式,然后分別將實驗組和對照組處理算法接入資源存儲主機中。其中,實驗組主機采用基于深度挖掘的圖書館數(shù)字資源整合與共享算法,對照組主機采用云計算型資源整合策略。
信息孤島是一種嚴重的數(shù)字資源傳輸閉鎖問題。通常情況下,信息孤島現(xiàn)象越明顯,數(shù)字資源的傳輸閉鎖行為也就越嚴重。RPP 指標(biāo)能夠反映圖書館數(shù)字資源信息孤島現(xiàn)象的出現(xiàn)幾率,該項指標(biāo)的數(shù)值水平越高,信息孤島現(xiàn)象的出現(xiàn)幾率也就越大。表2 記錄了實驗組和對照組RPP 指標(biāo)數(shù)值的具體變化情況。
表2 RPP指標(biāo)數(shù)值對比
表2 中,實驗組RPP 指標(biāo)數(shù)值始終保持連續(xù)上升的變化趨勢,整個實驗過程中,前期的數(shù)值上升幅度明顯大于后期。對照組RPP 指標(biāo)數(shù)值則保持先上升、再穩(wěn)定、最后下降的變化狀態(tài),且前期上升幅度與后期下降幅度并無明顯區(qū)別。從極限值角度來看,實驗組最大值與對照組最大值相比,下降了36.24%。
綜上可知,應(yīng)用基于深度挖掘整合與共享算法后,RPP 指標(biāo)數(shù)值水平得以明顯提高,在一定程度上解決了圖書館數(shù)字資源的信息孤島問題,實現(xiàn)了對數(shù)據(jù)信息參量的穩(wěn)定傳輸。
SUT 指標(biāo)能夠反映圖書館數(shù)字資源信息的實時互聯(lián)與互通能力。在不考慮其他外界影響條件的情況下,SUT 指標(biāo)數(shù)值越大,圖書館數(shù)字資源信息的實時互聯(lián)與互通能力就越強。表3 記錄了實驗組、對照組SUT 指標(biāo)數(shù)值的具體變化情況。
分析表3 可知,實驗組SUT 指標(biāo)在實驗前期始終保持絕對穩(wěn)定的狀態(tài)。從第25 min 開始,這種數(shù)值走向趨勢開始逐漸趨于階梯狀變化,全局最大值達到了73.17%。對照組SUT 指標(biāo)則在小幅下降狀態(tài)后,開始逐漸呈現(xiàn)波動式變化狀態(tài),全局最大值僅能達到52.71%,與實驗組最大值相比,下降了20.46%。
表3 SUT指標(biāo)數(shù)值對比
綜上可知,應(yīng)用基于深度挖掘的整合與共享算法后,SUT 指標(biāo)出現(xiàn)了明顯上升的數(shù)值變化狀態(tài),能夠促進圖書館數(shù)字資源信息實時互聯(lián)與互通能力的不斷提升。
與云計算型資源整合策略相比,基于深度挖掘的整合與共享算法打破了圖書館各級存儲數(shù)據(jù)間的信息孤島限制,從而實現(xiàn)數(shù)字資源的實時互聯(lián)與互通。從搭建流程的角度來看,由于權(quán)重樣本時間衰減周期值的存在,實值挖掘參數(shù)能夠得到精準(zhǔn)設(shè)定,可在建立圖書館數(shù)字資源目錄體系的同時,實現(xiàn)對資源整合維度系數(shù)的有效控制,從而具備較強的實際應(yīng)用價值。