張晴峰
(山東青年政治學(xué)院圖書館,山東 濟(jì)南 250103)
當(dāng)前計(jì)算機(jī)技術(shù)、物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,使得大學(xué)圖書館從傳統(tǒng)服務(wù)模式逐漸轉(zhuǎn)變?yōu)樾畔⒒?wù)模式,不僅能夠提供有效的圖書資源服務(wù),還能夠打破傳統(tǒng)圖書館運(yùn)行過程中時(shí)間和空間上的限制,為圖書館用戶提供24 小時(shí)全天候的圖書館資源信息服務(wù)[1]。大學(xué)圖書館的主要功能是為高校學(xué)生和教師科研、學(xué)習(xí)等多種活動提供信息服務(wù),大學(xué)圖書館也是整個(gè)高校當(dāng)中最大的信息服務(wù)中心[2]。Hadoop 是一種近幾年被廣泛應(yīng)用的分布式基礎(chǔ)結(jié)構(gòu),在各類平臺的研發(fā)和運(yùn)行當(dāng)中被大量應(yīng)用,將該結(jié)構(gòu)應(yīng)用于實(shí)際不僅具有高可靠性、高效率性,同時(shí)能夠針對不同平臺用戶,給予其不同需求的服務(wù),充分滿足平臺用戶的應(yīng)用需要。但目前,Hadoop 分布式結(jié)構(gòu)在大學(xué)圖書館服務(wù)平臺當(dāng)中的應(yīng)用并未涉及[3]。因此,本文基于Hadoop 的應(yīng)用優(yōu)勢,開展大學(xué)圖書館服務(wù)平臺設(shè)計(jì)研究。
為確保本文設(shè)計(jì)的基于Hadoop 的大學(xué)圖書館服務(wù)平臺能夠得到穩(wěn)定運(yùn)行,本文結(jié)合Hadoop 分布式結(jié)構(gòu),構(gòu)建一個(gè)大學(xué)圖書館服務(wù)平臺檢索架構(gòu),將其作為基礎(chǔ),為后續(xù)平臺運(yùn)行提供條件。根據(jù)大學(xué)圖書館平臺用戶的檢索需要,利用開源組織中具有高可靠性和良好延展性的Hadoop,對各類圖書館資源數(shù)據(jù)進(jìn)行分布式存儲。將平臺整體劃分為四個(gè)不同層次,分別為平臺用戶訪問層、各類圖書館服務(wù)應(yīng)用層、圖書館基礎(chǔ)資源數(shù)據(jù)管理層和圖書館資源數(shù)據(jù)存儲層[4]。圖1 為本文大學(xué)圖書館服務(wù)平臺架構(gòu)示意圖。
圖1 本文大學(xué)圖書館服務(wù)平臺架構(gòu)示意圖
在該平臺的訪問層,主要針對平臺用戶利用公共應(yīng)用端口完成賬號登錄,并為后續(xù)用戶在平臺中享受各類圖書資源信息服務(wù)提供條件。在應(yīng)用層當(dāng)中,可通過引入云檢索技術(shù)的方式,為平臺引入組件,為不同用戶服務(wù)業(yè)務(wù)提供不同的應(yīng)用[5]。管理層主要針對平臺在運(yùn)行的整個(gè)過程中產(chǎn)生的各類Hadoop 分布式文件進(jìn)行管理,確保各類文件能夠在平臺運(yùn)行時(shí)形成協(xié)調(diào)統(tǒng)一的工作模式,為系統(tǒng)帶來更強(qiáng)的資源檢索功能。存儲層是針對平臺在運(yùn)行階段產(chǎn)生的各類數(shù)據(jù)進(jìn)行統(tǒng)一管理,針對大學(xué)圖書館服務(wù)中海量數(shù)據(jù)的存儲需要,可通過NAS 存儲設(shè)備實(shí)現(xiàn)。NAS 存儲設(shè)備由平臺進(jìn)行統(tǒng)一管理,并采用Hadoop 分布式結(jié)構(gòu)實(shí)現(xiàn)對存儲內(nèi)容的邏輯虛擬化管理,并為平臺在運(yùn)行時(shí)各類設(shè)備出現(xiàn)故障問題進(jìn)行監(jiān)督,以此確保平臺在出現(xiàn)問題前,對其進(jìn)行維護(hù),保證平臺用戶信息的安全和平臺的穩(wěn)定。
結(jié)合Hadoop 分布式平臺檢索結(jié)構(gòu),利用非線性序列,對圖書館資源數(shù)據(jù)模型進(jìn)行可視化構(gòu)建,以此為提取所需的圖書資源提供環(huán)境。為圖書資源建立特征提取序列,該模型的表達(dá)式如公式(1)所示:
公式(1)中,x'表示為大學(xué)圖書館資源頻繁項(xiàng)集特征集合;x表示為某一圖書館資源頻繁項(xiàng)集時(shí)間序列;t 表示為大學(xué)圖書館服務(wù)平臺運(yùn)行時(shí)間;n 表示為時(shí)間序列總數(shù);h[z(t+nΔt)]表示為資源數(shù)據(jù)時(shí)間序列的近似特征量;ω 表示為檢索過程中區(qū)域劃分閾值。
按照上述公式(1)計(jì)算,得出的數(shù)據(jù)能夠?yàn)楸疚姆?wù)平臺對圖書館資源信息檢索提供數(shù)據(jù)輸入的基礎(chǔ)條件,再結(jié)合目標(biāo)函數(shù)當(dāng)中的約束條件,得出最優(yōu)檢索數(shù)據(jù),并完成對圖書資源頻繁項(xiàng)集特征的采集。利用Q×m 表示為本文平臺在運(yùn)行過程中,當(dāng)Q 數(shù)值超過m 數(shù)值時(shí),則說明此時(shí)關(guān)聯(lián)規(guī)則當(dāng)中具備能夠被再次劃分的資源數(shù)據(jù)塊;當(dāng)Q 為進(jìn)一步提高本文服務(wù)平臺的檢索效率,還需要結(jié)合模糊聚類算法,對上述提取到的圖書館資源數(shù)據(jù)特征集合進(jìn)行分類,將獲取到的圖書館資源數(shù)據(jù)聚類特征用如公式(2)表示: 公式(2)中,Y(i+1)表示為圖書館資源數(shù)據(jù)聚類特征集合;U'表示為圖書館資源數(shù)據(jù)收斂值;Yi、……、Yip表示為頻繁項(xiàng)集特征集合。根據(jù)上述公式對上述提取到的圖書館資源數(shù)據(jù)特征進(jìn)行分類,并在此基礎(chǔ)上根據(jù)平臺用戶不同檢索需要,對檢索結(jié)果進(jìn)行輸出。結(jié)合特征分析方法對存儲在平臺數(shù)據(jù)庫當(dāng)中的節(jié)點(diǎn)進(jìn)行決策樹分析,并通過引入MapReduce 架構(gòu),完成全權(quán)責(zé)任調(diào)度。將利用MapReduce 定義的任務(wù)節(jié)點(diǎn)作為平臺在運(yùn)行過程中執(zhí)行平臺用戶指令的執(zhí)行節(jié)點(diǎn),將任務(wù)劃分為多個(gè)不同的切片,再結(jié)合任務(wù)節(jié)點(diǎn),實(shí)現(xiàn)對平臺用戶檢索需求輸入的檢索指令映射和規(guī)約驗(yàn)證。再利用HDFS 所提供的平臺存儲功能,對所有數(shù)據(jù)節(jié)點(diǎn)進(jìn)行共享,為各類服務(wù)任務(wù)在運(yùn)行過程中提供所需的資源數(shù)據(jù)。同時(shí),通過本文引入的Hadoop 結(jié)構(gòu),利用其中的解析器可以對用戶提出的各類檢索內(nèi)容進(jìn)行分析和查詢,并且在不同的查詢結(jié)構(gòu)以及查詢單位當(dāng)中找出相對應(yīng)的語義,并通過平臺當(dāng)中的元數(shù)據(jù)存儲節(jié)點(diǎn),對從查詢結(jié)構(gòu)和查詢單元中找出的元數(shù)據(jù)進(jìn)行執(zhí)行計(jì)劃生成。同時(shí),在元數(shù)據(jù)存儲節(jié)點(diǎn)上,包含了所有大學(xué)圖書館各類分區(qū)結(jié)構(gòu)的信息化數(shù)據(jù),因此能夠?qū)崿F(xiàn)對HDFS 中各類數(shù)據(jù)的讀寫。通過上述聚類實(shí)現(xiàn)對圖書館資源數(shù)據(jù)的分類,并結(jié)合Hadoop 對分類結(jié)果進(jìn)行輸出,為平臺用戶提供所需檢索資源。 實(shí)驗(yàn)準(zhǔn)備: 本文選擇將某高校圖書館作為依托,分別將本文提出的基于Hadoop 的大學(xué)圖書館服務(wù)平臺和傳統(tǒng)服務(wù)平臺,同時(shí)應(yīng)用到該圖書館,在確保圖書館能夠正常運(yùn)行的條件下,完成對比實(shí)驗(yàn)。兩種服務(wù)平臺的運(yùn)行環(huán)境均采用Windows 2019 R3 Intel 環(huán)境,實(shí)驗(yàn)過程中,產(chǎn)生的多組數(shù)據(jù)均為隨機(jī)生成。為實(shí)現(xiàn)對兩種不同服務(wù)平臺的應(yīng)用性能比較,本文選擇將檢索效率作為評價(jià)指標(biāo),將針對不同數(shù)量節(jié)點(diǎn)的檢索時(shí)間作為對比實(shí)驗(yàn)數(shù)據(jù)。分別設(shè)置100 個(gè)、200 個(gè)、300 個(gè)、400 個(gè)和500 個(gè)不同節(jié)點(diǎn)數(shù)量,對兩種服務(wù)平臺在運(yùn)行過程中的檢索時(shí)間進(jìn)行記錄。在實(shí)驗(yàn)過程中,設(shè)置兩種服務(wù)平臺在運(yùn)行過程中的數(shù)據(jù)量均為GB 級別,運(yùn)行時(shí)間單位為ms。在兩種服務(wù)平臺均完成相應(yīng)的服務(wù)任務(wù)后,將實(shí)驗(yàn)結(jié)果進(jìn)行記錄,并將兩種服務(wù)平臺在不同節(jié)點(diǎn)數(shù)量下的檢索時(shí)間繪制成如表1 所示的實(shí)驗(yàn)結(jié)果對比表。 表1 兩種服務(wù)平臺實(shí)驗(yàn)結(jié)果對比表 從表1 中的實(shí)驗(yàn)結(jié)果得出,在對不同節(jié)點(diǎn)數(shù)量進(jìn)行檢索時(shí),本文服務(wù)平臺的檢索時(shí)間均未超過12 500ms,而傳統(tǒng)服務(wù)平臺檢索時(shí)間最快僅為55 241 ms。并且,傳統(tǒng)服務(wù)平臺在對不同節(jié)點(diǎn)數(shù)量信息進(jìn)行檢索時(shí),隨著節(jié)點(diǎn)數(shù)量的增加,檢索時(shí)間呈現(xiàn)出明顯的增漲趨勢,說明平臺的運(yùn)行受節(jié)點(diǎn)數(shù)量的影響十分嚴(yán)重,節(jié)點(diǎn)數(shù)量增加,會對傳統(tǒng)服務(wù)平臺的運(yùn)行造成更到的壓力,而本文方法通過引入Hadoop 分布式結(jié)構(gòu),能夠有效解決這一問題,使檢索時(shí)間不會受到節(jié)點(diǎn)數(shù)量的影響。因此,通過對比實(shí)驗(yàn)證明,本文提出的基于Hadoop 的大學(xué)圖書館服務(wù)平臺在實(shí)際應(yīng)用中能夠有效提高平臺檢索效率,并利用Hadoop 降低節(jié)點(diǎn)數(shù)量激增對平臺運(yùn)行造成的壓力,實(shí)現(xiàn)大學(xué)圖書館服務(wù)平臺的穩(wěn)定運(yùn)行。 本文基于大學(xué)圖書館用戶需要,結(jié)合Hadoop 結(jié)構(gòu),提出一種全新的服務(wù)平臺,并通過對比實(shí)驗(yàn)的方式驗(yàn)證了該方法的實(shí)際應(yīng)用優(yōu)勢。將該平臺應(yīng)用于大學(xué)圖書館中能夠?qū)崿F(xiàn)對海量圖書館資源數(shù)據(jù)的快速檢索。在后續(xù)的研究中,為了確保該平臺的運(yùn)行穩(wěn)定,還將引入更加科學(xué)的平臺測評體系對其進(jìn)行運(yùn)行監(jiān)督,確保平臺中用戶信息和圖書信息的安全存儲。1.3 圖書館信息資源數(shù)據(jù)均值聚類及檢索輸出
2 對比實(shí)驗(yàn)
3 結(jié)論