劉家材
(武漢職業(yè)技術(shù)學(xué)院 湖北 武漢 430000)
互聯(lián)網(wǎng)技術(shù)的發(fā)展以及網(wǎng)絡(luò)技術(shù)的興起在極大程度上加速了數(shù)字化建設(shè)的進(jìn)程,以此為基礎(chǔ)的線(xiàn)上圖書(shū)館在應(yīng)用方面表現(xiàn)出的便捷性使用戶(hù)群體在短時(shí)間內(nèi)實(shí)現(xiàn)了大幅增加[1-2]。但是值得注意的是,由于公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息的規(guī)模較大,且資源之間的關(guān)聯(lián)關(guān)系較為復(fù)雜,導(dǎo)致在信息檢索階段的時(shí)間開(kāi)銷(xiāo)較長(zhǎng),用戶(hù)檢索結(jié)果的滿(mǎn)意度較低[3]。針對(duì)該問(wèn)題,部分學(xué)者以線(xiàn)上數(shù)據(jù)庫(kù)信息檢索為目標(biāo),展開(kāi)了對(duì)應(yīng)的研究。其中,蘇珂等[4]提出在對(duì)排序?qū)W習(xí)與預(yù)訓(xùn)練模型進(jìn)行融合的基礎(chǔ)上,設(shè)計(jì)了一種檢索排序方法。在一定程度上提高了檢索結(jié)果與用戶(hù)檢索目標(biāo)的一致性,用戶(hù)的滿(mǎn)意度實(shí)現(xiàn)了有效提升。但是其在排序階段的時(shí)間開(kāi)銷(xiāo)較長(zhǎng),難以滿(mǎn)足現(xiàn)階段高效的檢索需求。梁少博等[5]以公共數(shù)字文化資源為研究對(duì)象,通過(guò)聯(lián)合實(shí)體識(shí)別與翻譯機(jī)制,實(shí)現(xiàn)了信息的跨語(yǔ)言檢索,提高了檢索的執(zhí)行效率。在一定程度上縮短了對(duì)目標(biāo)信息的檢索時(shí)間,但是由于對(duì)實(shí)體的識(shí)別需要借助額外的輔助結(jié)構(gòu),因此在應(yīng)用方面存在一定的局限性。結(jié)合上述信息檢索的研究情況可以看出,進(jìn)一步深化對(duì)信息檢索方法的研究是十分必要的。
為此,本文提出基于區(qū)塊鏈技術(shù)的公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息檢索方法研究,借助區(qū)塊鏈技術(shù)的優(yōu)勢(shì),建立數(shù)據(jù)庫(kù)信息資源之間的關(guān)聯(lián)關(guān)系,確保檢索階段能夠根據(jù)輸入的內(nèi)容在數(shù)據(jù)庫(kù)內(nèi)實(shí)現(xiàn)對(duì)目標(biāo)資源的快速、準(zhǔn)確定位。
公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息檢索,有利于提高信息數(shù)據(jù)挖掘效果,為線(xiàn)上數(shù)據(jù)資源整合提供技術(shù)支撐。根據(jù)公共圖書(shū)館線(xiàn)上數(shù)據(jù)關(guān)聯(lián)屬性,將工作量證明機(jī)制作為區(qū)塊鏈的共識(shí)協(xié)議,構(gòu)建信息存儲(chǔ)結(jié)構(gòu),降低線(xiàn)上資源數(shù)據(jù)重復(fù)搜索概率。采用相似度計(jì)算方式,提高公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息最終檢索結(jié)果的可靠性,以偏差系數(shù)為依據(jù)得到滿(mǎn)足檢索目標(biāo)的尋優(yōu)結(jié)果,實(shí)現(xiàn)公共圖書(shū)館線(xiàn)上資源檢索,有效降低了檢索時(shí)間開(kāi)銷(xiāo),增強(qiáng)公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息交互處理能力。
在信息檢索階段,由于基于公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)中包含的資源規(guī)模總量較大,且資源的種類(lèi)較多,這就導(dǎo)致在以檢索內(nèi)容為基準(zhǔn)在數(shù)據(jù)庫(kù)內(nèi)匹配目標(biāo)資源時(shí)需要進(jìn)行大量的重復(fù)計(jì)算[6-7]。這不僅增加了檢索的時(shí)間開(kāi)銷(xiāo),同時(shí)也降低檢索結(jié)果的可靠性。為此,本文首先借助區(qū)塊鏈技術(shù)構(gòu)建了具有關(guān)聯(lián)屬性的信息存儲(chǔ)結(jié)構(gòu)。結(jié)合區(qū)塊鏈技術(shù)的運(yùn)行機(jī)制,本文對(duì)公共圖書(shū)館線(xiàn)上數(shù)據(jù)的存儲(chǔ)交易建立在數(shù)字簽名驗(yàn)證的基礎(chǔ)上,并以當(dāng)前區(qū)塊為基準(zhǔn),對(duì)數(shù)據(jù)屬性進(jìn)行證明,確認(rèn)滿(mǎn)足要求后,將當(dāng)前區(qū)塊添加到對(duì)應(yīng)區(qū)塊鏈的尾部。在具體的設(shè)置過(guò)程中,本文將工作量證明機(jī)制作為區(qū)塊鏈的共識(shí)協(xié)議,對(duì)應(yīng)的公共圖書(shū)館線(xiàn)上數(shù)據(jù)區(qū)塊鏈結(jié)構(gòu)如圖1所示。
圖1 區(qū)塊鏈技術(shù)的數(shù)據(jù)庫(kù)信息結(jié)構(gòu)
按照?qǐng)D1所示的方式,利用工作量作為區(qū)塊加入的判斷標(biāo)準(zhǔn),以此確保整個(gè)數(shù)據(jù)結(jié)構(gòu)中各個(gè)節(jié)點(diǎn)信息的共識(shí)程度保持一致。當(dāng)公共圖書(shū)館中的任意數(shù)據(jù)存儲(chǔ)在區(qū)塊上時(shí),表明該數(shù)據(jù)資源與對(duì)應(yīng)的數(shù)據(jù)鏈中所有區(qū)塊節(jié)點(diǎn)均有相同的屬性,并且這一屬性具有不可更改和持久的特點(diǎn)[8]。在此基礎(chǔ)上,當(dāng)數(shù)據(jù)成功存儲(chǔ)到區(qū)塊鏈上后,則對(duì)應(yīng)數(shù)據(jù)為元數(shù)據(jù),也就是具體的公共圖書(shū)館資源也存儲(chǔ)到了該區(qū)塊鏈。通過(guò)圖1中的數(shù)據(jù)庫(kù)信息結(jié)構(gòu)可以看出,本文為區(qū)塊鏈上公共圖書(shū)館資源構(gòu)建的標(biāo)簽包括記錄號(hào)、關(guān)鍵詞以及數(shù)據(jù)簽名。通過(guò)這樣的方式降低在檢索階段對(duì)海量可連接數(shù)據(jù)重復(fù)搜索的問(wèn)題,利用關(guān)鍵詞可以最快速度確定目標(biāo)信息的檢索范圍。對(duì)于數(shù)據(jù)簽名的設(shè)置,本文以公共圖書(shū)館資源的特定屬性為基礎(chǔ),具體的計(jì)算方式可以表示為:
其中,k表示數(shù)據(jù)簽名的設(shè)置結(jié)果,x表示經(jīng)過(guò)某規(guī)則檢索后的屬性參數(shù),Q表示某公共圖書(shū)館資源中包含的所有屬性信息。
通過(guò)這樣的方式,構(gòu)建以區(qū)塊鏈技術(shù)為基礎(chǔ)的公共圖書(shū)館線(xiàn)上數(shù)據(jù)資源庫(kù)。通常將數(shù)據(jù)集(水平劃分)作為一個(gè)域,將其元數(shù)據(jù)作為公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息結(jié)構(gòu),為后續(xù)的檢索機(jī)制執(zhí)行提供可靠基礎(chǔ)。
研究人員在完成對(duì)公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息結(jié)構(gòu)的構(gòu)建后,為了提高最終檢索結(jié)果的可靠性,降低檢索過(guò)程的重復(fù)操作。本文以檢索內(nèi)容為基準(zhǔn),與區(qū)塊鏈結(jié)構(gòu)下的公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息進(jìn)行相似度計(jì)算[9-10]。
假設(shè)檢索欄輸入的檢索內(nèi)容為y1,首先借助工作量證明機(jī)制計(jì)算與其對(duì)應(yīng)資源鏈,在此基礎(chǔ)上,匹配其與當(dāng)前區(qū)塊的相似度。具體地方計(jì)算方式可以表示為:
其中,sim(y1,y2)表示檢索內(nèi)容與當(dāng)前區(qū)塊y2資源的相似度,d表示區(qū)塊鏈結(jié)構(gòu)下數(shù)據(jù)庫(kù)的最大深度參數(shù),x1和x2分別表示y1和y2的經(jīng)過(guò)規(guī)則檢索后的屬性參數(shù),dis(x1-x2)表示x1和x2之間的偏差系數(shù)。根據(jù)式(2)可以看出,dis(x1-x2)的取值結(jié)果越小,則資源y2與檢索內(nèi)容y1的相似度sim(y1,y2)越大。對(duì)應(yīng)資源y2與檢索內(nèi)容y1的匹配程度越高。也就是說(shuō),鏈上信息資源與檢索內(nèi)容的屬性偏差系數(shù)越小,二者之間的擬合度越高,對(duì)應(yīng)資源與檢索目標(biāo)越接近。結(jié)合這一理論基礎(chǔ),對(duì)于目標(biāo)信息檢索問(wèn)題就轉(zhuǎn)換為了對(duì)最小dis(x1-x2)的尋優(yōu)問(wèn)題。
對(duì)于具體的尋優(yōu)方式,本文設(shè)計(jì)了如圖2所示的執(zhí)行方案。
圖2 檢索信息匹配結(jié)果尋優(yōu)方式
如圖2所示,在對(duì)檢索信息匹配結(jié)果尋優(yōu)的過(guò)程中,本文根據(jù)y2資源的記錄號(hào)對(duì)具體的尋優(yōu)方向進(jìn)行控制。當(dāng)dis(x1-x2)為負(fù)值時(shí),則沿?cái)?shù)據(jù)鏈向前與對(duì)應(yīng)區(qū)塊上的資源進(jìn)行相似度計(jì)算;當(dāng)dis(x1-x2)為正值時(shí),則沿?cái)?shù)據(jù)鏈向后與對(duì)應(yīng)區(qū)塊上的資源進(jìn)行相似度計(jì)算。直至計(jì)算結(jié)果滿(mǎn)足
將對(duì)于區(qū)塊上的資源作為最終的檢索結(jié)果,輸出的交互頁(yè)面。由此完成對(duì)信息的檢索。
在對(duì)本文設(shè)計(jì)的基于區(qū)塊鏈技術(shù)的公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息檢索方法應(yīng)用效果進(jìn)行測(cè)試階段,分別采用蘇珂等[4]方法和梁少博等[5]方法作為測(cè)試的對(duì)照組,通過(guò)對(duì)比上述三種方法的檢索結(jié)果,對(duì)本文設(shè)計(jì)方法的應(yīng)用價(jià)值進(jìn)行分析。
本文以某數(shù)字圖書(shū)館數(shù)據(jù)庫(kù)內(nèi)的資源子集作為基礎(chǔ)測(cè)試環(huán)境,對(duì)應(yīng)的信息規(guī)模總量分別為10.0 T、20.0 T、30.0 T、40.0 T、50.0 T。在此基礎(chǔ)上,分別設(shè)置了10 條不同的固定檢索內(nèi)容作為檢索信息,采用三種方法實(shí)施檢索??紤]到除了檢索結(jié)果的可靠性外,信息檢索的執(zhí)行效率也是評(píng)價(jià)檢索方法的重要指標(biāo)之一。因此,本文對(duì)不同檢索方法的響應(yīng)時(shí)間進(jìn)行約束,根據(jù)現(xiàn)階段檢索方法的平均響應(yīng)時(shí)間,以30 s 作為臨界標(biāo)準(zhǔn),當(dāng)信息檢索方法未能在30 s 內(nèi)針對(duì)檢索內(nèi)容做出反饋,則判定對(duì)應(yīng)的測(cè)試失敗,測(cè)試結(jié)果取0。
對(duì)于測(cè)試結(jié)果的評(píng)價(jià),本文結(jié)合信息檢索的實(shí)際需求,分別設(shè)置召回率、查準(zhǔn)率作為評(píng)價(jià)指標(biāo)。其中,利用召回率對(duì)檢索結(jié)果的查全情況進(jìn)行分析,利用查準(zhǔn)率對(duì)檢索結(jié)果的精準(zhǔn)情況進(jìn)行分析。
首先,統(tǒng)計(jì)了三種方法在不同規(guī)模數(shù)據(jù)子集下的召回率,得到的數(shù)據(jù)結(jié)果如表1所示。
表1 不同檢索方法召回率統(tǒng)計(jì)表
通過(guò)對(duì)比表1中的檢索結(jié)果可以看出,隨著測(cè)試數(shù)據(jù)庫(kù)子集規(guī)模的不斷增大,三種方法的召回率測(cè)試結(jié)果均出現(xiàn)一定程度的下降。其中,蘇珂等[4]方法的下降幅度最大,當(dāng)檢索數(shù)據(jù)子集的規(guī)模由10.0T 增加到50.0 T 時(shí),召回率降低了4.22%。相比之下,梁少博等[5]方法的下降程度與之相比幅度較小,但是也達(dá)到了3.77%。而在本文設(shè)計(jì)方法的檢索結(jié)果中,召回率的下降程度僅為1.86%,與對(duì)照組的兩種方法相比表現(xiàn)出了更高的穩(wěn)定性。不僅如此,通過(guò)對(duì)具體的召回率進(jìn)行分析可以發(fā)現(xiàn),蘇珂等[4]方法的召回率最大值僅為84.44%,梁少博等[5]方法的召回率最大值也僅為86.02%。而在本文設(shè)計(jì)方法的測(cè)試結(jié)果中,召回率的最大值達(dá)到了88.45%,分別高于蘇珂等[4]方法和梁少博等[5]方法4.01%和2.43%。測(cè)試結(jié)果表明本文設(shè)計(jì)的基于區(qū)塊鏈技術(shù)的公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息檢索方法能夠?qū)崿F(xiàn)對(duì)信息的全面檢索。
其次,統(tǒng)計(jì)了三種方法在不同規(guī)模數(shù)據(jù)子集下的查準(zhǔn)率,得到的數(shù)據(jù)結(jié)果如圖3所示。
圖3 不同檢索方法查準(zhǔn)率對(duì)比圖
通過(guò)觀(guān)察圖3中的測(cè)試結(jié)果可以看出,在三種檢索方法中,蘇珂等[4]方法和梁少博等[5]方法對(duì)應(yīng)的查準(zhǔn)率表現(xiàn)出明顯的下降趨勢(shì)。隨著測(cè)試數(shù)據(jù)子集規(guī)模的增加,兩種方法查準(zhǔn)率的整體下降程度基本相同,當(dāng)測(cè)試數(shù)據(jù)子集的規(guī)模達(dá)到50.0T 時(shí),對(duì)應(yīng)的查準(zhǔn)率分別為80.44%和79.62%。但是相比之下,本文設(shè)計(jì)方法的檢索結(jié)果查準(zhǔn)率雖然也呈現(xiàn)出了一定程度的下降,但是下降程度明顯低于蘇珂等[4]方法和梁少博等[5]方法。當(dāng)測(cè)試數(shù)據(jù)子集的規(guī)模達(dá)到50.0 T 時(shí),對(duì)應(yīng)的查準(zhǔn)率也達(dá)到了88.60%,分別高于對(duì)照組8.16%和8.89%。不僅如此,從整體角度分析,本文設(shè)計(jì)方法的查準(zhǔn)率也始終明顯高于另外兩組測(cè)試結(jié)果,表明本文設(shè)計(jì)的基于區(qū)塊鏈技術(shù)的公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息檢索方法能夠?qū)崿F(xiàn)對(duì)目標(biāo)信息的精準(zhǔn)檢索,在線(xiàn)上公共圖書(shū)館中具有一定的應(yīng)用價(jià)值。
為了提高用戶(hù)對(duì)線(xiàn)上圖書(shū)館的使用感受,本文從信息檢索的角度出發(fā),設(shè)計(jì)了一種基于區(qū)塊鏈技術(shù)的公共圖書(shū)館線(xiàn)上數(shù)據(jù)庫(kù)信息檢索方法,通過(guò)建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,提高了檢索信息與數(shù)據(jù)庫(kù)資源之間的匹配效果,使得檢索過(guò)程更加高效,檢索結(jié)果也更加準(zhǔn)確。通過(guò)本文的研究,希望能夠?yàn)閷?shí)際的線(xiàn)上數(shù)據(jù)庫(kù)信息檢索機(jī)制構(gòu)建提供參考價(jià)值,提高公共圖書(shū)館資源的利用率。