曲婧
摘? 要: 現(xiàn)有文獻(xiàn)查檢系統(tǒng)存在準(zhǔn)確率低、系統(tǒng)運(yùn)行能耗高以及耗時(shí)長(zhǎng)等問(wèn)題,為此,提出并設(shè)計(jì)基于PubMed數(shù)據(jù)庫(kù)的數(shù)字圖書(shū)館文獻(xiàn)查檢系統(tǒng)。采用三層體系結(jié)構(gòu)模式,將系統(tǒng)分為數(shù)據(jù)層、業(yè)務(wù)層與應(yīng)用層。數(shù)據(jù)層存放從PubMed數(shù)據(jù)庫(kù)中選取的數(shù)據(jù),通過(guò)PCIe接口支持的通信技術(shù)與業(yè)務(wù)層交互;業(yè)務(wù)層設(shè)置SoC芯片HI3510作為處理器,對(duì)用戶(hù)需求輸入后形成的查檢條件進(jìn)行查詢(xún)索引處理,通過(guò)輸入文獻(xiàn)題目、文獻(xiàn)號(hào)、文獻(xiàn)作者等關(guān)鍵詞獲取文獻(xiàn)文本,結(jié)合Web Service服務(wù)查詢(xún)本地PubMed數(shù)據(jù)庫(kù);最終通過(guò)應(yīng)用層的用戶(hù)界面顯示文獻(xiàn)查檢結(jié)果,完成系統(tǒng)設(shè)計(jì)。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)的文獻(xiàn)查檢準(zhǔn)確率高達(dá)到90%,系統(tǒng)運(yùn)行能耗少,且查檢耗時(shí)低。
關(guān)鍵詞: 文獻(xiàn)查檢; 數(shù)字圖書(shū)館; PubMed數(shù)據(jù)庫(kù); 三層體系結(jié)構(gòu); 業(yè)務(wù)層設(shè)置; 文獻(xiàn)獲取
中圖分類(lèi)號(hào): TN919?34; G254.9? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)20?0112?03
Design of digital library literature search system based on PubMed database
QU Jing
(College of Optical and Electronical Information, Changchun University of Science and Technology, Changchun 130000, China)
Abstract: The existing literature search system has some defects, such as low accuracy, high energy consumption, long time consuming, etc. Therefore, a digital library literature search system based on PubMed database is proposed and designed. The system is divided into data layer, service layer and application layer. The data layer stores the data selected from PubMed database. The communication technology supported by PCIe interface interacts with the service layer. The SOC chip HI3510 taken as processor is adopted in the service layer to query and process the search conditions formed according to user input. The literature text is obtained by inputting literature title, document number, literature author and other keywords, and the local PubMed database is queried in combination with Web Service. The result of the literature query is displayed on the user interface of the application layer. The experimental results show that the accuracy of the literature search system is as high as 90%, its energy consumption is low, and its time consuming is short.
Keywords: document query; digital library; PubMed database; three?tier architecture; business tier setup; document acquisition
0? 引? 言
網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展為很多傳統(tǒng)領(lǐng)域帶來(lái)了新的變革,數(shù)字圖書(shū)館是建立在信息技術(shù)上,利用現(xiàn)代化數(shù)字手段以高效有序的信息資源為核心,設(shè)計(jì)的一種分布式超大規(guī)模數(shù)字化信息系統(tǒng)[1?2]。文獻(xiàn)是知識(shí)內(nèi)容信息化的集合體,記錄并展示了人類(lèi)的進(jìn)步和發(fā)展,尤其隨著科學(xué)技術(shù)的進(jìn)步,文獻(xiàn)數(shù)量大幅度增加,成為數(shù)字化圖書(shū)館的重要檢索內(nèi)容之一[3?4]。原始文獻(xiàn)的排列是無(wú)序的,要想快速找到用戶(hù)需求的信息,就必須尋找到一種非常有效的檢索方式,信息檢索成為數(shù)字化圖書(shū)館應(yīng)用的核心技術(shù)之一。建立信息檢索平臺(tái)能夠?yàn)橛脩?hù)提供高效的檢索手段,幫助用戶(hù)快速、準(zhǔn)確地實(shí)現(xiàn)文獻(xiàn)查檢,滿(mǎn)足用戶(hù)需求。由此可以看出,尋找一種高效數(shù)字圖書(shū)館文獻(xiàn)查檢手段,具有實(shí)際應(yīng)用價(jià)值[5]。
黃容等人通過(guò)對(duì)數(shù)值知識(shí)元的深入分析,進(jìn)行數(shù)字圖書(shū)館數(shù)值知識(shí)元識(shí)別、抽取、索引與檢索,由此建立數(shù)字圖書(shū)館檢索系統(tǒng),該系統(tǒng)的數(shù)值知識(shí)利用效率較高,但運(yùn)行耗時(shí)長(zhǎng)[6];李默為尋找一種有效的數(shù)字圖書(shū)館檢索方法,對(duì)移動(dòng)視覺(jué)搜索技術(shù)進(jìn)行了深入分析,融合個(gè)性化推薦服務(wù),分析檢索關(guān)鍵問(wèn)題,能夠提供較好的用戶(hù)視覺(jué)體驗(yàn),但該系統(tǒng)運(yùn)行能耗高[7];李月琳針對(duì)游戲化信息檢索系統(tǒng)中用戶(hù)的偏好、態(tài)度及使用意愿進(jìn)行分析,采用原型法設(shè)計(jì)GIRS紙面原型系統(tǒng),發(fā)現(xiàn)用戶(hù)最感興趣的元素,最大程度滿(mǎn)足客戶(hù)、吸引客戶(hù),但該方法的準(zhǔn)確率不足[8];李潔采用文獻(xiàn)計(jì)量學(xué)分析,為埃博拉病毒研究提供文獻(xiàn)尋找數(shù)據(jù)依據(jù),采用PubMed檢索文獻(xiàn),分析埃博拉病毒發(fā)展趨勢(shì),檢索效果整體較好,但系統(tǒng)運(yùn)行準(zhǔn)確率還有待提高[9]。
為解決上述研究方法存在的問(wèn)題,本文提出并設(shè)計(jì)基于PubMed數(shù)據(jù)庫(kù)的數(shù)字圖書(shū)館文獻(xiàn)查檢系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)的文獻(xiàn)查檢準(zhǔn)確率較高,系統(tǒng)運(yùn)行能耗低,且運(yùn)行耗時(shí)少。
1? 系統(tǒng)整體架構(gòu)
PubMed數(shù)據(jù)庫(kù)是美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館下屬信息中開(kāi)發(fā)的醫(yī)學(xué)文本數(shù)據(jù)庫(kù),是公共數(shù)據(jù)查檢平臺(tái),被廣泛應(yīng)用于研究中[10]。PubMed數(shù)據(jù)庫(kù)包含2種記錄模式:一是MEDLINE記錄,使用主題詞作為關(guān)鍵詞進(jìn)行信息查檢;二是PREMEDLINE記錄,用于臨時(shí)存儲(chǔ)未進(jìn)行標(biāo)記的文本數(shù)據(jù),當(dāng)操作者標(biāo)記文本后,文本資料自動(dòng)轉(zhuǎn)移至MEDLINE數(shù)據(jù)庫(kù),靈活性較好。
本文從PubMed數(shù)據(jù)庫(kù)中選取文獻(xiàn)數(shù)據(jù)集作為研究對(duì)象,采用三層體系結(jié)構(gòu)模式設(shè)計(jì)數(shù)字圖書(shū)館文獻(xiàn)查檢系統(tǒng)。三層體系結(jié)構(gòu)模式層次明了,方便程序移動(dòng),具有較好的實(shí)際應(yīng)用價(jià)值,能很好地滿(mǎn)足系統(tǒng)設(shè)計(jì)需求。本文設(shè)計(jì)的系統(tǒng)架構(gòu)如圖1所示。
在圖1所示的數(shù)字圖書(shū)館文獻(xiàn)查檢系統(tǒng)架構(gòu)中,應(yīng)用層與數(shù)據(jù)層不直接聯(lián)系,通常將業(yè)務(wù)規(guī)則、數(shù)據(jù)處理等步驟設(shè)置在業(yè)務(wù)層,應(yīng)用層與業(yè)務(wù)層通過(guò)通信技術(shù)連接,再由業(yè)務(wù)層與數(shù)據(jù)層通信、交互。這樣能夠有效緩解數(shù)據(jù)量或者用戶(hù)訪問(wèn)量激增情況下系統(tǒng)的負(fù)載,較好地保護(hù)服務(wù)器[11]。
系統(tǒng)設(shè)計(jì)中,應(yīng)用層設(shè)置用戶(hù)界面,負(fù)責(zé)用戶(hù)信息的輸入和接收系統(tǒng)反饋信息。業(yè)務(wù)層負(fù)責(zé)訪問(wèn)數(shù)據(jù)庫(kù),設(shè)計(jì)文獻(xiàn)查檢步驟,計(jì)算、更新數(shù)據(jù)等,并反饋計(jì)算結(jié)果至用戶(hù)界面端。數(shù)據(jù)層主要存放從PubMed數(shù)據(jù)庫(kù)中選取的對(duì)象數(shù)據(jù)集。
2? 系統(tǒng)硬件設(shè)計(jì)
2.1? PCIe接口設(shè)計(jì)
根據(jù)系統(tǒng)設(shè)計(jì)架構(gòu)可知,應(yīng)用層與業(yè)務(wù)層、業(yè)務(wù)層與數(shù)據(jù)層之間的連接均需依據(jù)通信技術(shù)開(kāi)展,那么通信中必定需要使用計(jì)算機(jī)接口。因PCIe接口適用于較高數(shù)據(jù)量的計(jì)算機(jī)通信,因此本系統(tǒng)采用PCIe接口進(jìn)行通信設(shè)計(jì)[12]。給出PCIe卡板電路框圖如圖2所示。
2.2? 處理器設(shè)計(jì)
處理器是決定系統(tǒng)運(yùn)行性能好壞的關(guān)鍵,根據(jù)本系統(tǒng)的實(shí)際查檢需求,選取SoC芯片HI3510作為處理器。HI3510是一款集成圖像處理器、編碼器,能夠在滿(mǎn)足系統(tǒng)性能要求的條件下,最大程度降低系統(tǒng)硬件設(shè)計(jì)的復(fù)雜度,且在600 mW基礎(chǔ)功耗的前提下,配置多級(jí)節(jié)能模式,降低系統(tǒng)能量消耗。
HI3510芯片主要負(fù)責(zé)完成系統(tǒng)控制,數(shù)據(jù)壓縮編碼以及網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)取Mㄟ^(guò)設(shè)置HI3510芯片的對(duì)應(yīng)通信接口,可以完成芯片內(nèi)各模塊的初始化工作,幫助后續(xù)系統(tǒng)準(zhǔn)確運(yùn)行。
3? 系統(tǒng)軟件設(shè)計(jì)
在硬件條件的支持下,按照三層體系結(jié)構(gòu)模式設(shè)計(jì)系統(tǒng)軟件流程,按照用戶(hù)需求輸入、形成查檢條件,通過(guò)查檢條件分類(lèi)及計(jì)算機(jī)處理進(jìn)行數(shù)字圖書(shū)館文獻(xiàn)檢查,實(shí)現(xiàn)查檢結(jié)果。數(shù)字圖書(shū)館文獻(xiàn)查檢流程如圖3所示。
由圖3可知,用戶(hù)發(fā)送文獻(xiàn)查檢需求命令后,系統(tǒng)應(yīng)用層發(fā)送通信信息至業(yè)務(wù)層,形成查檢條件,利用HI3510芯片,通過(guò)輸入文獻(xiàn)題目、文獻(xiàn)號(hào)、文獻(xiàn)作者等關(guān)鍵詞,查詢(xún)得到相關(guān)文獻(xiàn),顯示文獻(xiàn)文本。這時(shí)根據(jù)顯示得到的文件查詢(xún)?nèi)诒鞟_QZH_DEF和磁盤(pán)庫(kù),獲取文本文件的服務(wù)路徑和存儲(chǔ)地址,再通過(guò)調(diào)用Web Service服務(wù),依據(jù)服務(wù)路徑和存儲(chǔ)地址查詢(xún)本地PubMed數(shù)據(jù)庫(kù),返回用戶(hù)界面顯示文獻(xiàn),結(jié)束數(shù)字圖書(shū)館文獻(xiàn)查檢。
4? 實(shí)驗(yàn)結(jié)果與分析
為驗(yàn)證本文設(shè)計(jì)系統(tǒng)的性能,進(jìn)行實(shí)驗(yàn)分析,本實(shí)驗(yàn)采用.NET框架建立并運(yùn)行Web Service服務(wù),并運(yùn)行多種語(yǔ)言環(huán)境。.NET框架中,所有編程語(yǔ)言都可以“一次編程,隨處運(yùn)行”,創(chuàng)建各種語(yǔ)言應(yīng)用程序,同時(shí)容納不同語(yǔ)言存在。本實(shí)驗(yàn)開(kāi)展實(shí)驗(yàn)環(huán)境如表1所示。
實(shí)驗(yàn)數(shù)據(jù)選用PubMed數(shù)據(jù)庫(kù)中10萬(wàn)個(gè)數(shù)據(jù),其中5萬(wàn)個(gè)數(shù)據(jù)用于訓(xùn)練樣本,另外5萬(wàn)個(gè)數(shù)據(jù)用作測(cè)試數(shù)據(jù)。在上述實(shí)驗(yàn)環(huán)境和數(shù)據(jù)設(shè)置下,給出以下指標(biāo):查檢準(zhǔn)確率、系統(tǒng)運(yùn)行能耗、查檢耗時(shí)。通過(guò)與傳統(tǒng)系統(tǒng)對(duì)比,驗(yàn)證本文系統(tǒng)的有效性。
將本文系統(tǒng)與文獻(xiàn)[6]、文獻(xiàn)[7]系統(tǒng)的查檢準(zhǔn)確率進(jìn)行對(duì)比,結(jié)果如圖4所示。
由圖4得,在剛開(kāi)始測(cè)試時(shí),本文系統(tǒng)的查檢準(zhǔn)確率為75%,隨著測(cè)試數(shù)據(jù)量的增加,準(zhǔn)確率逐漸增加到90%且趨于平穩(wěn)。文獻(xiàn)[6]和文獻(xiàn)[7]系統(tǒng)的查檢準(zhǔn)確率先上升后下降,文獻(xiàn)[6]最高達(dá)到60%,文獻(xiàn)[7]最高達(dá)到80%。由此可見(jiàn),本文系統(tǒng)的查檢準(zhǔn)確率明顯高于文獻(xiàn)[6]、文獻(xiàn)[7]系統(tǒng),且系統(tǒng)測(cè)試過(guò)程平穩(wěn),穩(wěn)定性較強(qiáng)。
以系統(tǒng)運(yùn)行能耗為指標(biāo),對(duì)比本文系統(tǒng)與文獻(xiàn)[6]、文獻(xiàn)[7]系統(tǒng),結(jié)果如圖5所示。
分析圖5可知,本文系統(tǒng)的運(yùn)行能耗在30 J以下,文獻(xiàn)[6]系統(tǒng)運(yùn)行能耗可達(dá)到60 J,文獻(xiàn)[7]系統(tǒng)運(yùn)行能耗可達(dá)到75 J。從圖中可看出,本文系統(tǒng),能具有明顯的優(yōu)勢(shì),這是因?yàn)楸疚南到y(tǒng)設(shè)計(jì)中,硬件部分選取SoC芯片HI3510作為處理器,采用多級(jí)節(jié)能模式運(yùn)行,大大降低了系統(tǒng)運(yùn)行能耗。
將本文系統(tǒng)與文獻(xiàn)[6]、文獻(xiàn)[7]系統(tǒng)的查檢耗時(shí)進(jìn)行對(duì)比,結(jié)果如表2所示。
分析表2可以看出,本文系統(tǒng)的查檢耗時(shí)在10~15 s之間,平均耗時(shí)為12.6 s;文獻(xiàn)[6]系統(tǒng)的查檢耗時(shí)在20~26 s之間,平均耗時(shí)為24.0 s;文獻(xiàn)[7]系統(tǒng)的查檢耗時(shí)在23~35 s之間,平均耗時(shí)為28.4 s。根據(jù)數(shù)據(jù)分析可以看出,本文系統(tǒng)查檢耗時(shí)最低,優(yōu)于其他文獻(xiàn),主要是因?yàn)楸疚南到y(tǒng)設(shè)計(jì)中,采用三層體系架構(gòu),層次明了,靈活性較好,可最大程度滿(mǎn)足用戶(hù)需求,避免無(wú)效運(yùn)行,節(jié)省系統(tǒng)運(yùn)行耗時(shí)。
5? 結(jié)? 論
數(shù)字圖書(shū)館文獻(xiàn)查檢是目前被廣泛使用的一種技術(shù),查檢系統(tǒng)的好壞直接影響圖書(shū)館電子用戶(hù)體驗(yàn)。本文提出并設(shè)計(jì)基于PubMed數(shù)據(jù)庫(kù)的數(shù)字圖書(shū)館文獻(xiàn)查檢系統(tǒng),采用3層體系結(jié)構(gòu)模式將系統(tǒng)分為數(shù)據(jù)層、業(yè)務(wù)層和應(yīng)用層。硬件部分主要對(duì)PCIe接口處理器HI3510進(jìn)行了分析,軟件部分給出了數(shù)字圖書(shū)館文獻(xiàn)查檢系統(tǒng)流程。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)系統(tǒng)具有較好的查檢性能,優(yōu)于傳統(tǒng)方法。
參考文獻(xiàn)
[1] 孫雨生,李萬(wàn)蓉,郝麗靜.國(guó)內(nèi)數(shù)字圖書(shū)館信息可視化應(yīng)用進(jìn)展[J].計(jì)算機(jī)與數(shù)字工程,2019,47(1):140?145.
[2] 盛先鋒.基于聚類(lèi)優(yōu)化的數(shù)字圖書(shū)館協(xié)同過(guò)濾個(gè)性化推薦服務(wù)研究[J].中國(guó)中醫(yī)藥圖書(shū)情報(bào)雜志,2019,43(3):37?40.
[3] 藍(lán)燕,曾樹(shù)洪.數(shù)字圖書(shū)館網(wǎng)絡(luò)及服務(wù)方案設(shè)計(jì)[J].現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版),2017(16):88?91.
[4] 高興輝.數(shù)字圖書(shū)館分類(lèi)文獻(xiàn)數(shù)據(jù)關(guān)聯(lián)規(guī)則提醒系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工程,2019,27(13):66?69.
[5] 谷參.基于分布式結(jié)構(gòu)的圖書(shū)館信息檢索服務(wù)系統(tǒng)研究[J].現(xiàn)代電子技術(shù),2017,40(1):83?85.
[6] 黃容,何楊煜琪,王忠義,等.數(shù)字圖書(shū)館數(shù)值知識(shí)元檢索系統(tǒng)設(shè)計(jì)[J].圖書(shū)情報(bào)工作,2018,62(14):125?132.
[7] 李默.數(shù)字圖書(shū)館個(gè)性化移動(dòng)視覺(jué)搜索機(jī)制研究[J].圖書(shū)館理論與實(shí)踐,2019(2):107?112.
[8] 李月琳,何鵬飛.游戲化信息檢索系統(tǒng)用戶(hù)研究:游戲元素偏好、態(tài)度及使用意愿[J].中國(guó)圖書(shū)館學(xué)報(bào),2019,45(3):62?78.
[9] 李潔,武桂珍.基于GoPubMed對(duì)埃博拉病毒研究文獻(xiàn)的數(shù)據(jù)分析[J].病毒學(xué)報(bào),2018,34(4):565?569.
[10] 李彩,杜冰,徐虹,等.我國(guó)中文醫(yī)學(xué)期刊在PubMed數(shù)據(jù)庫(kù)中的收錄及數(shù)據(jù)展示分析[J].中國(guó)科技期刊研究,2018,29(7):728?732.
[11] 賈賀,艾中良,賈高峰,等.基于Solr的司法大數(shù)據(jù)檢索模型研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(20):249?253.
[12] 馬佳立.面向大數(shù)據(jù)的數(shù)字圖書(shū)館移動(dòng)視覺(jué)搜索機(jī)制及應(yīng)用[J].自動(dòng)化技術(shù)與應(yīng)用,2019,38(5):179?182.