龐敏
(寶雞職業(yè)技術(shù)學(xué)院 陜西 寶雞 721000)
基于Web的電子產(chǎn)品信息分布式檢索系統(tǒng)的設(shè)計與實現(xiàn)
龐敏
(寶雞職業(yè)技術(shù)學(xué)院 陜西 寶雞 721000)
文章旨在從海量信息中對有用信息獲取,將用戶需求滿足,設(shè)計了一種基于Web的電子產(chǎn)品信息分布式檢索系統(tǒng)。通過結(jié)合Hadoop以及Lucene技術(shù)模型,對Web電子產(chǎn)品信息進(jìn)行檢索,結(jié)合分布式索引文件的存儲過程,并應(yīng)用Lucene檢索技術(shù)將引文件中的訪問實現(xiàn),并將信息檢索效率提高。在Lucene_Hadoop架構(gòu)分析過程,結(jié)合粗粒度檢索問題,將細(xì)粒度檢索方法提出,并將系統(tǒng)建立索引的時間有效減少。實驗結(jié)果表明,基于Web電子產(chǎn)品信息應(yīng)用Hadoop以及Lucene分布式檢索系統(tǒng),緊縮性能較好
Web電子產(chǎn)品信息;分布式檢索系統(tǒng);設(shè)計;實現(xiàn)
21世紀(jì)的今天,互聯(lián)網(wǎng)的信息呈現(xiàn)出一種不斷膨脹的狀態(tài),其數(shù)據(jù)資源較為豐富,對于如何做好互聯(lián)網(wǎng)信息的有效檢索始終是人們關(guān)注的焦點之一。然而,互聯(lián)網(wǎng)的商業(yè)網(wǎng)站主要是結(jié)合半結(jié)構(gòu)化的形式呈現(xiàn),應(yīng)用超文本標(biāo)記語言,有著較多的展開形式,語義特征逐漸缺乏,難以實現(xiàn)穩(wěn)定性和高效性的信息提取[1]?;谏虡I(yè)信息的海量選擇,就要正確應(yīng)用商業(yè)信息的一種應(yīng)用系統(tǒng),并實現(xiàn)信息的有效檢索。在搜索引擎的高速發(fā)展階段,信息檢索速度以及精確度更是有著越來越高的要求,對信息檢索系統(tǒng)的設(shè)計帶來了一定的挑戰(zhàn)。因此文章提出一種基于Web的電子產(chǎn)品信息分布式檢索系統(tǒng),對其設(shè)計和實現(xiàn)過程進(jìn)行研究有一定的現(xiàn)實意義。
文章提出一種Hadoop以及Lucene分布式檢索模型,也即是Lucene_Hadoop,不僅僅包括Lucene_Hadoop_Map模塊,同時也包括Lucene_Hadoop_Reduce模塊[2]?;谛畔z索模塊的應(yīng)用,也即是分布式框架結(jié)構(gòu)存在的一種存儲功能[3]。在信息檢索過程,主要是結(jié)合分布式文件的讀寫功能,并依據(jù)于Lucene中的一種索引查詢技術(shù),對不同索引塊中的搜索結(jié)果獲取,基于合并結(jié)果的情況,實現(xiàn)打分排序的應(yīng)用。
1.1基于Lucene_Hadoop中的Map端分布式檢索模型設(shè)計
對于 Lucene_Hadoop_Map分布式的基礎(chǔ)檢索過程,結(jié)合分布式文件系統(tǒng)中的一種HDFS將索引文件存放實現(xiàn),并結(jié)合命名節(jié)點中的一種NameNote提供文件,做好文件的備份,將Map_Reduce分布式編程模塊提供,結(jié)合作業(yè)跟蹤器的形式,將分布式任務(wù)中的一種調(diào)度管理實現(xiàn)[4]。關(guān)于Lucene_Hadoop_Map分布式檢索的模式,如圖1所示。
基于模式的應(yīng)用,主要是結(jié)合分布式文件系統(tǒng)的文件存放過程,在命名節(jié)點的分析過程,結(jié)合作業(yè)跟蹤器將分布式任務(wù)的調(diào)度管理實現(xiàn)[5]。基于分布式檢索任務(wù)的一種調(diào)度管理實現(xiàn),主要是結(jié)合Map進(jìn)行操作,在應(yīng)用Lucene的應(yīng)用將索引的建立完成?;赗educe操作模式的應(yīng)用,將索引的歸并完成,最終實現(xiàn)分布式搜索的過程。
對于Map操作而言,往往是結(jié)合分布式的一種基礎(chǔ)架構(gòu),并應(yīng)用Hadoop平臺,做好文本的合理處理,在多個Map處理應(yīng)用過程,結(jié)合Lucene中的各種方法,將Input HDFS Block中的索引塊實現(xiàn),實現(xiàn)文件索引的基本輸出過程[6]。對于Reduce而言,在實際的操作過程,通過對Map輸出的一種KEY進(jìn)行搜集,進(jìn)而結(jié)合Lucene中的基本合并索引應(yīng)用,注重不同路徑索引塊的有效性合并,在分布式文件系統(tǒng)中的一種HDFS中進(jìn)行寫入[7]。
圖1 Lucene_Hadoop_Map分布式檢索的模式
這種模式的應(yīng)用過程,結(jié)合編寫的形式,并將索引快遞的優(yōu)點生成,對索引時針建立,并結(jié)合Input HDFS Block的形式,歸類生成的索引,將多層次的索引進(jìn)行提供,并避免系統(tǒng)中搜索結(jié)果未空白狀態(tài),盡可能的結(jié)合索引塊的主要形式,將全局搜索的形式完成,最后將搜索的性能逐漸降低。
1.2基于Lucene_Hadoop中的Reduce端分布式檢索模型
對于Lucene_Hadoop中的Reduce端分布式檢索如圖2所示。
圖2 Lucene_Hadoop中的Reduce端分布式檢索
Lucene_Hadoop中的Reduce端分布式檢索過程的實現(xiàn),往往是結(jié)合分布式索引的模式,對Map端應(yīng)用,做好全局查詢的方法,往往將查詢的效率降低?;陔娮赢a(chǎn)品領(lǐng)域的發(fā)展過程,需要做好電子產(chǎn)品結(jié)合數(shù)據(jù)的有效性存放,往往是在Input HDFS Block中將電子產(chǎn)品信息集合數(shù)據(jù)存放。對于這種分布式索引模式的應(yīng)用,其中的Map操作往往是將電子產(chǎn)品文本信息的一種建模過程實現(xiàn),基于分配模式的應(yīng)用,將索引的建立完成[8]。在模式中的電子產(chǎn)品領(lǐng)域的應(yīng)用過程,結(jié)合文本信息的一種電子產(chǎn)品建模實現(xiàn)過程,實現(xiàn)的電子產(chǎn)品信息的一種有效性應(yīng)用。
1.2.1Map設(shè)計
對于Map_Reduce分布式的一種編程模型應(yīng)用過程,往往是結(jié)合Job中的一種Input Hdfs Block對純文本電子產(chǎn)品電子信息數(shù)據(jù)集合進(jìn)行讀取,對Map程序模塊進(jìn)行分類,結(jié)合Map程序進(jìn)行格式的應(yīng)用,做好數(shù)據(jù)塊數(shù)據(jù)的合理分析和應(yīng)用,其中文本格式的一種電子產(chǎn)品信息的表達(dá),實現(xiàn)文本格式中電子產(chǎn)品信息的合理有效性處理[9]?;陔娮赢a(chǎn)品信息內(nèi)容的直接傳遞,實現(xiàn)線程數(shù)的有效性處理。
關(guān)于算法的應(yīng)用,主要是對InputSplit數(shù)據(jù)電子產(chǎn)品信息進(jìn)行處理,在轉(zhuǎn)化過程,結(jié)合類型輸出,進(jìn)而得到中間結(jié)果。
輸入過程,產(chǎn)品數(shù)量用Texe Key輸入表示,電子產(chǎn)品文本信息用Texe value表示[10]。輸出的主要是寫入中間結(jié)果。
1.2.2Reduce設(shè)計
對于Reduce設(shè)計而言,主要是結(jié)合Mapa程序中的一種Task Tracker節(jié)點的形式,對中間計算結(jié)果獲取。在對Document對象進(jìn)行構(gòu)建過程,就要做好不同參數(shù)的有效設(shè)置[11]。結(jié)合檢索的過程,對參數(shù)進(jìn)行合理設(shè)計,實現(xiàn)參數(shù)的有效存儲。關(guān)于Reduce程序處理階段,通過結(jié)合中文分詞器的一種支持過程,對價格以及索引目錄問題進(jìn)行有效性的分析。
2.1基于Web電子產(chǎn)品信息抽取
關(guān)于電子產(chǎn)品信息的抽取而言,結(jié)合用戶文本數(shù)據(jù)需要的內(nèi)容,做好標(biāo)記控制對文本進(jìn)行展示。關(guān)于信息抽取數(shù)據(jù)流程,如圖3所示。
圖3 信息抽取數(shù)據(jù)流程
基于電子產(chǎn)品的應(yīng)用過程,主要是結(jié)合模塊信息數(shù)據(jù)流的處理,并結(jié)合HTML以及XML數(shù)據(jù)格式技術(shù)的應(yīng)用,做好URL地址的分析,結(jié)合HMI網(wǎng)頁的形式,注重結(jié)果特點的有效性應(yīng)用,實現(xiàn)數(shù)據(jù)的及時清洗,在XML格式數(shù)據(jù)相關(guān)內(nèi)容的轉(zhuǎn)換過程,結(jié)合文檔對象的一種模型應(yīng)用,做好數(shù)據(jù)內(nèi)容內(nèi)存模式的構(gòu)建,在信息的抽取測試過程,進(jìn)而得到Anchor-Hop-T模型的應(yīng)用[12]。
通過在太平洋網(wǎng)以及淘寶網(wǎng)將輸入,也即是 “手機(jī)”,對于淘寶網(wǎng)上的頁面顯示上,主要有100個頁面,而太平網(wǎng)上頁面顯示的數(shù)量,有170頁?;谀P偷膽?yīng)用,通過比較,如表1所示。
表1 淘寶網(wǎng)和太平洋網(wǎng)抽取的結(jié)果比較
通過對表格中的數(shù)據(jù)進(jìn)行比較。淘寶網(wǎng)基于Anchor-Hop魔影的應(yīng)用中,抽取的時間為58 052 ms,基于Anchor-Hop-T應(yīng)用過程,抽取的時間為40 368 ms。在模型的應(yīng)用過程,相對而言,兩個模型均有著較高的召回率,但是在消耗時間的分析而言,Anchor-Hop有著較多的消耗時間[13]。
2.2性能測試結(jié)果
索引建立性能的改善過程,往往是結(jié)合Task的個數(shù)情況,將系統(tǒng)框架的開銷逐漸增加,并結(jié)合負(fù)載均衡的特點,將任務(wù)失敗的開銷逐漸降低[14]。服務(wù)器上的運行情況,就要做好參數(shù)的設(shè)置,并結(jié)結(jié)合計算機(jī)硬件的基本水平,將更好的執(zhí)行能力逐漸提供,在參數(shù)的設(shè)置過程,實現(xiàn)參數(shù)的科學(xué)合理設(shè)計。而Reduce Slot處于不變的狀態(tài),就要對多個Map Slot作為目標(biāo),做好索引建立時間的有效性設(shè)置,對Slot基礎(chǔ)配置進(jìn)行驗證[15]。相對而言,對于索引建立的性能有著直接的影響,這種程序運行狀態(tài)的一種調(diào)整過程,如圖4所示,橫坐標(biāo)表示數(shù)據(jù)塊大小,單位為MB,縱坐標(biāo)表示運行的時間/s。
圖4 Map Slot索引建立性能的比較
相對而言,一旦數(shù)據(jù)塊大小較小的時候,主要是1個Map Slot有著較高的性能。但是有著較大的數(shù)據(jù)塊時,Map Slo較多的時候,有著較好的性能。
總而言之,文章的研究,主要是基于Web技術(shù)下的Hadoop _Lucene基礎(chǔ)上實現(xiàn)的一種電子產(chǎn)品信息分布式檢索系統(tǒng),在檢索技術(shù)的訪問過程,盡可能的將檢索效率顯著提高。結(jié)合基礎(chǔ)架構(gòu),做好未來研究的進(jìn)一步檢索,盡可能的結(jié)合手機(jī)界面,將信息檢索實現(xiàn),注重人工智能以及自然算法結(jié)合的一種系統(tǒng)性測試。
[1]YANG Chao,SHAO Yuan-zheng,CHEN Neng-cheng et al. Aggre-gating distributed geo-processing workflows and web servicesasprocessingmodelweb[C].//2012First international con-ference on agro-geoinformatics,2012:1-4.
[2]萬東,莊越.基于Web Services的電子產(chǎn)品交易系統(tǒng)的設(shè)計[J].微計算機(jī)信息,2010,26(9):144-145,150.
[3]邱勝海,魯泳,葛燕等.CIMS環(huán)境下電子產(chǎn)品全面質(zhì)量檢驗管理系統(tǒng)設(shè)計[J].機(jī)械設(shè)計與制造,2012,12(10):184-186.
[4]CHEN Jia-ying,REN Yan,ZHANG Hai-tao,et al.Oilseed rape pro-ductive potentialities assessment under OGC web service by using geoprocessing[C].//2012 First international confe-rence on agro-geoinformatics,2012:1-8.
[5]GUAN Qiang,JIA Jian-hua,YANG Xiao-dong et al.An online system of winter wheat drought monitoring based on satellite data:Design concepts and initial testing[C].//2012 First international conference on agro-geoinformatics,2012:1-5.
[6]董李鵬,高東懷,張迎,等.基于 Lucene的校園網(wǎng)智能搜索引擎的設(shè)計與實現(xiàn)[J].現(xiàn)代電子技術(shù),2013,11(6):83-86.
[7]趙靜.高校圖書館搜索引擎中Web使用記錄挖掘研究[J].現(xiàn)代電子技術(shù),2013,36(2):1-5.
[8]張淵源,張琴燕,蔣關(guān)富,等.面向Web電子產(chǎn)品信息分布式檢索系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機(jī)應(yīng)用,2013,33(4): 1026-1030.
[9]Geng,Xiaoyuan,Schut,Peter.OGC Web Processing Service and Table Joining Service:A land suitability rating system implementation case[C].//2012 First international conference on agro-geoinformatics,2012:1-6.
[10]康海燕,XIONG Li.面向大數(shù)據(jù)的個性化檢索中用戶匿名化方法[J].西安電子科技大學(xué)學(xué)報:自然科學(xué)版,2014,4(5): 148-154,160.
[11]吳廣君,王樹鵬,陳明,等.海量結(jié)構(gòu)化數(shù)據(jù)存儲檢索系統(tǒng)[J].計算機(jī)研究與發(fā)展,2012,49(z1):1-5.
[12]齊向東,劉大偉,王勁林,等.分布式結(jié)構(gòu)化P2P網(wǎng)絡(luò)下局部敏感哈??焖贆z索的負(fù)載均衡[J].高技術(shù)通訊,2013,23(12):1213-1218.
[13]吳廣印.分布式檢索系統(tǒng)架構(gòu)及核心技術(shù)研究[J].情報學(xué)報,2013,32(6):601-609.
[14]李德文,黃文君,胡靜泓,等.一種分布式冗余的實時數(shù)據(jù)存儲檢索機(jī)制[J].上海交通大學(xué)學(xué)報,2014,48(7):948-952,958.
[15]梁敏,任卓然,解萍,等.面向輿情采集的分布式緩存系統(tǒng)設(shè)計[J].信息工程大學(xué)學(xué)報,2013,14(1):118-123.
[16]熊晶,郭磊,高峰,等.基于JPPF的分布式并行檢索系統(tǒng)研究[J].計算機(jī)技術(shù)與發(fā)展,2012,22(1):79-82.
The design and implementation of electronic product information retrieval system based on Web
PANG Min
(Baoji Vocational Technology College,Baoji 721000,China)
This paper aims to obtain the useful information from the vast amount of information,and to meet the needs of users,and design a distributed information retrieval system based on Web.By combining Hadoop and Lucene technology model,the Web electronic product information is retrieved,and the storage process of the distributed index file is combined with the Lucene search technology,and the information retrieval efficiency is improved.In the process of Lucene_Hadoop architecture analysis,the paper proposes the method of fine granularity retrieval,and reduces the time of system establishment.The experimental results show that the Hadoop and Lucene distributed retrieval system based on the Web electronic product information,the compression performance is better.
Web electronic product information;distributed retrieval system;design;implementation
TN99
A
1674-6236(2016)21-0082-03
2015-12-11稿件編號:201512129
龐 敏(1976—),女,甘肅鎮(zhèn)原人,碩士,講師。研究方向:計算機(jī)技術(shù)。