• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Lucene的倒排索引性能的研究

    2014-08-30 20:21:07朱鵬
    無線互聯科技 2014年8期
    關鍵詞:搜索引擎性能

    朱鵬

    摘 要:倒排索引技術是現代搜索引擎的核心技術之一,索引技術的好壞直接影響搜索引擎的性能。Lucene是一個優(yōu)秀的全文檢索引擎架構,采用高度優(yōu)化的倒排索引結構,可以方便的嵌入到各種應用程序中。在深入分析和研究Lucene索引機制的基礎上,通過實驗發(fā)現,與傳統的字符串匹配查找的性能相比,使用倒排索引的Lucene更快捷、更準確的實現全文檢索。

    關鍵詞:倒排索引;搜索引擎;Lucene;性能

    Abstract:Inverted index technology is one of core technologies of search engine,the quality of index technology has a direct influence to the performance of search engine.Lucene, with highly optimized inverted index structure,is an excellent full-text search engine framework, can be easily embedded in various applications.Based on deeply analysis and research of the index mechanism of Lucene, the experiment discovers, compared with the performance of the traditional string matching search, Lucene with inverted index can implement full-text retrieval more quickly and more accurately.

    Key words:Inverted Index;Search Engine;Lucene;Performance

    隨著互聯網的普及以及數字信息的爆炸式增長,網絡信息資源數量以幾何級數倍增,面對日益產生的海量數據,其異構性、分布性和動態(tài)性,對信息檢索的研究不斷提出新的挑戰(zhàn)。為了在海量的數據中迅速而全面地找到所需要的信息,搜索引擎由此產生了。

    1 Lucene及相關分析

    1.1 Lucene概述

    Lucene是Apache軟件基金會jakarta項目組的一個子項目,是一個優(yōu)秀的開源全文搜索引擎工具包。它提供了豐富的API函數,可以方便地創(chuàng)建索引,嵌入到各種應用中實現全文檢索。

    1.2 建立索引的過程

    基于Lucene的索引文件格式獨立于應用平臺。Lucene定義了一套以8位字節(jié)為基礎的索引文件格式,使得兼容系統或者不同平臺的應用能夠共享建立的索引文件。建立索引有三個步驟:

    ⑴提取文本。為了使用Lucene對文檔數據建立索引,首先要將該文檔轉換為Lucene可以處理的類型。

    ⑵構建Document。Document類是用來描述文檔的。

    ⑶分析。在文檔被索引之前,首先要對文檔內容進行分詞處理,由Analyzer類處理。

    在完成上述步驟后,就可以對索引文件進行全文檢索了。

    2 實驗設計

    為了測試倒排索引的搜索性能,將基于Lucene建立倒排索引的全文檢索和傳統的基于順序掃描的字符串匹配查找作對比。首先把欲處理的文檔分割成若干小的文檔,字符串查找是直接將要搜索的文件加載到內存的String中,利用String提供的API查找關鍵詞,而Lucene則先將小文檔預處理成索引文件,然后對索引文件進行查找。

    3 實驗分析

    實驗分為兩部分。第一部分,使用TXT電子書作為測試數據,文檔集含有50個文件共5MB。在這個數據集上,對上述兩種檢索方式分別進行不少于20次的隨機檢索,從中抽取若干關鍵詞進行測試,測試后的數據如下表1所示。第二部分,同樣使用TXT電子書作為測試數據,逐步擴大測試文檔的規(guī)模,使用相同的關鍵字進行若干次隨機檢索,測試數據如下表2所示。

    從表1中可以看出,基于Lucene倒排索引的全文檢索的在檢索時間上遠遠優(yōu)于基于字符串查找的順序查找法。而對于查準率和查全率,兩種檢索方式性能接近。從表2中可以看出,當檢索的文件不大時,兩種檢索方式的檢索時間相當,隨著數據的增長,順序查找法檢索時間的增長幅度遠大于基于Lucene檢索時間的增長。

    4 結論

    本文探討了基于Lucene的倒排索引模式,通過實驗分析了倒排索引的優(yōu)良性能。倒排索引技術能加快檢索的速度,基于現代檢索系統對檢索時間效率要求較高,要對大數據進行檢索,建立倒排索引的全文檢索,則無疑成為最好的選擇。

    [參考文獻]

    [1]李曉明,閏宏飛,王繼民.搜索引擎----原理、技術和系統[M].北京:科學出版社,2006.

    [2]高斯帕那,哈特赫(著),牛長流,肖(譯).Lucene IN ACTION中文版[M].2版,北京:電子工業(yè)出版社,2011.6.

    [3]邱哲,符滔滔,王學松.開發(fā)自己的搜索引擎Lucene+Heritrix.[M].2版,北京:人民郵電出版社,2010.

    猜你喜歡
    搜索引擎性能
    提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
    PP—g—GMA的制備及其增容PP/PA6共混物的性能
    中國塑料(2016年5期)2016-04-16 05:25:39
    Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
    580 MPa 級熱軋高擴孔鋼的組織與性能
    上海金屬(2015年1期)2015-11-28 06:01:09
    網絡搜索引擎亟待規(guī)范
    強韌化PBT/PC共混物的制備與性能
    中國塑料(2015年4期)2015-10-14 01:09:28
    Nutch搜索引擎在網絡輿情管控中的應用
    警察技術(2015年3期)2015-02-27 15:37:09
    基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
    RDX/POLY(BAMO-AMMO)基發(fā)射藥的熱分解與燃燒性能
    火炸藥學報(2014年1期)2014-03-20 13:17:29
    廣告主與搜索引擎的雙向博弈分析
    托克托县| 多伦县| 运城市| 泰和县| 苗栗县| 石楼县| 高陵县| 张家川| 南宫市| 康乐县| 齐齐哈尔市| 丹阳市| 通州区| 大冶市| 威海市| 龙井市| 奉节县| 怀柔区| 连南| 胶南市| 纳雍县| 新竹县| 嘉善县| 松溪县| 南部县| 兴文县| 松阳县| 济南市| 赣州市| 烟台市| 收藏| 青神县| 彰武县| 濮阳市| 襄城县| 望都县| 抚宁县| 清远市| 同江市| 浑源县| 奉新县|