孫 洋, 楊曉蓉
(中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
?
中國農(nóng)業(yè)科學(xué)院網(wǎng)站平臺智能搜索技術(shù)與方法研究
孫 洋, 楊曉蓉
(中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
為了解決原有檢索技術(shù)已經(jīng)不能滿足中國農(nóng)業(yè)科學(xué)院網(wǎng)站檢索需求的問題,研究了智能搜索引擎方面相關(guān)的關(guān)鍵技術(shù)和方法。探討了利用智能搜索引擎關(guān)鍵技術(shù)在中國農(nóng)科院網(wǎng)站平臺改進搜索技術(shù)的方法,將搜索結(jié)果與現(xiàn)有的搜索技術(shù)在中國農(nóng)科院網(wǎng)站平臺搜索時所得到的結(jié)果相比較,結(jié)果表明,基于智能搜索引擎方面的關(guān)鍵技術(shù)改進的搜索平臺在檢索結(jié)果上明顯占優(yōu),實際應(yīng)用效果令人滿意。
智能搜索技術(shù);全文檢索;中國農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)
自互聯(lián)網(wǎng)誕生和普及以來,網(wǎng)絡(luò)信息和資源浩瀚如海,并且網(wǎng)絡(luò)數(shù)據(jù)繼續(xù)呈現(xiàn)爆炸式增長趨勢,《2014年中國網(wǎng)民搜索行為研究報告》[1]顯示,在通用搜索引擎中的查詢需求中,大量網(wǎng)民搜索的內(nèi)容與本地生活息息相關(guān),截至2014年6月,我國搜索引擎用戶規(guī)模已達50 749萬,較2013年同期增長3 711萬,增長率為7.9%,網(wǎng)民使用率為80.3%。自2011年以來,搜索引擎在網(wǎng)民中的使用率一直維持在80%左右,是我國網(wǎng)民的第二大互聯(lián)網(wǎng)應(yīng)用,具有不可替代的基礎(chǔ)性作用。因此,如何使網(wǎng)絡(luò)用戶快捷、準確和有效地定位需求信息成為信息服務(wù)提供者不斷努力的方向。搜索引擎是一種對網(wǎng)絡(luò)數(shù)據(jù)進行搜索、提取、組織、處理并提供檢索服務(wù)的工具,目前存在商業(yè)搜索引擎和站內(nèi)搜索引擎兩大搜索陣營。面對信息海量化發(fā)展現(xiàn)狀,站內(nèi)搜索因其針對性強,在一定的檢索范圍內(nèi)的便利性,更能滿足用戶的檢索需求,并為后續(xù)研究用戶行為提供來源保障。
中國農(nóng)業(yè)科學(xué)院網(wǎng)站門戶網(wǎng)站(www.caas.net.cn/)作為國內(nèi)農(nóng)業(yè)最高學(xué)術(shù)機構(gòu)和農(nóng)業(yè)技術(shù)成果展示中心,成為科研機構(gòu)發(fā)布信息、提供服務(wù)、提高社會影響力的重要平臺;中國農(nóng)業(yè)科技信息網(wǎng)(www.cast.net.cn/)立足農(nóng)業(yè)科技信息的傳播,成為為廣大網(wǎng)絡(luò)用戶提供實用性強的農(nóng)業(yè)資訊、技術(shù)、服務(wù)及資源等的重要平臺。這2個重要網(wǎng)站平臺自建立運行以來,搜集、發(fā)布和共享各種農(nóng)科院政務(wù)信息和農(nóng)業(yè)實用數(shù)據(jù),積累大量的信息數(shù)據(jù),建立站內(nèi)全文檢索系統(tǒng)是對于網(wǎng)站資源合理利用的重要體現(xiàn)。通過高效實用的站內(nèi)檢索,可以了解訪問者的閱讀喜好,有效幫助訪問者快速、準確定位到目標信息,從而為農(nóng)業(yè)科技管理決策、農(nóng)業(yè)科技創(chuàng)新和農(nóng)業(yè)實用功能提供農(nóng)業(yè)科學(xué)資源信息的支撐和保障,增強網(wǎng)站實用能力和確保網(wǎng)站在本地區(qū)農(nóng)業(yè)網(wǎng)站中的領(lǐng)先地位。隨著搜索引擎市場的發(fā)展,用戶對搜索引擎的功能、其搜索內(nèi)容的體現(xiàn)和結(jié)果的顯示將會有更高的要求,期待搜索引擎能夠為其提供更加專業(yè)、細致的信息服務(wù),搜索速度更快,顯示結(jié)果盡量精準而全面。
1.1 現(xiàn)狀調(diào)查
中國農(nóng)業(yè)科學(xué)院網(wǎng)站平臺的站內(nèi)搜索引擎是以中國農(nóng)業(yè)科學(xué)院門戶網(wǎng)站及其下屬部分網(wǎng)站為檢索范圍的檢索工具。由于農(nóng)業(yè)管理和實用服務(wù)的復(fù)雜性和廣泛性,使得農(nóng)業(yè)科學(xué)數(shù)據(jù)的數(shù)據(jù)量增長迅速,截至2015年6月僅中國農(nóng)業(yè)科學(xué)院門戶網(wǎng)站平臺共有一級欄目19個、二級欄100多個,涵蓋院所新聞、農(nóng)業(yè)實用技術(shù)、服務(wù)、合作交流、科普等,數(shù)據(jù)超過16萬條。網(wǎng)站豐富的內(nèi)容吸引了大量的涉農(nóng)用戶,但由于網(wǎng)站信息量指數(shù)級增長,用戶想要快速定位到所需資源非常困難,所以亟需研究智能搜索技術(shù),在現(xiàn)有網(wǎng)站搜索系統(tǒng)的基礎(chǔ)上改進現(xiàn)有的搜索技術(shù)。
該研究主要調(diào)查當(dāng)前中國農(nóng)業(yè)科學(xué)院網(wǎng)站上檢索服務(wù)的功能設(shè)置和搜索結(jié)果顯示情況,其中,檢索功能設(shè)置主要包括普通檢索和高級檢索兩方面。普通檢索功能主要支持用戶對檢索關(guān)鍵詞的輸入和檢索范圍的選擇,高級檢索是通過用戶根據(jù)檢索需求選擇的邏輯關(guān)系組配而完成的快速查詢, 其優(yōu)點是能提高查全率和查準率。當(dāng)前中國農(nóng)業(yè)科學(xué)院網(wǎng)站上檢索服務(wù)的高級檢索功能提供關(guān)鍵詞,包含全部、完整或任一字詞,發(fā)布日期,字詞位置,每頁顯示結(jié)果數(shù)等邏輯組合檢索,并進行結(jié)果排序。高級檢索的輔助選項提供有起始結(jié)束時間選擇、排序方式選擇、每頁顯示結(jié)果數(shù)定義和使用幫助,滿足不同用戶對檢索的不同需求。
另外從檢索結(jié)果的內(nèi)容、檢索結(jié)果的數(shù)量和排序兩方面分析。檢索結(jié)果主要包括 9個方面內(nèi)容, 按出現(xiàn)順序分別為: 總條數(shù)、檢索耗費時間、關(guān)鍵字、排序、標題、內(nèi)容簡介、URL、日期、網(wǎng)頁大小。排序主要以按照相關(guān)度、文件日期、文件名和文件大小順序排序。檢索結(jié)果并不需要面面俱到,只要滿足用戶需要,有效提示用戶判斷該結(jié)果是否有用即可,比如統(tǒng)一資源定位符(Uniform Resource Locator,URL)有助于用戶定位和判斷來源。
但是,由于網(wǎng)站數(shù)據(jù)呈海量速度增多,訪問者對于站內(nèi)檢索系統(tǒng)的要求不斷提高,當(dāng)前中國農(nóng)業(yè)科學(xué)院網(wǎng)站上檢索服務(wù)的功能已不能滿足訪問者的搜索需求。
1.2 問題分析
當(dāng)前站內(nèi)搜索功能比較弱,不能支持有效的相關(guān)性排序和海量數(shù)據(jù)快速并發(fā)查詢以及不能保證搜索耗時短等。
1.2.1 系統(tǒng)方面。
(1)不能跨網(wǎng)站。由于中國農(nóng)業(yè)科學(xué)院網(wǎng)站及其下屬部分網(wǎng)站和數(shù)據(jù)庫處于不同的服務(wù)器,缺乏統(tǒng)一的整合與集成方式,沒有有效整合搜索入口,無法解決“多個信息系統(tǒng)”和“統(tǒng)一檢索入口”的矛盾[2],使信息檢索不夠全面和精確。因此,如何應(yīng)用現(xiàn)代信息技術(shù),動態(tài)整合集成跨系統(tǒng)、跨數(shù)據(jù)庫的數(shù)據(jù)資源,充分利用網(wǎng)站管理特點和相關(guān)技術(shù),把分散孤立的數(shù)據(jù)資源在統(tǒng)一平臺下實現(xiàn)存儲和全文檢索是網(wǎng)站亟待解決的關(guān)鍵技術(shù)問題。
(2) 海量大規(guī)模內(nèi)容搜索能力有限。系統(tǒng)運行中每天發(fā)布的數(shù)據(jù)不斷增長,現(xiàn)有的數(shù)據(jù)管理平臺對支持大數(shù)據(jù)量的全文索引、檢索等能力有限。這些問題嚴重阻礙了網(wǎng)站數(shù)據(jù)資源共享。
1.2.2 檢索功能設(shè)置方面和檢索結(jié)果內(nèi)容和排序方面。
(1)搜索關(guān)鍵詞不準確,造成返回結(jié)果數(shù)較大或根本查詢不到結(jié)果。由于多數(shù)搜索用戶在檢索策略和檢索技巧上缺乏必要的經(jīng)驗,提交的查詢請求往往比較短,不能使用文中的任意字、詞、短語、句和片段進行有效檢索。這就造成搜索引擎的返回結(jié)果相關(guān)性差的缺點,直接導(dǎo)致返回結(jié)果數(shù)較大或根本查詢不到結(jié)果,用戶想要在這樣的搜索結(jié)果中找到目標信息非常困難,在查詢詞方面, 由于存在同義詞、歧義詞和同音詞等問題, 用戶鍵入的詞與存儲中的詞常常造成不匹配情況,導(dǎo)致檢索結(jié)果的查準率偏低, 偏離用戶的信息需求。
(2)不能提供相關(guān)搜索和智能提示。很多用戶并不能準確知道想要搜索內(nèi)容的關(guān)鍵詞,造成搜索查準率低,如果網(wǎng)站搜索平臺可以提供查詢頻率較高的相關(guān)詞語搜索,將極大地提高用戶查找的速度。比如用戶輸入關(guān)鍵詞“農(nóng)業(yè)”進行搜索,系統(tǒng)可以提示“現(xiàn)代農(nóng)業(yè)”“農(nóng)業(yè)科技”等。
(3)不可提供同音詞提示。用戶在輸入時有時可能出現(xiàn)同音但并非想搜索的關(guān)鍵詞的情況,系統(tǒng)如果能夠提供查詢頻率較高的同音詞提示,將極大地方便用戶的搜索。比如用戶輸入關(guān)鍵詞“科技”進行搜索,系統(tǒng)會提示“克己”“客機”“科級”等。
(4)不可拼音搜索。用戶在輸入時有時可能出現(xiàn)拼音輸入關(guān)鍵詞的情況,系統(tǒng)如果能夠提供拼音所對應(yīng)的常用關(guān)鍵詞查詢,將會提升用戶搜索體驗和查詢速度。比如用戶輸入關(guān)鍵詞“xinxi”,系統(tǒng)會查詢“信息”,并羅列查詢結(jié)果。
(5)不可二次檢索。有時用戶在不熟悉想要查找內(nèi)容時,并不能經(jīng)過一次查詢得到滿意結(jié)果,需要在查詢結(jié)果中進行二次查詢。
(6)無其他搜索網(wǎng)頁格式,搜索結(jié)果內(nèi)容不夠豐富?,F(xiàn)有的檢索系統(tǒng)僅是針對文字進行操作,搜索文字也是以網(wǎng)頁文字類型顯示。隨著網(wǎng)站平臺上.pdf、.doc、.xls等類型的文件逐漸增多,將這些資源納入到檢索范圍已是大勢所趨,同時可以大大提高用戶使用網(wǎng)站資源的利用率。
(7)無法選擇關(guān)鍵詞位置。用戶有時需要通過關(guān)鍵詞位置進行有針對性快速的查詢,比如網(wǎng)頁的標題、正文,網(wǎng)頁內(nèi)的網(wǎng)址,在網(wǎng)頁內(nèi)的鏈接等。
2.1 智能搜索相關(guān)技術(shù)介紹
目前,搜索引擎的使用已成為排在收發(fā)電子郵件之后的第二大互聯(lián)網(wǎng)應(yīng)用技術(shù)。憑借通用搜索引擎檢索某個特定網(wǎng)站門戶網(wǎng)站的資料,雖然可以指定網(wǎng)站進行搜索,但因搜索引擎釋放的網(wǎng)絡(luò)蜘蛛沿著超鏈接去爬行,由于網(wǎng)頁的層數(shù)過多或時間過長時,對某些網(wǎng)頁就不能進行抓取或不能及時檢索出最新內(nèi)容等,其在內(nèi)容的精確性、索引時間的及時性上不能得到保證[3]。因此,針對某個門戶網(wǎng)站平臺,開發(fā)屬于某個門戶網(wǎng)站平臺的站內(nèi)搜索引擎,成為了單位門戶網(wǎng)站建設(shè)的迫切需要。
2.1.1 全文檢索[3]。全文檢索站內(nèi)搜索原理是對數(shù)據(jù)庫數(shù)據(jù)進行超文本標記語言(HTML)解析、圖片縮略,分詞、索引,實現(xiàn)站內(nèi)搜索,提高檢索效率,檢索范圍涉及網(wǎng)站上所有內(nèi)容,用戶可對搜索的內(nèi)容范圍和體現(xiàn)的結(jié)果做精確的控制。支持標準的國際搜索語法,提供動態(tài)摘要,摘要清晰,便于用戶快速尋找到需要的信息;有關(guān)鍵詞標紅,可有效控制;有同義詞相關(guān)性排序,方便用戶在網(wǎng)站海量數(shù)據(jù)中快速查找信息。
2.1.2 拼音檢索。要實現(xiàn)拼音檢索[4],只有具備漢字拼音對照表,才能讓系統(tǒng)知道用戶輸入的拼音與漢字對應(yīng)關(guān)系。漢字拼音對照表是通過編程把碼表源文件winpy.txt中漢字與拼音的對應(yīng)關(guān)系提取并存入相應(yīng)數(shù)據(jù)庫,而winpy.txt文件是通過輸入法生成器將微軟全拼的碼表文件winpy.mb逆轉(zhuǎn)換而來。用戶只要輸入包含拼音字符中的部分字符, 就可以查找到對應(yīng)信息。
2.1.3 二次檢索。目前二次檢索的主要方法可分為重排序和過濾2大類[5]。重排序方法目的是實現(xiàn)重新計算查詢與文檔之間的相關(guān)度,實現(xiàn)手段是文檔聚類或使用受控詞表等,因此二次查詢后的顯示結(jié)果會按照新的相關(guān)度進行排序顯示。這一方法能很好地提高檢索結(jié)果的前N項的準確率。過濾方法目的是篩選和去除與用戶查詢無關(guān)的文檔,實現(xiàn)手段是從用戶查詢出的附加信息中篩選檢索返回的文檔。
2.1.4 中文分詞。中文分詞是指將一個連續(xù)的漢字序列按照一定的預(yù)言規(guī)范組合切分成多個單獨有意義的詞序列[6]。例如,“農(nóng)業(yè)科技信息”的切分結(jié)果為農(nóng)業(yè)/科技/信息。中文詞語相較英文文本來說,詞與詞之間沒有空格作為自然分界符,所以對于中文詞語的有效切分并使計算機理解分析是關(guān)鍵。中文分詞算法歸納起來主要分為3類:基于字符串匹配的分詞方法、基于統(tǒng)計的分詞方法、基于理解的分詞方法[7-8]。
2.1.5 相關(guān)詞。在全文檢索過程中,想要總結(jié)出與查詢信息相關(guān)的文件,需要用戶進行相當(dāng)大程度的瀏覽,而系統(tǒng)自動的相關(guān)詞提示可以幫助用戶優(yōu)化查詢式,使系統(tǒng)明確用戶的信息檢索需求,更為用戶減少了額外的負擔(dān)。相關(guān)詞提示是搜索引擎系統(tǒng)為用戶提供相關(guān)詞,幫助用戶重新構(gòu)造更加有效的查詢式,從而減少多余檢索步驟的檢索技術(shù)[9]。實現(xiàn)方面,應(yīng)把相關(guān)詞的選擇權(quán)給用戶,人工重新構(gòu)造查詢式。相關(guān)詞提示的基本原理,搜索引擎通過聚類技術(shù)獲取與查詢式相關(guān)的詞,經(jīng)過相關(guān)度計算, 將排在前面的相關(guān)詞以一定的形式反饋給用戶[10]。
2.2 基于相關(guān)技術(shù)在中國農(nóng)科院網(wǎng)站平臺檢索服務(wù)的改進應(yīng)用
該研究采用的搜索技術(shù)平臺是基于Lucence開發(fā)的,是將原關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)進行抽取、存儲和索引,抽取到全文數(shù)據(jù)倉庫中提供檢索服務(wù),對原有的內(nèi)容管理系統(tǒng)影響較小,可擴展性更強,系統(tǒng)支持跨平臺、跨數(shù)據(jù)庫、跨站點的全文檢索,用的分詞器是JE-Analysis,其作用是把一個字符序列按某種規(guī)則劃分成獨立的詞語,并去除其中的無效詞語,從而有利于縮小索引文件,提高效率,提高命中率。以垂直搜索方式整合多網(wǎng)站,實時索引企業(yè)已有的資料庫,并結(jié)合互聯(lián)網(wǎng)信息抓取技術(shù),進行內(nèi)容和服務(wù)的采集,實現(xiàn)了按信息分類、條件組合、多語種等檢索方式,能夠索引中國農(nóng)業(yè)科學(xué)院網(wǎng)站內(nèi)的信息內(nèi)容,并提供個性豐富的檢索體驗的搜索引擎服務(wù)。其框架結(jié)構(gòu)見圖1。
從技術(shù)角度來看,在網(wǎng)站的搜索引擎框架中,很好地解決了搜索引擎應(yīng)用中的2個核心環(huán)節(jié):海量數(shù)據(jù)管理、內(nèi)容索引和全文檢索技術(shù)。
2.2.1 海量數(shù)據(jù)和內(nèi)容索引。該研究設(shè)計的全文檢索數(shù)據(jù)庫系統(tǒng)在數(shù)據(jù)存儲方面(特別是對于海量數(shù)據(jù))有著獨特的技術(shù), 實現(xiàn)了索引空間膨脹率低于0.5,支持大量的并發(fā)用戶檢索,實現(xiàn)集群和負載均衡應(yīng)用。采用增量更新方式對內(nèi)容進行更新,即每次檢查數(shù)據(jù)變化時,只更新添加或發(fā)生變化的數(shù)據(jù)進行更新,索引速度明顯高于僅僅完全更新的系統(tǒng)。
在農(nóng)業(yè)保險運營中,政府的選擇為補貼與不補貼,保險公司的決定仍為經(jīng)營與不經(jīng)營。假設(shè)政府補貼B,保險公司經(jīng)營,政府所得的收益為Q;保險公司不經(jīng)營損失為D,做出分析,結(jié)果如表3所示。
2.2.2 全文檢索。該研究跨平臺跨站點智能檢索系統(tǒng)檢索功能設(shè)置中,在普通檢索方面,針對輸入的關(guān)鍵詞,智能識別中文人名單詞、數(shù)量詞,Email、URL等信息,搜索范圍提供各站點單獨或集成搜索;高級檢索方面,提供包括全文檢索、日期(范圍)檢索、標題檢索、URL檢索等在內(nèi)的全方位信息查詢手段。對用戶檢索關(guān)鍵詞的處理方面,支持對中文、英文、數(shù)字的混合分詞。對檢索詞進行智能提示,可以實現(xiàn)拼寫檢查、相關(guān)詞建議和同音詞列表等,增強用戶搜索體驗,提高有效搜索效率;并可以實現(xiàn)拼音檢索和二次檢索,在用戶誤輸?shù)惹闆r下,也能幫助用戶有效定位,在一次搜索結(jié)果中繼續(xù)搜索,可逐步縮小結(jié)果范圍,鎖定自己需要的結(jié)果。
搜索結(jié)果方面,可以根據(jù)字段進行排序,如相關(guān)度(默認)、日期等,相關(guān)度排序以檢索詞與網(wǎng)頁的相關(guān)性為依據(jù)對檢索結(jié)果排序,相關(guān)性是對詞頻、詞位(詞在文章中出現(xiàn)的位置)以及文件大小等因素綜合評價的結(jié)果;時間排序則可以保證把最新的數(shù)據(jù)優(yōu)先輸出,使用戶在眾多搜索結(jié)果中優(yōu)先找到需要的信息。
此跨平臺跨站點智能檢索系統(tǒng)融合了高效的全文檢索引擎和非結(jié)構(gòu)化文檔(Word、HTML、PDF等)分析技術(shù),支持對多種格式化資源檢索(如PDF、Word、Excel、PPT等文件),整合內(nèi)部對象信息資源,可實現(xiàn)一個(或多個)網(wǎng)站的站內(nèi)搜索,支持的數(shù)據(jù)源包括文件系統(tǒng)、Internet網(wǎng)站、關(guān)系數(shù)據(jù)庫、FTP服務(wù)器等。
2.2.3 系統(tǒng)及管理方面。該研究系統(tǒng)全面支持Web服務(wù),可以與各個系統(tǒng)(包括.NET系統(tǒng))集成,采用Java語言開發(fā),可運行于Windows、UNIX、Linux平臺,在內(nèi)核上采用多級索引、緩存技術(shù);管理方面,采用B/S架構(gòu),無需安裝任何客戶端,對于數(shù)據(jù)庫索引提供配置向?qū)Р⒖蓪崿F(xiàn)定時更新。
3.1 檢索功能設(shè)置方面
3.2 檢索結(jié)果內(nèi)容、數(shù)量和排序方面
當(dāng)前中國農(nóng)科院網(wǎng)站搜索服務(wù)檢索結(jié)果顯示情況主要從檢索結(jié)果的內(nèi)容、檢索結(jié)果的數(shù)量和排序兩方面分析。檢索結(jié)果主要包括 9個方面內(nèi)容, 按出現(xiàn)順序分別為: 總條數(shù)、檢索耗費時間、關(guān)鍵字、排序、標題、內(nèi)容簡介、URL、日期、網(wǎng)頁大小。排序主要以按照文件日期、文件名和文件大小順序排序。改進后,檢索結(jié)果顯示主要增加以下幾個方面內(nèi)容:智能提示(圖2)、同音詞列表、拼音檢索、搜索網(wǎng)頁類型顯示、相關(guān)度顯示及排序、相關(guān)搜索提示和二次檢索(圖3)。其中相關(guān)度主要說明檢索詞與檢索結(jié)果頁面的匹配程度, 通過相關(guān)度的合理排序可以使用戶快速定位所需的精準信息。
3.3 搜索性能方面
為了說明該研究改進后的平臺的搜索性能,分別選擇了當(dāng)前和改進后的中國農(nóng)科院網(wǎng)站某一下屬網(wǎng)站對“自主創(chuàng)新”進行關(guān)鍵詞搜索。系統(tǒng)改進前后搜索性能對比見表1。
表1 改進前后搜索性能對比
表1測試結(jié)果表明,該研究改進后的中國農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)比當(dāng)前網(wǎng)站在搜索耗費時間上明顯減少,說明搜索引擎的檢索效率明顯提高。同時實現(xiàn)中國農(nóng)業(yè)科學(xué)院網(wǎng)站及下屬網(wǎng)站的跨平臺搜索,解決“信息孤島”[2]問題,通過網(wǎng)頁格式關(guān)鍵詞位置選擇功能的添加,進一步提高了搜索的針對性和準確率,并且增加了除網(wǎng)頁文字外的多種搜索結(jié)果表現(xiàn)形式。用戶體驗上,由于增加智能提示、拼音搜索等,使搜索引擎關(guān)鍵字處理能力更加智能,從而提高搜索效率。同音詞和相關(guān)搜索詞的羅列,為用戶深度搜索提供便利。當(dāng)前搜索引擎并沒有提供搜索結(jié)果的相關(guān)度顯示及按照相關(guān)度排序,改進后的搜索引擎根據(jù)搜索結(jié)果相關(guān)度進行合理排序,使用戶很快找到相關(guān)度最高的搜索結(jié)果。
從中國農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)現(xiàn)狀出發(fā),分析了其存在的問題,研究了智能搜索應(yīng)用在中國農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)平臺進行全文檢索的技術(shù),并與當(dāng)前平臺的檢索方法進行了比較。結(jié)果表明:改進后的相關(guān)搜索技術(shù)在海量數(shù)據(jù)的跨平臺搜索中搜索速度、查全和準確性明顯提高,能夠成功地應(yīng)用于中國農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)平臺;同時,使用者還可以根據(jù)實際需要個性化組配搜索選項,結(jié)合搜索結(jié)果頁面的同義詞、相關(guān)詞、二次檢索和智能提示等功能,完成更加快速精準的搜索。當(dāng)然,相關(guān)搜索技術(shù)改進后的中國農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)還有許多不足,如無法對搜索結(jié)果進行優(yōu)化重排,將近期用戶搜索次數(shù)多的信息排在結(jié)果最前列等,難以對后續(xù)的收集的海量信息進行分析以獲取知識,這些問題將在以后的工作中不斷研究并解決。
[1] 百度百科.2014 年中國網(wǎng)民搜索行為研究報告[EB/OL].[2015-11-01].http://wenku.baidu.com/link?url=4uyvlw31BHX27FUSPZcI7g41T9Sel46aGFzeqQSk9qaceZJWsxovkOPw-7t7Ko3bSsjG4QBh4edsvS_44qI21sQQEB7EMPivaEsYPNXoYHy.
[2] 陳福生.全文檢索在網(wǎng)站搜索系統(tǒng)中的應(yīng)用[J].電腦編程技巧與維護,2009(12):17-19.
[3] 王非.面向Web2.0社區(qū)的站內(nèi)搜索引擎技術(shù)的研究與實現(xiàn)[D].長沙: 國防科學(xué)技術(shù)大學(xué), 2008.
[4] 劉風(fēng)華,陳燕紅,鄭衛(wèi)斌.拼音檢索方法在Web系統(tǒng)中的研究與實現(xiàn)[J].計算機系統(tǒng)應(yīng)用,2013,22(1):196-199.
[5] 林永志.基于語義關(guān)系識別的二次檢索[D].上海:上海交通大學(xué),2008.
[6] 董李鵬,高東懷,張迎,等.基于Lucene的校園網(wǎng)智能搜索引擎的設(shè)計與實現(xiàn)[J].現(xiàn)代電子技術(shù),2013,36(6):83-86.
[7] 馮書曉,徐新.國內(nèi)中文分詞技術(shù)研究新進展[J].情報雜志,2002(11):29-30.
[8] 劉開瑛.中文文本自動分詞和標注[M].北京:商務(wù)印書館,2000:109-122.
[9] 劉紅星.分布式系統(tǒng)中的文本信息檢索技術(shù)研究[D].北京:清華大學(xué),2004.
[10] 章成志,徐小琴.信息檢索系統(tǒng)的相關(guān)詞提示技術(shù)與評測信息系統(tǒng)[J].情況理論與實踐,2007,30(1):100-104.
Technology of Search Engineer in CAAS Website
SUN Yang, YANG Xiao-rong
(Agricultural Information Institute of CAAS, Beijing 100081)
In order to solve the problem that the traditional search method couldn’t meet the searching demand in CAAS website, the original method and technology of website search engine was studied, and using improved method of website search engine in CAAS website was discussed. At last, these results were compared with those consequences from traditional search method. The experiments proved that: the search engineer based onimproved method of CAAS website had more efficient and the practical application should be satisfactory.
Intelligent search technology; Full text retrieval; Website search service in CAAS website
中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所2015年度基本科研業(yè)務(wù)費專項(2015-J-07)。
孫洋(1986- ),女,北京人,助理研究員,碩士,從事農(nóng)業(yè)網(wǎng)站信息技術(shù)研究。
2015-11-11
S 126
A
0517-6611(2015)35-343-04