姚銀杰
摘 要:本文對搜索引擎的工作原理進行了探討,分析了搜索引擎技術(shù)在圖書館智能搜索中的應(yīng)用及改進措施,希望通過本文的研究,有助于促進搜索引擎技術(shù)在圖書館搜索中的應(yīng)用,為加強對搜索引擎技術(shù)的研究起到拋磚引玉的作用。
關(guān)鍵詞:搜索引擎;智能搜索引擎;圖書館
一、圖書館建立智能搜索引擎的必要性分析
隨著各個高校規(guī)模的不斷擴大,高校收藏的圖書、文獻資料的量越來越龐大,但是其傳統(tǒng)的搜索引擎所具有的功能是比較簡單的,僅僅只能對書名、作者、年份等信息來進行搜索,讀者往往需要從成千上萬條搜索結(jié)果中去挑選自己所想要的結(jié)果,搜索體驗較低。因此,運用智能搜索引擎,能夠為讀者提供專業(yè)性強、針對性強的搜索服務(wù),同時還能夠在內(nèi)容上進行分類,對搜索結(jié)果根據(jù)檢索的關(guān)鍵詞進行相關(guān)性排序,能夠大大節(jié)約讀者檢索的時間,提升高校圖書館的利用效率。
二、智能搜索引擎的優(yōu)勢
智能搜索引擎具有很多傳統(tǒng)搜索引擎不具備的優(yōu)勢:其一,與互聯(lián)網(wǎng)的網(wǎng)頁數(shù)量相比,圖書館的書籍文獻資料要少得多,因此將每一本書當做一個頁面來采取PageRank算法來進行搜索,能夠大大減少檢索的時間。其二,圖書館中的信息一般都是由圖書館的工作人員通過手動錄入的,每一本書的相關(guān)信息是比較全面的,因此在搜索結(jié)果中不會出現(xiàn)作弊的現(xiàn)象,例如重復關(guān)鍵詞。在這種情況下,能夠減少一些不必要的設(shè)計,建立起搜索引擎是相對簡單的。其三,圖書館用戶對信息的檢索要求并不復雜,所給出的關(guān)鍵詞的集中度比較高,搜索引擎的接受度比較高。
三、搜索引擎技術(shù)在現(xiàn)代圖書館智能搜索中的應(yīng)用
(一)圖書館智能搜索的PageRank算法的設(shè)計
1、個性化PageRank算法設(shè)計的基本思路
PageRank在互聯(lián)網(wǎng)網(wǎng)頁的搜索應(yīng)用中,是通過蜘蛛(Spider)從互聯(lián)網(wǎng)中獲得網(wǎng)頁,再以不同網(wǎng)頁之間相互鏈接的次數(shù)作為依據(jù),來對一個網(wǎng)頁的相關(guān)性進行評價。PageRank在互聯(lián)網(wǎng)網(wǎng)頁搜索中的核心,是先把所有與關(guān)鍵詞相關(guān)的網(wǎng)頁進行初始化評分,再根據(jù)不同網(wǎng)頁間鏈接次數(shù)的多少,把整體PageRank值在不同頁面間流動,在經(jīng)過多次的迭代和多次的反復之后達到一個平衡的位置,再以PageRank值的高低來排序。在這種模式下,與關(guān)鍵詞相關(guān)性最高的結(jié)果一般會呈現(xiàn)在搜索界面上,但是PageRank值在分配的過程中沒有考慮用戶的個人喜愛以及歷史瀏覽。因此,在圖書館搜索引擎的設(shè)計中使用PageRank技術(shù),要充分考慮用戶的個人信息、喜好,來進行PageRank評分,這種PageRank評分不僅要和書籍相關(guān)聯(lián),還要和用戶的個性化需求相互匹配,在具體的算法設(shè)計中可以參考傳統(tǒng)的PageRank算法,再將用戶個性化的要求加入進來,進行PageRank迭代,并對搜索結(jié)構(gòu)進行個性化的排序。
2、歷史評價及分類PageRank的計算
歷史評價和網(wǎng)頁的人氣值具有非常高的相似度,很容易計算出來,一般情況下,只是需要以用戶瀏覽此書籍的次數(shù)為依據(jù),就可以給出附加PageRank值。在這種算法下,是將所有的用戶看成了一個整體。而分類PageRank的計算過程是相對復雜的,她需要對專業(yè)書籍專業(yè)分類的情況進行評價,可以采取與上述用戶瀏覽書籍次數(shù)的多少來進行給出個性化的PageRank值。由于每一本書都有自己獨特的分類方式,在處理分類中相關(guān)分類間的關(guān)系,可以通過PageRank值來傳遞。以用戶所選定的分類特征為依據(jù),將其作為PageRank源,再在各個分類之間讓PageRank值迭代,再以用戶的需求選擇來匹配相關(guān)性最高的分類圖書,可以聘請學校各個專業(yè)的學科人士來處理,以他們的專業(yè)意見為標準,來分配比較合理的阻尼系數(shù),同時,這些阻尼系數(shù)還可以根據(jù)用戶的歷史瀏覽記錄來進行一定的優(yōu)化,進而使得所搜索的結(jié)果能夠更好地滿足用戶的需求。
3、建立數(shù)組型PageRank
不同的用戶有不同的需求,因此,在設(shè)計過程中,不能將PageRank值作為一個單一的情況來處理,而要注重搜索引擎的分類化與搜索引擎的個性化。將PageRank值進行優(yōu)化處理,建立一個數(shù)組,當然,這個數(shù)組是可以設(shè)計成一個多維的數(shù)組,其中包含有傳統(tǒng)的PageRank值、個性化的PageRank值、歷史評價的PageRank值、分類化的PageRank值等。圖書館智能搜索引擎,需要以用戶的需求為依據(jù),對這一多維數(shù)組中的各項PageRank值進行加權(quán)組合處理。用戶在進行信息搜索的時候,可以根據(jù)自己的需求來進行有優(yōu)先原則的搜索,使得所返回的搜索結(jié)果能夠體現(xiàn)用戶的不同特征的需求,進而使得用戶在最短的時間獲得自己所需要的信息。
(二)高校圖書館系統(tǒng)采用智能搜索引擎的改進措施
1、圖書館數(shù)據(jù)庫的改進措施
目前,各個高校的圖書信息查詢系統(tǒng)還需要對現(xiàn)有的數(shù)據(jù)庫進行完善。需要增加一些新的數(shù)據(jù)庫,來保存書籍文獻資料的檢索相關(guān)性信息,這里面包含了現(xiàn)代書籍資料的電子化,學科分類、參考文獻、出版社、發(fā)表時間等信息的錄入。另外,還需要在圖書館傳統(tǒng)數(shù)據(jù)庫中添加一些新的字段來保存相關(guān)的PageRank值,建立和用戶相關(guān)的數(shù)據(jù)庫用來保存用戶的個性化需求及用戶的瀏覽歷史記錄,進而為對書籍文獻資料的相關(guān)性統(tǒng)計分析奠定基礎(chǔ),進而得出關(guān)鍵詞的相關(guān)性結(jié)果。
2、圖書館搜索引擎的改進措施
在傳統(tǒng)搜索中,用戶通過書名、作者、發(fā)表時間、出版社等信息來進行檢索,搜索的結(jié)果需要SQL語句作為支持,而要實現(xiàn)前文所述的智能搜索,便需要對這種搜索引擎進行改進。首先,搜索引擎要對用戶檢索時所輸入的關(guān)鍵詞或關(guān)鍵字進行自然語言分析,進而更加準確地理解用戶所需要的信息,甚至,還要對用戶的語言習慣偏好進行深入分析,例如,繁體字以及少數(shù)民族的文字等。同時,要加入對PageRank值進行迭代的功能,這樣使得搜索引擎可以根據(jù)用戶所提供的關(guān)鍵詞來以PageRank值為依據(jù)來對返回的搜索結(jié)果進行排序,使得搜索結(jié)果更加符合使用者的需求。
3、構(gòu)建用戶信息反饋系統(tǒng)
傳統(tǒng)搜索僅僅是對用戶的信息搜索結(jié)果的簡單羅列,即用戶向搜索引擎提供所需要檢索的關(guān)鍵詞,搜索引擎在其數(shù)據(jù)庫中檢索相應(yīng)的信息,并呈現(xiàn)給用戶。而智能搜索引擎在圖書館的應(yīng)用,需要對搜索結(jié)果頁面的搜索結(jié)果進行排序,而要使得這種排序更加滿足用戶的需求,就需要根據(jù)用戶的習慣、愛好、知識背景等信息,來重新分配PageRank值,提升用戶檢索的便捷性與有效性。
四、結(jié)束語
目前,我國很多高校在數(shù)字圖書館的建設(shè)還處于起步階段,而智能搜索引擎技術(shù)具有人機接口智能化、信息服務(wù)功能個性化、跨平臺多文檔處理等諸多傳統(tǒng)搜索不具備的優(yōu)勢。將其應(yīng)用于數(shù)字圖書館的建設(shè),具有重要的現(xiàn)實意義。隨著搜索引擎技術(shù)的不斷發(fā)展以及人們對信息檢索的需求的發(fā)展,搜索引擎的更新迭代速度將會更快,有必要加強對搜索引擎技術(shù)的研究。
(作者單位:西安思源學院)
參考文獻:
[1] 羅志堯,周群芳.論搜索引擎在現(xiàn)代圖書館中的應(yīng)用[J].高教與經(jīng)濟,2014,No.6604:19-21.
[2] 余艷.搜索引擎原理剖析及其技術(shù)發(fā)展[J].圖書館學刊,2013,01:58-60.
[3] 張興華.搜索引擎技術(shù)及研究[J].現(xiàn)代情報,2014,04:142-145.