王 鵬
(山東廣播電視大學(xué),山東 濟南 250014)
截至2008年底,中國網(wǎng)民數(shù)達2.98億,搜索引擎使用率從2007年的72.4%下降為68.0%,但用戶增長5100萬人,高于電子郵件(56.8%),僅次于即時通信(75.3%)。迄今已有超過兩億人從搜索引擎中獲益[1]。
搜索引擎成為備受歡迎的網(wǎng)絡(luò)服務(wù),因為它解決了在浩瀚的互聯(lián)網(wǎng)信息海洋中快速定位信息的瓶頸問題。但隨著互聯(lián)網(wǎng)迅速發(fā)展,Web信息資源呈“爆炸式”增長,出現(xiàn)了“信息過?!爆F(xiàn)象,通用搜索引擎面臨信息收集冗余與精確定位的雙重挑戰(zhàn)。垂直搜索引擎應(yīng)運而生,以專業(yè)化的視角,細致化的信息處理方式,為用戶提供更有效的服務(wù)。
本文從搜索引擎的體系結(jié)構(gòu)出發(fā),針對通用搜索引擎存在的問題,探索垂直搜索引擎的工作流程,分析了其優(yōu)勢,并且引入一款實際應(yīng)用中的垂直搜索引擎進行分析。然后以滿足用戶個性化需求為導(dǎo)向,設(shè)計實現(xiàn)了一個垂直搜索引擎的個性化信息檢索及推薦算法,并進行了驗證。
搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實際上是經(jīng)過預(yù)處理的網(wǎng)頁索引數(shù)據(jù)庫。無論是通用搜索還是垂直搜索,在這一點上是一致的。
真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個詞(即關(guān)鍵詞)進行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個關(guān)鍵詞的時候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。
在體系結(jié)構(gòu)上,現(xiàn)代大規(guī)模通用搜索引擎基本都遵循三段式的工作流程,即網(wǎng)頁搜集、預(yù)處理、查詢服務(wù)。起始于網(wǎng)頁搜集,結(jié)束于查詢服務(wù),整個流程可以反復(fù)進行,從而達到系統(tǒng)的更新。其工作流程如圖1所示。
圖1 通用搜索引擎三段式工作流程
其中網(wǎng)頁搜集面向整個互聯(lián)網(wǎng),在超級鏈接分析技術(shù)基礎(chǔ)之上進行網(wǎng)頁搜索;預(yù)處理包括網(wǎng)頁關(guān)鍵詞提取、重復(fù)或轉(zhuǎn)載網(wǎng)頁消除、鏈接分析、潛在關(guān)聯(lián)信息挖掘、網(wǎng)頁重要程度計算等,最終產(chǎn)生關(guān)鍵詞到網(wǎng)頁文檔的倒排索引文件結(jié)構(gòu);查詢服務(wù)則實現(xiàn)用戶查詢與信息反饋。
搜索引擎的體系結(jié)構(gòu),其主體部分由搜集器、索引器、檢索器、用戶界面和后臺的索引數(shù)據(jù)庫等組成。其體系結(jié)構(gòu)如圖2。
圖2 通用搜索引擎的體系結(jié)構(gòu)
通用搜索引擎,囿于網(wǎng)頁信息采集范圍及預(yù)處理的深度,查詢的結(jié)果信息量巨大。統(tǒng)計表明,在數(shù)以千計的結(jié)果頁中,用戶平均查看的一般不超過兩頁。為什么不縮小信息范圍,提高信息與用戶的相關(guān)性呢?遺憾的是,這正是追求“大而全”的通用搜索引擎難以做到的,直到有了垂直搜索引擎。
在一個崇尚個性化和效率的時代,人們希望用最短的時間,找到最有用最適合自己的信息。信息不在于多,而在于精。
2.1 垂直搜索引擎的定位
垂直搜索引擎是相對于通用搜索引擎信息量大、查詢不準確、深度不夠等問題提出來的新的搜索引擎服務(wù)模式,針對某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價值的信息和相關(guān)服務(wù)。其特點就是“專、精、深”,且具有行業(yè)色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入[2]。
所謂垂直搜索,就是針對專業(yè)特定的領(lǐng)域或行業(yè)的內(nèi)容進行分析挖掘、精細分類、過濾篩選的專業(yè)搜索[3],其本質(zhì)是對垂直門戶信息提供方式的一次簡化性的整合。
由于垂直搜索引擎只涉及一個或幾個領(lǐng)域,詞匯或用語“一詞多義”的可能性降低,而且可以利用專業(yè)詞表進行規(guī)范和控制,大大提高了查全率和查準率。
2.2 垂直搜索引擎與通用搜索引擎的關(guān)系
垂直搜索引擎的出現(xiàn)不是對通用搜索引擎的顛覆,而恰恰是一種細分和延伸,是對某類網(wǎng)頁資源和結(jié)構(gòu)化資源的深度整合,并為用戶提供符合專業(yè)用戶操作行為的信息服務(wù)方式。
很多人誤解垂直搜索就是把相關(guān)的行業(yè)網(wǎng)頁做一采集,進行信息抽取過濾,實現(xiàn)行業(yè)化搜索。如果這樣,垂直搜索根本無法媲美通用的網(wǎng)頁搜索,因為后者很容易就能將網(wǎng)頁分類。垂直搜索應(yīng)是對垂直行業(yè)信息進行深度加工,有效整合,為用戶提供通用的網(wǎng)頁搜索無法做到的專業(yè)性、功能性,實現(xiàn)個性化服務(wù)[4]。
2.3 垂直搜索引擎的工作流程
本文構(gòu)建的垂直搜索引擎已經(jīng)成功用于商業(yè)運營,目的是向大中型城市消費者提供餐飲娛樂搜索服務(wù),其體系結(jié)構(gòu)如圖3。
圖3 垂直搜索引擎的工作流程
從圖3中可以看出,本文構(gòu)建的垂直搜索引擎依然遵循三段式工作流程,只是針對目標在具體處理方式上做了改變,細化了信息的行業(yè)范疇,細化了信息處理的粒度,使信息更加精確。
垂直搜索引擎和通用搜索引擎一個最大的區(qū)別是對網(wǎng)頁信息進行了結(jié)構(gòu)化抽取加工。將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化數(shù)據(jù),存到數(shù)據(jù)庫,進行進一步的加工,再以搜索的方式展現(xiàn)給用戶。垂直搜索引擎與通用搜索引擎工作流程比較見表1。
表1 垂直搜索引擎與通用搜索引擎工作流程比較
基于結(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)結(jié)合,垂直搜索從本質(zhì)上將搜索服務(wù)推向了專業(yè)化、細致化和個性化。表2展示了以結(jié)構(gòu)化數(shù)據(jù)為支撐的垂直搜索引擎為用戶提供了怎樣專業(yè)化、細致化的搜索服務(wù)。
表2 垂直搜索引擎與通用搜索引擎搜索結(jié)果比較
3.1 個性化推薦
個性化推薦是以用戶滿意為中心的主動服務(wù),是根據(jù)用戶的不同情況,提供有針對性的服務(wù)。具體就是在用戶瀏覽網(wǎng)站時,盡可能地迎合用戶的瀏覽興趣,并且不斷調(diào)整自身來適應(yīng)用戶瀏覽興趣的變化,使得每個用戶都有是該站點唯一用戶的感覺[5]。
從通用網(wǎng)頁搜索到專業(yè)化的垂直搜索,搜索引擎邁出了提升用戶滿意度堅實有力的一步,整體上提高了服務(wù)質(zhì)量,卻未考慮到用戶個體的差異。沒有差異化的產(chǎn)品或服務(wù)在互聯(lián)網(wǎng)贏家通吃的規(guī)則下是無法生存的,不能簡單模仿,而要想辦法形成互補。
3.2 個性化信息檢索與推薦算法設(shè)計
個性化信息檢索與推薦就是把用戶的興趣偏好也作為檢索的輸入項,使搜索得到的結(jié)果符合用戶個性化需求。將用戶相關(guān)性引入搜索結(jié)果,無疑是對關(guān)鍵詞相關(guān)性的一種補充。這樣可以調(diào)整服務(wù)的內(nèi)容,包括重新分級、過濾掉不相關(guān)或相關(guān)性較低的結(jié)果、重新排序,使相關(guān)性高的結(jié)果排到前面等。屆時,用戶看到的將不再是雷同的信息,而是為自己量身定制的有著鮮明個人特色的服務(wù)。
本系統(tǒng)的設(shè)計構(gòu)想是:利用用戶搜索日志,包括查詢關(guān)鍵詞和瀏覽軌跡(網(wǎng)頁標題和標簽信息),構(gòu)建用戶特征向量,將這些具有文本特征的關(guān)鍵詞與標題連接起來,構(gòu)成一篇虛擬文檔來作為用戶的個性化文檔。將此文檔轉(zhuǎn)換為具有詞頻權(quán)重的向量即用戶特征向量。
此操作的理由是:首先,詞頻權(quán)重確實能夠反應(yīng)出用戶對某關(guān)鍵詞的感興趣程度;其次,在實踐中已得到驗證,基于統(tǒng)計的方法往往比其他建模方法更為有效;再次,文檔轉(zhuǎn)換為向量的處理過程,包括分詞、詞頻統(tǒng)計、權(quán)重公式計算均已非常成熟,實現(xiàn)起來比較簡單。
具體實現(xiàn)方法為:
Q={q1,q2,……qn}T,qi表示詞i在查詢中出現(xiàn)的詞頻權(quán)重。
系統(tǒng)在詞-文檔矩陣A建立之后利用SDD算法對其進行分解、降維,以強化語義關(guān)系,提高空間效率,得矩陣Ak。檢索過程中用戶輸入的關(guān)鍵詞經(jīng)分析、分詞等處理成為一個 K維查詢向量Qk,用戶個性化文檔經(jīng)過處理后成為一個 K維的特征向量Uk,新的查詢向量的計算公式為:
β的調(diào)節(jié)使得Qk與Uk長度相等,?用來控制相關(guān)度計算中查詢相關(guān)性與用戶相關(guān)性的比例。按s= Nk×Ak計算相似度,據(jù)此給出搜索結(jié)果。垂直搜索引擎?zhèn)€性化信息檢索框架如圖4所示。
圖4 垂直搜索個性化信息檢索框架
將垂直搜索引擎的個性化檢索信息記錄到用戶信息數(shù)據(jù)庫中,當(dāng)系統(tǒng)檢測到具有相同特征的用戶使用查詢服務(wù)時,就可以推薦用戶可能感興趣的搜索結(jié)果,甚至直接推薦本行業(yè)相關(guān)服務(wù),引導(dǎo)用戶更有效使用搜索引擎。
隨著網(wǎng)絡(luò)發(fā)展和普及,個性化的信息需求與日俱增,而垂直搜索引擎可以幫助用戶在最短的時間內(nèi)找到最適合自己的信息。在垂直搜索引擎中同時引入個性化信息檢索和推薦,不僅提高了信息的查準率和用戶滿意度,同時也增強了用戶的個性化使用體驗和感受,能夠在為用戶提供有效信息的同時更加契合用戶對個性化檢索的需求。
[1]中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R].北京:中國互聯(lián)網(wǎng)絡(luò)信息中心(CNN IC),2009:30-31.
[2]垂直搜索引擎[EB/OL].(2006-04-21).http://baike.baidu.com/view/7491.htm.
[3]文婧,王洪偉.垂直搜索:專業(yè)公司夾縫中求生存[N].經(jīng)濟參考報,2005-11-21.
[4]張曉寧.走近垂直搜索[J].電子商務(wù)世界,2006,(Z1):102-103.
[5]Mobasher B,Dai H H,Luo T,et a l.Effective Personalization Based on Association Rule Discovery from Web Usage Data [C]//Proceedings of the 3rd international wo rkshop on Web info rmation and data management.New Yo rk,2001.