摘要:搜索引擎是一項(xiàng)嶄新而深?yuàn)W的技術(shù),該文主要研究了搜索引擎的排序問(wèn)題,首先簡(jiǎn)單介紹了搜索引擎的發(fā)展和搜索排序的重要性,然后分析了當(dāng)前用戶對(duì)搜排序索結(jié)果中存在的問(wèn)題并結(jié)合搜索引擎的工作流程闡述了搜索排序的巨大作用。接著研究了當(dāng)前搜索引擎中使用比較廣泛的搜索排序算法,如Alexa算法、PageRank算法、HillTop算法等,并比較了各個(gè)算法的不同,最后并指出當(dāng)前搜索引擎排序算法存在的一些不足,并展望了今后搜索引擎排序算法的發(fā)展趨勢(shì)。
關(guān)鍵詞:搜索引擎;排序;排序算法
中圖法分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2009)05-1250-03
The Research on the Rank Algorithms of Search Engine
WANG Tao, XU Jie
(School of Computer Science and Engineering, University Electronic Science and Technology of China, Chengdu, 610054,China)
Abstract: Search engine itself is a new and esoteric technique. This paper is mainly on the search engine ranking problem. First the paper briefly introduced the development of search engine and the significance of the ranking algorithms of search engine. And some problems of the user on the search result are introduced. The paper study the commonly used ranking algorithms of popular search engines such as Alexa, PageRank, HillTop and so on. The differences between the ranking algorithms are compared and their shortcomings are pointed out. Finally, the development trend of ranking algorithms of search engine is also mapped in the future.
Key words: search engine; sort technology; ranking algorithms
搜索引擎是要給對(duì)互聯(lián)網(wǎng)上的海量信息資源進(jìn)行搜集并整理,然后給用戶查詢的系統(tǒng)。它一般包括信息搜集、信息整理和用戶查詢?nèi)齻€(gè)部分組成。
早期的搜索引擎是把Internet中的豐富的資源地址搜集起來(lái),然后又由其提供的資源的不同類型而分成不同的目錄,在逐層地進(jìn)行分類,這就是目錄索引搜索引擎的原理。隨著因特網(wǎng)上的信息成幾何級(jí)數(shù)式增長(zhǎng)[1],出現(xiàn)了真正意義上的搜索引擎,這些搜索引擎收集很多網(wǎng)站的地址,隨后逐一搜索網(wǎng)站的所有鏈接,把網(wǎng)站的所有鏈接和鏈接中的所有詞匯分類存入數(shù)據(jù)庫(kù)中,便于用戶能夠方便地進(jìn)行查詢,并快速返回用戶查詢的結(jié)果信息,并對(duì)查詢的結(jié)果進(jìn)行排序,其中,搜索結(jié)果的排序?qū)λ阉饕嫫鹬匾淖饔?,也是衡量搜索引擎的一個(gè)重要指標(biāo)。
1 搜索排序的作用
搜索引擎的目標(biāo)是幫助用戶迅速查找到所需的網(wǎng)絡(luò)資源, 并快速將搜索的信息反饋給用戶。作為用戶希望最符合自己需求的網(wǎng)絡(luò)資源能在放置在搜索結(jié)果隊(duì)列里排在前面。從用戶的搜索行為習(xí)慣來(lái)看, 用戶通常最關(guān)心前幾頁(yè)的信息,而越往后的信息用戶越不愿意查看。
然而,針對(duì)當(dāng)前用戶反應(yīng),搜索引擎排序主要存在如下一些問(wèn)題:
1)搜索結(jié)果重復(fù);
2)搜索結(jié)果排序欠佳;
3)搜索結(jié)果太陳舊;
4)廣告太多。
由此可見(jiàn),搜索引擎排序中搜索結(jié)果的排序在搜索引擎中發(fā)揮著很重要的作用。好的搜索引擎總能將用戶需要的結(jié)果信息放置在搜索結(jié)果的前面,相反如果用戶需要的結(jié)果信息總被排在檢索結(jié)果的后面, 則被用戶點(diǎn)擊的機(jī)率就很小,這樣的搜索引擎也不會(huì)取得成功。圖1中展示了搜索引擎的工作原理以及搜索排序在搜索引擎中的地位和作用,由圖中可以看出,搜索排序是整個(gè)流程中與用戶的接口層,其排序的好壞直接影響整個(gè)搜索引擎的設(shè)計(jì)流程??偠灾?排序是搜索引擎最關(guān)鍵的技術(shù)之一, 排序策略和算法決定了排序效果的優(yōu)劣。
2 排序技術(shù)介紹
2.1 Alexa網(wǎng)站排序算法
Alexa是發(fā)布世界網(wǎng)站排名而引人注目的一個(gè)網(wǎng)站,在收集URL數(shù)量上,ALexa位居四大搜索引擎第一位,超過(guò)350億。Alexa的網(wǎng)站世界排名主要分兩種:綜合排名和分類排名。綜合排名也叫絕對(duì)排名,即特定的一個(gè)網(wǎng)站在所有網(wǎng)站中的名次。Alexa每三個(gè)月公布一次新的網(wǎng)站綜合排名,此排名的依據(jù)是用戶鏈接數(shù)(users reach)和頁(yè)面瀏覽數(shù)(page views)三個(gè)月累積的幾何平均值。當(dāng)前世界排名最靠前的網(wǎng)站:雅虎(www.yahoo.com)高居榜首,而世界著名的搜索引擎Google排名第二。
但Alexa網(wǎng)站排名會(huì)受到一些因素的影響,如Alexa工具欄僅在windows操作系統(tǒng)下,Internet Exploer瀏覽器中管用,使用其它操作系統(tǒng)或者瀏覽器的訪問(wèn)將不能被計(jì)數(shù)。Alexa工具欄也受到語(yǔ)言、地域、文化等各方面的影響,網(wǎng)站宣傳廣告的影響等。
2.2 PageRank排序算法
Goolge是當(dāng)前全球用戶使用最多的搜索引擎。Google之所以能夠如此成功,一個(gè)重要的因素是Google對(duì)搜索結(jié)果的排序比其它的搜索引擎都要好,總能將結(jié)果返回到前幾個(gè)頁(yè)面。這與Google的搜索引擎排序算法分不開(kāi),Google的搜索結(jié)果的質(zhì)量在很大程度上受益PageRank排序算法。
PageRank 算法的基本思想是:如果一個(gè)頁(yè)面被許多其他頁(yè)面引用[2],則這個(gè)頁(yè)面很可能就是重要頁(yè)面;一個(gè)頁(yè)面盡管沒(méi)有被多次引用,但被一個(gè)重要頁(yè)面引用,那么這個(gè)頁(yè)面很可能也是重要頁(yè)面,一個(gè)頁(yè)面的重要性被均分并將傳遞到它所引用的頁(yè)面中。其中頁(yè)面的重要程度量化后的分?jǐn)?shù)就是PageRank 值。著名的搜索引擎Google 所用的就是PageRank 算法,該排序根據(jù)網(wǎng)頁(yè)間的鏈接信息迭代計(jì)算得到,這里的鏈接信息是相對(duì)靜態(tài)的,沒(méi)有考慮網(wǎng)頁(yè)使用的動(dòng)態(tài)信息。
根據(jù)這個(gè)思想,可以得出頁(yè)面A的PageRank值PR(A)的計(jì)算公式為:
式中: PR(A) —— 頁(yè)面A的PageRank值;PR(Ti) —— 頁(yè)面Ti的PageRank值,頁(yè)面Ti鏈向頁(yè)面A;C(Ti) —— 頁(yè)面Ti鏈出的鏈接數(shù)量;d —— 阻尼系數(shù),d=0-1,實(shí)際應(yīng)用時(shí)設(shè)0.85;N —— 互聯(lián)網(wǎng)上所有網(wǎng)頁(yè)的數(shù)量。
由上面的公式可以看出,一個(gè)網(wǎng)頁(yè)鏈入的數(shù)量越多,這些鏈入網(wǎng)頁(yè)的PageRank值越高,這些鏈入網(wǎng)頁(yè)本身的鏈出數(shù)量越少,則該網(wǎng)頁(yè)的PageRank值越高。和Alexa算法不同,PageRank算法并不是將整個(gè)網(wǎng)站排名而是以單個(gè)頁(yè)面計(jì)算的。其次,頁(yè)面A的PageRank的值取決于那些連接到A的PageRank的遞歸。
PageRank技術(shù)根據(jù)網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu)對(duì)網(wǎng)頁(yè)的重要性進(jìn)行了客觀的評(píng)價(jià),并將網(wǎng)頁(yè)的PageRank值應(yīng)用于檢索已過(guò)的排序,網(wǎng)頁(yè)的PageRank值越高,表明其越重要,排序越前。這樣,在很大程度上避免和減少了人為因素,做到客觀地將最恰當(dāng)?shù)臋z索結(jié)果展現(xiàn)給用戶。消除了通過(guò)用不公正的方式處理網(wǎng)頁(yè)級(jí)別,使真正有信息資源價(jià)值的任何小網(wǎng)站的網(wǎng)頁(yè)在檢索時(shí)和有名的網(wǎng)站的網(wǎng)頁(yè)占有同等的地位,使搜索用戶不會(huì)被假排名靠前的網(wǎng)站所干擾,保證用戶能夠檢索到真正有用的信息。
2.3 HillTop排序技術(shù)
和PageRank一樣,HillTop同樣是一項(xiàng)搜索引擎結(jié)果排序的專利,是Google一個(gè)工程師Bharat在2001年獲得的專利。
HillTop算法的指導(dǎo)思想和PageRank的是一致的,都是通過(guò)網(wǎng)頁(yè)被鏈接的數(shù)量和質(zhì)量來(lái)確定搜索結(jié)果和排序權(quán)重。但HillTop認(rèn)為只計(jì)算來(lái)自具有相同主題的相關(guān)文檔鏈接對(duì)于搜索的價(jià)值會(huì)更大。Bharat稱這種對(duì)主題有影響的文檔為“專家”文檔,從這些專家文檔頁(yè)面到目標(biāo)文檔的鏈接決定了被鏈接網(wǎng)頁(yè)“權(quán)重得分”的主要部分。與PageRank結(jié)合HillTop算法確定網(wǎng)頁(yè)與搜索關(guān)鍵詞的匹配程度的基本排序過(guò)程取代了過(guò)分依靠PageRank值去尋找那些權(quán)威頁(yè)面的方法,這對(duì)于兩個(gè)具有同樣主題而且PR值相近的網(wǎng)頁(yè)排序過(guò)程中,HillTop算法就顯得非常重要了。同時(shí),HillTop也能避免了許多想通過(guò)增加許多無(wú)效鏈接來(lái)提高網(wǎng)頁(yè)P(yáng)ageRank值的作弊方法。
2.4 競(jìng)價(jià)排名
競(jìng)價(jià)排名是現(xiàn)在商業(yè)搜索引擎非常重要的一個(gè)手段,對(duì)于某些關(guān)鍵詞搜索引擎進(jìn)行拍賣,出價(jià)高的單位可以獲得較高的排名,即在該關(guān)鍵詞的檢索結(jié)果中處于較前的位置,通常情況下,首頁(yè)排名競(jìng)價(jià)最高。例如在“百度”購(gòu)買一個(gè)關(guān)鍵詞足球,首頁(yè)的可能要2000元人民幣甚至更多,下面以百度競(jìng)價(jià)為例作一個(gè)簡(jiǎn)單的介紹。
搜索引擎是應(yīng)用最廣泛的網(wǎng)絡(luò)服務(wù),每天有上千萬(wàn)的用戶通過(guò)搜索引擎來(lái)尋找各種信息,企業(yè)的潛在用戶也在其中。因此,存在了關(guān)鍵詞競(jìng)價(jià)排名的商機(jī)。參加百度搜索競(jìng)價(jià)排名,注冊(cè)屬于企業(yè)的產(chǎn)品關(guān)鍵詞(如產(chǎn)品或服務(wù)的具體名稱),當(dāng)企業(yè)的潛在用戶通過(guò)搜索引擎尋找相關(guān)產(chǎn)品信息時(shí),企業(yè)的網(wǎng)站將出現(xiàn)在搜索結(jié)果的醒目位置上。百度搜索競(jìng)價(jià)排名,可以將那些只在尋找企業(yè)產(chǎn)品的潛在客戶直接帶到企業(yè)的網(wǎng)站進(jìn)行訪問(wèn),從而為企業(yè)帶來(lái)大量業(yè)務(wù)咨詢,進(jìn)而產(chǎn)生新訂單,贏得新客戶,實(shí)踐證明,競(jìng)價(jià)排名是目前效果最好、投資回報(bào)最高的網(wǎng)絡(luò)推廣服務(wù)。
百度競(jìng)價(jià)排名是百度首創(chuàng)的一種按效果付費(fèi)的網(wǎng)絡(luò)推廣方式[3],用少量的投入就可以給企業(yè)帶來(lái)大量潛在客戶,有效提升企業(yè)銷售額,每天有超過(guò)一億人次在百度查找信息,企業(yè)在百度注冊(cè)與產(chǎn)品相關(guān)的關(guān)鍵詞后,企業(yè)就會(huì)被查找這些產(chǎn)品的客戶找到“競(jìng)價(jià)排名”按照給企業(yè)帶來(lái)的潛在客戶訪問(wèn)數(shù)量計(jì)費(fèi),企業(yè)可以靈活控制網(wǎng)絡(luò)推廣投入,獲得最大回報(bào)應(yīng)該說(shuō)收費(fèi)排名并不屬于排序技術(shù),這里指的收費(fèi)排名也包括競(jìng)價(jià)排名,而是一種搜索引擎的贏利模式,但收費(fèi)排名已經(jīng)最直接的影響到了搜索引擎的排序,在此也略做一下說(shuō)明,用戶可以購(gòu)買某個(gè)關(guān)鍵詞的排名,只要向搜索引擎公司交納一定的費(fèi)用,就可以讓用戶的網(wǎng)站排在搜索結(jié)果的前幾位,按照不同關(guān)鍵詞、不同位置、時(shí)間長(zhǎng)短來(lái)定義價(jià)格收費(fèi),排名一方面給搜索引擎公司帶來(lái)收益,一方面給企業(yè)帶來(lái)訪問(wèn)量,另外對(duì)訪問(wèn)者也有一定好處因?yàn)樵L問(wèn)者想找“足球”,企業(yè)想賣“足球”,于是出錢讓訪問(wèn)者能找到他,這樣,買家和賣家能馬上見(jiàn)面但收費(fèi)排名給訪問(wèn)者帶來(lái)更多的卻是不真實(shí),結(jié)果排序已經(jīng)失去了公正性,有時(shí)候還帶來(lái)大量垃圾。
當(dāng)然,對(duì)于企業(yè)來(lái)說(shuō),收費(fèi)排名是提升網(wǎng)站在搜索引擎中排名的最直接和最簡(jiǎn)單的辦法。如前所述的針對(duì)搜索引擎排序,通過(guò)修改網(wǎng)頁(yè)或者網(wǎng)站結(jié)構(gòu)和主動(dòng)增加網(wǎng)站鏈接等方法來(lái)讓搜索引擎認(rèn)為這些網(wǎng)頁(yè)是很重要的,從而提升網(wǎng)頁(yè)在搜索引擎結(jié)果中的排序,這對(duì)眾多沒(méi)有參加競(jìng)價(jià)排名的網(wǎng)站來(lái)說(shuō),是有失公平的。
3 排序結(jié)果存在的問(wèn)題
目前各種搜索引擎的技術(shù)都有改進(jìn)和優(yōu)化,都直接反應(yīng)到搜索結(jié)果的排序上。許多搜索引擎都在進(jìn)一步研究新的排序方法,來(lái)提升用戶的滿意度。
搜索引擎排序算法上還存在兩大不足:[4]
1)沒(méi)有真正解決相關(guān)性
相關(guān)性是指檢索詞和頁(yè)面的相關(guān)程度。僅僅通過(guò)鏈接、字體、位置等表面特征,不能真正判斷檢索詞和文章的相關(guān)性,更何況許多時(shí)候這些特征不會(huì)都同時(shí)存在。這也是許多對(duì)搜索引擎作弊方法能起效的原因。另外,有些文章中沒(méi)有出現(xiàn)檢索詞,但說(shuō)的就是和檢索詞十分相關(guān)的內(nèi)容,例如檢索“籃球”,但有網(wǎng)頁(yè)是介紹的一些賽事活動(dòng),文中沒(méi)有出現(xiàn)“籃球”的字眼,搜索引擎就無(wú)法檢索到該網(wǎng)頁(yè)。表面特征只能治標(biāo),不能治本。解決相關(guān)性的的方法應(yīng)該是增加語(yǔ)意理解,例如主題詞和關(guān)鍵詞的提取,從語(yǔ)意上分析,得出檢索詞和網(wǎng)頁(yè)的相關(guān)程度,分析得越準(zhǔn),效果就會(huì)越好。
2)搜索結(jié)果的單一化
在搜索引擎上,任何人搜索同一個(gè)詞的結(jié)果都是一樣。這樣明顯不能滿足訪問(wèn)者??茖W(xué)家搜索“星球”,可能是希望了解星球的知識(shí),但普通人可能是想找“星球大戰(zhàn)”電影,但搜索引擎所給的都是一樣的結(jié)果。如何滿足這些不同類型的訪問(wèn)者,需要對(duì)搜索結(jié)果的個(gè)性化。Vivisimo公司就是想解決這個(gè)問(wèn)題,他們采用對(duì)檢索結(jié)果自動(dòng)聚類的辦法來(lái)滿足不同類型客戶的需要。檢索結(jié)果排序如果要實(shí)現(xiàn)從單一化到個(gè)性化,該公司已經(jīng)邁出了重要一步,但最理想的結(jié)果應(yīng)該是針對(duì)每個(gè)訪問(wèn)者,排序結(jié)果直接和他們的檢索習(xí)慣和意愿有關(guān)。例如搜索“體育”,對(duì)喜歡足球的人應(yīng)該把足球的相關(guān)結(jié)果排在前面,對(duì)喜歡籃球的人應(yīng)該把籃球的相關(guān)結(jié)果排在前面。
4 結(jié)束語(yǔ)
綜上分析可知,目前現(xiàn)有的所有引擎排序算法并不能很好的滿足用戶的需求,因此,對(duì)于搜索排序算法的改進(jìn)和優(yōu)化有深入研究的必要。如何解決信息的相關(guān)性,如何將搜索的結(jié)果實(shí)現(xiàn)個(gè)性化,搜索引擎的排序技術(shù)也會(huì)朝著解決這兩個(gè)不足的方向發(fā)展語(yǔ)意相關(guān)性和排序個(gè)性化,前者需要完善的自然語(yǔ)言處理技術(shù),后者需要記錄龐大訪問(wèn)者信息和復(fù)雜的計(jì)算。相信這方面問(wèn)題的研究會(huì)給搜索引擎技術(shù)帶來(lái)巨大的發(fā)展,也必將會(huì)更好的滿足用戶的需求。
參考文獻(xiàn):
[1] Ricardo Baeza-Yates,Berthier Ribeiro-Neto. Modern Information Retrieval[M]. 北京:機(jī)械工業(yè)出版社,2005,(3):275~276.
[2] Google 的秘密- PageRank 徹底解說(shuō)[EB/OL].http://www.kreny.com/pagerank_cn.htm.
[3] 談大軍,林明茵,葉賽.中文和百度的排序方式與檢索效率比較分析[J]. 現(xiàn)代情報(bào), 2005.3.
[4] 許麗麗.專業(yè)搜索引擎對(duì)比研究[J].現(xiàn)代情報(bào), 2005, (1):188~190.