岳國慶 彭少杰
摘要:21世紀(jì)人類社會進(jìn)入了網(wǎng)絡(luò)時代,搜索引擎已成為Internet的第一應(yīng)用。文章從功能服務(wù)、特色服務(wù)、排序技術(shù)和網(wǎng)頁搜索結(jié)果四個方面對目前中國使用率最高的兩大搜索引擎——Google和百度進(jìn)行比較分析,以期為更好地掌握和使用搜索引擎提供借鑒意義。
關(guān)鍵詞:搜索引擎;Google;百度
中圖分類號:G354.2
文獻(xiàn)標(biāo)識碼:A
文章編號:1674-1145(2009)-02-0018-02
一、搜索引擎概述
因特網(wǎng)在全世界以史無前例的速度和規(guī)模不斷發(fā)展壯大,而因特網(wǎng)上的信息也像原子裂變一樣迅速膨脹。如何檢索和查詢這些信息資源已迫在眉睫,在這樣的背景下搜索引擎的發(fā)展應(yīng)運而生。自從1994年網(wǎng)絡(luò)搜索引擎yahoo公司成功開發(fā)并應(yīng)用于網(wǎng)絡(luò)信息檢索以來,搜索引擎的研究與發(fā)展非常迅速。幾乎所有上網(wǎng)的人都會用到搜索引擎來查找信息。因此,搜索引擎已成為大家查找網(wǎng)絡(luò)信息不可或缺的得力助手。
機器人搜索引擎一般由搜索軟件、索引軟件和檢索軟件三部分組成。搜索軟件通常稱為機器人(Robot)、爬蟲(Crawlers)或蜘蛛(Spiders),它們可以運行在互聯(lián)網(wǎng)上,能夠沿著網(wǎng)站的鏈接從一個頁面跨越到另一個頁面,自動追尋和發(fā)掘網(wǎng)上的各種文獻(xiàn)信息資源,采集新出現(xiàn)的信息,確認(rèn)網(wǎng)頁之間的鏈接是否有效并剔除死鏈的一種軟件。索引軟件將采集的網(wǎng)頁信息進(jìn)行自動標(biāo)引,建立索引數(shù)據(jù)庫。檢索軟件決定搜索引擎的檢索功能和返回結(jié)果的相關(guān)性。在檢索過程中,該軟件還會利用特殊的計算機算法對文獻(xiàn)與檢索詞的相關(guān)性進(jìn)行計算和評估。目前,常用的網(wǎng)絡(luò)搜索引擎主要有獨立搜索引擎、元搜索引擎、網(wǎng)絡(luò)搜索軟件。
CNNIC2007年搜索引擎市場調(diào)查報告顯示,全國搜索用戶的首選搜索引擎集中度加大。報告顯示,中國搜索市場目前是兩強多極競爭的格局,百度和Google市場份額太大高于其他公司,二者合計在北京和上海占有超過80%的市場份額。在這樣的背景下,我們有必要對在中國使用率最高的兩大搜索引——Coogle和百度進(jìn)行比較研究。
二、Google和百度的簡介
(一)Google簡介
Coogle公司成立于1998年。Coogle富于創(chuàng)新的搜索技術(shù)和典雅的用戶截面設(shè)計使Coogle從當(dāng)今的第一代搜索引擎中脫穎而出,Coogle目前是全球最大的搜索引擎。Coogle還獨創(chuàng)了多種語言搜索技術(shù),支持世界上幾十種主要語言。Google已儲存超過80G的網(wǎng)頁,1億3千萬張圖片,以及超過1億的新聞組訊息,總計大概10億4千萬個項目。它也緩存了編入索引中的絕大多數(shù)網(wǎng)頁的內(nèi)容。Coogle每日透過不同的服務(wù),處理來自世界各地超過2億次的查詢,這一數(shù)字還在不斷增長。Google數(shù)據(jù)庫存有30億個web文件。官方網(wǎng)站:www.google.com。2006年1月25日針對中國用戶的谷歌www.google.cn上線;2007年10月29日,谷歌最簡網(wǎng)址www.g.cn上線。
(二)百度簡介
百度公司(Baidu,Inc)1999年由李彥宏以及其好友徐勇在美國硅谷創(chuàng)辦。百度是目前中國大陸訪問使用量最高的搜索引擎。公司名稱“百度”二字源自中國宋代詞人辛棄疾《青玉案》的一句詞:“眾里尋他千百度?!卑俣裙玖⒆銍鴥?nèi)、專注中文搜索市場,研究漢語特點和國內(nèi)網(wǎng)民的上網(wǎng)習(xí)慣,百度自己研發(fā)并較早地推出國人喜愛的MP3搜索,吸引了大量的年輕網(wǎng)民。2003年12月,百度推出了“貼吧”這樣的個性搜索服務(wù)來聚集人氣,因而逐步奠定了百度成功的基石。在中文搜索支持方面有些地方甚至超過了Google,是目前國內(nèi)技術(shù)水平最高的搜索引擎。中文版:www.baidu.com,日文版:www.baidu.jp。
三、Google與百度的對比分析
(一)功能服務(wù)比較
Google與百度的基本服務(wù)情況如下表:
(二)特色服務(wù)比較
Google和百度的網(wǎng)頁搜索功能是網(wǎng)民使用最多的功能。在個性服務(wù)方面,Google和百度都推出了不同的產(chǎn)品。
Coogle的特色服務(wù)有:翻譯功能、電子信箱Gmail、Coogle地球;針對中國市場,cooke推出了一些個性化服務(wù),例如,Coogle拼音輸入法、Google生活搜索、Coogle正版音樂搜索。
Cooggle翻譯(http://translate.google.cn/),支持多語言互譯,便捷高效的翻譯網(wǎng)站更多段落、網(wǎng)頁翻譯功能。Gmail(http://gmail.google.com)是Google公司在2004年4月1日愚人節(jié)推出的世界第一個1G的免費電子信箱,每天的空間大小不斷增加。通過它可以使用Coogle的很多服務(wù)。Google地球(http://earth.google.com/)可帶您飛往地球上的任何地方,您可以在Coogle地球上看到衛(wèi)星圖像、地圖、地形和3D建筑,包括外太空的銀河系以及大洋峽谷。您可以探索豐富的地理知識,保存您游覽過的地點,并將其與他人分享。
Google拼音輸入法是針對中國大陸推出的中文拼音輸入法。雖然在時間上比搜狗拼音輸入法晚一步,但在智能組句和英文提示方面比搜狗拼音輸入法強。Google生活搜索專門針對中國市場,搜索內(nèi)容包含房屋、工作、火車票、物品、餐飲、招聘、影訊的信息搜索。Google音樂是2008年8月6日Google和合作伙伴巨鯨音樂網(wǎng)推出的正版音樂搜索,提供試聽和下載功能。
百度的特色服務(wù)有:百度知道、貼吧、百度百科、百度空間、百度有啊、百度Hi。
百度知道是基于搜索的互動式知識問答分享平臺。用戶可以根據(jù)自身的需求,有針對性地提出問題;同時,這些答案又將作為搜索結(jié)果,進(jìn)一步提供給其他有類似疑問的人,真正為用戶創(chuàng)造一個匯聚無數(shù)人經(jīng)驗、智慧的互動式知識分享平臺。百度貼吧自從誕生以來逐漸成為世界最大的中文交流平臺,這里為您提供一個表達(dá)和交流思想的自由網(wǎng)絡(luò)空間。
百度百科是百度2006年4月20日推出的一部內(nèi)容開放、自由的網(wǎng)絡(luò)百科全書,旨在創(chuàng)造一個涵蓋所有領(lǐng)域知識、服務(wù)所有互聯(lián)網(wǎng)用戶的中文知識性百科全書。截至2009年1月,詞條總數(shù)已超過145萬條。百度空間是百度提供的免費Blog空間服務(wù),可發(fā)表文章,發(fā)布照片,進(jìn)行個性展示,與網(wǎng)友分享交流。百度有啊(http://www.youa.com)是百度2008年10月推出的網(wǎng)上個人C2C交易平臺,已對淘寶產(chǎn)生了很大的威脅。百度Hi是百度推出的一款類似QQ的即時通信軟件,可以很好地整合百度的相關(guān)服務(wù)。
(三)排序技術(shù)比較
Google應(yīng)用了多項排序技術(shù),其中最核心、最關(guān)鍵的是Page RankkTM技術(shù)(網(wǎng)頁級別)和“超文本匹配分析”技術(shù)(Hy-pertext Matching Analysis)。Page RankTM技術(shù)根據(jù)網(wǎng)頁之間
的鏈接結(jié)構(gòu)對網(wǎng)頁的重要性進(jìn)行客觀的評價,并將網(wǎng)頁的PageRank值應(yīng)用于檢索結(jié)果的排序。Google在排列其檢索結(jié)果時,都會考慮每個網(wǎng)頁的Page Rank值,將重要的、高質(zhì)量的網(wǎng)頁排在結(jié)果列表的前面。這樣,Page Rank技術(shù)在很大程度上避免和減少了人為因素,客觀地把最恰當(dāng)?shù)臋z索結(jié)果呈現(xiàn)給用戶。即使網(wǎng)頁的Page Rank值再高,如果不能滿足用戶的檢索需求也是毫無意義。因此Coogle將Page Rank算法與“超文本匹配分析”技術(shù)結(jié)合在一起。一般的搜索引擎僅僅考慮檢索詞出現(xiàn)的次數(shù),而Google還在此基礎(chǔ)上分析關(guān)鍵詞的字體、字號以及關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的精確位置,并且對該網(wǎng)頁的鄰近網(wǎng)頁(包括鏈入網(wǎng)頁和鏈出網(wǎng)頁)的內(nèi)容加以分析。Google認(rèn)為,關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的位置以及字體等因素都體現(xiàn)了該關(guān)鍵詞在該網(wǎng)頁中的重要程度,比如說,如果檢索詞出現(xiàn)在網(wǎng)頁A的標(biāo)題中,而不只是出現(xiàn)在網(wǎng)頁B的正文中,那么在不考慮其他因素的情況下,說明網(wǎng)頁A與用戶需求更匹配。
百度搜索引擎應(yīng)用的排序技術(shù)其核心技術(shù)是“超鏈分析”技術(shù)(Link Analysis),百度總裁李彥宏是“超鏈分析”專利的惟一持有人?!俺湻治觥奔夹g(shù)與Page Rank技術(shù)的內(nèi)容相似:統(tǒng)計每個網(wǎng)頁被其他網(wǎng)頁鏈接指向的情況,次數(shù)越多則級別越高,排名也就越靠前。因此,“超鏈分析”就是通過分析鏈接網(wǎng)站的多少來評價被鏈接的網(wǎng)站質(zhì)量,這保證了用戶在百度搜索時越受用戶歡迎的內(nèi)容排名越靠前。此外,“超鏈分析”技術(shù)將情報學(xué)中的引文索引技術(shù)同Web中最基本的東西——“超級鏈接分析”的技術(shù)相結(jié)合,在查找的準(zhǔn)確性、查全率、更新時間、響應(yīng)時間等方面與其他技術(shù)相比都有很大的優(yōu)勢;同時,百度應(yīng)用“內(nèi)容相關(guān)度評價”技術(shù),并且運用了中文智能語言的處理方法,依靠字與詞的不同切割方法。彌補了單純依靠字或詞的引擎技術(shù)的缺陷,并且能夠在不同的編碼之間轉(zhuǎn)換,這就使得簡體字和繁體字的檢索結(jié)果可以自然結(jié)合。
(四)網(wǎng)頁搜索結(jié)果比較
為了全面地比較分析Google和百度的網(wǎng)頁搜索功能,從以下幾個方面進(jìn)行對比:相關(guān)搜索、搜索結(jié)果摘要、搜索用時、搜索建議、網(wǎng)頁快照、網(wǎng)頁翻譯功能、高級搜索、顯示索引時間、廣告顯示位置。
有關(guān)數(shù)據(jù)和功能對比情況如下表:
從綜合實力來看,兩大搜索引擎可說是各有千秋。旗鼓相當(dāng)。Google的優(yōu)勢在于信息量大、支持語種多、功能多,廣告和搜索結(jié)果分開顯示。百度的優(yōu)勢在于對中文的理解較好,速度快、網(wǎng)頁搜索結(jié)果更詳細(xì),更貼近中文用戶的搜索習(xí)慣。用戶可根據(jù)各自的需要和使用習(xí)慣選擇使用。