李伶思,趙 興,劉 孟
(1.廣西民族大學 管理學院,廣西 南寧 530006;2.河北新華第一印刷有限責任公司,河北 保定 071000)
常用搜索引擎的局限性與改進策略
——基于百度與goog l e對比的視角
李伶思1,趙 興1,劉 孟2
(1.廣西民族大學 管理學院,廣西 南寧 530006;2.河北新華第一印刷有限責任公司,河北 保定 071000)
分析了百度與Google兩大搜索引擎的不足之處,在對比分析的基礎上,結合搜索引擎的具體情況提出了進一步完善其功能的建議.
搜索引擎;Google;Baidu;差異比較;提升策略
1.1 百度的不足之處
至目前為止,在滿足用戶的搜索需求上,百度依然存在一些令人遺憾的地方.
首先,搜索結果中廣告、垃圾網(wǎng)站和死鏈比較多,如搜索網(wǎng)頁鏈接打開后卻標示著“該鏈接已被刪除”的信息或“請嘗試其他鏈接”等提示,網(wǎng)民不能第一時間獲取自己想要的信息.
其次,商業(yè)味太重.百度搜索引擎的有濃厚的商業(yè)味.你搜索的關鍵字的首頁排名基本被出價高的企業(yè)占據(jù)了,很難找到你需要的真正自然搜索的結果,百度的搜索排名技術不夠權威.關鍵詞搜索結果排名時,關鍵詞的匹配度所占的比重太低,難以找到想要的咨訊.時常使用百度的用戶,可能會感覺到,搜索的結果中,大多是不相干的,為什么會呈現(xiàn)這種景象?那是因為百度較器重權重,而淡化了關鍵詞的匹配度.
1.2 Google的不足之處
Google是一種非常優(yōu)秀的搜索引擎,通常情況下,只要輸入幾個相關的詞,用戶就能在搜索結果的第一頁中找到想要的結果,這就是Google受到廣大用戶青睞的理由.但是Google本身也不是完美無缺,其不足對檢索結果造成一定的影響.
首先,死鏈率比較高是Google最大的問題.Google是功能強大,易用性最強的搜索網(wǎng)站,搜索速度快而且提供了最豐富的高級搜索功能.死鏈率比較高是Google最大的問題,中文網(wǎng)站檢索的更新頻率不夠高,不能及時淘汰已經(jīng)過時的鏈接.雖然通過“網(wǎng)頁快照”功能,可以減少目標頁面不存在的現(xiàn)象,但Google的“網(wǎng)頁快照”功能在國內經(jīng)常出現(xiàn)不可訪問的問題,令用戶無所適從.
其次,信息更新速度不夠快Google一般每隔28天派出“蜘蛛”程序檢索現(xiàn)有網(wǎng)站一定IP地址范圍內的新網(wǎng)站,而登錄Google的周期一般為3個星期(從提交網(wǎng)站到被索引).由于Google系統(tǒng)數(shù)據(jù)庫龐大,造成數(shù)據(jù)的更新速度無法大幅度提高,從而無法滿足部分用戶對時效性的要求.為此,Google在原來每月更新的基礎上,對一部分Page Rank值較高的網(wǎng)頁和更新較快的網(wǎng)站加快其數(shù)據(jù)更新速度,以保證這部分數(shù)據(jù)的時效性.
再其次,檢索結果有一定重復.一方面同樣的信息內容被不同的網(wǎng)站所收錄,另一方面來自同一站點不同頁面的信息分條顯示,在計算查準率時,Google視上述網(wǎng)頁為不同的檢索結果.檢索結果重復容易造成信息污染,影響檢索效果.
2.1 繼續(xù)重視技術創(chuàng)新
到2013年,百度已經(jīng)走過了13個年頭,而今天中國互聯(lián)網(wǎng)正在經(jīng)歷從PC向移動的轉型.針對外界對百度創(chuàng)新不足的質疑,李彥宏力推其三個核心產(chǎn)品:語音搜索、圖像處理技術——人臉搜索、個人云.作為搜索領域最早的參與者之一,李彥宏反復強調自己的技術基因,指出技術的積累是一切互聯(lián)網(wǎng)產(chǎn)品的基礎.他說:“云計算、語音、圖像、自然語言理解等一系列技術會成為我們引領產(chǎn)業(yè)的關鍵.”
多年來百度堅持構建扎實的技術體系,這些面向未來的技術和產(chǎn)品的布局,正在日益顯現(xiàn)出成果:比如在語音領域,項目僅僅正式啟動了3個多月,就上線了業(yè)界領先的語音搜索.憑借語音、NLP(自然語言處理)這些技術的支持,百度的語音助手僅用了55天就完成了開發(fā)、順利上線;同樣的技術也已經(jīng)應用在全球首部聲紋解鎖的智能手機上.再比如圖像處理技術,百度只用了1個月時間,就上線了全世界首個全網(wǎng)的人臉搜索產(chǎn)品.
互聯(lián)網(wǎng)發(fā)展到今天,它的靈魂依然沒有改變——技術創(chuàng)新永遠是這個行業(yè)的核心驅動力.面對競爭對手,李彥宏抨擊了“渠道至上”的看法:“我們不會忽視渠道的價值,但是百度堅信,技術創(chuàng)新永遠是用戶需求的最根本的動力”.
百度繼續(xù)堅持語音、圖像等潛力十足的技術方向,不斷加大投資,吸引頂尖精英,進一步拉開百度和競爭對手的差距.2013年,百度建立歷史上第一個研究院,這個研究院初期將專注于Deep learning,就是深度學習的技術,百度將這個研究院叫做Institute of Deep Learning,簡稱IDL.百度會吸引這個領域里球最頂尖的高手陸續(xù)加盟,為新一年的產(chǎn)品和業(yè)務發(fā)展提供最堅實的基礎!百度希望IDL會成為像AT&T-Bell labs,Xerox PARC這樣的頂尖的研究機構,為中國,為全世界的創(chuàng)新歷史再添一筆濃墨重彩!
2.2 繼續(xù)完善傳統(tǒng)網(wǎng)頁檢索
有人說:“網(wǎng)頁檢索已經(jīng)沒有什么改變的空間了.”其實不然,百度的首要任務就是滿足用戶的各種檢索需求,百度更是沒有忘記初衷,在大搜索團隊的努力下,基于“知識圖譜”的新型網(wǎng)頁搜索結果正在沖擊用戶的視覺感官,也成為了網(wǎng)頁搜索新的標桿.
能在網(wǎng)頁的第一頁給用戶呈現(xiàn)最有價值的內容一直是百度所追求的.那就要求百度要對網(wǎng)站的內容取其精華去其糟粕.要解決這一問題,首先要思考哪些網(wǎng)站沒有價值,然后進行篩選.百度在前段時間清理了大量的低質量網(wǎng)站,這次大面積的調整,最初的時候只是封殺了一些嚴重違規(guī)的低質量網(wǎng)站,后來又進行了一次比較全面的圍堵.但是那些高質量的權威網(wǎng)站,基本上沒有受到任何的影響.可以看出百度打擊垃圾,作弊網(wǎng)站的決心是非常堅決的.
隨著百度技術的不斷成熟,相信今后還會有網(wǎng)站會被無情的清除,消失在百度搜索的結果之中.因為今后的百度會提高其搜索引擎的技術,讓搜索更加的智能化.最終實現(xiàn)在百度搜索的時候,再也不會出現(xiàn)垃圾信息,也就是留住精華去掉糟粕,只有這樣才會大大提高用戶體驗.
2.3 構建無線應用布局,更加注重用戶體驗
總有一些聲音質疑:“百度在移動互聯(lián)網(wǎng)時代是否還能保住入口地位?”但是今天,無線搜索已經(jīng)迅速崛起,成為無線互聯(lián)網(wǎng)第二大應用,百度的市場份額也正在繼續(xù)擴大.百度以搜索框和瀏覽器為核心的手機客戶端產(chǎn)品,只用了一年時間,日活躍用戶就超過了千萬.這種為每一分用戶體驗,把事情做到極致的精神,已經(jīng)融入了百度人的血脈.無數(shù)的百度人通過不斷的努力,為用戶帶來更精益求精的服務.
百度發(fā)展到今天,已經(jīng)不是一家單純追求自身發(fā)展的公司.百度的工作,往往關系到更大范疇——社會的幸福和進步.PC互聯(lián)網(wǎng)時代,百度改變了人的生活方式、提高了企業(yè)的經(jīng)營效率.在移動時代,百度依然會和廣大的用戶和企業(yè)客戶在一起,擁抱每一點變化、做好每一次創(chuàng)新. 2.4不斷升級完善
由于Google系統(tǒng)的技術復雜性,以及互聯(lián)網(wǎng)信息資源的不斷增加,Google系統(tǒng)承受的搜索壓力也不斷升級.只有不斷地開發(fā)研究新的技術,去完善和升級Google系統(tǒng),才能滿足用戶日益增加的檢索需求.目前Google正致力于以下幾個主要方面的努力:
由于互聯(lián)網(wǎng)中的網(wǎng)頁在不斷地增加,而且有的網(wǎng)頁在不斷地進行更新,為了避免系統(tǒng)的大量重復工作,Google正在設計更加“聰明”的遍歷搜索算法,可以判斷已經(jīng)索引過的網(wǎng)頁不至于被系統(tǒng)重新分析;更新的網(wǎng)頁需要系統(tǒng)重新索引分析;以及索引分析互聯(lián)網(wǎng)中新增加的網(wǎng)頁.
由于Google系統(tǒng)數(shù)據(jù)庫的龐大,使得數(shù)據(jù)的更新速度無法大幅度提高,從而無法滿足部分用戶的時效性要求. Google也在努力改善其數(shù)據(jù)的更新速度,并且已經(jīng)有所突破.目前,Google在原來每月更新的基礎上,對一部分Page Rank值較高的網(wǎng)頁和更新較快的網(wǎng)站提高了數(shù)據(jù)的更新速度.
Google對其Page Rank技術也正在做一些改進.由于某個網(wǎng)頁可能不僅僅只有一個主題內容,那么網(wǎng)頁的Page Rank值就不能準確反應網(wǎng)頁的所有主題內容.因此,Google將根據(jù)網(wǎng)頁的多個主題分別給出幾個主題方面的Page rank值.在檢索結果排序時,將根據(jù)檢索詞的相關主題來參考相應主題的Page Rank值,這樣,網(wǎng)頁的Page Rank值有了“個性化”權值,因此,網(wǎng)頁的Page Rank值可以更準確地服務于檢索結果的排序,從而更好地滿足用戶的檢索需求.
〔1〕談大軍,林明茵,葉賽.中文Google和百度的排序方式與檢索效率比較分析[J].現(xiàn)代情報,2005(03):87-89+92.
〔2〕王煉.從用戶角度評價網(wǎng)絡搜索引擎[J].情報科學,2005(03):457-463.
〔3〕黃琛.十大著名中文搜索引擎的特征及其比較[J].現(xiàn)代情報,2006(01):69-71.
〔4〕姚明,余波,劉孟.基于知識地圖的廣西文化信息資源開發(fā)構想[J].湖北第二師范學院學報,2013(09):130-132.
〔5〕羅賢春,謝陽群.基于全信息認知的信息檢索模型整合[J].圖書情報工作,2006(06):46-50.
〔6〕馬麗.谷歌能否讓百度過時[J].法人雜志,2009(05):80-81+96.
〔7〕曾定山.Google與Baidu搜索引擎比較研究[J].科技信息, 2008(35):852+858.
TP393
A
1673-260X(2014)04-0054-02
本文系廣西民族大學研究生社會調查項目(gxun-dc201309)的資助成果