人物搜索鋪開了一張包羅萬象的大網(wǎng),這種全新的使用體驗,就像DOS系統(tǒng)到Windows的革命一樣。
有人的地方就有江湖,人物搜索的江湖越來越熱鬧了。
人物搜索與一般的搜索引擎服務(wù)不同,內(nèi)容只限于和人有關(guān)的信息。幾乎只要是在互聯(lián)網(wǎng)上出過名的人,就有可能搜到他或她的人際關(guān)系圈、所在的組織機構(gòu)、頭銜、作品信息等等。而除了具體的人名,還可以通過關(guān)鍵詞來匹配相關(guān)的人物,比如在搜索“最?!钡娜藭r,就會出現(xiàn)具備相關(guān)特征的人物結(jié)果,如最牛的釘子戶某某、最牛的散戶某某、最牛的校長某某某等。
從全球的范圍來看,目前微軟占整個互聯(lián)網(wǎng)搜索市場的份額還不到10%,從搜索業(yè)務(wù)得到網(wǎng)絡(luò)廣告銷售份額僅為5%,但這并不妨礙微軟在谷歌顧及不到的人物搜索上大有作為。
8月中旬,微軟發(fā)布了“追趕谷歌”戰(zhàn)略。微軟負責搜索與廣告的高級副總裁Nadella表示,新增投資和新的深度搜索技術(shù)將幫助微軟從搜索市場巨頭谷歌(www.g.cn)手中獲取份額。
雖然Nadella并未表明具體的產(chǎn)品和策略,人立方的推出意味著微軟在中國搜索市場已經(jīng)有所行動了,第一個版本的推廣有種“潤物細無聲”的感覺,隨著使用人數(shù)的增多和用戶口口相傳,這種后發(fā)先至的壓力讓谷歌、百度無法再熟視無睹。
大玩具
微軟人立方關(guān)系搜索目前最大的亮點在于趣味性。
從超過十億的中文網(wǎng)頁中自動的抽取出人名、地名、機構(gòu)名以及中文短語,并且通過算法自動計算出它們之間存在關(guān)系的可能性,同時索引了支持它們之間關(guān)系的網(wǎng)頁文字。無論是曾經(jīng)在網(wǎng)上曝光過的親朋好友,或者人們飯后談資里出現(xiàn)過的花邊緋聞,都可以通過連線產(chǎn)生交集表現(xiàn)出來。經(jīng)過加工處理的結(jié)果用可視化的方式展現(xiàn),打破了人們常規(guī)的從海量重復(fù)的搜索結(jié)果中撿取有效信息的麻煩。
奧運期間,微軟人立方搜索推出中國運動員的“全家?!?,這個獨具特色的人物關(guān)系圖像是散落在銀河中的星座。每個人以一個圓圈代表,以不同的人物用不同的顏色體現(xiàn)出來,顏色越不同,人物關(guān)系關(guān)聯(lián)性越弱。以搜索對象為圓心,從每個圓圈向四周散射出若干連線,發(fā)射出的輻射線條多少和半徑體現(xiàn)人物的熱度和受關(guān)注的程度。作為微軟亞洲研究院的研究員,聶再清博士把人立方的開發(fā)看成一種偶然,并沒有過多的考慮商業(yè)應(yīng)用的因素?!拔④浀腖ibra學(xué)術(shù)搜索(libra.msra.cn)做得很成功,后來,為了讓這種應(yīng)用更加大眾化,我們在2006年5月份開始做人物搜索。人立方這個名字也是我們一位同事在午飯閑聊時想到的,后來越發(fā)覺得貼切?!甭櫜┦繉τ浾哒f。三人成眾,立方代表冪的加乘,而這既體現(xiàn)了六度分隔的無限關(guān)系,也預(yù)示了未來搜索引擎將吸收網(wǎng)友的力量。
微軟這個獨具賣點的人物關(guān)系圖采用的是Adobe(www.adobe.com.cn)的Flash而不是微軟自身的Silverlight。聶博士不以為意,“從做研究的角度來考慮,F(xiàn)lash符合當時做程序的人的使用習(xí)慣,而且Silverlight當時還只是個Beta版本,沒有正式發(fā)布。未來實現(xiàn)上,人立方搜索關(guān)系圖會改回Silverlight?!?/p>
繪圖譜
“人立方與傳統(tǒng)搜索技術(shù)的不同在于傳統(tǒng)的搜索引擎不會把人在互聯(lián)網(wǎng)上的信息總結(jié)得那么好。從幾十億的網(wǎng)頁中自動地抽取結(jié)構(gòu)化的知識并用于搜索中是一次全新的嘗試。將來,我們會把索引網(wǎng)頁從10億擴大到100億。那時我相信絕大部分的用戶都會用人立方來查詢與人相關(guān)的互聯(lián)網(wǎng)信息。”聶再清充滿信心地說?,F(xiàn)在人立方抽取網(wǎng)頁中人名的準確率是97%,其中的主要障礙就是搜索對象的身份識別問題,即如何解決重名的現(xiàn)象。
在姚明的關(guān)系圖譜中,出現(xiàn)了麥克格雷迪和麥蒂兩個關(guān)系,這兩個不同的名字指向的是同一個人。在其中的一條關(guān)系線中,姚明和李宇春因為“兄妹”的關(guān)系聯(lián)系了起來,因為“人們都說姚明的妹妹是李宇春?!币詫O悅為例,當在搜索框中輸入“孫悅”時,關(guān)系圖中可以看到與孫悅有關(guān)的好友、戀人、隊友等人際關(guān)系。同一個名字指向的是兩個現(xiàn)實生活中不同的人,一個是歌手,一個是籃球隊員。
針對這種問題,聶再清表示,人立方的第二個版本會解決掉重名人的身份識別難點,抓取信息的時候識別有價值的網(wǎng)頁,而不是抓取BBS上的口水帖和虛假信息。
搜商
以人為對象的信息搜索繞不開隱私權(quán)的問題。
2007年9月,F(xiàn)acebook(www.facebook.cn)宣布允許非會員公開搜索用戶信息。這些信息包括用戶的個人檔案和照片等,而用戶也可以通過改變隱私設(shè)置停止搜索引擎索引其信息,現(xiàn)在的校內(nèi)網(wǎng)也具有這項功能。與微軟和雅虎(www.yahoo.cn)的人物搜索不同,SNS網(wǎng)站提供的人物搜索服務(wù)基于用戶對自身信息的設(shè)置并且可以隨時修改,這與抓取網(wǎng)頁的搜索方式相比多了些可控制的因素。國內(nèi)的人物搜索網(wǎng)站還有中國人同學(xué)錄搜索(alumni.chinaren.com)和百度空間搜人找人(hi.baidu.com/sys/uquery)等。
Spock網(wǎng)站的用戶可以添加信息或?qū)梢运训饺宋锏恼掌ag、網(wǎng)上資料、相關(guān)人物等的準確度進行投票,自己可以“認領(lǐng)”這些信息,進行修改。
“人物搜索會更多地幫助那些無心找隱私的人。如果不希望被放上去,可以選擇不被檢索?!甭櫾偾逭f。
微軟數(shù)次提出收購雅虎搜索業(yè)務(wù)可以證明在搜索市場上的野心。而人物搜索網(wǎng)站不單要解決同名識別等技術(shù)問題,還需把一個成熟的市場培養(yǎng)起來,將用戶一時興起的八卦心態(tài)轉(zhuǎn)化為穩(wěn)定的使用習(xí)慣。
在人物搜索的市場上,拋開錯綜的商業(yè)布局,微軟亞洲研究院最終的目標就是把網(wǎng)頁搜索一行行的展示,變成對象搜索平面關(guān)系的鋪展,“用戶這種不同的使用體驗對于搜索引擎來說,就像DOS系統(tǒng)到Windows的革命一樣。”