百姓網(wǎng)CEO王建碩最近發(fā)表了文章《2011年注定是中國互聯(lián)網(wǎng)第三春》,根據(jù)他提出的五年周期理論,每隔五年會有一批人出來創(chuàng)業(yè),就會有一批風險投資周轉(zhuǎn)完畢轉(zhuǎn)而支持新的項目,這樣算來,在2005這個web2D的奇跡年之后,2011年必將會有新東西爆發(fā)。王建碩看好的概念是“移動互聯(lián)網(wǎng)”,而著名IT博客“對牛亂彈琴”的主人Keso卻不看好2011年的爆發(fā),因為現(xiàn)有的web2.0公司還在尋求能真正賺錢的模式呢。
但有一個東西很可能成為未來幾年互聯(lián)網(wǎng)公司的新主攻方向:推薦引擎。
踐行“長尾理論”的第三個法則
今天的年輕人中,可能任意兩個人在24小時內(nèi)看過的節(jié)目和新聞都完全不同,每個人都能根據(jù)自己的興趣找到特有的一套內(nèi)容,這就是web20的力量。對2005年的創(chuàng)新公司來說,最重要的革命性思想可能是2004年《連線》雜志主編Chirs Anderson提出的所謂“長尾”理論——哪怕是最不流行的東西也會有人喜歡,這是小眾市場的時代。
而互聯(lián)網(wǎng),甚至可以說整個社會的一個大趨勢,是人們面臨的選擇越來越多。過去是全國上下看一個電視劇,而現(xiàn)在中國每年生產(chǎn)1.5萬集電視劇,很多甚至根本沒有播出的機會。19g4年,美國總共有50萬種不同的商品出售,而現(xiàn)在僅僅在亞馬遜網(wǎng)站上就有超過240萬種商品。長尾和web20,正是選擇越來越多帶來的現(xiàn)象。
Anderson提出長尾的三個法則,第一是讓所有東西都可以被獲得;第二是讓這些東西賣得很便宜;第三是幫我找到它。前兩點可以說已經(jīng)做到而且做得很好了,現(xiàn)在的關(guān)鍵是第三點,怎么幫助用戶作出選擇。這就是推薦引擎的作用了。
傳統(tǒng)的推薦引擎太落后了
據(jù)市場分析公司Forrester統(tǒng)計,那些在電子商務網(wǎng)站被推薦過商品的用戶,有三分之一的人會根據(jù)這些推薦買件東西。任何廣告都不可能做到這樣的成績。所以推薦引擎不但是web20的最核心技術(shù),更是廣告的終極形態(tài)。我們可以設想,當一個人面對購物網(wǎng)站上幾十萬種商品,有多大可能沒有一件是他愿意買的呢?這個人空手而歸的最重要原因,也許是那個他一定會買的商品沒有被他發(fā)現(xiàn)。
多年以前,我曾經(jīng)在亞馬遜買過一本《量子力學》,這是物理系研究生的教材,結(jié)果是很長一段時間內(nèi)亞馬遜就不停地向我推薦各種物理教材。這個推薦引擎想得非常周到,只可惜它不知道我早就不需要這種教材了?,F(xiàn)在當當網(wǎng)買書,每一本書的關(guān)聯(lián)推薦往往都是一些流行熱賣的相似圖書,這些書我早就知道而沒有買,難道會因為看到推薦就買么?人們需要的是個性化的、恰到好處、最好還有一點驚喜的推薦,傳統(tǒng)的推薦引擎太落后了。
推薦比聯(lián)想要困難得多
在線DVD租借提供商Netflix有一個算法保密的推薦引擎Cinematch,它根據(jù)用戶對電影的打分來判斷他還可能喜歡什么電影。這是一個相當優(yōu)秀的引擎一亞馬遜可以免費給你推薦,而Netflix的電影推薦服務只給付費用戶。但Netflix并不滿足,他們在2006年提出懸賞,希望有人能把推薦引擎的性能提高10%,獎金是100萬美元??墒沁@獎金直到2009年才被一個七人小組得到,其中包括兩名ATT(美國電話電報公司)的科學家。
傳統(tǒng)的推薦引擎主要根據(jù)統(tǒng)計用戶記錄來發(fā)現(xiàn)關(guān)聯(lián),重點是“買過這物品的人還買了什么物品”。這個原理簡單,但它的缺點在于推薦的都是一些相似的東西,可是它們必定有很多人買過了,它無法制造驚喜。這可能也是很多人更愿意逛書店的原因之一,在書店里往往會偶遇一些自己完全想不到,而且沒有名氣的好書。另一方面,傳統(tǒng)的引擎不知道一本書或者一個電影到底好在哪里,為什么人們會喜歡,以至于無法做出更精確的推薦。
“音樂基因緝計劃”
但現(xiàn)在有兩個新的推薦技術(shù),堪稱是推薦引擎20。
Pandora是一個專門致力于歌曲推薦的公司,它的辦法是分析歌曲。在Pandora的算法中,每一首歌都有400種不同的屬性,他們聘請一位音樂專家,使用20分鐘的時間給這首歌的所有可能的屬性打分。這樣一來每一首歌都被一組數(shù)標記了屬性。Pandora的目標是建立一個包含所有歌曲的數(shù)據(jù)庫,稱之為“音樂基因組計劃”。他們每月能分析1萬首歌曲,在過去10年之內(nèi)已經(jīng)分析了74萬首。
這個推薦算法的原理是,如果你表示喜歡一首歌,程序會自動尋找跟這首歌的“基因”相同的歌曲,并賭你也會喜歡。Pandora現(xiàn)在已經(jīng)是iPhone和iPod中最流行的應用之一,隨著一首歌的播放,你可以隨時表示喜歡或是不喜歡,程序通過網(wǎng)絡自動提供各種你可能喜歡的歌曲。
Pandora的獨特之處在于它完全根據(jù)一首歌的本身屬性和你的喜好記錄來判斷你喜不喜歡,而不考慮別人喜不喜歡。顯而易見的好處是也許這首歌并不流行,可是你就是喜歡。Pandora更“了解”歌曲。統(tǒng)計表明,在使用過Pandora的人中,45%買了更多音樂,只有1%的人因為Pandora減少了音樂購買。
直接分析每一個人
另一個推薦引擎公司Hunch有更大的野心,它的做法是直接分析人。Hunch并不去分析歌曲、電影或者書有什么屬性,它分析每個用戶有什么屬性。你喜歡百事可樂還是可口可樂?你喜歡藍色的筆還是黑色的筆?通過大量的統(tǒng)計分析,HunCh發(fā)現(xiàn),如果你相信UFO存在,那么你更有可能喜歡百事可樂;如果你有一個MBA學位,那么你更有可能喜歡藍色的筆。
現(xiàn)在去Hunch的網(wǎng)站,它允許你用fa-Cebook或者twitter的賬號登陸,然后它會問你20個看上去與電影和書籍一點關(guān)系都沒有的問題。這些問題包括你住在城市、郊區(qū)還是鄉(xiāng)下,你會不會自己安裝家庭影院的音箱系統(tǒng),你能不能連續(xù)做10個引體向上,喜歡吃什么樣的炸薯條等。根據(jù)這些信息,它將會向你推薦5本雜志、S部電視劇和5本書。我很少看電視劇,但Hunch向我推薦的5本雜志中有2本是我已經(jīng)訂閱了的,5本書里有1本是我看過的,雖然剩下的我不怎么感興趣,但這已經(jīng)是相當不錯的準確度了。
Hunch的雄心壯志便是給每一個用戶建立一個個人喜好檔案,然后那些電子商務公司就會向它購買完全基于個人喜好的推薦服務。
這一回沒法山寨了
中國顯然需要高性能的推薦引擎,而且考慮到國人的喜好與西方用戶未必相同,這種推薦引擎還必然是具有中國特色的。
推薦引擎會在中國有很大的發(fā)展,但是其中也有困難。首先,“煉成”一個好的推薦引擎需要大量的真實交易數(shù)據(jù),而這些數(shù)據(jù)往往備公司保密,是一種稀缺資源。Netflix是為了舉辦100萬美元的優(yōu)化大獎,才公開了部分用戶的電影評價數(shù)據(jù)。Pandora則是采用勞動密集型的做法,雇人給每一首歌設定屬性,而且費時多年才開始盈利。很難想象淘寶或者當當會把自己網(wǎng)站的交易記錄交給—個第三方公司去研究。
更重要的是,推薦引擎技術(shù)很難山寨,它不僅僅是一個編程的問題,而必須請統(tǒng)計學家、藝術(shù)家和工程師合作研究。中國在2005年爆發(fā)出來的web2.0公司,與它們借鑒的歐美公司最大的不同也許僅僅是創(chuàng)意,而現(xiàn)在則到了需要核心技術(shù)的時候。幾個大學本科退學生甚至高中生,想出一個好的創(chuàng)意,寫幾個月程序,然后就能拉到風險投資,說創(chuàng)業(yè)就創(chuàng)業(yè),說上市就上市的時代已經(jīng)快要結(jié)束了。
從web20到推薦引擎20,必定是互聯(lián)網(wǎng)公司從低端到高端的一個進化。