Pagerank是Google排名運(yùn)算法則(排名公式)的一部分,是Google用來標(biāo)識網(wǎng)頁的等級/重要性的一種方法,也是Google衡量一個網(wǎng)站好壞的唯一標(biāo)準(zhǔn)。在糅合了諸如Title標(biāo)識和Keywords標(biāo)識等所有其他因素之后,Google通過pagerank來調(diào)整結(jié)果,使那些更具“等級/重要性”的網(wǎng)頁在搜索結(jié)果中的排名獲得提升,從而提高搜索結(jié)果的相關(guān)性和質(zhì)量。
見到袁雨來的時候,他正在和團(tuán)隊完善產(chǎn)品。他們總共十幾個人,在中關(guān)村租了一套Loft結(jié)構(gòu)的公寓,專心開發(fā)基于社交網(wǎng)絡(luò)的應(yīng)用。
從表面看,他們和其他互聯(lián)網(wǎng)團(tuán)隊無異,但在袁雨來眼里,他們做的事情門檻很高:通過社交網(wǎng)絡(luò),利用高效的算法獲知用戶的喜好,從而為其薦歌。形象地說,他們知道你喜歡聽什么樣的歌曲,也知道你喜歡的歌曲在哪里,然后基于社交關(guān)系把音樂推薦給你。
走出象牙塔
袁雨來的產(chǎn)品叫音貝網(wǎng),新版在8月24日上線后已經(jīng)有了20萬用戶。音貝不判斷歌曲的舒緩、搖滾等屬性,而是根據(jù)一些原則為歌曲編織一個網(wǎng)絡(luò)——在用戶關(guān)系網(wǎng)和歌曲組織網(wǎng)之間相互映射,最終圈定用戶喜歡的歌曲。
要實現(xiàn)這個目的,就需要過硬的算法。在這方面,音貝具有自己的優(yōu)勢,袁雨來兩年前畢業(yè)于清華大學(xué),獲有高性能計算博士學(xué)位。他的團(tuán)隊中有4個人研究算法,其中包括一個他在清華的同學(xué)。
面對《創(chuàng)業(yè)家》,袁雨來更愿意用“社交數(shù)據(jù)挖掘”來形容自己的項目,這是一個專業(yè)性極強(qiáng)的工作。國內(nèi)一些高校在對此進(jìn)行研究,因此很多團(tuán)隊都和他們的母校有著天然的聯(lián)系。
以清華大學(xué)為例,計算機(jī)科學(xué)與技術(shù)系的唐杰和陳文光教授都是社交網(wǎng)絡(luò)的研究者,袁雨來正是畢業(yè)于這個系。此外,在電子科技大學(xué)計算機(jī)學(xué)院,29歲的博導(dǎo)周濤也是這方面的專家,這位本科就開始“帶”博士生的牛人精于數(shù)據(jù)算法,同時也是電商營銷公司百分點的首席科學(xué)家。周濤的學(xué)生黃宇于去年創(chuàng)辦了“唯朋友”,這是一個基于微博,促進(jìn)你和好友之間的互動,以加深社交關(guān)系的數(shù)據(jù)挖掘項目。
此外,北大、北航、上海交大、哈工大都有師生研究社交網(wǎng)絡(luò),他們?yōu)閲鴥?nèi)的社交數(shù)據(jù)挖掘提供了學(xué)術(shù)支持和項目儲備。但另一方面,這也促成了這個群體的小眾特征,畢竟一個復(fù)雜的算法不是隨便哪個人都能做的。
某種程度上,這些項目還帶有實驗性質(zhì)。比如哈工大博士于霄創(chuàng)辦的知微,就脫胎于哈工大的社會網(wǎng)絡(luò)與數(shù)據(jù)挖掘聯(lián)合實驗室。清華大學(xué)計算機(jī)副主任陳文光教授帶了一個項目,叫社會化網(wǎng)絡(luò)分析平臺,他們和海銀資本共同搭建了一個數(shù)據(jù)池,陳教授的研究成果可以直接為海銀資本孵化的項目調(diào)用。
“社交網(wǎng)絡(luò)在全世界都是個新興科學(xué),社交網(wǎng)絡(luò)這個詞都沒幾年的歷史”,海銀資本創(chuàng)始合伙人王煜全近幾年一直在研究社交網(wǎng)絡(luò),堅信這是互聯(lián)網(wǎng)的發(fā)展趨勢。他認(rèn)為,互聯(lián)網(wǎng)自誕生那天起就是一個社交網(wǎng)絡(luò),只不過是基于物理性質(zhì)的連接,Google的pagerank本質(zhì)上就是個社會化算法,只不過是用這個社會化算法處理文本和網(wǎng)頁,用社會化算法去處理人和人背后的信息,原理其實都是一樣的。
樂薦網(wǎng)絡(luò)創(chuàng)始人戴虎寧建了一個專門討論社交數(shù)據(jù)挖掘的QQ群,里面大約有300人,基本囊括了中國研究社交數(shù)據(jù)的高手,里面好多人沒有創(chuàng)業(yè),好多還是學(xué)生?!俺鰜韯?chuàng)業(yè)的估計30支團(tuán)隊到頭兒了”,王煜全說,“我覺得他們是未來的比爾.蓋茨,具體是誰我不知道,但一定在這堆人里?!?/p>
新的顛覆者?
Twitter、Facebook、Foursquare等的出現(xiàn),真正把人們帶入了社交網(wǎng)絡(luò)時代?!吧缃痪W(wǎng)絡(luò)在科技上有巨大的提升空間,比如對一個人的精確分析,沒有社交網(wǎng)絡(luò)就永遠(yuǎn)達(dá)不到那種精度?!蓖蹯先f這句話的背景是:數(shù)據(jù)挖掘早已有之,但社交網(wǎng)絡(luò)的數(shù)據(jù)挖掘還是個新課題。
隨著用戶的瘋狂增長,社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)量是驚人的。每過一分鐘,F(xiàn)licker上會有3125張照片上傳,F(xiàn)acebook上新發(fā)布70萬條信息,YouTube上則有200萬次點擊觀賞。圖片、聲音、文字以及背后的用戶習(xí)慣和軌跡構(gòu)成了互聯(lián)網(wǎng)上的數(shù)據(jù)資源,社交網(wǎng)絡(luò)與大數(shù)據(jù)是天生的親密伙伴。
這些數(shù)據(jù)價值密度不高,要挖掘出有用的那部分是個力氣活。以Zynga為例,這是一家寄生在Facebook上的社交游戲公司,它的游戲強(qiáng)調(diào)好友之間的合作。為了黏住用戶,Zynga每天大約要收集600億個數(shù)據(jù)點,包括人們一般玩多久游戲,什么時候玩,喜歡購買什么游戲物品等。從某種意義上說,Zynga可能比你自己還清楚地知道你的潛意識決策。
在清華大學(xué)陳文光教授看來,社交網(wǎng)絡(luò)是下一代應(yīng)用層面的互聯(lián)網(wǎng)?!暗谝淮茄呕?、新聞門戶等,第二代是搜索引擎,第三代就是社交網(wǎng)絡(luò),它不僅是連接信息,更是連接人,會和社會學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)有很多交互的地方,從研究的角度來講是非常有意思的事兒?!?/p>
今年上半年,美國曼徹斯特大學(xué)的研究團(tuán)隊做了一個實驗,他們通過分析Twitter上的數(shù)據(jù),提前8天預(yù)報了流感的爆發(fā)。在一個月內(nèi),研究小組收集了440萬個Twitter留言的地理定位數(shù)據(jù)標(biāo)簽,使用一種特殊的算法進(jìn)行處理(類似語義分析),從而預(yù)測不同地區(qū)的流感發(fā)病率。
這似乎印證了《爆發(fā)》一書作者、全球復(fù)雜網(wǎng)絡(luò)研究權(quán)威巴拉巴西教授的觀點。他基于社會化大數(shù)據(jù)基礎(chǔ),認(rèn)為人類行為有93%是可以預(yù)測的。如果確實如此,那么社交網(wǎng)絡(luò)中無疑蘊(yùn)藏著巨大的商業(yè)價值。
在 《創(chuàng)業(yè)家》采訪的團(tuán)隊中,新影數(shù)訊(iFilm+)擅長預(yù)測。他們通過對微博和過往資料數(shù)據(jù)的分析來預(yù)測電影票房,同時給影片提供營銷建議。創(chuàng)始人劉晗透露,其票房預(yù)測準(zhǔn)確度可達(dá)85%。他們的做法是首先確定影響票房的變量,如演員、檔期、上映時間、首映地等,一些看似與數(shù)字無關(guān)的事項都被按規(guī)則加以量化;然后,他們從統(tǒng)計年鑒中查到了1990年以來上映的四五百部電影數(shù)據(jù),讓計算機(jī)逆向推導(dǎo)出定量,從而確定公式。預(yù)測時把社交網(wǎng)絡(luò)中反映出的演員熱度、電影關(guān)注度以及預(yù)定的上映時間等變量填入公式,進(jìn)行測算。
真實的算法遠(yuǎn)比上面的描述更復(fù)雜。劉晗演示時,筆記本屏幕上密密麻麻布滿了數(shù)學(xué)符號,但電腦要精確計算出人類的行為,仍需繼續(xù)探索?!邦A(yù)測準(zhǔn)確度提升1%,都需要做大量復(fù)雜的工作,必須找到并引入新的變量才行。”劉晗說。
劉晗所面臨的挑戰(zhàn),是社交數(shù)據(jù)挖掘者們共同的問題,即便在美國,算法也沒有完全突破,這為中國的創(chuàng)業(yè)者們提供了機(jī)遇。王煜全把中國偏后期的投資比喻為“拼爹”,以前的互聯(lián)網(wǎng)投資是“拼經(jīng)驗”,前一段流行“拼干爹”,就是大VC靠砸錢來砸市場,到了社交網(wǎng)絡(luò)時代就要“拼技術(shù)”,因為互聯(lián)網(wǎng)的核心本質(zhì)就是技術(shù),而有算法支持的社交網(wǎng)絡(luò)產(chǎn)品是無法抄襲的,即便把國外的算法搬到國內(nèi)也會水土不服?!霸谏缃痪W(wǎng)絡(luò)上,中國不會落后美國太久了,中國肯定會迎頭趕上?!?/p>
王煜全認(rèn)為,未來只有一個叫社交網(wǎng)絡(luò)的互聯(lián)網(wǎng),真正的社交網(wǎng)絡(luò),其實就是人際關(guān)系網(wǎng),凡是沒疊加社交關(guān)系的1.0式的網(wǎng)站,理論上都會被顛覆。他的理由有三點:第一,沒有社交關(guān)系就沒有個性化,就不知道用戶行為會怎么變化;第二,傳統(tǒng)網(wǎng)站需要內(nèi)容提供者,而在社交網(wǎng)絡(luò)的UGC時代,通過互動激發(fā)內(nèi)容,根本不需要有內(nèi)容提供者;第三,社交是人類最本質(zhì)的生存需求,社交能力的高低很大程度上決定人成功與否。目前Facebook的平均好友數(shù)是130人,未來隨著算法的演進(jìn),人類的社交能力將出現(xiàn)質(zhì)的飛躍。
賭未來
中國目前最具影響力的社交網(wǎng)絡(luò)是新浪微博。自2009年上線以來,它已經(jīng)成為聚攏了3.68億用戶的開放平臺。在《創(chuàng)業(yè)家》6月推出的《開放平臺TOP10》評選中,新浪微博被開發(fā)者們評為“最具開放度”的平臺。不同層次的API接口可以調(diào)用新浪微博的內(nèi)部數(shù)據(jù),為開發(fā)應(yīng)用提供便利。
《創(chuàng)業(yè)家》見到的社交網(wǎng)絡(luò)應(yīng)用團(tuán)隊,大多數(shù)都接入了新浪微博,但他們?nèi)匀槐г剐吕说拈_放度不夠高。黃宇在開發(fā)“唯朋友”的過程中,需要大量調(diào)用新浪微博的API,但一些重要數(shù)據(jù)無法訪問,比如用戶的私信,這顯然涉及隱私問題。此外,新浪對一些API的訪問頻率也做了限制。因此,一些團(tuán)隊也在打算接入騰訊微博,因為騰訊可以把私信都開放。此外,他們也密切關(guān)注移動端,一些業(yè)務(wù)也可以移植到微信上。而無論微博還是微信,都不過是底層的社會平臺,他們要在此之上疊加應(yīng)用,最終超越原先依附的平臺。
但挖掘者們的技術(shù)還不足以處理大數(shù)據(jù)。“好有美食”是一個10月中旬剛上線的APP,基于好友關(guān)系來給你推薦餐廳和美食。它目前能抓取新浪微博的原創(chuàng)和轉(zhuǎn)發(fā)內(nèi)容,而沒有抓取評論,其中的一個原因就是“數(shù)據(jù)量太大”。新影數(shù)訊的劉晗也強(qiáng)調(diào),他們做的是數(shù)據(jù)挖掘,而不是大數(shù)據(jù)處理?!按髷?shù)據(jù)的計算量非常大,一天的數(shù)據(jù)量就會上T,一般人處理不了,我們要的有價值的數(shù)據(jù)也就是幾十G?!?/p>
陳文光教授估算了新浪微博的數(shù)據(jù)量級?!安话▓D片和評論,大約是在幾十T到幾百T,如果只拷貝所有的社交關(guān)系,那還不到一個T。一臺256G內(nèi)存的機(jī)器,就能把一兩億用戶的關(guān)系數(shù)據(jù)放在內(nèi)存里,處理起來就快很多。光分析社交關(guān)系的數(shù)據(jù),就可以做很多工作了?!?/p>
他還分析了小團(tuán)隊的創(chuàng)業(yè)成本?!白庖粋€100M的帶寬和IDC機(jī)位每年大約要10萬塊,買一臺有4個CPU和256G內(nèi)存的服務(wù)器也要10萬塊,再加上人力、房租,以及寫軟件和用虛擬主機(jī)、云平臺等成本,最少有100萬投入才能干這件事。”
這些團(tuán)隊必須節(jié)衣縮食的另一個理由是:社交網(wǎng)絡(luò)應(yīng)用仍然沒有成熟的商業(yè)模式,即便VC對社交網(wǎng)絡(luò)也沒有特別強(qiáng)的信心。知微創(chuàng)始人于霄對《創(chuàng)業(yè)家》表示,“2C(針對個人用戶)的商業(yè)模式需要有相當(dāng)量的用戶留存和頻繁的使用,而現(xiàn)有的產(chǎn)品還剛剛面世,想建立起用戶黏性、吸引大量的客戶還是蠻難的。2B(針對企業(yè)用戶)的商業(yè)模式則更偏向營銷,可能只維護(hù)十個客戶都會做的非常強(qiáng)大,但垂直領(lǐng)域的數(shù)據(jù)量還沒那么多,最早期的時候沒有太多素材可用。”
新影數(shù)訊是我們遇到的唯一有收入的團(tuán)隊,但全年營收最多也就兩百萬元,還沒打平。劉晗更看重積累數(shù)據(jù),對他來說,數(shù)據(jù)是比現(xiàn)金更值錢的資產(chǎn),如果能建立起一個中國最全的電影數(shù)據(jù)庫,賺錢就是水到渠成的事。
海銀資本孵化的社交網(wǎng)絡(luò)應(yīng)用團(tuán)隊有16個,到年底估計能達(dá)到30個,它們抱團(tuán)取暖。海銀和清華大學(xué)合作,后者研究社交網(wǎng)絡(luò)的數(shù)據(jù)池可供這些團(tuán)隊使用,大多數(shù)固定的社交關(guān)系可以直接從中調(diào)用。在中關(guān)村云計算基地,王煜全的好友田溯寧以低于市價一半的價格提供了600平方米的場地,一些團(tuán)隊不久后就將搬去那里。這些團(tuán)隊彼此之間也有大量的溝通與協(xié)作,比如分工調(diào)用新浪微博不同的API以提升效率。此外,在營銷上這些團(tuán)隊也會彼此借力。
海銀在這些項目上介入很深,王煜全親自和團(tuán)隊討論確定產(chǎn)品方向。他告訴這些年輕人,一旦大目標(biāo)確立,至少要堅持三到五年。他坦承,這些業(yè)務(wù)五年不見得賺一分錢,但是五年之后也許是個Google。他用蘋果公司曾經(jīng)的廣告語來鼓勵他們:只有那些瘋狂到認(rèn)為自己可以改變世界的人,才能真正改變世界。