本刊記者|劉勝男
1月20日,今日頭條在北京國家會(huì)議中心舉辦了“算數(shù)·年度數(shù)據(jù)發(fā)布會(huì)”。作為國內(nèi)領(lǐng)先的資訊客戶端,今日頭條在過去兩年多的時(shí)間里,總估值超過了5億美元,已經(jīng)積累了超過2.2億用戶,每天有超過2000萬用戶在今日頭條上閱讀自己感興趣的文章。同時(shí),這些用戶的每一次刷新、點(diǎn)擊也為今日頭條帶來了海量的數(shù)據(jù)。
今日頭條本身就是基于數(shù)據(jù)挖掘的推薦引擎產(chǎn)品,通過對海量數(shù)據(jù)的深度挖掘,今日頭條不僅能夠?yàn)槊恳粋€(gè)人按興趣推薦信息,還能夠從宏觀的角度得到大眾群體的閱讀趨勢。
那么,今日頭條到底是如何猜中每位用戶喜好什么、關(guān)心什么的呢?今日頭條創(chuàng)始人張一鳴回答了一個(gè)詞:機(jī)器學(xué)習(xí)。
什么是機(jī)器學(xué)習(xí)?今日頭條技術(shù)副總裁楊震原解釋說:“其實(shí)移動(dòng)互聯(lián)網(wǎng)時(shí)代是一個(gè)提供服務(wù)的時(shí)代,就也可以把算法理解成,是一種讓機(jī)器能夠給人提供服務(wù)的方法?!?/p>
楊震原舉了一個(gè)特別簡單、特別Q的例子:聰明伶俐會(huì)心算的小明和笨到只會(huì)數(shù)豆子的阿呆同時(shí)做一道“100+100=?”的算術(shù)題,誰先算出來誰就是聰明人,可以吃雪糕。結(jié)果是阿呆取得了勝利,這是為什么?楊震原介紹說,這個(gè)例子非常能夠說明計(jì)算機(jī)學(xué)科的原理,就是如何去考慮用計(jì)算機(jī)去解決問題這個(gè)過程。小明心算3秒鐘就可以算出來,但是問題在于阿呆一秒鐘可以數(shù)4萬顆豆子,他數(shù)200顆豆子只需要0.005秒,顯然阿呆勝出了。
這個(gè)例子充分解釋了計(jì)算機(jī)是如何戰(zhàn)勝人的,或者機(jī)器如何變得更加聰明的?!皩?shí)際上很多時(shí)候,我們做工程師的會(huì)覺得機(jī)器非常非常傻,我們寫的很簡單的程序,機(jī)器都會(huì)搞錯(cuò)。但當(dāng)你從某一些角度去看的時(shí)候,又會(huì)發(fā)現(xiàn)機(jī)器非常強(qiáng)大,它可以算的非???,可以記的東西非常多,所以這種量變就會(huì)積累,讓他變得很不一樣?!?/p>
目前,今日頭條積累的用戶評論,閱讀,展示,刷新,停留時(shí)長等等各種用戶的行為數(shù)據(jù),用5號(hào)字體打印在A4紙上,可以鋪滿地球兩層。數(shù)據(jù)非常大的時(shí)候,就會(huì)產(chǎn)生不一樣的效果,這就是一個(gè)計(jì)算機(jī)科學(xué)中非常經(jīng)典的領(lǐng)域,有這樣的一句話叫做More data beats better algorithms(大數(shù)據(jù)勝過好算法)。機(jī)器學(xué)習(xí)實(shí)際上就是說工程師給機(jī)器一個(gè)計(jì)算的方法,當(dāng)把這些豆子,把這些數(shù)據(jù)交給機(jī)器,機(jī)器會(huì)用這樣的算法去計(jì)算,機(jī)器雖然很笨,但是最后算出來的結(jié)果表現(xiàn)的非常聰明,而且機(jī)器能夠從海量的數(shù)據(jù)中總結(jié)出一些人們平時(shí)未曾發(fā)現(xiàn)的,這個(gè)過程就是機(jī)器學(xué)習(xí)的過程。在移動(dòng)互聯(lián)網(wǎng)時(shí)代,用戶的每個(gè)行為都會(huì)被記下來產(chǎn)生數(shù)據(jù),也就有源源不斷的豆子產(chǎn)生。
當(dāng)把越來越多的豆子給阿呆,把越來越多的數(shù)據(jù)給機(jī)器時(shí),阿呆和機(jī)器就會(huì)顯得越來越聰明。“機(jī)器學(xué)習(xí)是今日頭條的核心,我們今天所有的數(shù)據(jù)也都是基于機(jī)器學(xué)習(xí)”張一鳴的這句話足可見“機(jī)器學(xué)習(xí)”的重要性。
同時(shí),張一鳴還指出:隨著物理世界中產(chǎn)生的信息正在被越來越多地投映到虛擬世界中,越來越多的數(shù)據(jù)被記錄下來,計(jì)算機(jī)也會(huì)越來越懂用戶,它扮演的不僅僅是助理角色,它更像是世界共享的一個(gè)大腦,網(wǎng)絡(luò)空間的“上帝”,俯視觀察所有用戶。
知道用戶喜歡吃什么,喜歡做什么,喜歡哪些公司,哪些明星,并且都會(huì)主動(dòng)推薦給用戶。而且數(shù)據(jù)和機(jī)器是不會(huì)說謊的。
機(jī)器學(xué)習(xí)真正到達(dá)這一步,對人類而言是一個(gè)美好的世界還是一個(gè)可怕的世界?張一鳴認(rèn)為會(huì)是一個(gè)更加美好與高效率的世界。因?yàn)闄C(jī)器是為人類服務(wù)的,大規(guī)模信息被記錄,被連接,將產(chǎn)生前所未有的互動(dòng)規(guī)模,這樣就會(huì)有更多的人類的知識(shí)與智慧被沉淀下來。不過,張一鳴也認(rèn)為,通用綜合型計(jì)算機(jī)大腦,至少在短期內(nèi)不會(huì)涌現(xiàn)出來。但是在中短期內(nèi),在垂直領(lǐng)域,無論是新聞?lì)I(lǐng)域的今日頭條,還是工具類應(yīng)用天氣、導(dǎo)航等,機(jī)器本身的智能性不會(huì)比人類強(qiáng)多少,但是由于時(shí)間長,記憶的內(nèi)容和數(shù)據(jù)夠多,經(jīng)過長年積累,將能夠大規(guī)模抹平信息鴻溝。
就如北京大學(xué)新聞與傳播學(xué)院副院長陳剛教授暢想的,今日頭條目前提供的還只是一個(gè)簡單化的基于信息的服務(wù)。但未來,他相信今日頭條一定會(huì)從信息服務(wù)走向生活服務(wù),尤其是移動(dòng)生活的服務(wù)。未來,今日頭條不是媒體,它是我們在移動(dòng)生活空間里,生活服務(wù)上不可缺少的一個(gè)最好的朋友。而要做到這些,離不開大數(shù)據(jù)和機(jī)器學(xué)習(xí)的支持。
在夜深人靜的時(shí)候,享受一篇機(jī)器為你推薦的你最感興趣的文章,或是給你提供的一個(gè)令你舒適的服務(wù),減輕下人腦的負(fù)擔(dān),放松放松,何樂而不為呢?