王小川
我們一直在尋求人和機(jī)器的關(guān)系。
然而在討論這種關(guān)系的時(shí)候,就要涉及到歷史的趨勢(shì),尤其是什么事情是必然會(huì)發(fā)生的。只有對(duì)趨勢(shì)的了解,對(duì)于必然有認(rèn)知,我們才能夠開(kāi)始探討人與機(jī)器的關(guān)系,這是哲學(xué)的問(wèn)題。
縱觀歷史發(fā)展,我們經(jīng)歷了從史前文明、農(nóng)業(yè)文明、工業(yè)文明到信息文明的各個(gè)階段的技術(shù)突破。其實(shí),離我們最近一次的信息文明其實(shí)并沒(méi)有結(jié)束,是計(jì)算機(jī)和互聯(lián)網(wǎng)發(fā)展推動(dòng)了信息文明的快速發(fā)展。
即使到今天,在中國(guó)還有大量的場(chǎng)景并沒(méi)有信息化,比如教育。但,這時(shí)候已經(jīng)有一個(gè)苗頭,就是智能文明的降生。說(shuō)到智能文明,人工智能是我們繞不過(guò)去的話題。
AI帶來(lái)的啟蒙
人工智能有廣義和狹義之分。狹義的人工智能,講的就是2012年之后的深度學(xué)習(xí),尤其是2016年阿爾法狗的誕生??扇斯ぶ悄苡懈L(zhǎng)的歷史,最早從上世紀(jì)60年代的專家系統(tǒng),之后是特征工程,到現(xiàn)在,我們開(kāi)始使用的更多的監(jiān)督學(xué)習(xí),尤其是對(duì)語(yǔ)音圖像的處理能力。
在深度學(xué)習(xí)和監(jiān)督學(xué)習(xí)之后,我們還在做的工作叫做強(qiáng)化學(xué)習(xí),或者叫做推理,但是,它們到現(xiàn)在還沒(méi)有進(jìn)入到實(shí)用階段。我們今天講到的深度學(xué)習(xí),還停留在現(xiàn)有的語(yǔ)音圖像處理階段。所以,我們對(duì)于未來(lái)的趨勢(shì)充滿好奇。
我更多是想探討技術(shù)將會(huì)帶來(lái)什么變化。
其實(shí),2016年給我最大的沖擊是阿爾法狗,我們稱之為一場(chǎng)啟蒙運(yùn)動(dòng)。相對(duì)以前的文藝復(fù)興,它是在探尋人和人,以及人和神之間的關(guān)系。阿爾法狗之后,我們關(guān)注的是人與機(jī)器的關(guān)系。
2016年的那場(chǎng)比賽,我參與比較多,我當(dāng)時(shí)在在新浪直播全程見(jiàn)證了李世石被機(jī)器打敗。在那場(chǎng)比賽中,和我一起做嘉賓的是中國(guó)圍棋隊(duì)總教練余斌。賽前,他堅(jiān)定認(rèn)為,人一定會(huì)打敗機(jī)器,甚至覺(jué)得機(jī)器能夠下圍棋是一件不可理喻的事情。
賽后,余斌教練的精神出現(xiàn)了一定的崩潰,我聽(tīng)說(shuō)是新浪編輯幫忙打車(chē)送他回去的,他已經(jīng)不知道怎么打出租車(chē)了。
當(dāng)一個(gè)機(jī)器文明誕生時(shí),對(duì)于我們來(lái)說(shuō),特別是專家,被機(jī)器取代的那一刻,自己的內(nèi)心是難以接受的。之后在醫(yī)療、駕駛等各領(lǐng)域都會(huì)發(fā)生這樣的變化。
賽前,我們對(duì)阿爾法狗有很多質(zhì)疑,賽后,我們發(fā)現(xiàn)很多年輕朋友把阿爾法狗稱為狗狗,對(duì)它有很大的接受,圍棋九段選手們把它稱為“阿老師”。今天,我們通過(guò)擬人化的方式接納了機(jī)器。這種接納的速度會(huì)更快一些。
語(yǔ)音為AI入口
什么樣的工作將會(huì)被取代?這是很多媒體人好奇的問(wèn)題。我想,這是近期要去解決的回答,還有一個(gè)問(wèn)題是人類(lèi)是否會(huì)被機(jī)器取代,這是更加遠(yuǎn)期的問(wèn)題。實(shí)際上,2016年到現(xiàn)在的3年時(shí)間,我永遠(yuǎn)被追問(wèn)的最核心問(wèn)題也是這兩件事情,而不是探討背后的技術(shù)。
關(guān)于什么樣的工作將被機(jī)器取代?我們要理解當(dāng)下機(jī)器本身的強(qiáng)大,以及它目前的局限性。在一些媒體或影視作品中的解讀中,機(jī)器很強(qiáng)大,想象它變成人的形狀,能跟人對(duì)話,甚至比人更加厲害。實(shí)際上,以今天的技術(shù)能力、水平,要制造這樣的機(jī)器人,恐怕還只能處于幻想中。
我用兩個(gè)觀點(diǎn)來(lái)闡述現(xiàn)在人工智能本身的局限性。
第一個(gè)觀點(diǎn)是,今天人工智能已經(jīng)具有了強(qiáng)大的感知能力。什么感知呢?就是聽(tīng)覺(jué)、視覺(jué),跟外界接觸之后進(jìn)行信息低層次處理的感知?,F(xiàn)在圖像識(shí)別里面,機(jī)器做人臉識(shí)別已經(jīng)可以超越人了。
另一個(gè)就是認(rèn)知領(lǐng)域,機(jī)器就會(huì)難很多了,尤其是跟語(yǔ)言相關(guān)的。語(yǔ)言是我們對(duì)世界的一種抽象認(rèn)識(shí),就像人類(lèi)簡(jiǎn)史里講到的。我們?cè)谏掷锶フ蚁膳@樣的事情是有概念有故事的,這個(gè)事情機(jī)器沒(méi)有掌握。加上人類(lèi)還有遷移學(xué)習(xí)能力,機(jī)器目前都不具有。
在這種局限性下,我們可以做一種簡(jiǎn)單的斷言,在認(rèn)知問(wèn)題里面機(jī)器只能輔助人類(lèi),比如說(shuō)寫(xiě)一部小說(shuō)或者對(duì)話的時(shí)候,機(jī)器并不能獨(dú)立工作,但在認(rèn)知問(wèn)題、感知問(wèn)題里面,機(jī)器可以獨(dú)立上崗,就像圖像和語(yǔ)音的處理。
我們的做法是以語(yǔ)言為核心,去探討語(yǔ)言相關(guān)的感知和認(rèn)知,感知是處理語(yǔ)音、圖像,認(rèn)知處理的是對(duì)話、翻譯和問(wèn)答。在這個(gè)感知中,機(jī)器已經(jīng)可以達(dá)到和人相同的水平,但是在認(rèn)知領(lǐng)域會(huì)非常難。
從優(yōu)先順序看,最容易做的事情是機(jī)器翻譯。即使如此,我們可以看到它跟人相比較,也有一定的差距,尤其是,人覺(jué)得特別簡(jiǎn)單的事情,機(jī)器并不一定處理很好,而人覺(jué)得復(fù)雜的問(wèn)題,機(jī)器可以做得很好。這與感知不一樣。在感知方面,機(jī)器可以比人做的更全面,機(jī)器不精準(zhǔn)的地方,人也做不好。而認(rèn)知世界里,機(jī)器和人好像是不同類(lèi)型的人。
在感知領(lǐng)域,我們已經(jīng)做了語(yǔ)音識(shí)別。搜狗是中國(guó)今天To C領(lǐng)域語(yǔ)音識(shí)別量最大的引擎。因?yàn)槲覀儞碛兄袊?guó)最大的輸入法,每天有超過(guò)6億次語(yǔ)音識(shí)別請(qǐng)求,包括語(yǔ)音修改,目的就是以語(yǔ)言為核心使得人跟人通過(guò)感知能進(jìn)行更好的溝通。
但是,我們覺(jué)得這件事不代表技術(shù)前沿,我們又做了唇語(yǔ)的識(shí)別。之前是用聲音轉(zhuǎn)化為文字,現(xiàn)在,我們可以做到用嘴形變化轉(zhuǎn)化為文字。
除了語(yǔ)音識(shí)別,還有語(yǔ)音合成,包括風(fēng)格遷移。在互聯(lián)網(wǎng)上,除了機(jī)器能識(shí)別用戶以外,當(dāng)用戶在表達(dá)的時(shí)候,機(jī)器能夠做更多輔助的工作。我們可以把自己的音色做遷移,變成個(gè)性化合成。
我們發(fā)布了一款技術(shù),叫做AI的合成主播。就是把語(yǔ)音、圖像和文字的關(guān)系完全聯(lián)動(dòng)起來(lái)。之前,我們將嘴形識(shí)別變成聲音、變成文字,現(xiàn)在我們倒過(guò)來(lái),也是同樣的技術(shù),能把文字變成聲音的表情。我們的AI合成主播,能合成人的聲音、嘴形、表情,同時(shí)也是我們?cè)谌蚴讉€(gè)用AI能取代人的分身技術(shù)。
AI的合成主播技術(shù)已經(jīng)上線,全球很多媒體都會(huì)采購(gòu),包括國(guó)內(nèi)最大的一家保險(xiǎn)公司在線客服也將采用我們的技術(shù),用機(jī)器取代部分人。在感知視覺(jué)里,機(jī)器和人溝通機(jī)器能做到很大的取代人的作用,獨(dú)立開(kāi)展工作。
人機(jī)“新合體”
未來(lái),隨著AI技術(shù)發(fā)展,機(jī)器越來(lái)越準(zhǔn)確之后,其輔助能夠逐步給出標(biāo)準(zhǔn)答案的結(jié)果??梢钥吹?,從語(yǔ)言處理當(dāng)中,我們的努力方向就是從搜索走向問(wèn)答,以后用語(yǔ)音提問(wèn)就能給除直接的結(jié)果?,F(xiàn)在,我們能看到40%的用戶提問(wèn)能給到直接的回答。從搜索到問(wèn)答,最終的形態(tài)是走向個(gè)人助理,讓機(jī)器和人產(chǎn)生后面的交流,能輔助完成一些任務(wù)。
人類(lèi)是否真得會(huì)被機(jī)器取代,這是我們需要回答的事情。有一個(gè)悖論,學(xué)術(shù)上很有名,我們的感知說(shuō),人腦太聰明了,我們竟然能造成出一臺(tái)比自己更聰明的機(jī)器,但是另一個(gè)人說(shuō),人腦太聰明了,我們不能造出一臺(tái)比人腦更聰明的機(jī)器。
這兩個(gè)說(shuō)法都成立,人聰明的時(shí)候,到底是否機(jī)器能超過(guò)人自己,這是很難回答的問(wèn)題。我的看法是,未來(lái)我們做出的人工智能,和人腦不是進(jìn)行直接的比較,也不是做出擬人的機(jī)器成為人工智能發(fā)展的未來(lái),而是走不同的道路。
在人最擅長(zhǎng)的領(lǐng)域中,機(jī)器的設(shè)計(jì)原理,從目前可知道的技術(shù)是沒(méi)法到達(dá)的;但是倒過(guò)來(lái),機(jī)器所擅長(zhǎng)的這些事情,人也做不到。就像一個(gè)計(jì)算器,我們不會(huì)跟一個(gè)計(jì)算器比拼計(jì)算速度怎么樣,同時(shí),未來(lái)的人工智能在特定領(lǐng)域里的使用,也一定遠(yuǎn)遠(yuǎn)超過(guò)人。
但是,我們通用的智能,我們的生命力,適應(yīng)環(huán)境的能力,在可見(jiàn)的技術(shù)里面,機(jī)器也是做不到的。這里我想提到的一個(gè)基本觀點(diǎn),首先不要妄自菲薄,我們想機(jī)器會(huì)把人取代了,因?yàn)槲覀冋也恢粋€(gè)方法比人更厲害、能完整替代人的機(jī)器。
之前,我們有一種狹隘的理解,我們特別害怕機(jī)器在某個(gè)領(lǐng)域里面把人給超越了,就像下圍棋一樣。事實(shí)上,我們要去接受機(jī)器在很多情況里面能夠替代人的部分的功能,或者增強(qiáng)人部分的功能。比如,有很多人都在戴眼鏡,想過(guò)沒(méi)有,我們已經(jīng)被技術(shù)入侵了,因?yàn)檠坨R使得你視力變得更好,因?yàn)槭謾C(jī)我們每個(gè)人變成千里眼、順風(fēng)耳。未來(lái)一樣,技術(shù)和人會(huì)產(chǎn)生新的融合體。
跟一個(gè)猴子說(shuō),如果改變基因把你變成人你會(huì)愿意嗎?猴子肯定不愿意,因?yàn)樗?tīng)不懂,也不理解。同樣的,如果用技術(shù)改變?nèi)?,將人變成超人,我們?huì)愿意嗎?今天就在發(fā)生這樣的事情,我們大多數(shù)人還是采取這種拒絕的態(tài)度,因?yàn)橛X(jué)得人更渺小,但是,在未來(lái),人和機(jī)器會(huì)有一種新的合體,跟技術(shù)在一起,我們會(huì)變得更加強(qiáng)大,形成新的生態(tài),這是人和機(jī)器協(xié)同進(jìn)化的未來(lái)。
我們的使命是,在AI中做簡(jiǎn)單的工作,讓表達(dá)和信息變得簡(jiǎn)單,并在大時(shí)代找到自己的位置。