Yaser Abu-Mostaf PhD
談一下AI的相關(guān)內(nèi)容,讓大家了解一下AI和機(jī)器學(xué)習(xí)的相關(guān)內(nèi)容。
首先,我和大家用很簡(jiǎn)單的語(yǔ)言解釋一下什么是機(jī)器學(xué)習(xí),之后講兩個(gè)方面:一個(gè)就是演進(jìn),就是機(jī)器學(xué)習(xí)的演化,三四十年的變化;再講一下革命,革命是指過(guò)去五年發(fā)生的突變。最后講一些挑戰(zhàn),有些挑戰(zhàn)非常有意思,有些是技術(shù)的挑戰(zhàn),有些是道德和社會(huì)方面的挑戰(zhàn),他們也影響了我們。
簡(jiǎn)單介紹一下機(jī)器學(xué)習(xí)。實(shí)際上大家都知道數(shù)據(jù)科學(xué)或者說(shuō)大數(shù)據(jù)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)可以說(shuō)是智能的核心,這就是為什么叫它AI,人工智能。我們這里看到很多名字,比如說(shuō)統(tǒng)計(jì)學(xué)或者說(shuō)AI或者說(shuō)數(shù)據(jù)挖掘等等這些術(shù)語(yǔ),這里有一個(gè)共同點(diǎn),它們都是基于數(shù)據(jù)技術(shù)規(guī)律的自動(dòng)探測(cè)。比如說(shuō)我們假設(shè)有一個(gè)嬰兒,一旦孩子看到一種圖案或者說(shuō)看到一個(gè)規(guī)律,眼睛都會(huì)閃光,他們自己識(shí)別出了規(guī)律。實(shí)際上我們要讓數(shù)據(jù)自動(dòng)識(shí)別規(guī)律,這樣我們就可以說(shuō)獲得了一定的智能。給大家介紹一下和拍拍貸相關(guān)的內(nèi)容。比如說(shuō)我們想申請(qǐng)信用卡,不希望信用不好的人申請(qǐng)信用卡,我們希望了解基本的情況,比如說(shuō)我們了解一下有沒(méi)有可能不及時(shí)還款。機(jī)器學(xué)習(xí)可以給我們帶來(lái)什么好處?我們看以前的客戶,好的行為和壞的行為是什么樣的,這些行為是好的,這些行為是不好的。他們申請(qǐng)的時(shí)候每個(gè)人都提供了申請(qǐng)信息,我們問(wèn)一下自己,我們用什么來(lái)區(qū)分好壞。基于歷史數(shù)據(jù),一旦發(fā)生規(guī)律之后,有了新的申請(qǐng)者的時(shí)候,就可以判斷是屬于好的那一類(lèi)還是不好的那一類(lèi),這就是用機(jī)器學(xué)習(xí)進(jìn)行自動(dòng)信用評(píng)級(jí)的原理。
這是兩年前哈佛商業(yè)評(píng)論的文章,他說(shuō)機(jī)器學(xué)習(xí)非常有潛力,可以用在很多行業(yè)上面,改變這些公司。事實(shí)上機(jī)器學(xué)習(xí)可以用在很多項(xiàng)目上,比如說(shuō)時(shí)尚、工業(yè)設(shè)備、腦部損傷診斷,都可以利用機(jī)器學(xué)習(xí)。可能只有工程師,但是沒(méi)有金融專(zhuān)業(yè)的領(lǐng)域知識(shí)。機(jī)器學(xué)習(xí)是基于數(shù)據(jù)的,不管是什么領(lǐng)域,只要給我數(shù)據(jù)就可以自動(dòng)識(shí)別里面的規(guī)律。比如說(shuō)時(shí)尚,我就可以自己進(jìn)行分析,我們基于不同女性的購(gòu)買(mǎi)行為,我會(huì)給她們提供一些建議,她們最有可能買(mǎi)什么樣的衣服。我其實(shí)對(duì)女性的時(shí)尚是完全不知道的,一無(wú)所知的,可以說(shuō)是一個(gè)外行,但是基于數(shù)據(jù),還是可以給她們很有幫助的建議。
這就是機(jī)器學(xué)習(xí)的本質(zhì)。
數(shù)據(jù)是一家公司的最大資產(chǎn)
什么是機(jī)器學(xué)習(xí)呢?首先要有這樣一個(gè)規(guī)律,比如說(shuō)信用卡申請(qǐng),假如說(shuō)幾年一直做的都是同一個(gè)工作,這個(gè)是和信用表現(xiàn)是息息相關(guān)的,因此我們要找出這里的規(guī)律。實(shí)際上有的時(shí)候我們沒(méi)有辦法用一個(gè)數(shù)學(xué)模型直接告訴我們?cè)撛趺醋?,我們必須要通過(guò)數(shù)據(jù)來(lái)提取其中的規(guī)律,我們希望有代表性的數(shù)據(jù)組。這一點(diǎn)是很有意思的,我剛才和公司的創(chuàng)始人聊天,比如說(shuō)我們要看拍拍貸的歷史的話,一開(kāi)始的時(shí)候沒(méi)發(fā)生什么,突然公司就起飛了。但實(shí)際上,在蜇伏期間,他們一直在收集數(shù)據(jù),有了數(shù)據(jù)就有了別人沒(méi)有的東西,我們積累是需要時(shí)間的,因此我們的數(shù)據(jù)是資產(chǎn),你要有資產(chǎn)才能進(jìn)入游戲。
現(xiàn)在我給大家介紹一下演進(jìn)部分,就是機(jī)器學(xué)習(xí)的發(fā)展情況。為什么過(guò)去五年發(fā)生了變革,現(xiàn)在人工智能和機(jī)器學(xué)習(xí)都發(fā)生了突變?我們從八十年代的時(shí)候開(kāi)始,那個(gè)時(shí)候神經(jīng)網(wǎng)絡(luò)剛剛興起,那個(gè)時(shí)候數(shù)據(jù)量很少,之后越來(lái)越多的數(shù)據(jù)開(kāi)始被積累起來(lái)。越來(lái)越多的數(shù)據(jù),越來(lái)越復(fù)雜的模型,以前我們用的是線性的模型,現(xiàn)在用的非線性模型。而且現(xiàn)在計(jì)算越來(lái)越多,實(shí)際上我們預(yù)測(cè)計(jì)算機(jī)的速度會(huì)發(fā)展得越來(lái)越快,這也是需要三四十年的積累。
所以雖然現(xiàn)在已經(jīng)達(dá)到了飽和的階段,但是這個(gè)飽和的階段仍然有非常大的金礦,這個(gè)過(guò)程當(dāng)中我們會(huì)做出來(lái)更多的進(jìn)化或者說(shuō)進(jìn)展,機(jī)器學(xué)習(xí)也不例外。
回到剛才信用卡申請(qǐng)的例子,我們來(lái)看一下這樣的一個(gè)申請(qǐng)人,給大家解釋一下我們現(xiàn)在的進(jìn)化在哪里。首先我們有一個(gè)非常簡(jiǎn)單的模型,就是剛才說(shuō)的一個(gè)線性的模型,就是人們剛開(kāi)始來(lái)批貸的時(shí)候有的線性模型,評(píng)估工作,以及工作的年限、年齡、工資等等。畫(huà)這樣一條線來(lái)區(qū)分好的客戶和壞的客戶。隨著數(shù)據(jù)的積累,我們可以開(kāi)始建立一個(gè)非線性模型,我們知道有一些因素之間是有一些相關(guān)性的,這里面可能也有一些規(guī)律或者說(shuō)模式。
因?yàn)檫@個(gè)我們就會(huì)有很多不同的模型,比如說(shuō)神經(jīng)網(wǎng)絡(luò),這是非常著名的模型,這就不同于原來(lái)所說(shuō)的線性模型,這種非線性模型就是我們的進(jìn)化。相比之前的線性模型要強(qiáng)得多??梢宰屇阕龀鰜?lái)更好的預(yù)測(cè),也就是說(shuō)現(xiàn)在客戶用這樣的模型做出更加復(fù)雜的決策??梢杂迷诜浅6嗟膽?yīng)用領(lǐng)域,比如說(shuō)二十世紀(jì)九十年代的時(shí)候,股票市場(chǎng)等金融數(shù)據(jù)可以用機(jī)器學(xué)習(xí),里面有非常多的數(shù)據(jù),有很多模型,用戶主要是投資銀行等等。在2000年的時(shí)候,像亞馬遜、阿里巴巴電子商務(wù)開(kāi)始起步,他們也開(kāi)始使用機(jī)器學(xué)習(xí),然后網(wǎng)站就開(kāi)始向你推薦一些東西,這些推薦都是基于數(shù)據(jù),可以檢測(cè)一些模式推薦給你買(mǎi)一些東西。在2010年的時(shí)候又可以應(yīng)用于醫(yī)療領(lǐng)域。因?yàn)樵卺t(yī)療領(lǐng)域我們積累了大量的數(shù)據(jù),所以我們可以用大數(shù)據(jù)來(lái)做診斷等等。十年前是沒(méi)有這么多醫(yī)療數(shù)據(jù)的,經(jīng)過(guò)十年的發(fā)展,積累了大量的醫(yī)療數(shù)據(jù),我們可以用機(jī)器學(xué)習(xí)來(lái)做診斷分析等等。有了這種數(shù)據(jù)積累,我們就能夠有更多的機(jī)器學(xué)習(xí)方面的應(yīng)用。這些數(shù)據(jù)就是你所擁有的最大資產(chǎn),可以讓你和競(jìng)爭(zhēng)對(duì)手對(duì)比的時(shí)候具有優(yōu)勢(shì)。
AI,將在各行業(yè)無(wú)處不在
我們現(xiàn)在又從進(jìn)化進(jìn)入革命階段,這是過(guò)去五年的變化。這五年內(nèi)發(fā)生了什么東西呢?首先我不想勸說(shuō)或者說(shuō)服這里面有多大的區(qū)別,大家已經(jīng)看的非常清楚了。在很多領(lǐng)域里面,比如說(shuō)機(jī)器翻譯,過(guò)去的機(jī)器翻譯讓大家覺(jué)得非常的可笑,而現(xiàn)在因?yàn)橛猩窠?jīng)網(wǎng)絡(luò)的介入,不斷改進(jìn),就是利用了機(jī)器學(xué)習(xí)的方法。還有語(yǔ)音識(shí)別、對(duì)象檢測(cè)等等,在數(shù)據(jù)、模型、計(jì)算方面上都發(fā)生了質(zhì)變。從這樣的應(yīng)用,有這么多的數(shù)據(jù),有更多的申請(qǐng)人的數(shù)據(jù),可以做決策,這樣的決策基于大數(shù)據(jù)就可以更加智能。這樣可以做出全面的剖析。比如說(shuō)有的人可能喜歡巧克力,這是一個(gè)信息,有的人可能喜歡喜劇等等,你覺(jué)得他們會(huì)去看加勒比海盜,還是不看加勒比海盜這部電影?這樣的兩個(gè)信息可能不足以做出決策,如果有更多更全面的信息,可以對(duì)這個(gè)人有全面的了解,做出來(lái)的決策也是非常切合實(shí)際的。我覺(jué)得拍拍貸做工作的時(shí)候,其實(shí)和剛才所說(shuō)的這些都有非常強(qiáng)的關(guān)系,你們看到客戶的各個(gè)方面的一些信息,然后決定是好的客戶還是壞的客戶,這是第一點(diǎn)。
我們?cè)賮?lái)看模型。模型現(xiàn)在有深度神經(jīng)網(wǎng)絡(luò),原來(lái)只有兩三層,現(xiàn)在已經(jīng)有十層二十層了,區(qū)別是什么呢?因?yàn)橛辛诉@么多的層級(jí),有里面的計(jì)算,就可以用最好的輸入變量給大家進(jìn)行分析,比如說(shuō)你看到我,不是根據(jù)一個(gè)像素進(jìn)行分析我的,你可以通過(guò)各個(gè)方面進(jìn)行分析。比如說(shuō)這個(gè)人有數(shù)千數(shù)萬(wàn)的像素,可以通過(guò)像素了解人,然后對(duì)它進(jìn)行剖析,我們做這一點(diǎn)的時(shí)候,我們可能會(huì)失去某些細(xì)節(jié)。我們要深入分析各個(gè)細(xì)節(jié),然后再分析哪個(gè)細(xì)節(jié)哪個(gè)像素對(duì)你整個(gè)人的分析是最重要的。然后進(jìn)入神經(jīng)元分析。
接下來(lái)是計(jì)算方面。計(jì)算速度快速提升,過(guò)去十幾年二十幾年你的計(jì)算機(jī)可能運(yùn)算速度非常慢,但是現(xiàn)在完全不一樣了,速度大幅度提升,還有一些商用硬件,比如說(shuō)圖形處理器GPU等等,現(xiàn)在機(jī)器學(xué)習(xí)速度方面提高了兩個(gè)量級(jí)。也就是說(shuō)在過(guò)去如果你要用一些計(jì)算的話,可能要一個(gè)月,甚至一年才能得到一個(gè)結(jié)果。但是現(xiàn)在因?yàn)橛?jì)算速度的提升,可能下一周甚至本周就可以得到答案,而且我們用了這么多的模型。也使計(jì)算速度和智能水平大幅度提升。一個(gè)非常智能的例子就是AlphaGo,打敗了人類(lèi)的智慧。這個(gè)機(jī)器是自身學(xué)習(xí)的,也就是說(shuō)自己和自己下象棋,然后找到一些新的動(dòng)作,這是人類(lèi)之前從來(lái)沒(méi)有用過(guò)的動(dòng)作,他就打敗了人類(lèi)的智慧。我們發(fā)現(xiàn)這樣一種方法可以極大地改善智能水平。剛才有說(shuō)到Fendy,我們說(shuō)Fendy Fendy你得醒過(guò)來(lái)等等。以后不需要叫兩遍才讓Fendy醒過(guò)來(lái),這是我們努力的方向。我們的人工智能取得的進(jìn)步是長(zhǎng)足的。
我再講一下挑戰(zhàn)。實(shí)際上技術(shù)挑戰(zhàn)沒(méi)什么好講的,我們從某種程度上講,有兩個(gè)挑戰(zhàn)。剛才講到了技術(shù)挑戰(zhàn),再講一下安全的風(fēng)險(xiǎn),以及其他的風(fēng)險(xiǎn),對(duì)于人工智能和機(jī)器學(xué)習(xí)來(lái)說(shuō)有很多社會(huì)上的挑戰(zhàn)。我們看現(xiàn)在的計(jì)算機(jī)或者說(shuō)現(xiàn)在的程序,最可怕的問(wèn)題就是安全問(wèn)題,比如說(shuō)黑客的入侵,還有泄露的問(wèn)題是很可怕的。大家發(fā)展技術(shù)的時(shí)候并沒(méi)有想太多安全問(wèn)題,現(xiàn)在我們正在補(bǔ)足,我們必須要好好想一下安全問(wèn)題?,F(xiàn)在很多人擔(dān)心超級(jí)智能,我覺(jué)得這不需要擔(dān)心,我覺(jué)得黑客入侵還是一個(gè)主要威脅。還有很多社會(huì)方面的挑戰(zhàn),大家可能會(huì)失業(yè),AI可以做人的工作了,我們必須要提前規(guī)劃。還有另外一個(gè)方面的社會(huì)問(wèn)題,比如說(shuō)大家都用智能手機(jī),iPhone自己就成為了一個(gè)非常有趣的人了。以后大家都不愿意和人溝通了,像孩子一樣,實(shí)際上大家只想和手機(jī)玩,也是另外一個(gè)方面的考慮,供大家參考。
* 作者系加州理工學(xué)院(California Institute of Technology)電氣工程和計(jì)算機(jī)科學(xué)(Electrical Engineering and Computer Science)教授,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)(Machine Learning)和計(jì)算金融學(xué)(Computational Finance);IEEE神經(jīng)網(wǎng)絡(luò)協(xié)會(huì)(IEEE NNC)創(chuàng)始人之一;神經(jīng)信息處理系統(tǒng)進(jìn)展大會(huì)(NIPS)創(chuàng)始人之一;第二屆和第四屆國(guó)際資本市場(chǎng)中的神經(jīng)網(wǎng)絡(luò)會(huì)議(NNCM)主席;第六屆國(guó)際計(jì)算金融學(xué)會(huì)議主席;他的《Learning from Data》是亞馬遜機(jī)器學(xué)習(xí)領(lǐng)域全美最暢銷(xiāo)書(shū),全球超過(guò)400萬(wàn)人通過(guò)他的線上教學(xué)視頻學(xué)習(xí)機(jī)器學(xué)習(xí)。Abu-Mostafa教授分別擁有開(kāi)羅大學(xué)(Cairo University)、佐治亞理工學(xué)院(Georgia Institute of Technology)、加州理工學(xué)院(California Institute of Technology)的本科、碩士、和博士學(xué)位。
● 本文由智慧金融研究院、拍拍貸授權(quán);原題方向?yàn)椤叭斯ぶ悄埽?過(guò)去、當(dāng)前、未來(lái)”,為最大程度保障文本精華、原意,以及閱讀需要,本刊僅做題目及內(nèi)容分層進(jìn)行編輯。