在過去的2016年里,人工智能時代便已開啟。這一年,AlphaGo圍棋勝了人類;微軟報告ASR語音識別結(jié)果好過專業(yè)速記員;日本NHK電視報道,IBM機器Watson只花10分鐘完成41名病人的診斷,這通常是醫(yī)生兩周的工作;它讀取大量資料和病人DNA后,救了一位醫(yī)者束手無策的白血病人……機器人正慢慢進(jìn)入我們的生活。
不過,這些機器人在上崗工作前,也要接受一番培訓(xùn)學(xué)習(xí)的!
樣本數(shù)據(jù)是機器人的智商
首先我們得明白,人類之所以生下來就具有學(xué)習(xí)的能力是因為人有智商,事實上,任何一個有學(xué)習(xí)能力的動物也都是具有智商的。這一點對于機器人來說也不例外,想要學(xué)習(xí),就得有智商。那么,機器人的智商從何而來呢?答案是:樣本數(shù)據(jù)。
在機器人的“大腦”中,通常有這樣一個數(shù)學(xué)模型,其中包括了大量的數(shù)值規(guī)律和類別模式。這些規(guī)律和模式通常都是由線性函數(shù)來組成的,這些線性函數(shù)的參數(shù)數(shù)量巨大,少的有幾萬,多的則有可能上百億。
如此看來,這樣的數(shù)學(xué)模型其實并不復(fù)雜困難,不過,由于參數(shù)數(shù)量的巨大,看似簡單的模型卻足以涵蓋各種預(yù)測和辨別情況。而在數(shù)學(xué)上,這種調(diào)整模型參數(shù)及應(yīng)用模型的計算機制,都是精確有效的。
這個時候我們就可以回答什么是機器學(xué)習(xí)了。簡單地說,機器學(xué)習(xí)就是計算機利用輸入的大量樣本數(shù)據(jù),調(diào)整表示規(guī)律和分類通用數(shù)學(xué)模型的參數(shù),然后以調(diào)好的模型作答。樣本的數(shù)據(jù)里潛藏著大量的信息,通過訓(xùn)練給予了機器知識,讓機器表現(xiàn)出判斷和預(yù)測的智能。
機器學(xué)習(xí)基本分成無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)兩類。無監(jiān)督學(xué)習(xí)是從樣本數(shù)據(jù)分布中,按它們的聚集來分類,例如用大量的人民幣硬幣尺寸和重量作為樣本的數(shù)據(jù),它們在2維空間的分布聚集在幾個地方。人們看后,知道它們是分成幾類,依此知識判斷新給的硬幣類別。機器可以通過數(shù)據(jù)點間距離的計算(K-means),自動將聚類分成幾組。得到各組的中心和分布范圍后,再以此判別新輸入硬幣所對應(yīng)的組別。
許多事物看來雜亂無章,其實分屬不同類別,例如學(xué)生潛力,繪畫風(fēng)格,只要用足夠多的特征屬性來描述就可以把它們區(qū)分。但對于許多的特征屬性,人類需要研究歸納抽取出能理解其含義的少量特征,很難利用非常多的特征屬性來分類,機器卻很容易做到。在你現(xiàn)在的工作中,也可能應(yīng)用現(xiàn)成的N維自動分類程序,在已經(jīng)擁有數(shù)據(jù)中發(fā)現(xiàn)潛藏的分類。
無監(jiān)督學(xué)習(xí)就像無師自通的領(lǐng)悟,效率較差。有老師教學(xué)就會快得多。監(jiān)督學(xué)習(xí)是最廣泛最成功應(yīng)用的機器學(xué)習(xí),用我們知識來標(biāo)記樣本,去“教”機器學(xué)會回答問題。這個問答在數(shù)學(xué)上,是從問題的屬性空間映射到答案空間的一個函數(shù)。機器學(xué)習(xí)的基本算法是從一組候選函數(shù)中,比如說線性函數(shù),通過計算選取出與預(yù)測樣本標(biāo)記誤差最小的函數(shù)。這個選取多是通過迭代法,沿著減小誤差的梯度方向,不斷修正候選函數(shù)的參數(shù)來實現(xiàn)。這個過程稱為訓(xùn)練。
深度學(xué)習(xí)才是亮點
大量的樣本數(shù)據(jù)能夠讓簡單的模型覆蓋各種預(yù)測和辨別情況,但有一個缺點,那就是因為變量個數(shù)的巨大,使得這樣的工作方式難以分析歸納成像物理規(guī)律那樣簡單明晰的因果性機制,無法從人腦邏輯推演的角度來理解。這就導(dǎo)致了機器人的學(xué)習(xí)很難提升到更高的深度。
所謂深度學(xué)習(xí),就是用多層神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò),以達(dá)到機器學(xué)習(xí)的功能。這些多層的電腦網(wǎng)絡(luò)像人類大腦一樣,可以收集信息,并基于收集到的信息產(chǎn)生相應(yīng)的行為。簡單地講,深度學(xué)習(xí)技術(shù)是對人腦的一種模擬,因而可以完成很多人腦所具有的功能。
深度學(xué)習(xí)最為人所熟知的是視覺功能。我們的相機可以像眼睛一樣看到這個世界,卻不能像大腦一樣看懂這個世界,深度學(xué)習(xí)恰恰補上了這個短板。有了深度學(xué)習(xí),百度識圖可以準(zhǔn)確識別照片中的物體類別,并對照片進(jìn)行自動歸類或搜索。有了深度學(xué)習(xí),我們可以很方便地刷臉付款。有了深度學(xué)習(xí),特制機器可以檢測一定空間內(nèi)所有人員、車輛的行蹤,并對可疑和危險事件及時報警。
傳統(tǒng)的機器學(xué)習(xí)方法一般只能挖掘簡單的線性關(guān)系,如1+1等于2。然而,大千世界并不是這種簡單關(guān)系所能描述的,如收入與年齡、性別、職業(yè)、學(xué)歷的關(guān)系。深度學(xué)習(xí)的出現(xiàn)改變了這種現(xiàn)狀,它的靈感來源于模仿人類大腦神經(jīng)網(wǎng)絡(luò)。
科學(xué)家發(fā)現(xiàn),人類大腦皮質(zhì)不是直接對視網(wǎng)膜傳遞過來的數(shù)據(jù)進(jìn)行特征提取處理,而是讓接收到的刺激信號通過一個復(fù)雜的網(wǎng)絡(luò)模型進(jìn)行篩選。這種層級結(jié)構(gòu)大大降低了視覺系統(tǒng)處理的數(shù)據(jù)量,并最終保留了有用的信息。
如果要想讓機器人像人一樣學(xué)習(xí),那么就要讓機器人擁有一個類似“人腦”的神經(jīng)網(wǎng)絡(luò),創(chuàng)造這樣一個神經(jīng)網(wǎng)絡(luò)需要強大的硬件支撐,早期的人工智能智能創(chuàng)造出2到3個神經(jīng)層。不過由于近年來GPU(圖形處理器)、超級計算機和云計算的迅猛發(fā)展,讓深度學(xué)習(xí)有了很大的發(fā)展。
2011年,谷歌大腦用了1000臺機器、16000個CPU處理的深度學(xué)習(xí)模型大概有10億個神經(jīng)元。而現(xiàn)在,我們只需幾個GPU便可以完成同樣的計算了。
專家預(yù)計,再過幾年,我們口袋里的手機也可以運行像人腦一樣復(fù)雜的神經(jīng)網(wǎng)絡(luò)了。
Alphago的學(xué)習(xí)過程
去年3月份,Alphago3:1戰(zhàn)勝李世石,名聲大噪。今年1月初, Alphago升級版Master在網(wǎng)上對陣全球各大圍棋高手,再次以60連勝的傲人成績叫人目瞪口呆。Alphago成了當(dāng)下人工智能界里最“紅”的大明星。
Alphago的學(xué)習(xí)總體上包含了離線學(xué)習(xí)和在線對弈兩個過程。
離線學(xué)習(xí)過程分為三個訓(xùn)練階段。第一階段:利用3萬多幅專業(yè)棋手對局的棋譜來訓(xùn)練兩個網(wǎng)絡(luò);第二階段:利用第t輪的策略網(wǎng)絡(luò)與先前訓(xùn)練好的策略網(wǎng)絡(luò)互相對弈,利用增強式學(xué)習(xí)來修正第t輪的策略網(wǎng)絡(luò)的參數(shù),最終得到增強的策略網(wǎng)絡(luò);第三階段:先利用普通的策略網(wǎng)絡(luò)來生成棋局的前U-1步(U是一個屬于[1, 450]的隨機變量),然后利用隨機采樣來決定第U步的位置(這是為了增加棋的多樣性,防止過擬合)。
這樣,通過大量的自我對弈,AlphaGo產(chǎn)生了3000萬盤棋局,用作訓(xùn)練學(xué)習(xí)價值網(wǎng)絡(luò)。不過,由于圍棋的搜索空間太大,3000萬盤棋局也不能幫AlphaGo完全攻克圍棋問題。
而在線對弈則分為5個步驟:根據(jù)當(dāng)前盤面已經(jīng)落子的情況提取相應(yīng)特征;利用策略網(wǎng)絡(luò)估計出棋盤其他空地的落子概率;根據(jù)落子概率來計算此處往下發(fā)展的權(quán)重,初始值為落子概率本身(如0.18)。利用價值網(wǎng)絡(luò)和快速走棋網(wǎng)絡(luò)分別判斷局勢,兩個局勢得分相加為此處最后走棋獲勝的得分;利用第四步計算的得分來更新之前那個走棋位置的權(quán)重(如從0.18變成了0.12);此后,從權(quán)重最大的0.15那條邊開始繼續(xù)搜索和更新。
不過,Alphago仍有很多缺點。首先,如果對手(人類)建立比較復(fù)雜的棋局,每步棋都牽連很多個不同的局部棋變化,那么這時候Alphago的搜索空間急劇增大,精度就會大打折扣。
其次,Alphago能夠戰(zhàn)勝這么多高手,跟它的價值網(wǎng)絡(luò)有很大的關(guān)系,有專家甚至稱如果沒有了價值網(wǎng)絡(luò),Alphago的真實水平就只有3段左右。但Alphago的價值網(wǎng)絡(luò)有時候還不能完全避免一些怪異、甚至錯誤的判斷。這樣的不穩(wěn)定因素也是Alphago的一大缺點。(編輯/有慶)