沈建苗
機(jī)器學(xué)習(xí)、尤其是深度學(xué)習(xí)這一主題是許多科技刊物競相報道的最熱門話題之一。這個領(lǐng)域值得重點關(guān)注和報道有充足的理由。
機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的范圍和影響已在眾多學(xué)科的無數(shù)應(yīng)用領(lǐng)域一再得到了體驗和證明。廣告、自動駕駛車輛、聊天機(jī)器人、網(wǎng)絡(luò)安全、無人機(jī)、電子商務(wù)、金融技術(shù)、工業(yè)機(jī)械、醫(yī)療保健、市場營銷、機(jī)器人和搜索引擎,這些只是受到機(jī)器學(xué)習(xí)/深度學(xué)習(xí)重大影響的幾個關(guān)鍵領(lǐng)域而已。
機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的好處不再只有買得起高端裝備的少數(shù)精英群體才能享用。產(chǎn)品推薦工具和價位合理的聊天機(jī)器人在普通群體中流行起來,這點不可否認(rèn)。明眼人都看得出來,機(jī)器學(xué)習(xí)/深度學(xué)習(xí)在一大批新的未開拓領(lǐng)域還有待發(fā)揮所長。
開發(fā)和部署機(jī)器學(xué)習(xí)/深度學(xué)習(xí)管道的成本在迅速下降。連最懷疑這種技術(shù)的人士只要分析一下其用途,也極有可能找到價值所在。
據(jù)機(jī)器學(xué)習(xí)/深度學(xué)習(xí)界的幾位名人聲稱,深層神經(jīng)網(wǎng)絡(luò)“效果異常好”,盡管他們并不確信個中原委,但他們堅信機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的應(yīng)用前景不可限量。
深度學(xué)習(xí)領(lǐng)域在迅速演變,而且是在許多維度上演變。許多新的技術(shù)、架構(gòu)和算法層出不窮,各自具有獨特的價值。然而,我認(rèn)為三個主要的宏觀趨勢未來幾年會在機(jī)器學(xué)習(xí)領(lǐng)域真正改變游戲規(guī)則。
機(jī)器學(xué)習(xí)/深度學(xué)習(xí)領(lǐng)域第一個、也是最重要的宏觀趨勢是,監(jiān)督學(xué)習(xí)模式逐漸向非監(jiān)督學(xué)習(xí)模式轉(zhuǎn)變。
原來實施的機(jī)器學(xué)習(xí)/深度學(xué)習(xí)絕大多數(shù)是監(jiān)督式學(xué)習(xí)系統(tǒng)。換句話說,只有對被大量標(biāo)記的訓(xùn)練數(shù)據(jù)加以訓(xùn)練,它們才有用。雖然監(jiān)督式學(xué)習(xí)系統(tǒng)為我們提供了很好的服務(wù),但收集和標(biāo)記龐大數(shù)據(jù)集費(fèi)時又費(fèi)錢,還很容易出錯。數(shù)據(jù)集規(guī)模變大后,這些挑戰(zhàn)變得極其棘手。另一方面,非監(jiān)督學(xué)習(xí)系統(tǒng)具有巨大的優(yōu)勢,因為它們不需要龐大的訓(xùn)練數(shù)據(jù)集,可以邊訓(xùn)練邊學(xué)習(xí)。這可以解釋為什么機(jī)器學(xué)習(xí)方面的許多高級研究與非監(jiān)督學(xué)習(xí)有關(guān)。
此外,機(jī)器學(xué)習(xí)/深度學(xué)習(xí)應(yīng)用的第二個應(yīng)用趨勢是在生成式對抗網(wǎng)絡(luò)(GAN)方面。
生成式對抗網(wǎng)絡(luò)(GAN)是什么?它在整個機(jī)器學(xué)習(xí)領(lǐng)域有著怎樣的地位?GAN其實不是一種新的模型類別,它只是一種極其巧妙、高效的訓(xùn)練生成式模型的方法。它的優(yōu)點是減少了對龐大訓(xùn)練數(shù)據(jù)集的需要。
GAN通常使用充當(dāng)對手的兩個神經(jīng)網(wǎng)絡(luò)來構(gòu)造。一個生成酷似有效樣本的假樣本,另一個網(wǎng)絡(luò)(判別器網(wǎng)絡(luò))不斷接收生成器網(wǎng)絡(luò)發(fā)來的偶爾混有假樣本的訓(xùn)練樣本,并負(fù)責(zé)將兩種樣本區(qū)別開來。這個迭代過程的最終結(jié)果是,整個模型經(jīng)受了更完備的訓(xùn)練,其優(yōu)點在于,在外部干預(yù)最少的情況下進(jìn)行改進(jìn)。
第三個機(jī)器學(xué)習(xí)/深度學(xué)習(xí)應(yīng)用趨勢是強(qiáng)化學(xué)習(xí)領(lǐng)域。機(jī)器學(xué)習(xí)原則上是通過實驗和探索來學(xué)習(xí)。這有別于監(jiān)督學(xué)習(xí)模式,因為后者依賴已知良好的訓(xùn)練數(shù)據(jù),而強(qiáng)化學(xué)習(xí)(Reinforcement Learning)最初對“世界如何運(yùn)轉(zhuǎn)”幾乎一無所知。強(qiáng)化學(xué)習(xí)基于三個基本要素,即“狀態(tài)”(States)、“動作”(Actions)和“獎勵”(Rewards)。
舉例子有助于我們了解它們的重要性。不妨假設(shè)一家網(wǎng)上運(yùn)動衫商戶使用強(qiáng)化學(xué)習(xí)來說服訪客購買其產(chǎn)品。不妨在這種上下文中探究狀態(tài)、行動和獎勵的意義??赡苁沁@種情況:一個潛在的加拿大訪客花兩分鐘來比較一件運(yùn)動衫的各種顏色,并閱讀了該產(chǎn)品的兩則評論。另一方面,動作是指商戶為說服潛在顧客實際購買而采取的動作(比如提供即時折扣,或名人穿著類似運(yùn)動衫的照片)。在某個狀態(tài)下運(yùn)用動作導(dǎo)致轉(zhuǎn)換到一個新狀態(tài)。每次轉(zhuǎn)換之后,基于成交概率的增加(或減?。剟睿ɑ驊土P)強(qiáng)化學(xué)習(xí)。這里的關(guān)鍵是,應(yīng)用強(qiáng)化學(xué)習(xí)的設(shè)備最初可能一無所知,但隨著時間的推移,它們學(xué)會選擇在特定的狀態(tài)(人口特征、環(huán)境和消費(fèi)偏好)下效果最好的策略(動作序列)。
強(qiáng)化學(xué)習(xí)非常重要,這有兩個原因。它們在諸如機(jī)器人、廣告和游戲之類的應(yīng)用領(lǐng)域中具有顯著效果。更重要的是,強(qiáng)化學(xué)習(xí)高度模仿人類大腦從嬰兒到成年的演變。這種飛躍讓機(jī)器智能向接近人類智能更邁出了一步,讓機(jī)器能夠?qū)⒏杏X和直覺等軟技能運(yùn)用到學(xué)習(xí)上。