邵文澤 劉媛媛 許艷麗 陳龍 陳杰
摘要:在新一輪人工智能大潮中,機(jī)器學(xué)習(xí)擔(dān)當(dāng)著人工智能核心算法引擎的作用。文章介紹了適于中高年級本科生吸收消化的三大主流機(jī)器學(xué)習(xí)思想及其代表性方法,旨在為學(xué)生后續(xù)進(jìn)行擴(kuò)展性和創(chuàng)新性的機(jī)器學(xué)習(xí)方法學(xué)習(xí)與研究打下良好基礎(chǔ)。
關(guān)鍵詞:連接主義;統(tǒng)計學(xué)習(xí);符號學(xué)習(xí);人工智能
中圖分類號:G642.0? ? ?文獻(xiàn)標(biāo)志碼:A? ? ?文章編號:1674-9324(2020)10-0312-02
在當(dāng)下算法、計算、場景驅(qū)動的新一輪人工智能大潮中,機(jī)器學(xué)習(xí)這門學(xué)科已當(dāng)仁不讓地成為人工智能算法驅(qū)動力的核心引擎。人工智能歷經(jīng)60年的坎坷發(fā)展歷史,很大程度上也正是機(jī)器學(xué)習(xí)所經(jīng)歷的風(fēng)雨洗禮。為此,本文梳理介紹了適于中高年級本科生吸收消化的三大主流機(jī)器學(xué)習(xí)思想及其代表性方法,從而為學(xué)生進(jìn)行擴(kuò)展性和創(chuàng)新性的機(jī)器學(xué)習(xí)方法學(xué)習(xí)與研究打下良好基礎(chǔ)。
一、符號機(jī)器學(xué)習(xí)
在20世紀(jì)80年代,“樣本集學(xué)習(xí)”的第一大主流就是符號機(jī)器學(xué)習(xí),代表性工作包括決策樹學(xué)習(xí)和基于邏輯的學(xué)習(xí)。決策樹是一種樹型結(jié)構(gòu),其中每個內(nèi)部節(jié)結(jié)點表示在一個屬性上的測試,每一個分支代表一個測試輸出,每個葉結(jié)點代表一種類別。決策樹學(xué)習(xí)算法主要由三部分構(gòu)成:一是特征選擇;二是決策樹生成;三是決策樹剪枝。根據(jù)不同的目標(biāo)函數(shù),決策樹生成代表性方法主要包括以下三種算法:Quinlan的ID3(1979,1986)、Breiman等人的CART(1984)以及Quinlan的C4.5(1993)。主要區(qū)別在于選擇的目標(biāo)函數(shù)不同。簡單地說,決策樹學(xué)習(xí)具有以下優(yōu)點:一是決策樹易于理解和解釋;二是可同時處理標(biāo)稱型和數(shù)值型數(shù)據(jù);三是比較適合處理有缺失屬性的樣本;四是能處理不相關(guān)的特征;五是測試階段效率較高。而決策樹學(xué)習(xí)的缺點也有幾點:一是容易過擬合,基于集成學(xué)習(xí)的隨機(jī)森林正是減少這種過擬合的一劑良藥;二是容易忽略屬性的相互關(guān)聯(lián);三是對于各個類別樣本數(shù)量不一致的數(shù)據(jù)?;谶壿嫷膶W(xué)習(xí)以規(guī)則學(xué)習(xí)(rule learning)為基礎(chǔ),代表性工作是歸納邏輯程序設(shè)計(Inductive Logic Programming)。ILP在一階規(guī)則學(xué)習(xí)中引入了函數(shù)和邏輯表達(dá)式嵌套。一方面,機(jī)器學(xué)習(xí)系統(tǒng)具備了更為強(qiáng)大的表達(dá)能力;另一方面,ILP可看作用機(jī)器學(xué)習(xí)技術(shù)解決基于背景知識的邏輯程序歸納。因此,ILP不僅可以利用領(lǐng)域知識輔助學(xué)習(xí),還可通過學(xué)習(xí)對領(lǐng)域知識進(jìn)行精華和增強(qiáng)。然而,由于ILP的表示能力太強(qiáng),直接導(dǎo)致學(xué)習(xí)過程面臨的假設(shè)空間太大、復(fù)雜度極高,因此在20世紀(jì)90年代中期后這方面的研究相對陷入低潮。
二、統(tǒng)計機(jī)器學(xué)習(xí)
統(tǒng)計學(xué)習(xí)在20世紀(jì)90年代中期逐漸成為機(jī)器學(xué)習(xí)研究的主流,代表性方法是1995年Cortes和Vapnik提出的SVM。事實上,Vapnik在20世紀(jì)60年代就已提出“支持向量”的概念,SVM只是從這個統(tǒng)計理論派生的自然結(jié)果。根據(jù)統(tǒng)計學(xué)中的大數(shù)定律,對于一個學(xué)習(xí)模型f,當(dāng)樣本點的個數(shù)趨于無窮大時,經(jīng)驗風(fēng)險將依概率收斂于期望風(fēng)險。對于線性可分問題,如劃分兩個不相交的凸閉集,統(tǒng)計機(jī)器學(xué)習(xí)的算法設(shè)計就轉(zhuǎn)化為有效地計算兩個閉凸集之間的最大邊緣間隔問題(樣本集的結(jié)構(gòu)),即SVM的算法思想之源。對于線性不可分問題,進(jìn)一步根據(jù)泛函分析中的Mercer定理,SVM把樣本空間映射到一個高維乃至無窮維的特征空間中(Hilbert空間),使得在原來的樣本空間中非線性可分的問題轉(zhuǎn)化為在特征空間中的線性可分的問題。然而,由于大多數(shù)情況下樣本集在統(tǒng)計上不能滿足一致性假設(shè)(同分布),基于集成的多分類機(jī)器學(xué)習(xí)成為SVM的一種有效補充。其核心思想是,集成多個弱分類器,則其分類能力可以成為一個強(qiáng)分類器。之后,Kearns和Valliant提出了強(qiáng)PAC學(xué)習(xí)和弱PAC學(xué)習(xí)的概念。1998年,Schapire等人從邊緣出發(fā)證明了關(guān)于Boosting方法的泛化不等式,其中存在一個類似于前文統(tǒng)計機(jī)器學(xué)習(xí)理論的邊緣變量。1997年Freund和Schapire提出的AdaBoost才具有現(xiàn)實價值。此外,集成學(xué)習(xí)的另一類重要方法是Bagging。隨機(jī)森林(random forest)就是Bagging的一個擴(kuò)展變體,它是在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。但Bagging的工作機(jī)理和理論性質(zhì)與Boosting有著明顯區(qū)別。例如,從偏差-方差分解的角度看,Boosting主要關(guān)注降低偏差,而Bagging主要關(guān)注降低方差。自然地,也有Multi Boosting等方法嘗試將二者的優(yōu)點加以結(jié)合。
三、連接機(jī)器學(xué)習(xí)
以Perceptron為源頭的連接機(jī)器學(xué)習(xí)在經(jīng)歷兩次興起和低谷后,終于在2006年以深度學(xué)習(xí)之名再次興起。深度學(xué)習(xí)之所以被稱為“深度”,是相對支持向量機(jī)SVM、提升方法Boosting、最大熵方法等“淺層學(xué)習(xí)”方法而言的。深度學(xué)習(xí)模型和傳統(tǒng)淺層學(xué)習(xí)模型的區(qū)別為:(1)深度學(xué)習(xí)模型結(jié)構(gòu)含有更多的層次,包含隱層節(jié)點的層數(shù)通常在5層以上,有時甚至包含多達(dá)10層甚至100層以上的隱藏節(jié)點。(2)明確強(qiáng)調(diào)了特征學(xué)習(xí)對于深度模型的重要性,通過逐層特征提取,將數(shù)據(jù)樣本在原空間變換到一個新特征空間來表示初始數(shù)據(jù),使得分類或預(yù)測更容易實現(xiàn)。2011年微軟通過采用深度學(xué)習(xí)技術(shù),大大降低了語音識別的錯誤率。2012年時任谷歌核心人工智能專家的吳恩達(dá)聯(lián)手Jeff Dean一起完成了谷歌大腦系統(tǒng);微軟的首席工程師Rick Rashid展示了一個基于深度學(xué)習(xí)的自動同聲傳譯系統(tǒng),得到好評。2013年,中國百度公司宣布成立百度研究院,成立深度學(xué)習(xí)研究所。2017年,AlphaGo在中國烏鎮(zhèn)圍棋峰會上,與排名世界第一的柯潔對戰(zhàn),以3∶0的比分大獲全勝。目前,深度學(xué)習(xí)方法根據(jù)其具體使用的方法結(jié)構(gòu)不同,分為生成式模型、判別式模型和混合式模型三種。隨著深度學(xué)習(xí)研究的熱潮持續(xù)高漲,各種開源的深度學(xué)習(xí)框架也開始涌現(xiàn)出來,其中包括最常用的Torch、Keras、Theano、PyTorch、Tensorflow等。與其他機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)往往不需要特征工程,也更容易適應(yīng)不同的領(lǐng)域和應(yīng)用;但其明顯的缺點是,在實際問題中,為了實現(xiàn)高性能,往往需要依賴大量標(biāo)注數(shù)據(jù)??傮w來說,目前深度學(xué)習(xí)領(lǐng)域還缺乏嚴(yán)格的理論基礎(chǔ),工程實踐超前,理論進(jìn)展嚴(yán)重滯后,還存在非常廣闊的學(xué)術(shù)研究和工程實踐空間。
四、總結(jié)
本文梳理了適于中高年級本科生吸收消化的三大主流機(jī)器學(xué)習(xí)思想及其代表性方法,期望為學(xué)生進(jìn)行擴(kuò)展性和創(chuàng)新性的機(jī)器學(xué)習(xí)方法學(xué)習(xí)與研究打下良好基礎(chǔ)。注意到,機(jī)器學(xué)習(xí)領(lǐng)域還有三種經(jīng)典技術(shù)路線本文沒做具體介紹,包括貝葉斯機(jī)器學(xué)習(xí)、進(jìn)化機(jī)器學(xué)習(xí)以及強(qiáng)化機(jī)器學(xué)習(xí)。在教學(xué)時間充足或?qū)W生學(xué)有余力的情況下,我們也會以補充材料的形式向?qū)W生做相關(guān)推介。可以肯定的是,當(dāng)學(xué)生在大學(xué)提前進(jìn)入課題組做具體的科研創(chuàng)新項目時,我們會進(jìn)一步向他們系統(tǒng)介紹關(guān)于符號、統(tǒng)計、連接、貝葉斯、進(jìn)化以及強(qiáng)化機(jī)器學(xué)習(xí)的相關(guān)知識、前沿研究與實踐經(jīng)驗。尤其在機(jī)器學(xué)習(xí)方法本身的創(chuàng)新性方面,我們將著重引導(dǎo)學(xué)生進(jìn)行符號學(xué)習(xí)、連接學(xué)習(xí)、貝葉斯學(xué)習(xí)的大融合發(fā)展。這是因為,我們深信真正的人工智能一定是聯(lián)合人類自身的推理能力(顯性或隱性)和數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)能力才將得以實現(xiàn)。
參考文獻(xiàn):
[1]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[2]王玨,石純一.機(jī)器學(xué)習(xí)研究[J].廣西師范大學(xué)學(xué)報(自然科學(xué)版),2003,21(2):1-15.
[3]中國電子技術(shù)標(biāo)準(zhǔn)化研究院.人工智能標(biāo)準(zhǔn)化白皮書[R].2018.
[4]何清,李寧,羅文娟,史忠植.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識別與人工智能,2014,27(4):327-336.
[5]孫正雅,陶卿.統(tǒng)計機(jī)器學(xué)習(xí)綜述:損失函數(shù)與優(yōu)化求解[J].中國計算機(jī)學(xué)會通訊,2009,5(8):7-14.
[6]李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
On the Three Main Lines of Machine Learning Knowledge Imparting and Scientific Research Literacy Cultivation for Middle and Senior Grade Undergraduates
SHAO Wen-ze,LIU Yuan-yuan,XU Yan-li,CHEN Long,CHEN Jie
(College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing,Jiangsu 210003,China)
Abstract:In the new wave of artificial intelligence,machine learning acts as the engine of the core of artificial intelligence.This paper introduces three main machine learning ideas and representative methods suitable for the absorption and digestion of middle-class undergraduates,and aims to lay a good foundation for the follow-up of the students and the learning and research of the innovative machine learning methods.
Key words:connectionism;statistical learning;symbolic learning;artificial intelligence