余濤 賈如春
【摘要】機器學(xué)習(xí)是人工智能中最重要的部分,人工智能區(qū)別于普通的大數(shù)據(jù)分析之處就在于具備了機器學(xué)習(xí)的特點.本文基于機器學(xué)習(xí)人工智能算法進行簡析其原理及應(yīng)用場景,更加理性深入對人工智能技術(shù)進行全面的分析,對人工智能技術(shù)背后數(shù)學(xué)理論及實際應(yīng)用的分析基礎(chǔ)上,對機器學(xué)習(xí)算法主要任務(wù)、深度學(xué)習(xí)發(fā)展動因、深度學(xué)習(xí)算法應(yīng)用進行梳理和分析,提取出人工智能算法主要能夠完成的三類任務(wù),并在技術(shù)層面針對人工智能下一步發(fā)展與應(yīng)用做出了分析和展望.
【關(guān)鍵詞】人工智能;機器學(xué)習(xí);深度學(xué)習(xí);回歸;分類;聚類
伴隨網(wǎng)絡(luò)及計算機技術(shù)的長足發(fā)展,人工智能隨著深度學(xué)習(xí)技術(shù)應(yīng)用的突破取得極大進展,各種落地應(yīng)用及概念產(chǎn)品層出不窮,人們對其在生產(chǎn)生活中的革命性創(chuàng)新充滿期待.機器學(xué)習(xí)的算法很多,其中大部分算法都是一類算法,而有些算法又是從其他算法中延伸出來的.本文從兩個方面來分析算法,一方面,通過學(xué)習(xí)的方式,另外一方面,是算法的類似性;通過人工智能算法脈絡(luò),解析基本算法應(yīng)用場景,使我們對人工智能技術(shù)有一個更為理性深入和全面的理解及思考.
一、機器學(xué)習(xí)方式
根據(jù)數(shù)據(jù)類型的不同,數(shù)學(xué)建模也有不同的方式,在機器學(xué)習(xí)或者人工智能領(lǐng)域中,人們首先會考慮算法的學(xué)習(xí)方式,在機器學(xué)習(xí)中,不同的學(xué)習(xí)方式將算法按照學(xué)習(xí)方式進行分類,在建模和算法選擇的時候考慮能根據(jù)輸入數(shù)據(jù)來選擇最合適的算法來獲得最好的結(jié)果.
(一)強化學(xué)習(xí)
強化學(xué)習(xí)模式下,輸入數(shù)據(jù)作為對模型的反饋,輸入數(shù)據(jù)直接反饋到模型,模型必須對此立刻做出調(diào)整.在企業(yè)數(shù)據(jù)應(yīng)用的場景下人們最常用的可能就是監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)的模型,在圖像識別等領(lǐng)域,由于存在大量的非標(biāo)識的數(shù)據(jù)和少量的可標(biāo)識數(shù)據(jù),目前半監(jiān)督式學(xué)習(xí)是一個很熱門的話題,而強化學(xué)習(xí)更多地應(yīng)用在機器人控制及其他需要進行系統(tǒng)控制的領(lǐng)域.
二、人工智能算法分類
根據(jù)算法的功能和形式的類似性可以把算法分類,比如,基于樹的算法,基于神經(jīng)網(wǎng)絡(luò)的算法等等.當(dāng)機器學(xué)習(xí)的范圍非常龐大的時候,有些算法很難明確歸類到某一類,而對有些分類來說,同一分類的算法可以針對不同類型的問題把常用的算法按照最容易理解的方式進行分類.
(一)回歸算法
機器算法分類中最常見的機器學(xué)習(xí)及其常用算法首當(dāng)其沖是回歸,回歸算法采用對誤差的衡量來探索變量之間的關(guān)系的一類算法,在機器學(xué)習(xí)領(lǐng)域,回歸算法也有很多種,其中最為常用的算法線性回歸是最簡的形式,用一個連續(xù)的超平面來擬合數(shù)據(jù)集;而回歸樹(集成方法)通過將數(shù)據(jù)集重復(fù)分割成不同的分支來最大化每次分離的信息增益,從而讓回歸樹很自然地學(xué)到非線性關(guān)系,集成方法包括隨機森林(RF)或梯度提升樹(GBM);除此之外,還有最鄰近算法和深度學(xué)習(xí).
(二)分類算法
分類算法用于分類變量建模及預(yù)測的監(jiān)督學(xué)習(xí)算法,許多回歸算法都有其對應(yīng)的分類形式,分類算法往往適用于類別(或其可能性)的預(yù)測,而非數(shù)值.其中最為常用的算法主要有五種.
(1)(正則化)邏輯回歸,邏輯回歸通過邏輯函數(shù)將預(yù)測映射到0到1的區(qū)間,因此,預(yù)測值可被視為某一類別的概率.
(2)分類樹(集成方法),對應(yīng)于回歸樹的分類算法是分類樹.通常它們都是指決策樹,更為嚴(yán)謹(jǐn)?shù)恼f法是“分類回歸樹”,也就是非常有名的CART算法.
(1)支持向量機,支持向量機使用一個名為核函數(shù)的技巧,來將非線性問題變換為線性問題,其本質(zhì)是計算兩個觀測數(shù)據(jù)的距離.支持向量機算法所尋找的是能夠最大化樣本間隔的決策邊界,因此,又被稱為大間距分類器.
(2)樸素貝葉斯,基于條件概率和計數(shù)的簡單算法,其本質(zhì)是一個概率表,通過訓(xùn)練數(shù)據(jù)來更新其中的概率.其核心的特征條件獨立性假設(shè)(例如,每一項輸入特征都相互獨立)在現(xiàn)實中幾乎是不成立的.
(三)聚類算法
聚類算法基于數(shù)據(jù)內(nèi)部結(jié)構(gòu)來尋找樣本自然族群(集群)的無監(jiān)督學(xué)習(xí)任務(wù),使用案例包括用戶畫像、電商物品聚類、社交網(wǎng)絡(luò)分析等.而在機器學(xué)習(xí)領(lǐng)域內(nèi),兩個最為重要的概念是維度及特征選取.其中“維度(DIMENSIONALITY)”通常指數(shù)據(jù)集中的特征數(shù)量(即輸入變量的個數(shù)).而特征選取是從數(shù)據(jù)集中過濾掉不相關(guān)或冗余的特征.
三、人工智能深度學(xué)習(xí)的發(fā)展及應(yīng)用
傳統(tǒng)機器學(xué)習(xí)算法在語音識別、物體識別方面無法有效展開應(yīng)用,其重要原因之一就是這類算法無法使用語音及圖像的高維度數(shù)據(jù)(High-dimensional Data)在高維空間學(xué)習(xí)復(fù)雜的函數(shù),即使算力極為豐富的現(xiàn)階段也無法有效滿足其算力需求;因此,深度學(xué)習(xí)方法應(yīng)運而生,傳統(tǒng)機器學(xué)習(xí)算法所面臨的問題被稱作維度詛咒(Curse of Dimensionality),高維度數(shù)據(jù)的參數(shù)設(shè)置需求隨著變量的增加呈指數(shù)型增長,對計算能力提出了極大挑戰(zhàn),近乎無法完成.而深度學(xué)習(xí)采用多層調(diào)參,層層收斂的方式,將參數(shù)數(shù)量始終控制在一個較為合理的水平,使得原本不可計算的模型可運算.深度學(xué)習(xí)CNN及RNN兩類網(wǎng)絡(luò)的基本原理在多種識別、感知任務(wù)中應(yīng)用實施,表現(xiàn)優(yōu)異.作為人工智能技術(shù)未來重要發(fā)展方向之一的遷移學(xué)習(xí),人工智能技術(shù)的快速發(fā)展,相關(guān)知識沉淀,面對當(dāng)前深度學(xué)習(xí)算法及網(wǎng)絡(luò)發(fā)展日新月異,人工智能技術(shù)發(fā)展將廣泛應(yīng)用于中國2025制造及未來工業(yè)4.0中.