劉俊一
(山東省新泰市第一中學(xué)北校,新泰 271200)
人工智能是智能機(jī)器如計(jì)算機(jī)所執(zhí)行的與人類智能有關(guān)的功能,如識別、判斷、證明、學(xué)習(xí)等思維活動。這反映了人工智能學(xué)科的基本思想和內(nèi)容,即人工智能是研究人類智能活動的規(guī)律的一門學(xué)科。1956年夏,以麥卡賽、明斯基、羅切斯特和申農(nóng)等為首的一批杰出的年輕科學(xué)家在一次會議上首次提出了 人工智能 這一概念。人工智能開始迅速發(fā)展是在計(jì)算機(jī)出現(xiàn)后,因?yàn)槿藗冋嬲辛丝梢阅M人類思維的工具?,F(xiàn)如今人工智能已經(jīng)不再是一個小眾化的研究課題了,全世界幾乎所有的理工科類大學(xué)都在研究這門學(xué)科,甚至為此設(shè)立專門的研究機(jī)構(gòu)。越來越多的學(xué)習(xí)計(jì)算機(jī)、自動控制和軟件工程專業(yè)的本科生或研究生將人工智能作為自己的研究方向。在科學(xué)家的不懈努力下,如今計(jì)算機(jī)與原來相比已經(jīng)變得十分聰明了,某些時候計(jì)算機(jī)已經(jīng)可以完成原來只屬于人類的工作,且其高速性和準(zhǔn)確性是人類遠(yuǎn)不可及的。
機(jī)器學(xué)習(xí)是一門涉及多領(lǐng)域的交叉學(xué)科,其包含高等數(shù)學(xué)、統(tǒng)計(jì)學(xué)、概率論、凸分析、逼近論等多門學(xué)科。該學(xué)科專門研究計(jì)算機(jī)應(yīng)如何模擬并實(shí)現(xiàn)人類的學(xué)習(xí)行為,以獲取人類所不了解的新的知識,并使計(jì)算機(jī)能夠使用已有的知識或經(jīng)驗(yàn)不斷改善自身的性能以得到更加精確的知識。機(jī)器學(xué)習(xí)是人工智能研究領(lǐng)域中最重要的分支之一,其發(fā)展歷程大體可分為4個時期。第一階段是在20世紀(jì)50年代中期到60年代中期,此階段研究課題剛被提出,處于 推理期 ,大量的相關(guān)理論被提出并驗(yàn)證。第二階段是在20世紀(jì)60年代中期到70年代中期,機(jī)器學(xué)習(xí)進(jìn)入冷靜階段,科學(xué)家們開始反思僅僅有邏輯推理能力是無法實(shí)現(xiàn)人工智能的。第三階段是從20世紀(jì)70年代中期到80年代中期,機(jī)器學(xué)習(xí)成果處于井噴時期,大量的專家系統(tǒng)問世。目前機(jī)器學(xué)習(xí)研究狀態(tài)處于第四階段,始于80年代中期,此時機(jī)器學(xué)習(xí)成為了一個獨(dú)立的學(xué)科領(lǐng)域并開始快速發(fā)展。
世界各國政府高度重視人工智能以及其相關(guān)產(chǎn)業(yè)的發(fā)展。自人工智能于20世紀(jì)50年代誕生至今,各國對人工智能領(lǐng)域的科研投入逐年增加。美國作為人工智能領(lǐng)域研究最發(fā)達(dá)的國家,其政府主要通過吸引公共投資的方式推進(jìn)人工智能產(chǎn)業(yè)的快速發(fā)展,2013年美國在先進(jìn)制造業(yè)方面投入22億美元的國家預(yù)算,其中主要研究方向之一便是 國家機(jī)器人計(jì)劃 。
目前,人工智能領(lǐng)域的技術(shù)突破重點(diǎn)有兩個:第一個是云機(jī)器人技術(shù),第二個是人腦仿生計(jì)算技術(shù)。伴隨著網(wǎng)絡(luò)設(shè)施全球性的普及,大數(shù)據(jù)、云計(jì)算等技術(shù)的快速發(fā)展,機(jī)器人成本的不斷降低和量產(chǎn)化目標(biāo)的階段性實(shí)現(xiàn),智能機(jī)器人通過網(wǎng)絡(luò)獲得數(shù)據(jù)并對其進(jìn)行處理與分析將成為可能。現(xiàn)階段國外智能機(jī)器人相關(guān)研究方向包括:構(gòu)建網(wǎng)絡(luò)互聯(lián)機(jī)器人系統(tǒng)平臺、建立基于開放系統(tǒng)的機(jī)器人架構(gòu)、機(jī)器人網(wǎng)絡(luò)平臺的算法和圖像處理系統(tǒng)開發(fā)、云機(jī)器人相關(guān)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的研究等。
國內(nèi)的互聯(lián)網(wǎng)公司在人工智能領(lǐng)域上最強(qiáng)的當(dāng)屬百度,其次為阿里巴巴和騰訊。百度最近取得的一項(xiàng)重大成果是Deep Speech2語音識別系統(tǒng),成功入選MIT科技評論的2016十大進(jìn)步技術(shù),也是唯一一家入選的中國公司。阿里巴巴在人工智能領(lǐng)域的最典型也是最成功的應(yīng)用就是智能客服,阿里客服的工作量越來越大,而這些工作逐漸會被安裝有人工智能的智能客服替代。而語音自動轉(zhuǎn)接、情感識別與關(guān)鍵詞識別等技術(shù)已經(jīng)投入使用中。騰訊方面, 騰訊優(yōu)圖 團(tuán)隊(duì)在人臉識別方向處于國際領(lǐng)先地位,為QQ、財(cái)付通、微眾銀行等提供圖像和模式識別技術(shù)支持。除了BAT之外,國內(nèi)也有一些技術(shù)型公司做得不錯,比如科大訊飛、思必馳,在語音識別方向取得了不錯的成績。
當(dāng)前,屬于機(jī)器學(xué)習(xí)范疇的基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)是人工智能方向最熱門的研究領(lǐng)域,被Google,F(xiàn)acebook,IBM,百度,NEC以及其他互聯(lián)網(wǎng)公司廣泛使用,用來進(jìn)行圖像和語音識別。人工神經(jīng)網(wǎng)絡(luò)從20世紀(jì)80年代興起,經(jīng)過科學(xué)家們的不懈努力,相關(guān)算法不斷被優(yōu)化并處于持續(xù)改進(jìn)和創(chuàng)新之中,同時也受益于計(jì)算機(jī)技術(shù)的快速發(fā)展,現(xiàn)在科學(xué)家可以通過GPU模擬建立超大型的人工神經(jīng)網(wǎng)絡(luò);互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,為深度學(xué)習(xí)提供了百萬級的樣本進(jìn)行訓(xùn)練,在上述三個因素共同作用下現(xiàn)在的語音識別技術(shù)和圖像識別技術(shù)能夠達(dá)到90%以上的準(zhǔn)確率。
這種類型算法由一個目標(biāo)變量或結(jié)果變量組成。利用這一系列變量,我們可以生成一個將輸入值映射到期望輸出值的函數(shù)。這個訓(xùn)練過程會一直持續(xù),直到模型在訓(xùn)練數(shù)據(jù)上獲得期望的精確度。
3.1.1 線性回歸算法
線性回歸通常用于根據(jù)連續(xù)變量估計(jì)實(shí)際數(shù)值。我們通過擬合最佳直線來建立自變量和因變量的關(guān)系。這條最佳直線叫作回歸線,并且用Y=a*X+b這條線性等式來表示。
線性回歸的兩種主要類型是一元線性回歸和多元線性回歸。一元線性回歸的特點(diǎn)是只有一個自變量。多元線性回歸的特點(diǎn)正如其名,存在多個自變量。
3.1.2 邏輯回歸算法
需要注意的是,邏輯回歸算法是一個分類算法而不是一個回歸算法。該算法可根據(jù)已知的一系列因變量估計(jì)離散數(shù)值,比如二進(jìn)制數(shù)值0或1。
通俗來說,該算法通過將數(shù)據(jù)進(jìn)行擬合成一個邏輯函數(shù)來預(yù)估一個事件出現(xiàn)的概率。因此,被稱為邏輯回歸。因?yàn)樗惴ㄝ敵龅臑槭录l(fā)生概率,所以其輸出值應(yīng)該在0至1之間。
3.1.3 支持向量機(jī)
支持向量機(jī)是一種分類方法。其將每個數(shù)據(jù)在N維空間中用點(diǎn)標(biāo)出,N是特征總數(shù),每個特征的值是一個坐標(biāo)的值。算法旨在找到將兩組不同數(shù)據(jù)分開的一條直線,兩個分組中距離最近的兩個點(diǎn)到這條線的距離同時最優(yōu)化。該算法通常是分析線性可分上午特征情況,對于線性不可分的情況,可以通過使用非線性映射算法將低維特征空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得在高維特征空間采用線性算法比如支持向量機(jī)對樣本的非線性特征進(jìn)行線性分析成為可能。
支持向量機(jī)本質(zhì)是使用結(jié)構(gòu)風(fēng)險最小化理論在特征空間中構(gòu)建最優(yōu)超平面,使得訓(xùn)練模型得到全局最優(yōu)化,并且在整個樣本空間的期望以某個概率滿足一定上界。
3.1.4 樸素貝葉斯算法
樸素貝葉斯是一種簡單但是非常強(qiáng)大的文本型線性分類器。其在垃圾郵件分類,疾病診斷中都取得了很大的成功。
人們之所以稱其為樸素,是因?yàn)樵撍惴僭O(shè)特征之間是相互獨(dú)立的,即屬性之間互不相關(guān),但其實(shí)在現(xiàn)實(shí)生活中,這種假設(shè)基本上是不成立的??墒羌词故窃诩僭O(shè)不成立的情況下,其算法模型依然有很好的效果,尤其是在小規(guī)模樣本的分類中。但是,若每個特征或?qū)傩灾g有很強(qiáng)的相關(guān)性或在處理非線性的分類問題時會導(dǎo)致樸素貝葉斯模型的分類效果不佳。
這種類型算法中,沒有任何目標(biāo)變量或結(jié)果變量要預(yù)測或估計(jì)。此類型算法通常用于不同的組內(nèi)聚類分析。這種分析方式被廣泛地用來細(xì)分客戶,根據(jù)干預(yù)的方式分為不同的用戶組。
K均值算法主要用來解決聚類問題。其每輪迭代的實(shí)現(xiàn)步驟為:在原始數(shù)據(jù)中選擇k個點(diǎn),這些點(diǎn)稱作為質(zhì)心,形成原始的k個簇;每個數(shù)據(jù)點(diǎn)被劃入與之距離最近的質(zhì)心所在的簇;根據(jù)現(xiàn)有的簇成員,找出該簇新的質(zhì)心;重復(fù)步驟2和步驟3,最終得到k個簇與k個新質(zhì)心。反復(fù)迭代,直到數(shù)據(jù)收斂,即質(zhì)心不再改變或只是微小變化。最終,能將數(shù)據(jù)分類為k類,并且這k類是在人們完全未知的情況下分類出來的。
強(qiáng)化學(xué)習(xí)旨在訓(xùn)練機(jī)器并使之能夠進(jìn)行決策,其工作原理為:機(jī)器如計(jì)算機(jī)被放在一個能讓它通過反復(fù)試驗(yàn)來訓(xùn)練自己的環(huán)境中,讓其從過去的經(jīng)驗(yàn)中反復(fù)進(jìn)行學(xué)習(xí),并且嘗試從經(jīng)驗(yàn)中學(xué)習(xí)最新的知識并能對未知情況作出精確的判斷。
依托于計(jì)算機(jī)的人工智能技術(shù)有了飛躍式的發(fā)展。不可否認(rèn),機(jī)器學(xué)習(xí)的確能使現(xiàn)有的計(jì)算機(jī)擁有一定的模擬和學(xué)習(xí)能力,但是只有非常有限的學(xué)習(xí)能力,很難滿足科技和生產(chǎn)日益發(fā)展提出的新時代要求。因此,對機(jī)器學(xué)習(xí)理論與算法層面基礎(chǔ)性的研究,必將促使人工智能領(lǐng)域乃至整個科學(xué)技術(shù)的進(jìn)一步發(fā)展。目前,深度學(xué)習(xí)的提出者,機(jī)器學(xué)習(xí)行業(yè)巨頭Hinton提出了突破性的Capsule計(jì)劃,這必將進(jìn)一步引領(lǐng)深度學(xué)習(xí)的研究熱潮。相信不久的將來,人工智能將會滲透我們的生活,影響我們生活的點(diǎn)點(diǎn)滴滴。
[1] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[2] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[3] 朱祝武.人工智能發(fā)展綜述[J].中國西部科技,2011,10(17):8-10.
[4] 陳慶霞.人工智能研究綱領(lǐng)的發(fā)展歷程和前景[J].科技信息,2008,20(33):49,234.
[5] 肖斌.對人工智能發(fā)展新方向的思考[J].信息技術(shù),2009,37(12):166-169.
[6] 韋淋元.人工智能發(fā)展的困境和出路[D].廣西師范大學(xué),2009:1-35.
[7] 何清,李寧,羅文娟等.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[C].中國計(jì)算機(jī)學(xué)會人工智能會議,2013.