江西財經(jīng)大學軟件與物聯(lián)網(wǎng)工程學院|胡文穎
隨著人工智能的三大核心要素,算法、算力、數(shù)據(jù)的日益完善,人工智能眾多應用型技術(shù)也開始逐漸滲透到各個行業(yè),影響著人類的生活方式,可見,工業(yè)革命的馬拉松還未跑完,而我們已經(jīng)逐步邁進智能新時代。
以18世紀為起點的300余年間,世界跑完了一場關于自動化、電氣化、信息化三次工業(yè)革命的馬拉松。近年,隨著人工智能的三大核心要素,算法、算力、數(shù)據(jù)的日益完善,人工智能眾多應用型技術(shù)也逐漸滲透到各個行業(yè)、影響著人類生活方式,可見,工業(yè)革命的馬拉松還未跑完,而我們正逐步邁進智能新時代。
筆者將分別從人工智能最基本的幾個模塊,語音識別、自然語言處理、計算機視覺、決策規(guī)劃系統(tǒng)著手,回顧人工智能一路以來的發(fā)展脈絡,以史為鏡、正視未來。
語音識別
人類最直接最簡潔的交流方式——語音識別,一直是人工智能實現(xiàn)人機交互尋求突破的一大目標。在1952年,第一個基于電子計算機的語音識別系統(tǒng)“Audrey”面世,作為“開山鼻祖”,它能夠識別10個英文數(shù)字,正確率高達98%。之后的70年代,全球開始風靡大規(guī)模的語音識別研究,但認知局限使得當時的研究僅停留在對孤立詞、小詞匯量句子的識別上。
由于全球性電傳業(yè)務積累了大量文本,且文本可作為機讀語料用于模型的訓練和統(tǒng)計,1980年代就成為了技術(shù)取得突破的時代,研究的重點也轉(zhuǎn)向了大詞匯量和非特定人的連續(xù)語音識別上,同時研究思路從基于匹配轉(zhuǎn)變?yōu)榛诮y(tǒng)計,隱馬爾科夫模型(HMM)的理論和應用趨于完善。20世紀90年代是語音識別基本成熟的時期,但識別效果的實用價值仍然需要完善,語音識別研究的進展也趨緩。
隨著深度神經(jīng)網(wǎng)絡(DNN)被應用到語音的聲學建模中,系統(tǒng)的持續(xù)改進使深層卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡(RNN)出現(xiàn),這樣,識別效果就得到了明顯的提升,許多語音識別任務,尤其是近場語音識別任務達到可以進入人們?nèi)粘I畹臉藴?。以Apple Siri為首的智能語音助手、以Echo為首的智能硬件入口等應用的普及,進一步擴充了語料資源的收集渠道,使得構(gòu)建大規(guī)模通用語言模型和聲學模型將成為可能。表1為語音識別技術(shù)的發(fā)展歷程。
能否自然地與人類進行交流、理解人們表達的意思并做出合適的回應,是衡量機器智能程度的一個重要參照,因此自然語言處理成為人工智能的核心問題。
早在上世紀50年代,IBM第一臺正式對外發(fā)布的IBM-701計算機進行了世界上第一次機器翻譯試驗,把幾個簡單的俄語句子翻譯成了英文。當時,人們對于自然語言處理存在兩派不同的處理方法。一種是基于規(guī)則的符號派,另一種為基于概率的隨機派,而受限于當時的數(shù)據(jù)和算力,規(guī)則派的研究更具優(yōu)勢。而在翻譯方面,人們認為機器的翻譯過程是在解讀密碼,于是試圖讓機器通過查詢詞典的方式來實現(xiàn)翻譯,但達到的結(jié)果卻不令人滿意:翻譯效果不佳、難以實用。
1966年,美國科學院的語言自動處理咨詢委員會(ALPAC)發(fā)布題為《語言與機器》的研究報告,全面否定了機器翻譯的可行性,因此許多國家開始大幅度減少在這方面的經(jīng)費投入,自然語言研究從此陷入低谷。但研究者們從中意識到機器和人類兩種語言間的差異體現(xiàn)在詞匯和句法結(jié)構(gòu)上,通過加強對語言模型和語義分析的研究,可以提升譯文的可讀性。
表1 語音識別技術(shù)發(fā)展歷程
表2 自然語言處理功能發(fā)展歷程
表3 計算機視覺別技術(shù)發(fā)展歷程
?
1976年,是具有里程碑意義的一個時間點。這一年,加拿大蒙特利爾大學與加拿大聯(lián)邦政府翻譯局聯(lián)合開發(fā)了名為TAUMMETEO的機器翻譯系統(tǒng),提供天氣預報服務。這個系統(tǒng)每小時翻譯6-30萬個詞,每天可翻譯1-2千篇氣象資料,并能夠通過電視、報紙立即公布資料。到了90年代,自然語言處理進入了發(fā)展時期。
2010年,基于淺層、深層學習技術(shù)和大數(shù)據(jù),自然語言處理的功能得到了進一步優(yōu)化,專門的智能翻譯產(chǎn)品面世,對話交互能力被應用在客服機器人、智能助手等產(chǎn)品中。機器翻譯方面,谷歌推出的神經(jīng)網(wǎng)絡機器翻譯(GNMT)相比傳統(tǒng)的基于詞組的機器翻譯(PBMT),英語到西班牙語的錯誤率下降87%,英文到中文的錯誤率下降58%,取得了非常顯著的提升。表2為自然語言處理功能的發(fā)展歷程。
90年代,計算機視覺技術(shù)取得了更大的發(fā)展,開始廣泛應用于工業(yè)領域。一方面是圖像處理硬件技術(shù)有了飛速進步,另一方面是人們也開始嘗試不同的算法,包括統(tǒng)計方法和局部特征描述符的引入。在“先驗知識庫”的方法中,事物的形狀、顏色、表面紋理等特征受到視角和觀察環(huán)境所影響,在不同角度、不同光線、不同遮擋的情況下會產(chǎn)生變化。因此,人們找到了一種方法:通過局部特征的識別來判斷事物,對事物建立一個局部特征索引,即使視角或觀察環(huán)境發(fā)生變化,也能較準確的匹配上。
21世紀,以往許多基于規(guī)則的處理方式,都被機器學習所替代:自動從海量數(shù)據(jù)中總結(jié)歸納物體的特征,然后進行識別和判斷。這一階段涌現(xiàn)出了非常多的應用,包括典型的相機人臉檢測、安防人臉識別、車牌識別等。
2010年,借助于深度學習的力量,計算機視覺技術(shù)得到了爆發(fā)增長和產(chǎn)業(yè)化,應用場景也快速擴展。除了在比較成熟的安防領域應用外,也有應用在金融領域的人臉識別身份驗證、電商領域的商品拍照搜索、醫(yī)療領域的智能影像診斷、機器人/無人車上作為視覺輸入系統(tǒng)等,包括許多有意思的場景:照片自動分類(圖像識別+分類)、圖像描述生成(圖像識別+理解)等。圖為計算機視覺別技術(shù)的發(fā)展歷程。
人工智能規(guī)劃決策系統(tǒng)的發(fā)展,一度是以棋類游戲為載體的。早在18世紀,就出現(xiàn)過一臺可以下棋的機器,當時幾乎擊敗了所有人類棋手,后來才知道,這僅是一場騙局罷了。之后,電子計算機誕生,1962年基于人工智能的規(guī)劃決策系統(tǒng)出現(xiàn),Arthur Samuel屢次改進的西洋跳棋程序Checkers終于戰(zhàn)勝了人類棋手的州冠軍,證明程序已具備了初步的自我學習能力,使得這場勝利在當時引起了巨大的轟動。
但人工智能所面臨的困難比人們想象的還要難得多。人們開始將“剪枝法”運用到了估值函數(shù)中,通過剔除低可能性的走法優(yōu)化最終的估值函數(shù)計算。在此改進下,西北大學開發(fā)的象棋程序Chess 4.5在1976年首次擊敗了頂尖人類棋手。隨著算法上的不斷優(yōu)化,國際象棋程序由80年代開始,在判斷能力和計算速度方面大幅提升,幾乎已經(jīng)能夠擊敗所有頂尖的人類棋手。
2016年,硬件層面出現(xiàn)了基于GPU、TPU的并行計算,算法層面上出現(xiàn)蒙特卡洛決策樹與深度神經(jīng)網(wǎng)絡的結(jié)合。4∶1戰(zhàn)勝李世石、在野狐圍棋對戰(zhàn)頂尖棋手60連勝、3∶0戰(zhàn)勝世界排名第一的圍棋選手柯潔,足以表明人類在博弈游戲中已經(jīng)完全敗給機器。由此,從棋類游戲中積累的知識和經(jīng)驗被應用在更廣泛的需要決策規(guī)劃的領域,包括機器人控制、無人車等等,人工智能進入一個新的發(fā)展階段。
表4 規(guī)劃決策系統(tǒng)發(fā)展歷程