崔雍浩,商 聰,陳鍶奇,郝建業(yè)
(天津大學(xué) 智能與計算學(xué)部,天津 300350)
人工智能是集合了計算機科學(xué)、邏輯學(xué)、生物學(xué)、心理學(xué)和哲學(xué)等眾多學(xué)科,在語音識別、圖像處理、自然語言處理、自動定理證明及智能機器人等應(yīng)用領(lǐng)域取得了顯著成果[1]。人工智能在社會發(fā)展中扮演著不可或缺的角色。人工智能在提升勞動效率、減低勞動成本、優(yōu)化人力資源結(jié)構(gòu)及創(chuàng)造新的工作崗位需求方面帶來了革命性的成果。人工智能的出現(xiàn)為疲軟的全球經(jīng)濟提供了新的動力,提升了全球GDP的增長速度。
人工智能規(guī)模發(fā)展迅速,截至2018年,中國人工智能市場規(guī)模已達238.2億元。人工智能的產(chǎn)生已經(jīng)為人類創(chuàng)造出很大的經(jīng)濟效益,正在惠及生活的方方面面,無人駕駛、人工智能醫(yī)療及語音識別等,為人類的生活提供了便利。同時人工智能的出現(xiàn),取代了很多傳統(tǒng)崗位,同時也創(chuàng)造了很多新的崗位來消化社會勞動力。人工智能的出現(xiàn)極大地推動了社會發(fā)展,讓社會發(fā)展步入新的時期。
人工智能雛形的出現(xiàn)是在1955年,在一次“學(xué)習(xí)機器討論會”上,著名的科學(xué)家艾倫·紐厄爾和奧利弗·塞弗里奇分別提出了下棋與計算機模式識別的研究[2]。在次年的達特茅斯會議上,提出了“人工智能”一詞,并討論確定了人工智能最初的發(fā)展路線與發(fā)展目標(biāo)[3]。之后由阿瑟·塞繆爾提出了機器學(xué)習(xí)理論,根據(jù)這一理論編寫完成了能夠與人類進行對弈的西洋跳棋程序,并于1962年戰(zhàn)勝了美國的西洋跳棋大師[4-5]。20世紀70年代中葉符號學(xué)派走向低谷,以仿生學(xué)為基礎(chǔ)的研究學(xué)派逐漸火熱。神經(jīng)網(wǎng)絡(luò)由于BP算法的廣泛應(yīng)用獲得了高速發(fā)展[1]。在大環(huán)境下,專家系統(tǒng)的大量使用使工業(yè)界節(jié)約了大量成本,提升了產(chǎn)業(yè)效益。例如價值上億的礦藏由PROSPECTOR專家系統(tǒng)成功地分析得出[6]。在此之后,人們開始嘗試研究具有通用性的人工智能程序,卻遇到了嚴重的阻礙,陷入停滯。人工智能又一次步入低谷。1997年,“深藍”的成功讓人工智能的發(fā)展又提上日程。隨著算力的增加,人工智能的瓶頸被打破,為基于大數(shù)據(jù)的深度學(xué)習(xí)與增強學(xué)習(xí)提供了發(fā)展的可能[7]。GPU不斷發(fā)展,與此同時定制化處理器的研制成功使算力不斷提升,為人工智能的爆發(fā)提供了基礎(chǔ)。在無人駕駛領(lǐng)域北京地平線信息技術(shù)有限公司,發(fā)布了一款嵌入式視覺芯片,主要針對無人駕駛汽車領(lǐng)域。阿里投資千億成立“達摩院”,在機器學(xué)習(xí)等方面開展研究和進行產(chǎn)品開發(fā)。人工智能步入了快速發(fā)展期。
如圖1[8]所示,人工智能自出現(xiàn)以來,經(jīng)歷了兩次低谷三次浪潮,現(xiàn)在正處于人工智能的第三次浪潮,人工智能正在快速發(fā)展,為生產(chǎn)力的提升提供變革的動力。
圖1 人工智能發(fā)展歷程
人們認識世界,91%是通過視覺來實現(xiàn)。同樣,計算機視覺的最終目標(biāo)就是讓計算機能夠像人一樣通過視覺來認識和了解世界,它主要是通過算法對圖像進行識別分析,目前計算機視覺最廣泛的應(yīng)用是人臉識別和圖像識別。
2.1.1 圖像分類
傳統(tǒng)圖像分類的方法主要經(jīng)過2個步驟:特征提取和訓(xùn)練分類器。
特征提取通用的方法主要包括2種,使用通用特征提取和使用自己設(shè)計的特征提取。例如在人臉識別中,使用HOG,LBP等通用特征進行檢測。選定特征之后,使用傳統(tǒng)的機器學(xué)習(xí)方法,例如adaboost等建模方法訓(xùn)練分類模型,然后選擇效果最好的模型進行調(diào)參,最終生成人臉檢測模型。
自2015年之后,圖像處理使用深度學(xué)習(xí)[9]進行分類的方法得到了廣泛應(yīng)用。神經(jīng)網(wǎng)絡(luò)通過神經(jīng)元構(gòu)建成網(wǎng)絡(luò),通過激活函數(shù)使模型具有非線性擬合能力。只需要給模型設(shè)計好輸入和輸出,模型就能自動學(xué)習(xí)特征提取和訓(xùn)練分類器的過程。深度學(xué)習(xí)的使用讓圖像分類過程中最為費時費力的過程得以簡化,提升了圖像分類的效果和效率。VGG[10],ResNet(殘差神經(jīng)網(wǎng)絡(luò)),inception這幾種結(jié)構(gòu)是工程中最常用的。工程上使用的模型必須要兼顧效率和效果,即在保證精度的同時也要保證速度。所以,在訓(xùn)練好模型之后會對模型進行微調(diào)和縮減。FRCNN[11],Mask-RCNN[12],YOLO[13]是現(xiàn)在常用的網(wǎng)絡(luò)模型,這幾個模型擁有的共同點就是精度高、速度快。例如應(yīng)用在人臉識別領(lǐng)域,這幾個模型都可以實時檢測并得出結(jié)果。
2.1.2 目標(biāo)跟蹤
目標(biāo)跟蹤主要有3類算法,相關(guān)濾波算法、檢測與跟蹤相結(jié)合的算法和基于深度學(xué)習(xí)的算法。
相關(guān)濾波(Correlation Filter,CF)是當(dāng)前研究的一個重點,最初它應(yīng)用在信號領(lǐng)域,之后引入目標(biāo)跟蹤領(lǐng)域。它引入了快速傅里葉變換從而使得算法效率得到有效提升。MOSSE[14]是目標(biāo)檢測算法中應(yīng)用最早的算法。在研究過程中在實時性應(yīng)用方面做出突破的算法是CSK[15]。在CSK的基礎(chǔ)上進行改進,產(chǎn)生了KCF算法[16]。之后還提出了CN[17],DSST[18],SRDCF[19]等算法。
檢測與跟蹤相結(jié)合的算法,簡單來說就是目標(biāo)跟蹤的判別式算法。算法的實現(xiàn)理念是先找出目標(biāo)的位置,然后再對目標(biāo)進行跟蹤。
深度學(xué)習(xí)的推廣也影響到目標(biāo)跟蹤研究?;谏疃葘W(xué)習(xí)的算法有分類和回歸兩類。R-CNN[20],F(xiàn)ast R-CNN[21],F(xiàn)aster R-CNN[22]是基于分類的算法。3種算法最大的不同在于檢測窗口的選擇,R-CNN采用滑動窗口,F(xiàn)ast R-CNN采用Selective Search,F(xiàn)aster R-CNN采用RPN。
2.1.3 語義分割
計算機視覺就是將圖片分割成像素,然后對像素進行處理。語義分割的意義是理解分割后像素的含義,例如圖片中識別人、摩托、汽車及路燈等,它需要對密集的像素進行判別。卷積神經(jīng)網(wǎng)絡(luò)推動了語義分割算法的發(fā)展。語義分割中最基礎(chǔ)的方法是通過滑動的窗口進行分類預(yù)測。
2014年,全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)的出現(xiàn)替代了網(wǎng)絡(luò)全連接層?;贔CN研究出Encoder-Decoder架構(gòu)。Encoder是降低空間維度的操作,Decoder是恢復(fù)空間維度和細節(jié)信息的操作。之后空洞卷積(Dialated/Atrous)取代了Pooling操作??斩淳矸e的優(yōu)點是它可以保持空間分辨率。除了之前的幾種方法,還有一種叫條件隨機場(Conditional Random Fields,CRFs)[23]的方法來提升分割效果。
機器學(xué)習(xí)的基本思想是通過計算機對數(shù)據(jù)的學(xué)習(xí)來提升自身性能的算法。機器學(xué)習(xí)中需要解決的最重要的4類問題是預(yù)測、聚類、分類和降維。
機器學(xué)習(xí)按照學(xué)習(xí)方法分類可分為:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。
2.2.1 監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)指的是用打好標(biāo)簽的數(shù)據(jù)訓(xùn)練預(yù)測新數(shù)據(jù)的類型或值。根據(jù)預(yù)測結(jié)果的不同可以分為2類:分類和回歸。監(jiān)督學(xué)習(xí)的典型方法有SVM和線性判別。
回歸問題指預(yù)測出一個連續(xù)值的輸出,例如可以通過房價數(shù)據(jù)的分析,根據(jù)樣本的數(shù)據(jù)輸入進行擬合,進而得到一條連續(xù)的曲線用來預(yù)測房價。
分類問題指預(yù)測一個離散值的輸出,例如根據(jù)一系列的特征判斷當(dāng)前照片是狗還是貓,輸出值就是1或者0。
2.2.2 無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)是在數(shù)據(jù)沒有標(biāo)簽的情況下做數(shù)據(jù)挖掘,無監(jiān)督學(xué)習(xí)主要體現(xiàn)在聚類。簡單來說是將數(shù)據(jù)根據(jù)不同的特征在沒有標(biāo)簽的情況下進行分類。無監(jiān)督學(xué)習(xí)的典型方法有k-聚類及主成分分析等。
k-聚類的一個重要前提是數(shù)據(jù)之間的區(qū)別可以用歐氏距離度量,如果不能度量的話需要先轉(zhuǎn)換為可用歐式距離度量。
主成分分析是一種統(tǒng)計方法。通過使用正交變換將存在相關(guān)性的變量,變?yōu)椴淮嬖谙嚓P(guān)性的變量,轉(zhuǎn)換之后的變量叫做主成分。其基本思想就是將最初具有一定相關(guān)性的指標(biāo),替換為一組相互獨立的綜合指標(biāo)。
2.2.3 半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)根據(jù)字面意思可以理解為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的混合使用。事實上是學(xué)習(xí)過程中有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)相互混合使用。一般情況下無標(biāo)簽數(shù)據(jù)比有標(biāo)簽數(shù)據(jù)量要多得多。半監(jiān)督學(xué)習(xí)的思想很理想化,但是在實際應(yīng)用中不多。一般常見的半監(jiān)督學(xué)習(xí)算法有自訓(xùn)練算法(Self-training)、基于圖的半監(jiān)督算法(Graph-based Semi-supervised Learning)和半監(jiān)督支持向量機(S3VM)。
2.2.4 強化學(xué)習(xí)
隨著Alpha Go的火熱,強化學(xué)習(xí)成為了當(dāng)前最火熱的研究領(lǐng)域之一,強化學(xué)習(xí)詞熱點居高不下。強化學(xué)習(xí)是通過與環(huán)境的交互獲得獎勵,并通過獎勵的高低來判斷動作的好壞進而訓(xùn)練模型的方法。強化學(xué)習(xí)中探索和開發(fā)的權(quán)重高低是一個難題:為獲得更好的獎勵必須盡量選擇能獲得高獎勵的動作,但是為了獲得更好的獎勵,也必須要挖掘未知的動作。
過了大約二十分鐘,兩人返回案發(fā)現(xiàn)場。陸叔叔一臉狐疑,難以置信地搖著頭,不停地說“奇怪”,霍鐵則眉頭緊鎖,一言不發(fā)。
強化學(xué)習(xí)的基礎(chǔ)來源于行為心理學(xué)。在1911年Thorndike提出了效用法則,即在環(huán)境中讓人或者動物感到舒服的動作,人或者動物會不斷強化這一動作。反之,如果人或者動物感覺到不舒服的行為,人或者動物會減少這種動作。強化學(xué)習(xí)換言之是強化得到獎勵的行為,弱化受到懲罰的行為。通過試錯的機制訓(xùn)練模型,找到最佳的動作和行為獲得最大的回報。它模仿了人或者動物學(xué)習(xí)的模式,并且不需要引導(dǎo)智能體向某個方向?qū)W習(xí)。智能體可以自主學(xué)習(xí),不需要專業(yè)知識的引導(dǎo)和人力的幫助。
基礎(chǔ)的強化學(xué)習(xí)算法有使用表格學(xué)習(xí)的q_learning[25],sarsa以及使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的DQN[26],直接輸出行為的Policy Gradients[27]及Actor Critic[28]等。強化學(xué)習(xí)算法應(yīng)用到游戲領(lǐng)域取得了不錯的成果,在星際(圖2)[29]和潮人籃球(圖3)的AI訓(xùn)練方面都取得了不錯的成果。
圖2 星際爭霸
圖3 潮人籃球
自然語言處理(NLP)[30]是指計算機擁有識別理解人類文本語言的能力,是計算機科學(xué)與人類語言學(xué)的交叉學(xué)科。自然語言是人與動物之間的最大區(qū)別,人類的思維建立在語言之上,所以自然語言處理也就代表了人工智能的最終目標(biāo)。機器若想實現(xiàn)真正的智能自然語言處理是必不可少的一環(huán)。自然語言處理分為語法語義分析、信息抽取、文本挖掘、信息檢索、機器翻譯、問答系統(tǒng)和對話系統(tǒng)7個方向。
句法語義分析[31],是對于給定的語言提取詞進行詞性和詞義分析,然后分析句子的句法、語義角色和多詞義選取。信息抽取,是指從給定的一段文字中抽取時間、地點和人物等主要信息,以及因果關(guān)系等句子關(guān)系。文本挖掘,對大量的文檔提供自動索引,通過關(guān)鍵詞或其他有用信息的輸入自動檢索出需要的文檔信息。機器翻譯[32],輸入源文字并自動將源文字翻譯為另一種語言,根據(jù)媒介的不同可以分為很多的細類,如文本翻譯、圖形翻譯及手語翻譯等。問答系統(tǒng)[33],是提出一個文字表達的問題,計算機可以給出準(zhǔn)確的答案,過程中需要對問題進行語義分析,然后在資料庫中尋出對應(yīng)答案。對話系統(tǒng)[34],指計算機可以聯(lián)系上下文和用戶進行聊天及交流等任務(wù),針對不同的用戶采用不同的回復(fù)方式等功能。
自然語言處理主要有5類技術(shù),分別是分類、匹配、翻譯、結(jié)構(gòu)預(yù)測及序列決策過程。
現(xiàn)在人類對機器的運用已經(jīng)到了一個極高的狀態(tài),所以人們對于機器運用的便捷化也有了依賴。采用語言支配機器的方式是一種十分便捷的形式。語音識別技術(shù)[35]是將人類的語音輸入轉(zhuǎn)換為一種機器可以理解的語言,或者轉(zhuǎn)換為自然語言的一種過程。
人類的聲音信號經(jīng)過話筒接收以后,轉(zhuǎn)變成為電信號并作為語音識別系統(tǒng)的輸入,然后系統(tǒng)對傳入信號進行處理,再進行特征抽取,提取特征參數(shù),從而提取出特征。將特征與原有數(shù)據(jù)庫進行對比,最終輸出識別出的語言結(jié)果。
語音識別的難點主要集中在噪聲處理、魯棒性和語音模型上。在輸入語音時總是可能出現(xiàn)各種各樣的噪聲,提高對噪聲的處理是提高識別準(zhǔn)確率的重要一環(huán)。魯棒性,現(xiàn)有的語音識別系統(tǒng)對環(huán)境的依懶性偏高,不同的環(huán)境中識別的準(zhǔn)確性可能會有較大差別。語音模型的優(yōu)化[36]也是面臨的一個重大問題,語言的復(fù)雜性毋庸置疑,語言的語義、情緒及語速等都會影響到語音的真實意義,所以優(yōu)化語音模型,優(yōu)化語音模型的基礎(chǔ)就是需要大量的數(shù)據(jù)。
在計算機視覺領(lǐng)域[37],中國融資過億的企業(yè)就有11家。商湯科技是一家以計算機視覺技術(shù)為核心的企業(yè),專注于人工智能視覺引擎,擁有自主研發(fā)的深度學(xué)習(xí)平臺,不斷產(chǎn)出計算機視覺技術(shù),它涉及的行業(yè)有無人駕駛、平安城市及金融等高技術(shù)產(chǎn)業(yè),不斷將產(chǎn)業(yè)技術(shù)付諸實踐,吸收融資后致力于商湯的自主技術(shù)商業(yè)化。國內(nèi)眼擎科技公司發(fā)布的AI視覺成像芯片全球首發(fā),它的出現(xiàn)提升了現(xiàn)有的視覺識別能力,即使在極其復(fù)雜的環(huán)境中依然可以擁有十分優(yōu)秀的視覺能力。
計算機視覺技術(shù)在安防領(lǐng)域的應(yīng)用也十分廣泛。通過視頻內(nèi)容自動識別車輛[39]、人還有其他信息,為安防提供技術(shù)支持,并在追逃階段可以自動匯報追蹤相應(yīng)的可疑車輛和人的運動軌跡,為公安機關(guān)抓捕提供可靠的信息。
計算機視覺領(lǐng)域不斷有企業(yè)[38]涌現(xiàn)出旺盛的生命力,體現(xiàn)了人工智能這一技術(shù)方向的巨大潛力。
機器學(xué)習(xí)與自動駕駛、金融及零售等行業(yè)緊密結(jié)合,不斷提升行業(yè)的發(fā)展?jié)摿?。在自動駕駛領(lǐng)域運用機器學(xué)習(xí)的技術(shù),不斷提升自動駕駛的路測能力,通過強化學(xué)習(xí)的手段[40]讓無人汽車在環(huán)境中不斷提升自己的能力,訓(xùn)練出的模型在基本路測環(huán)境中保持穩(wěn)定。通過不斷引入新的機器學(xué)習(xí)技術(shù)[41],讓無人駕駛的商業(yè)化成為可展望的未來。零售行業(yè)運用機器學(xué)習(xí)的技術(shù)分析用戶的喜好[42-43],進行定點推送,提供顧客更偏向購買的物品,提升零售的成功率[44-45]。
在金融領(lǐng)域人工智能的市場規(guī)模已經(jīng)變得越來越大,通過機器學(xué)習(xí)的技術(shù)手段,預(yù)測風(fēng)險和股市的走向。運用機器學(xué)習(xí)的手段進行金融風(fēng)險管控,整合多源的資料,實時向人提供風(fēng)險預(yù)警信息。利用大數(shù)據(jù)對相應(yīng)的金融風(fēng)險進行分析,實時提供相應(yīng)金融資產(chǎn)的風(fēng)險預(yù)警,節(jié)省投資理財?shù)娜肆ξ锪ο?,?gòu)建科學(xué)合理的風(fēng)險管控體系,為金融業(yè)的發(fā)展添磚加瓦。
自然語言處理應(yīng)用領(lǐng)域也很廣闊[46]。在郵件領(lǐng)域,它被用來分析處理垃圾郵件,為用戶提供良好的應(yīng)用環(huán)境。通過語言識別對文檔進行自動分類,節(jié)省了人力并為企業(yè)的自動化運轉(zhuǎn)提供了技術(shù)支持[47];在書籍分類中,可以根據(jù)書籍內(nèi)容進行自動分類,為用戶查找相應(yīng)書籍提供便捷的尋找手段;自動翻譯的便捷功能,讓語言不再成為知識交流的障礙,在線翻譯軟件可以即時翻譯出絕大部分文本;人工智能客服的出現(xiàn)也改變了用戶體驗,基本問題可以直接找機器客服解決。
在金融領(lǐng)域的智能客服和智能投資顧問也運用了自然語言處理技術(shù)[48]。智能投資顧問和智能客服采用語義識別技術(shù),對咨詢者的語義進行分析,并在資源庫中找出最合適的回答方式和內(nèi)容[49]。智能投資顧問管理的資產(chǎn)在2012年還基本不存在,在2014年時技能已經(jīng)達了140億美元,到2019年初處于其管理下的資產(chǎn)已經(jīng)到達了一個十分驚人的數(shù)字。
語音識別應(yīng)用的領(lǐng)域更加廣泛,語音識別技術(shù)的普及讓即時翻譯不再困難。在微信中,通過語音識別技術(shù)可以不聽取他人語音直接翻譯為相應(yīng)的文本[50],使微信交流功能在不方便聽取語音的環(huán)境中不受影響。
智能家居是一種以居住環(huán)境為平臺的先進理念,通過人工智能的方式讓與生活相關(guān)的家居統(tǒng)籌管理,使人的生活環(huán)境更加智能、舒適。智能家居中也應(yīng)用了語音識別技術(shù),通過解析人的語言命令[51],讓家居進入相應(yīng)的開關(guān)程序,并對人的命令作出回應(yīng),提升人的居住體驗。
人工智能技術(shù)綜合了多個學(xué)科領(lǐng)域,對人類的發(fā)展具有不可替代的作用??梢灶A(yù)見的是,人工智能必將成為下一次工業(yè)革命的核心。由此帶來的變革不僅體現(xiàn)在技術(shù)上,對人類的心理、人文及倫理等方面都會造成沖擊。當(dāng)前90%的人力工作將來都有可能被人工智能取代,但是當(dāng)人工智能取代傳統(tǒng)崗位之后依然會衍生出新的崗位,不會引起大面積失業(yè)。人工智能時代已經(jīng)降臨,在教育層面應(yīng)當(dāng)響應(yīng)時代號召,積極學(xué)習(xí)人工智能各項新技術(shù);在社會層面應(yīng)當(dāng)積極接受新的事物,不斷前進并開拓出更多新的生活方式,不斷與時俱進、更新思想大跨步邁進人工智能新時代。