張?zhí)旌?/p>
北京理工大學(xué),北京,100081
通過(guò)對(duì)人工智能技術(shù)進(jìn)行深入研究和分析,可以更好地了解其優(yōu)勢(shì)、挑戰(zhàn)和前景,從而能夠做出準(zhǔn)確有效的預(yù)測(cè)和規(guī)劃,推動(dòng)科技發(fā)展和社會(huì)進(jìn)步。本文聚焦于人工智能技術(shù)中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等關(guān)鍵技術(shù),深入探討它們的原理、進(jìn)展和案例分析。
1.1.1 機(jī)器學(xué)習(xí)的要點(diǎn)
文獻(xiàn)[1]提出機(jī)器學(xué)習(xí)的目標(biāo)是從數(shù)據(jù)學(xué)習(xí)算法,算法通過(guò)有限的數(shù)據(jù)學(xué)習(xí)到一般性的規(guī)律,也就是輸入到輸出的映射函數(shù),并應(yīng)用在測(cè)試集上來(lái)檢測(cè)學(xué)習(xí)效果。一般的算法學(xué)習(xí)過(guò)程是將設(shè)置好初始參數(shù)的模型應(yīng)用于輸入的數(shù)據(jù),得到模型對(duì)輸入數(shù)據(jù)的預(yù)測(cè),再用預(yù)測(cè)結(jié)果計(jì)算誤差,利用優(yōu)化算法降低誤差,對(duì)模型進(jìn)行調(diào)優(yōu)。機(jī)器學(xué)習(xí)的要點(diǎn)是數(shù)據(jù)、模型、學(xué)習(xí)規(guī)則、優(yōu)化算法。
1.1.2 機(jī)器學(xué)習(xí)的最新進(jìn)展
近年來(lái),機(jī)器學(xué)習(xí)中涌現(xiàn)出許多大型模型,如Meena、Turing-NLG、BST、GPT-3。Turing-NLG是一種基于Transformer的語(yǔ)言生成模型,可以生成單詞以完成開放式文本任務(wù)。除了填充不完整的句子外,它還可以生成直接答案以及輸入文檔摘要。文獻(xiàn)[2]提出由于擁有超過(guò)13億參數(shù),該模型無(wú)法在單個(gè)GPU上部署,因此需要通過(guò)并行化或分解在多個(gè)GPU之間進(jìn)行訓(xùn)練。2020年,DeepMind的AlphaFold在CASP蛋白質(zhì)折疊挑戰(zhàn)賽中取得了突破性的表現(xiàn),并在2021年7月開放由AlphaFold生成的整個(gè)人類蛋白質(zhì)組的預(yù)測(cè)三維模型。文獻(xiàn)[3]提出AlphaFold算法結(jié)合同源模板和多序列比對(duì)等蛋白質(zhì)三維建模方法的特征來(lái)生成預(yù)測(cè)結(jié)構(gòu)。
1.2.1 神經(jīng)網(wǎng)絡(luò)的要點(diǎn)
(1)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
激活函數(shù)類似神經(jīng)元的閾值,控制神經(jīng)元是否被激活。Ramachandran P等表明理想情況下的激活函數(shù)是單位階躍函數(shù),但是由于單位階躍函數(shù)不光滑、不連續(xù),通常并不被采用[4]。Elliott D L指出常用的激活函數(shù)有sigmoid函數(shù)、ReLU函數(shù)和softmax函數(shù)[5]。sigmoid函數(shù)的表達(dá)式為:
它相比階躍函數(shù)有了光滑性和連續(xù)性,激活函數(shù)由階躍函數(shù)的0和1變成了0到1之間的連續(xù)值。ReLU的公式為:
由于計(jì)算簡(jiǎn)單,激活函數(shù)大都采用ReLU函數(shù)。
在分類問(wèn)題中常用softmax激活函數(shù)。函數(shù)表達(dá)式為:
感知機(jī)和多層感知機(jī):感知機(jī)是一個(gè)二分類模型,可以看作單層神經(jīng)網(wǎng)絡(luò),是人工智能最早的模型之一,感知機(jī)由若干輸入神經(jīng)元和一個(gè)輸出神經(jīng)元組成。
感知機(jī)只能對(duì)二分類問(wèn)題做線性分割,而不能擬合XOR等函數(shù),多層感知機(jī)可以解決這個(gè)問(wèn)題。多層感知機(jī)在感知機(jī)的基礎(chǔ)上加了隱藏層,隱藏層的大小是超參數(shù),而輸入層和輸出層大小由數(shù)據(jù)決定。
(2)深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)的層數(shù)和規(guī)模大大增加,需要采用一些優(yōu)化算法。梯度下降是最常用的參數(shù)更新的方法。梯度下降就是沿著梯度下降的方向,不斷用梯度乘以學(xué)習(xí)率來(lái)更新參數(shù),使得損失函數(shù)不斷減小,直至到達(dá)極小值點(diǎn)。Dong Y等發(fā)現(xiàn)梯度下降面臨的問(wèn)題是無(wú)法識(shí)別局部極小值點(diǎn)和鞍點(diǎn)[7]。
梯度下降的過(guò)程如下:①確定損失函數(shù);②確定函數(shù)參數(shù)、學(xué)習(xí)率、算法終止距離;③計(jì)算當(dāng)前位置的梯度;④用學(xué)習(xí)率乘以梯度,得到當(dāng)前位置的下降距離;⑤確定是否每個(gè)參數(shù)的下降距離都小于算法終止距離。若是,則算法停止。若不是,則進(jìn)行下一步;⑥用下降距離更新參數(shù),回到第1步。
由于每次更新參數(shù)需要遍歷訓(xùn)練集的所有數(shù)據(jù),更新周期較長(zhǎng),梯度下降衍生出隨機(jī)梯度下降和小批量梯度下降等技術(shù)。隨機(jī)梯度下降每次更新參數(shù)只用一個(gè)樣本,這個(gè)樣本從訓(xùn)練集中隨機(jī)抽樣選出。這樣計(jì)算速度較快,但是由于只采用了一個(gè)樣本,下降方向可能不是最快的方向,造成振蕩下降的現(xiàn)象。Ray S指出小批量梯度下降每次將訓(xùn)練集隨機(jī)排列一次,從中選取batch_size個(gè)樣本,作為計(jì)算梯度的數(shù)據(jù)。這樣既加快了計(jì)算速度,也解決了振蕩下降問(wèn)題[8]。
前向傳播和反向傳播公式中的符號(hào)對(duì)應(yīng)如表1所示。
表1 公式表
前向傳播是前饋神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)流向,數(shù)據(jù)經(jīng)由輸入層流向隱藏層,再流向輸出層。數(shù)據(jù)的傳播公式如下:
仍然采用梯度下降法來(lái)更新網(wǎng)絡(luò)的參數(shù)矩陣。考慮基于交叉熵?fù)p失函數(shù)的結(jié)構(gòu)化風(fēng)險(xiǎn)函數(shù):
對(duì)于每層的參數(shù)矩陣和偏置向量,更新策略為:
而對(duì)于每個(gè)參數(shù)的更新,涉及矩陣微分,計(jì)算煩瑣,會(huì)拖慢神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。Rumelhart D E等提出訓(xùn)練中采用反向傳播算法計(jì)算梯度[9]。
根據(jù)鏈?zhǔn)椒▌t,結(jié)構(gòu)化風(fēng)險(xiǎn)函數(shù)對(duì)權(quán)重求梯度可以變?yōu)椋?/p>
因此,偏導(dǎo)的計(jì)算轉(zhuǎn)化為結(jié)構(gòu)風(fēng)險(xiǎn)對(duì)凈輸入的偏導(dǎo)(誤差項(xiàng))、凈輸入的偏導(dǎo)對(duì)權(quán)重的偏導(dǎo)、凈輸入的偏導(dǎo)對(duì)偏置的偏導(dǎo)三部分。
①凈輸入對(duì)權(quán)重的偏導(dǎo):
②凈輸入對(duì)偏置的偏導(dǎo):
③結(jié)構(gòu)化風(fēng)險(xiǎn)對(duì)凈輸入的偏導(dǎo):
Hecht-Nielsen R指出上面的公式就是反向傳播的誤差項(xiàng)的公式[10]。該公式表明,第i層的一個(gè)神經(jīng)元的誤差項(xiàng)是該神經(jīng)元激活函數(shù)的導(dǎo)數(shù),乘以所有與之相連的下一層的神經(jīng)元的誤差項(xiàng)。再與前兩個(gè)偏導(dǎo)結(jié)合,可以得到第i層的下降距離:
反向傳播算法的訓(xùn)練過(guò)程和梯度下降沒(méi)有區(qū)別。
1.2.2 神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展
神經(jīng)網(wǎng)絡(luò)在最近幾年有很多進(jìn)展,圖神經(jīng)網(wǎng)絡(luò)是其中一個(gè)新的研究熱點(diǎn)。圖神經(jīng)網(wǎng)絡(luò)可以分為五類,分別是圖卷積網(wǎng)絡(luò)、圖注意力網(wǎng)絡(luò)、圖自編碼器、圖生成網(wǎng)絡(luò)和圖時(shí)空網(wǎng)絡(luò)。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)主要用于處理圖像、語(yǔ)言等結(jié)構(gòu)化數(shù)據(jù),但對(duì)社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等非結(jié)構(gòu)化數(shù)據(jù)難以高效處理。Ying Z指出圖神經(jīng)網(wǎng)絡(luò)的出現(xiàn)提供了問(wèn)題的解決方案,圖能夠很自然地表示出現(xiàn)實(shí)場(chǎng)景中實(shí)體與實(shí)體之間的復(fù)雜關(guān)系,有非常廣闊的應(yīng)用場(chǎng)景[11]。圖神經(jīng)網(wǎng)絡(luò)在許多重要領(lǐng)域得到了廣泛應(yīng)用,但是仍存在一些問(wèn)題。Hu Z提出深度神經(jīng)網(wǎng)絡(luò)通過(guò)堆疊不同網(wǎng)絡(luò)層提升表達(dá)能力,但現(xiàn)有圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)層次較少,限制了圖神經(jīng)網(wǎng)絡(luò)的表達(dá)能力[12]。同時(shí),在社交網(wǎng)絡(luò)、推薦系統(tǒng)等應(yīng)用場(chǎng)景,需要對(duì)大規(guī)模的圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行處理,但現(xiàn)有的許多圖神經(jīng)網(wǎng)絡(luò)不能滿足處理大規(guī)模圖的需求。
機(jī)器學(xué)習(xí)、進(jìn)化計(jì)算等人工智能技術(shù)之間有著密切的關(guān)系。例如強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的一種算法,同時(shí)采用了行為人工智能和行為主義的思想。大體上人工智能可以分為三大學(xué)派:符號(hào)主義學(xué)派、連接主義學(xué)派、行為主義學(xué)派。
2.2.1 深度學(xué)習(xí)和符號(hào)智能邏輯推理融合解決醫(yī)學(xué)問(wèn)題
Han Z等人在論文中對(duì)深度學(xué)習(xí)和邏輯推理融合,以自動(dòng)生成醫(yī)療報(bào)告進(jìn)行了探索[13]。文中提出了神經(jīng)符號(hào)學(xué)習(xí)(NSL)框架,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模仿人類的視覺(jué)感知,用以檢測(cè)目標(biāo)脊柱結(jié)構(gòu)的異常,框架結(jié)構(gòu)如圖1所示。
圖1 理論框架結(jié)構(gòu)圖
2.2.2 遺傳算法和人工神經(jīng)網(wǎng)絡(luò)融合優(yōu)化鋼材壽命
Nejad R M在論文中提出了用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)動(dòng)車車輪和鋼軌磨損的方法[14],并使用遺傳算法計(jì)算鋼材的疲勞壽命?;谶z傳算法和人工神經(jīng)網(wǎng)絡(luò)相結(jié)合,優(yōu)化鐵路應(yīng)用中使用的珠光體900A級(jí)鋼的疲勞壽命,擬合的表面可視化了材料的行為。
綜上所述,人工智能技術(shù)在未來(lái)的發(fā)展中具有持久成熟的趨勢(shì),其不斷完善將為人類社會(huì)帶來(lái)更多的便利和創(chuàng)新。然而,人們也必須認(rèn)識(shí)到人工智能技術(shù)所帶來(lái)的問(wèn)題和挑戰(zhàn),并積極探索解決方案,以更好地應(yīng)對(duì)其可能造成的風(fēng)險(xiǎn)和影響,從而促使人工智能技術(shù)得到更加全面和深入的發(fā)展。