摘要:近年來,人工智能發(fā)展勢頭強(qiáng)勁。在這一領(lǐng)域,導(dǎo)數(shù)在算法設(shè)計(jì)和模型優(yōu)化等方面扮演著舉足輕重的角色。同時(shí),導(dǎo)數(shù)也是高等數(shù)學(xué)教學(xué)中的重難點(diǎn)。以卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練為設(shè)計(jì)案例,旨在提煉出其中蘊(yùn)含的數(shù)學(xué)方法和思想,以期激發(fā)學(xué)生對數(shù)學(xué)的興趣,培養(yǎng)他們的科研能力,同時(shí)也為基礎(chǔ)課程的建設(shè)和發(fā)展提供助力。
關(guān)鍵詞:高等數(shù)學(xué);導(dǎo)數(shù);方向?qū)?shù);梯度;CNN;導(dǎo)數(shù)應(yīng)用
中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)35-0016-05開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
0引言
在21世紀(jì)的數(shù)字化時(shí)代,人工智能(ArtificialIn?telligence,AI)已成為推動(dòng)科技創(chuàng)新與經(jīng)濟(jì)增長的關(guān)鍵動(dòng)力。從深度學(xué)習(xí)的重大突破到自然語言處理的飛速發(fā)展,AI正以驚人的速度革新著生活和工作的方式[1]。如今,圖像識(shí)別技術(shù)現(xiàn)已經(jīng)能夠匹敵甚至超越人類視覺,自動(dòng)識(shí)別和分類數(shù)百萬圖像。語音助手如Siri(或其他語音助手)日益智能,可理解和執(zhí)行復(fù)雜命令。自動(dòng)駕駛系統(tǒng),如特斯拉Autopilot,為駕駛者提供輔助功能。醫(yī)療領(lǐng)域中,AI輔助診斷系統(tǒng)幫助醫(yī)生提高診斷疾病的準(zhǔn)確性和治療效率。金融行業(yè)內(nèi),通過大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)算法,AI助力銀行和投資公司評(píng)估風(fēng)險(xiǎn),并預(yù)測市場趨勢。教育領(lǐng)域內(nèi),個(gè)性化學(xué)習(xí)系統(tǒng)根據(jù)學(xué)生習(xí)慣與能力提供定制化教學(xué)方案。從智能音箱到自動(dòng)駕駛汽車,從精準(zhǔn)醫(yī)療到個(gè)性化教育,人工智能的應(yīng)用已經(jīng)深入人們生活的每一個(gè)角落。而在這一切背后,有一種數(shù)學(xué)工具正在發(fā)揮著至關(guān)重要的作用——那就是導(dǎo)數(shù)。
導(dǎo)數(shù)在人工智能的廣闊天地里,應(yīng)用廣泛至極。它是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)核心算法的數(shù)學(xué)基石,尤其在模型優(yōu)化、性能分析以及特定應(yīng)用領(lǐng)域發(fā)揮著不可替代的作用。例如,在深度學(xué)習(xí)領(lǐng)域內(nèi),導(dǎo)數(shù)可以幫助計(jì)算損失函數(shù)關(guān)于參數(shù)的梯度,沿梯度指引快速降低損失并提升預(yù)測能力。在強(qiáng)化學(xué)習(xí)中,導(dǎo)數(shù)幫助人們理解智能體的行為和環(huán)境之間的相互作用。如策略梯度方法[2],計(jì)算獎(jiǎng)勵(lì)函數(shù)關(guān)于智能體行為的導(dǎo)數(shù),以便優(yōu)化智能體的策略和反饋調(diào)整自己的行為,以達(dá)到更好的性能。再如基于梯度的優(yōu)化算法,尋找最佳策略[3]和支持向量機(jī)[4]中的最優(yōu)超平面。在模型性能分析中,導(dǎo)數(shù)評(píng)估模型對輸入變化的敏感度,增強(qiáng)對模型魯棒性和過擬合的理解。在圖像識(shí)別任務(wù)中,基于導(dǎo)數(shù)理解模型對輸入像素值輕微變動(dòng)的反應(yīng),可揭示模型面對對抗性攻擊時(shí)的脆弱性。在自然語言處理領(lǐng)域,導(dǎo)數(shù)的重要性同樣不言而喻。比如,Word2Vec模型采用導(dǎo)數(shù)來計(jì)算詞向量之間的相似度。在處理序列數(shù)據(jù),如機(jī)器翻譯或文本生成時(shí),循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)和長短期記憶網(wǎng)絡(luò)(LongShortTermMemory,LSTM)等[5-7]模型利用導(dǎo)數(shù)來計(jì)算隱藏狀態(tài)的變化,使得模型能夠?qū)W習(xí)并記住長時(shí)間的依賴關(guān)系。導(dǎo)數(shù)的應(yīng)用使人工智能模型能夠更精確地捕捉到數(shù)據(jù)的本質(zhì)特征,為解決復(fù)雜的實(shí)際問題提供了強(qiáng)大的數(shù)學(xué)工具。
導(dǎo)數(shù)作為高等數(shù)學(xué)的核心理論,既是被視為學(xué)習(xí)的重點(diǎn)也常被視為難點(diǎn)。其概念的抽象性、眾多復(fù)雜的公式及其應(yīng)用常常使得學(xué)生感到困惑與挫敗。若教學(xué)過程僅理論與計(jì)算而忽視實(shí)際應(yīng)用,難以幫助學(xué)生全面理解導(dǎo)數(shù)的概念與功能,也不利于激發(fā)學(xué)生的興趣和培養(yǎng)創(chuàng)新能力。因此本文從導(dǎo)數(shù)、方向?qū)?shù)和梯度等基本概念出發(fā),深入分析它們之間的關(guān)系,進(jìn)而以導(dǎo)數(shù)在卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNet?work,CNN)[8]的應(yīng)用為例,深度討論導(dǎo)數(shù)在人工智能領(lǐng)域的具體應(yīng)用,進(jìn)而為高等數(shù)學(xué)的教學(xué)豐富化和基礎(chǔ)課程的建設(shè)與發(fā)展提供有力支持。具體工作主要體現(xiàn)在以下幾個(gè)方面:首先回顧相關(guān)知識(shí),包括導(dǎo)數(shù)、方向?qū)?shù)和梯度等基本概念及其聯(lián)系;然后介紹梯度下降法;接著推導(dǎo)CNN的參數(shù)梯度遞推公式,并結(jié)合梯度下降法更新參數(shù)和優(yōu)化目標(biāo)函數(shù);最后通過Py?thon環(huán)境下LeNet算法[9]在MNIST數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證梯度下降方法的有效性。
這里坐標(biāo)(i′,j′)是第l+1層中在向前傳播中受第l層坐標(biāo)(i,j)影響的點(diǎn),坐標(biāo)(h,w)是影響區(qū)域中的最大值的坐標(biāo)。同時(shí)影響坐標(biāo)(i′,j′)的點(diǎn)有k×k個(gè),并且都滿足式(29)。因此在第l層中影響坐標(biāo)(i′,j′)的k×k區(qū)域內(nèi)最大值位置處的元素的誤差項(xiàng)為δ(l+1)i′,j′,其他位置全部值為0。當(dāng)平均池化時(shí)
2.3小結(jié)
圖4是基于YannLeCun在1998年設(shè)計(jì)并提出的經(jīng)典LeNet模型和MNIST數(shù)據(jù)集作為訓(xùn)練樣本集進(jìn)行實(shí)驗(yàn)。圖中展現(xiàn)的是隨迭代次數(shù)增加,目標(biāo)函數(shù)(loss)變化曲線圖。由圖可見,隨著迭代(epochs)次數(shù)增加,在更新參數(shù)的情況下,目標(biāo)函數(shù)逐漸減少。可見在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,反向傳播算法通過鏈?zhǔn)椒▌t計(jì)算損失函數(shù)對參數(shù)的導(dǎo)數(shù)來調(diào)整網(wǎng)絡(luò)參數(shù),確保參數(shù)更新方向和步長,降低損失,促進(jìn)模型學(xué)習(xí)和優(yōu)化,提升預(yù)測能力。
3結(jié)束語
從高等數(shù)學(xué)的基本概念—導(dǎo)數(shù)出發(fā),結(jié)合當(dāng)前熱門的人工智能領(lǐng)域,本文深入闡述了導(dǎo)數(shù)在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的具體應(yīng)用。導(dǎo)數(shù)確定了CNN不同網(wǎng)絡(luò)層參數(shù)更新方向和步長,逐步調(diào)整參數(shù),使輸出更接近期望,促進(jìn)CNN高效學(xué)習(xí)和優(yōu)化。最后,通過經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型和數(shù)據(jù)集進(jìn)行演示,實(shí)驗(yàn)結(jié)果深層體現(xiàn)了導(dǎo)數(shù)在其中的實(shí)際應(yīng)用。若新技術(shù)融合于基礎(chǔ)課程,有助于學(xué)生領(lǐng)悟理論、培養(yǎng)實(shí)際應(yīng)用能力和創(chuàng)新思維,也利于未來技術(shù)工作或科研必備能力的形成;同時(shí),促進(jìn)課程建設(shè)與發(fā)展,使新技術(shù)為基礎(chǔ)學(xué)科提供支持。
參考文獻(xiàn):
[1]BOMMASANIR,HUDSONDA,ADELIE,etal.Ontheopportu?nitiesandrisksoffoundationmodels[M].arXivpreprintarXiv,2021.
[2]劉建偉,高峰,羅雄麟.基于值函數(shù)和策略梯度的深度強(qiáng)化學(xué)習(xí)綜述[J].計(jì)算機(jī)學(xué)報(bào),2019,42(6):1406-1438.
[3]孫燦宇.增強(qiáng)學(xué)習(xí)算法尋找最優(yōu)策略分析[J].電子技術(shù)與軟件工程,2017(4):183.
[4]顧亞祥,丁世飛.支持向量機(jī)研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2011,38(2):14-17.
[5]SHERSTINSKYA.Fundamentalsofrecurrentneuralnetwork(RNN)andlongshort-termmemory(LSTM)network[J].PhysicaD:NonlinearPhenomena,2020,404:132306.
[6]YUY,SIXS,HUCH,etal.Areviewofrecurrentneuralnet?works:LSTMcellsandnetworkarchitectures[J].NeuralCompu?tation,2019,31(7):1235-1270.
[7]DEBARRENATF,F(xiàn)ERRANDOJL,GARCíAA,etal.Toolre?mainingusefullifepredictionusingbidirectionalrecurrentneu?ralnetworks(BRNN)[J].TheInternationalJournalofAdvancedManufacturingTechnology,2023,125(9):4027-4045.
[8]SHYAMR.Convolutionalneuralnetworkanditsarchitectures[J].JournalofComputerTechnologyamp;Applications,2021,12(2):6-14.
[9]LECUNY,BOTTOUL,BENGIOY,etal.Gradient-basedlearn?ingappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.
[10]華東師范大學(xué)數(shù)學(xué)系.數(shù)學(xué)分析[M].2版.北京:高等教育出版社,2003.
[11]同濟(jì)大學(xué)數(shù)學(xué)系.高等數(shù)學(xué)-上冊[M].6版.北京:高等教育出版社,2007.
[12]華東師范大學(xué)數(shù)學(xué)系.數(shù)學(xué)分析[M].2版.北京:高等教育出版社,2003.
[13]同濟(jì)大學(xué)數(shù)學(xué)系.高等數(shù)學(xué):下冊[M].6版.北京:高等教育出版社,2007.
[14]阿斯頓,李沐.動(dòng)手學(xué)深度學(xué)習(xí)[M].北京:人民郵局出版社,2005.
[15]雷明.機(jī)器學(xué)習(xí)與應(yīng)用[M].北京:清華大學(xué)出版社,2019.
【通聯(lián)編輯:王力】
基金項(xiàng)目:安徽省級(jí)重點(diǎn)自然科學(xué)基金(KJ2021A1191);安徽省普通高校交通信息與安全重點(diǎn)實(shí)驗(yàn)室開放課題資助課題(JTX202204);安徽省優(yōu)青人才支持項(xiàng)目(gxyqzd2021140)