劉振昌
[摘? ? ? ? ? ?要]? 隨著國家戰(zhàn)略和市場需求的變化,科技發(fā)展必然進(jìn)入一個新的層級,為更好地適應(yīng)形勢變化需要,應(yīng)不斷提升學(xué)科水平,以適應(yīng)時代的發(fā)展。現(xiàn)如今人工智能與各種信息化技術(shù)、各產(chǎn)業(yè)高度融合,從打造智能制造專業(yè)群的總體規(guī)劃出發(fā),在自動控制原理課程中增加人工智能元素,改進(jìn)教學(xué)內(nèi)容勢在必行,使職業(yè)教育更好地服務(wù)于產(chǎn)業(yè)升級,培養(yǎng)更多優(yōu)質(zhì)專業(yè)技能人才。
[關(guān)? ? 鍵? ?詞]? 強(qiáng)化學(xué)習(xí);自控原理;人工智能;職業(yè)教育
[中圖分類號]? G712? ? ? ? ? ? ? ? ? ?[文獻(xiàn)標(biāo)志碼]? A? ? ? ? ? ? ? ? ? ?[文章編號]? 2096-0603(2022)09-0073-03
一、引言
針對目前專業(yè)課程長期固定未變,現(xiàn)有課程體系不足以滿足學(xué)生人才培養(yǎng)目標(biāo)和就業(yè)需求的問題,如何培養(yǎng)符合當(dāng)前社會需求的,具備理論基礎(chǔ)夠用、實(shí)踐能力突出、創(chuàng)新能力兼?zhèn)涞膽?yīng)用型人才,已經(jīng)成為亟待解決的重要問題。
但是在全民追捧人工智能技術(shù)的同時,我們更應(yīng)理性、科學(xué)地對待它,AI技術(shù)畢竟依托于諸多技術(shù)不斷發(fā)展強(qiáng)大起來,如計算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、電子技術(shù)等領(lǐng)域。沒有這些領(lǐng)域的不斷進(jìn)步,也不會有人工智能技術(shù)的今天,所以人工智能技術(shù)并不是憑空創(chuàng)造出來的,而是在近些年逐漸應(yīng)用到我們的實(shí)際生活中,讓更多的平常百姓知道了它、了解它。而人工智能技術(shù)分類龐雜如圖1所示,我們不能完全搞懂、吃透,所以本文在充分了解人工智能技術(shù)發(fā)展的趨勢,學(xué)習(xí)相關(guān)知識的同時,選定了機(jī)器學(xué)習(xí)領(lǐng)域中強(qiáng)化學(xué)習(xí)技術(shù),作為核心突破點(diǎn),將其與自控原理課程相互結(jié)合,達(dá)到提升教學(xué)效果的目的。
二、自控原理課程分析
眾所周知,高職教育十分突出的特點(diǎn)是強(qiáng)調(diào)實(shí)際動手能力的培養(yǎng),但當(dāng)學(xué)生學(xué)習(xí)如自控原理理論較強(qiáng)的課程時,往往提不起興趣,整體效果不佳。如,目前自控原理課程教學(xué)中學(xué)生對系統(tǒng)數(shù)學(xué)模型章節(jié),只能了解基本傳遞函數(shù)的概念,并不能很好地對慣性環(huán)節(jié)、積分環(huán)節(jié)、時滯環(huán)節(jié)實(shí)際的物理模型有感性的認(rèn)知,往往這樣不能為后續(xù)章節(jié)學(xué)習(xí)打下良好的基礎(chǔ),導(dǎo)致課程整體教學(xué)效果不佳。而電氣自動化專業(yè)如果完全摒棄這些理論課程,單純突出實(shí)踐教學(xué)又是課程體系的缺失,所以類似這種理論課程改革融入新的元素,是十分必要的。
以自動控制原理課程作為研究對象,結(jié)合強(qiáng)化學(xué)習(xí)技術(shù),對該門課程內(nèi)容重新進(jìn)行梳理,融入新鮮元素,真正促進(jìn)教學(xué)改革,最終促進(jìn)專業(yè)課程的整體改革與提升。
三、強(qiáng)化學(xué)習(xí)基本思想
通過研究了解強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的三個大類之一,如圖2所示。該領(lǐng)域已經(jīng)取得了長足的進(jìn)步,在多個方向發(fā)展和成熟。強(qiáng)化學(xué)習(xí)已逐漸成為機(jī)器學(xué)習(xí)、人工智能和神經(jīng)網(wǎng)絡(luò)研究中最活躍的研究領(lǐng)域之一。
強(qiáng)化學(xué)習(xí)是學(xué)習(xí)該做什么—如何將環(huán)境映射到行動—以便得到最大化獎勵信號??刂破鞑粫捎妙A(yù)定的程序,而是通過不斷試錯獲得最優(yōu)回報。在復(fù)雜和富有挑戰(zhàn)性的情況下,行動不僅會影響即時獎勵,還會影響下一個情境以及所有后續(xù)獎勵。不斷試錯與獲得獎勵是強(qiáng)化學(xué)習(xí)的明顯特征。如果用動態(tài)系統(tǒng)理論的思想將強(qiáng)化學(xué)習(xí)問題形式化,具體地說,作為不完全已知的馬爾可夫決策過程的最優(yōu)控制。但基本思想是學(xué)習(xí)代理與環(huán)境進(jìn)行交互以實(shí)現(xiàn)控制目標(biāo),與控制系統(tǒng)中反饋概念相類似。代理還必須有一個或多個與環(huán)境狀態(tài)相關(guān)的目標(biāo)。馬爾可夫決策過程旨在以最簡單的形式包含這三個方面——感覺、行動和目標(biāo),而不忽略其中任何一個。
強(qiáng)化學(xué)習(xí)不同于監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)、統(tǒng)計模式識別和人工神經(jīng)網(wǎng)絡(luò)研究中最主要的學(xué)習(xí)類型。有監(jiān)督學(xué)習(xí)是通過外部知識的提供,進(jìn)行的一組有標(biāo)記的學(xué)習(xí)。每個標(biāo)記都是對一種情況的描述以及系統(tǒng)應(yīng)該對該情況采取的正確操作的規(guī)范,該規(guī)范用于確定某種情況所屬的類別。這種學(xué)習(xí)的目的是讓系統(tǒng)推斷或概括某種情況的反饋情況,以便它在訓(xùn)練集中沒有出現(xiàn)的情況下正確地行動。這是一種重要的學(xué)習(xí)方式,但僅從互動中學(xué)習(xí)是不夠的。在交互問題中,要想得到既正確又能代表Agent所有情況的預(yù)期行為的示例,往往是不能達(dá)到的。在未知的情況下,Agent需要從中不斷學(xué)習(xí)改進(jìn)。
強(qiáng)化學(xué)習(xí)也區(qū)別于無監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)往往是挖掘數(shù)據(jù)間的某種隱形關(guān)系。單純從有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)這兩個方面對機(jī)器學(xué)習(xí)范式進(jìn)行分類是不全面的。雖然有人可能會認(rèn)為強(qiáng)化學(xué)習(xí)是一種無監(jiān)督學(xué)習(xí),因為它不依賴于系統(tǒng)模型,類似于一種無模型控制,但強(qiáng)化學(xué)習(xí)是求取代價函數(shù)最優(yōu)值,而不是發(fā)現(xiàn)數(shù)據(jù)中隱形的關(guān)系。探索Agent經(jīng)驗中的結(jié)構(gòu)有助于理解強(qiáng)化學(xué)習(xí),但它本身并不能解決求取最優(yōu)代價函數(shù)的強(qiáng)化學(xué)習(xí)問題。因此,強(qiáng)化學(xué)習(xí)是第三種機(jī)器學(xué)習(xí)分類,與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)并列。
強(qiáng)化學(xué)習(xí)采取從一個完整、互動、目標(biāo)尋求的代理開始。它主要包含四個元素:Agent、環(huán)境狀態(tài)、行動、獎勵,強(qiáng)化學(xué)習(xí)的目標(biāo)就是獲得最多的累計獎勵。下圖3是強(qiáng)化學(xué)習(xí)基本框架。代理(Agent)中有一個函數(shù)可接收狀態(tài)觀測量(輸入),并將其映射到動作集(輸出)。通過上述分析無監(jiān)督學(xué)習(xí)和監(jiān)督式學(xué)習(xí),并不適合與自動控制原理課程中相關(guān)知識結(jié)合,所以選定強(qiáng)化學(xué)習(xí)作為融合的新元素具有一定依據(jù)。
四、強(qiáng)化學(xué)習(xí)與傳統(tǒng)控制對比分析
本文將強(qiáng)化學(xué)習(xí)中Agent、Reward、Action、Enviroment等概念和自動控制原理相關(guān)概念統(tǒng)進(jìn)行比對,如文末圖4所示。便于從傳統(tǒng)的控制角度更加深入理解智能控制的特點(diǎn)與優(yōu)勢所在,通過分析與對比,才能更加深入地改進(jìn)相關(guān)課程內(nèi)容,如表1。
通過上述分析與描述,我們可以看出強(qiáng)化學(xué)習(xí)是一種類似于無模型控制的策略,基于準(zhǔn)則函數(shù)不斷優(yōu)化自身控制策略,所以將強(qiáng)化學(xué)習(xí)的相關(guān)知識應(yīng)用在自控原理的課程中不僅能增強(qiáng)學(xué)生的學(xué)習(xí)興趣,還能對學(xué)生未來就業(yè)、擇業(yè)起到極大的幫助作用。并且在對未來高職層次本科化的教學(xué)部署上具有一定的前瞻性作用。
五、總結(jié)
雖然進(jìn)行了強(qiáng)化學(xué)習(xí)相關(guān)知識領(lǐng)域研究與分析,但是和傳統(tǒng)的自動控制原理理論課程內(nèi)容的結(jié)合還需進(jìn)一步研究,最終形成有機(jī)的融通,真正讓學(xué)生能夠?qū)W習(xí)到新的人工智能領(lǐng)域新技術(shù)、新科技,并且如何將相關(guān)理論研究高效、實(shí)用地應(yīng)用落地,部署于實(shí)際工程應(yīng)用中也是后期研究的重點(diǎn)工作。整體研究成果還需要在實(shí)際的教學(xué)環(huán)節(jié)中不斷改進(jìn)、完善,最終形成可實(shí)施、可落地、可應(yīng)用的專業(yè)課程標(biāo)準(zhǔn),為智能制造領(lǐng)域人才培養(yǎng)貢獻(xiàn)力量。
參考文獻(xiàn):
[1]高陽,陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動化學(xué)報,2004(1):86-100.
[2]程麗梅,賈文川.連續(xù)型強(qiáng)化學(xué)習(xí)與PID控制的應(yīng)用對比分析:以一階倒立擺系統(tǒng)為例[J].工業(yè)控制計算機(jī),2021,34(10):20-22.
[3]Wang L,Zhang H,Yi J,et al. Spanning Attack: Reinforce Black-box Attacks with Unlabeled Data[J]. Machine Learning, 2020:1-20.
[4]王揚(yáng),陳智斌,吳兆蕊,等.強(qiáng)化學(xué)習(xí)求解組合最優(yōu)化問題的研究綜述[J].計算機(jī)科學(xué)與探索:2021(11):1-22.
[5]Zhou M,Wang R,Xie C,et al. ReinforceNet:A Reinforcement Learning embedded Object Detection Framework with Region Selection Network[J]. Neuro-computing,2021.
[6]薛鵬,程輝,郭會平.自控原理課程的“一例到底”教學(xué)設(shè)計[J].科技風(fēng),2020(20):33,41.
[7]李敏,高飛.基于工程應(yīng)用案例仿真自控原理教學(xué)法研究[J].中國電力教育,2019(11):80-82.
[8]吳海燕.新工科視角下自動控制原理的課程教學(xué)實(shí)踐[J].教師,2021(20):117-118.
①本文系天津市高等職業(yè)技術(shù)教育研究會2020年度課題“基于強(qiáng)化學(xué)習(xí)技術(shù)服務(wù)電氣類專業(yè)——自動控制原理課程標(biāo)準(zhǔn)構(gòu)建與研究”(課題編號:2020-2-3048);天津電子信息職業(yè)技術(shù)學(xué)院人工智能專項資金項目“基于強(qiáng)化學(xué)習(xí)的吸收式制冷系統(tǒng)節(jié)能控制與研究”(課題編號:dzxxzn2019-15)的研究成果。