[摘 要] 近年來(lái),強(qiáng)化學(xué)習(xí)不斷成為研究和應(yīng)用的熱點(diǎn)話題,受到廣泛關(guān)注??紤]到強(qiáng)化學(xué)習(xí)與決策過(guò)程分析的緊密關(guān)聯(lián),將強(qiáng)化學(xué)習(xí)納入決策分析類課程成了一個(gè)不可忽視的需求。探討如何在“決策分析導(dǎo)論”中融合強(qiáng)化學(xué)習(xí)模型的方法。與傳統(tǒng)“機(jī)器學(xué)習(xí)”和“強(qiáng)化學(xué)習(xí)”課程不同,教學(xué)策略強(qiáng)調(diào)對(duì)概念的理解,減少公式復(fù)雜性,更多地展現(xiàn)其實(shí)際應(yīng)用和案例,如AlphaGo、MIT機(jī)器狗等熱門話題,以增強(qiáng)學(xué)生的學(xué)習(xí)興趣。特別是通過(guò)改良的尋寶游戲示例,進(jìn)一步深化學(xué)生對(duì)智能體與環(huán)境交互的認(rèn)知。這種教學(xué)探索不僅豐富了課程內(nèi)容,還為管理類教學(xué)方法帶來(lái)了創(chuàng)新,期望更好地培養(yǎng)新一代決策者。
[關(guān)鍵詞] 強(qiáng)化學(xué)習(xí);決策分析;教學(xué)模式;課程改革
[基金項(xiàng)目] 2021年度北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院課程團(tuán)隊(duì)建設(shè)項(xiàng)目“決策分析”(KCTD-2021-JCFX);2023年度北京航空航天大學(xué)工業(yè)工程專業(yè)一流專業(yè)建設(shè)項(xiàng)目;2022年度北京航空航天大學(xué)研究生教育與發(fā)展研究專項(xiàng)基金“促進(jìn)知識(shí)共享的工程項(xiàng)目管理課程教學(xué)設(shè)計(jì)——一種激進(jìn)建構(gòu)主義的視角”(JG2022006)
[作者簡(jiǎn)介] 王天宇(1990—),男,山東東營(yíng)人,博士,北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院講師,主要從事行為運(yùn)籌學(xué)研究;楊 敏(1975—),男,江西樂(lè)安人,博士,北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院副教授(通信作者),主要從事風(fēng)險(xiǎn)和決策分析與項(xiàng)目管理設(shè)計(jì)研究。
[中圖分類號(hào)] G642.0 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1674-9324(2024)36-0001-04 [收稿日期] 2023-08-23
強(qiáng)化學(xué)習(xí)(reinforcement learning)是蓬勃發(fā)展的深度學(xué)習(xí)在決策分析領(lǐng)域的新興方向。通過(guò)模擬代理在動(dòng)態(tài)環(huán)境決策中持續(xù)試錯(cuò)學(xué)習(xí)優(yōu)化策略以最大化預(yù)期收益的方法,應(yīng)對(duì)實(shí)際問(wèn)題中的不確定性、復(fù)雜性,并為決策制定提供更精準(zhǔn)、靈活的解決方案,推動(dòng)決策分析領(lǐng)域的實(shí)踐與創(chuàng)新。強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛、智能游戲及金融投資等領(lǐng)域中被廣泛應(yīng)用,用于訓(xùn)練智能體在復(fù)雜環(huán)境中不斷調(diào)整決策,實(shí)現(xiàn)最優(yōu)化的行為策略。同時(shí),為引導(dǎo)高等學(xué)校瞄準(zhǔn)世界科技前沿,不斷提高人工智能領(lǐng)域科技創(chuàng)新、人才培養(yǎng)和國(guó)際合作交流等能力,為我國(guó)新一代人工智能發(fā)展提供戰(zhàn)略支撐,2018年4月教育部印發(fā)了《高等學(xué)校人工智能創(chuàng)新行動(dòng)計(jì)劃》。雖然“機(jī)器學(xué)習(xí)”課程建設(shè)已經(jīng)得到了快速發(fā)展[1],但強(qiáng)化學(xué)習(xí)在決策分析領(lǐng)域內(nèi)容的結(jié)合的探索仍然較少。本文以高等院校管理類課程“決策分析導(dǎo)論”為例,介紹在管理類研究生課程中引入強(qiáng)化學(xué)習(xí)的嘗試和探索,分析并提出針對(duì)管理類課程教學(xué)方法改革的一些措施。
一、課程建設(shè)背景
(一)“決策分析導(dǎo)論”課程現(xiàn)狀
決策分析(decision analysis)研究如何在不確定性條件下做出理性的決策。它基于主觀概率論和效用理論,提供了一套完整的公理系統(tǒng)指導(dǎo)決策[2],包括規(guī)范決策(應(yīng)該如何決策)和描述決策(人們實(shí)際如何決策)兩大領(lǐng)域[3]?!皼Q策分析導(dǎo)論”課程現(xiàn)階段內(nèi)容是決策分析領(lǐng)域的基礎(chǔ)知識(shí),包括決策陷阱、理性決策行為、不確定情況下的決策分析、多屬性決策分析以及多人決策分析等內(nèi)容,旨在培養(yǎng)學(xué)生在復(fù)雜決策環(huán)境下的分析能力和決策能力。其知識(shí)背景發(fā)展始于20世紀(jì)中葉,隨著不同學(xué)科的融合和技術(shù)的進(jìn)步,這些概念逐漸深化和應(yīng)用于實(shí)際決策問(wèn)題中,如多屬性決策分析的發(fā)展與決策分析和運(yùn)籌學(xué)的交叉有關(guān),起源可以追溯到20世紀(jì)中葉。層次分析法(analytic hierarchy process, AHP)由美國(guó)運(yùn)籌學(xué)家托馬斯·塞蒂(T. L. Saaty)于20世紀(jì)70年代中期提出,而TOPSIS法和其他多屬性決策方法則在隨后的幾十年中逐步發(fā)展完善。期望效用理論是20世紀(jì)中期出現(xiàn)的概念,由諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者馮·諾依曼和約翰·納什等人發(fā)展起來(lái)。針對(duì)“決策分析導(dǎo)論”課程的教學(xué)改革包括挖掘該課程中的思政元素,或引入Excel等工具輔助決策[4-5]。
(二)強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是一種試錯(cuò)的機(jī)器學(xué)習(xí)方法,通過(guò)智能體與環(huán)境的互動(dòng)來(lái)學(xué)習(xí)。智能體根據(jù)其動(dòng)作從環(huán)境中獲得反饋,然后利用這些反饋更新其知識(shí)和經(jīng)驗(yàn)在未來(lái)做出更好的決策。強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)技術(shù)的一部分,但與監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)等其他方法有所不同。強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過(guò)程中沒(méi)有預(yù)先提供正確答案,而是通過(guò)獎(jiǎng)勵(lì)反饋和實(shí)驗(yàn)試錯(cuò)來(lái)學(xué)習(xí)。這種學(xué)習(xí)過(guò)程具有延時(shí)性,智能體的動(dòng)作會(huì)影響后續(xù)的環(huán)境反饋。強(qiáng)化學(xué)習(xí)是一個(gè)與時(shí)間序列相關(guān)的過(guò)程,涉及序貫決策的制定。隨著深度學(xué)習(xí)模型的發(fā)展,深度強(qiáng)化學(xué)習(xí)技術(shù)將深度學(xué)習(xí)與傳統(tǒng)強(qiáng)化學(xué)習(xí)相結(jié)合,實(shí)現(xiàn)了對(duì)復(fù)雜環(huán)境的更好表征。這種技術(shù)在自動(dòng)駕駛、機(jī)械臂控制等復(fù)雜場(chǎng)景中有重要應(yīng)用。著名的深度強(qiáng)化學(xué)習(xí)應(yīng)用之一是谷歌DeepMind于2016年開(kāi)發(fā)的AlphaGo程序,通過(guò)強(qiáng)化學(xué)習(xí)在圍棋領(lǐng)域取得了突破,先后戰(zhàn)勝了圍棋大師李世石和柯杰。這一成就引起了廣泛的關(guān)注,也使深度強(qiáng)化學(xué)習(xí)開(kāi)始受到更多學(xué)生的關(guān)注。此外,深度強(qiáng)化學(xué)習(xí)技術(shù)還在生物工程、機(jī)械制造、化學(xué)分析、藥物合成等領(lǐng)域有應(yīng)用,能夠推動(dòng)各個(gè)需要決策支持的學(xué)科的發(fā)展。
二、基于強(qiáng)化學(xué)習(xí)的計(jì)算機(jī)輔助決策內(nèi)容教學(xué)探索
(一)教學(xué)內(nèi)容重點(diǎn)和難點(diǎn)
因大多數(shù)高校開(kāi)展了機(jī)器學(xué)習(xí)、人工智能類相關(guān)課程的教學(xué)工作,學(xué)生對(duì)從監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)到強(qiáng)化學(xué)習(xí)都有概念性的涉獵。特別是強(qiáng)化學(xué)習(xí),一般不作為重點(diǎn)內(nèi)容學(xué)習(xí)。此外,由于“決策分析導(dǎo)論”課程面向管理類專業(yè)方向研究生,學(xué)生在本科階段所選擇的相關(guān)課程,如“機(jī)器學(xué)習(xí)導(dǎo)論”“數(shù)據(jù)挖掘?qū)д摗钡惹皩?dǎo)課程以淺嘗輒止的科普類教學(xué)為主。學(xué)生通?!爸淙欢恢渌匀弧?,甚至未必“知其然”。這是因?yàn)?,作為機(jī)器學(xué)習(xí)和決策科學(xué)的交叉,對(duì)強(qiáng)化學(xué)習(xí)的理解本身需要扎實(shí)的基礎(chǔ)知識(shí)。不僅包括管理類本科課程“概率與統(tǒng)計(jì)”“最優(yōu)化方法”等,也包括學(xué)生較為薄弱的“隨機(jī)過(guò)程”。此外,對(duì)機(jī)器學(xué)習(xí)的深入理解,需要學(xué)生有對(duì)算法和計(jì)算復(fù)雜性理論的深刻理解。例如,強(qiáng)化學(xué)習(xí)本身作為一種啟發(fā)式算法(heuristic algorithm),其優(yōu)勢(shì)在于較小的計(jì)算復(fù)雜度和出色的表現(xiàn)。然而,大部分學(xué)生并不清楚如何度量計(jì)算的復(fù)雜度和啟發(fā)式算法的表現(xiàn)??傊町惢^大的前導(dǎo)課程教學(xué)背景和薄弱的算法相關(guān)理論基礎(chǔ),成了在“決策分析導(dǎo)論”課程中引入強(qiáng)化學(xué)習(xí)的教學(xué)難點(diǎn)。
(二)面向管理類學(xué)生的教學(xué)設(shè)計(jì)
面向管理方向?qū)W生差異化較大的前導(dǎo)課程教學(xué)背景和薄弱的算法相關(guān)理論基礎(chǔ)的特點(diǎn),為了保證不同背景的學(xué)生可以在課程學(xué)習(xí)過(guò)程中有較好的收獲,筆者采用基礎(chǔ)扎實(shí)、前沿引領(lǐng)、實(shí)驗(yàn)豐富、循序漸進(jìn)的教授方式。具體方式如下。
1.前導(dǎo)課程知識(shí)的簡(jiǎn)要補(bǔ)充。針對(duì)差異化較大的前導(dǎo)課程教學(xué)背景這一特點(diǎn),有必要為學(xué)生進(jìn)行前導(dǎo)知識(shí)的補(bǔ)充和鋪墊。這對(duì)沒(méi)有選修過(guò)相應(yīng)課程的學(xué)生來(lái)說(shuō),其與強(qiáng)化學(xué)習(xí)之間的邏輯關(guān)系并不明確。因此,不同于其他課程回顧性地介紹背景知識(shí),“決策分析導(dǎo)論”課程既要把背景知識(shí)當(dāng)作新知識(shí)來(lái)講,又要主次分明、結(jié)合本課程的教學(xué)特點(diǎn)。例如,在介紹機(jī)器學(xué)習(xí)基礎(chǔ)理論時(shí),“決策分析導(dǎo)論”課程選取決策樹(shù)和人工神經(jīng)網(wǎng)絡(luò)作為重點(diǎn),其他模型,甚至非監(jiān)督學(xué)習(xí)(unsupervised learning)僅做簡(jiǎn)要提及或忽略。決策樹(shù)本身可作為監(jiān)督學(xué)習(xí)(supervised learning)的代表性算法,其具有良好的可解釋性,更易于理解和講授,而作為“決策分析”課程內(nèi)容,在此過(guò)程中有必要向?qū)W生闡述清楚“決策樹(shù)”這一名詞在決策分析方法和機(jī)器學(xué)習(xí)模型中代表不同的含義:在前者中,決策樹(shù)作為決策主體用于風(fēng)險(xiǎn)決策以最大收益期望值或最大效用期望值為原則進(jìn)行決策分析的工具,其每個(gè)節(jié)點(diǎn)代表一個(gè)決策點(diǎn)(decision)或一個(gè)事件點(diǎn)(event);而在后者中,決策樹(shù)并不是決策主體使用的工具,而是機(jī)器學(xué)習(xí)進(jìn)行有監(jiān)督分類(classification)的模型,所謂的“決策”其實(shí)是計(jì)算機(jī)的決策,更確切地說(shuō),應(yīng)為“判斷”。
通過(guò)以上解釋,提前規(guī)避了學(xué)生在今后科研或?qū)W習(xí)過(guò)程中接觸“決策樹(shù)”這一模型,與“決策分析導(dǎo)論”課程以及運(yùn)籌學(xué)中的“決策樹(shù)”可能產(chǎn)生的混淆。
2.模型抓重點(diǎn),少公式、多講解。在介紹強(qiáng)化學(xué)習(xí)模型時(shí),緊扣與“決策分析導(dǎo)論”課程之間的相關(guān)性和與“機(jī)器學(xué)習(xí)”“強(qiáng)化學(xué)習(xí)”這些專業(yè)課之間的差異化?!皼Q策分析導(dǎo)論”課程整體以概念、方法和理解為主,涉及的公式推導(dǎo)較少。在筆者的教學(xué)經(jīng)驗(yàn)中,在介紹機(jī)器決策和機(jī)器輔助決策時(shí)突然引入大量公式推導(dǎo)會(huì)導(dǎo)致學(xué)生理解困難,以及后續(xù)注意力無(wú)法集中。為此,筆者僅保留無(wú)法規(guī)避的公式,如貝爾曼方程(Bellman equation)等。
給出公式本身,先簡(jiǎn)單解釋各個(gè)變量的含義,即R為當(dāng)前狀態(tài)s的收獲,Psa為轉(zhuǎn)移到s'狀態(tài)的概率,γ為折現(xiàn)率," " " "分別為動(dòng)作和狀態(tài)空間。但重點(diǎn)向?qū)W生強(qiáng)調(diào)本公式代表的意義和遞歸計(jì)算的思想,即狀態(tài)的價(jià)值函數(shù)(value function)是由自己本身定義的。這對(duì)于沒(méi)有算法理論基礎(chǔ)的學(xué)生來(lái)說(shuō)理解并不容易,則需要拓展對(duì)遞歸算法的介紹。反之,不應(yīng)以過(guò)多時(shí)間展示貝爾曼方程是如何推導(dǎo)得出的。
3.突出應(yīng)用和案例。在教學(xué)中引入大量的應(yīng)用實(shí)例講解,這得益于強(qiáng)化學(xué)習(xí)廣泛的應(yīng)用屬性和話題屬性。例如,學(xué)生從自媒體、社交媒體廣泛地了解關(guān)于AlphaGo如何戰(zhàn)勝人類圍棋大師,以及美國(guó)麻省理工學(xué)院(MIT)設(shè)計(jì)的機(jī)器狗如何通過(guò)訓(xùn)練從走路摔倒到熟練完成跑跳動(dòng)作等新聞?!皼Q策分析導(dǎo)論”課程將重啟AlphaGo、MIT機(jī)器狗等具有熱度的話題,讓學(xué)生對(duì)其模型、訓(xùn)練過(guò)程和算法有更深入的理解。此外,介紹單智能體強(qiáng)化學(xué)習(xí)經(jīng)典算法DQN最早成功應(yīng)用于雅達(dá)利(Artari)游戲,其趣味性和娛樂(lè)性有效吸引學(xué)生注意力和課堂專注度。在此過(guò)程中為了深化學(xué)生對(duì)強(qiáng)化學(xué)習(xí)中智能體與環(huán)境的探索交互過(guò)程的認(rèn)知,筆者采用改良的經(jīng)典尋寶游戲(robot in a room),通過(guò)講述強(qiáng)化學(xué)習(xí)算法Double DQN如何在尋寶游戲中學(xué)習(xí)、反饋和決策,培養(yǎng)學(xué)生泛化這一過(guò)程的能力。
尋寶游戲是廣泛應(yīng)用于強(qiáng)化學(xué)習(xí)教學(xué)中經(jīng)典的例子,如Carnegie Mellon University的10-601B和University of California, Berkeley的CS188。一個(gè)機(jī)器人在地圖中采取某種移動(dòng)策略以達(dá)到某個(gè)目標(biāo)地點(diǎn)并獲得最大收益,如圖1所示。該經(jīng)典例子是確定性問(wèn)題(deterministic),即若機(jī)器人采取某個(gè)移動(dòng)行為,則必然導(dǎo)致相應(yīng)的移動(dòng)結(jié)果。筆者在教學(xué)中發(fā)現(xiàn)經(jīng)典版本的問(wèn)題過(guò)于簡(jiǎn)化決策環(huán)境,學(xué)生完全無(wú)法體會(huì)為何以馬爾可夫決策過(guò)程(Markov decision process)建模。此問(wèn)題以基于規(guī)則(rule-based)的策略就可以迎刃而解,即“總是通往目標(biāo)地點(diǎn)的最短路徑”。為此,筆者將此例改為隨機(jī)環(huán)境,即解釋為“機(jī)器人所在環(huán)境有頻發(fā)地震,在機(jī)器人選擇左行時(shí),有80%的概率在下一時(shí)刻到達(dá)左方,也有10%的概率啟動(dòng)失敗,和10%的概率因地震而偏移至下方”。這令問(wèn)題更接近現(xiàn)實(shí)情況,也更適用于MDP模型,讓學(xué)生對(duì)隨機(jī)問(wèn)題決策和混合策略有更具象的理解。
結(jié)語(yǔ)
強(qiáng)化學(xué)習(xí)在決策分析領(lǐng)域蓬勃發(fā)展,通過(guò)試錯(cuò)學(xué)習(xí)優(yōu)化策略以應(yīng)對(duì)實(shí)際問(wèn)題的不確定性和復(fù)雜性。在管理類課程中引入強(qiáng)化學(xué)習(xí),筆者通過(guò)補(bǔ)充前導(dǎo)知識(shí)、突出模型應(yīng)用和案例,提高了學(xué)生的學(xué)習(xí)興趣。盡管面臨學(xué)生背景差異和算法理論難點(diǎn),創(chuàng)新的教學(xué)設(shè)計(jì)使強(qiáng)化學(xué)習(xí)融入課程,為學(xué)生提供了更豐富的學(xué)習(xí)體驗(yàn)。這一探索為管理類課程的教學(xué)方法改革提供了啟示,有望助力新一代決策者在復(fù)雜決策環(huán)境中取得更好的效果。
參考文獻(xiàn)
[1]李君,陳萬(wàn)明,董莉.“新工科”建設(shè)背景下人工智能領(lǐng)域研究生培養(yǎng)路徑研究[J].學(xué)位與研究生教育,2021(2):29-35.
[2]BIER V M , FRENCH S. From the editors: decision analysis focus and trends[J].Decision analysis,2020,17(1):1-8.
[3]KEENEY R L , SEE K E , VON WINTERFELDT D. Evaluating academic programs: with applications to US graduate decision science programs[J].Operations research,2006,54(5):813-828.
[4]何明宇,侯忠坤.淺議EXCEL在風(fēng)險(xiǎn)決策分析教學(xué)中的應(yīng)用[J].商場(chǎng)現(xiàn)代化,2012(21):178-180.
[5]陳俊霖,李明珍,楊雨.管理決策分析課程教學(xué)中課程思政研究[J].高教學(xué)刊,2021,7(33):153-156+160.
The Teaching Exploration of Reinforcement Learning in Decision Analysis Courses
WANG Tian-yu, YANG Min
(School of Economics and Management, Beihang University, Beijing 100191, China)
Abstract: In recent years, reinforcement learning has become a hot topic in research and application, and has attracted wide attention. Considering the close correlation of reinforcement learning in the analysis of the decision process, the inclusion of reinforcement learning in the decision analysis course becomes a demand that cannot be ignored. This paper discusses how to integrate reinforcement learning models in the introduction to decision analysis. Different from the traditional machine learning and reinforcement learning courses, this teaching strategy emphasizes the understanding of concepts, reducing formula complexity, and presents more practical applications and cases, such as AlphaGo and MIT robot dog, to enhance students’ interest in learning. In particular, through the improved examples of the treasure hunting, it can further deepen the students’ cognition of the interaction between the agent and the environment. This kind of teaching exploration not only enriches the course content, but also brings innovation to the management teaching method, hoping to better cultivate a new generation of decision makers.
Key words: reinforcement learning; decision analysis; teaching mode; curriculum reform