張曉海, 操新文
(國防大學(xué)聯(lián)合作戰(zhàn)學(xué)院, 河北 石家莊 050084)
近年來,AlphaGo、AlphaGo Zero在深度學(xué)習(xí)方面取得突破性成果,令世人驚嘆,深度學(xué)習(xí)已被廣泛關(guān)注并應(yīng)用到眾多領(lǐng)域,尤其在識別、推薦、決策等方面展現(xiàn)出了巨大優(yōu)勢。為推進(jìn)我軍智能化建設(shè),2016年3月,《中國軍事科學(xué)》編輯部組織舉辦了“圍棋人機(jī)大戰(zhàn)與軍事指揮決策智能化”研討會[1]。會議廣泛探討了AlphaGo對于指揮決策智能化的啟示,深入研究了推動我軍走向智能化建設(shè)的措施。2017年9月,“賽諸葛”全國兵棋推演大賽隆重舉行,中科院自動化所研發(fā)的AI系統(tǒng)“CASIA-先知V1.0”首次戰(zhàn)勝了人類選手,展示出深度學(xué)習(xí)等人工智能技術(shù)在對抗博弈領(lǐng)域的強(qiáng)大能力。眾所周知,軍事決策是軍事領(lǐng)域中最復(fù)雜、最具挑戰(zhàn)的活動,并由此促進(jìn)了軍事輔助決策支持技術(shù)的產(chǎn)生和發(fā)展??梢灶A(yù)見,深度學(xué)習(xí)技術(shù)的不斷進(jìn)步必將對軍事智能輔助決策領(lǐng)域產(chǎn)生深刻而重大的影響。
本文回顧了深度學(xué)習(xí)與軍事智能決策支持系統(tǒng)的發(fā)展歷程,探討了深度學(xué)習(xí)在智能決策應(yīng)用中的重難點(diǎn)問題,展望了基于深度學(xué)習(xí)的軍事智能決策支持系統(tǒng)的建設(shè)和發(fā)展前景。
深度學(xué)習(xí)是由人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來。Hinton[2]等人在2006年首次提出了基于深度置信網(wǎng)絡(luò)的無監(jiān)督概率生成模型,闡述了深度學(xué)習(xí)的基本原理。深度學(xué)習(xí)以數(shù)據(jù)和算力為支撐,通過搭建含有多個(gè)隱層的神經(jīng)網(wǎng)絡(luò),對外部輸入數(shù)據(jù)進(jìn)行特征提取,進(jìn)而從中獲取所需信息。這樣的模型具有很高的存儲效率,而線性增加的神經(jīng)元數(shù)目可以使其表達(dá)按指數(shù)級增加大量信息。隨著大數(shù)據(jù)時(shí)代的到來以及計(jì)算能力的不斷發(fā)展,人工神經(jīng)網(wǎng)絡(luò)在近十年間取得了長足進(jìn)步,促進(jìn)了深度學(xué)習(xí)的快速發(fā)展,由此也使得人工智能從之前必須借助人類的階段向前邁出了一步。
深度學(xué)習(xí)的發(fā)展大致可分為三個(gè)階段。第一階段,以20世紀(jì)80年代出現(xiàn)的BP算法[3]為起點(diǎn)。直到現(xiàn)在,BP算法都是神經(jīng)網(wǎng)絡(luò)模型中很常用的參數(shù)學(xué)習(xí)方法。然而,由于當(dāng)時(shí)的計(jì)算性能有限,且樣本數(shù)據(jù)較為匱乏,僅僅使用BP算法并不能有效解決局部極值和梯度彌散等問題,這使得神經(jīng)網(wǎng)絡(luò)的研究發(fā)展緩慢,一度被學(xué)界拋棄。2006年,Hinton提出了無監(jiān)督深度置信網(wǎng)絡(luò)訓(xùn)練方法,以此為標(biāo)志,深度學(xué)習(xí)進(jìn)入了第二階段。Hinton的主要思想是先通過自學(xué)習(xí)方法進(jìn)行訓(xùn)練,然后在自動編碼器上進(jìn)行有監(jiān)督訓(xùn)練,實(shí)現(xiàn)對參數(shù)的微調(diào)。這一時(shí)期,隨著硬件技術(shù)不斷更新和數(shù)據(jù)規(guī)模不斷增大,深度神經(jīng)網(wǎng)絡(luò)模型開始受到業(yè)界的普遍關(guān)注,進(jìn)而在多個(gè)領(lǐng)域中得到了發(fā)展。2012年,Hinton課題組構(gòu)建的CNN網(wǎng)絡(luò)AlexNet[4]在ImageNet圖像識別比賽中一舉奪冠,其分類性能遠(yuǎn)遠(yuǎn)超過第二名,使得CNN吸引了眾多研究者的關(guān)注。以這一年為界限,深度學(xué)習(xí)進(jìn)入第三階段。卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、進(jìn)化神經(jīng)網(wǎng)絡(luò)等模型的優(yōu)勢逐漸顯現(xiàn),打開了人工智能新世界的大門。具有良好的大數(shù)據(jù)處理能力的深度學(xué)習(xí)模型,不僅在模式識別、信息檢索、自然語言處理等多個(gè)人工智能領(lǐng)域都取得了重大突破,還可以對復(fù)雜模式進(jìn)行分類,從而在決策問題中產(chǎn)生了巨大影響。
深度學(xué)習(xí)發(fā)展至今取得了令人驚嘆的成就,得益于以深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等為主流的深度學(xué)習(xí)模型的深入發(fā)展。下面對這些經(jīng)典模型進(jìn)行簡要介紹。
1)深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)是由多層隨機(jī)因變量組成的概率生成模型,能夠更加有效地使用未經(jīng)標(biāo)注的數(shù)據(jù),并通過產(chǎn)生式預(yù)訓(xùn)練,有效解決深度神經(jīng)網(wǎng)絡(luò)中的過擬合和欠擬合等問題[5],如圖1所示。該模型具有很好的靈活性和可擴(kuò)展性,受到廣大研究者們的熱切關(guān)注。
圖1 DBN網(wǎng)絡(luò)結(jié)構(gòu)
2)卷積神經(jīng)網(wǎng)絡(luò)[6](Convolutional Neural Network,CNN)是一種前饋神經(jīng)網(wǎng)絡(luò)模型,且輸入端不再需要特殊處理,這些特點(diǎn)讓它更多被應(yīng)用在大型圖像處理任務(wù)中,如圖2所示。Hinton團(tuán)隊(duì)的AlexNet利用Dropout、激活函數(shù)等方法,結(jié)合GPU并行處理技術(shù),使得算法性能大大超過了傳統(tǒng)模型;Kaiming He[7-9]的相關(guān)研究解決了計(jì)算層次訓(xùn)練問題,實(shí)現(xiàn)了對目標(biāo)像素級別的識別,使準(zhǔn)確率達(dá)到了新高。
圖2 CNN結(jié)構(gòu)示意圖
3)遞歸神經(jīng)網(wǎng)絡(luò)[10](Recursive Neural Network)在循環(huán)過程中可以記住此前已經(jīng)處理過的數(shù)據(jù)信息,如圖3所示。這一模型更加適合文本、語音識別等序列數(shù)據(jù)的建模問題。然而,傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)由于梯度彌散和梯度爆炸等問題,很難捕捉長時(shí)相關(guān)性。LSTM模型[11]引入了自循環(huán)的思想,解決了長時(shí)依賴的訓(xùn)練問題,之后出現(xiàn)的GRU[12]等改進(jìn)模型,在預(yù)測文本和語音識別中也表現(xiàn)出了很好的效果。
圖3 遞歸神經(jīng)網(wǎng)絡(luò)
上述經(jīng)典模型從本質(zhì)上講是分類和識別算法,難以解決決策和控制問題,由此,深度強(qiáng)化學(xué)習(xí)等新算法便應(yīng)運(yùn)而生。深度強(qiáng)化學(xué)習(xí)[13](Deep Reinforcement Learning,DRL)是在訓(xùn)練中進(jìn)行試錯(cuò),通過獎(jiǎng)勵(lì)和懲罰反饋神經(jīng)網(wǎng)絡(luò),從而得到更好的策略模型。需注意的是,價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)是相互依賴的,給定其中一個(gè)函數(shù)都會導(dǎo)致另一個(gè)函數(shù)的變化。引入Q-Learning算法的DQN[13]很好地結(jié)合了兩者,實(shí)現(xiàn)了從感知到動作的端對端學(xué)習(xí),比如讓AI玩游戲,在看到遮蔽物時(shí)立即做出避讓動作等。同時(shí),它在更新網(wǎng)絡(luò)時(shí),隨機(jī)抽取過去的學(xué)習(xí)經(jīng)歷,這使其不僅能夠?qū)W習(xí)到當(dāng)前的經(jīng)歷,還能學(xué)習(xí)到過去的經(jīng)歷,甚至是別人的經(jīng)歷。AlphaGo就采取了DQN算法,在自我博弈中實(shí)現(xiàn)獎(jiǎng)勵(lì)積累的最大化,由此得出在各個(gè)狀態(tài)下最好的走法選擇。這一算法更加符合人類在現(xiàn)實(shí)世界中的決策思維,被廣泛應(yīng)用在智能機(jī)器人的控制、棋類對弈、游戲通關(guān)、汽車自動駕駛等多類決策和控制問題中。2017年12月,DeepMind公布了Alpha系列的最新成果AlphaZero[14],它采取了簡化算法的策略,擁有了比AlphaGo Zero更好的泛化能力,可使用完全相同的算法和超參數(shù),在不需要人類知識的情況下,完全依靠自我博弈,在國際象棋、日本將棋、圍棋三種不同的棋類游戲中,均只需幾小時(shí)進(jìn)行模型訓(xùn)練,便可戰(zhàn)勝各自領(lǐng)域的頂尖AI程序;Ruslan在2017年NIPS研討會中提出了將記憶引入深度強(qiáng)化學(xué)習(xí)的思想,利用位置感知記憶方法,防止過多的記憶重寫,從而提高記憶效率,這讓學(xué)習(xí)模型在不同環(huán)境下都能夠擁有優(yōu)異的表現(xiàn)。以上兩者,不論是AlphaZero的算法簡化,還是Ruslan引入記憶的策略,都反映出DRL的前沿研究主要集中于模型的泛化能力和性能上的提升上。
智能決策支持系統(tǒng)(Intelligent Decision Support Systems, IDSS)是指在計(jì)算機(jī)的輔助下,綜合運(yùn)用現(xiàn)代決策理論和人工智能技術(shù),結(jié)合了管理決策科學(xué)、信息科學(xué)與運(yùn)籌學(xué)等學(xué)科,依托人類知識庫,通過邏輯推理來幫助解決現(xiàn)實(shí)問題的決策支持系統(tǒng),如圖4所示。在軍事領(lǐng)域,主要應(yīng)用于輔助決策,實(shí)現(xiàn)對情報(bào)處理、態(tài)勢分析、方案確定和計(jì)劃擬制的輔助支持。
下面分別對美軍和我國國內(nèi)相關(guān)情況進(jìn)行簡要介紹。
圖4 IDSS組成結(jié)構(gòu)
軍事決策支持系統(tǒng)這一概念最先由美軍提出,旨在通過各種技術(shù)的實(shí)現(xiàn),輔助指揮員做出及時(shí)和正確的判斷并實(shí)施決策控制。比如,美國防空混成旅射擊指揮輔助決策系統(tǒng)[15]可通過捕捉圖像、控制管理傳感器,實(shí)現(xiàn)分析戰(zhàn)場態(tài)勢、制定計(jì)劃、作戰(zhàn)模擬等功能,具有決策快速、準(zhǔn)確客觀的特點(diǎn);美軍于2004年開展的實(shí)時(shí)作戰(zhàn)智能決策制定計(jì)劃(Real-time Adversarial Intelligence and Decisionmaking,RAID)[16],希望能夠?qū)崟r(shí)根據(jù)戰(zhàn)場態(tài)勢自動生成可行的行動方案;2007年,美國防部DARPA機(jī)構(gòu)啟動了“深綠”計(jì)劃(Deep Green,DG)[17],致力于對未來可能發(fā)生的各種情況做出預(yù)測,為指揮決策提供支持。“深綠”起初的目標(biāo)是用于旅級作戰(zhàn),其核心技術(shù)是實(shí)時(shí)態(tài)勢仿真,而戰(zhàn)場復(fù)雜態(tài)勢的不確定性所導(dǎo)致的組合爆炸問題則成了難以攻克的瓶頸,該項(xiàng)目于2011年暫停。
2009年至2014年,DARPA啟動了一系列面向作戰(zhàn)的研究項(xiàng)目,如Mind’s Eye計(jì)劃研發(fā)一種根據(jù)視覺信息進(jìn)行態(tài)勢認(rèn)知和推理系統(tǒng);TRACE計(jì)劃采用智能算法解決對抗條件下態(tài)勢目標(biāo)的識別判斷;DBM則面向空中戰(zhàn)場的輔助決策,主要解決戰(zhàn)場態(tài)勢認(rèn)知、行動決策生成以及僚機(jī)的無人駕駛等現(xiàn)實(shí)難題;TEAM-US利用機(jī)器的優(yōu)勢幫助人類做出最佳選擇,從而大大提升認(rèn)知的速度和精度。2016年6月,美國辛辛那提大學(xué)開發(fā)的人工智能系統(tǒng)“阿爾法”,在空戰(zhàn)模擬對抗中,戰(zhàn)勝了經(jīng)驗(yàn)豐富的空軍上校。該系統(tǒng)從傳感器的信息搜集、分析處理到做出正確的判斷和選擇,整個(gè)過程不到1毫秒,這使其在戰(zhàn)斗中大大提高了戰(zhàn)斗機(jī)的生存能力和指揮協(xié)調(diào)能力。2016年底,美軍啟動Commander’s Virtual Staff項(xiàng)目,用以應(yīng)對大數(shù)據(jù)和復(fù)雜戰(zhàn)場態(tài)勢,從而為指揮員提供作戰(zhàn)全過程的輔助決策。
“深綠”失敗的主要原因是由于當(dāng)時(shí)的數(shù)據(jù)處理能力不足,從而導(dǎo)致傳統(tǒng)人工智能方法在解決態(tài)勢認(rèn)知問題時(shí)存在瓶頸。而阿爾法的成功,則證明了以深度學(xué)習(xí)為代表的現(xiàn)代人工智能技術(shù),在面對大數(shù)據(jù)和復(fù)雜的戰(zhàn)場環(huán)境時(shí),可以突破瓶頸。
長期以來,國內(nèi)在該領(lǐng)域也取得了不少成果,較為成熟的主要以專家系統(tǒng)、多智能體系統(tǒng)(MAS)等為主。專家系統(tǒng)是基于專業(yè)知識進(jìn)行推理分析,用以解決特定領(lǐng)域問題的智能系統(tǒng)。如戰(zhàn)術(shù)導(dǎo)彈方案設(shè)計(jì)智能優(yōu)化系統(tǒng)可以通過專家知識,判別方案的優(yōu)劣,實(shí)現(xiàn)對戰(zhàn)術(shù)導(dǎo)彈方案的有效評估;解放軍理工大學(xué)研制的軍事運(yùn)籌輔助決策系統(tǒng)[18],可自動生成作戰(zhàn)方案,演示戰(zhàn)斗過程,評估戰(zhàn)場效果等;軍事科學(xué)院研發(fā)的“進(jìn)攻一號”軍事專家支持系統(tǒng)[19],建立了4000多條規(guī)則和一個(gè)定性與定量相結(jié)合的高效推理機(jī)制,能夠自動生成作戰(zhàn)決心的參考方案,輔助指揮員定下決心。近些年來,MAS由于在處理復(fù)雜系統(tǒng)問題方面具有顯著優(yōu)勢,因此在決策支持系統(tǒng)中也被普遍應(yīng)用。楊萍[20]等提出的基于MAS的導(dǎo)彈機(jī)動方案輔助決策系統(tǒng),通過加入人機(jī)交互模塊,能夠根據(jù)任務(wù)要求和戰(zhàn)場態(tài)勢規(guī)劃行動方案,并對方案進(jìn)行評估、修正;陳華東[21]等提出的網(wǎng)絡(luò)中心戰(zhàn)中基于MAS的分布式輔助決策研究方法,采用合同網(wǎng)協(xié)議對武器目標(biāo)分配的流程進(jìn)行研究,取得了很好的效果;空中軍事打擊智能決策支持系統(tǒng)[22]利用多智能體技術(shù),輔助生成空中軍事打擊行動決策方案,并進(jìn)行仿真和評估。
然而,戰(zhàn)場環(huán)境的瞬息萬變和難以量化的各類因素成為智能決策的最大障礙,專家系統(tǒng)和傳統(tǒng)的機(jī)器學(xué)習(xí)方法難以應(yīng)對戰(zhàn)爭中的不確定性以及非線性問題,處理高緯度大數(shù)據(jù)的能力也非常有限。比如在專家系統(tǒng)中,規(guī)則與規(guī)則之間的相互關(guān)系并不突出,規(guī)則的使用不夠靈活,系統(tǒng)更加依賴于規(guī)則的完整性和準(zhǔn)確性。當(dāng)規(guī)則庫膨脹到一定規(guī)模后,每增加一條新規(guī)則都可能會與先前的規(guī)則庫產(chǎn)生沖突,規(guī)則庫的維護(hù)難度也將大幅提高,這讓基于規(guī)則的專家系統(tǒng)很難處理現(xiàn)今所面臨的復(fù)雜戰(zhàn)場態(tài)勢。雖然基于傳統(tǒng)機(jī)器學(xué)習(xí)方法以及基于MAS等方法的決策支持系統(tǒng),在一定程度上能解決專家系統(tǒng)遇到的瓶頸,但這類系統(tǒng)普遍存在以下問題:1)知識處理能力差。根據(jù)應(yīng)用領(lǐng)域的不同,其知識的表示方式和獲取策略具有很大差異,且預(yù)處理過程對最終結(jié)果影響很大;2)協(xié)調(diào)統(tǒng)一性差。傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常將復(fù)雜問題拆分成若干子問題,各個(gè)子系統(tǒng)之間的溝通協(xié)調(diào)將直接影響到系統(tǒng)的正確決策;3)適應(yīng)能力差。以往研究成果中,系統(tǒng)的推理機(jī)制是靜態(tài)的,是針對各自領(lǐng)域預(yù)先設(shè)定好的搜索策略和推理策略進(jìn)行決策,因而難以應(yīng)對實(shí)際戰(zhàn)場環(huán)境的快速變化;4)人機(jī)交互差。在人機(jī)結(jié)合過程中遇到困難較大,計(jì)算機(jī)難以準(zhǔn)確理解用戶需求,用戶不能及時(shí)獲取計(jì)算機(jī)的解答,且難以對系統(tǒng)加入啟發(fā)信息。
可見,盡管在軍事決策支持系統(tǒng)方面的研究已經(jīng)有了不少成果,但在實(shí)際應(yīng)用中還存在較大差距,傳統(tǒng)模型在知識表示、推理預(yù)測、指揮控制等方面都具有一定的局限性,這為正在快速發(fā)展的深度學(xué)習(xí)提供了廣闊的發(fā)展空間。
隨著大數(shù)據(jù)時(shí)代的到來,軍事決策面對的數(shù)據(jù)量與日俱增,數(shù)據(jù)格式和類別多樣龐雜,使決策支持面臨新的挑戰(zhàn)。基于神經(jīng)網(wǎng)絡(luò)架構(gòu)的深度學(xué)習(xí)模型,能夠有效地處理和分析大數(shù)據(jù),相較于傳統(tǒng)方法,無論是圖像、語音、文本的識別能力,還是推理、分析、判斷能力,都擁有顯著優(yōu)勢。
目前,國內(nèi)開展了一系列基于深度學(xué)習(xí)的軍事決策輔助技術(shù)的研究,尤其在特征提取方面,解決了諸如雷達(dá)識別、無人機(jī)目標(biāo)識別、智能火控等領(lǐng)域的相關(guān)問題。孫志軍等人提出了一種基于深度學(xué)習(xí)的邊際Fisher特征提取算法(DMFA)[23],改善了傳統(tǒng)的MFA算法對非線性特征的提取能力,提高了雷達(dá)識別準(zhǔn)確率;鐘南[24]等人將深度學(xué)習(xí)引入到海上無人機(jī)目標(biāo)識別技術(shù)中,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和空間轉(zhuǎn)換網(wǎng)絡(luò)相結(jié)合的解決思路,對物體平移、縮放、旋轉(zhuǎn)情況進(jìn)行校正,然后通過分塊化卷積神經(jīng)網(wǎng)絡(luò)給出類別及位置,提高了目標(biāo)識別準(zhǔn)確率。良好的模式識別能力是實(shí)施智能輔助決策的重要前提,而現(xiàn)代戰(zhàn)爭的信息量正呈指數(shù)型速度增長,快速、準(zhǔn)確的數(shù)據(jù)處理能力顯得尤為重要。深度學(xué)習(xí)正是具備了出色的特征提取和表達(dá)能力,被越來越多的研究者運(yùn)用到識別和分類等研究中。上述研究對于戰(zhàn)場目標(biāo)識別領(lǐng)域的應(yīng)用進(jìn)行了探索,結(jié)合深度學(xué)習(xí)模型在戰(zhàn)場高緯度數(shù)據(jù)的特征提取,提出了可行的方法,在一定程度上提高了識別的準(zhǔn)確率。
由于戰(zhàn)場態(tài)勢信息的不確定性和戰(zhàn)場復(fù)雜性,相比于圍棋、自動駕駛等應(yīng)用,作戰(zhàn)輔助決策面臨的情況更加復(fù)雜。研究發(fā)展智能決策支持系統(tǒng),首要解決的就是戰(zhàn)場態(tài)勢認(rèn)知問題。卜令娟[25]、曾清[26]、王楊[27]等人針對戰(zhàn)場大數(shù)據(jù)的特點(diǎn),提出了關(guān)于戰(zhàn)場態(tài)勢評估的新思路,但這些研究僅僅是對大數(shù)據(jù)的預(yù)處理,不能挖掘出深層信息。結(jié)合深度學(xué)習(xí)模型的特點(diǎn)和優(yōu)勢,國內(nèi)展開了基于深度學(xué)習(xí)的戰(zhàn)場態(tài)勢評估方面的相關(guān)研究。朱豐[28]等人分析了深度學(xué)習(xí)與大數(shù)據(jù)的相關(guān)性,闡述了將深度學(xué)習(xí)引入戰(zhàn)場態(tài)勢感知的優(yōu)勢,提出了戰(zhàn)場態(tài)勢評估深度學(xué)習(xí)模型構(gòu)建方法的新思路;郭圣明、賀筱媛、胡曉峰[29]等人采用復(fù)雜網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù),分別在智能化體系評估和威脅判斷方面進(jìn)行了初步探索;歐微[30-31]等人構(gòu)建了基于棧式自編碼器的意圖識別模型,根據(jù)戰(zhàn)場目標(biāo)狀態(tài)呈現(xiàn)出的時(shí)序特征,提出了一種基于時(shí)序編碼的方法,并比較了不同網(wǎng)絡(luò)參數(shù)和訓(xùn)練方法對識別準(zhǔn)確率的影響效果。榮明、楊鏡宇[32]等人通過強(qiáng)化學(xué)習(xí)和價(jià)值網(wǎng)絡(luò),構(gòu)建了戰(zhàn)略威懾決策模型,與AlphaGo原理類似,使用了蒙特卡洛算法實(shí)現(xiàn)對威懾博弈樹的搜索。
戰(zhàn)場態(tài)勢的判斷和作戰(zhàn)意圖的理解是態(tài)勢認(rèn)知面臨的主要挑戰(zhàn)。上述研究運(yùn)用深度學(xué)習(xí)理論,通過實(shí)驗(yàn)和論證提出了合理的解決方案,對戰(zhàn)場態(tài)勢認(rèn)知問題進(jìn)行了初步的探索,提出了新思路??梢钥吹?綜合運(yùn)用大數(shù)據(jù)和深度學(xué)習(xí)等技術(shù)來理解和認(rèn)知戰(zhàn)場態(tài)勢具有很大的潛在價(jià)值,當(dāng)然也面臨諸多困難。
從過去的成果中可以看出,深度學(xué)習(xí)在以目標(biāo)識別為主的情報(bào)分析中表現(xiàn)良好,顯著優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法。但若要定下正確的作戰(zhàn)決心、制定科學(xué)的行動計(jì)劃并付諸實(shí)施,其重要前提是準(zhǔn)確理解當(dāng)前的戰(zhàn)場態(tài)勢,有效預(yù)測下一階段態(tài)勢變化趨勢。這一問題是智能系統(tǒng)輔助決策中的首要難題,也是深度學(xué)習(xí)面臨的極大挑戰(zhàn)。
盡管AlphaGo基于深度學(xué)習(xí)和大數(shù)據(jù)的方法為智能指揮決策帶來了希望,但必須說明的是,AlphaGo在棋盤上所解決的博弈問題與實(shí)際的戰(zhàn)爭具有很大的差別:1)信息完備性不同。AlphaGo獲取的信息是完備的,即圍棋的走法約為2.08×10170種可能,而戰(zhàn)場態(tài)勢中獲取的信息是不完備的,甚至是虛假的,在這種缺失信息的“戰(zhàn)爭迷霧”中,人工智能又該如何決策?2)規(guī)則不同。棋盤內(nèi)的規(guī)則是固定的,對戰(zhàn)具有一致性,而戰(zhàn)爭中的敵我雙方并不會按照一致的規(guī)則出招。3)訓(xùn)練樣本不同。最初版本的AlphaGo是從3000萬人類招法和3000萬局自我對弈中達(dá)到職業(yè)選手水平,而已有且可用的戰(zhàn)爭和演習(xí)數(shù)據(jù)無法達(dá)到這樣的規(guī)模。這些不同都給深度學(xué)習(xí)在作戰(zhàn)智能輔助決策領(lǐng)域的應(yīng)用帶來了困難和挑戰(zhàn)。
從上述的差別中可以看出,一方面,深度學(xué)習(xí)在解決態(tài)勢理解問題上,是以數(shù)據(jù)作為支撐的,戰(zhàn)場態(tài)勢的復(fù)雜性以及對戰(zhàn)的不一致性使得訓(xùn)練數(shù)據(jù)的有效規(guī)模異常龐大,我們難以得到上千萬場戰(zhàn)爭的真實(shí)數(shù)據(jù)來訓(xùn)練模型,數(shù)據(jù)稀疏問題便會伴隨而來,因此,未來的研究重點(diǎn)應(yīng)放在小樣本數(shù)據(jù)的態(tài)勢特征提取上。另一方面,態(tài)勢特征提取的難點(diǎn)在于從不確定性中找到確定性規(guī)律,機(jī)器在這方面的能力遠(yuǎn)遠(yuǎn)不及人類,因此,如果要使機(jī)器具備人類智能的認(rèn)知能力,就需將深度學(xué)習(xí)與多種算法進(jìn)行有效融合。
目前,自動駕駛技術(shù)因采用深度學(xué)習(xí)模型而取得了突破性進(jìn)展。為了理解深度學(xué)習(xí)在輔助決策方面的應(yīng)用,不妨從自動駕駛的決策技術(shù)中尋找答案。從信息復(fù)雜度的角度考慮,自動駕駛所面臨的動態(tài)環(huán)境分析比圍棋要復(fù)雜得多。比如,系統(tǒng)需要根據(jù)實(shí)施圖像分析出天氣、交通標(biāo)志、道路情況等信息,還要預(yù)測周圍車輛和行人的行動,甚至需要判斷前車若是新手司機(jī),則應(yīng)加大車距等。這種通過對環(huán)境進(jìn)行分析、判斷、預(yù)測,再到最終的決策,與復(fù)雜的戰(zhàn)場態(tài)勢理解有著相似之處。在作戰(zhàn)環(huán)境中,復(fù)雜的氣象、地形等諸多因素都會對敵我雙方的行動決策產(chǎn)生影響,而對敵方行動的準(zhǔn)確預(yù)測更是做出正確決策的重要依據(jù)?,F(xiàn)在的深度學(xué)習(xí)普遍采用端到端的算法,即從傳感器輸入直接到控制器的輸出。然而這樣的方法使深層網(wǎng)絡(luò)成了“黑匣子”,失去了透明性,讓網(wǎng)絡(luò)僅僅依賴于概率進(jìn)行推理,即數(shù)據(jù)的相關(guān)性,而非更加符合人類思維的因果關(guān)系。
舉個(gè)例子,輸入樣本為哈士奇和愛斯基摩犬的照片,通過深度學(xué)習(xí)對二者進(jìn)行分類。起初的測試結(jié)果非常好,但后來通過測試進(jìn)行深入分析時(shí)發(fā)現(xiàn),系統(tǒng)更多通過對背景的區(qū)分而并非狗本身的特征進(jìn)行分類。這是因?yàn)樵谟?xùn)練樣本中,愛斯基摩犬的照片背景幾乎都是冰天雪地,而哈士奇則相反。試想,這樣的理解若應(yīng)用到作戰(zhàn)決策中,將會有多致命。目前,深度學(xué)習(xí)在實(shí)際應(yīng)用中的表現(xiàn)要遠(yuǎn)遠(yuǎn)好于傳統(tǒng)方法,其普遍使用的策略是通過加大數(shù)據(jù)量和運(yùn)算能力得到更好的效果,但對于基礎(chǔ)算法的深入研究并不多,這使得目前的深度學(xué)習(xí)在一些領(lǐng)域顯示出不足和短板,埋下了諸如哈士奇和愛斯基摩犬分類中的隱患。因此,在樣本規(guī)模有限的條件下,我們需要更加理性、更加符合人類思維的決策機(jī)制。
基于上述觀點(diǎn),對于深度學(xué)習(xí)在軍事智能輔助決策領(lǐng)域的研究,首先,應(yīng)對作戰(zhàn)領(lǐng)域的大數(shù)據(jù)進(jìn)一步發(fā)展。深度學(xué)習(xí)目前的研究與大數(shù)據(jù)是密不可分的,然而包括演習(xí)在內(nèi)的作戰(zhàn)數(shù)據(jù),真正能夠?qū)嶋H使用的數(shù)據(jù)規(guī)模還遠(yuǎn)遠(yuǎn)達(dá)不到深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需求,目前的研究更多應(yīng)用兵棋的推演數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò),從數(shù)據(jù)的有效性上看,難以證明在實(shí)際作戰(zhàn)中的價(jià)值。其次,深度學(xué)習(xí)技術(shù),尤其在認(rèn)知智能方面需要取得突破。作戰(zhàn)同下棋有著巨大的差別,作戰(zhàn)數(shù)據(jù)不是標(biāo)準(zhǔn)化的“棋譜”,而對于機(jī)器而言,過去發(fā)生的戰(zhàn)爭在現(xiàn)代化戰(zhàn)爭中沒有太大的指導(dǎo)意義。那么如何讓人工智能在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,從認(rèn)知層面真正理解和分析戰(zhàn)場態(tài)勢,提高從小樣本中學(xué)習(xí)知識的能力,將是該領(lǐng)域研究的終極目標(biāo)。再次,對于深層神經(jīng)網(wǎng)絡(luò)的運(yùn)行機(jī)制還需要進(jìn)一步的研究和改進(jìn),來破解深度神經(jīng)網(wǎng)絡(luò)的“黑匣子”問題。數(shù)據(jù)驅(qū)動決策的推理機(jī)制應(yīng)由數(shù)據(jù)相關(guān)性向因果關(guān)系轉(zhuǎn)變,讓機(jī)器具備同人類一樣從小樣本數(shù)據(jù)中進(jìn)行學(xué)習(xí)的能力,通過因果關(guān)系進(jìn)行預(yù)測將更加具有實(shí)際意義。
因此,在軍事智能輔助決策的應(yīng)用中,應(yīng)當(dāng)更加合理地運(yùn)用深度學(xué)習(xí),AlphaGo以及IBM的“沃森”等人工智能系統(tǒng),均融合了多種手段,而深度學(xué)習(xí)只是一個(gè)工具。從發(fā)展歷史中看,深度學(xué)習(xí)可以很好地應(yīng)對大數(shù)據(jù)的特征提取,但淺層的概率統(tǒng)計(jì)模型在特征清晰的情況下,也可以取得很好的效果。另外,“沃森”中的規(guī)則運(yùn)用和“深藍(lán)”的暴力搜索,以及AlphaGo中的強(qiáng)化學(xué)習(xí)和蒙特卡洛樹搜索策略等都在各自領(lǐng)域中有著自身的優(yōu)勢??梢?傳統(tǒng)的機(jī)器學(xué)習(xí)模型不應(yīng)因深度學(xué)習(xí)的快速發(fā)展而拋棄,混合方法才是未來人工智能的大勢所趨。
自2006年以來,深度置信網(wǎng)絡(luò)模型、激活函數(shù)、正則化、Dropout等概念陸續(xù)被提出,深度學(xué)習(xí)模型在解決梯度消失以及過擬合等問題上得到不斷改善,這讓神經(jīng)網(wǎng)絡(luò)煥發(fā)出新的生機(jī)。近年來,高性能GPU和TPU的出現(xiàn),降低了計(jì)算成本,大數(shù)據(jù)的持續(xù)增溫也讓更加復(fù)雜的深層網(wǎng)絡(luò)模型成為可能。目前,基于深度學(xué)習(xí)的軍事智能輔助技術(shù)還處于起步階段,面對具有不確定性、變化速度快、非線性、復(fù)雜性、高緯度、多空間等特點(diǎn)的戰(zhàn)爭復(fù)雜系統(tǒng),傳統(tǒng)的輔助決策手段已難以滿足未來作戰(zhàn)決策的需求。相比較其他機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)應(yīng)用在輔助決策中的優(yōu)勢可歸納為以下幾點(diǎn):1)內(nèi)部神經(jīng)元結(jié)構(gòu)決定了它在解決非線性問題上具有很強(qiáng)的表達(dá)能力;2)具有強(qiáng)大的特征提取能力,更加適應(yīng)從大數(shù)據(jù)中提取特征;3)具有良好的遷移學(xué)習(xí)能力,一個(gè)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)經(jīng)過一定修改就可以在另一問題中得到不錯(cuò)的表現(xiàn);4)其分布式的并行結(jié)構(gòu)大大提高了運(yùn)算效率;5)具備多層學(xué)習(xí)能力,可以發(fā)現(xiàn)神經(jīng)元之間的深層聯(lián)系,可以從大數(shù)據(jù)中提取出深層含義,發(fā)現(xiàn)很多人類都無法發(fā)現(xiàn)的新方法,使智能決策獲得自我創(chuàng)新的能力。由此可見,深度學(xué)習(xí)更加適合應(yīng)對大數(shù)據(jù),它所具備的優(yōu)點(diǎn)可以改善傳統(tǒng)輔助決策技術(shù)的局限性,因此,將深度學(xué)習(xí)應(yīng)用于軍事智能輔助決策將具有重要研究價(jià)值。
本文回顧了深度學(xué)習(xí)的發(fā)展歷程,概述了目前較為流行的幾種模型,結(jié)合軍事智能決策支持系統(tǒng)的發(fā)展和深度學(xué)習(xí)在該領(lǐng)域的研究成果,闡述了深度學(xué)習(xí)模型應(yīng)用在智能輔助決策研究中的優(yōu)勢和面臨的挑戰(zhàn),以下對基于深度學(xué)習(xí)的軍事智能決策支持進(jìn)行展望。
Google之所以能夠引領(lǐng)人工智能領(lǐng)域前沿,除技術(shù)創(chuàng)新外,更為重要的一個(gè)原因是Google擁有非常雄厚的數(shù)據(jù)資源。未來戰(zhàn)場態(tài)勢信息規(guī)模大、種類多、緯度高,戰(zhàn)爭已進(jìn)入大數(shù)據(jù)時(shí)代。因此,加強(qiáng)我軍作戰(zhàn)數(shù)據(jù)建設(shè),構(gòu)建規(guī)模宏大、類別齊全、關(guān)系清晰的作戰(zhàn)數(shù)據(jù)體系是提高智能決策能力的前提。同時(shí),推進(jìn)深度學(xué)習(xí)的研究重點(diǎn)從傳統(tǒng)的有監(jiān)督學(xué)習(xí)和大型標(biāo)注樣本特征提取向無監(jiān)督學(xué)習(xí)和小數(shù)據(jù)集泛化能力上轉(zhuǎn)變,使基于深度學(xué)習(xí)的軍事智能決策支持系統(tǒng)能夠從輸入的數(shù)據(jù)中抽取出其中所包含的模式和規(guī)則,從而不斷提高智能化能力和水平。
DeepMind團(tuán)隊(duì)科研成果表明,采用了強(qiáng)化學(xué)習(xí)策略的深度學(xué)習(xí)系統(tǒng)不僅可以下圍棋、玩視頻游戲,還可以在多種任務(wù)執(zhí)行中與人類匹敵。目前,該團(tuán)隊(duì)已將目標(biāo)轉(zhuǎn)向“星際爭霸Ⅱ”。和圍棋不同,這款復(fù)雜的戰(zhàn)爭策略游戲更加接近實(shí)際的戰(zhàn)爭決策,在作戰(zhàn)決策中,除了復(fù)雜的態(tài)勢分析,通常還要考慮到時(shí)序性問題,這使得運(yùn)算代價(jià)劇增。因此,對于戰(zhàn)爭復(fù)雜系統(tǒng),以目前的技術(shù)手段和硬件水平,能否像AlphaGo一樣進(jìn)行大量的自我博弈還是未知,或許需要其他的算法來解決深度神經(jīng)網(wǎng)絡(luò)無法解決的問題。但我們要認(rèn)識到,“星際爭霸Ⅱ”的自主決策一旦取得突破,將意味著真正智能化的作戰(zhàn)決策不再遙遠(yuǎn)。
參考文獻(xiàn):
[1]《中國軍事科學(xué)》編輯部.圍棋人機(jī)大戰(zhàn)與軍事指揮決策智能化研討會觀點(diǎn)綜述[J].中國軍事科學(xué),2016(2): 147-152.
[2]Hinton G, Salakhutdinov R. Reducing the Dimensionality of Data with Neural Networks[J]. Science,2006,313 (5786):504-507.
[3]Rumelhart D, Hinton G, Williams R. Learning representa-tions by back-propagating errors[J]. Nature,1986,323 (6088): 533-536.
[4]Krizhevsky A, Sutskever I, Hinton G. Imagenet classification with deep convolutional neural networks[C]∥Advances in Neural Information Processing Systems, Lake Tahoe;MIT Press, 2012: 1097-1105.
[5]Mohamed A, Hinton G, Penn G. Understanding how deep belief networks perform acoustic modeling[A]. In Proceedings of International Conference on Acoustics Speech and Signal Processing[C], 2012.
[6]Lee H, Grosse R, Ranganath R, et al. Unsupervised learning of hierarchical representations with convolutional deep belief networks[J]. Communications of the ACM, 2011, 54(10): 95-103.
[7]Kaiming He, Xiangyu Zhang, Shaoqing Ren, et al. Deep residual learning for image recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE,2016.
[8]Shaoqing Ren, Kaiming He, Ross Girshick, et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[A]. IEEE Transactions on Pattern Analysis and Machine Intelligence[C], 2016.
[9]Kaiming He, Gkioxari G, Dollar P, et al. Mask R-CNN[A]. IEEE International Conference on Computer Vision[C], 2017.
[10] Pollack J B.Recursive distributed representations[J]. Artificial Intelligence, 1990,46(1): 77-105.
[11] Hochreiter S, Schmidhuber J. Long short-term memory [J]. Neural Computation, 1997,9(8): 1735-1780.
[12] Cho K, Van Merrienboer B, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[C]. ArXiv e-prints, 2014,abs/1409.1259.
[13] Mnih V,Kavukcuoglu K,Silver D,et al.Human-level control through deep reinforcement learning[J]. Nature,2015,518(7540):529-533.
[14] David S,Thomas H,Julian S,et al.Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm[EB/OL].(2017-12-05). http:∥arxiv. org/pdf/1712.01815.pdf.
[15] Payne T P, Edwards P. Interface agents that learn: an investigation of learning issue in a multi-agent interface[J]. Applied Artificial Intelligence, 1997,11(1): 1-32.
[16] 鄧江湖,趙武奎,盧詩驕.中美軍隊(duì)輔助決策系統(tǒng)現(xiàn)狀比較[J].兵工自動化,2006,25(10):15-16.
[17] Surdu J R. The Deep Green Concept[C]∥Processing of the 2008 Spring Simulation Multiconference.SpringSim 2008,Ottawa,Canade,2008:623-631.
[18] 丁國勤,孟衛(wèi)東.后勤保障指揮決策系統(tǒng)結(jié)構(gòu)設(shè)計(jì)研究[J].后勤工程學(xué)院學(xué)報(bào),2005,21(1):29-34.
[19] 胡桐清,陳亮.軍事智能輔助決策的理論與實(shí)踐[J].軍事系統(tǒng)工程,1995(Z1):3-10.
[20] 楊萍,等.基于多Agent的導(dǎo)彈機(jī)動方案輔助決策系統(tǒng)體系結(jié)構(gòu)研究[J].軍事運(yùn)籌與系統(tǒng)工程,2006,20(4):15-19.
[21] 陳華東,等.網(wǎng)絡(luò)中心戰(zhàn)中基于MAS的分布式輔助決策研究[J].火力指揮控制,2010,35(10):11-14.
[22] 王立華,徐洸.空中軍事打擊智能決策支持系統(tǒng)研究[A].第十一屆中國管理科學(xué)學(xué)術(shù)年會論文集[C]. 2009: 168-172.
[23] 孫志軍,薛磊,許陽明.基于深度學(xué)習(xí)的邊際Fisher分析提取算法[J].電子與信息學(xué)報(bào),2013,35(4):805-811.
[24] 鐘南,張建偉,馬連軼,等.基于深度學(xué)習(xí)的海上無人機(jī)目標(biāo)識別算法研究[J].數(shù)字軍工,2016(3):43-46.
[25] 卜令娟,劉俊,邱黃亮,等.戰(zhàn)場通用態(tài)勢估計(jì)本體模型的構(gòu)建[C]∥第二屆中國指揮控制大會論文集——發(fā)展中的指揮與控制,2014:138-142.
[26] 曾清,施慧杰,杜陽華.聯(lián)合作戰(zhàn)戰(zhàn)場態(tài)勢一致性評估[J].指揮控制與仿真,2014,36(1):5-8.
[27] 王楊.戰(zhàn)場態(tài)勢目標(biāo)識別與態(tài)勢意圖預(yù)測的算法研究[D].無錫:江南大學(xué),2015.
[28] 朱豐,胡曉峰.基于深度學(xué)習(xí)的戰(zhàn)場態(tài)勢評估綜述與研究展望[J].軍事運(yùn)籌與系統(tǒng)工程,2016,30(3):22-27.
[29] 郭圣明,賀筱媛,胡曉峰,等.軍用信息系統(tǒng)智能化的挑戰(zhàn)與趨勢[J].控制理論與應(yīng)用,2016,33(12):1562-1571.
[30] 歐微,柳少軍,賀筱媛,等.基于時(shí)序特征編碼的目標(biāo)戰(zhàn)術(shù)意圖識別算法[J].指揮控制與仿真,2016,38(6):36-41.
[31] 歐微,柳少軍,賀筱媛,等.戰(zhàn)場對敵目標(biāo)戰(zhàn)術(shù)意圖智能識別模型研究[J].計(jì)算機(jī)仿真,2017,34(9):10-14+19.
[32] 榮明,楊鏡宇.基于深度學(xué)習(xí)的戰(zhàn)略威懾決策模型研究[J].指揮與控制學(xué)報(bào),2017,3(1):44-47.
[33] Silver D, Huang A, Maddison C. Mastering the game of Go with deep neural networks and tree search[J]. Natrue, 2016,529(7584): 484-489.
[34] LeCun Y, Bengio Y, Hinton G. Deep learning.Nature, 2015,521(7553): 436-444.
[35] 胡曉峰,賀筱媛,徐旭林.大數(shù)據(jù)時(shí)代對建模仿真的挑戰(zhàn)與思考——中國科協(xié)第81期新觀點(diǎn)新學(xué)說學(xué)術(shù)沙龍綜述[J].中國科學(xué):信息科學(xué),2014,44(5):676-692.
[36] 胡曉峰.軍事指揮信息系統(tǒng)中的機(jī)器智能:現(xiàn)狀與趨勢[J].人民論壇·學(xué)術(shù)前沿,2016(15):22-34.
[37] 胡曉峰,榮明.作戰(zhàn)決策輔助向何處去——“深綠”計(jì)劃的啟示與思考[J].指揮與控制學(xué)報(bào),2016,2(1):22-25.
[38] 姚慶鍇,柳少軍,賀筱媛,等.戰(zhàn)場目標(biāo)作戰(zhàn)意圖識別問題研究與展望[J].指揮與控制學(xué)報(bào),2017,3(2):127-131.
[39] 鄭書奎,吳琳,賀筱媛.基于深度學(xué)習(xí)的兵棋演習(xí)數(shù)據(jù)特征提取方法研究[J].指揮與控制學(xué)報(bào),2016,2(3):194-201.
[40] 郭若冰,司光亞,賀筱媛.迎接智能化時(shí)代軍事指揮面臨的新挑戰(zhàn)——全軍“戰(zhàn)爭復(fù)雜性與信息化戰(zhàn)爭模擬”研討會觀點(diǎn)綜述[J].中國軍事科學(xué),2016(5):149-156.
[41] 胡侯立,魏維,胡蒙娜.深度學(xué)習(xí)算法的原理及應(yīng)用[J].信息技術(shù),2015(2):175-177.
[42] 段艷杰,呂宜生,張杰,等.深度學(xué)習(xí)在控制領(lǐng)域的研究現(xiàn)狀與展望[J].自動化學(xué)報(bào),2016,42(5):643-654.
[43] 金欣.“深綠”及AlphaGo對指揮與控制智能化的啟示[J].指揮與控制學(xué)報(bào),2016,2(3):202-207.