□文/Strategic Studies Institute
美國(guó):“第三次抵消”劍指人工智能
□文/Strategic Studies Institute
AI,將改變未來(lái)的一切,包括軍事方面。近日,美國(guó)陸軍軍事學(xué)院(U.S.Army War College)旗下的戰(zhàn)略研究智庫(kù)Strategic Studies Institute(SSI)出版了一本名為《比你想得更近:美軍第三次抵消的戰(zhàn)略意義》(CLOSER THAN YOU THINK∶ The Implications of the Third Offset Strategy for the U.S. Army)的重磅報(bào)告。
報(bào)告大部分內(nèi)容均圍繞人工智能以及相關(guān)應(yīng)用闡述對(duì)美國(guó)軍事的戰(zhàn)略意義。本刊挑選重點(diǎn)內(nèi)容進(jìn)行了編譯。
相信大家都知道,圍棋(Go)是世界上最古老的棋盤游戲。在一個(gè)19×19線的方格游戲棋盤上,兩名玩家各執(zhí)白色棋子或黑色棋子,輪番落子。將對(duì)方的棋子包圍起來(lái),就能夠?qū)⑦@些棋子繳獲。在游戲結(jié)束時(shí),在棋盤上包圍的空間最多且被繳獲棋子數(shù)目最少的一方玩家獲勝。其實(shí),可以這樣說(shuō),圍棋的總體目標(biāo)是掌握主動(dòng)權(quán),在戳中對(duì)手弱點(diǎn)的同時(shí)最大限度地發(fā)揮自己的優(yōu)勢(shì),從而實(shí)現(xiàn)戰(zhàn)略和戰(zhàn)術(shù)上的包圍,而不足之處就是導(dǎo)致了一個(gè)穩(wěn)定和平衡的局面。
雖然看起來(lái)很簡(jiǎn)單,但實(shí)際上圍棋是相當(dāng)復(fù)雜的。它是一個(gè)涵蓋主動(dòng)性、策略性、平衡性以及人類想要控制棋盤地理位置的意志沖突性游戲。圍棋,本質(zhì)上來(lái)說(shuō)就是一個(gè)具有2500年歷史的“抽象戰(zhàn)爭(zhēng)模擬”。因此,一些著名的政治思想家認(rèn)為,圍棋是理解地緣政治和戰(zhàn)略的可行性模式。然而,很少有人知道該如何將其應(yīng)用于自己的決策中。他們可以把圍棋看成是具有說(shuō)明性的、內(nèi)容豐富的,甚至讓人大開眼界的事物,但卻無(wú)法或是不愿意采取下一步措施,學(xué)習(xí)圍棋所教授的知識(shí),以便將其應(yīng)用于自己的戰(zhàn)略思維中。將人類和計(jì)算機(jī)化的人工智能結(jié)合起來(lái)是一個(gè)潛在的解決方案,它可以使人類在不需要經(jīng)驗(yàn)或深入研究的情況下,就像專家一樣,在圍棋或類似的決策過(guò)程中充當(dāng)專家。而最近在AI領(lǐng)域所取得的進(jìn)展在不斷表明,現(xiàn)如今,這些是可能實(shí)現(xiàn)的。
2016年,一個(gè)計(jì)算機(jī)程序成功地?fù)魯×藘擅澜缟献詈玫膰暹x手,引起人們的極大關(guān)注,這個(gè)程序就是AlphaGo,該程序是由谷歌旗下的人工智能研究公司Deepmind的計(jì)算機(jī)科學(xué)家編寫的。是的,AlphaGo做到了這一點(diǎn),但這并不是通過(guò)預(yù)先編程的游戲?qū)<抑R(shí),而是通過(guò)從專家玩家對(duì)弈的游戲中進(jìn)行學(xué)習(xí),并不斷通過(guò)自我對(duì)弈以實(shí)現(xiàn)能力的自我提高。這是一種既具有革命性又意義深遠(yuǎn)的做法。雖然人工智能在很多地方都能夠發(fā)揮作用,但是它在圍棋這種古老的戰(zhàn)略游戲中的應(yīng)用表明了它是如何幫助改善外交和安全策略決策的。把圍棋的戰(zhàn)略經(jīng)驗(yàn)與人工智能結(jié)合起來(lái),可以使這些檢驗(yàn)更加廣泛地得以應(yīng)用,并在不需要文化背景或游戲?qū)I(yè)技能的情況下提高決策能力。而這將使人類決策者能夠更加專注于自己的長(zhǎng)處并克服其認(rèn)知上的弱點(diǎn)。通過(guò)創(chuàng)建一個(gè)基于圍棋框架的世界模型,像AlphaGo這樣的AI算法就可以成為那個(gè)世界的專家,理解一個(gè)給定的情況,然后在很多可能的行動(dòng)方針(COA)中展望未來(lái),以幫助人類決策者確定哪一個(gè)下一步行動(dòng)將能夠最好地實(shí)現(xiàn)其目標(biāo)。通過(guò)與人類決策者合作,進(jìn)行更快、更深入、更準(zhǔn)確的思考,這種類型的人工智能可以為那些最愿意使用它的人提供決定性的戰(zhàn)略優(yōu)勢(shì)。
莫拉維克悖論(Moravec’s Paradox)指出,人類毫不費(fèi)力就可以做成的事情,對(duì)于計(jì)算機(jī)來(lái)說(shuō)是非常困難的。尤其是在運(yùn)動(dòng)技能、視覺(jué)或音頻識(shí)別等基本任務(wù)更是如此。其實(shí),這個(gè)說(shuō)法反過(guò)來(lái)也是正確的,特別是在涉及到人類的認(rèn)知思維的時(shí)候。一個(gè)復(fù)雜的戰(zhàn)略環(huán)境可能會(huì)很(太)難讓人類的頭腦進(jìn)行準(zhǔn)確的處理。因?yàn)樵谝粋€(gè)情況中,可能會(huì)有太多的信息、太多的復(fù)雜性以及太多的變化。而這些卻正是戰(zhàn)略決策者所必須操作的確切環(huán)境。在這種情況下,他們承擔(dān)不起犯錯(cuò)所帶來(lái)的后果,也不能屈服于人類決策這個(gè)所固有的弱點(diǎn)。而這正是人機(jī)合作所能完善的地方。將AI計(jì)算機(jī)思維與人類思維結(jié)合在一起、將人類的優(yōu)勢(shì)與AI的優(yōu)勢(shì)結(jié)合起來(lái),從而彌補(bǔ)兩者之間的弱點(diǎn)。
其中,人工智能可能會(huì)遇到的難題是,當(dāng)它遇到超出其學(xué)習(xí)經(jīng)驗(yàn)或模型的情況時(shí),除了數(shù)據(jù)庫(kù)或固有編程之外,它可能很難進(jìn)行創(chuàng)造性的思考。與此同時(shí),它可能也無(wú)法進(jìn)行倫理思考,特別是在最具倫理性的解決方案可能不是最高效或最有效的解決方案的情況下。另外,AI需要制定一個(gè)為之奮斗的目標(biāo)(AI不是做白日夢(mèng))。這正是人機(jī)協(xié)作的人性化部分。在這種人機(jī)合作的模式中,人類將提供目標(biāo)、創(chuàng)造力和倫理思維,而人工智能將提供自學(xué)得來(lái)的經(jīng)驗(yàn)、直覺(jué)和預(yù)測(cè)能力。一個(gè)匯聚了這些元素的算法就是實(shí)現(xiàn)突破的關(guān)鍵,而正是這些使得AlphaGo超出了世界上最好的圍棋選手。
右圖左邊的地圖顯示了一個(gè)基于歐洲和中東的相對(duì)影響的概念圖構(gòu)建的位置。白色代表美國(guó)和北大西洋公約組織(NATO),黑色代表俄羅斯和俄羅斯的盟友。右側(cè)的地圖顯示了一個(gè)相對(duì)簡(jiǎn)單的圍棋計(jì)算機(jī)程序操作的結(jié)果,它比AlphaGo要簡(jiǎn)單得多,通過(guò)計(jì)算機(jī)自我對(duì)弈來(lái)放置黑白位置。雖然這個(gè)非?;镜膰迥P陀幸恍┚窒扌裕峭ㄟ^(guò)在中東、北非和北歐運(yùn)用額外的影響力活動(dòng),計(jì)算機(jī)自我對(duì)弈確實(shí)意味著對(duì)俄羅斯的戰(zhàn)略有利。它還強(qiáng)調(diào),美國(guó)和北約應(yīng)該在整個(gè)歐洲和中東加強(qiáng)自己的影響力。這個(gè)簡(jiǎn)單的實(shí)驗(yàn)說(shuō)明了圍棋作為在戰(zhàn)略環(huán)境中理解和做出決策的基礎(chǔ)和適用性。
像AlphaGo一樣,一個(gè)決策AI工具將由三種思維組成。第一種是經(jīng)驗(yàn)思維,它是基于一個(gè)經(jīng)由人類戰(zhàn)略家的經(jīng)驗(yàn)、學(xué)說(shuō)和范例進(jìn)行訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)得到的,能夠識(shí)別特定領(lǐng)域內(nèi)的專家動(dòng)作。其次是一個(gè)直覺(jué)思維,它是基于相關(guān)游戲模型,由一個(gè)經(jīng)由強(qiáng)化學(xué)習(xí)訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)建立的,能夠使用一個(gè)獎(jiǎng)勵(lì)函數(shù),根據(jù)人類指定的目的或目標(biāo),從失敗的情況中分辨出獲勝的位置。而第三則是預(yù)測(cè)思維,它將利用經(jīng)驗(yàn)和直覺(jué)思維來(lái)縮小可能的選項(xiàng),預(yù)測(cè)多種可能的未來(lái)事件序列,并提出建議,從而實(shí)現(xiàn)既定的目標(biāo)。
覆蓋在歐洲和中東地圖上的圍棋游戲
可以說(shuō),前兩個(gè)思維永遠(yuǎn)是處于學(xué)習(xí)狀態(tài)的。經(jīng)驗(yàn)思維將接收信息、情報(bào)和其他相關(guān)信息的持續(xù)更新;直覺(jué)思維將不斷地通過(guò)強(qiáng)化學(xué)習(xí)自我對(duì)弈以及獎(jiǎng)勵(lì)標(biāo)準(zhǔn)來(lái)進(jìn)行改進(jìn),其中,獎(jiǎng)勵(lì)標(biāo)準(zhǔn)能夠隨著目標(biāo)的改變而更新;而預(yù)測(cè)思維將繼續(xù)運(yùn)行模擬,并隨著情況的發(fā)展更新成功的可能性。它將不斷地對(duì)決策樹進(jìn)行擴(kuò)展,以涵蓋更多可能的操作,并提高先前評(píng)估逼真度。其實(shí),這就和人類的戰(zhàn)略決策一樣,總體的概念就是一個(gè)持續(xù)進(jìn)行的評(píng)估和改進(jìn)的循環(huán)。
作為第三次抵消戰(zhàn)略(Third Offset Strategy)的一部分,國(guó)防部(the Department of Defense,DoD)應(yīng)該資助相關(guān)研究和開發(fā)工作,這將使得AI支持的人機(jī)協(xié)同成為戰(zhàn)略決策的一部分。另外還要努力嘗試將人工智能集成到各個(gè)階層的決策過(guò)程中。這些努力應(yīng)該是循序漸進(jìn)的、在嘗試更為復(fù)雜的方法之前想要展示其基本能力。
國(guó)防部和軍隊(duì)?wèi)?yīng)該開始進(jìn)行快速的原型設(shè)計(jì),以確定AI的哪些方面能夠取得最短期的成功。他們應(yīng)該資助程序員、戰(zhàn)略專家和軍事專家小組,以探索這種AI輔助決策方法的可能性。對(duì)人機(jī)協(xié)作過(guò)程的研究應(yīng)該確定集成、訓(xùn)練和擴(kuò)展這些AI工具的最佳方式。使用這些人工智能工具的組織應(yīng)該應(yīng)用變更管理原則,以將其納入到它們的過(guò)程和文化中。
人工智能的真正力量將在于把人腦與人工智能的結(jié)合過(guò)程。這種人機(jī)協(xié)作將把目標(biāo)設(shè)定、創(chuàng)造力和道德思考的人類優(yōu)勢(shì)與通過(guò)自學(xué)的經(jīng)驗(yàn)、直覺(jué)和深度預(yù)測(cè)得到的人工智能的理性思考結(jié)合起來(lái)。一個(gè)通過(guò)自學(xué)AI將人機(jī)協(xié)作涵蓋在內(nèi)的決策過(guò)程將克服人類決策中所固有的弱點(diǎn),并為那些使用它的人提供獨(dú)特和決定性的優(yōu)勢(shì),而這些是那些不使用它的人所不具備的。這可以用來(lái)創(chuàng)建一個(gè)實(shí)時(shí)的預(yù)測(cè)COP,它可以為決策者提供下一步的最佳行動(dòng),同時(shí)預(yù)測(cè)對(duì)手的下一步動(dòng)向。它可以幫助各級(jí)戰(zhàn)略家迅速制定行動(dòng)計(jì)劃,并隨著事實(shí)的變化迅速更新這些計(jì)劃。最終,通過(guò)與人類決策者一起進(jìn)行更快速、更深入、更準(zhǔn)確的思考,這種類型的AI將為那些最愿意使用它的人提供決定性的戰(zhàn)略優(yōu)勢(shì)。
長(zhǎng)期以來(lái),美軍在實(shí)施新興革命技術(shù)方面一直處于領(lǐng)先地位。日益增長(zhǎng)的自動(dòng)駕駛汽車的使用就是一個(gè)很明顯的例子。這些系統(tǒng)為美軍提供了前所未有的態(tài)勢(shì)感知(situational awareness)和作戰(zhàn)能力。然而,有跡象表明,這些成熟的IT技術(shù)的采用尚未充分發(fā)揮其潛力。目前,自相矛盾的是,這些自動(dòng)系統(tǒng)的使用廣泛地依賴于用人力資本來(lái)對(duì)其進(jìn)行維護(hù),并對(duì)其產(chǎn)生的數(shù)據(jù)進(jìn)行處理。
隨著信息時(shí)代的日益成熟,處理和提煉信息的能力可能成為其新的界定特征。將信息收集、通信、存儲(chǔ)和處理完全集成到及時(shí)而果斷的行動(dòng)中的能力,可能會(huì)產(chǎn)生新的技術(shù)和概念上的優(yōu)勢(shì)。而當(dāng)這些技術(shù)體現(xiàn)在人工智能和自主系統(tǒng)發(fā)展中時(shí),就可能累積起來(lái)形成所謂的第三次抵消(Third Offset)。然而,實(shí)現(xiàn)第三次抵消并不是必然的結(jié)果。
如果想要利用人工智能和自動(dòng)系統(tǒng)的優(yōu)勢(shì),這將需要更充分地集成到?jīng)Q策過(guò)程(循環(huán))中,并增強(qiáng)對(duì)其在沒(méi)有人工干預(yù)的情況下采取行動(dòng)的能力的信任。為了檢驗(yàn)它們?cè)跊Q策循環(huán)中的集成,博伊德循環(huán)(Boyd loop)可謂是探索AI系統(tǒng)的理想工具。博伊德循環(huán)相對(duì)簡(jiǎn)單,也被稱為觀察、定向、決定和行動(dòng)(OODA)循環(huán)。其直觀的四個(gè)步驟易于理解,并與人工智能的前四個(gè)主要元素——感知、理解、預(yù)測(cè)和操作(以及學(xué)習(xí))緊密結(jié)合。OODA循環(huán)提供了一個(gè)清晰而明顯的框架,以探索在競(jìng)爭(zhēng)的軍事環(huán)境中集成人工智能系統(tǒng)的意義。
在文中,我們探討了AI系統(tǒng)是如何執(zhí)行四個(gè)主要功能的:感知、理解、預(yù)測(cè)(和選擇)和操作(行動(dòng))。然后對(duì)在OODA決策循環(huán)中對(duì)這些功能進(jìn)行檢查。OODA循環(huán)包含四個(gè)主要步驟:觀察、定向、決定和行動(dòng),與AI系統(tǒng)的上述四個(gè)要素緊密結(jié)合,并提供了一種未來(lái)人工智能系統(tǒng)在軍事行動(dòng)中應(yīng)用的方法。
通過(guò)這個(gè)視角,我們可以發(fā)現(xiàn),未來(lái)人工智能系統(tǒng)的集成有可能滲透到整個(gè)軍事行動(dòng)中。在這項(xiàng)研究中發(fā)現(xiàn)的關(guān)鍵問(wèn)題涉及開發(fā)AI系統(tǒng)和應(yīng)用程序的清晰類別的潛在需求。與此同時(shí),這項(xiàng)研究也為未來(lái)的軍事行動(dòng)中人工智能系統(tǒng)的集成建立了一個(gè)連貫的框架。