■文 /趙登吉 安 波
趙登吉,上??萍即髮W(xué)助理教授,博士生導(dǎo)師,研究員,上海市青年東方學(xué)者。
安波,新加坡南洋理工大學(xué)助理教授。
多智能體系統(tǒng)研究在共享經(jīng)濟(jì)、公共安全、金融預(yù)測(cè)、智能制造以及智慧城市等領(lǐng)域面臨眾多新的挑戰(zhàn)。
多智能體系統(tǒng)(Multi-agent Systems)是人工智能一個(gè)非常重要的子領(lǐng)域。人工智能的研究可以簡(jiǎn)單地分為單智能體和多智能體兩大部分。單智能體的研究包括視覺、自然語言處理、機(jī)器學(xué)習(xí)等。當(dāng)我們把多個(gè)單智能體連接在一起的時(shí)候,就構(gòu)成了一個(gè)多智能體系統(tǒng),這里的單智能體可以是人或者具備一定智能的軟體(代替人做決策)。多個(gè)智能體在一起就一定會(huì)有合作和競(jìng)爭(zhēng),它們會(huì)合作完成一些任務(wù)、競(jìng)爭(zhēng)有限的資源,或者借助其他智能體實(shí)現(xiàn)單智能體的私有目標(biāo)等。
多智能體系統(tǒng)所涉及的研究方向包括構(gòu)建單個(gè)智能體的技術(shù),如建模、推理、學(xué)習(xí)及規(guī)劃等,也包括使多個(gè)智能體協(xié)調(diào)運(yùn)行的技術(shù),如交互通信、協(xié)調(diào)、合作、協(xié)商、調(diào)度、沖突消解等。其中,最熱門的研究方向包括交互模型和語言、算法博弈論、談判、推理、強(qiáng)化學(xué)習(xí)、分布式求解和規(guī)劃等。
自1956年美國科學(xué)家約翰·麥卡錫(John McCarthy)在著名的達(dá)特茅斯研討會(huì)上提出“人工智能”這一概念后,“智能體”的概念便開始興起。盡管智能體的概念很早就已經(jīng)出現(xiàn),但在20世紀(jì)70年代之前,將多個(gè)智能體作為一個(gè)功能上的整體(即能夠獨(dú)立行動(dòng)的自主集成系統(tǒng))進(jìn)行研究的做法很少。1980年,分布式人工智能領(lǐng)域的首次研討會(huì)在美國麻省理工學(xué)院舉辦。在會(huì)議上,研究人員討論了分布式問題求解、多智能體規(guī)劃、組織控制、合同網(wǎng)、協(xié)商、分布式傳感器網(wǎng)絡(luò)、功能精確的協(xié)作分布式系統(tǒng)、大規(guī)模行為者模型以及智能體規(guī)范邏輯框架等重要的多智能體系統(tǒng)研究問題。自此,集成智能體構(gòu)建和多智能體系統(tǒng)研究的各個(gè)分支領(lǐng)域都有了較大發(fā)展。
1995年,第一屆國際多智能體系統(tǒng)會(huì)議(International Conference on Multi-Agent Systems,ICMAS)在美國舊金山舉辦。2002年,國際智能體及多智能體系統(tǒng)協(xié)會(huì)(International Foundation for Autonomous Agents and Multiagent Systems,IFAAMAS)將ICMAS和另外兩個(gè)相關(guān)的會(huì)議合并為智能體及多智能體系統(tǒng)國際會(huì)議(International Joint Conference on Autonomous Agents and Multi-Agent Systems,AAMAS)。經(jīng)過近30年的發(fā)展,多智能體系統(tǒng)已經(jīng)成為國際人工智能領(lǐng)域的前沿和研究熱點(diǎn)。AAMAS已經(jīng)成為人工智能領(lǐng)域非常重要的國際會(huì)議,每年吸引近1 000篇投稿和近1 000人參會(huì)。
共享經(jīng)濟(jì)是將閑置資源再分配、再利用的經(jīng)濟(jì)活動(dòng),其形式包括:P2P的共享,如順風(fēng)車、拼車等;B2C的共享,如摩拜單車、Car2go等;以及B2B的共享,如淘工廠、Globechain等。共享經(jīng)濟(jì)是一個(gè)非常復(fù)雜的多智能體系統(tǒng),其中每一個(gè)共享參與者都是一個(gè)智能體。每一個(gè)智能體都有一個(gè)局部的私有目標(biāo),如最大化個(gè)人利益,同時(shí)全局系統(tǒng)又會(huì)有一些綜合目標(biāo),如全局資源的充分利用。私有目標(biāo)和全局目標(biāo)之間可能存在矛盾,如何同時(shí)滿足各個(gè)智能體的私有目標(biāo)和系統(tǒng)的全局目標(biāo)是我們首先要面對(duì)的挑戰(zhàn)。例如,在拼車應(yīng)用中,司機(jī)希望高價(jià)共享座位,而乘客希望低價(jià)獲得共享座位,但從全局考慮是希望所有的空位都能夠成功共享,從而節(jié)約總體出行開銷。解決這個(gè)多目標(biāo)問題的核心就是博弈。最終,司機(jī)的收入和乘客所付的錢將由供需雙方博弈決定。例如,滴滴的快車服務(wù)高峰期動(dòng)態(tài)調(diào)價(jià)就是基于供需不平衡的博弈而來(高峰時(shí)段供小于求,價(jià)格因此提高)。
多智能體系統(tǒng)的應(yīng)用領(lǐng)域
在共享經(jīng)濟(jì)這樣的多智能體系統(tǒng)中,各個(gè)智能體會(huì)不斷地學(xué)習(xí),尋找對(duì)各個(gè)智能體而言最優(yōu)的策略。譬如,通過滴滴提供服務(wù)的司機(jī),利用長(zhǎng)期的服務(wù)數(shù)據(jù)可以總結(jié)出什么時(shí)段提供服務(wù)能最大化收益;滴滴的乘客也會(huì)發(fā)現(xiàn)什么情況下使用滴滴的服務(wù)最合算。因此,整個(gè)共享系統(tǒng)需要設(shè)計(jì)一種機(jī)制,既要保障用戶愿意參與共享,又不能過度激勵(lì)形成資源浪費(fèi)。滴滴早期通過各種補(bǔ)貼來吸引用戶,這種補(bǔ)貼讓用戶看到了巨大的利潤(rùn)空間,因此不僅把原本閑置的車?yán)闷饋?,而且還吸引了一批用戶特意購買新車加入滴滴服務(wù)。這不是共享經(jīng)濟(jì),而是資源浪費(fèi),是不可持續(xù)的。而摩拜的紅包車機(jī)制,激勵(lì)了很多用戶幫摩拜去激活和發(fā)現(xiàn)低頻率使用的單車,節(jié)省了企業(yè)派專人去搜索這些車的成本,這就是較為合理的激勵(lì)機(jī)制。激勵(lì)共享機(jī)制的設(shè)計(jì)涉及博弈論、多智能體學(xué)習(xí)、分布式求解等多智能體系統(tǒng)中的核心研究。
共享經(jīng)濟(jì)自美國次貸危機(jī)以來在全球迅速發(fā)展,2016年我國共享經(jīng)濟(jì)市場(chǎng)交易額約為34 520億元人民幣,比上年增長(zhǎng)103%。但是,全球目前共享經(jīng)濟(jì)的主要組成部分還是B2C模式的。B2C模式的共享經(jīng)濟(jì)實(shí)際上是傳統(tǒng)租賃行業(yè)向O2O的轉(zhuǎn)變,使傳統(tǒng)線下租賃服務(wù)通過線上平臺(tái)讓租賃更靈活、更便捷。然而,大部分的社會(huì)閑置資源(包括知識(shí)、金錢、勞動(dòng)力等)還是個(gè)人或家庭擁有,如何讓這部分閑置資源充分利用起來才是共享經(jīng)濟(jì)可持續(xù)發(fā)展的關(guān)鍵,這將涉及一個(gè)非常復(fù)雜的多智能體系統(tǒng)搭建。這個(gè)共享系統(tǒng)需要很好地把所有個(gè)人或者家庭聯(lián)系起來,讓他們手中的資源得到合理的再分配。系統(tǒng)搭建涉及的主要技術(shù)包括用戶行為建模、人機(jī)交互(用戶偏好表示)、多智能體學(xué)習(xí)、博弈、分布式求解、智能體之間的溝通和談判等。
保護(hù)關(guān)鍵公共基礎(chǔ)設(shè)施和目標(biāo),如機(jī)場(chǎng)、港口、歷史名勝、發(fā)電設(shè)施,甚至珍稀動(dòng)物和自然資源等,是各國安全機(jī)構(gòu)面對(duì)的一項(xiàng)極具挑戰(zhàn)性的任務(wù)。有限的安全資源使得安全機(jī)構(gòu)不可能在任何時(shí)候都提供全面的安全保護(hù)。此外,安全部門的對(duì)手(如恐怖分子、犯罪嫌疑人)可以通過觀察找出安全機(jī)構(gòu)的保護(hù)策略的固定模式和弱點(diǎn),并據(jù)此選擇最優(yōu)的攻擊策略。降低對(duì)手反偵查能力的方式是隨機(jī)調(diào)度安全部門的保護(hù)行為,如警察巡邏、行李檢測(cè)、車輛檢查以及其他安全程序等。
然而,安全部門在進(jìn)行有效的隨機(jī)安全策略調(diào)度時(shí)面臨許多困難。安全領(lǐng)域資源分配的關(guān)鍵問題是如何找出有限的安全資源最優(yōu)配置方案,以獲取最佳的安全保護(hù)方案。博弈論提供了一個(gè)恰當(dāng)?shù)臄?shù)學(xué)模型來研究有限的安全資源部署,以最大限度地提高資源分配的有效性。安全博弈模型是基于20世紀(jì)30年代的Stackelberg博弈模型發(fā)展起來的,安全博弈論的研究已經(jīng)成為當(dāng)前人工智能研究的熱點(diǎn)之一。過去幾年,基于Stackelberg模型的安全博弈論已經(jīng)被不同領(lǐng)域的安全機(jī)構(gòu)所應(yīng)用,包括機(jī)場(chǎng)、港口、空中警察、地鐵系統(tǒng),甚至被用于保護(hù)野生動(dòng)物。這些研究成果可望與現(xiàn)有的安全系統(tǒng)進(jìn)一步融合,提高安全系統(tǒng)的性能。
在現(xiàn)代金融市場(chǎng)中,計(jì)算機(jī)輔助交易已經(jīng)超過了交易總數(shù)的70%。輔助交易系統(tǒng)幫助用戶做實(shí)時(shí)交易決策,這些交易系統(tǒng)通過各大交易市場(chǎng)聯(lián)系在一起構(gòu)成了一個(gè)龐大的多智能體系統(tǒng)。各輔助交易系統(tǒng)是一個(gè)具備不同學(xué)習(xí)能力和決策能力的智能體,其目標(biāo)是幫助個(gè)人或企業(yè)做最優(yōu)的交易決策。
輔助交易系統(tǒng)一般都有根據(jù)歷史數(shù)據(jù)去預(yù)測(cè)金融市場(chǎng)未來走勢(shì)的模塊,目前最復(fù)雜的預(yù)測(cè)模塊之一是利用深度學(xué)習(xí)進(jìn)行的。然而,深度學(xué)習(xí)通過歷史數(shù)據(jù)訓(xùn)練出來的預(yù)測(cè)模型未必能夠適應(yīng)新的經(jīng)濟(jì)環(huán)境,其主要原因是整個(gè)金融市場(chǎng)的走勢(shì)是所有交易者行為的綜合體現(xiàn),但歷史數(shù)據(jù)只是告訴了我們市場(chǎng)表象,并沒有告訴我們背后的用戶決策模型。如果要準(zhǔn)確地預(yù)測(cè)金融市場(chǎng)走勢(shì),就需要知道所有參與者背后使用的決策模型,這是傳統(tǒng)學(xué)習(xí)方法做不到的。因此在金融系統(tǒng)中,傳統(tǒng)的多智能體系統(tǒng)需要結(jié)合博弈論才能做更好的預(yù)測(cè)和決策。微軟亞洲研究院在博弈機(jī)器學(xué)習(xí)方面做了很好的工作并已應(yīng)用于bing拍賣機(jī)制優(yōu)化上。
智能制造利用前沿的信息和技術(shù),讓制造更好地適應(yīng)動(dòng)態(tài)的市場(chǎng)需求,其中最主要的組成部分就是具備了學(xué)習(xí)能力的智能生產(chǎn)機(jī)器。智能機(jī)器不再是簡(jiǎn)單地重復(fù)機(jī)械操作,它具備與周邊環(huán)境交互和學(xué)習(xí)的能力。一條生產(chǎn)線上所有的智能機(jī)器組成了一個(gè)多智能體系統(tǒng),各智能機(jī)器有各自的局部目標(biāo),同時(shí)整個(gè)生產(chǎn)線有一些共同的全局目標(biāo),整個(gè)生產(chǎn)線的效率將會(huì)由所有智能機(jī)器的合作決定。如何讓這些機(jī)器自主地學(xué)習(xí)出最優(yōu)的生產(chǎn)效率,涉及多智能體系統(tǒng)研究中的各個(gè)方面。
智能制造的另外一個(gè)特點(diǎn),就是對(duì)市場(chǎng)需求的快速反應(yīng)。從產(chǎn)品的原材料訂購到工廠加工再到最后輸送給消費(fèi)者經(jīng)過了一個(gè)非常復(fù)雜的供應(yīng)鏈網(wǎng)絡(luò)。企業(yè)要想快速適應(yīng)市場(chǎng)需求,就必須快速地將用戶需求通過供應(yīng)鏈傳遞給工廠。這個(gè)過程涉及很多參與者,而且各個(gè)參與者都帶著私有的目標(biāo)。產(chǎn)品生產(chǎn)方如何調(diào)動(dòng)這些相對(duì)獨(dú)立的參與者,快速適應(yīng)動(dòng)態(tài)市場(chǎng)需求是目前智能制造的一個(gè)瓶頸。這里涉及參與者之間的信息如何共享、利益如何保護(hù)等問題。例如,最底層經(jīng)銷商掌握了一些局部的市場(chǎng)需求信息,他們是否愿意將這些信息共享給供應(yīng)鏈中其他的參與者?對(duì)這些問題的深入研究將會(huì)推動(dòng)供應(yīng)鏈的數(shù)字化和智能制造的快速發(fā)展。
智慧城市的基礎(chǔ)是將城市中所有物和人通過各種網(wǎng)絡(luò)聯(lián)系在一起,構(gòu)成一個(gè)城市級(jí)的多智能體系統(tǒng)。每個(gè)家庭中的各種電器將會(huì)相互連接協(xié)作,構(gòu)建一個(gè)舒適的家庭環(huán)境。未來的無人汽車相互連接構(gòu)成一個(gè)智能出行網(wǎng),用戶只需要告知這個(gè)智能出行網(wǎng)自己的日程安排,剩下所有出行安排都由智能出行網(wǎng)自動(dòng)完成。交通擁堵是目前大城市生活的痛點(diǎn),在未來的智慧城市中,所有的出行工具連接在一起,它們會(huì)根據(jù)各自的目標(biāo),協(xié)同制定出最優(yōu)的出行方案,防止不必要的交通擁堵。城市的發(fā)展需要消耗資源,資源的合理分配是保障城市健康發(fā)展的關(guān)鍵。將有限的資源分配到城市中最需要的地方是一個(gè)非常復(fù)雜的博弈問題。節(jié)能環(huán)保是未來智慧城市的一個(gè)重要衡量指標(biāo),我們需要利用多智能體系統(tǒng)的分布式學(xué)習(xí)方法找到最佳的能耗方案。
在智慧城市這樣一個(gè)龐大的多智能體系統(tǒng)中,我們所面臨的挑戰(zhàn)包括物物之間(智能體之間)如何溝通、如何全局優(yōu)化(可計(jì)算問題),智能體之間如何協(xié)作確保城市健康發(fā)展等。目前,多智能體系統(tǒng)研究的方法和成果能否滿足智慧城市發(fā)展的需要還有待深入探討。