• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于自適應多目標強化學習的服務(wù)集成方法

      2022-11-30 08:38:12郭瀟李春山張宇躍初佃輝
      計算機應用 2022年11期
      關(guān)鍵詞:子目標目標值權(quán)重

      郭瀟,李春山,張宇躍,初佃輝

      基于自適應多目標強化學習的服務(wù)集成方法

      郭瀟,李春山*,張宇躍,初佃輝

      (哈爾濱工業(yè)大學(威海) 計算機科學與技術(shù)學院,山東 威海 264209)(?通信作者電子郵箱lics@hit.edu.cn)

      當前服務(wù)互聯(lián)網(wǎng)(IoS)中的服務(wù)資源呈現(xiàn)精細化、專業(yè)化的趨勢,功能單一的服務(wù)無法滿足用戶復雜多變的需求,服務(wù)集成調(diào)度方法已經(jīng)成為服務(wù)計算領(lǐng)域的熱點。現(xiàn)有的服務(wù)集成調(diào)度方法大都只考慮用戶需求的滿足,未考慮IoS生態(tài)系統(tǒng)的可持續(xù)性。針對上述問題,提出一種基于自適應多目標強化學習的服務(wù)集成方法,該方法在異步優(yōu)勢演員評論家(A3C)算法的框架下引入多目標優(yōu)化策略,從而在滿足用戶需求的同時保證IoS生態(tài)系統(tǒng)的健康發(fā)展。所提方法可以根據(jù)遺憾值對多目標值集成權(quán)重進行動態(tài)調(diào)整,改善多目標強化學習中子目標值不平衡的現(xiàn)象。在真實大規(guī)模服務(wù)環(huán)境下進行了服務(wù)集成驗證,實驗結(jié)果表明所提方法相對于傳統(tǒng)機器學習方法在大規(guī)模服務(wù)環(huán)境下求解速度更快;相較于權(quán)重固定的強化學習(RL),各目標的求解質(zhì)量更均衡。

      服務(wù)集成;強化學習;異步優(yōu)勢演員評論家算法;多目標優(yōu)化;自適應權(quán)重

      0 引言

      服務(wù)互聯(lián)網(wǎng)(Internet of Services, IoS)是由跨網(wǎng)跨域跨世界的服務(wù)構(gòu)成的復雜服務(wù)網(wǎng)絡(luò)形態(tài)。通過互聯(lián)網(wǎng)與新一代信息技術(shù)感知大規(guī)模個性化顧客需求,IoS可以高效聚合互聯(lián)網(wǎng)中的異構(gòu)跨域服務(wù),形成適應性的綜合服務(wù)解決方案和價值鏈,為顧客及相關(guān)參與方帶來價值[1-2]。本質(zhì)上,IoS是基于各種服務(wù)網(wǎng)絡(luò)疊聚,由海量異質(zhì)跨界跨域的服務(wù)組成的、動態(tài)演化的復雜系統(tǒng)。每個服務(wù)能夠解決或部分解決客戶需求,都有對應的服務(wù)提供商,并可根據(jù)服務(wù)功能的相似性聚集形成一定的服務(wù)種群。

      由于IoS中的服務(wù)精細化、專業(yè)化的趨勢,導致服務(wù)提供商將服務(wù)的功能具體化、單一化。明顯地,功能單一的服務(wù)無法滿足用戶復雜多變的需求。例如,某用戶提出個人的服務(wù)需求“2021年8月在威海短期旅游一周”,這個需求包含了衣、食、住、行、景點、安全等多方面的要求。然而在真實服務(wù)場景中不存在一個服務(wù)能滿足上述所有需求,需要第三方服務(wù)平臺對服務(wù)資源進行集成和調(diào)度,形成服務(wù)資源的集合來滿足用戶需求。因此,許多科學家提出了服務(wù)集成調(diào)度方法,將多個服務(wù)組合成為一個服務(wù)集來滿足用戶需求。

      上述方法存在兩個缺陷:首先,傳統(tǒng)方法大都只考慮用戶需求的滿足,未考慮IoS生態(tài)系統(tǒng)的可持續(xù)性。采用這些方法進行服務(wù)集成,會導致某些服務(wù)被頻繁地調(diào)用,其他服務(wù)處于空閑狀態(tài)。長此以往,IoS生態(tài)將會萎縮,變成少數(shù)服務(wù)提供商的自留地。其次,傳統(tǒng)的多目標優(yōu)化模型需要在初始階段人工設(shè)定各個目標的權(quán)重,如果權(quán)重設(shè)置不當,會導致最終服務(wù)決策質(zhì)量的降低。

      針對上述問題,本文提出了基于自適應多目標強化學習的服務(wù)集成模型。該模型首先在基于馬爾可夫決策過程(Markov Decision Process, MDP)的強化學習(Reinforcement Learning, RL)框架下對服務(wù)集成調(diào)度問題進行建模和形式化;然后選擇異步優(yōu)勢演員評論家(Asynchronous Advantage Actor?Critic, A3C)算法框架下的RL算法作為模型的主體算法,再結(jié)合多目標優(yōu)化策略使集成模型可以在滿足用戶功能需求的同時促進服務(wù)生態(tài)網(wǎng)絡(luò)健康發(fā)展;最后引入權(quán)重自適應方法平衡各子目標回報值,使每個子目標回報值在循環(huán)迭代的過程中保持增長。

      1 相關(guān)工作

      隨著IoS的不斷發(fā)展,更多的服務(wù)組合方法被提出。張龍昌等[3]利用服務(wù)之間的余弦相似性,根據(jù)服務(wù)質(zhì)量(Quality of Service, QoS)屬性對Web服務(wù)進行組合。他們提出了一種基于多屬性決策理論的混合QoS組合的Web服務(wù)組合算法CHQoS?WSCA,可用于評價由實數(shù)、區(qū)間值、三角模糊數(shù)和直覺模糊數(shù)描述的QoS信息。朱志良等[4]建立了Web服務(wù)的QoS屬性相似度模型和功能屬性相似度模型。服務(wù)之間的相似性可以從不同的角度來度量,Web服務(wù)的組合是通過語義相似性實現(xiàn)的。Tripathy等[5]提出了一種基于圖的服務(wù)組合多粒度組合和選擇模型。在該模型中,每個節(jié)點被表示為一個服務(wù)簇,通過Bellman-Ford算法找到最短路徑,從而得到最優(yōu)組合結(jié)果。Wu等[6]對所有滿足用戶需求的服務(wù)進行了組合,然后查找服務(wù)集群以找到合適的服務(wù)來替換組合過程中不可用的服務(wù)。Abdullah等[7]通過人工智能編程提出了一種新的服務(wù)組合模型。該模型生成了一個基于I/O集群技術(shù)的分層任務(wù)網(wǎng)絡(luò)(Hierarchical Task Network, HTN),以實現(xiàn)服務(wù)集群規(guī)劃。他們還提出了一種基于功能屬性類的Web服務(wù)聚合方法,可以有效地生成HTN問題域。Cai等[8]首先根據(jù)輸入和輸出參數(shù)的相似性對所有功能相似的服務(wù)進行組合;然后使用服務(wù)日志決定要選擇的服務(wù);最后,通過反饋機制返回用戶的反饋,提高下一個用戶的滿意度。Bianchini等[9]基于本體論將服務(wù)分為三個不同的級別,從服務(wù)描述中獲取語義關(guān)系,通過語義關(guān)系生成本體結(jié)構(gòu),通過輸入、輸出和功能相似性建立服務(wù)發(fā)現(xiàn)模型,實現(xiàn)服務(wù)的發(fā)現(xiàn)和組合。Wang等[10]提出了一種半經(jīng)驗的組合方法,以實現(xiàn)規(guī)則組合和實時組合,通過相似性度量將具體服務(wù)和歷史需求劃分為不同的簇,然后通過統(tǒng)計分析確定服務(wù)簇和需求簇之間的對應概率。

      上述研究大多從QoS角度考慮服務(wù)組合,這導致QoS高的服務(wù)被大量使用,使整個服務(wù)生態(tài)系統(tǒng)出現(xiàn)寡占性強的特性,不利于IoS的健康發(fā)展。而且在多個目標值(QoS值)集成時需要用到先驗知識設(shè)定各目標權(quán)重,而大多數(shù)情況下服務(wù)提供平臺缺少這種先驗知識。因此需要一種既能夠滿足用戶功能需求又可以保證服務(wù)生態(tài)系統(tǒng)健康發(fā)展且可以自適應調(diào)整多目標值權(quán)重的方法。

      2 基于自適應多目標強化學習的服務(wù)集成

      本文提出的基于自適應多目標強化學習的服務(wù)集成方法首先使用基于MDP的強化學習對服務(wù)集成問題集成形式化定義,然后選擇A3C框架下的強化學習算法作為模型的主體算法,再結(jié)合多目標優(yōu)化算法使該模型集成的服務(wù)組合可以在滿足用戶功能需求的同時促進服務(wù)生態(tài)網(wǎng)絡(luò)健康發(fā)展,最后引入權(quán)重自適應方法平衡各子目標回報值,使每個子目標回報值增速在循環(huán)迭代的過程中保持增長。

      2.1 形式化定義

      由于在開放和動態(tài)環(huán)境中使用RL進行服務(wù)集成具有明顯的優(yōu)勢,首先在基于MDP的RL框架下形式化定義IoS環(huán)境中的服務(wù)集成問題。MDP是離散時間隨機控制過程,特別用于對不確定域中的順序決策進行建模。MDP的關(guān)鍵組成部分正式定義[11]如下:

      在IoS環(huán)境下,需要在MDP框架下形式化定義服務(wù)集成:

      2.2 面向多目標強化學習的服務(wù)集成方法

      完成服務(wù)集成問題的形式化定義后,需要選取具體的RL框架解決服務(wù)集成問題?;趦r值的RL方法可以單步更新網(wǎng)絡(luò)的超參數(shù),但該方法通過預測動作的價值間接得到最優(yōu)動作,適用于離散有限動作的RL任務(wù)?;诓呗缘腞L方法雖然可以直接預測動作,但是一個情節(jié)結(jié)束之后才能夠逆向更新網(wǎng)絡(luò)的超參數(shù),導致超參數(shù)更新較慢。相較于基于價值的RL方法,基于策略梯度的RL方法更適用于連續(xù)動作決策的RL任務(wù)。演員評論家(Actor?Critic, AC)模型結(jié)合了上述兩種方法的優(yōu)點,既能夠有限步更新網(wǎng)絡(luò)的超參數(shù),也能夠直接預測狀態(tài)的動作[13]。AC模型框架如圖1所示。

      圖1 AC模型框架

      本文選擇A3C算法作為服務(wù)集成問題的基礎(chǔ)算法,該方法是目前基于AC模型表現(xiàn)得最好的框架之一。

      多目標強化學習不同于傳統(tǒng)RL的點在于學習Agent同時要優(yōu)化多個目標,每一步學習Agent得到一個回報向量,而不是一個標量值[14]。

      權(quán)重向量本身應該滿足方程:

      在IoS中,同時考慮用戶本身的功能需求以及服務(wù)生態(tài)系統(tǒng)的健康發(fā)展,將用戶需求的功能匹配和服務(wù)網(wǎng)絡(luò)系統(tǒng)的復雜性作為多目標優(yōu)化的子目標值。目前對網(wǎng)絡(luò)系統(tǒng)的復雜性的研究主要體現(xiàn)在結(jié)構(gòu)復雜性、節(jié)點復雜性以及各種復雜性因素之間的相互影響等領(lǐng)域上,包括小世界特性、無標度特性、度匹配特性等。本節(jié)主要借鑒文獻[15]的定義與Qi等[16]構(gòu)建的服務(wù)生態(tài)系統(tǒng)演化指標體系,在該體系下對服務(wù)生態(tài)系統(tǒng)的組織結(jié)構(gòu)的復雜度進行分析。

      2.2.1小世界特性

      小世界網(wǎng)絡(luò)模型主要包括Watts和Strogatz提出的WS小世界模型[17]和Newman和Watts提出的NW小世界模型[18]。小世界網(wǎng)絡(luò)的核心特征為特征路徑長度短而集聚系數(shù)高。其中特征路徑長度(Characteristic Path Length, CPL)表示網(wǎng)絡(luò)的平均路徑長度,其定義為:

      集聚系數(shù)描述網(wǎng)絡(luò)當中節(jié)點的鄰接節(jié)點之間也互相鄰接的比例,因此可以定義為:

      為了對網(wǎng)絡(luò)的小世界特性進行量化,Watts和Strogtz進一步將小世界網(wǎng)絡(luò)與具有相同連邊概率的ER隨機網(wǎng)絡(luò)進行比較,并將具有與隨機網(wǎng)絡(luò)相似的特征路徑長度但是比隨機網(wǎng)絡(luò)高得多的集聚系數(shù)的網(wǎng)絡(luò)定義為小世界網(wǎng)絡(luò)。因此小世界特性的量化標準為:

      2.2.2無標度特性

      無標度特性指網(wǎng)絡(luò)當中的分布滿足冪律分布特征,由Barabasi和Albert于1999年提出[19]。在無標度網(wǎng)絡(luò)當中絕大多數(shù)的節(jié)點的度非常低,而少部分的節(jié)點的度則非常高,在整個網(wǎng)絡(luò)當中占據(jù)核心的位置。目前對網(wǎng)絡(luò)的無標度特性進行量化分析主要有兩種方法:

      2.2.3度匹配特性

      Newman[21]對于識別網(wǎng)絡(luò)節(jié)點之間的匹配關(guān)系進行了量化,進一步提出了網(wǎng)絡(luò)整體的匹配系數(shù):

      本文將利用Pastor?Satorras等的方法識別網(wǎng)絡(luò)的匹配性,利用Newman的匹配系統(tǒng)量化網(wǎng)絡(luò)的匹配程度。

      2.3 權(quán)重自適應多目標服務(wù)集成算法

      在單個Agent中只需要考慮到自己,把自己優(yōu)化得最好就可以了,但是涉及多Agent,研究多個Agent之間的關(guān)系以提升整體效果或者完成多Agent的目標任務(wù)時,需要參考博弈論的成果[22-24]:

      遺憾的是指學習器現(xiàn)實的收益與學習器使用某種固定策略獲得的最大收益之間的差異,即

      再根據(jù)式(16)保證權(quán)重總和為1:

      最終服務(wù)集成算法如算法1所示。

      算法1 權(quán)重自適應A3C多目標強化學習算法。

      13) End for

      17) End while

      24) End for

      26) End while

      3 實驗與結(jié)果分析

      3.1 實驗設(shè)置

      本文提出的服務(wù)集成方法在連續(xù)迭代循環(huán)中運行,直到達到收斂點。由于傳統(tǒng)機器學習算法無法在連續(xù)狀態(tài)空間中運行,而自適應權(quán)重會導致狀態(tài)空間連續(xù),因此分別將基于蟻群算法的多目標服務(wù)集成算法和基于A3C強化學習算法的多目標自適應權(quán)重服務(wù)集成算法與基于A3C強化學習算法的多目標集成算法進行對比,比較它們的求解速度、求解質(zhì)量以及各目標求解質(zhì)量。

      所有模擬實驗都于搭載四核心Intel Core i5?6300HQ CPU的個人計算機上運行,內(nèi)存為16 GB,采用Windows系統(tǒng)運行Pycharm軟件,利用Python語言編寫程序。蟻群算法與A3C強化學習算法各項參數(shù)如表1所示。

      表1 蟻群算法與強化學習算法參數(shù)設(shè)置

      3.2 實驗數(shù)據(jù)

      測試環(huán)境中子目標數(shù)量固定為四個,分別為:功能匹配、小世界特性、無標度特性和度匹配特性,其可用的具體服務(wù)共946個。

      3.3 實驗結(jié)果

      將通過兩組實驗分別對比三種算法的求解速度和求解質(zhì)量與子目標求解質(zhì)量,其中總目標值為各子目標值加權(quán)相加。

      三種算法總目標值與迭代次數(shù)的關(guān)系如圖2所示;三種算法總目標值與收斂時間的關(guān)系如圖3所示。由圖2、3可以看出,由于環(huán)境規(guī)模較大,傳統(tǒng)機器學習算法收斂速度比A3C強化學習算法慢得多。從迭代次數(shù)來看,強化學習算法在40次迭代以內(nèi)便可收斂,而蟻群算法則需要至少220次迭代,從收斂時間來看強化學習算法也有著明顯的優(yōu)勢。而兩種算法在整個學習過程中獲得的累計回報基本相同,說明A3C強化學習算法在保證求解質(zhì)量的同時能夠保證較快的求解速度。而對于權(quán)重固定與自適應的多目標強化學習算法的收斂速度相近、總回報值相近,說明權(quán)重自適應的多目標優(yōu)化算法不會影響算法的整體求解速度與求解質(zhì)量。

      圖2 三種算法總目標值?迭代次數(shù)圖

      圖3 三種算法總目標值?時間圖

      三種算法子目標回報值與迭代次數(shù)的關(guān)系如圖4所示。在這里選取功能匹配與小世界特性兩個子目標進行分析,其中圖4(b)表示小世界特性目標回報值,圖4(c)表示功能匹配目標回報值。

      圖4 三種算法子目標值?迭代次數(shù)圖

      由圖4可以看出,在三種算法總目標求解質(zhì)量相近的基礎(chǔ)上,在冪率分布特性這一子目標下也有相同的求解質(zhì)量,整體上來看權(quán)重固定的強化學習算法與蟻群算法除了收斂速度不同外有著相似的結(jié)果。這兩種算法雖然在小世界特性這一子目標下有著更優(yōu)的效果,但是在功能匹配與度匹配特性這一子目標下卻出現(xiàn)了累計子目標回報值隨迭代次數(shù)增加反而減小的現(xiàn)象,這說明在訓練過程中出現(xiàn)了犧牲該目標換取全局最優(yōu)的情況,但本文算法并未出現(xiàn)這一情況,說明本文算法能夠保證每個子目標都隨著循環(huán)迭代而增加,可以更好地平衡各個目標的回報值之間的比重,盡管一部分子目標沒有達到最好的效果,但每一個子目標的回報值都隨著迭代次數(shù)的增加而增加,結(jié)合圖2、3可知,引入權(quán)重自適應的多目標優(yōu)化算法沒有影響總體目標值。

      4 結(jié)語

      本文提出了一種基于自適應多目標A3C強化學習的服務(wù)集成方法,該方法利用MDP對服務(wù)集成優(yōu)化問題進行建模,并引入了強化學習的組合優(yōu)化模型,簡化了組合優(yōu)化過程。同時基于遺憾值對多目標權(quán)重進行動態(tài)調(diào)整,在保證總體目標回報值最大的情況下不犧牲各個子目標回報值,使每一個子目標回報值都能隨著訓練增大。在數(shù)據(jù)集Programable Web上與傳統(tǒng)機器學習算法中的蟻群算法和權(quán)重固定多目標強化學習算法進行對比分析的結(jié)果表明,本文方法相較于其他兩種方法在大規(guī)模服務(wù)環(huán)境下對于服務(wù)集成收斂更快、耗時更短,在整體求解質(zhì)量相近的情況下保證了各子目標的求解質(zhì)量。然而多目標優(yōu)化的應用場景一般較為復雜,尤其是子目標之間的關(guān)系更加復雜,本文方法將子目標平等對待,有時不能很好地體現(xiàn)子目標之間的優(yōu)先關(guān)系,因此今后我們將針對這類問題做進一步的研究。

      [1] FLETCHER K K. A quality?based web api selection for mashup development using affinity propagation[C]// Proceedings of the 2018 International Conference on Services Computing. Cham: Springer, 2018: 153-165.

      [2] ALMARIMI N, OUNI A, BOUKTIF S, et al. Web service API recommendation for automated mashup creation using multi? objective evolutionary search[J]. Applied Soft Computing, 2019, 85: No.105830.

      [3] 張龍昌,張成文.混合QoS聚類的服務(wù)組合[J].北京郵電大學學報,2011,34(5):57-62.(ZHANG L C, ZHANG C W. Hybrid QoS?clustering web service composition[J]. Journal of Beijing University of Posts and Telecommunications, 2011, 34(5): 57-62.)

      [4] 朱志良,苑海濤,宋杰,等. Web服務(wù)聚類方法的研究和改進[J]. 小型微型計算機系統(tǒng), 2012, 33(1):96-101.(ZHU Z L, YUAN H T, SONG J, et al. Study and improvement on web services clustering approach[J]. Journal of Chinese Computer Systems, 2012, 33(1): 96-101.)

      [5] TRIPATHY A K, PATRA M R, KHAN M A, et al. Dynamic web service composition with QoS clustering[C]// Proceedings of the 2014 IEEE International Conference on Web Services. Piscataway: IEEE, 2014: 678-679.

      [6] WU L, ZHANG Y, DI Z Y. A service?cluster based approach to service substitution of web service composition[C]// Proceedings of the IEEE 16th International Conference on Computer Supported Cooperative Work in Design. Piscataway: IEEE, 2012: 564-568.

      [7] ABDULLAH A, LI X N. An efficient I/O based clustering HTN in Web Service Composition[C]// Proceedings of the 2013 International Conference on Computing, Management and Telecommunications. Piscataway:IEEE, 2013: 252-257.

      [8] CAI H H, CUI L Z. Cloud service composition based on multi? granularity clustering[J]. Journal of Algorithms and Computational Technology, 2014, 8(2): 143-161.

      [9] BIANCHINI D, DE ANTONELLIS V, MELCHIORI M. An ontology?based method for classifying and searching?Services[C]// Proceedings of the Forum of First International Conference on Service Oriented Computing, LNCS 2910. Cham: Springer, 2003: 15-18.

      [10] WANG X Z, WANG Z J, XU X F. Semi?empirical service composition: a clustering based approach[C]// Proceedings of the 2011 IEEE International Conference on Web Services. Piscataway: IEEE, 2011: 219-226.

      [11] QUAN L, WANG Z L, LIU X. A real?time subtask?assistance strategy for adaptive services composition[J]. IEICE Transactions on Information and Systems, 2018, E101.D(5): 1361-1369.

      [12] GAO A Q, YANG D Q, TANG S W, et al. Web service composition using Markov decision processes[C]// Proceedings of the 2005 International Conference on Web?Age Information Management, LNCS 3739. Berlin: Springer, 2005: 308-319.

      [13] ZHANG Y Z, CLAVERA I, TSAI B, et al. Asynchronous methods for model?based reinforcement learning[C]// Proceedings of the 3rd Conference on Robot Learning. New York: JMLR.org, 2020: 1338-1347.

      [14] RUIZ?MONTIEL M, MANDOW L, PéREZ?DE?LA?CRUZ J L. A temporal difference method for multi?objective reinforcement learning[J]. Neurocomputing, 2017, 263: 15-25.

      [15] IANSITI M, LEVIEN R. Strategy as ecology[J]. Harvard Business Review, 2004, 82(3): 68-78, 126.

      [16] QI Q, CAO J. Investigating the evolution of Web API cooperative communities in the mashup ecosystem[C]// Proceedings of the 2020 IEEE International Conference on Web Services. Piscataway: IEEE, 2020: 413-417.

      [17] WATTS D J, STROGATZ S H. Collective dynamics of ‘small?world’ networks[J]. Nature, 1998, 393(6684): 440-442.

      [18] NEWMAN M, BARABáSI A L, WATTS D J. The Structure and Dynamics of Networks[M]. Princeton, NJ: Princeton University Press, 2006: 304-308.

      [19] BARABáSI A L, ALBERT R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439): 509-512.

      [20] VáZQUEZ A, PASTOR?SATORRAS R, VESPIGNANI A. Internet topology at the router and autonomous system level[EB/OL]. [2021-12-05].https://arxiv.org/pdf/cond?mat/0206084.pdf.

      [21] NEWMAN M E J. Scientific collaboration networks. Ⅰ. Network construction and fundamental results[J]. Physical Review E, Statistical, Nonlinear, and Soft Matter Physics, 2001, 64(1): No.016131.

      [22] FOSTER D P, YOUNG H P. Regret testing: a simple payoff? based procedure for learning Nash equilibrium[D]. Baltimore, MD: University of Pennsylvania, 2003: 341-367.

      [23] HART S, MAS?COLELL A. A reinforcement procedure leading to correlated equilibrium[M]// Economics Essays: A Festschrift for Werner Hildenbrand. Berlin: Springer, 2001: 181-200.

      [24] ORTNER R. Regret bounds for reinforcement learning via Markov chain concentration[J]. Journal of Artificial Intelligence Research, 2020, 67: 115-128.

      Service integration method based on adaptive multi?objective reinforcement learning

      GUO Xiao, LI Chunshan*, ZHANG Yuyue, CHU Dianhui

      (,(),264209,)

      The current service resources in Internet of Services (IoS) show a trend of refinement and specialization. Services with single function cannot meet the complex and changeable requirements of users. Service integrating and scheduling methods have become hot spots in the field of service computing. However, most existing service integrating and scheduling methods only consider the satisfaction of user requirements and do not consider the sustainability of the IoS ecosystem. In response to the above problems, a service integration method based on adaptive multi?objective reinforcement learning was proposed. In this method, a multi?objective optimization strategy was introduced into the framework of Asynchronous Advantage Actor?Critic (A3C) algorithm, so as to ensure the healthy development of the IoS ecosystem while satisfying user needs. The integrated weight of the multi?objective value was able to adjusted dynamically according to the regret value, which improved the imbalance of sub?objective values in multi?objective reinforcement learning. The service integration verification was carried out in a real large?scale service environment. Experimental results show that the proposed method is faster than traditional machine learning methods in large?scale service environment, and has a more balanced solution quality of each objective compared with Reinforcement Learning (RL) with fixed weights.

      service integration; Reinforcement Learning (RL); Asynchronous Advantage Actor?Critic (A3C) algorithm; multi?objective optimization; adaptive weight

      This work is partially supported by National Key Research and Development Program of China (2018YFB1402500), National Natural Science Foundation of China (61902090, 61832004), Natural Science Foundation of Shandong Province (ZR2020KF019).

      GUO Xiao, born in 1999, M. S. His research interests include service computing, knowledge engineering.

      LI Chunshan, born in 1984, Ph. D., professor. His research interests include service computing, knowledge engineering.

      ZHANG Yuyue, born in 2000. His research interests include knowledge engineering.

      CHU Dianhui, born in 1970, Ph. D., professor. His research interests include service computing, intelligent manufacturing.

      1001-9081(2022)11-3500-06

      10.11772/j.issn.1001-9081.2021122041

      2021?12?06;

      2021?12?29;

      2022?01?13。

      國家重點研發(fā)計劃項目(2018YFB1402500);國家自然科學基金資助項目(61902090, 61832004);山東省自然科學基金資助項目(ZR2020KF019)。

      TP315

      A

      郭瀟(1999—),男,黑龍江伊春人,碩士,主要研究方向:服務(wù)計算、知識工程;李春山(1984—),男,山西呂梁人,副教授,博士,CCF會員,主要研究方向:服務(wù)計算、知識工程;張宇躍(2000—),男,江西南昌人,主要研究方向:知識工程;初佃輝(1970—),男,山東濰坊人,教授,博士,CCF高級會員,主要研究方向:服務(wù)計算、智慧制造。

      猜你喜歡
      子目標目標值權(quán)重
      圖層網(wǎng)格法對混合目標群的毀傷評估
      稀疏獎勵環(huán)境中的分層強化學習①
      ML的迭代學習過程
      權(quán)重常思“浮名輕”
      當代陜西(2020年17期)2020-10-28 08:18:18
      雷達群目標跟蹤條件下的彈道預報方法
      為黨督政勤履職 代民行權(quán)重擔當
      基于公約式權(quán)重的截短線性分組碼盲識別方法
      電信科學(2017年6期)2017-07-01 15:44:57
      基于子目標進化算法的要地防空武器系統(tǒng)優(yōu)化部署
      層次分析法權(quán)重的計算:基于Lingo的數(shù)學模型
      河南科技(2014年15期)2014-02-27 14:12:51
      不同危險程度患者的降脂目標值——歐洲《血脂異常防治指南》
      托克逊县| 长垣县| 浙江省| 黄山市| 马尔康县| 阳山县| 曲松县| 丰台区| 尼玛县| 乐亭县| 铁岭市| 华安县| 肥乡县| 望谟县| 独山县| 汾阳市| 镶黄旗| 新河县| 剑河县| 遵义市| 永德县| 云龙县| 壤塘县| 蕉岭县| 东阿县| 盱眙县| 平定县| 荔波县| 长治县| 郸城县| 南京市| 石嘴山市| 绵竹市| 大安市| 巧家县| 开化县| 科技| 潼南县| 象山县| 永仁县| 施秉县|