蔡玲如,吳思俊,陳雙
(1.汕頭大學(xué)工學(xué)院,廣東汕頭515063;2.中國能源建設(shè)集團廣東省電力設(shè)計研究院,廣東廣州510663)
供應(yīng)商與零售商演化博弈系統(tǒng)動力學(xué)模型
蔡玲如1,吳思俊1,陳雙2
(1.汕頭大學(xué)工學(xué)院,廣東汕頭515063;2.中國能源建設(shè)集團廣東省電力設(shè)計研究院,廣東廣州510663)
本文針對供應(yīng)鏈管理中供應(yīng)商與零售商之間演化博弈進行分析,討論各種條件下演化穩(wěn)定均衡的存在性,建立相應(yīng)的系統(tǒng)動力學(xué)模型并對分析結(jié)果進行仿真驗證.文章主要針對產(chǎn)品推廣初期博弈雙方不存在演化穩(wěn)定均衡的情況提出了動態(tài)懲罰策略.仿真結(jié)果表明供應(yīng)商采用動態(tài)懲罰策略改變了演化穩(wěn)定均衡不存在的結(jié)果,并且能有效地促使零售商對產(chǎn)品銷售采取積極態(tài)度.系統(tǒng)動力學(xué)為演化博弈理論在供應(yīng)鏈管理的應(yīng)用提供一個政策仿真實驗平臺.
供應(yīng)鏈;演化博弈;系統(tǒng)動力學(xué);動態(tài)懲罰策略
在供應(yīng)商和零售商之間如何建立良好的關(guān)系、形成有效的合約、以提高供應(yīng)鏈整體的運作效率和效益并增強其競爭力是供應(yīng)鏈管理中的重要的問題.博弈論作為一種對策論,已逐漸成為研究供應(yīng)鏈管理問題的主要工具之一[1].
傳統(tǒng)博弈論中的博弈雙方“完全理性”的假設(shè)在實際應(yīng)用中是難以滿足的,博弈往往是一種長期的博弈,博弈雙方通過在博弈過程中不停獲取對方或者外界的信息不斷學(xué)習(xí),改變自己的策略.演化博弈理論突破了這種限制,將博弈參與者假設(shè)為有限理性的,具有一定的適應(yīng)性學(xué)習(xí)能力[2].文獻[2]應(yīng)用演化博弈理論建立了單供應(yīng)商和單零售商的動態(tài)監(jiān)察模型并給出演化穩(wěn)定策略(Evolutionary Stable Strategy,ESS)及其滿足的條件[2].關(guān)于供應(yīng)商和零售商行為研究除了可以建立推動式的監(jiān)察模型之外,還可以從激勵的角度構(gòu)建拉動式的激勵模型[2-5].目前所看到的大部分文獻都僅僅是在靜態(tài)懲罰(激勵)機制的演化博弈模型上分析ESS的存在條件,沒有進一步分析懲罰(激勵)機制對演化博弈結(jié)果的影響.
供應(yīng)鏈中影響供應(yīng)商和零售商決策的很多因素是相互影響的,過分的簡化模型很難得到有效的分析結(jié)果.隨著博弈模型變量參數(shù)的不斷細(xì)化,對演化博弈的定性分析就變得很困難,ESS存在條件的也難以判斷和滿足.文獻[6]用系統(tǒng)動力學(xué)(System Dynamics,SD)建立了一個簡單的混合戰(zhàn)略博弈模型,仿真結(jié)果和定性分析表明其動態(tài)博弈過程存在波動性.文獻[7]利用SD建立了一個雙寡頭博弈模型來描述兩個競爭者之間的關(guān)系,其仿真結(jié)果表明模型在一定的參數(shù)變化條件下,系統(tǒng)會出現(xiàn)霍普夫分歧,系統(tǒng)收斂到一個有限循環(huán),也可能出現(xiàn)類周期和混沌等復(fù)雜行為,并非出現(xiàn)常規(guī)的均衡收斂.SD為研究不完全信息條件下演化博弈的復(fù)雜動態(tài)演化過程提供了一種有效的輔助手段.
本文將演化博弈與系統(tǒng)動力學(xué)相結(jié)合,考慮有限理性和信息不確定的條件下,對供應(yīng)商和零售商之間的一類二級供應(yīng)鏈合作問題進行演化均衡穩(wěn)定性分析,并建立相應(yīng)的SD演化博弈模型以揭示供應(yīng)商與零售商之間演化博弈的動態(tài)特性.
考慮一個供應(yīng)商和一個零售商組成的委托代理關(guān)系之間的博弈問題,供應(yīng)商是委托人,零售商是代理人.產(chǎn)品銷售采用統(tǒng)一零售價,供應(yīng)商以促銷價格提供產(chǎn)品給零售商,零售商選擇對產(chǎn)品采取各種促銷手段來提高產(chǎn)品的銷售量.由于單個零售商的促銷手段,如廣告、贈飲,可以提高產(chǎn)品的宣傳效果,往往也能夠促進其他零售商的銷量,因此可能出現(xiàn)零售商在產(chǎn)品促銷行為上的“搭便車”.最初采取促銷手段的零售商往往由于促銷費用而獲得比其他零售商少的利益,最終也放棄促銷.供應(yīng)商無法預(yù)測到某個零售商是否會努力對產(chǎn)品進行促銷,只能通過抽樣檢查的手法來判斷,對消極銷售的零售商采取一定的懲罰,零售商也無法預(yù)測供應(yīng)商什么時候會對其進行銷售方式的檢查,其策略選擇就是對產(chǎn)品進行促銷銷售或者不進行促銷銷售.
1.1.基本假設(shè)與記號
基本假設(shè):
①供應(yīng)商希望零售商能夠根據(jù)具體市場情況對產(chǎn)品進行促銷銷售,提高產(chǎn)品知名度及其市場銷售,因此供應(yīng)商將部分市場推廣費用作為促銷讓利,提供優(yōu)惠的批發(fā)價格給零售商;零售商希望拿到產(chǎn)品的優(yōu)惠批發(fā)價,從而獲得產(chǎn)品利潤最大化.
②供應(yīng)商的策略選擇可以是對零售商促銷情況進行(檢查,不檢查),φ表示單位時間內(nèi)零售商被抽查的概率(決策變量);零售商從供應(yīng)商進行訂貨銷售,對產(chǎn)品可以采用促銷銷售或不采用促銷銷售,θ表示零售商在單位時間內(nèi)采取促銷銷售產(chǎn)品的概率(決策變量).
③以群體比例代表個體策略選擇概率.模型假設(shè)演化博弈在供應(yīng)商群體與零售商群體間進行,供應(yīng)商每次隨機與零售商群體中的個體進行博弈,供應(yīng)商群體與零售商群體通過群內(nèi)個體學(xué)習(xí),采用動態(tài)復(fù)制方程來改變策略選擇的比例.
④零售商在一個隨機市場上銷售產(chǎn)品,不考慮庫存成本、時間延遲,并且供應(yīng)商存儲量足夠大,可以隨時滿足零售商的訂貨需求,因此零售商的訂貨量與其銷售量是相等的;記號:
c(0<c<ps)表示促銷條件下供應(yīng)商提供的產(chǎn)品優(yōu)惠批發(fā)價;ps是非促銷條件下供應(yīng)商提供的正常批發(fā)價,p為產(chǎn)品零售價格,A=(ps-c)為單位產(chǎn)品促銷費用,B=(p-ps)為零售商正常銷售獲益.
q表示單位時間內(nèi)產(chǎn)品銷售價格為p時,未采取任何促銷措施時的市場需求.qi表示單位時間內(nèi)零售商采取促銷手段時的銷售量增量.
Q表示零售商每次訂貨時的訂貨批量.
Cp表示零售商采取促銷手段時,單位產(chǎn)品的促銷費用.
Cs(Cs>0)表示供應(yīng)商對零售商銷售情況進行檢查的開銷成本. P(P>Cs)表示供應(yīng)商對零售商消極銷售產(chǎn)品采取的懲罰.
1.2.獲益矩陣
假設(shè)供應(yīng)商采用懲罰激勵機制,則供應(yīng)商與零售商之間的博弈獲益矩陣如表1所示:
表1 供應(yīng)商與零售商之間的博弈獲益矩陣
對于零售商而言,采取促銷策略的期望獲益為:
采取“不促銷”策略的期望獲益為:
因此零售商的總體期望獲益為:
對于供應(yīng)商而言,采取抽查策略的期望獲益為:
采取“不抽查”策略的期望獲益為:
因此零售商的總體期望獲益為:
1.3 模型求解與分析
零售商在與供應(yīng)商進行博弈的同時,零售商之間并不是相互獨立的.零售商的策略選擇不僅僅考慮供應(yīng)商的策略選擇,同時還會受到其他零售商策略選擇的影響.同樣,供應(yīng)商之間除了考慮零售商的訂貨情況,也會相互學(xué)習(xí)彼此的策略,取得較高的獲益.考慮在兩類有限理性的大群體中隨機配對進行博弈的進化博弈問題.
根據(jù)生物進化復(fù)制動態(tài)的思想,采用收益較低策略的博弈方會改變自己的策略,模仿有較高收益策略的對手.采用促銷策略的零售商的比例動態(tài)變化速度和供應(yīng)商采取抽查策略的比例動態(tài)變化速度可以用如下的復(fù)制動態(tài)方程來表示[7-8]:
動態(tài)復(fù)制方程(3)的Jacobian矩陣為
求解:
①當(dāng)Bqi-Cp>0時,即零售商促銷行為帶來的產(chǎn)品利潤獲益大于促銷費用,為演化博弈的ESS,即供應(yīng)商不對零售商的促銷情況進行抽查,零售商努力促銷產(chǎn)品銷售;
②當(dāng)Bqi-Cp<0時,即零售商促銷行為的開銷大于促銷帶來的產(chǎn)品銷售獲取的利潤時,且供應(yīng)商對零售商的消極銷售的懲罰力度P小于促銷行為帶來的零售商獲益損失,即P+(Bqi-Cp)<0時,為演化博弈的ESS,即供應(yīng)商對零售商的促銷情況進行抽查,零售商不對產(chǎn)品進行任何促銷行為;
③當(dāng)Bqi-Cp<0,且P+(Bqi-Cp)>0時,為演化博弈的中心點,臨界穩(wěn)定,不存在ESS.故系統(tǒng)不存在演化穩(wěn)定均衡.任何微小的變化都可能對系統(tǒng)的行為產(chǎn)生巨大影響.完全理性博弈的納什均衡在進化博弈中并不一定是進化穩(wěn)定策略[9].
通過對供應(yīng)商和零售商演化博弈模型的演化均衡的穩(wěn)定性分析,得到了該博弈模型在某些條件下不存在演化穩(wěn)定均衡的結(jié)論,也就是說系統(tǒng)不存在某一個狀態(tài)使得博弈雙方隨著博弈次數(shù)的增加而逐漸靠近穩(wěn)定.在關(guān)注系統(tǒng)演化均衡穩(wěn)定性的同時,本文試圖建立混合策略的演化博弈系統(tǒng)動力學(xué)模型來刻畫博弈參與者之間的博弈關(guān)系的長期動力學(xué)行為趨勢,為研究各種不確定因素和制定切實有效的政策提供一個仿真平臺.
2.1 SD演化博弈模型
用Vensim PLE 5.6a建立供應(yīng)商與零售商的演化博弈簡化模型如圖1所示:
圖1
供應(yīng)商零售商問題演化博弈的SD模型主要由四個流位、兩個流率、八個中間變量和八個外部變量構(gòu)成.四個流位分別用來表示供應(yīng)商群體中采取抽查策略的供應(yīng)商比例和不采取抽查的供應(yīng)商比例,零售商群體中采取促銷策略和不采取促銷策略的比例;兩個流率用來刻畫供應(yīng)商采取抽查策略的比例變化和采取促銷策略的零售商比例的變化.八個外部變量分別對應(yīng)表1博弈支付矩陣中的8個變量取值,如表2所示:
表2 SD模型中外部變量說明
SD模型中流率公式及其涉及到的中間變量主要是根據(jù)上一節(jié)中分析的演化博弈中的復(fù)制動力學(xué)方程(3)制定.
2.2.仿真結(jié)果
模型采用的仿真軟件為vensimPLE 5.6a,假設(shè)供應(yīng)商與零售商初始狀態(tài)隨機選擇策略,雙方兩種策略選擇比例各為50%,模型仿真參數(shù)設(shè)定為:INITIAL TIME=0,INITIAL TIME=3 000,TIME STEP=1,CHANG RATE=10,c=3,ps=4,p=5,q=300,qi=100,Cs=30.
①假設(shè)Cp=50,即Bqi-Cp>0時,當(dāng)零售商促銷帶來的產(chǎn)品銷售利潤大于促銷費用時,無論供應(yīng)商對零售商進行抽查時發(fā)現(xiàn)零售商沒有促銷行為的懲罰額度P>(Bqi-Cp)還是P≤(Bqi-Cp),其仿真結(jié)果是一樣的,仿真結(jié)果如圖2,圖3所示.供應(yīng)商與零售商博弈演化結(jié)果是博弈雙方均采取某種純策略,供應(yīng)商不對零售商進行抽查,而零售商對產(chǎn)品進行促銷銷售,結(jié)果與上一節(jié)分析一致.為演化博弈的ESS.
圖2 當(dāng)Bqi-Cp>0時,供應(yīng)商與零售商演化博弈結(jié)果(P>(Bqi-Cp))
②假設(shè)Cp=50,即Bqi-Cp>0,P=100
圖3 當(dāng)Bqi-Cp>0時,供應(yīng)商與零售商演化博弈結(jié)果(P<(Bqi-Cp))
③假設(shè)Cp=150,即Bqi-Cp<0,P=40,即P+(Bqi-Cp)<0時,仿真結(jié)果如圖4所示.供應(yīng)商與零售商博弈演化結(jié)果是博弈雙方均采取某種純策略:供應(yīng)商對零售商進行抽查,而零售商不對產(chǎn)品進行促銷銷售,結(jié)果與上一節(jié)分析一致.為演化博弈的ESS.
圖4 當(dāng)Bqi-Cp<0,且P<(Cp-Bqi)時,供應(yīng)商與零售商演化博弈結(jié)果
④假設(shè)Cp=150,即Bqi-Cp<0,P=100,即P+(Bqi-Cp)>0時,零售商促銷行為的開銷大于促銷帶來的產(chǎn)品銷售獲取的利潤時,但是一旦被供應(yīng)商查獲零售商的消極銷售行為時,懲罰額度P遠大于促銷行為帶來的零售商獲益損失.當(dāng)供應(yīng)商抽查概率和零售商促銷概率的以為初始狀態(tài)時,得到如圖5的仿真結(jié)果,供應(yīng)商與零售商的演化博弈過程始終穩(wěn)定在X5=(θ*φ*)T=(0.7 0.5)T.那么是否由此認(rèn)為在Bqi-Cp<0且P+(Bqi-Cp)>0的條件下X5是演化穩(wěn)定均衡呢?
圖5 當(dāng)Bqi-Cp<0,且P>(Cp-Bqi)時演化博弈結(jié)果(θ=0.7 φ=0.5)
由分析可知X5為系統(tǒng)的中心點,臨界穩(wěn)定,也就是說任何小小的信息干擾都可能造成系統(tǒng)的不穩(wěn)定.改變供應(yīng)商與零售商的初始值,其仿真結(jié)果如圖6所示.實際上,供應(yīng)商為了增加產(chǎn)品銷售量,往往會提供給零售商優(yōu)惠的價格,并要求零售商對產(chǎn)品進行促銷行為,然而產(chǎn)品的推廣初期,促銷投入的費用往往要高于短期的銷售盈利,難以在短期內(nèi)得到回報.在這種情況下,供應(yīng)商與零售商的演化博弈結(jié)果就難以預(yù)測了.從圖6可以看出,博弈雙方策略選擇概率都存在著波動,而且隨著時間和博弈次數(shù)的增加,波動振幅逐漸增大,甚至達到最大振幅.
圖6 當(dāng)Bqi-Cp<0,且P>(Cp-Bqi)時演化博弈結(jié)果(θ=0.5 φ=0.5)
3.1 加大懲罰力度
最常見的控制策略就是加大懲罰力度,假設(shè)Cp=150,即Bqi-Cp<0,Pmax=200,即Pmax+(Bqi-Cp)>0時,得到如圖7的仿真結(jié)果.也就是說單純的增大懲罰力度,并不能從根本上改變供應(yīng)商和零售商博弈過程的波動性,甚至可能由于雙方選擇策略選擇的反復(fù)而造成合作關(guān)系的變換和中止.
圖7 加倍懲罰力度供應(yīng)商與零售商的動態(tài)演化過程
3.2 動態(tài)懲罰策略
在其他的應(yīng)用領(lǐng)域里面,文獻[9]提出動態(tài)懲罰策略可以穩(wěn)定混合策略博弈的演化結(jié)果,使之穩(wěn)定在混合策略的Nash均衡.在供應(yīng)商和零售商演化博弈模型中,假設(shè)供應(yīng)商對零售商采用動態(tài)的懲罰策略,也就是說供應(yīng)商根據(jù)零售商群體的總體促銷努力程度θ來決定對零售商的懲罰力度.假設(shè)Cp=150,即Bqi-Cp<0,
其他參數(shù)變量不變.得到如圖8的仿真結(jié)果,曲線1表示零售商的演化博弈過程,曲線2表示供應(yīng)商的演化博弈過程.在動態(tài)懲罰策略的影響下,演化博弈結(jié)果并不是如文獻[9]中描述的穩(wěn)定在混合策略的Nash均衡,而是在若干個波動后穩(wěn)定在了(0,1),即是演化博弈模型的ESS穩(wěn)定演化均衡.對于這樣一類的二級供應(yīng)鏈演化博弈模型中,供應(yīng)商選擇不對零售商的銷售行為進行抽查,而零售商努力對產(chǎn)品的銷售進行促銷行為的純策略.
圖8 動態(tài)懲罰策略下供應(yīng)商與零售商的動態(tài)演化過程
3.3 控制懲罰策略
假設(shè)Cp=150,即Bqi-Cp<0,其他參數(shù)變量不變,
我們得到如圖9的仿真結(jié)果,曲線1表示零售商的演化博弈過程,曲線2表示供應(yīng)商的演化博弈過程.在控制懲罰策略的影響下,演化博弈結(jié)果最后同動態(tài)懲罰策略穩(wěn)定在了(0,1),即是演化博弈模型的ESS穩(wěn)定演化均衡,但是博弈過程中動態(tài)懲罰策略條件下出現(xiàn)的波動現(xiàn)象在控制懲罰策略條件下就得到了很好的抑制.
圖9 控制懲罰策略下供應(yīng)商與零售商的動態(tài)演化過程
對于實際應(yīng)用中的供應(yīng)商與零售商之間這樣一類兩級供應(yīng)鏈的合作博弈問題,并不是完全采用推動式的監(jiān)控模型,也有拉動式的激勵模型,甚至是兩者結(jié)合.本文運用演化博弈和系統(tǒng)動力學(xué)在一系列的抽象及假設(shè)條件下建立供應(yīng)商與零售商之間的合作博弈模型,系統(tǒng)動力學(xué)采用的數(shù)據(jù)僅僅是一種示例說明,以驗證SD模型對演化博弈動態(tài)過程描述具有一定的有效性,與現(xiàn)實情況不可避免會存在一定的偏差.本文更主要的目的是提出了一種研究供應(yīng)鏈博弈問題的思路,利用演化博弈分析建立供應(yīng)鏈中的各個成員之間合作競爭關(guān)系,但是隨著供應(yīng)鏈的發(fā)展和問題研究的深入,各種不確定性因素造成了對演化博弈模型進行定性分析的困難,利用SD建立基本的演化博弈仿真模型可以考慮更多更復(fù)雜的因素對博弈結(jié)果和供應(yīng)鏈性能的影響,同時也為供應(yīng)鏈管理者提供了一個有效的政策仿真平臺.
本文的演化博弈模型是一個推動式的監(jiān)控模型,隨后也將建立相應(yīng)的拉動式激勵模型以及推動式拉動式相結(jié)合的混合模型,分析各種策略的影響.在演化博弈的學(xué)習(xí)機制中,除了表示同類成員間學(xué)習(xí)的復(fù)制動態(tài)方程,如何在演化博弈中體現(xiàn)供應(yīng)鏈中成員自身的強化學(xué)習(xí)、適應(yīng)性學(xué)習(xí)等也是進一步研究的方向.
[1]Lippman S,McCardle K.The competitive news-boy[J].Operations Research,1997,45(1):54-65.
[2]Zhou M,Deng F Q.Evolutionary dynamics of an asymmetric game between a supplier and a retailer[M]//Jiao L,Wang L,Gao X,et al.Lecture Notes in Computer Science:Advances in Natural Computation,Part II.Berlin:Springer-Verlag,2006,4222:466-469.
[3]單汩源,江黎明,吳煒煒.供應(yīng)商與零售商的動態(tài)非對稱演化博弈[J].商業(yè)研究,2008(07):10-12.
[4]Chen F R.Sales-force incentives and inventory management[J].Manufacturing&Service Operations Management,2000,2(2):186-202.
[5]黃祖慶,達慶利.基于一類兩級供應(yīng)鏈的激勵機制策略研究[J].管理工程學(xué)報,2005,19(3):28-31.
[6]Kim D H,Kim D H.A system dynamics model for a mixed-strategy game between police and driver[J].System Dynamics Review 1997,13(1):33-52.
[7]Sice P,Mosekilde E,Moscardini A,et al.Using system dynamics to analyse interactions in duopoly competition[J].System Dynamics Review,2000,16(2):113-133.
[8]Gintis H.Game theory evolving[M].Princeton:Princeton University Press,2000.
[9]蔡玲如,王紅衛(wèi),曾偉.基于系統(tǒng)動力學(xué)的環(huán)境污染演化博弈問題研究[J].計算機科學(xué),2009,36(08):234-238+257.
[10]Wang H W,Cai L R,Zeng W.Research on the evolutionary game of environmental pollution in system dynamic model[J].Journal of Experimental Theoretical Artificial Intelligence,2011,23(1):39-50.
A System Dynam ics M odel for Evolutionary Game Between Supp liers and Retailers
CAI Lingru,WU Sijun,CHEN Shuang
(1.College of Engineering,Shantou University,Shantou 515063,Guangdong,China;2.Institute of Electric Power Design,China Energy Construction Group,Guangzhou 510663,Guangdong,China)
In this paper,an evolutionary game between suppliers and retailers in supply chain is studied and a system dynamic(SD)model is built as simulation verification tool.The stability analysis and SD simulation result show that evolutionary equilibrium doesn’t exist under some conditions.A dynamic penalty is suggested in SD model for the equilibrium stabilization and the improvement in supply chain.Finally,the SD simulation shows that the dynamic penalty can change the evolutionary game from a critical stable state to a stable and desired state.SD provides a simulation and experiment platform for the evolutionary game theory’s development and application.
supply chain;evolutionary game;system dynamics;dynamic penalty
N 941.3
A
1001-4217(2015)01-0053-11
2014-08-25
蔡玲如(1979-),女,廣東汕頭人,汕頭大學(xué)計算機科學(xué)與技術(shù)系副教授,博士.E-mali:lrcai@stu.edu.cn
廣東省自然科學(xué)基金資助項目(S2012040007143);汕頭大學(xué)國家基金培育資助項目(NFC12003)