摘要:針對(duì)當(dāng)前人工社團(tuán)競爭研究缺乏同時(shí)考慮不對(duì)等競爭情報(bào)和信息交流對(duì)主體行為選擇的影響問題。本文根據(jù)競爭中的信息交流特點(diǎn)提出從協(xié)商競爭角度探討信息不對(duì)等性和信息溝通機(jī)制對(duì)主體行為的影響以及主體的歷史信息學(xué)習(xí)能力。構(gòu)建協(xié)商競爭宏觀模型框架并提出新的學(xué)習(xí)算法—?dú)v史信念學(xué)習(xí)算法。對(duì)主體未學(xué)習(xí)與學(xué)習(xí)后的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,對(duì)比結(jié)果表明經(jīng)過學(xué)習(xí)主體能夠做出更有益于其利益追求的行為演化,驗(yàn)證歷史信念學(xué)習(xí)算法的有效性。
關(guān)鍵詞:協(xié)商;競爭;學(xué)習(xí);仿真
中圖分類號(hào):TP311.52 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 09-0000-03
一、引言
生活中存在的供貨商與消費(fèi)者之間關(guān)于價(jià)格利益的競爭,電子商務(wù)市場中交易主體的動(dòng)態(tài)競價(jià),合作伙伴的選擇競爭等都存在一個(gè)共同點(diǎn):競爭雙方擁有不對(duì)等的競爭情報(bào)并存在一定的信息交流。不對(duì)等信息影響主體在競爭中的地位,但一定的交流機(jī)制使得主體不僅可以獲得自身歷史信息而且可以在交流中獲取對(duì)手歷史信息。當(dāng)前人工社團(tuán)競爭研究缺乏對(duì)主體信息不對(duì)等性和交流機(jī)制的研究,也缺乏對(duì)兩者關(guān)系的研究,影響主體行為選擇參考信息的完備性。為改進(jìn)這一問題,本文針對(duì)上述兩種機(jī)制特點(diǎn)提出以協(xié)商競爭角度研究存在信息不對(duì)等性和交流的人工社團(tuán)競爭問題,分析協(xié)商競爭的環(huán)境、機(jī)制、資源等問題,構(gòu)建人工社團(tuán)協(xié)商競爭模型框架并提出歷史信念學(xué)習(xí)算法。通過歷史信念學(xué)習(xí)的主體可以比未學(xué)習(xí)主體獲取更多有關(guān)競爭對(duì)手的歷史信息,提高主體行為選擇的智能性和正確性。
二、協(xié)商競爭
為構(gòu)建協(xié)商競爭模型框架,本文從三方面對(duì)協(xié)商進(jìn)行研究[1][2]:(1)協(xié)商協(xié)議:所有參與競爭主體都必須遵守的一系列競爭規(guī)則集合。(2)協(xié)商目標(biāo):協(xié)商參與者希望通過協(xié)商達(dá)到的目標(biāo)。(3)協(xié)商策略模型:協(xié)商過程也是策略選擇過程。
三、協(xié)商競爭模型框架
(一)協(xié)商競爭宏觀模型框架NCpe-scape
為進(jìn)一步分析人工社團(tuán)協(xié)商競爭中的競爭環(huán)境和主體學(xué)習(xí)行為,本文接著構(gòu)建協(xié)商競爭宏觀模型NCpe-scape,模型用七元組
N:參與協(xié)商競爭的主體集合;
E:協(xié)商競爭環(huán)境;
O:協(xié)商競爭目標(biāo),各主體為此目標(biāo)而進(jìn)行爭奪;
P:協(xié)商競爭協(xié)議,主體在競爭過程中必須遵守的規(guī)則集合,它對(duì)主體的行為起約束作用;
S:協(xié)商競爭策略,主體在競爭過程中采取的行動(dòng)策略集合;
R:協(xié)商競爭的結(jié)果狀態(tài)集合,包含協(xié)商成功,協(xié)商失敗和非正常終止;
L:協(xié)商競爭中主體的學(xué)習(xí)機(jī)制,主體根據(jù)當(dāng)前環(huán)境信息和歷史信息進(jìn)行學(xué)習(xí)。
模型框架如圖1所示:
圖1 協(xié)商競爭模型框架
在上述模型框架中,代表競爭環(huán)境的二維網(wǎng)格中分布著競爭參與主體和資源,每個(gè)競爭主體在二維網(wǎng)格中都有一個(gè)確定的空間坐標(biāo)位置,每個(gè)主體都包含標(biāo)識(shí)和屬性集合,并攜帶一定含量的資源。初始時(shí),環(huán)境資源及主體資源由資源分配機(jī)制確定。擁有資源和能量的主體制定協(xié)商競爭目標(biāo),在協(xié)商競爭協(xié)議的約束下選擇協(xié)商競爭策略展開競爭行為,主體間的行為交互通過標(biāo)識(shí)調(diào)節(jié)。競爭系統(tǒng)中的主體具有一定的學(xué)習(xí)能力,這種學(xué)習(xí)能力利用歷史信念學(xué)習(xí)表征,主體通過學(xué)習(xí)歷史信息參考模型增強(qiáng)競爭策略的成功率和智能性,通過積累歷史經(jīng)驗(yàn)提高自身決策能力。
協(xié)商的終極目標(biāo)是主體為自身爭取更多的利益,為驗(yàn)證宏觀模型框架的可行性及正確性,我們?cè)谙挛臉?gòu)建以協(xié)商獲取最大利益為目標(biāo)的利益驅(qū)動(dòng)協(xié)商競爭模型。
(二)利益驅(qū)動(dòng)協(xié)商競爭模型BNC-scape
利益驅(qū)動(dòng)協(xié)商競爭模型BNC-scape定義為七元組
1.BN表示協(xié)商參與主體集合,包含兩種類型的主體集合可定義為BN=
2.BE表示協(xié)商競爭環(huán)境;
3.BO表示爭取最大利益的協(xié)商目標(biāo);
4.BP表示利益驅(qū)動(dòng)協(xié)商競爭協(xié)議;
5.BS表示利益驅(qū)動(dòng)協(xié)商競爭策略,具體策略反映在主體的協(xié)商行為選擇上;
6.BR表示利益驅(qū)動(dòng)協(xié)商競爭結(jié)果狀態(tài)集;
7.BL表示利益驅(qū)動(dòng)協(xié)商主體的學(xué)習(xí)策略。我們將此學(xué)習(xí)機(jī)制定義為歷史信念學(xué)習(xí)HBL。
(三)歷史信念學(xué)習(xí)HBL
協(xié)商競爭的最大特點(diǎn)在于主體間的交流和歷史信息的可獲取性,競爭主體在交互過程中不斷收集相關(guān)對(duì)手的歷史信息并利用這些信息優(yōu)化行為決策??衫眯畔⒂扇糠謨?nèi)容組成:自身歷史信息、對(duì)手歷史信息與環(huán)境信息,分別用 , 表示,并用 表示三者的重要性權(quán)重。對(duì)手歷史信息又可分為:對(duì)手歷史最優(yōu)行為、對(duì)手歷史平均信息與對(duì)手歷史最差行為,分別用 , , 表示,并用 表示三者的權(quán)重系數(shù)。主體的信息參考模型如下式:
(1) (2)
主體的學(xué)習(xí)機(jī)制描述如下:
(1)主體根據(jù)交互的歷史信息實(shí)時(shí)調(diào)整參數(shù),并根據(jù)信息參考模型以效用最大化為目標(biāo)從行為策略侯選集中選擇一個(gè)最佳行為策略;
(2)主體根據(jù)自身歷史信息和當(dāng)前環(huán)境信息預(yù)測(cè)交互對(duì)手在該階段做出的行動(dòng)策略S1,根據(jù)對(duì)手的歷史信息預(yù)測(cè)交互對(duì)手在該階段做出的行動(dòng)策略S2;
(3)觀察對(duì)手的實(shí)際策略與主體的預(yù)測(cè)策略之間的差值,如果實(shí)際策略更接近S1,則強(qiáng)化主體自身歷史信息和環(huán)境信息的權(quán)重,如果實(shí)際策略更接近S2,則強(qiáng)化對(duì)手歷史信息的權(quán)重。
四、仿真模型設(shè)計(jì)
以價(jià)格協(xié)商為應(yīng)用背景,在宏觀模型框架的指導(dǎo)下設(shè)計(jì)一個(gè)房地產(chǎn)市場中開發(fā)商與消費(fèi)者關(guān)于房價(jià)利益的協(xié)商模型PBNC-scape。房子價(jià)值利用hedonic定價(jià)模型確定。
首先介紹PBNC-scape設(shè)計(jì)與利益驅(qū)動(dòng)協(xié)商競爭模型之間的映射關(guān)系:
1.開發(fā)商和消費(fèi)者代表兩種不同類型的協(xié)商主體。BN=
2.在二維網(wǎng)格環(huán)境中分布房子及影響房子價(jià)值的公共設(shè)施,為簡化分析,本文構(gòu)建的模型公共設(shè)施物只涉及醫(yī)院,商場,學(xué)校,公交站點(diǎn)和工廠這幾類具有標(biāo)志性作用的建筑。醫(yī)院,商場,學(xué)校和公交站點(diǎn)對(duì)房子價(jià)值起正反饋?zhàn)饔?,工廠因噪聲污染等原因?qū)Ψ孔觾r(jià)值起負(fù)反饋?zhàn)饔?。因?yàn)閿?shù)據(jù)收集問題,我們假設(shè)所構(gòu)建模型的房子的建筑結(jié)構(gòu)都是一樣的,只探討區(qū)位和不同鄰里環(huán)境屬性對(duì)房子價(jià)值的影響;
房子的Hedonic價(jià)值函數(shù)如下:
(3)
其中,Pb表示房子的基本價(jià)值,a1,a2,a3表示三個(gè)影響因子的權(quán)重系數(shù), 表示誤差項(xiàng)。
3.開發(fā)商對(duì)房子的最低限制價(jià)格與其報(bào)價(jià)之間的差值定義為開發(fā)商剩余價(jià)值,雙方協(xié)商競爭的目標(biāo)是獲取最大剩余價(jià)值;
4.每個(gè)周期開發(fā)商和消費(fèi)者對(duì)欲交易的房子進(jìn)行價(jià)格協(xié)商博弈[9][10]。協(xié)議包含:
(1)雙方在區(qū)間內(nèi)報(bào)價(jià),開發(fā)商報(bào)價(jià)區(qū)間[spmin,spmax],消費(fèi)者報(bào)價(jià)區(qū)間[cpmin,cpmax]。
(2)T表示消費(fèi)者未知的開發(fā)商最低限制價(jià)格,R表示開發(fā)商未知的消費(fèi)者最高可接受價(jià)格。開發(fā)商估計(jì)消費(fèi)者的R是[cmin,cmax]上分布的自由變量,消費(fèi)者估計(jì)開發(fā)商的T是[smin,smax]上分布的自由變量。
(3)不成功的報(bào)價(jià)對(duì)下一回報(bào)價(jià)具有參考價(jià)值。開發(fā)商新的報(bào)價(jià)將低于舊的報(bào)價(jià)同時(shí)高于消費(fèi)者舊的報(bào)價(jià)。
(4)模型引入折算系數(shù), 代表開發(fā)商的折算系數(shù), 代表消費(fèi)者的折算系數(shù)。開發(fā)商行為模型描述如下: ,消費(fèi)者行為模型描述如下: 。其中,DP,CP表示開發(fā)商和消費(fèi)者各自對(duì)房子的Hedonic定價(jià),開發(fā)商根據(jù)DP設(shè)置房子的最低限制價(jià)格T,消費(fèi)者根據(jù)CP設(shè)置房子的最高可接受價(jià)格R。
5.協(xié)商輪數(shù)利用泊松分布指定;
6.根據(jù)歷史信念學(xué)習(xí)算法,在某個(gè)位置上經(jīng)過多個(gè)周期協(xié)商后仍未售出的房子在 周期時(shí)開發(fā)商可以進(jìn)行歷史信念學(xué)習(xí),學(xué)習(xí)模型為:
4)
(5)
其中, 表示開發(fā)商根據(jù)自身歷史報(bào)價(jià)信息計(jì)算出的報(bào)價(jià)參考值, 表示開發(fā)商根據(jù)當(dāng)前環(huán)境下的供求關(guān)系計(jì)算出的報(bào)價(jià)參考值, 表示開發(fā)商根據(jù)該位置協(xié)商交互過的消費(fèi)者報(bào)價(jià)信息計(jì)算出的報(bào)價(jià)參考值。
五、仿真結(jié)果分析
實(shí)驗(yàn)在仿真平臺(tái)Swarm下進(jìn)行,實(shí)驗(yàn)數(shù)據(jù)在參考相關(guān)文獻(xiàn)關(guān)于hedonic屬性取值的范圍內(nèi)隨機(jī)取值。
房子,醫(yī)院,商場,公交站點(diǎn),學(xué)校及工廠隨機(jī)分布在40*40的二維網(wǎng)格中。房子數(shù)量為200,開發(fā)商數(shù)量為40,消費(fèi)者數(shù)量為400,屬性L、S、N的基本價(jià)值在4000到4500之間隨機(jī)取值。公共設(shè)施建筑物起反饋?zhàn)饔玫慕缦蘧嚯x在15到20之間隨機(jī)取值
首先,我們考察主體無學(xué)習(xí)情況。
(一)無學(xué)習(xí)
主體不具有學(xué)習(xí)能力時(shí)其報(bào)價(jià)策略是區(qū)間內(nèi)隨機(jī)取值。經(jīng)過100多個(gè)仿真周期,房子平均價(jià)值—時(shí)間曲線與房子平均交易價(jià)格—時(shí)間曲線如圖2(a)(b)所示。
圖2 主體未學(xué)習(xí)下的時(shí)間圖
從圖2(a)我們觀察到隨著時(shí)間推移,房子價(jià)值越來越高,在第50和80周期附近房子價(jià)值出現(xiàn)明顯的上升,說明設(shè)計(jì)的模型規(guī)則能夠反映房子價(jià)值隨市場環(huán)境的變化而變化。房子平均價(jià)值并不是一瞬間增高的,需要經(jīng)過一個(gè)波動(dòng)的過程,實(shí)驗(yàn)結(jié)果驗(yàn)證了這一點(diǎn)。從圖2(b)中我們觀察到房子平均交易價(jià)格也在第50和80周期附近出現(xiàn)跳躍,這與圖2(a)的結(jié)果是相吻合的。說明模型中競爭雙方的報(bào)價(jià)規(guī)則和報(bào)價(jià)策略是可行的,協(xié)商過程中動(dòng)態(tài)信息的調(diào)整也是正確。
(二)學(xué)習(xí)
添加歷史信念學(xué)習(xí)機(jī)制后的房子平均價(jià)值——時(shí)間曲線與房子平均交易價(jià)格——時(shí)間曲線如圖3(a)(b)所示:
圖3 主體學(xué)習(xí)下的時(shí)間圖
從圖3(a)我們觀察到房子平均價(jià)值在前45個(gè)周期內(nèi)存在小波動(dòng),但基本平衡,在第45周期時(shí)發(fā)生價(jià)值跳躍。在第75周期附近出現(xiàn)第二次跳躍。圖3(b)中,房子的平均交易價(jià)格也相應(yīng)在第45周期和第75周期附近發(fā)生跳躍。對(duì)比圖2和圖3,我們發(fā)現(xiàn)添加學(xué)習(xí)后的房子平均價(jià)值和平均交易價(jià)格跳躍周期均早于未學(xué)習(xí)情況,而且對(duì)比中可以發(fā)現(xiàn)添加學(xué)習(xí)機(jī)制后,房子平均交易價(jià)格的波動(dòng)幅度明顯小于未學(xué)習(xí)情況,說明通過學(xué)習(xí)開發(fā)商制定出的報(bào)價(jià)更加接近消費(fèi)者可接受區(qū)域,更加合理,協(xié)商次數(shù)減少,協(xié)商成功的機(jī)率增大,能夠在更短的時(shí)間內(nèi)與消費(fèi)者達(dá)成一致意見,利潤增長幅度也呈上升趨勢(shì)。通過實(shí)驗(yàn)結(jié)果,我們驗(yàn)證了歷史信念學(xué)習(xí)的有效性。
六、結(jié)論
從協(xié)商角度分析信息不對(duì)等和交流的人工社團(tuán)競爭問題可以更貼切地反映競爭主體行為特點(diǎn),提高主體行為選擇參考信息的完備性,結(jié)合競爭環(huán)境和協(xié)商特點(diǎn)制定出的學(xué)習(xí)算法可以幫助主體做出更符合其利益追求的行為演化與選擇,歷史信念學(xué)習(xí)算法可以幫助主體有效地汲取歷史經(jīng)驗(yàn),最大化主體價(jià)值。任何一個(gè)宏觀模型都不可能既準(zhǔn)確無誤又完整地反映實(shí)際情況,只能在某種程度上給予抽象性和戰(zhàn)略性的指導(dǎo),因此下一步工作是研究競爭系統(tǒng)中其他細(xì)節(jié)因素對(duì)模型的影響和作用。
參考文獻(xiàn):
[1]Rahwan l,Ramchurn S D,Jeaning N R,et al.Argumentation2 based negotiation.Knowledge Eginerring Review,2004:343-375
[2]Jennings N R.Automated negotiation[C].Manchester,UK:Proc 5th Int Conf on The Practical Application of Intelligent Agents and Multi-Agent Systems (PAAM-2000),2000:23-30
[3]王立春,陳世福.多Agent多問題協(xié)商模型[J].軟件學(xué)報(bào),2002,13(8):1637-1643
[4]王娟,柴玉梅.基于在線學(xué)習(xí)的多Agent協(xié)商[D].鄭州:鄭州大學(xué),2006
[5]楊清平,蒲國林,王剛,邱玉輝.基于交互歷史的多Agent自動(dòng)協(xié)商研究[J].計(jì)算機(jī)科學(xué),2008,35(9):226-228
[6]周慶,黃穎穎,陳劍.基于主體的動(dòng)態(tài)競爭模型的設(shè)計(jì)與仿真[J].系統(tǒng)仿真學(xué)報(bào),2005,17(8):1977-1981
[7]曹先彬,高雋,王煦法.基于生態(tài)競爭模型的遺傳強(qiáng)化學(xué)習(xí)[J].軟件學(xué)報(bào),1999,10(6):658-662
[8]王德,黃萬樞.Hedonic住宅價(jià)格法及其應(yīng)用[J].規(guī)劃方法,2005,29(3):62-70
[9]Holland,J.H.,Asset Pricing under Endogenous Expectations in an Artificial Stock Market,Santa Fe Institute Working Paper,et al,1997:96-12-093
[10]唐亮貴,程代杰.一個(gè)基于博弈學(xué)習(xí)的多主體競價(jià)模型[J].計(jì)算機(jī)工程與應(yīng)用,2006,17:76-78
[作者簡介]陳鳳欽(1985.11-),女,籍貫:福建莆田,學(xué)歷:碩士,職稱:助教,研究方向:人工生命、智能計(jì)算。