楊先偉 戰(zhàn)學秋
(無錫職業(yè)技術(shù)學院 江蘇 無錫 214121)
P2P信任系統(tǒng)中基于重復博弈的懲罰機制研究
楊先偉 戰(zhàn)學秋
(無錫職業(yè)技術(shù)學院 江蘇 無錫 214121)
P2P網(wǎng)絡是一種動態(tài)的、自組織的、分布式的開放網(wǎng)絡環(huán)境,信任問題在P2P系統(tǒng)中扮演了越來越關(guān)鍵的角色,而懲罰機制的設(shè)計又是P2P信任問題的關(guān)鍵所在。設(shè)計了一種基于重復博弈的懲罰模型,創(chuàng)新點在于:在博弈論的分析框架之下,引入了基于信任度的懲罰策略并創(chuàng)造性地設(shè)計了懲罰度轉(zhuǎn)換函數(shù),使得在單次博弈中無法實現(xiàn)的信任和合作在重復博弈中得以實現(xiàn)。該懲罰機制具有良好的威懾性、容錯性、主觀性和區(qū)分性,并通過模擬實驗證明了其可行性和有效性。
懲罰機制 P2P 信任 博弈論 重復博弈 信任度
P2P網(wǎng)絡的目標是充分利用網(wǎng)絡環(huán)境中的資源,進行大規(guī)模協(xié)同計算或資源共享。它具備如下特征:① 動態(tài)。節(jié)點自主加入,自主退出,自主與其他節(jié)點進行互動,隨時隨地處于變化之中。② 分布式。無論是物理位置還是邏輯位置,節(jié)點都是分散性的,而且具有匿名性,身份也常常趨于隨意。③不可靠性。節(jié)點提供的服務或計算能力,本質(zhì)上是一種無約束的行為,無需承擔責任。P2P服務為互聯(lián)網(wǎng)的多元化應用注入了無限的活力,但活力是一柄雙刃劍,它同時也造成了節(jié)點之間缺乏足夠的信任關(guān)系,產(chǎn)生了諸多的不確定因素,可能影響到系統(tǒng)安全,比如搭便車、聯(lián)合欺騙、隨意終止服務等,這嚴重影響了系統(tǒng)的整體效率。在這樣的環(huán)境中,緊緊依靠道德因素來約束節(jié)點是不現(xiàn)實的,而傳統(tǒng)安全手段在多變且匿名的環(huán)境里也有很大的缺陷性。因此,建立有效的分布式信任管理機制迫在眉睫。
近來,博弈論的思想提供了一種構(gòu)建信任管理機制的全新思路[2],其基本原理是承認信任問題的本質(zhì)是一個囚徒困境博弈,并通過策略的設(shè)計,使在一次性博弈中無法實現(xiàn)的信任和合作的結(jié)果,在重復博弈有可能出現(xiàn),從而可以實現(xiàn)具有帕累托效率的合作均衡結(jié)果。研究此類模型的關(guān)鍵問題是懲罰策略的設(shè)計。我們認為,P2P環(huán)境中一個好的懲罰策略要達到威懾性、容錯性、主觀性、區(qū)分性等幾個特點。威懾性使得合作或信任成為節(jié)點的最優(yōu)選擇,容錯性使得懲罰機制能容忍偶爾的犯錯,主觀性是對同樣的犯錯行為,不同的節(jié)點根據(jù)自己的安全性給予不同的懲罰,區(qū)分性是指要區(qū)別對待偶爾犯錯的節(jié)點和常常犯錯的節(jié)點,給予后者更重的懲罰。
目前,分布式環(huán)境下對不合作節(jié)點懲罰機制的研究已經(jīng)取得了若干進展,研究者們從不同的角度,提出了各種不同的懲罰機制,主要包括:
冷酷戰(zhàn)略。即在授信方在受信方犯錯一次之后,給予無限期的懲罰,在之后的每一期博弈中都選擇“不合作”。冷酷戰(zhàn)略的容錯性很差,它不允許節(jié)點犯任何錯誤,顯然在實際情況中這是不可行的。
針鋒相對戰(zhàn)略。即授信方在t階段選擇受信方在t-1階段的戰(zhàn)略,“你合作我就合作,你不合作我就不合作”,這種戰(zhàn)略具有較好的容錯性,但是由于它的懲罰期只有1期,所以并不具有良好的威懾性,也不具有主觀性和區(qū)分性。
文獻[3]引進了信任的不確定計算,并通過信任懲罰算法,防止交易實體的惡意行為。該模型采用加權(quán)的信任云合并算法進行信任綜合,體現(xiàn)了威懾性、容錯性和主觀性,但是這種模型不具有區(qū)分度,對每一個不合作的節(jié)點,都給予相同的懲罰力度,分布式環(huán)境下的節(jié)點有的是具有不合作傾向的習慣,而有的是因為失誤偶爾不合作,模型沒有體現(xiàn)出對他們的區(qū)別對待。
文獻[4]提出了一種同時考慮失敗次數(shù)和失敗影響力(失敗金額)的懲罰模型,從而達到過濾惡意節(jié)點欺騙懲罰機制的目的。模型具有較好的威懾性和容錯性,也具有一定的區(qū)分度,但該模型對于同一個不合作行為,不同的節(jié)點給予相同的懲罰度,所以并不具備良好的主觀性。
文獻[5]基于針鋒相對策略,利用博弈論從靜態(tài)和動態(tài)兩個方面對懲罰機制進行了建模與分析,利用演化博弈避免了針鋒相對策略威懾性不足的問題,并通過懲罰參數(shù)實現(xiàn)了主觀性。然而它的缺點也在于區(qū)分性,即不能區(qū)別對待善意節(jié)點的“偶爾犯錯”和惡意節(jié)點的“故技重施”。
在模型中,我們引入了信任度來實現(xiàn)懲罰的區(qū)分性,對同樣的犯錯行為,根據(jù)犯錯節(jié)點的信任度來給予不同的懲罰,并引入了懲罰期的概念來實現(xiàn)容錯性,根據(jù)參數(shù)的自主設(shè)置來實現(xiàn)主觀性,并證明了模型的威懾性。具體設(shè)計如下:
在P2P環(huán)境中,節(jié)點的每一次交互有兩種選擇:合作、不合作,記為Co、Un。設(shè)當博弈方i和博弈方j進行交互,設(shè)雙方的博弈收益矩陣如表1所示。
表1 信任博弈矩陣
假設(shè)節(jié)點對自己何時離開分布式環(huán)境網(wǎng)絡不清楚,所以從策略管理的角度說,交易可被描述成無限期重復博弈。為了輔助實現(xiàn)這一假設(shè),在實際應用中,可以保證新加入的節(jié)點的初始信任度小于分布式信任環(huán)境中已有的所有節(jié)點,這樣既可以使節(jié)點失去離開該環(huán)境的動力。
定義1 節(jié)點信任度p:授信方對受信方信任程度的量化估計,即授信方對受信方的誠實度、安全性和可靠性等可相信程度的主觀概率估計。信任的程度可以從完全不信任到完全信任,對應于信任度范圍從0到1。信任度的取值為連續(xù)值,可以取0到1之間的任一值。
定義2 懲罰期T:在某一節(jié)點選擇Un行為之后,給予這一節(jié)點T期的懲罰,即在以后的T次交互中,犯錯節(jié)點必須為其它節(jié)點無償服務,在結(jié)束T次無償服務的交互后,才可以有機會繼續(xù)獲得(Co, Co)的雙贏收益。
p為犯錯節(jié)點的信任度,f(p)將p∈[0,1]投影到了T∈[1,+∞),k為懲罰因子,由實施懲罰的節(jié)點根據(jù)自身的安全需求設(shè)定,體現(xiàn)了懲罰的主觀性,安全需求越高,k越大,T越大,安全需求越低,k越小,T越小。
定義4 節(jié)點i和節(jié)點j在交互的時候,用si表示節(jié)點i的行為,sj表示節(jié)點j的行為,si,sj∈{Co,Un},Ti、Tj分別表示i和j可能存在的懲罰期,定義如下的懲罰機制:
(1) 初始條件下,雙方首先嘗試合作,即(si,sj)=(Co,Co)。
(2) 如果在第t次交互中,某一方出現(xiàn)不合作行為,不失一般性地,假定不合作方為節(jié)點j,此時i根據(jù)j的信任度pj用懲罰度轉(zhuǎn)換函數(shù)f(p)來計算i對j的懲罰期Tj,其中f(p)中的參數(shù)k根據(jù)i的自身安全需求由節(jié)點i自行設(shè)置。計算出Tj之后,i開始對j進行Tj期的懲罰,懲罰期從第t+1次交互到第t+Tj次交互。
(3) 在i和j的第t+1次交互到第t+Tj次交互期間,i應獲得j提供的Tj期無償收益,若j接受懲罰,選擇Co,即(si,sj)=(Un,Co);在每進行一次交互后,Tj=Tj-1,直至Tj=0時,結(jié)束懲罰;若j不接受懲罰,選擇Un,則i重新開始計算懲罰期。
(4) 從第t+Tj+1交互開始,i結(jié)束對j的懲罰,雙方繼續(xù)嘗試合作,即(si,sj)=(Co,Co)。
(5) 在非懲罰期(Ti=Tj=0)的每一次交互之后,i和j根據(jù)定義2的公式更新對方的信任度,在懲罰期的交互中,若j接受懲罰,i不更新j的信任度,若j不接受懲罰,則在重新開始計算懲罰期的時候更新信任度。
任意節(jié)點i的算法偽碼如下:
void main
{j=GetNodeID()
//獲得節(jié)點的ID
if(Tj=0)
{Si=Co;
//對方節(jié)點不在懲罰期內(nèi),選擇Co
if(Sj=Co)update(Pj);
//update(P)是更新信任度的函數(shù)
else{Tj=f(pj);
//f(p)是懲罰度轉(zhuǎn)換函數(shù)
update(pj);}
//對方節(jié)點不合作,計算并開始懲罰期
}
if(Tj>0)
{Si=Un;
//對方節(jié)點在懲罰期內(nèi),選擇Un
if(Sj=Co)Tj=Tj-1;
//對方節(jié)點配合懲罰,則懲罰期減1
else{Tj=f(pj);
update(pj);}
//對方節(jié)點若不配合懲罰,則重新計算并開始懲罰期
}
elsereturnerror;
}
2.1 模型的合理性
首先我們來分析上述懲罰規(guī)則的合理性,即分析被懲罰方和懲罰方都會按照懲罰機制來服從懲罰和采取懲罰策略。
(1) 對犯錯節(jié)點j而言,如果i采取了懲罰策略,那么j的最優(yōu)選擇是服從懲罰,按照懲罰機制來提供Tj期的無償服務。因為只有提供了Tj期的無償服務,它才有可能在未來獲得正收益。否則如果它的選擇不是Co,那么它將只會獲得負收益。而博弈是一個無限期的重發(fā)博弈,為了獲得正收益,服從Tj期的懲罰是節(jié)點j的最優(yōu)策略。
(2) 對實施懲罰的節(jié)點i而言,如果j服從了懲罰,那么i的最優(yōu)策略是實施懲罰,因為實施懲罰采取的Un策略,可以使得i獲得Tj期的收益c,而不實施懲罰,得到的收益是a,由于c>a,所以按照懲罰機制實施懲罰是節(jié)點i的最優(yōu)戰(zhàn)略。
這樣,我們就證明了懲罰機制的合理性,即證明了按照懲罰機制來選擇行為,是懲罰期內(nèi)節(jié)點間的一個子博弈納什均衡。
2.2 模型的有效性
下面我們來分析在懲罰對節(jié)點的有效性。為了證明懲罰機制是有效的,我們需要證明,在懲罰機制的作用下,節(jié)點的最優(yōu)選擇是Co而不是Un。
證明:
證明節(jié)點采取Co戰(zhàn)略,是一個納什均衡。即當其它節(jié)點i堅持懲罰機制的時候,Co是節(jié)點j的最優(yōu)選擇。
由于懲罰期的初始值Ti=Tj=0,則當sj=Co時,每輪的博弈結(jié)果都是(si,sj)=(Co,Co),設(shè)貼現(xiàn)因子為δ,總收益是對每輪“貼現(xiàn)因子*收益”求和,節(jié)點j的總收益為:
其中,πj(λ)是節(jié)點j在第λ階段的收益。
如果節(jié)點j在某階段偏離,設(shè)為第t階段,考慮最大偏離收益的情況,即只偏離一次,且在懲罰輪次友好地配合懲罰,懲罰期為Tj,則每輪的博弈結(jié)果為:
(Co,Co)1,(Co,Co)2,…,(Co,Co)t-1,(Co,Un)t,(Un,Co)t+1,(Un,Co)t+2,…,(Un,Co)t+Tj,(Co,Co)t+Tj+1,(Co,Co)t+Tj+2,…
在偏離情況下,對每輪“貼現(xiàn)因子*收益”求和,可得最大偏離收益為:
a+δa+…+δt-2a+δt-1c-δtb-δt+1b-…-
δt+Tj-1b+δt+Tja+δt+Tj+1a+…=
δTj+1(a+b)>0
為了求得滿足上述不等式的條件,當Tj固定時,對φ(δ)求導:φ′(δ)=b+c-(Tj+1)(a+b)δTj。
(si,sj)=(Co,Co)
體現(xiàn)在懲罰因子k的設(shè)置上,達到此種良好均衡結(jié)果的條件是:
2.3 四個目標的實現(xiàn)
本節(jié)的引言中,我們提出了一種好的懲罰機制,需要具備威懾性、容錯性、主觀性、區(qū)分性。這里,我們簡單地分析一下四個目標的實現(xiàn)。
(1) 威懾性的實現(xiàn)。在2.2節(jié)中,我們證明了在懲罰機制的作用下,選擇“合作”構(gòu)成節(jié)點的子博弈納什均衡,是節(jié)點的最優(yōu)選擇,這說明了懲罰機制對所有理性節(jié)點都具備足夠的威懾性。
(2) 容錯性的實現(xiàn)。我們引入“懲罰期”的方案,即對節(jié)點的不合作行為給予一定時期的懲罰,懲罰期結(jié)束后,結(jié)束懲罰,這樣就允許了偶爾的犯錯,讓犯錯節(jié)點有“改過自新”的機會。
(3) 主觀性的實現(xiàn)。懲罰度轉(zhuǎn)換函數(shù)f(p)中,k為懲罰因子,由實施懲罰的節(jié)點根據(jù)根據(jù)自身的安全需求設(shè)定,體現(xiàn)了懲罰的主觀性,安全需求越高,k越小,T越小,安全需求越低,k越大,T越大。
(4) 區(qū)分性的實現(xiàn)。懲罰機制采取了被懲罰節(jié)點的信任度作為計算懲罰期的依據(jù),信任度越高,懲罰期越短,這體現(xiàn)了對“偶爾犯錯”節(jié)點和“故技重施”節(jié)點的區(qū)別對待。
為了驗證新算法的可行性和有效性,我們進行了兩個仿真實驗。
實驗設(shè)計了四類節(jié)點:
(1) 無條件合作節(jié)點,無論對方是何種節(jié)點,這類節(jié)點的策略總是“合作”,記該類節(jié)點為HN型節(jié)點。
(2) 理性節(jié)點,這類節(jié)點嚴格按照本模型所設(shè)計懲罰機制來選擇策略,即面對非懲罰期節(jié)點時首先選擇“合作”,在面對懲罰期內(nèi)的節(jié)點時執(zhí)行懲罰,記該類節(jié)點為RN(Rational Node)型節(jié)點。
(3) 偶爾犯錯的節(jié)點,這類節(jié)點的特點是多數(shù)情況下的選擇和RN型節(jié)點的選擇一樣,只是偶爾犯錯偏離理性,記該類節(jié)點為OD(Occasionally Dishonest)型節(jié)點,偏離的概率記為pOD,本實驗設(shè)定pOD=0.05。
(4)永不合作的節(jié)點,這類節(jié)點屬于惡意節(jié)點,總是選擇不合作,記該類節(jié)點為DN型。
實驗中并沒有模擬各個節(jié)點所提供的具體服務,只是讓四類節(jié)點每隔一個單位時間就隨機地選取對象進行交互,并根據(jù)自身地節(jié)點類型選擇“合作”或是“不合作”策略,并統(tǒng)計各類節(jié)點的平均收益。
3.1 模型的威懾性
實驗一用于模擬各類節(jié)點的平均收益隨DN型節(jié)點所占比例大小的變化情況,從而驗證模型的威懾性。
實驗場景為資源共享應用,節(jié)點間互享的資源在效用是對等且互補的,我們模擬了2 000個節(jié)點,設(shè)信任博弈矩陣中a為8,b、c均為10,d為1,HN節(jié)點和OD節(jié)點所占比例均為0.1。所有節(jié)點的初始信任度均為隨機地分布在0.5到0.95之間,懲罰因子k為。
各類節(jié)點的平均收益隨DN型節(jié)點所占比例大小的變化情況如圖1到圖3所示。
在第一階段,由于RN型節(jié)點與DN型節(jié)點初次交互,所以會選擇信任,從而讓DN型節(jié)點獲得欺騙收益,而自己則蒙受損失;HN型在第一階段的的策略和收益都和RN型相同;而OD型由于偶爾的犯錯會獲得欺騙收益,所以收益略高于RN/HN型;獲得大量欺騙收益的DN型在此階段收益最高,如圖1所示。
在第二階段,DN節(jié)點由于第一階段的不合作行為,而受到了RN型節(jié)點和OD型節(jié)點的懲罰,收益和第一階段相比大幅下降;而RN節(jié)點和OD節(jié)點由于在DN節(jié)點的懲罰期內(nèi)獲得DN節(jié)點的無償服務,所以收益比第一階段增加;HN節(jié)點由于未實施懲罰,故而收益也較第一階段下降;OD節(jié)點由于偶爾的犯錯而遭受懲罰,故而收益略少于RN節(jié)點。如圖2所示。
從第三階段開始,各類節(jié)點的收益趨于穩(wěn)定,和第二階段相比,HN節(jié)點收益無明顯變化;RN和OD節(jié)點因為在實施懲罰結(jié)束后可能遭遇到DN節(jié)點的繼續(xù)和不合作,所以平均收益略有下降,而同第二階段一樣,OD節(jié)點的收益要略低于RN節(jié)點;DN節(jié)點由于在懲罰期結(jié)束后可能獲得不合作帶來的欺騙收益,所以平均收益略有增多。如圖3所示。
圖1 第一階段各類節(jié)點的平均收益隨DN型節(jié)點所占比例大小的變化情況
圖2 第二階段各類節(jié)點的平均收益隨DN型節(jié)點所占比例大小的變化情況
圖3 第三階段各類節(jié)點的平均收益隨DN型節(jié)點所占比例大小的變化情況
圖4是DN型節(jié)點所占比例為0.2時的收益全局演化曲線,可以看到:
(1) HN型和OD型節(jié)點除了在第一階段由于受RN型節(jié)點的欺騙而較低之外,在第二階段隨著DN型節(jié)點進入懲罰期而增高。
(2) DN型節(jié)點除了在第一階段欺騙成功而獲得較高收益之后,在第二階段由于被懲罰而驟降。
(3) 第三階段和第二階段相比,由于某些DN型節(jié)點結(jié)束了懲罰期而繼續(xù)欺騙,所以DN型和OD型節(jié)點的收益略有下降,而DN型節(jié)點收益略有增高。
(4) 由于DN型節(jié)點一再不合作,信任度越來越小,懲罰期也越來越長,所以從第三階段開始的每一階段,RN型和OD型的收益呈遞增趨勢,而DN型的收益呈下降趨勢。
(5) 由于OD型節(jié)點偶爾犯錯,所以這類節(jié)點僅在第一階段的收益略高于RN型節(jié)點,而在其它階段都略低于RN型節(jié)點。
圖4 DN型節(jié)點所占比例為0.2時的收益全局演化曲線
實驗一證明了模型的可行性和有效性,通過實驗結(jié)果我們可以看到懲罰機制對不合作節(jié)點給予了有效的威懾,對偶爾犯錯的節(jié)點在容錯的前提下也給予了適當?shù)膽土P。實驗證明了在懲罰機制下,成為RN節(jié)點,即遵守模型的懲罰規(guī)則,是節(jié)點的最優(yōu)選擇。
3.2 模型的主觀性
實驗二用于驗證模型的主觀性。主觀性要求實施懲罰的節(jié)點根據(jù)自身的安全需求設(shè)定懲罰因子,使得對同樣的犯錯行為,安全性高的節(jié)點給予犯錯節(jié)點更重的懲罰,而安全性低的節(jié)點給予相對較輕的懲罰。
實驗設(shè)置了400個被訪問節(jié)點,以及400個訪問節(jié)點。其中訪問節(jié)點等分為三類,OD型、DN型和FD型,OD型和DN型的含義和實驗一相同,分別代表偶爾犯錯的節(jié)點和永不合作的節(jié)點,F(xiàn)D(frequently dishonest)型代表常常犯錯的故技重施型節(jié)點;被訪問節(jié)點嚴格遵守懲罰策略。讓訪問節(jié)點對被訪問節(jié)點進行隨機訪問,動態(tài)地調(diào)整被訪問節(jié)點的懲罰因子k,觀察三類訪問節(jié)點十次訪問后每次訪問的平均收益。
實驗設(shè)定OD節(jié)點的犯錯幾率為0.05,F(xiàn)D型的犯錯幾率為0.3,訪問節(jié)點的初始信任度隨機分布在0.6到0.95之間,收益矩陣和實驗一相同,實驗結(jié)果如圖5所示。
圖5 不同懲罰因子下各類節(jié)點的收益
從實驗結(jié)果我們可以看出,隨著懲罰因子的減小,對同樣的不合作行為懲罰力度也隨之減小,于是對三類存在不合作行為的節(jié)點,收益都隨懲罰因子減小而增大。特別注意到,對OD型節(jié)點,在懲罰因子小于0.6時,收益增幅不明顯,這是因為當信任度p∈[k,1)時,懲罰期T=1,而偶爾犯錯的OD型節(jié)點在多數(shù)時候信任度都大于0.6,所以當懲罰因子小于0.6時,懲罰期恒為1,所以收益未隨懲罰因子的繼續(xù)減小而明顯增大。
實驗二驗證了模型的主觀性,節(jié)點可以根據(jù)自身的安全性調(diào)整自己的懲罰因子,從而實現(xiàn)對相同的不合作行為給予不同力度的懲罰,當懲罰因子k越小,懲罰力度就越小,實驗驗證了此時不合作節(jié)點得到相對較高的收益,當懲罰因子k越大,懲罰力度就越大,實驗驗證了此時不合作節(jié)點得到相對較低的收益。
P2P網(wǎng)絡是一種動態(tài)的、自組織的、分布式的開放網(wǎng)絡環(huán)境,信任問題在P2P系統(tǒng)中扮演了越來越關(guān)鍵的角色,而懲罰機制的設(shè)計又是P2P信任問題的關(guān)鍵所在。本文設(shè)計了一種基于重復博弈的懲罰模型,創(chuàng)新點在于:在博弈論的分析框架之下,引入了基于信任度的懲罰策略并創(chuàng)造性地設(shè)計了懲罰度轉(zhuǎn)換函數(shù),使得在單次博弈中無法實現(xiàn)的信任和合作在重復博弈中得以實現(xiàn)。該懲罰機制具有良好的威懾性、容錯性、主觀性和區(qū)分性,并通過模擬實驗證明了其可行性和有效性。由于條件的限制,現(xiàn)階段我們只是進行了仿真實驗,并沒有在大規(guī)模的P2P環(huán)境中進行應用,我們下一步的工作也將著力于把模型推廣到實際的應用中。
[1] Chin S H. On application of game theory for understanding trust in networks[C]// International Symposium on Collaborative Technologies and Systems. 2009:106-110.
[2] Li Yong-feng, Si Chunl-in. Game analysis on the trust in the cooperation innovation[J].Journal of Hunan University Natural Sciences, 2008,35(3):84-87.
[3] 張杰,張景安.一種引入懲罰機制的網(wǎng)絡信任評價研究[J].Software,2013,34(7):72-74.
[4] 汪克文,謝福鼎,張永.基于懲罰機制的P2P電子商務模型[J].計算機工程,2010,36(12):265-268.
[5] 聞英友, 趙博, 趙宏. 基于博弈理論的移動自組網(wǎng)激勵機制研究[J].通信學報, 2014,35(4):44-52.
[6] 郭晶晶,馬建峰,李琦. 基于博弈論的移動自組織網(wǎng)絡的信任管理方法[J].通信學報, 2014. 35(11):50-58.
[7] 李虎陽,羅旭,常永虎. 基于可信度的多次重復博弈研究[J].重慶工商大學學報(自然科學版),2016.2:70-72.
[8] Shen Y, Yan Z, Kantola R. Game Theoretical Analysis of the Acceptance of Global Trust Management for Unwanted Traffic Control[C]// IEEE, International Conference on High PERFORMANCE Computing and Communications & 2013 IEEE International Conference on Embedded and Ubiquitous Computing. IEEE, 2013:935-942.
[9] Murakami S, Inuzuka N, Yamaguchi M, et al. Analysing the development of cooperation in MANETs using evolutionary game theory[J]. The Journal of Supercomputing, 2013, 63(3):854-870.
[10] Li Z, Shen H. Game-theoretic analysis of cooperation incentive strategies in mobile ad hoc networks[J]. Mobile Computing, IEEE Transactions, 2012, 11(8):1287-1303.
[11] 王保玉,高承實,戴青 P2P電子商務中信任評價模型研究[J].計算機應用與軟件,2013,30(12):113-116.
[12] 劉進軍. 基于懲罰的SVM和集成學習的非平衡數(shù)據(jù)分類算法研究[J].計算機應用與軟件, 2014,31(1):186-190.
RESEARCH ON PUNISHMENT MECHANISM IN P2P TRUST SYSTEM BASED ON REPEATED GAME
Yang Xianwei Zhan Xueqiu
(WuxiInstituteofTechnology,Wuxi214121,Jiangsu,China)
P2P network is a dynamic, self-organized, distributed open network environment. Trust plays an increasingly important role in P2P systems, and the design of penalty mechanism is the key of P2P trust. This paper designs a penalty model based on repeated games. The innovation is that: in the framework of the game theory analysis, the introduction of the punishment strategy based on the degree of Trust and creatively designed a penalty conversion function, so that trust and cooperation can not be achieved in a single game can be achieved in the repeated game. The penalty mechanism has a good deterrence, fault tolerance, subjectivity and differentiation. The simulation experiment proves its feasibility and effectiveness.
Punishment mechanism P2P Trust Game theory Repeated game Trustworthiness
2016-05-16。國家自然科學基金資助項目(11471144)。楊先偉,講師,主研領(lǐng)域:密碼學及通信與系統(tǒng)工程。戰(zhàn)學秋,教授。
TP311.1
A
10.3969/j.issn.1000-386x.2017.06.058