黃志華 張振宇 龔金輝 黃曉輝
1新疆大學(xué)信息科學(xué)與工程學(xué)院 新疆 830046
2上海交通大學(xué)電子工程系 上海 200240
Peer-to-Peer(P2P)文件共享系統(tǒng)是目前最為流行的內(nèi)容分發(fā)方式,具有結(jié)構(gòu)簡(jiǎn)單,擴(kuò)展性好的特點(diǎn),但由于缺乏中心管理機(jī)構(gòu)和安全機(jī)制,P2P用戶行為及其共享的內(nèi)容缺乏監(jiān)管。為了保護(hù)版權(quán),一些污染公司(如Overpeer,Retspan等)向P2P網(wǎng)絡(luò)中注入污染內(nèi)容保護(hù)版權(quán)文件,使得P2P面臨嚴(yán)重的內(nèi)容安全威脅。文獻(xiàn)[1]顯示在kazaa網(wǎng)絡(luò)中80%的流行文件副本受到內(nèi)容或元數(shù)據(jù)污染,同樣在overnet和FastTrack上也有50%-90%不等的流行文件被污染。文件污染不僅浪費(fèi)了有限的網(wǎng)絡(luò)帶寬資源,還會(huì)降低用戶下載內(nèi)容的質(zhì)量,打擊用戶使用文件共享系統(tǒng)的積極性。本文從網(wǎng)絡(luò)安全的角度討論P(yáng)2P文件共享系統(tǒng)的污染及防御。
目前P2P文件污染研究主要集中在三個(gè)方向:文件污染策略分析,文件污染建模,文件污染防御。本文對(duì)三個(gè)方向的研究現(xiàn)狀進(jìn)行總結(jié),并分析每個(gè)研究方向面臨的問題。
P2P中的文件污染問題首先由Liang等提出,此后引起了學(xué)術(shù)界的廣泛研究。目前常用的文件污染策略有內(nèi)容污染,元數(shù)據(jù)污染和索引污染。
內(nèi)容污染的目標(biāo)是使網(wǎng)絡(luò)中傳播的文件內(nèi)容不可用,通過(guò)在污染目標(biāo)中增加白噪聲,略去一些內(nèi)容或用一些新內(nèi)容取代部分或全部目標(biāo)內(nèi)容的方式降低目標(biāo)文件質(zhì)量。內(nèi)容污染分為版本污染和副本污染。
元數(shù)據(jù)是用來(lái)描述共享內(nèi)容信息的數(shù)據(jù),一個(gè)共享文件的元數(shù)據(jù)通常包括文件名,文件大小和文件描述(標(biāo)題,演唱者,專輯名,關(guān)鍵詞),文件描述用來(lái)匹配用戶的查找請(qǐng)求。
元數(shù)據(jù)污染破壞文件的元數(shù)據(jù)而不是文件內(nèi)容,將一個(gè)文件的元數(shù)據(jù)用其他與文件不相關(guān)的元數(shù)據(jù)代替,例如,用與文件內(nèi)容無(wú)關(guān)的關(guān)鍵詞描述文件,使用戶無(wú)法根據(jù)關(guān)鍵詞找到期望的文件。元數(shù)據(jù)污染使用戶花費(fèi)下載時(shí)間和帶寬卻得到錯(cuò)誤的文件,增加了無(wú)效的網(wǎng)絡(luò)流量。
在P2P文件共享系統(tǒng)中,用戶通過(guò)關(guān)鍵詞查找下載內(nèi)容,分布式索引結(jié)構(gòu)可提供快速查找。索引信息包括版本標(biāo)識(shí),文件提供者位置以及文件關(guān)鍵詞標(biāo)識(shí)。版本標(biāo)識(shí)通過(guò)對(duì)共享內(nèi)容進(jìn)行哈希計(jì)算而獲得,關(guān)鍵詞標(biāo)識(shí)通過(guò)對(duì)每個(gè)關(guān)鍵詞哈希而獲得。當(dāng)用戶提交查詢請(qǐng)求時(shí),系統(tǒng)對(duì)提交的關(guān)鍵字進(jìn)行哈希,并在索引結(jié)構(gòu)中找到匹配的關(guān)鍵詞標(biāo)識(shí)及相應(yīng)的文件版本標(biāo)識(shí)及文件所在位置。
索引污染直接攻擊P2P網(wǎng)絡(luò)的索引記錄。由于存儲(chǔ)索引信息的節(jié)點(diǎn)很少驗(yàn)證索引信息的真實(shí)性,攻擊者可以在索引表中插入大量虛假記錄,這些記錄使用戶無(wú)法找到目標(biāo)文件。索引污染的代價(jià)小,但污染效果驚人,它通常導(dǎo)致用戶經(jīng)過(guò)漫長(zhǎng)的等待卻毫無(wú)收獲。雖然不增加流量,但會(huì)降低用戶使用系統(tǒng)的信心。
由于 P2P網(wǎng)絡(luò)規(guī)模龐大,文件污染的研究很難在實(shí)際P2P網(wǎng)絡(luò)中進(jìn)行,建模是污染傳播研究的重要方法。目前的污染模型主要有兩種:流行病學(xué)模型和用戶行為模型。流行病學(xué)模型通過(guò)狀態(tài)轉(zhuǎn)移分析污染文件數(shù)量的變化,而用戶行為模型側(cè)重分析用戶行為對(duì)污染傳播的影響。
流行病學(xué)模型在生物學(xué)中用來(lái)建模疾病在一個(gè)種群中的傳播,Thommes第一次將流行病學(xué)模型(又稱為SIR模型)引入到P2P污染建模中,并通過(guò)對(duì)eDonkey的測(cè)量獲得模型參數(shù)的參考值,研究發(fā)現(xiàn)在不考慮用戶行為多樣性的條件下,污染文件投放的初始數(shù)量是影響用戶感染率的關(guān)鍵因素。該模型將所有用戶分為三種狀態(tài):敏感態(tài)(susceptible),感染態(tài)(infected),恢復(fù)態(tài)(recovered)。并用一組方程描述每個(gè)狀態(tài)節(jié)點(diǎn)數(shù)量的變化規(guī)律。所有用戶在三種狀態(tài)之間轉(zhuǎn)換,轉(zhuǎn)換條件如圖1所示。
圖1 流行病學(xué)模型
文獻(xiàn)[6]用流行病模型研究了 eDonkey系統(tǒng)中的文件分發(fā)及污染對(duì)分發(fā)的影響,并討論了用戶的自私行為對(duì)文件分發(fā)的影響。文獻(xiàn)[7]在流行病學(xué)模型中考慮了服務(wù)提供者聲譽(yù)和用戶選擇策略對(duì)污染傳播的作用,發(fā)現(xiàn)節(jié)點(diǎn)的上傳和下載容量、用戶加入和離開及選擇服務(wù)提供者的策略都會(huì)對(duì)污染傳播產(chǎn)生影響。文獻(xiàn)[8]研究了文件流行度,文件共享比和用戶對(duì)污染的認(rèn)知度對(duì)污染傳播的影響。
流行病模型通常假設(shè)所有用戶的行為是同構(gòu)的,獲得的下載性能也相同,即用戶下載污染文件的概率與用戶本身的行為無(wú)關(guān),只與污染文件的數(shù)量有關(guān)。但實(shí)際的P2P網(wǎng)絡(luò)中,為了提高服務(wù)的公平性,常常采用激勵(lì)機(jī)制為不同的用戶提供分化服務(wù)(例如BiTtorrent中的tit-for-tat策略),當(dāng)用戶行為不同時(shí),下載污染的概率是不相同的。所以,假設(shè)用戶行為同構(gòu)(即所有用戶下載污染的概率相同)并不符合實(shí)際的網(wǎng)絡(luò)用戶行為,無(wú)法體現(xiàn)P2P網(wǎng)絡(luò)服務(wù)的公平性,基于同構(gòu)用戶行為的污染模型并不能準(zhǔn)確反映出實(shí)際網(wǎng)絡(luò)的污染傳播規(guī)律,更加精確的污染模型有待進(jìn)一步研究。
由于P2P網(wǎng)絡(luò)中的每個(gè)用戶既是服務(wù)消費(fèi)者又是服務(wù)提供者,用戶行為對(duì)P2P系統(tǒng)的性能有關(guān)鍵作用。從用戶行為的角度建模污染傳播,能更好地反映用戶行為的動(dòng)態(tài),多樣的特征。
Dumitriu等發(fā)現(xiàn)內(nèi)容污染的有效性依賴用戶行為,在合作的用戶環(huán)境中,污染很難得逞,而當(dāng)用戶不愿共享、不刪除污染文件和在收到污染文件后很快放棄下載都會(huì)有利于污染的傳播。Lee等通過(guò)實(shí)驗(yàn)測(cè)量了真實(shí)用戶對(duì)污染文件的感知度并將結(jié)果應(yīng)用到提出的分析模型,發(fā)現(xiàn)用戶感知文件污染是影響污染動(dòng)態(tài)性的關(guān)鍵因素。Kumar等提出用非線性微分方程建立污染模型,研究用戶對(duì)流行版本的偏好、重下載的概率及自私行為對(duì)污染傳播的影響。
以上研究表明,用戶行為對(duì)污染傳播有關(guān)鍵作用,但目前基于用戶行為的污染模型同樣不夠精確,沒有考慮用戶行為的異構(gòu)性,無(wú)法描述不同行為的用戶在采用分化服務(wù)的P2P網(wǎng)絡(luò)中可以獲得完全不同下載性能的特征。另外,在采用激勵(lì)機(jī)制的P2P網(wǎng)絡(luò)中,下載性能會(huì)隨著用戶行為的改變而變化,目前的模型主要針對(duì)一個(gè)主題的下載而建立,無(wú)法描述下載性能的變化規(guī)律。
以上模型都是針對(duì)一種污染策略建模,文獻(xiàn)[11]提出一個(gè)統(tǒng)一模型,研究在同一個(gè)網(wǎng)絡(luò)同時(shí)施加內(nèi)容污染和索引污染時(shí)兩種策略的相互影響。研究發(fā)現(xiàn)作為影響用戶選擇的兩個(gè)因素,兩種污染方式能相互抑制,索引污染會(huì)降低內(nèi)容污染攻擊的影響力,這說(shuō)明單獨(dú)對(duì)某一種污染方式建模是不夠的,應(yīng)該在模型中考慮不同污染的相互影響。
由于P2P網(wǎng)絡(luò)中沒有可信的第三方,P2P用戶無(wú)法通過(guò)傳統(tǒng)的第三方權(quán)威驗(yàn)證的方法驗(yàn)證內(nèi)容或交易方的可信度。目前的污染防御研究主要針對(duì)內(nèi)容污染和索引污染展開。
聲譽(yù)系統(tǒng)記錄每個(gè)節(jié)點(diǎn)的交易歷史,并用聲譽(yù)表示其他節(jié)點(diǎn)對(duì)該節(jié)點(diǎn)的綜合評(píng)價(jià)。聲譽(yù)是所有第三方節(jié)點(diǎn)推薦及其推薦可靠性的聚合,高聲譽(yù)節(jié)點(diǎn)提供的服務(wù)更可靠。由于P2P規(guī)模龐大,節(jié)點(diǎn)自己的交易經(jīng)驗(yàn)有限,聲譽(yù)是判斷陌生節(jié)點(diǎn)可靠性的重要方法。
現(xiàn)有的聲譽(yù)機(jī)制分為節(jié)點(diǎn)聲譽(yù),對(duì)象聲譽(yù)和混合聲譽(yù)。文獻(xiàn)[13]分析了聲譽(yù)系統(tǒng)的設(shè)計(jì)要求并比較了主要的聲譽(yù)建立機(jī)制。
節(jié)點(diǎn)聲譽(yù)根據(jù)節(jié)點(diǎn)之間的歷史交易為每個(gè)節(jié)點(diǎn)計(jì)算一個(gè)客觀或主觀的聲譽(yù)值,服務(wù)請(qǐng)求節(jié)點(diǎn)根據(jù)聲譽(yù)值選擇服務(wù)提供者。EigenTrust和Scrubber及XRep等都屬于節(jié)點(diǎn)聲譽(yù)機(jī)制。對(duì)象聲譽(yù)是指根據(jù)節(jié)點(diǎn)對(duì)下載文件的評(píng)價(jià)為每個(gè)文件建立聲譽(yù),并根據(jù)評(píng)價(jià)的相似度或評(píng)價(jià)者與評(píng)價(jià)收集者的相關(guān)性來(lái)估計(jì)評(píng)價(jià)的可靠性。Credence是最著名的對(duì)象聲譽(yù)系統(tǒng)。對(duì)象聲譽(yù)和節(jié)點(diǎn)聲譽(yù)有各自的優(yōu)缺點(diǎn),Costa等將對(duì)象聲譽(yù)與節(jié)點(diǎn)聲譽(yù)相結(jié)合,獲得快速收斂和識(shí)別污染的能力。
P2P聲譽(yù)機(jī)制自提出以來(lái)得到廣泛的研究,但真正應(yīng)用到實(shí)際 P2P網(wǎng)絡(luò)中發(fā)揮作用的聲譽(yù)系統(tǒng)卻很少,目前只有Credence真正實(shí)現(xiàn)并有試驗(yàn)評(píng)估。由于聲譽(yù)的主要目的在于防止用戶的自私和惡意行為,我們分析聲譽(yù)機(jī)制無(wú)法得到應(yīng)用的原因主要有以下幾點(diǎn):
(1) 聲譽(yù)模型對(duì)于用戶行為的假設(shè)過(guò)于理想化。比如,多數(shù)聲譽(yù)系統(tǒng)假設(shè)用戶愿意合作共享經(jīng)驗(yàn)和提供反饋,但Kazaa中只有1%左右的用戶提供了評(píng)價(jià);Eigentrust假設(shè)P2P網(wǎng)絡(luò)中有預(yù)先可信任的節(jié)點(diǎn),Costa假設(shè)評(píng)價(jià)者對(duì)內(nèi)容或節(jié)點(diǎn)的評(píng)價(jià)都是誠(chéng)實(shí)的。這些假設(shè)在P2P網(wǎng)絡(luò)中是不現(xiàn)實(shí)的。
(2) 聲譽(yù)機(jī)制實(shí)現(xiàn)的復(fù)雜度太高,文獻(xiàn)[17]研究了可靠性與聲譽(yù)成本的折衷,發(fā)現(xiàn)高可靠性的聲譽(yù)需要中心節(jié)點(diǎn)管理聲譽(yù),面臨擴(kuò)展性和下載瓶頸的問題,而分布式管理則需要犧牲部分可靠性。
(3) 聲譽(yù)系統(tǒng)通常假設(shè)節(jié)點(diǎn)之間會(huì)有重復(fù)交易,并能以此建立可靠的直接信任關(guān)系,但 Piatek等測(cè)量了 1000個(gè)bittorrent蜂群發(fā)現(xiàn)節(jié)點(diǎn)之間的重復(fù)交易率非常低,不到 1%的用戶交易次數(shù)超過(guò) 1,這說(shuō)明用于計(jì)算聲譽(yù)的用戶評(píng)價(jià)和推薦大部分基于單次交易,與聲譽(yù)系統(tǒng)的假設(shè)不符。
(4) 聲譽(yù)系統(tǒng)自身也面臨安全問題,文獻(xiàn)總結(jié)了針對(duì)聲譽(yù)系統(tǒng)的攻擊及防御策略,包括女巫攻擊,刷白攻擊,誹謗攻擊等。這說(shuō)明聲譽(yù)系統(tǒng)雖然能降低污染風(fēng)險(xiǎn),但會(huì)帶來(lái)新的安全問題。
為了使聲譽(yù)系統(tǒng)能應(yīng)用到實(shí)際網(wǎng)絡(luò)中,我們認(rèn)為,建立貼近現(xiàn)實(shí)網(wǎng)絡(luò)的模型是必要的。由于 P2P網(wǎng)絡(luò)由用戶行為驅(qū)動(dòng),詳細(xì)研究 P2P網(wǎng)絡(luò)用戶行為的特征及建模是必要的。
信任是施信方對(duì)受信方在給定環(huán)境和時(shí)間內(nèi)提供滿意服務(wù)的意愿和能力的信仰。信任是主觀的、私人的,同時(shí)也是動(dòng)態(tài)的、不對(duì)稱的關(guān)系。信任的建立方法有很多,上節(jié)的聲譽(yù)也是建立信任的一種方法,但除了聲譽(yù),節(jié)點(diǎn)之間還可以通過(guò)其他方式建立信任。文獻(xiàn)[21-22]提出利用交易節(jié)點(diǎn)間的信用來(lái)建立信任,上傳使信用增加,下載使信用減少,當(dāng)A從B的下載多于A給B的上傳量時(shí),B對(duì)A的信用減少為0,B將不再為A提供服務(wù),但A可以為B提供服務(wù)還債使信用恢復(fù)。
文獻(xiàn)[23]總結(jié)了主要的信任模型,將現(xiàn)有模型按照計(jì)算方法分為模糊邏輯、生物啟發(fā),解析表達(dá)和貝葉斯網(wǎng)絡(luò)四類。模糊邏輯可以用接近人類認(rèn)知的方式表達(dá)信任,聲譽(yù)和推薦,但受到條件概率的限制;生物啟發(fā)機(jī)制對(duì)動(dòng)態(tài)網(wǎng)絡(luò)有高的適應(yīng)性和可擴(kuò)展性,但容易錯(cuò)判,可能使節(jié)點(diǎn)選擇一個(gè)惡意節(jié)點(diǎn)作為最信任的節(jié)點(diǎn)而放棄好節(jié)點(diǎn);用解析式表示信任易于理解,但不能考慮所有可能的因素;貝葉斯網(wǎng)絡(luò)表達(dá)多方面信任,但是當(dāng)變量之間不是相互獨(dú)立時(shí),計(jì)算復(fù)雜太高。信任模型與聲譽(yù)模型一樣面臨諸多挑戰(zhàn),用戶行為的不確定性、網(wǎng)絡(luò)的動(dòng)態(tài)變化性以用戶身份的匿名性都給信任研究帶來(lái)了新的挑戰(zhàn)。
Liang等提出用黑名單方法找到包含污染者的IP地址范圍,不需要下載和分析文件內(nèi)容,可以降低帶寬壓力,但需要使用爬蟲工具收集P2P網(wǎng)絡(luò)的元數(shù)據(jù),需要中心架構(gòu)分析數(shù)據(jù),受到costa提出的擴(kuò)展性,容錯(cuò)性和安全問題的挑戰(zhàn)。關(guān)于索引污染防御,文獻(xiàn)提出用建立多個(gè)索引擁有者的冗余機(jī)制防止索引污染,文獻(xiàn)[27]提出通過(guò)用戶合作過(guò)濾索引,防御DHT結(jié)構(gòu)P2P中的污染。文獻(xiàn)[28]根據(jù)文件的平均保留時(shí)間檢測(cè)虛假文件。
本文對(duì)P2P文件共享系統(tǒng)中的文件污染進(jìn)行研究,總結(jié)P2P文件污染研究的發(fā)展方向及現(xiàn)狀,并分析了每個(gè)研究方向面臨的問題。內(nèi)容安全是P2P文件共享系統(tǒng)生存的基礎(chǔ),在P2P流量占據(jù)60%以上網(wǎng)絡(luò)流量的今天,P2P文件污染研究具有重要意義。我們下一步工作將重點(diǎn)研究P2P用戶行為的特征,探索污染防御的新方法。
[1]J. Liang, R. Kumar, Y.J. Xi, K.W. Ross, Pollution in P2P file sharing systems [C]. Proc. of IEEE Infocom 2005.
[2]J. Liang, N. Naoumov, K.W. Ross, The index poisoning attack in P2P file sharing systems [C]. Ieee Infocom Ser. 2006.
[3]U. Lee, M. Choi, J. Cho, M.Y. Sanadidi, M. Gerla, Understanding pollution dynamics in p2p file sharing [J]. UCLA CSD Techical Report. 2005.
[4]N. Christin, A.S. Weigend, J. Chuang, Content availability, pollution and poisoning in file sharing peer-to-peer networks [C]. ACM E-Commerce Conference. 2005.
[5]R. Thommes, M. Coates, Epidemiological models of peer-topeer viruses and pollution [C]. Proc. of IEEE Infocom. 2006.
[6]K. Leibnitz, T. Ho feld, N. Wakamiya, M. Murata, On pollution in eDonkey-like peer-to-peer file-sharing networks [C]. Proc. of GI/ITG MMB. 2006.
[7]Q. Gu, K. Bai, H. Wang, P. Liu, C.H. Chu, Modeling of pollution in p2p file sharing systems [C]. Proc. of IEEE CCNC. 2006.
[8]J.P. Mao, Y.L. Cui, J.H. Huang, J.B. Zhang, Analysis of Pollution Disseminating Mode of P2P Network [C]. Proc. of International Symposium on Intelligent Information Technology Application. 2008.
[9]E.K. D.Dumitriu , A.Kuzmanovic, I.Stoica and W.Zwaenepoel, Denial-of-service resilience in peer-to-peer file-sharing systems [C]. Proc. of ACM SIGMETRICS. 2005.
[10]R. Kumar, D.D. Yao, A. Bagchi, K.W. Ross, D. Rubenstein, Fluid modeling of pollution proliferation in P2P networks [C]. Proc. of the Joint International Conference on Measurement and Modeling of Computer Systems. 2006.
[11]C. Shi, D.Y. Han, X.Y. Hu, Y. Yu, A unified model of pollution in P2P networks [C]. Ieee International Symposium on Parallel & Distributed Processing. 2008.
[12]E. Chang, T. Dillon, F.K. Hussain, Trust and reputation for service-oriented environments [M]. John Wiley & Sons. 2006.
[13]L. Mekouar, Y. Iraqi, R. Boutaba, Reputation-based trust management in peer-to-peer systems: taxonomy and anatomy [M]. Handbook of Peer-to-Peer Networking. 2010.
[14]K. Walsh, E.G. Sirer, Experience with an object reputation system for peer-to-peer filesharing [C]. USENIX Association. 2006.
[15]C. Costa, J. Almeida, Reputation systems for fighting pollution in peer-to-peer file sharing systems [C]. In: 7th IEEE International Conference on Peer-to-Peer Computing. 2007.
[16]N. Curtis, R. Safavi-Naini, W. Susilo, X^ 2Rep: Enhanced Trust Semantics for the XRep Protocol [J]. Lecture Notes in Computer Science. 3089. 2004.
[17]M. Gupta, M.H. Ammar, M. Ahamad, Trade-offs between reliability and overheads in peer-to-peer reputation tracking [J]. Computer Networks. 50. 2006.
[18]M. Piatek, T. Isdal, A. Krishnamurthy, T. Anderson, One hop reputations for peer to peer file sharing workloads [C]. USENIX Association. 2008.
[19]K. Hoffman, D. Zage, C. Nita-Rotaru, A survey of attack and defense techniques for reputation systems [J]. ACM Computing Surveys (CSUR). 42.2009.
[20]R. Aringhieri, E. Damiani, S.D. Di Vimercati, S. Paraboschi, P. Samarati, Fuzzy techniques for trust and reputation management in anonymous peer-to-peer systems [J]. J.Am. Soc. Inf. Sci. Technol. 57. 2006.
[21]A. Nandi, T.W. Ngan, A. Singh, P. Druschel, D. Wallach, Scrivener: Providing incentives in cooperative content distribution systems [C]. ACM/IFIP/USENIX 6th International Middleware Conference. 2005.
[22]M. Gupta, P. Judge, M. Ammar, A reputation system for peer-to-peer networks[C]. Proc. of the 13th International Workshop on Network and Operating Systems Support for Digital Audio and Video(NOSSDAV). 2003.
[23]F.G. M¨¢rmol, G.M. P¨|rez, State of the Art in Trust and Reputation Models in P2P networks[M]. Handbook of Peer-to-Peer Networking. 2010.
[24]J. Liang, N. Naoumov, K.W. Ross, Efficient blacklisting and pollution-level estimation in P2P file-sharing systems[J]. LNCS, 3837. 2005.
[25]C. Costa, V. Soares, J. Almeida, V. Almeida, Fighting Pollution Dissemination in Peer-to-Peer Networks[J]. Applied Computing, 1.2007.
[26]Z. Cai, R. Chen, J. Feng, C. Tang, Z. Chen, J. Hu, A holistic mechanism against file pollution in peer-to-peer networks [C]. SAC 2009.
[27]K. Shin, D.S. Reeves, Winnowing: Protecting P2P Systems Against Pollution Through Cooperative Index Filtering [J]. J Netw Comput Appl.
[28]Q. Feng, Y. Dai, Lip: A lifetime and popularity based ranking approach to filter out fake files in p2p file sharing systems [C]. Proc. of IPTPS. 2007.