孫 杰,陳 敏,焦玉全
(1.南京郵電大學 計算機技術、軟件工程、空間安全學院,江蘇 南京 210003;2.南京郵電大學,江蘇 南京 210003)
隨著通信基礎設施和網(wǎng)絡信息技術的迅速發(fā)展,依托于網(wǎng)絡環(huán)境的眾包[1]研究也在逐步深入?;ヂ?lián)網(wǎng)具備的覆蓋面廣、無地域限制等優(yōu)勢,也使得過去只能面向專業(yè)機構的外包可以通過互聯(lián)網(wǎng)擴展到全社會,國內外眾多網(wǎng)絡化眾包服務市場日趨完善。
大量的志愿者得益于眾包提供的工作模式,獲得了不小的報酬。但是,在這一過程中,有些志愿者并沒有認真地完成任務,為了騙取傭金,使利益最大化,往往會提供虛假數(shù)據(jù)[2],導致眾包任務結果準確度不高。針對這一問題,現(xiàn)有的解決方式多為采用基于黃金標準數(shù)據(jù)策略[3-4]的研究方法,在任務開始之前,對工作者的工作能力進行檢測評估,篩選出符合要求的工作者來完成任務。但是這種方式局限性比較大,對于惡意工作者[5-7]的預防效果比較低,最終所得結果準確度不高,無法滿足雇主的需求。
該文提出一種新的方法,在考慮眾包工作者歷史信譽度的基礎上,對部分任務結果采用投票一致性策略[8-9]進行分析,然后將二者結合于貝葉斯模型[10-12],推算出工作者在此次任務中提交任務結果的驗后準確度。下面分別對信任模型構建、計算過程、具體實施流程以及實驗結果進行介紹。
該文提出貝葉斯信任模型(Bayesian trust model,BTM),主要將工作者歷史信譽信息[13]和此次任務結果結合于貝葉斯算法來分析,提高對眾包任務結果質量判別的準確度。貝葉斯信任模型的流程圖如圖1所示。
圖1 貝葉斯信任模型流程圖
模型構建主要分為三步:
首先,評估工作者的歷史信譽度。眾包工作者的工作態(tài)度無法直接通過觀察來了解,但是,雇主可以通過分析每次任務審核方(例如教育眾包平臺[14])的反饋信息來分析該名眾包工作者的歷史任務完成滿意度,得出該名工作者對待任務的態(tài)度,即眾包工作者的可靠性。因為工作者的工作狀態(tài)往往在某一段時間內比較穩(wěn)定,所以模型中選取眾包工作者最近完成的k次任務結果準確度來計算工作者的歷史信譽值。
其次,分析此次任務結果。眾包工作者在提交任務結果之后,雇主對任務結果進行預處理,然后隨機選取其中部分任務結果,采用投票一致性規(guī)則對選取的任務結果進行檢測分析,得出工作者精度的條件概率分布。
最后,在求得工作者精度的驗前分布和條件概率分布之后,將二者結合于貝葉斯算法模型,得出工作者本次任務中的工作精度。
工作者工作精度a,表示工作者完成任務的準確度。a的驗前分布g(am),m=(1,2,…,m),表示工作者總數(shù)為m。此處,采用貝塔分布來計算眾包工作者工作精度的驗前分布。
貝塔分布的概率密度函數(shù)為:
(1)
其中,α、β分別為貝塔分布的兩個參數(shù),Γ為伽馬函數(shù),其中:
(2)
Γ(α+β)=αΓ(α),α>0
(3)
當α為正整數(shù)時:
Γ(n)=(n-1)!
(4)
貝塔分布的均值為:
(5)
方差為:
(6)
因為眾包工作者的工作狀態(tài)大多在某段時間內相似,所以,在算法中取眾包工作者最近完成的k次任務結果精度來計算工作者歷史信譽值,任務完成精度用a=(a1,a2,…,ak)表示,由此可得:
(7)
(8)
通過式(7)和式(8),可以得到α和β的值分別為:
(9)
(10)
求得α和β的值以后,即可以求得眾包工作者工作精度的驗前分布。
以往,雇主在發(fā)放眾包任務之前,會先提供一些黃金標準數(shù)據(jù)任務來讓眾包工作者完成(任務結果已知),通過眾包工作者在黃金標準數(shù)據(jù)任務中的表現(xiàn)來評估工作者的業(yè)務能力,達到篩選可靠眾包工作者的目的。但是,這種篩選方法存在局限性,有些不良工作者為了達到接任務的目的,在做黃金測評時很認真,甚至,有些能力不足的工作者會通過其他手段來通過測評。但是,一旦接到眾包任務,在接下來的任務完成過程中會出現(xiàn)對待任務態(tài)度消極的現(xiàn)象,更有甚者會出現(xiàn)惡意搗亂,草草了事等情況,這些情況會導致工作者提交的任務結果不準確,無法滿足雇主的要求。所以,針對這一情況,對以往在任務開始之前對工作者進行黃金標準數(shù)據(jù)測評的方法進行改良,改為在工作者提交任務結果之后,抽取部分任務結果來檢查,評估所抽取任務結果的準確度。對于抽檢部分,采用投票一致性規(guī)則來進行檢測分析。由于完成一個任務或者回答一個問題并不能完全體現(xiàn)工作者的工作精度,對眾包工作者工作情況的判斷存在局限性,所以在文章中,將多個任務分給多名工作者來完成,然后通過投票一致性策略來聚合所有的投票結果,達到更加精確地計算工作者的工作精度的目的。
具體過程如下:
假設將n份任務發(fā)放給m名工作者去完成(m,n均已知),工作者提交的任務結果用Rn,m=(r1,1,r1,2,…,r1,m;r2,1,r2,2,…,r2,m;…;rn,1,rn,2,…,rn,m)表示,其中n表示問題數(shù)量,m表示眾包工作者數(shù)量,r1,1,r1,2,…,r1,m表示所有眾包工作者提交第一個問題的答案。
根據(jù)眾包工作者提交的任務結果,可以得到所有問題結果的一致性數(shù)據(jù)為:
(11)
式(11)表示m名工作者提交第n個問題結果的均值,即工作者提交第n個問題結果的一致性數(shù)據(jù)。
m=(1,2,…,m),n=(1,2,…,n)
(12)
由式(12)已知可得,每位工作者提供任務結果的準確度為:
(13)
由式(1)和式(13)可以求得條件概率為:
m=(1,2,…,m)
(14)
其中,0<τ<1是預置參數(shù)。g(am)表示參與任務的m名工作者信譽度,即根據(jù)歷史行為數(shù)據(jù)所求出的綜合信譽度信息。
求得工作者精度的驗前分布和條件概率之后,由貝葉斯公式可得,工作者精度驗后分布為:
(15)
在求得工作者精度的驗后分布之后,雇主可以根據(jù)自己對任務準確度的需求,設定閾值,篩選出工作者精度符合要求的工作者提交的任務結果數(shù)據(jù)。
為驗證介紹的信任模型數(shù)據(jù)分析結果的準確度,選用Dog and Cat Recognition(DCR)數(shù)據(jù)集[15]和Comment Sense Question(CSQ)數(shù)據(jù)集[16]進行仿真實驗。兩種數(shù)據(jù)集都是二元類問題數(shù)據(jù)集,問題答案均為是或否。并將實驗結果與黃金標準數(shù)據(jù)策略檢測方法(簡稱Gold方法)作對比。
實驗采用的編程語言為Matlab,采用的編輯工具為Matlab R2017(a)。
實驗中選擇數(shù)據(jù)集前20%的問題答案作為評估數(shù)據(jù)來獲得工作者精度驗前分布參數(shù)(α、β)。DCR數(shù)據(jù)集中共包含300名工作者提供的1 000張圖片答案,選擇前200張圖片答案,分為10組,每組20張圖片答案,表示眾包工作者前10次工作完成準確度。CSQ數(shù)據(jù)集中包含164名工作者提交的164個問題答案,選擇前80個問題答案,分為10組,每組8個問題答案,表示工作者前10次工作完成的準確度。
在數(shù)據(jù)集剩下的80%數(shù)據(jù)中,選擇20%作為抽檢數(shù)據(jù),對工作者的當前表現(xiàn)情況進行評估,剩下的60%數(shù)據(jù)作為正式任務評估該方法的有效性。另外,兩個數(shù)據(jù)集中所有問題的答案均為已知。
對于ω的確定:因為問題的結果都已轉化為二元類問題答案,所以根據(jù)投票一致性規(guī)則,在式(12)中,r的均值肯定接近0或者接近1,最不可能出現(xiàn)的情況為0.5,所以選擇0.5作為閾值,在此處應為最佳,式(14)中,τ=0.1。
在實際任務中,雇主對任務精度的需求各不相同。有的雇主對任務精度的需求比較低,例如為70%,只要工作者提交的任務結果準確度達到70%就可以被采納使用。但是有的雇主對任務結果的精度要求比較高,例如為90%,他們的任務比較特殊,任務精度越高越好,只有達到90%才可以滿足需要。因此,分別計算出基于信任模型的魯棒眾包數(shù)據(jù)分析方法(簡稱Trust方法)和黃金標準數(shù)據(jù)策略(簡稱Gold方法)在不同精度需求時候篩選出的人數(shù),如圖2和圖3所示。
圖2 DCR數(shù)據(jù)集中兩種方法篩選的工作者與實際合格工作者數(shù)量的比較
圖3 CSQ數(shù)據(jù)集中兩種方法篩選的工作者與實際合格工作者數(shù)量的比較
通過分析兩種方法在不同數(shù)據(jù)集中的實際效果,可以發(fā)現(xiàn),選用Trust方法篩選的工作者數(shù)量比使用Gold方法篩選的工作者數(shù)量更多,更接近于數(shù)據(jù)集中實際合格的人數(shù),并且,雇主需求的精度越高,使用Trust方法篩選出的工作者數(shù)量越接近實際工作者數(shù)量。
圖4和圖5中將給出兩種方法所選人數(shù)的準確度信息。
圖4 CSQ數(shù)據(jù)集中兩種方法選擇的工作者數(shù)量和實際合格數(shù)量的比較
圖5 DCR數(shù)據(jù)集中兩種方法選擇的工作者數(shù)量和實際合格數(shù)量的比較
通過圖4和圖5可以發(fā)現(xiàn),使用Trust方法篩選出實際合格工作者數(shù)量高于使用Gold方法篩選出的實際合格工作者數(shù)量,且篩選結果準確度更高。為了更好地展示實驗效果,表1和表2中詳細列舉了在不同數(shù)據(jù)集中使用兩種方法篩選出的工作者準確度情況。
表1 DCR數(shù)據(jù)集中兩種方法實驗結果比較
表2 CSQ數(shù)據(jù)集中兩種方法實驗結果比較
如表1和表2所示,可以直觀地發(fā)現(xiàn),使用Trust方法對眾包數(shù)據(jù)結果進行分析篩選出的結果要比使用Gold方法篩選出的結果更好,篩選的合格工作者數(shù)量更多,質量更高。使用Trust方法篩選出工作者提供的數(shù)據(jù)魯棒性要高于使用Gold方法篩選出工作者提供的數(shù)據(jù)。
主要討論了眾包數(shù)據(jù)分析方法,針對現(xiàn)有數(shù)據(jù)分析方法存在的不足,提出了基于信任模型的魯棒眾包數(shù)據(jù)分析方法,將工作者歷史信譽信息和此次任務結果數(shù)據(jù)結合于貝葉斯信任模型,提高了數(shù)據(jù)數(shù)據(jù)篩選的準確性。對于眾包行業(yè)的穩(wěn)定發(fā)展有十分長遠的意義。