Crowdsourcing worker selection model for software crowdsourcing
JiaJunyu1,2a,2b,Yang Lanxin2a,2b,Zhang Xiaodong3,Xu Jinwei2a,2b,Zhang Juzheng2a,2b,Zhang He 2a ,2bt (1.SchoolfuedfotiolUstfetuetae toryofNelSfareoUesijgina;oogte China)
Abstract:Insoftware crowdsourcing,selecting unsuitable workersoftenleads to task failureandreducedsatisfactionamong task publishers.Toaddress theseissues,this studyproposedasoftwarecrowdsourcing workerselectionmodel thatintegrated workercapabilityand worker-task matching.The modelconsistedof acapabilityassessment model basedonlinear programmingand TOPSIS,and a worker-task matching model based on matching functionlearning.Experiments were conductedon a real-worldcrowdsourcingdatasetcomprising9450tasks,8747workers,and98940bidingrecords.Theresultsdemonstrate thattheproposedmodel significantlyimproves task publishersatisfactionandoutperforms baseline modelsinmetricssuchas top-hAccandMRR.Thisstudyhighlights theefectivenessof integratingcapabilityandmatchabilityfor workerselectionand provides a novel approach to enhancing task allocation mechanisms in software crowdsourcing platforms.
Key words:software crowdsourcing;crowdsourcing worker;selection model;capability assessment;matching model
0 引言
眾包(crowdsourcing)是一種采購企業(yè)外部勞動力完成任務(wù)的策略,已經(jīng)廣泛應(yīng)用于各種領(lǐng)域和任務(wù),如藥物發(fā)明、圖片標(biāo)記和圖標(biāo)設(shè)計等[1]。不同于其他領(lǐng)域眾包任務(wù)具有簡單、重復(fù)、時間短和報酬低等特點2,軟件眾包任務(wù)具有復(fù)雜、創(chuàng)新、時間長和報酬高等特點[3]。這些特點導(dǎo)致只有具備軟件開發(fā)能力的眾包工人才有資質(zhì)和能力完成軟件眾包任務(wù)[4]。為了保證眾包任務(wù)順利進(jìn)行,工人和發(fā)布者通常使用眾包平臺作為流程監(jiān)管和監(jiān)控工具。目前國內(nèi)外存在著多家眾包平臺,如Topcoder、智城和豬八戒等。以Topcoder中的眾包流程為例[5],發(fā)布者在平臺中發(fā)布眾包任務(wù);平臺中的眾包工人競標(biāo)并提交成果;發(fā)布者評估并支付酬勞。上述流程如圖1所示。
軟件眾包在降低開發(fā)成本、提升效率和促進(jìn)創(chuàng)新等方面具有顯著優(yōu)勢[,但由于其任務(wù)復(fù)雜度高、挑戰(zhàn)性大,仍面臨諸多問題。高酬金任務(wù)吸引大量工人競標(biāo),但因平臺注冊門檻低,工人水平參差不齊,且部分工人對自身能力缺乏準(zhǔn)確認(rèn)知,常競標(biāo)超出能力范圍的任務(wù)[7]。這可能導(dǎo)致選用不合適的工人,影響交付質(zhì)量和發(fā)布者滿意度[8]。研究顯示,提高酬金并不總能提升任務(wù)質(zhì)量[9,且軟件眾包任務(wù)的平均失敗率達(dá)15.7%[10] 。選人不當(dāng)不僅降低任務(wù)成功率,還可能引發(fā)發(fā)布者和工人的雙重流失,形成惡性循環(huán)[8]
打破惡性循環(huán)的關(guān)鍵在于確保眾包任務(wù)的質(zhì)量符合發(fā)布者預(yù)期,從而提升其滿意度。眾包工人的能力是影響任務(wù)質(zhì)量的核心因素[1],因此通過評估工人能力,可以有效識別出能力較強(qiáng)的工人。但工人與任務(wù)的匹配程度同樣至關(guān)重要。通常,具備相關(guān)經(jīng)驗和技能的工人在承擔(dān)與其專長相匹配的任務(wù)時,表現(xiàn)更為出色[10.12]。因此,為確保任務(wù)質(zhì)量和提升發(fā)布者滿意度,需要在競標(biāo)者中選出既具備高能力又與任務(wù)高度匹配的工人。目前的研究多集中于非軟件領(lǐng)域的眾包任務(wù)(如圖像標(biāo)記),并主要通過量化工人能力來幫助發(fā)布者作出選擇[13,14]
針對這一問題,本文提出了一種綜合考慮工人能力與任務(wù)匹配度的眾包工人選擇模型。該模型包含眾包工人能力評估模型和眾包工人與任務(wù)匹配模型兩個子模型,整體框架如圖2所示。眾包工人能力評估模型通過基于線性規(guī)劃(linearpro-gramming,LP)的主觀定權(quán)法突出每個工人的優(yōu)勢,并結(jié)合優(yōu)劣解距離法計算工人能力得分,以此得到最優(yōu)化的能力得分;眾包工人與任務(wù)匹配模型則結(jié)合工人與任務(wù)的信息,構(gòu)建匹配信號,并通過基于神經(jīng)協(xié)同過濾的深度神經(jīng)網(wǎng)絡(luò)模型預(yù)測匹配得分。最終,本文模型通過加權(quán)法綜合工人的能力得分和任務(wù)匹配得分,旨在幫助發(fā)布者選擇既符合任務(wù)需求又具備高能力的工人。
為評估模型性能,本文首先收集國內(nèi)軟件眾包平臺的工人競標(biāo)記錄構(gòu)建數(shù)據(jù)集。隨后,探索了模型的最優(yōu)權(quán)重配置。接著基于最優(yōu)權(quán)重,將得分最高的競標(biāo)者與實際中標(biāo)者一致的任務(wù)劃分為實驗組,其余任務(wù)為對比組。實驗結(jié)果顯示,實驗組任務(wù)的好評率比對比組高出20百分點。進(jìn)一步使用假設(shè)檢驗驗證了模型對發(fā)布者滿意度的積極影響。最后,本文模型與基準(zhǔn)模型進(jìn)行了對比,結(jié)果表明本文模型在各項評價指標(biāo)中均優(yōu)于其他模型。實驗結(jié)果證明,本文模型在提升發(fā)布者滿意度和識別令發(fā)布者滿意的工人方面具有顯著優(yōu)勢。
1相關(guān)工作
隨著軟件眾包的興起,研究者對其挑戰(zhàn)和改進(jìn)方法展開了廣泛探討。Candria等人[對文獻(xiàn)進(jìn)行了分析,以確定軟件眾包中使用的主要流程、實踐、工具和平臺,并了解這些計劃中報告的好處和挑戰(zhàn)。Assemi等人[15]發(fā)現(xiàn)了影響發(fā)布者和眾包工人成功的31個因素并分為發(fā)布者與工人之間的關(guān)系、眾包工人的競價行為、眾包平臺特征、工人特征、發(fā)布者特征五大類。發(fā)布者發(fā)布的任務(wù)描述長度和任務(wù)持續(xù)時間對眾包工人的投標(biāo)金額和后續(xù)交付制品的質(zhì)量有影響。文獻(xiàn)[10]提出了一個概念性任務(wù)多樣性模型并開發(fā)了一種分析任務(wù)多樣性的方法。由于眾包任務(wù)發(fā)布者最重要的需求是獲得高質(zhì)量的任務(wù)制品,Lyu等人[16提出了一種評估眾包任務(wù)制品質(zhì)量的模型(WEmb)。該模型減少了制品質(zhì)量評估所消耗的金錢和時間成本。文獻(xiàn)[17]提出了一種利用競爭性實現(xiàn)的錯誤定位方法(CBFL),降低了軟件眾包中定位任務(wù)制品錯誤的成本。這些研究有助于眾包任務(wù)發(fā)布者在眾包平臺中提高任務(wù)成功率。
除上述經(jīng)驗研究外,研究者還嘗試提出多種方法幫助發(fā)布者選擇眾包工人。Wang等人[13]提出了一種面向軟件眾包測試場景的多目標(biāo)眾包工人推薦模型(MOCOM)。該方法通過評估測試任務(wù)上眾包工人完成任務(wù)的能力來推薦候選眾包工人。Wang等人[5引人了知識圖譜,以提取任務(wù)和眾包工人之間的深層聯(lián)系,并提出了一種多關(guān)系知識增強(qiáng)開發(fā)者推薦算法。文獻(xiàn)[18]提出了基于注意力機(jī)制和深度神經(jīng)網(wǎng)絡(luò)的眾包工人任務(wù)分?jǐn)?shù)預(yù)測算法,用于評估工人與任務(wù)之間的匹配程度,向任務(wù)發(fā)布者推薦分?jǐn)?shù)最高的前 K 個開發(fā)者。
現(xiàn)有關(guān)于眾包工人選擇的研究都是通過量化眾包工人的能力來為發(fā)布者提供選擇決策,缺乏對眾包工人與任務(wù)匹配程度的考慮。文獻(xiàn)[10,12]的研究發(fā)現(xiàn),眾包工人與任務(wù)的匹配程度對任務(wù)制品的質(zhì)量具有重要影響。如果僅選擇能力強(qiáng)的眾包工人用于完成任務(wù),發(fā)布者往往很難最終獲得高質(zhì)量的任務(wù)制品。本文提出的面向軟件眾包的眾包工人選擇模型可以直接使用平臺中的工人信息與任務(wù)信息來綜合評估眾包工人。
2眾包工人選擇模型
眾包任務(wù)發(fā)布者選擇眾包工人時不僅需要考慮眾包工人的能力高低,還需要考慮眾包工人和任務(wù)的匹配程度。為此,本文首先提出了基于TOPSIS和線性規(guī)劃法的眾包工人能力評估模型(topsisamp;linearprogramming,TLP);其次,本文提出了基于匹配函數(shù)學(xué)習(xí)的眾包工人與任務(wù)匹配模型(crowdsourcingworkertaskmatchingmodel,CSTM);最后,計算眾包工人能力得分和眾包工人與任務(wù)匹配度的加權(quán)和,也即綜合考慮了眾包工人的能力和與任務(wù)的匹配程度。本文將參與任務(wù)競標(biāo)中能力得分和匹配程度兩者加權(quán)和最高的競標(biāo)者稱為本任務(wù)最優(yōu)待選者,也即認(rèn)為該競標(biāo)者是最合適的眾包工人。
2.1眾包工人能力評估模型
由于對眾包工人的能力評估缺少現(xiàn)有指標(biāo)支持,本文在參考其他工作相關(guān)指標(biāo)的基礎(chǔ)上,組建專家團(tuán)隊進(jìn)行多次頭腦風(fēng)暴,討論出符合軟件眾包場景下工人能力評估的若干指標(biāo)??紤]到不同眾包任務(wù)發(fā)布者對工人能力的關(guān)注點不同,本文采用專家評估法來確定權(quán)重,并允許發(fā)布者自行設(shè)定權(quán)重。為了克服主觀確定權(quán)重的不足,僅要求發(fā)布者按照指標(biāo)的重要性分類。另一方面,由于每個眾包工人的優(yōu)勢指標(biāo)不同,難以通過設(shè)定固定權(quán)重得到體現(xiàn)其優(yōu)勢指標(biāo)的能力得分,所以,本文提出TLP模型使用線性規(guī)劃的方式來分別計算每個工人的指標(biāo)權(quán)重。最后,使用TOPSIS法綜合工人的各項能力指標(biāo),得到能力得分。
1)確定評估指標(biāo)
為挖掘眾包工人能力評估的指標(biāo),本文邀請多位專家參與眾包工人能力評估目標(biāo)分析樹的構(gòu)建工作,其中包括四名具有多年軟件工程研究經(jīng)驗的學(xué)術(shù)界專家,兩名擁有多年開發(fā)經(jīng)驗和眾包任務(wù)管理經(jīng)驗的工業(yè)界專家。參考關(guān)于眾包工人評估工作[4.5.15.19]中對眾包工人能力的關(guān)注維度,進(jìn)行三次頭腦風(fēng)暴,共計十五小時。第一次頭腦風(fēng)暴旨在討論與眾包工人能力直接相關(guān)的重要維度,最終選取了知識、工作質(zhì)量、經(jīng)驗、信譽(yù)和積極性作為第一層子目標(biāo)。第二次頭腦風(fēng)暴旨在結(jié)合軟件眾包平臺的特點對一層子目標(biāo)進(jìn)行更具體的拆分,選取了技能、業(yè)務(wù)領(lǐng)域、發(fā)布者反饋、任務(wù)經(jīng)驗、資質(zhì)和活躍度作為第二層子目標(biāo)。在第三次頭腦風(fēng)暴中,由于第二層子目標(biāo)已經(jīng)可以直接對應(yīng)軟件眾包平臺中的工人字段,專家對平臺中工人的所有字段進(jìn)行分析,按照第二層子目標(biāo)篩選字段并歸類,得到指標(biāo)層。最終構(gòu)建了如圖3所示的眾包工人能力評估目標(biāo)分析樹,樹的所有葉子節(jié)點為最終選取的能力評估指標(biāo)。
2)數(shù)據(jù)預(yù)處理
a)指標(biāo)同方向性處理。為了方便后續(xù)綜合匯總,需要首先解決指標(biāo)集合 F 中存在的同方向性問題,即將所有指標(biāo)全部轉(zhuǎn)換為正向指標(biāo)。指標(biāo)集合 F={f1,f2,…,fn}=Fp∪Fn∪ (204Fa ,通常包括:(a)正向指標(biāo) $F ^ { \dprime }$ 。正向指標(biāo)為積極的、正向意義的指標(biāo),指標(biāo)數(shù)值越高表示對象的該項指標(biāo)越優(yōu)。(b)逆向指標(biāo) Fn 。逆向指標(biāo)為一些消極的、負(fù)向意義的指標(biāo),指標(biāo)數(shù)值越高越體現(xiàn)對象在某些方面的缺點,因此逆向指標(biāo)數(shù)值越小越好,通常采用倒數(shù)法將其正向化。(c)適度指標(biāo) Fa 。適度指標(biāo)代表了一些需要綜合考量的指標(biāo),其數(shù)值不宜太高也不宜太低,而是應(yīng)趨于一個適度點,距離適度點越近,表示對象的該項指標(biāo)越優(yōu),將其轉(zhuǎn)換為逆向指標(biāo),再使用倒數(shù)法將其正向化,如式(1)所示。
其中: wijn 代表第 i 個工人 wi 的第 j 個逆向指標(biāo) fjn 的值; wija 代表工人 wi 的第 j 個適度指標(biāo) fja 的值: {Afja 為一個常數(shù),代表第 j 個適度指標(biāo) fja 的適度點; wijp 代表工人 wi 的第 j 個指標(biāo) fj 正向化處理后得到的正向指標(biāo)。
總目標(biāo) 能力評估↓ T
一層子目標(biāo) 知識 工作質(zhì)量 經(jīng)驗 信譽(yù) 積極性
二層子目標(biāo)技能業(yè)務(wù)領(lǐng)域發(fā)布者反饋 任務(wù)經(jīng)驗 資質(zhì) 活躍度指標(biāo) 擅長技能數(shù) 服務(wù)領(lǐng)域數(shù) 好評率 質(zhì)量 會員 承接項目數(shù) 總收 企業(yè)認(rèn)證 近半年收人評分 等 人級weight,如表1所示。
雖然將指標(biāo)的重要性映射為權(quán)重可以滿足發(fā)布者的個性化要求且具有較高的靈活性,但固定權(quán)重可能會使得在某一指標(biāo)上具有極為優(yōu)異表現(xiàn)的眾包工人難以得到合理得分。在指標(biāo)重要程度確定的情況下,要突出工人的優(yōu)勢指標(biāo),就要求權(quán)重不能為一個固定值。因此,TLP模型不僅為每項指標(biāo) fj 設(shè)置了預(yù)設(shè)初始權(quán)重weightj,還設(shè)立了權(quán)重的上限ueight和下限weigh。此外,各權(quán)重應(yīng)滿足總和小于預(yù)設(shè)初始權(quán)重總和。
對于眾包工人 wi ,使用LP計算其各項指標(biāo)的權(quán)重。在預(yù)設(shè)范圍內(nèi)計算能使得工人 wi 與最優(yōu)對象 ω+ 加權(quán)距離最小的權(quán)重組合。設(shè)有 m 項指標(biāo),目標(biāo)函數(shù)和約束條件如式(3)所示。
b)數(shù)據(jù)無量綱化處理。由于各指標(biāo)的量綱不同,值的范圍也不相同,所以無法使用其原始數(shù)值進(jìn)行計算。本文使用歸一化方法對各指標(biāo)作無量綱化處理,即將各項數(shù)據(jù)范圍映射至[0,1],表明其值在全集中的相對位置,使各個指標(biāo)轉(zhuǎn)換成可以直接加減的數(shù)值。歸一化方式如式(2)所示。
其中: wij 代表原始數(shù)據(jù)中第 i 個工人 wi 的第 j 個指標(biāo) fj 的數(shù)值; n 代表本任務(wù)中眾包工人的個數(shù); wijnor 代表歸一化后的結(jié)果。
c)最優(yōu)最劣對象提取。在完成上述處理后,提取各項指標(biāo)中最大值作為“最優(yōu)對象” O+,O+={max(f1) , max(f2),… max(fn)} ;提取各項指標(biāo)中最小值作為“最劣對象” o-,o-= {min(f1) ) 。需要注意的是,最優(yōu)(最劣)對象是從各指標(biāo)值中選取最高值(最低值)組成的對象,該對象的意義在于方便后續(xù)計算,并不一定真實存在。
3)確定指標(biāo)權(quán)重
確定指標(biāo)權(quán)重的方法有主觀法、客觀法和主客觀結(jié)合法等[20]。其中,主觀法包括層次分析法和專家評估法等;客觀法包括信息熵法、秩和比法和正態(tài)分布法等;主客觀結(jié)合法為混合使用主觀法和客觀法確定權(quán)重的方法。在眾包場景中,各指標(biāo)的權(quán)重設(shè)定應(yīng)當(dāng)充分尊重任務(wù)發(fā)布者的意見,并且不同發(fā)布者對眾包工人能力的關(guān)注點可能不同,發(fā)布者更關(guān)注的能力指標(biāo)應(yīng)獲得更高權(quán)重。在上述多種確定指標(biāo)權(quán)重的方法中,專家評估法的權(quán)值設(shè)定靈活,可以滿足發(fā)布者的個性化需求,但人為的感性認(rèn)知難以直接量化,發(fā)布者可能難以將想法量化成為合適的權(quán)重。因此,本文按照指標(biāo)的重要性,參照層次分析法中對等標(biāo)準(zhǔn)[21]之間的相對重要性定義表,設(shè)計了指標(biāo)重要程度映射表,預(yù)設(shè)幾個類別,指導(dǎo)發(fā)布者對指標(biāo)作分類。本文為增強(qiáng)不同重要性界限,減少主觀定義誤差,將映射類別減少為5個,將指標(biāo)的重要性分為一般重要、較為重要、重要、非常重要和絕對重要五個類別,分別對應(yīng)1\~5的預(yù)設(shè)初始權(quán)重其中: weightj- 代表第 j 項指標(biāo)的權(quán)重下限; weightj+ 代表第 j 項指標(biāo)的權(quán)重上限; 代表工人 wi 的第 j 項指標(biāo)的權(quán)重; M 代表預(yù)設(shè)初始權(quán)重總和; Oj+ 與 wij 均為確定的數(shù)值,因此(Oj+-wij) 2為常數(shù)。目標(biāo)函數(shù)即為線性函數(shù),此最優(yōu)化問題即轉(zhuǎn)換為LP問題。接著,使用LP為每個眾包工人單獨計算權(quán)重,保證工人在預(yù)設(shè)范圍內(nèi)獲得最有利于自身得分的權(quán)重組合。實現(xiàn)了在發(fā)布者個性化定制權(quán)重的同時,最大限度地突出眾包工人的優(yōu)勢指標(biāo)。
4)計算能力得分。在經(jīng)過數(shù)據(jù)預(yù)處理和確定指標(biāo)權(quán)重后,得到所有待評估對象中最優(yōu)對象 o+ 、最劣對象 o- 、工人 wi 對應(yīng)指標(biāo)集合 Winor={wi1nor,wi2nor,…,wijnor} 、指標(biāo)權(quán)重集合 。計算評估對象與最優(yōu)對象的加權(quán)距離 Di+ 、與最劣對象的加權(quán)距離 Di- ,得到各眾包工人的能力得分,分別如式(4)(5)所示。
其中: Oj+ 與 Oj- 分別代表最優(yōu)對象與最劣對象的第 j 個指標(biāo)值; wij 代表第 i 名工人的第 j 個指標(biāo)值; 代表第 j 個指標(biāo)的預(yù)設(shè)權(quán)重。
接著,計算所有對象與最優(yōu)對象的接近程度 Ci 。具體計算如式(6)所示。其中, Ci 表示第 i 名工人 wi 與最優(yōu)對象 o* 的接近程度,其值在0\~1。 Di- 越大,代表該對象距離最劣對象越遠(yuǎn)。相應(yīng)地, Di+ 越小代表該對象距離最優(yōu)對象越近。當(dāng) Ci+ 趨近于1,則代表該對象趨近于最優(yōu)水平。因此, Ci 數(shù)值越高,代表工人能力越強(qiáng)。
最后,將 Ci 歸一化,得到工人的能力得分 Si ,如式(7)所示。
其中: min(C) 代表工人與最優(yōu)對象接近程度的最小值;max(C) 代表工人與最優(yōu)對象接近程度的最大值。
2.2眾包工人與任務(wù)匹配模型
本文提出了基于匹配函數(shù)學(xué)習(xí)的深度匹配模型一—眾包工人與任務(wù)匹配模型(CSTM)。模型重點考慮任務(wù)和工人的特征交叉信息。首先,使用眾包工人與任務(wù)的特征構(gòu)造交叉特征,然后拼接匹配信號[14],融合工人特征和任務(wù)特征;最后,使用基于神經(jīng)協(xié)同過濾(neuralcollaborativefiltering,NCF)的深度神經(jīng)網(wǎng)絡(luò)預(yù)測眾包工人與任務(wù)的匹配得分。
CSTM模型對眾包工人的匹配得分預(yù)測由數(shù)據(jù)抽取、構(gòu)建匹配信號和預(yù)測匹配得分三個階段組成。模型使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)工人和任務(wù)特征的表示和匹配函數(shù),并進(jìn)一步預(yù)測匹配得分。圖4展示了CSTM模型的整體框架。
1)數(shù)據(jù)抽取
數(shù)據(jù)抽取階段的整體過程如圖5所示。本文首先對眾包工人與任務(wù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和異常值過濾,然后將眾包工人的信息分為歷史信息與個性信息,任務(wù)的信息分為元信息與需求信息,并根據(jù)眾包工人和任務(wù)特征的數(shù)據(jù)類型設(shè)計不同的特征處理方式。
對于數(shù)值型特征,作分桶、離散化等方式處理;對于枚舉型特征,作one-hot編碼處理;對于集合型特征,作multi-hot編碼處理;對于文本型特征,建立關(guān)鍵詞字典,分詞后與關(guān)鍵詞字典作交集,轉(zhuǎn)換為集合型特征。對于眾包工人的唯一標(biāo)識,需要進(jìn)行one-hot編碼和嵌入處理。對于參與任務(wù) ti 競標(biāo)的工人 ,對其唯一標(biāo)識進(jìn)行one-hot編碼。由于眾包工人數(shù)量較多,one-hot編碼會使得特征向量維度過高且非常稀疏。為了解決維度爆炸問題和提升模型表達(dá)能力,對one-hot編碼后的唯一標(biāo)識作嵌入處理,并與其他處理后的工人特征拼接,構(gòu)造為眾包工人向量 uwj 。對于任務(wù)的唯一標(biāo)識,同樣進(jìn)行one-hot編碼和嵌人處理。對于給定任務(wù) ti ,對其唯一標(biāo)識進(jìn)行one-hot編碼和嵌入處理后與其他處理后的任務(wù)特征拼接,構(gòu)造得到任務(wù)向量 νti 。
經(jīng)過上述數(shù)據(jù)預(yù)處理后,將眾包工人的信息(除唯一標(biāo)識外)根據(jù)其含義分為歷史信息與個性信息。歷史信息主要是可以直接進(jìn)行特征處理的眾包工人歷史工作數(shù)據(jù),該信息會隨著工人的任務(wù)經(jīng)歷發(fā)生變化,包括承接任務(wù)數(shù)量、盈利額度和好評率等;個性信息主要指眾包工人的個人信息,該信息主要用在與任務(wù)特征中對應(yīng)信息相匹配,從而構(gòu)造匹配信號,包括技能類信息和地域類信息等。
將任務(wù)的信息(除唯一標(biāo)識外)按照是否對工人有偏好或要求分為需求信息與元信息。其中,需求信息指任務(wù)中對眾包工人提出要求或者對眾包工人存在偏好的相關(guān)信息,該信息與眾包工人的對應(yīng)信息相匹配以構(gòu)造匹配信號,包括地域信息、技能要求和業(yè)務(wù)領(lǐng)域等;元信息是指任務(wù)信息中除需求信息外的其他對任務(wù)直接描述的信息,此類信息可以直接進(jìn)行特征處理,如任務(wù)預(yù)算和任務(wù)周期等。
2)構(gòu)建匹配信號
在匹配信號構(gòu)建階段,首先,逐一匹配眾包工人的個性信息與任務(wù)的需求信息,構(gòu)建眾包工人-任務(wù)特征的匹配特征。其次,將眾包工人特征、任務(wù)特征和匹配特征拼接,生成匹配信號。對于給定任務(wù) ti 和參與競標(biāo)的工人 ,構(gòu)造匹配特征后,共同拼接得到眾包工人-任務(wù)特征向量
,作為模型的輸入向量。模型的輸出向量表示為
,代表模型預(yù)測的匹配得分M。根據(jù)給定眾包工人w是否在任務(wù)ti 中中標(biāo),構(gòu)造標(biāo)簽
,若中標(biāo)則
為1,否則為0,以此來指導(dǎo)模型計算損失,更新參數(shù)。
3)預(yù)測匹配得分
本文使用全連接深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)眾包工人-任務(wù)特征 的表示和匹配函數(shù),預(yù)測匹配得分。模型的隱藏層共有 h 層,第 p 層的輸出為 lp ,權(quán)重為 weightp ,偏差為 Bp ,在隱藏層使用的激勵函數(shù)為ReLU,如式(8)所示。在輸出層使用的激勵函數(shù)為 softmax,如式(9)所示。輸出結(jié)果為
,代表該眾包工人與任務(wù)的匹配得分
u,o
使用二值交叉熵(binarycross-entropy,BCE)作為損失函數(shù),將標(biāo)簽 與模型預(yù)測結(jié)果
代入式(10),計算損失。
2.3綜合模型結(jié)果
TLP模型可以有效評估眾包工人的能力,但只關(guān)注了眾包工人本身;CSTM模型綜合考慮了眾包工人與任務(wù)的多項特征,可以預(yù)測眾包工人與任務(wù)的匹配得分。本文提出面向軟件眾包的眾包工人選擇模型,計算TLP與CSTM得分的加權(quán)和,實現(xiàn)了對眾包工人的綜合評估。本文將參與任務(wù)競標(biāo)的工人中綜合得分最高的競標(biāo)者稱為本任務(wù)最優(yōu)待選者。
TLP以任務(wù)為單位計算單一任務(wù)內(nèi)競標(biāo)者的能力得分,CSTM將眾包工人與任務(wù)的特征拼接作為一個匹配信號實現(xiàn)匹配得分預(yù)測。本文模型為兩個模型的綜合,并且是以任務(wù)為單位對參與任務(wù)競標(biāo)的眾包工人進(jìn)行綜合評估。對于任務(wù) ti 中的競標(biāo)者 wj ,使用TLP計算得到能力得分 Sj ,使用CSTM預(yù)測競標(biāo)者 wj 與任務(wù) ti 的匹配得分 ,并加權(quán)計算得到綜合得分
,具體計算如式(11)所示。
其中: W 代表模型權(quán)重。為觀察當(dāng)權(quán)重變化時模型效果的變化趨勢,在實驗部分采用從0到1,以0.01為步長的方式設(shè)計權(quán)重探究實驗。盡管此設(shè)計可能會損失一定的準(zhǔn)確性,但對于了解眾包任務(wù)發(fā)布者在選取眾包工人時的偏好具有參考意義。
3 實驗設(shè)計和分析
3.1 實驗設(shè)計
為了驗證本文提出的面向軟件眾包的眾包工人選擇模型在提升眾包任務(wù)發(fā)布者滿意度方面的有效性以及在識別令發(fā)布者滿意的眾包工人方面的先進(jìn)性,同時嘗試探究模型的最優(yōu)綜合權(quán)重,本文提出了以下三個研究問題(researchquestion,RQ)以驅(qū)動實驗。
RQ1:如何設(shè)定模型權(quán)重使得眾包工人選擇模型的效果最優(yōu)?
本文所提眾包工人選擇模型計算TLP與CSTM模型輸出得分的加權(quán)和,得到綜合得分。因此,模型權(quán)重 W 直接影響了眾包工人的綜合得分。為了回答RQ1,使用軟件眾包平臺中獲得發(fā)布者滿分好評的任務(wù)作為數(shù)據(jù)集,通過大量實驗,探究符合發(fā)布者偏好的最優(yōu)綜合權(quán)重,以使得模型的效果最優(yōu)。
RQ2:選擇本任務(wù)最優(yōu)待選者去完成眾包任務(wù),會對發(fā)布者的滿意度產(chǎn)生怎樣的影響?
本文所提眾包工人選擇模型從工人的能力和工人與任務(wù)的匹配度兩方面綜合評估眾包工人,能夠為任務(wù)發(fā)布者提供選人參考。工人的選取可能會影響最終任務(wù)的質(zhì)量,選取與任務(wù)匹配度較高且能力較強(qiáng)者可以提升任務(wù)質(zhì)量,以提升任務(wù)發(fā)布者的滿意度。為了回答RQ2,本文使用軟件眾包平臺中的大量任務(wù)作為數(shù)據(jù)集,使用模型計算任務(wù)內(nèi)競標(biāo)者的綜合得分,將數(shù)據(jù)集中的任務(wù)按照中標(biāo)者是否與本任務(wù)最優(yōu)待選者一致分為兩組,通過任務(wù)發(fā)布者對任務(wù)的評分體現(xiàn)發(fā)布者的滿意度,驗證本文模型在提升任務(wù)發(fā)布者滿意度方面的有效性。
RQ3:本文所提眾包工人選擇模型在識別令發(fā)布者滿意的眾包工人方面是否有更加優(yōu)秀的表現(xiàn)?
本文所提眾包工人選擇模型綜合了CSTM與TLP模型的評估結(jié)果,結(jié)合了兩個模型的優(yōu)點,綜合考慮了眾包工人的能力和工人與任務(wù)的匹配度兩方面。為了回答RQ3,以平臺中發(fā)布者評分為滿分的任務(wù)作為數(shù)據(jù)集,預(yù)測任務(wù)的中標(biāo)者。使用所提模型計算任務(wù)內(nèi)競標(biāo)者的綜合得分,將模型識別出的本任務(wù)最優(yōu)待選者作為預(yù)測結(jié)果,與TLP、CSTM以及其他主流眾包工人選擇模型進(jìn)行對比分析。
3.1.1 實驗數(shù)據(jù)
本文首先從國內(nèi)某著名軟件眾包平臺上獲取了任務(wù)23025項,眾包工人8747名,眾包工人與任務(wù)的競標(biāo)關(guān)系179872對。由于平臺中部分工人賬號已注銷或因違規(guī)被凍結(jié),從而導(dǎo)致涉及到的數(shù)據(jù)無法使用。此外,實驗需要用已產(chǎn)生中標(biāo)者并且有發(fā)布者反饋評分的任務(wù)來驗證模型的評估結(jié)果。因此需要篩選數(shù)據(jù),排除掉以下幾類任務(wù):已被凍結(jié)賬號的工人參與的任務(wù)、已注銷賬號的工人參與的任務(wù)、未產(chǎn)生中標(biāo)者的任務(wù)和發(fā)布者未評分的任務(wù)。經(jīng)過篩選后得到該平臺上任務(wù)9450項,眾包工人8747名,眾包工人與任務(wù)的競標(biāo)關(guān)系98940對。
數(shù)據(jù)涉及的眾包任務(wù)字段如表2所示,眾包工人字段如表3所示。在構(gòu)建匹配信號時,眾包任務(wù)的需要技能可以與眾包工人的擅長技能直接匹配,即直接計算兩個集合的交集,構(gòu)造匹配特征技能匹配數(shù)量。任務(wù)的任務(wù)類別與眾包工人的服務(wù)領(lǐng)域以同樣的方式匹配,構(gòu)造匹配特征領(lǐng)域匹配數(shù)量。比如,眾包工人的擅長技能和任務(wù)的需要技能均為枚舉類型,若某任務(wù)的需要技能為{Java,數(shù)據(jù)庫, ,參與該任務(wù)競標(biāo)的某眾包工人的擅長技能為{Java,Python,數(shù)據(jù)庫},則取其交集得到Java,數(shù)據(jù)庫,交集中包含兩條技能,則匹配特征技能匹配數(shù)量值為2。
3.1.2 評價指標(biāo)
1)發(fā)布者對任務(wù)的滿意度評價指標(biāo)
在眾包工人交付任務(wù)后,發(fā)布者會在一段時間內(nèi)對任務(wù)進(jìn)行評分,評分為[0\~5]分,其中0\~1視作差評,4\~5視作好評。使用數(shù)據(jù)集中好評任務(wù)所占比例(好評率)與差評任務(wù)所占比例(差評率)來體現(xiàn)發(fā)布者群體的滿意度。
通過卡方檢驗[22]對“雇傭本任務(wù)最優(yōu)待選者對眾包任務(wù)發(fā)布者的滿意度沒有影響\"這一假設(shè)進(jìn)行檢驗,如式(12)所示。如果實驗結(jié)果拒絕這一假設(shè),則說明雇傭本任務(wù)最優(yōu)待選者對眾包任務(wù)發(fā)布者的滿意度有影響。
其中: ωa,b 為對照組好評和非好評數(shù)量; c?d 為實驗組好評和非好評數(shù)量 ∴x2(1) 的值從 χ2 分布臨界值表中查閱。實驗組為中標(biāo)者與本任務(wù)最優(yōu)待選者一致的任務(wù)集合,對照組為中標(biāo)者與本任務(wù)最優(yōu)待選者不一致的任務(wù)集合。
2)預(yù)測效果評價指標(biāo)
本文將模型識別出的本任務(wù)最優(yōu)待選者作為任務(wù)中標(biāo)者的預(yù)測結(jié)果,選取準(zhǔn)確率和平均倒數(shù)排名作為模型預(yù)測效果的評價指標(biāo)。
準(zhǔn)確率(accuracy,Acc)[23]表示模型中所有預(yù)測結(jié)果正確的樣本數(shù)占總樣本數(shù)的比例。本實驗中,將準(zhǔn)確率擴(kuò)展到top-1Acc、top-3Acc和top-5Acc,也即預(yù)測結(jié)果正確的樣本在總樣本中分別排在第1位、前3位和前5位,具體計算方式如式(13)所示。
其中: ∣Tc 1是正確預(yù)測中標(biāo)者在總樣本中排名為前 k 個的任務(wù)數(shù)量;ITI為任務(wù)總數(shù)。
平均倒數(shù)排名(meanreciprocalrank,MRR)[24]使用真實結(jié)果在模型預(yù)測結(jié)果中的排名來評估模型預(yù)測的性能,如式(14)所示。
其中: rankwi 為任務(wù) ti 的真實中標(biāo)者在模型預(yù)測結(jié)果中的名次;ITI為任務(wù)總數(shù)。
3.1.3基準(zhǔn)模型
為驗證本文提出眾包工人選擇模型在幫助發(fā)布者選擇眾包工人上的先進(jìn)性,本文將其與當(dāng)前流行的工人嵌入(workerembedding,WEmb)[16]模型、基于支持向量機(jī)(support vectormachine,SVM)[25]的推薦算法、基于決策樹(decision tree,DT)[26]的推薦算法、基于樸素貝葉斯(Naive Bayes,NB)[27]的推薦算法和基于深度學(xué)習(xí)的眾包軟件開發(fā)者推薦算法[作了對比。
工人嵌入模型是一種基于嵌入的模型。模型自動學(xué)習(xí)工人質(zhì)量的特征,利用單層感知機(jī)預(yù)測作品質(zhì)量,通過作品質(zhì)量反映工人質(zhì)量。本文經(jīng)過改進(jìn)模型,將其適用于任務(wù)的中標(biāo)者預(yù)測問題。
支持向量機(jī)模型是一種基于核函數(shù)的分類模型,它的基本思想是在特征空間內(nèi)求解能正確劃分訓(xùn)練數(shù)據(jù)并使其間隔最大的超平面。在本場景中,將支持向量機(jī)對眾包工人分類為1的概率記為眾包工人的中標(biāo)概率。
決策樹分類模型是一種基于樹的分類模型。根節(jié)點是信息不確定性最大的節(jié)點,當(dāng)對數(shù)據(jù)集進(jìn)一步劃分時,不確定性將逐漸減少。在本場景中,將決策樹對眾包工人分類為1的概率記為眾包工人的中標(biāo)概率。
樸素貝葉斯模型是一種基于貝葉斯定理,以特征條件獨立假設(shè)為基礎(chǔ)的分類模型。樸素貝葉斯提出了條件獨立性的假設(shè),即每個特征獨立地對分類器的結(jié)果造成影響。在本場景中,將樸素貝葉斯模型對眾包工人分類為1的概率記為眾包工人的中標(biāo)概率。
基于深度學(xué)習(xí)的眾包軟件開發(fā)者推薦算法結(jié)合任務(wù)特征與開發(fā)者特征,通過注意力機(jī)制與深度神經(jīng)網(wǎng)絡(luò)預(yù)測開發(fā)者任務(wù)分?jǐn)?shù),用于評估參與者的得分情況,并推薦分?jǐn)?shù)最高的前 K 個開發(fā)者。
3.2 結(jié)果分析
3.2.1模型的最優(yōu)綜合權(quán)重探究
發(fā)布者對任務(wù)的評分為滿分則代表發(fā)布者對該任務(wù)制品是滿意的,該任務(wù)的中標(biāo)者獲得了發(fā)布者的認(rèn)可,發(fā)布者對眾包工人的選擇被認(rèn)為是成功的。實驗使用軟件眾包平臺中發(fā)布者評分為滿分的任務(wù)集合作為探究眾包工人選擇模型最優(yōu)綜合權(quán)重的數(shù)據(jù)集,擬合發(fā)布者的偏好。
為了探究本文模型的最優(yōu)模型權(quán)重,從0到1,以0.01為步長設(shè)置了101組權(quán)重設(shè)計實驗。表4展示了模型在不同權(quán)重配比下的部分結(jié)果。
為直觀觀察權(quán)重變化時模型的評估效果,圖6展示了模型在不同權(quán)重配比時的評估效果。總體上來看,隨著模型權(quán)重由0到1,各指標(biāo)呈先上升后下降的趨勢,在權(quán)重 W=0,39 時,各指標(biāo)取得最高點。即本文所提面向軟件眾包的眾包工人選擇模型在上述權(quán)重時表現(xiàn)最好。
回答RQ1,本文模型的權(quán)重 W=0.39 時,最貼合發(fā)布者偏好。這意味著發(fā)布者在選擇工人時,相比于眾包工人與任務(wù)的匹配度,會略傾向于關(guān)注眾包工人的能力。本文使用此權(quán)重組合作為模型的綜合權(quán)重,在下文的實驗中均將使用此權(quán)重配比。
3.2.2模型對發(fā)布者滿意度的影響探究
本實驗以任務(wù)為單位,使用所提模型計算任務(wù)競標(biāo)者的綜合得分,將綜合得分最高的競標(biāo)者識別為本任務(wù)最優(yōu)待選者。按照真實中標(biāo)者與本任務(wù)最優(yōu)待選者是否一致的規(guī)則,將數(shù)據(jù)集中的任務(wù)分為實驗組與對照組。其中,實驗組為中標(biāo)者與本任務(wù)最優(yōu)待選者一致的任務(wù)集合,對照組為中標(biāo)者與本任務(wù)最優(yōu)待選者不一致的任務(wù)集合。將0\~1分視作差評,4\~5分視作好評,體現(xiàn)發(fā)布者對任務(wù)的滿意度,表5展示了兩組任務(wù)的平均分、好評率和差評率。
由表5可以看出,實驗組的低分任務(wù)占比均低于對照組,高分任務(wù)占比均高于對照組。實驗組任務(wù)的好評率高于對照組約20百分點,差評率低于對照組約10百分點,任務(wù)的平均分高于對照組約0.7分,發(fā)布者對任務(wù)展現(xiàn)出更高的滿意度。接著,使用顯著性檢驗探究選擇本任務(wù)最優(yōu)待選者是否會對眾包任務(wù)發(fā)布者的滿意度產(chǎn)生影響。本文使用卡方檢驗,作出原假設(shè)H0:雇傭本任務(wù)最優(yōu)待選者眾包任務(wù)發(fā)布者的滿意度沒有影響。根據(jù)式(12)計算得 χpearson2=343.36 ,查閱 χ2(χ1) 分布臨界值表得知,當(dāng) χpearson2gt;7.88 時,有 99.5% 的置信度拒絕原假設(shè)HO,由此可得本文拒絕原假設(shè),認(rèn)為兩組數(shù)據(jù)分布之間存在顯著差異。因此,雇傭本任務(wù)最優(yōu)待選者會對發(fā)布者的滿意度產(chǎn)生影響。
回答RQ2,使用本文提出的眾包工人選擇模型預(yù)測結(jié)果的任務(wù)好評率高于未使用預(yù)測結(jié)果的任務(wù),發(fā)布者選擇本任務(wù)最優(yōu)待選者能夠有效提升對任務(wù)制品的滿意度。因此可以認(rèn)定,本文模型可以有效地為發(fā)布者提供選人參考,提升選用與任務(wù)匹配度高且能力優(yōu)秀的眾包工人的概率,有利于提升雇主與眾包工人的契合度,并提升發(fā)布者的眾包體驗。依據(jù)發(fā)布者與眾包工人和平臺之間的關(guān)系可以推斷出使用本文所提模型后:對于眾包工人而言,模型能顯式地展示其綜合得分,對于中標(biāo)者,能夠增加自我肯定,對于其他競標(biāo)者,能夠幫助工作者了解自身能力,對照具體指標(biāo),分析自身不足,對工人提升自身能力起到指導(dǎo)意義;對于軟件眾包平臺而言,為發(fā)布者和眾包工人帶來良好的眾包體驗可以提升用戶黏度,增加任務(wù)轉(zhuǎn)換率,吸引新的任務(wù)發(fā)布者加入。
3.2.3模型的先進(jìn)性探究
選取軟件眾包平臺中發(fā)布者評分為滿分的任務(wù)作為模型先進(jìn)性研究的數(shù)據(jù)集,使用本文模型對任務(wù)內(nèi)競標(biāo)者綜合評估,將本任務(wù)最優(yōu)待選者視作模型的預(yù)測結(jié)果,探究本文模型在識別令發(fā)布者滿意的工人方面的表現(xiàn)。
表6展示了本文模型、TLP、CSTM、基于深度學(xué)習(xí)的眾包軟件開發(fā)者推薦算法、基于決策樹的推薦算法(DT)、基于樸素貝葉斯的推薦算法(NB)、基于支持向量機(jī)的推薦算法(SVM)、工人嵌入模型(WEmb)八個模型在軟件眾包平臺中的預(yù)測效果?;卮餜Q3,由表6可以看出,本文模型作為TLP與CSTM的綜合模型,其各項指標(biāo)表現(xiàn)均超過了其他模型且優(yōu)于兩個單一模型。
對所選模型作進(jìn)一步分析。工人嵌入模型只使用了單層感知機(jī),難以學(xué)習(xí)眾包工人的表示與最終得分之間的關(guān)系。因此,工人嵌入模型的表現(xiàn)最差,其中,top-1Acc均不足0.2,MRR也最低。支持向量機(jī)對數(shù)據(jù)不平衡問題十分敏感,而在眾包場景下,每個任務(wù)存在多個競標(biāo)者,但最終僅產(chǎn)生一位中標(biāo)者,正負(fù)樣本不均衡問題嚴(yán)重。本文雖然對正樣本采取了過采樣來緩解數(shù)據(jù)不平衡的問題,但表現(xiàn)依然不佳。
樸素貝葉斯有一個重要的前提,即條件獨立假設(shè)。在本文中,眾包工人的各項指標(biāo)并不完全獨立,比如眾包工人承接任務(wù)的數(shù)量與總收入是相關(guān)的。因此,樸素貝葉斯方法表現(xiàn)并不出色。決策樹模型對缺失值和不相關(guān)特性并不敏感。因此,決策樹模型綜合表現(xiàn)相較于樸素貝葉斯方法和支持向量機(jī)模型更為優(yōu)秀。但因決策樹模型更適合于離散數(shù)據(jù)特征較多的場景,而本文中眾包工人的數(shù)據(jù)類型大多為數(shù)值型,所以決策樹在該場景下的表現(xiàn)仍不夠最優(yōu)。
基于深度學(xué)習(xí)的推薦算法結(jié)合注意力機(jī)制與深度神經(jīng)網(wǎng)絡(luò),較好地捕捉了工人與任務(wù)的特征交互關(guān)系,性能優(yōu)于傳統(tǒng)方法。然而,該模型主要針對任務(wù)匹配分?jǐn)?shù)預(yù)測,缺乏對競標(biāo)者間相對優(yōu)劣的綜合考慮。
工人與任務(wù)匹配模型利用任務(wù)與工人信息生成匹配信號,預(yù)測精度較高,但可解釋性較弱。眾包工人能力評估模型依托平臺工人數(shù)據(jù)字段,直接評估工人能力,減少了異常值干擾,但對歷史數(shù)據(jù)依賴較高,可能在處理較舊任務(wù)時存在偏差。本文模型作為眾包工人能力評估模型和工人與任務(wù)匹配模型的綜合模型,結(jié)合兩個模型的優(yōu)點,具有一定的可解釋性,在考慮眾包工人能力的同時,也綜合考慮了工人與任務(wù)的匹配度,與發(fā)布者關(guān)注點貼近,在眾包工人的選擇場景下表現(xiàn)優(yōu)異。
4效度威脅
實驗使用本文模型得到參與競標(biāo)的眾包工人在能力和與任務(wù)匹配程度上的綜合得分,幫助任務(wù)發(fā)布者選擇眾包工人。以眾包平臺中的真實任務(wù)作為數(shù)據(jù)集,按照中標(biāo)者是否與模型評估出的本任務(wù)最優(yōu)待選者一致,將任務(wù)分為實驗組與對照組。實驗僅將中標(biāo)者是否與評估結(jié)果一致作為自變量,探究兩組中任務(wù)的得分分布情況,反映發(fā)布者的滿意度。影響任務(wù)評分的因素還包括任務(wù)發(fā)布者個人的偏好、任務(wù)的復(fù)雜度等其他因素,因此本實驗存在內(nèi)部效度威脅。本文通過假設(shè)檢驗法對結(jié)果作進(jìn)一步分析,有 99.5% 的置信度認(rèn)為雇傭本任務(wù)最優(yōu)待選者會對發(fā)布者滿意度產(chǎn)生影響,進(jìn)而確保了實驗具有較高的內(nèi)部效度。
由于本文集中于一個軟件眾包平臺,所以本文描述的工作存在外部效度威脅。將本文模型推廣到其他平臺時需要進(jìn)行一定的調(diào)整,具體調(diào)整內(nèi)容為:新平臺的眾包工人的評估指標(biāo)集合需按照目標(biāo)分析樹中最底層的子目標(biāo)對工人的指標(biāo)進(jìn)行篩選;在新平臺構(gòu)建匹配信號需要在對所有指標(biāo)重新分類后進(jìn)行;在新平臺模型的最優(yōu)權(quán)重需要重新探究。然而上述需要調(diào)整的內(nèi)容,本文都有對應(yīng)的步驟說明,例如模型權(quán)重調(diào)整可以直接參考本文的實驗流程,無須重新設(shè)計。由此可見,盡管存在外部效度威脅,本文已為模型在其他平臺的推廣應(yīng)用提供了充分的理論支持和實踐指引。
5結(jié)束語
為解決軟件眾包工人選擇問題,本文提出了綜合考慮工人能力和任務(wù)匹配度的選擇模型。通過TLP評估工人能力,基于專家構(gòu)建的目標(biāo)分析樹和LP計算最優(yōu)權(quán)重,結(jié)合TOPSIS得出能力得分;通過CSTM評估任務(wù)匹配度,利用NCF預(yù)測工人與任務(wù)的匹配得分。最終,綜合兩模型結(jié)果加權(quán),形成更加貼合發(fā)布者需求的工人選擇方案,并為其他非軟件眾包場景提供參考。
實驗基于軟件眾包平臺中的真實數(shù)據(jù)(9450項任務(wù)、8747名工人、98940對競標(biāo)關(guān)系),驗證了本文模型在提升發(fā)布者滿意度和任務(wù)成功率方面的優(yōu)越性。結(jié)果表明,本文模型不僅優(yōu)于單一維度的TLP和CSTM,還顯著超越五種先進(jìn)模型。
參考文獻(xiàn):
[1]Wang Baowei,Yuan Yi,Li Bin,et al.QAIC:quality-assured image crowdsourcing via blockchainand deep learning[C]//Proc of the 26th International Conference on Computer Supported Cooperative Work inDesign.Piscataway,NJ:IEEE Press,2023:648-653.
[2].Dishman S,DuffyVG.The reaches ofcrowdsourcing:a systematic literature review[C]//Proc of the23rdHCI International Conference.Cham:Springer,2021:229-248.
[3]OppenlaenderJ,Abbas T,GadirajuU.The state of pilot studyreportingin crowdsourcing:a reflection on best practices and guidelines [C]//Proc of ACMon Human-Computer Interaction.New York: ACM Press,2024:184.
[4]劉安戰(zhàn),郭基鳳.軟件眾包開發(fā)者的能力價值率模型研究[J]. 計算機(jī)應(yīng)用研究,2020,37(8):2422-2427,2432.(Liu Anzhan, Guo Jifeng.Research on value ratio model of software crowdsourcing developers’capability[J].ApplicationResearchof Computers, 2020,37(8):2422-2427,2432.)
[5]Wang Zhaozhe,Yu Xu,Jiang Feng,et al.A developer recommendationalgorithm based on multi-relationship knowledge enhancement [C]//Proc of the 6th International Conference on Electronic Information and Communication Technology:Piscataway,NJ:IEEE Press,2023:1-6.
[6] CandriaDDC,Araujo R MD.Crowdsourcing software development—apossiblepath?[C]//Proc of the18th Brazilian Symposium on Information Systems. New York:ACM Press,2022:1-8.
[7]Qiu Sihang,Bozzon A,Birk MV,et al.Using worker avatars to improve microtask crowdsourcing[C]// Proc of ACM on HumanComputer Interaction. New York:ACMPress,2021:1-28.
[8]Li Yuying,F(xiàn)eng Yang,Guo Chao,et al.Crowdsourced test case generation for Android applications via staticprogram analysis[J]. Automated Software Engineering,2023,30(2):26.
[9]Wang Lili,Yang Ye,Wang Yong.Do higher incentives lead to better performance?An exploratory study on software crowdsourcing[C]// Procof ACM/IEEE International Symposium on Empirical Software Engineering and Measurement.Piscataway,NJ:IEEEPress,2O19:1-11.
[10]Rashid T,Anwar S,Jaffar MA,et al.Success predictionof crowdsourced projects for competitive crowdsourced software development[J].AppliedSciences,2024,14(2):489.
[11]Guo Shikai,ChenRong,LiHui,etal.Capability matchingand heuristic search for job assignment in crowdsourced web application testing[C]// Proc of IEEE International Conference on Systems,Man, and Cybernetics.Piscataway,NJ:IEEE Press,2018:4387-4392.
[12]Safran M ,CheDunren.Efficient learning-based recommendation algorithms for top ?N tasks and top .N workers in large-scale crowdsourcing systems[J].ACMTrans on Information Systems,2018,37 (1):articleNo.2.
[13]Wang Junjie,Wang Song,Chen Jianfeng,et al.Characterizing crowds to better optimize worker recommendation in crowdsourced testing[J]. IEEE Trans on Software Engineering,2021,47(6): 1259-1276.
[14]Xu Jun,He Xiangnan,Li Hang.Deep learning for matchingin search and recommendation[J].Foundations and Trends@ in Information Retrieval,2020,14(2-3):102-288.
[15]Assemi B,Jafarzadeh H,AbedinE,et al.Who gets the job?Synthesis of literature findings on provider success in crowdsourcing marketplaces[J].Pacific Asia Journal of the Association for InformationSystems,2022,14(1):40-73.
[16]Lyu Shanshan,OuyangWentao,Shen Huawei,et al.Learning representations for quality estimation of crowdsourced submissions[J].Information Processingamp; Management,2019,56(4):1484-1493.
[17]葉晨,王宏志,高宏,等.面向眾包數(shù)據(jù)清洗的主動學(xué)習(xí)技術(shù) [J].軟件學(xué)報,2020,31(4):1162-1172.(Ye Chen,Wang Hongzhi, Gao Hong, et al. Active learning approach for crowdsourcingenhanced data cleaning[J]. Journal of Software,2020,31(4): 1162- 1172. )
[18]薛嬋.基于深度學(xué)習(xí)的眾包軟件開發(fā)者推薦[D].南京:東南大 學(xué),2022.(Xue Chan. Recommendation of crowdsourcing software developers based on deep learning[D]. Nanjing:Southeast University,2022.)
[19]YangYu,MoWenkai,ShenBeijun,etal.Cold-startdeveloperrecommendation in software crowdsourcing:a topic sampling approach [C]//Proc of the 29th International Conference on Software Engineeringand Knowledge Engineering.[S.1.]:KSIResearch Inc.and Knowledge Systems Institute Graduate School,2017:376-381.
[20]Fu Chao,Xu Dongling,Xue Min.Determining attributeweights for multiple attribute decision analysis with discriminating power in belief distributions[J].Knowledge-Based Systems,2018,143:127-141.
[21]Lyu Wenzhe,Qiu Xuesong,Meng Luoming.Blockchain localization spoofing detection based on fuzzy AHP in IoT systems[J]. EURASIP Journal on Wireless Communications and Networking,2022, 2022(1):13.
[22]Plackett RL.Karl Pearson and the Chi-squared test[J].Revue InternationaledeStatistique,1983,51(1):59-72.
[23]Cai Xingjuan,Hu Zhaoming,Zhao Peng,et al.A hybrid recommendationsystem with many-objective evolutionary algorithm[J].Expert Systemswith Applications,2020,159:113648.
[24]XingQianli,Zhao Weiliang,YangJian,etal.PB-worker:anovel participating behavior-based worker ability model for general tasks on crowdsourcing platforms [C]/′ Proc of IEEE International Conferenceon Web Services.Piscataway,NJ:IEEE Press,2O2O:37-44.
[25]HuangHai,Wang Yongjian,Zong Haoran.Support vector machine classification over encrypted data[J].Applied Intelligence,2022, 52(6) : 5938-5948.
[26]趙雪,李曉會.面向非獨立同分布數(shù)據(jù)的聯(lián)邦梯度提升決策樹 [J].計算機(jī)應(yīng)用研究,2023,40(7):2184-2191.(ZhaoXue,Li Xiaohui. Federated gradient boosting decision tree for non-ID dataset [J].ApplicationResearch of Computers,2023,40(7):2184- 2191.)
[27]丁月,汪學(xué)明.基于改進(jìn)特征加權(quán)的樸素貝葉斯分類算法[J]. 計算機(jī)應(yīng)用研究,2019,36(12):3597-3600,3627.(DingYue, WangXueming. Naive Bayes classification algorithm based on improved feature weighting[J].Application Research of Computers,2019,36(12):3597-3600,3627.)