劉電霆,吳珊,趙思佳,尚磊,葉恒舟
(桂林理工大學(xué) 1.機(jī)械與控制工程學(xué)院;2.信息科學(xué)與工程學(xué)院,廣西 桂林 541004)
眾包[1]作為一種新興群體協(xié)作的模式在各個行業(yè)得到廣泛的應(yīng)用,并有了許多成功的案例[2],如InnoCentive平臺、Kaggle網(wǎng)絡(luò)眾包競賽平臺、威客平臺等。隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)眾包以低成本將地理分布廣泛、文化差別巨大的多個不同創(chuàng)新源匯聚到同一個開放平臺。面向產(chǎn)品創(chuàng)新設(shè)計(jì)時,在執(zhí)行協(xié)作型眾包 (collaborative crowdsourcing) 設(shè)計(jì)任務(wù)的過程中,常常涉及多個領(lǐng)域的專業(yè)知識,需要許多具有不同技術(shù)水平的設(shè)計(jì)者組成團(tuán)隊(duì)參與其中[3]。
在眾包設(shè)計(jì)平臺下,設(shè)計(jì)人員偏好是指其自身主觀意愿和選擇所表現(xiàn)出不同行為,發(fā)包方與接包方在交互過程中的需求和意愿信息能表達(dá)設(shè)計(jì)人員的偏好。當(dāng)設(shè)計(jì)人員分配到符合自身意愿和擅長技能的任務(wù)時,其積極性和任務(wù)的完成質(zhì)量通常會得到提高。在眾包環(huán)境下,平臺對設(shè)計(jì)人員的興趣偏好以及歷史行為活動進(jìn)行梳理,能有效增加任務(wù)分配的準(zhǔn)確性,即利于找到合適的設(shè)計(jì)人員或設(shè)計(jì)團(tuán)隊(duì),以提高設(shè)計(jì)任務(wù)完成的質(zhì)量。
目前,有許多學(xué)者研究設(shè)計(jì)人員偏好問題,但主要是針對單個眾包任務(wù)、考慮單個設(shè)計(jì)人員的興趣偏好。潘仁志等[4]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)交互的用戶屬性偏好建模的推薦模型 (UAMC),從用戶的不同屬性對不同項(xiàng)目的偏好學(xué)習(xí)到用戶更準(zhǔn)確的潛在向量。王曉燕等[5]通過用戶—任務(wù)關(guān)系評價興趣度值的方法并結(jié)合用戶瀏覽內(nèi)容及歷史完成記錄來建立用戶興趣模型。武聰?shù)萚6]提出一種融合用戶標(biāo)簽相似度的矩陣分解算法,更準(zhǔn)確地了解用戶的偏好。Horvath[7]引入3個學(xué)習(xí)任務(wù) (精確性、順序性以及迭代性) 對用戶屬性特征進(jìn)行挖掘,并用于偏好學(xué)習(xí)。Lin等[8]結(jié)合隱式的反饋信息來提取用戶的興趣偏好。
但是,在復(fù)雜產(chǎn)品眾包設(shè)計(jì)項(xiàng)目中,往往需要組建團(tuán)隊(duì)來完成相關(guān)任務(wù)。這要用到團(tuán)隊(duì)發(fā)現(xiàn)方法,按是否利用先驗(yàn)知識,可將其分為無監(jiān)督、半監(jiān)督或有監(jiān)督學(xué)習(xí)等類型?,F(xiàn)有方法在組建團(tuán)隊(duì)時,一般利用無監(jiān)督技術(shù)來確定設(shè)計(jì)成員屬性的權(quán)重或?qū)⑺锌捎脤傩砸暈橥戎匾?。Gunnemann等[9]就提出一種無監(jiān)督的譜權(quán)重聚類方法,用來檢測每個團(tuán)隊(duì)的相關(guān)屬性子集,并構(gòu)建團(tuán)隊(duì)結(jié)構(gòu)。姜東明等[10]提出一種基于圖卷積網(wǎng)絡(luò)模型的無監(jiān)督團(tuán)隊(duì)檢測算法,將半監(jiān)督學(xué)習(xí)方法擴(kuò)展到非監(jiān)督學(xué)習(xí)領(lǐng)域。而半監(jiān)督或有監(jiān)督型團(tuán)隊(duì)發(fā)現(xiàn)方法,考慮用戶給定的約束,挖掘到的團(tuán)隊(duì)內(nèi)部節(jié)點(diǎn)一般是受用戶偏好控制的。Wu等[11]提出一種在目標(biāo)子空間中挖掘目標(biāo)團(tuán)隊(duì)的方法,它是根據(jù)用戶提供的兩個樣本節(jié)點(diǎn)擴(kuò)展到一組樣本節(jié)點(diǎn),從而推導(dǎo)出目標(biāo)屬性權(quán)重并挖掘目標(biāo)團(tuán)隊(duì)的集合。孟彩霞等[12]提出一種基于節(jié)點(diǎn)重要性和節(jié)點(diǎn)相似性的改進(jìn)標(biāo)簽傳播算法(CRJ-LPA) 提高團(tuán)隊(duì)結(jié)構(gòu)劃分的質(zhì)量,還在一定程度上克服了傳統(tǒng)標(biāo)簽傳播算法的隨機(jī)性。王靜紅等[13]提出一種基于節(jié)點(diǎn)相似度的半監(jiān)督團(tuán)隊(duì)發(fā)現(xiàn)算法(SSGN),比其他半監(jiān)督聚類算法更準(zhǔn)確、高效。楊曉光等[14]對現(xiàn)有團(tuán)隊(duì)發(fā)現(xiàn)算法準(zhǔn)確度較低的問題,提出了一種基于中心節(jié)點(diǎn)的團(tuán)隊(duì)發(fā)現(xiàn)算法,提高了團(tuán)隊(duì)發(fā)現(xiàn)的準(zhǔn)確度。然而,現(xiàn)有半監(jiān)督或有監(jiān)督團(tuán)隊(duì)發(fā)現(xiàn)的聚類技術(shù)和標(biāo)簽傳播算法雖然考慮了用戶的偏好,但在聚類過程中一般都是只利用節(jié)點(diǎn)的部分屬性或者是僅考慮節(jié)點(diǎn)的屬性信息[15]。上述的這些方法,主要是從成員屬性角度來考慮團(tuán)隊(duì)的組建。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,陸續(xù)出現(xiàn)其他的團(tuán)隊(duì)發(fā)現(xiàn)算法。其中,Louvain算法是一種基于模塊度的團(tuán)隊(duì)發(fā)現(xiàn)算法,被認(rèn)為是效率最快的算法之一。Louvain算法整體上分為兩個階段:在階段1中將相似的節(jié)點(diǎn)歸為一類,在階段2中將同一類的節(jié)點(diǎn)合并為一個大的聚合節(jié)點(diǎn),然后重復(fù)階段1。目前,不少學(xué)者利用Louvain算法進(jìn)行團(tuán)隊(duì)發(fā)現(xiàn),主要關(guān)注所發(fā)現(xiàn)團(tuán)隊(duì)的質(zhì)量或算法的效率。褚葉祺等[16]利用Louvain算法對C-DBLP作者發(fā)文合作關(guān)系的數(shù)據(jù)進(jìn)行了團(tuán)隊(duì)劃分,有效地揭示了各個學(xué)科之間不同的合作交流模式,但僅考慮了節(jié)點(diǎn)之間的鏈接度。吳祖峰等[17]針對設(shè)計(jì)者網(wǎng)絡(luò)中出現(xiàn)的葉子節(jié)點(diǎn)進(jìn)行剪枝處理,提高Louvain算法的運(yùn)行效率。但是,基于模塊度的團(tuán)隊(duì)發(fā)現(xiàn)方法考慮的是網(wǎng)絡(luò)成員之間的連接關(guān)系。
針對上述問題,本文綜合考慮團(tuán)隊(duì)成員興趣各不相同的因素等屬性,利用改進(jìn)模塊度的S_Louvain算法對團(tuán)隊(duì)成員偏好和結(jié)構(gòu)相似度進(jìn)行融合,從而提高團(tuán)隊(duì)的可靠性和連結(jié)性,促進(jìn)眾包任務(wù)的成功完成。
記網(wǎng)絡(luò)G={V,E,F} 為屬性圖,其中V={υ1,υ2,···,υn}表 示網(wǎng)絡(luò)中節(jié)點(diǎn)的集合,n為節(jié)點(diǎn)數(shù);E={e11,e12,···,enn}表 示節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系,若節(jié)點(diǎn) υi和υj之間存在連邊,則eij=1,否則eij=0;F={f1,f2,···,fr}表示節(jié)點(diǎn)的屬性集,對于給定節(jié)點(diǎn) υ ∈V,其屬性列向量可表示為f(υ)=[fυ1,fυ2,···,fυr]T。
設(shè)計(jì)者節(jié)點(diǎn)的偏好歸于屬性范疇,其相關(guān)的屬性值反映了節(jié)點(diǎn)的偏好,常用自然語言的詞語來表達(dá)。而詞向量 (word embedding) 作為自然語言處理(NLP) 中重要的基礎(chǔ),為數(shù)據(jù)中文本、情感、詞義等方面的分析提供了有力的幫助。詞向量主要是將詞轉(zhuǎn)化為稠密的向量,使相似的詞,其對應(yīng)的詞向量也相近。在本文中,利用它將設(shè)計(jì)者偏好的屬性特征轉(zhuǎn)化為向量形式,從而計(jì)算設(shè)計(jì)者間偏好的屬性相似度。對于給定設(shè)計(jì)者節(jié)點(diǎn)u和 υ偏好的屬性相似度計(jì)算公式為
其中,∥f(u)-f(υ)∥表 示節(jié)點(diǎn)u、υ偏好的屬性列向量的差值二范式;R(u,υ)的取值范圍在[0,1]之間。
考慮網(wǎng)絡(luò)節(jié)點(diǎn)的拓?fù)潢P(guān)系時,Jaccard相似度常用于比較兩個樣本集之間的相似性和差異性,且易于計(jì)算。參照J(rèn)accard相似度的計(jì)算方法,對于給定節(jié)點(diǎn)u和 υ 的結(jié)構(gòu)相似度計(jì)算公式為
其中,G(u)表 示節(jié)點(diǎn)u的鄰居節(jié)點(diǎn)集合;G(υ)表示節(jié)點(diǎn) υ的鄰居節(jié)點(diǎn)集合;J(u,υ)的取值范圍在[0,1]之間。Jaccard值越大,說明兩個節(jié)點(diǎn)之間的結(jié)構(gòu)相似度越高。
模塊度是Newman[18]提出來用以衡量一個網(wǎng)絡(luò)團(tuán)隊(duì)劃分結(jié)果的指標(biāo)。對于一個理想化的劃分結(jié)果,其表現(xiàn)形式為在團(tuán)隊(duì)內(nèi)部節(jié)點(diǎn)的鏈接度盡可能的高,與團(tuán)隊(duì)外部節(jié)點(diǎn)的鏈接度盡可能低,即團(tuán)隊(duì)劃分質(zhì)量越高對應(yīng)的模塊度Q越大。Q的取值范圍在[-0.5,1) 之間。研究表明,當(dāng)Q的值在0.3~ 0.7之間時,說明團(tuán)隊(duì)劃分的效果較好。模塊度Q可表示為
其中,∑in表 示團(tuán)隊(duì)c內(nèi)的邊的權(quán)重之和;m表示網(wǎng)絡(luò)的總邊數(shù);∑ tot表 示團(tuán)隊(duì)c與其他團(tuán)隊(duì)連邊的權(quán)重和。
Newman[18]將模塊度Q的概念嵌入到網(wǎng)絡(luò)社團(tuán)劃分中,但該方法僅考慮了團(tuán)隊(duì)成員與鄰居節(jié)點(diǎn)的關(guān)系,而忽略了團(tuán)隊(duì)內(nèi)成員的偏好相似度等屬性。按其方法,若一位成員與某團(tuán)隊(duì)內(nèi)成員沒有連邊關(guān)系,即使其與該團(tuán)隊(duì)內(nèi)成員的偏好相似度極高也不會被納入到該團(tuán)隊(duì)中,這顯然不太合理。
Louvain算法是一種基于模塊度優(yōu)化的團(tuán)體發(fā)現(xiàn)算法,是目前公認(rèn)速度較快、效率較高的團(tuán)隊(duì)檢測算法之一。該算法可被劃分為節(jié)點(diǎn)的局部移動和網(wǎng)絡(luò)團(tuán)隊(duì)聚合兩個階段[19]。首先將每個用戶節(jié)點(diǎn)看成一個單獨(dú)的團(tuán)體,并對其做標(biāo)識。對于每個節(jié)點(diǎn)i,找到其全部鄰居節(jié)點(diǎn),分別計(jì)算若將節(jié)點(diǎn)i從當(dāng)前所在團(tuán)體移至其鄰居節(jié)點(diǎn)j所在的團(tuán)體,所產(chǎn)生的模塊度增益的大小 ?Q。若m ax?Q大于0,則將節(jié)點(diǎn)i加入到節(jié)點(diǎn)j所在的團(tuán)體,否則節(jié)點(diǎn)i仍保持在原來的團(tuán)體。依次迭代上述步驟,直至所有節(jié)點(diǎn)所屬的團(tuán)隊(duì)不再變化。然后初始化整個圖,將分區(qū)中的每個團(tuán)體稱為聚合網(wǎng)絡(luò)中的聚合節(jié)點(diǎn),按照上一階段的方式進(jìn)行迭代歸類,直到團(tuán)隊(duì)之間不能再合并為止。
雖然Louvain算法速度較快且思想簡單,但是如果團(tuán)隊(duì)過大會導(dǎo)致不能及時收斂,即團(tuán)隊(duì)在聚類的過程中沒能及時收斂。因?yàn)長ouvain算法是針對節(jié)點(diǎn)進(jìn)行遍歷的,容易將一些外圍的節(jié)點(diǎn)加入到原本緊湊的團(tuán)隊(duì)中,從而導(dǎo)致一些錯誤的合并。其中,一個關(guān)鍵問題是Louvain算法是一種基于模塊度的團(tuán)隊(duì)發(fā)現(xiàn)方法,即主要依據(jù)成員之間的鏈接關(guān)系,而沒有考慮成員之間的偏好相似度等屬性。
為了解決傳統(tǒng)團(tuán)隊(duì)發(fā)現(xiàn)方法主要偏重成員之間的偏好相似度屬性,而沒有將其與成員之間的結(jié)構(gòu)相似度結(jié)合考慮,或從團(tuán)隊(duì)模塊度出發(fā)僅考慮團(tuán)隊(duì)成員與鄰居節(jié)點(diǎn)的鏈接關(guān)系,而忽略成員之間的偏好相似度等屬性的問題,本文在傳統(tǒng)Louvain算法基礎(chǔ)上,綜合考慮團(tuán)隊(duì)成員的偏好相似度和結(jié)構(gòu)相似度來選擇有一定關(guān)聯(lián)、有可能組成團(tuán)隊(duì)的候選節(jié)點(diǎn)集,并提出一種新的基于偏好相似度的模塊度函數(shù),從而避免了沒有邊連接的成員被遺漏在所劃入團(tuán)隊(duì)之外的問題,在一定程度上提高了團(tuán)隊(duì)劃分的準(zhǔn)確度。
2.1.1 目標(biāo)團(tuán)隊(duì)候選節(jié)點(diǎn)采集
在社會關(guān)系中,考慮節(jié)點(diǎn)的結(jié)構(gòu)相似性時,如共同鄰居越多,則成員具有相同類別的可能性越大;但是僅考慮成員之間在網(wǎng)絡(luò)拓?fù)渲械慕Y(jié)構(gòu)相似性并不全面,成員之間由于存在偏好不同也有可能導(dǎo)致其類別不同,從而需要將其劃歸為不同的團(tuán)隊(duì)。因此,在組建團(tuán)隊(duì)時需要綜合考慮節(jié)點(diǎn)的偏好相似度和結(jié)構(gòu)相似度,這樣組建的團(tuán)隊(duì)則更加緊湊,團(tuán)隊(duì)內(nèi)部信息流通更快。本文結(jié)合1.1小節(jié)和1.2小節(jié)中節(jié)點(diǎn)的偏好相似度和結(jié)構(gòu)相似度來挖掘候選節(jié)點(diǎn)集。考慮團(tuán)隊(duì)成員之間的綜合相似度,具體計(jì)算公式為
其中,wR和wJ分別為偏好相似度和結(jié)構(gòu)相似度的權(quán)重。
對于給定網(wǎng)絡(luò)圖G={V,E,F},本文以用戶給定的設(shè)計(jì)者節(jié)點(diǎn)作為目標(biāo)團(tuán)隊(duì)的種子節(jié)點(diǎn),從而擴(kuò)展得到候選節(jié)點(diǎn)集。初始化目標(biāo)團(tuán)隊(duì)候選節(jié)點(diǎn)Z={z},具體計(jì)算公式為
其中,β為相似度閾值;一般來說,可以認(rèn)為偏好相似度和結(jié)構(gòu)相似度同等重要,即權(quán)值wR和wJ都取0.5。然后,根據(jù)式 (5) 擴(kuò)展可以得到團(tuán)隊(duì)的候選節(jié)點(diǎn)集Z={z1,z2,···,zc}。其中,c表示候選節(jié)點(diǎn)集的節(jié)點(diǎn)個數(shù)。
2.1.2 改進(jìn)的模塊度函數(shù)
傳統(tǒng)Louvain算法是一種基于模塊度的團(tuán)隊(duì)發(fā)現(xiàn)算法,而其常用的模塊度計(jì)算僅考慮團(tuán)隊(duì)成員與鄰居節(jié)點(diǎn)的鏈接關(guān)系,可能導(dǎo)致偏好屬性相同但沒有邊連接的成員被遺漏在所劃入團(tuán)隊(duì)之外的問題。為此本文考慮成員的偏好相似度,對傳統(tǒng)Louvain算法的模塊度函數(shù)進(jìn)行改進(jìn),具體計(jì)算公式為
其中,S表示所有節(jié)點(diǎn)偏好的屬性相似度之和;Rij表示節(jié)點(diǎn)i和節(jié)點(diǎn)j的偏好的屬性相似度。
本文在給定圖G={V,E,F}的基礎(chǔ)上,先按式 (1)和式 (2) 分別計(jì)算所有節(jié)點(diǎn)的屬性相似度和結(jié)構(gòu)相似度;并通過式 (4) 計(jì)算節(jié)點(diǎn)的綜合相似度;再通過式 (5) 計(jì)算候選節(jié)點(diǎn)集,將候選節(jié)點(diǎn)集運(yùn)用到團(tuán)隊(duì)劃分的過程中;然后,通過式 (6) 的模塊度函數(shù)來更新優(yōu)化團(tuán)隊(duì),直到所有節(jié)點(diǎn)的所屬團(tuán)隊(duì)不再變化為止,得到團(tuán)隊(duì)劃分的最后結(jié)果。
算法具體流程如下。
1) 將圖中每個節(jié)點(diǎn)看成一個獨(dú)立的團(tuán)體,此時團(tuán)體總數(shù)等于節(jié)點(diǎn)總數(shù)。
2) 對于非種子節(jié)點(diǎn)i,計(jì)算其鄰居節(jié)點(diǎn)所屬團(tuán)隊(duì)的模塊度增益,若其鄰居節(jié)點(diǎn)團(tuán)隊(duì)中含有種子節(jié)點(diǎn)且這些團(tuán)隊(duì)的 max?Q>0,則優(yōu)先將節(jié)點(diǎn)i移動到與max?Q相對應(yīng)的團(tuán)隊(duì)中;否則計(jì)算將其移動到不含種子節(jié)點(diǎn)團(tuán)隊(duì)的m ax?Q,如果此m ax?Q>0,則將節(jié)點(diǎn)i移動到與 max?Q相對應(yīng)的團(tuán)隊(duì)中;如果不滿足上述情況,則節(jié)點(diǎn)i隸屬的團(tuán)隊(duì)保持不變。種子節(jié)點(diǎn)之間不合并。
3) 迭代流程2),直到所有節(jié)點(diǎn)的所屬團(tuán)體不再變化。
4) 對各個團(tuán)體所有的節(jié)點(diǎn)進(jìn)行壓縮,使其成為一個新的聚合節(jié)點(diǎn),團(tuán)體內(nèi)節(jié)點(diǎn)權(quán)重轉(zhuǎn)化為新聚合節(jié)點(diǎn)的環(huán)權(quán)重,團(tuán)體間的權(quán)重轉(zhuǎn)化為新聚合節(jié)點(diǎn)邊的權(quán)重。
5) 重復(fù)流程1) 到流程4),直至整個網(wǎng)絡(luò)的模塊度不再發(fā)生變化。
本文提出的偏好和結(jié)構(gòu)相似度融合的團(tuán)隊(duì)發(fā)現(xiàn)方法,即在整個網(wǎng)絡(luò)中計(jì)算所有節(jié)點(diǎn)的偏好相似度和結(jié)構(gòu)相似度,并通過式 (5) 擴(kuò)展得到候選節(jié)點(diǎn)集;利用候選節(jié)點(diǎn)集,按式 (6) 的改進(jìn)模塊度函數(shù)來更新優(yōu)化設(shè)計(jì)團(tuán)隊(duì)。算法的時間復(fù)雜度包括3階段:第1階段為計(jì)算節(jié)點(diǎn)的偏好相似度和結(jié)構(gòu)相似度的時間開銷;第2階段為計(jì)算候選節(jié)點(diǎn)集的時間開銷;第3階段為更新優(yōu)化團(tuán)隊(duì)劃分的時間開銷。
記網(wǎng)絡(luò)G={V,E,F} 的節(jié)點(diǎn)為n,邊數(shù)為m,第1階段計(jì)算圖中節(jié)點(diǎn)與節(jié)點(diǎn)之間的偏好相似度和結(jié)構(gòu)相似度所需的時間為O(n2),第2階段計(jì)算候選節(jié)點(diǎn)集的時間為O(n),第3階段團(tuán)隊(duì)劃分所需時間為O(nc+n′c)。其中,c為移動一個節(jié)點(diǎn)所需的時間;n′為聚合后的節(jié)點(diǎn)個數(shù)。本文算法的整體時間復(fù)雜度如表1所示。
表1 算法運(yùn)行各階段時間復(fù)雜度Table 1 Time complexity at each stage of the algorithm
為了驗(yàn)證上述方法的有效性及實(shí)用性,分別在兩個公開數(shù)據(jù)集以及工程實(shí)例上進(jìn)行實(shí)驗(yàn)。首先,對算法過程進(jìn)行描述,然后對實(shí)驗(yàn)所用到的公開數(shù)據(jù)集和眾包工程實(shí)例數(shù)據(jù)集進(jìn)行描述。最后將本文算法與改進(jìn)前的算法進(jìn)行對比分析。
3.1.1 公開數(shù)據(jù)集
選取了Polbooks數(shù)據(jù)集和MovieLens數(shù)據(jù)集進(jìn)行驗(yàn)證。Polbooks是由在線書商Amazon出售的關(guān)于美國政治的書籍網(wǎng)絡(luò),其中節(jié)點(diǎn)代表書籍,邊代表同一個用戶購買了這兩本書,屬性代表書籍的資料信息。MovieLens是經(jīng)典的電影評分?jǐn)?shù)據(jù)集,根據(jù)其大小不同可分為3個不同的版本[20]。本文采用MovieLens-25M數(shù)據(jù)集,該數(shù)據(jù)集中節(jié)點(diǎn)代表電影,邊代表共同看過該電影的用戶,屬性代表電影的主題信息。預(yù)處理后的真實(shí)數(shù)據(jù)信息詳情見表2。
表2 真實(shí)數(shù)據(jù)集Table 2 The real dataset
3.1.2 眾包工程實(shí)例數(shù)據(jù)集
由于設(shè)計(jì)人員的數(shù)據(jù)搜集難度較大,本文整理了某眾包平臺工業(yè)智造領(lǐng)域的150名設(shè)計(jì)用戶,針對他們測試S_Louvain算法,來體現(xiàn)該算法的實(shí)用性。該數(shù)據(jù)集的節(jié)點(diǎn)代表設(shè)計(jì)人員,邊代表用戶的專業(yè)領(lǐng)域,屬性則為設(shè)計(jì)人員的興趣偏好 (即設(shè)計(jì)用戶完成的歷史任務(wù)類型);從眾包平臺上可查詢到設(shè)計(jì)用戶完成的歷史任務(wù),獲取設(shè)計(jì)用戶的興趣愛好,具體用戶 (選取數(shù)據(jù)中的10位設(shè)計(jì)用戶) 興趣偏好見表3。
表3 設(shè)計(jì)用戶的興趣偏好Table 3 Interests and preferences of design users
其中,這150名設(shè)計(jì)用戶所涉及的興趣偏好總數(shù)為77種,所涉及領(lǐng)域可分為產(chǎn)品設(shè)計(jì)、機(jī)械設(shè)計(jì)、模具設(shè)計(jì)制造、智能產(chǎn)品設(shè)計(jì)、3D建模與打印、電路設(shè)計(jì)、嵌入式開發(fā)、電力電子開發(fā)、智能解決方案、生產(chǎn)采購、制造自動化等領(lǐng)域。
為了驗(yàn)證本文方法的有效性,以模塊度指標(biāo)作為衡量標(biāo)準(zhǔn),在傳統(tǒng)Louvain算法和S_Louvain算法上進(jìn)行比較,具體結(jié)果如表4和圖1所示。圖2~ 4分別為3個數(shù)據(jù)集在S_Louvain算法上得到的劃分結(jié)果,其中,顏色相同代表屬于同一團(tuán)隊(duì)的成員,不同顏色代表屬于不同團(tuán)隊(duì)的成員。
圖1 不同算法在數(shù)據(jù)集上的Q 值比較Figure 1 Comparison of Q values of different algorithms on datasets
圖2 S_Louvain算法在polbooks數(shù)據(jù)集上的分類結(jié)果Figure 2 Classification results of S_Louvain algorithm on polbooks datasets
圖3 S_Louvain算法在movieLens數(shù)據(jù)集上的分類結(jié)果Figure 3 Classification results of S_Louvain algorithm on movieLens datasets
表4 方法對比Table 4 Comparison of methods
由表4中的結(jié)果可知,相比于傳統(tǒng)Louvain算法,改進(jìn)模塊度的S_Louvain算法在Polbooks數(shù)據(jù)集上模塊度指標(biāo)增加了4.895%,MovieLens-25M數(shù)據(jù)集上模塊度指標(biāo)增加了0.613%,眾包工程實(shí)例數(shù)據(jù)集上模塊度增加了2.740%。圖1清晰地展示了本文所提的算法和對比算法模塊度Q的比較。圖2~4顯示了3個數(shù)據(jù)集在本文算法上的團(tuán)隊(duì)劃分結(jié)果。由圖4的團(tuán)隊(duì)劃分結(jié)果可視化可知,150名設(shè)計(jì)人員被算法S_Louvain很好地劃分為5個團(tuán)隊(duì)。
圖4 S_Louvain算法在眾包數(shù)據(jù)集上的分類結(jié)果Figure 4 Classification results of S_Louvain algorithm on crowdsourced datasets
測試結(jié)果表示,無論是在公開數(shù)據(jù)集上還是眾包工程實(shí)例數(shù)據(jù)集上,改進(jìn)模塊度的S_Louvain算法都能在一定程度上提高團(tuán)隊(duì)內(nèi)成員之間的連結(jié)強(qiáng)度,即模塊度,且綜合考慮團(tuán)隊(duì)成員的興趣偏好,能更好地為團(tuán)隊(duì)分配合適的眾包任務(wù)。
針對眾包平臺在組建團(tuán)隊(duì)過程中存在成員偏好不一的問題,提出一種改進(jìn)模塊度指標(biāo)策略的S_Louvain算法。該算法相比傳統(tǒng)Louvain算法,在迭代更新模塊度增益的步驟中充分考慮了眾包團(tuán)隊(duì)成員之間的興趣偏好相似度以及結(jié)構(gòu)相似度,能使組建的團(tuán)隊(duì)之間具有更強(qiáng)的連接度。為驗(yàn)證所提算法的可行性和實(shí)用性,分別在公開數(shù)據(jù)集和眾包工程實(shí)例數(shù)據(jù)集上進(jìn)行試驗(yàn)。實(shí)驗(yàn)結(jié)果表明,S_Louvain算法在polbooks數(shù)據(jù)集上模塊度指標(biāo)提升4.895%,在工程實(shí)例數(shù)據(jù)集上,模塊度指標(biāo)提升2.740%;S_Louvain算法在模塊度指標(biāo)上均得到提高,在一定程度上加強(qiáng)了團(tuán)隊(duì)內(nèi)成員之間的連結(jié)強(qiáng)度。這說明S_Louvain算法可用于解決眾包平臺團(tuán)隊(duì)組建中的成員偏好融合問題上。在下一步的工作中,將研究如何將協(xié)作設(shè)計(jì)眾包任務(wù)模塊推薦給眾包團(tuán)隊(duì),進(jìn)一步提高眾包任務(wù)完成的效率以及成功率。