明曉樂, 江長柱, 周蓓蓓
(江蘇科技大學 計算機科學與工程學院, 江蘇 鎮(zhèn)江 212003)
知識社區(qū)(Knowledge Community)是一種新型的、交互的、開放的新型知識社區(qū)模式,更好地滿足了用戶的個性化的知識服務需求。Web2.0 時代,知識社區(qū)以用戶服務為中心,以專家與用戶的知識交互為核心,用戶是知識社區(qū)中的提問者和評價者,專家則是知識的提供者和問題的解決者。 目前,利用(Yahoo! Answers)和百度知道等為代表的知識社區(qū),專家、用戶可以方便地參與知識的交流和共享。 然而,如果專家不能夠持續(xù)地回答用戶的提問、 不能夠貢獻知識來幫助用戶,知識社區(qū)就不能夠實現共享知識的價值。 知識社區(qū)的建立最大的挑戰(zhàn)在于專家知識的供給,也就是專家是否愿意向其他用戶貢獻自己的專業(yè)知識。 知識社區(qū)被用戶歡迎的魅力并不是構建的技術,而是擁有大量的專家以及專家為知識社區(qū)中做出的巨大貢獻。 知識社區(qū)的可持續(xù)性以及它的繁榮程度取決于該社區(qū)的專家成員規(guī)模和他們所貢獻的內容。 因此, 知識社區(qū)的成功構建和持續(xù)發(fā)展關鍵在于專家們(Experts)的知識貢獻,本文研究知識社區(qū)中的專家貢獻度評價方法,從而激勵專家們?yōu)橹R社區(qū)做出更多的貢獻。
知識社區(qū),是基于用戶與專家之間相互交流行為,用來共享、傳播和獲取知識,具有傳播、共享和互動很快很強的特點。 知識社區(qū)中,用戶可以隨時提出問題,并根據自己的意愿公開尋找專家回答。 用戶選擇指定的專家回答或者任何專家都可以回答。 專家的貢獻度能力是指用自己的專業(yè)知識,回答用戶提出的問題的一種能力,是專家在知識社區(qū)中的重要性的衡量。 大量的活躍的專家、高質量的問答信息,使得知識社區(qū)成為重要的、廣泛應用的知識共享和拓展平臺,對用戶的日常生活和工作產生越來越大的影響。 專家貢獻度能力是專家在知識社區(qū)中行為的重要性衡量。 本文研究了知識社區(qū)中用戶與專家的交互行為,包括用戶提出問題、專家回復問題、用戶采納答案、用戶評價答案等。 本文研究了知識社區(qū)中專家活動的行為特征, 構建了專家貢獻度的評價指標體系,提出了一種基于PageRank 的專家貢獻度的評價算法模型。
對現有的相關知識社區(qū)的文獻閱讀,國內外對于專家的貢獻及其評價的研究相對較少,已有的主要有下面的幾種文獻研究:葉順[1]提出知識、個人和環(huán)境3 個因素來評價知識貢獻,在虛擬社區(qū)中,構建了一個新的個體知識貢獻模型,采取問卷調查的方式, 分析促進個體貢獻知識的關鍵因素有五種,分別是自我的效能、自我的形象、樂于助人、信任和系統(tǒng)的可用性。 顧巍以及關培蘭[2]設計、構建了研發(fā)人員對知識的貢獻評價模型,從6 個方面來評價,有知識的結構的完善、知識的顯性化的難度、 企業(yè)知識存量與知識增量的耦合度、知識發(fā)揮的作用、知識的可破解性、知識的可破解性等等。 吳繼蘭[3]提出了基于平衡積分卡績效評價的員工知識結構及知識貢獻的指標體系,從體系結構的角度建立了企業(yè)知識。 蔣甜甜、經懷明和劉心報[4]等采用群體層次分析法,考評工作能力、學習與改善、工作業(yè)績、綜合素質與道德品格這4 個因素對知識貢獻度的影響。 張建華和劉仲英[5]構建了員工的知識貢獻考核的指標體系,在此基礎上建立了員工知識貢獻等級排名的評測方法,并且設計了評價員工知識貢獻等級的獎懲方法。 肖媛[6]從行為可分為可觀察與不可觀察的這兩個角度評價員工的知識貢獻能力, 在此基礎上構建了評價考核模型。 金曉玲[7]探討了問答社區(qū)中用戶回答問題的持續(xù)性和用戶的滿意度、知識自我效能相互之間的聯(lián)系,并且研究了用戶的滿意度與知識自我效能是否與知識貢獻的績效有關,最后通過實驗得出如何調節(jié)用戶在社區(qū)中的被承認度傾向。
多個因素共同作用和影響知識社區(qū)中的專家貢獻度,專家收到的用戶的“贊同數”( the number of followers)是一個蠻重要的影響因素。 可以使用“贊同數”來體現專家的受用戶的關注程度。 贊同數雖然從一定程度上可以體現出專家對社區(qū)的貢獻度,但是更多地呈現了專家的人氣特別的旺盛或者專家比較受歡迎,其實就是專家吸引用戶的能力,但知識社區(qū)中的一些僵尸用戶隨意點贊,或者專家讓朋友點贊來獲得知識社區(qū)的知名度,這就使得點贊數并不真實。 因此,采用這個因素評價專家貢獻度時需要考慮存在的不真實問題。 從行為的執(zhí)行者和行為的被執(zhí)行者角度,將知識社區(qū)中專家的行為分成主動的與被動的兩種。 知識社區(qū)中專家的主動行為有回答問題的數量、幫助過的人數、給自己貼的領域標簽等等。 其中最主要有回答問題的數量、幫助過的人數。 專家的被動行為包括被用戶關注、被用戶點贊、答案被評為優(yōu)質回答數等。
Sergey Brin(謝爾蓋·布林)和Lawrence Page(拉里·佩奇)在1998 年提出了PageRank[8]算法,同年J.Kleinberg(J·克萊因伯格)提出了HITS 算法。 PageRank 是根據網頁之間存在的鏈入與鏈出的關系,來計算搜索引擎中網頁的排名。PageRank 是Google 用來衡量網頁的重要程度和等級。 PR 的值越大說明該網頁重要性越強。PageRank 就相當于一個用戶,是指用戶隨機地在Internet 上單擊鏈接會到達特定網頁的可能性。 一般來說, 從更多地方通過鏈接能夠單擊到達的網頁的重要性比其他網頁要高,具有的PageRank 的值也就越大。
PageRank 算法的核心思想是利用了網頁之間的相互鏈接的結構,統(tǒng)計網頁被鏈接的次數,就能計算網頁的重要性,如果網頁A 有一個鏈接指向B, 就等于A 給B 投了一票,排名系統(tǒng)統(tǒng)計網頁收到的投票數量來計算該網頁的重要性。PageRank 算法是可以衡量網絡中的節(jié)點的重要性的經典算法,該算法基于網絡拓撲圖上的相互鏈接關系,計算網頁的重要性。 PageRank 算法的表達式為:
其中,P1,P2,P3,…,PN表示的是被評價頁面,O(Pj)表示從頁面Pj鏈出到其他特定頁面的鏈接數目集合,E(Pi)是鏈入到頁面Pi的鏈接數目集合,d 表示阻尼因子,表示在瀏覽某個頁面后,用戶繼續(xù)以(1-d)的概率單擊瀏覽由這個頁面鏈出的某個頁面,或者以d 的概率重新選擇單擊一個隨機的頁面瀏覽。根據上述的公式我們得出,如果一個網頁有很多鏈入的網頁,說明很多的其它的網頁默認為這個網頁重要性很高; 如果PageRank 的值很高的網頁指向這個網頁,說明重要性很高的網頁認為這個網頁的重要性是極其高的, 即可以認為這個網頁的權威度很高; 如果別的網頁只有一個網頁鏈出且指向這個網頁,那么就說明別的網頁只認為這個網頁最重要,因此推薦的可能性就更大。 但是, 該算法的存在問題有: 網頁的PageRank 的值是均勻地分散開傳遞到鏈出的網頁上去的,卻忽略了網頁本身的重要性。 本文在評價知識社區(qū)中的專家貢獻度中應用PageRank 算法的時候將專家自身屬性的特征,作為分配PageRank 值時的考慮因素。
本文在評價知識社區(qū)中專家的貢獻度時, 根據專家自身屬性的行為特征,構建了3 個評價指標,它們分別是專家的活躍度、收到用戶的點贊數、優(yōu)質回答數。
2.2.1 專家的活躍度
如果專家在知識社區(qū)中不夠活躍, 自身知識的發(fā)布活躍度不夠,解決用戶問題的能力也比較弱,該專家對知識社區(qū)的貢獻度是有限的。 因此,在知識社區(qū)中,從以下兩個角度對專家的活躍度進行分析評價:1)發(fā)表知識的數量,知識社區(qū)中專家發(fā)表知識體現了專家的積極態(tài)度,知識數量發(fā)表的越多,表明專家更愿意表達自己的知識愿望, 從而專家對知識社區(qū)的投入貢獻度也越大;2)回答問題的數量,專家看到他感興趣的問題,有能力解決的問題,進而回答用戶提出的問題,回答的問題數量越多,也能迅速提高專家對知識社區(qū)的貢獻度。在知識社區(qū)中, 定義專家的活躍度為專家在一個月內 (單位時間內) 發(fā)表知識和回答用戶的問題的平均次數(average frequency)。 表達式為
其中,AFi表示專家i 的最近的活躍度,TNi是專家i 在單位時間內發(fā)表知識和回答用戶的問題數量的總數(total number),CPi為統(tǒng)計的單位周期(count period)。本文統(tǒng)計的單位周期暫定為一個月,即CPi=30 天。
2.2.2 專家的受歡迎度
專家的受歡迎度反映了用戶對專家回答問題的質量的滿意度。 將該指標定義為用戶j 曾經采納專家i 的答案與專家i所回答問題的總的比率(rate of adoption)。 表達式為
其中,AA(i,j)是專家i 回答的問題被用戶j 采納(adopt answer)的次數,AQ(i)為專家回答問題(answer question)的數量。如果用戶j 在統(tǒng)計周期內高頻率地采納專家的回答答案,說明用戶j 對專家i 所回答的答案比較認可,也就是感興趣,今后該用戶更傾向于向該專家提出問題并采納專家的答案。RA(i,j)是將專家的受歡迎度的進行了歸一化。
2.2.3 專家的知識貢獻能力
綜合了專家的活躍度和專家的受歡迎度這兩個指標,提出新的概念為專家的知識貢獻能力(contribution),表示專家i受用戶j 的歡迎度與專家i 在知識社區(qū)中的活躍度的乘積,表達式為
通過以上表達式我們得出,本文提出的指標專家在知識社區(qū)中的知識貢獻能力, 能夠反映專家i 在統(tǒng)計的單位周期內貢獻給用戶j 的平均的知識量大小, 也表示了一定程度上專家i 解決了用戶j 的平均的能力大小。
在PageRank 算法中,由于網頁的PageRank 值是均勻地傳遞到鏈出的網頁上, 沒有考慮該網頁本身的重要性程度。因此為了更加全面地評價專家對知識社區(qū)的貢獻,本文將專家回答用戶問題時影響專家自身屬性的行為特征的一些因素添加到傳統(tǒng)的算法中。
算法的核心思想是將本文定義的專家的知識貢獻能力因素作為影響專家權威度值的傳遞因素, 專家的知識貢獻能力越高, 獲得貢獻度的值也就越高, 相對應的知識貢獻能力越低,獲得的貢獻度的值也就越低,這樣就避免了貢獻度的值均勻傳遞帶來的影響, 解決了只依靠用戶與專家相互鏈接的關系來排名的問題,使得專家貢獻度排名更加地客觀真實。 基于PageRank 算法的expert contribution rank 算法表達式為
其中,為了保證計算的最終結果能夠收斂,d 取0.25,f(e)為向專家e 提問的用戶好友的集合,C(e,u)是用戶u 分配給專家e 的ECR 值的比例值,依據專家e 知識的貢獻能力占用戶u 的所有回答過用戶u 的專家知識貢獻能力之和的大小決定,假設用戶u 有N 個回答過用戶u 問題的專家,那么用戶u分配給專家e 的ECR 值比例為
假使所有專家的ECR 在初始值為1,然后經過多數次的迭代后ECR 值逐漸趨于收斂,就能得到知識社區(qū)中中的所有專家的ECR 值。
本文研究的重點是知識社區(qū)中的專家與用戶之間的交流行為。 交互行為包括用戶提出問題、專家回答問題、用戶采納答案、用戶關注專家、專家被關注等。 實驗語料選取的數據來源是百度知道, 通過百度知道的開放的API 得到了相關的數據,將收集到語料按照以下方式存儲進行統(tǒng)計:
1)專家表 專家的ID、專業(yè)領域、被用戶贊數、幫助用戶數、回答問題數、被采納數;
2)問題表 問題的ID、提問用戶的ID、提問時間、問題標題、問題內容、被咨詢專家的ID;
3)用戶表 用戶的ID、關注的專家ID;
4)問題統(tǒng)計表 問題的ID、專家的回復數、訪問數、好評的總數。
語料數據采集后處理的流程見下圖1。
圖1 數據采集與處理流程圖Fig. 1 The flow chart of data acquisition and processing
通過API 訪問接口后, 共得到了6 235 個專家的數據信息,數據信息統(tǒng)計情況見表1。
表1 語料集的描述Tab. 1 A description of the language set
表2 知識社區(qū)中專家貢獻度排名前十的專家(PageRank)Tab. 2 Contribution of the top 10 experts in knowledge community (PageRank)
經過PageRank 算法與本文提出的expert contribution rank 算法,計算了知識社區(qū)中的專家的貢獻度排名,得到了專家貢獻度的排名前十的結果。 兩種算法得到的影響力排名前十的專家結果分別見表2 和表3。
對比兩種算法,發(fā)現專家貢獻度的排名中,前3 名的用戶排名不變, 表明PageRank 算法與expert contribution rank算法在專家貢獻度的排名上是總體上接近的。 但是, 因為PageRank 算法僅僅考慮專家與用戶之間的鏈接關系這個因素,專家的用戶點贊數數量主要決定了貢獻度的值。 比如專家名為“咪哞厷”的這個專家,其回答用戶的問題數量(回答數)園園高于排在其前面的幾位,但經過分析發(fā)現其回答問題被用戶采納的數量和質量均較低,并且其中有不少的用戶隨意對該專家點贊,可能是該專家的朋友,點贊數和受歡迎度不真實。 因此通過expert contribution rank 算法的計算,這位專家的排名比PageRank 算法得到的排名要靠后了。 我們還發(fā)現, 兩種算法所得的專家貢獻度的排名在第5 到第10位落差較大,原因是expert contribution rank 算法較PageRank算法關注了專家自身屬性的的行為特點, 專家的活躍度、專家的受歡迎度、專家的答案被采納數是導致排名改變的原因之一。
表3 知識社區(qū)中專家貢獻度排名前十的專家(expert contribution rank)Tab.2 Knowledge in the community contribution of the top 10 experts (expert contribution rank)
由于引入了專家自身屬性的行為特點,因此算法的執(zhí)行效率上發(fā)生了變化, 增加算法的復雜度,expert contribution rank 算法較PageRank 算法下降了不少。 如圖2 為兩種算法經過了迭代40 次后,對不同規(guī)模、不同能力的專家進行貢獻度排名后經歷的耗費執(zhí)行時間對比。
圖2 算法的執(zhí)行時間比較Fig. 2 Comparing the execution time of the algorithm
本文針對知識社區(qū)中的專家貢獻度排名機制進行研究,結合用戶的行為特征對傳統(tǒng)的PageRank 算法進行了改進,最后通過實例分析對結果進行了研究。 實驗結果表明,由于添加了專家本身的行為特征,expert contribution rank 算法能夠更加準確客觀地評價知識社區(qū)中的專家貢獻度。
[1] YE Shun. An empirical study of the factors of individual knowledge contribution in virtual community [D].Hefei:University of Science and Technology of China,2007.
[2] 關培蘭,顧巍. 研發(fā)人員知識貢獻的影響因素及評價模型研究[J]. 武漢大學學報 (哲學社會科學版),2007,60(5):652-656.
GUAN Pei-lan,GU Wei. R & D personnelps knowledge contribution:influence factor & evaluation model[J]. Wuhan University Journal:Philosophy & Social Sciences,2007,60(5):652-656.
[3] WU Jilan. The research on employee knowledge contribution measurement[D]. Shanghai:Tongji University,2006.
[4] 蔣甜甜,劉心報,經懷明,等. 運用GAHP法建立研發(fā)人員績效考評體系[J]. 價值工程,2006,25(6):88-90.
JIANG Tiantian,LIU Xinbao,JING Huaiming. Establishing the perfomance assessment system of researchers with GAH P[J]. Value Engineering,2006,33(6):88-90.
[5] ZHANG Jianhua,LIU Zhongying. Knowledge contribution inspiriting mechanism for knowledge management[J]. Journal of Tongji University:Nature Science,2004,32(7):966-970.
[6] 肖媛. 知識型員工的勞動度量與考核方法探析[J]. 科研管理,2004,25(1):84-89.
XIAO Yuan. Research measurement approaches and check based on the knowledge-based employee[J]. Science Research Management,2004,25(1):84-89.
[7] 金曉玲,湯振亞,周中允,等. 用戶為什么在問答社區(qū)中持續(xù)貢獻知識:積分等級的調節(jié)作用[J]. 管理評論,2013,25(12):138-146.
JIN Xiao-lin,TANG Zhen-ya,ZHOU Zhong-yun,et al. Why Users Keep Contributing Knowledge in Q&A Communities:The Moderating Effect of Level of points [J]. Management Review,2013,25(12):138-146.
[8] Page Lawrence,Brin Sergey. The PageRank Citation Ranking:Bring Order to the Web[R].Technical report,Stanford Digital Library Technologies Project,1998.