• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于類別參與度的社區(qū)問答專家發(fā)現(xiàn)方法

      2014-11-30 07:49:00林鴻飛熊大平劉曉鳴
      計算機工程與設(shè)計 2014年1期
      關(guān)鍵詞:參與度權(quán)威分值

      林鴻飛,王 健,熊大平,劉曉鳴

      (大連理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,遼寧 大連116024)

      0 引 言

      在社區(qū)問答系統(tǒng)中的用戶形形色色,良莠不齊,通常把行為活躍且具有一定數(shù)量的回答被提問者或系統(tǒng)評定為最佳答案的用戶稱為專家用戶。如果能在龐大的用戶群中辨別出專家用戶,提出者可以把新提出的問題推薦給專家用戶從而能及時地得到準(zhǔn)確專業(yè)的答復(fù),同時使外部搜索的信息量能有效地得到擴充。于是,專家發(fā)現(xiàn)成為社區(qū)問答中一個新的重要的研究熱點。

      對于社區(qū)問答中的專家發(fā)現(xiàn),學(xué)者們提出了很多不同的技術(shù)和方法。主要方法有建立用戶模型[1,2]、基于語義主題分析方法[3-5]和鏈接分析算法[6,7]。基于用戶模型的方法,Chen等人[1]提出了一種基于用戶聲譽的結(jié)構(gòu)分析模型來對用戶的專家得分進行評級排名。Kao等人[2]進一步綜合了用戶的知識領(lǐng)域、用戶聲望和鏈接分析來評定專家用戶?;谡Z義主題分析的方法,Riahi等人[3]使用分段主題模型來研究專家用戶發(fā)現(xiàn)問題,效果比LDA模型要好一些。Qu等人[4]提出了一種基于概率潛在語義分析 (PLSA)的模型來進行專家發(fā)現(xiàn),進而將新問題推薦給專家。Liu等人[5]綜合考慮用戶的歷史回答信息、用戶權(quán)威度和用戶活躍度,提出了一種混合語言模型和LDA模型的方法來向?qū)<矣脩敉扑]新問題。基于鏈接分析的方法,Jurczyk等人[6]將用戶看作節(jié)點并利用HITS算法尋找權(quán)威用戶。Jie等人[7]則HITS算法進行了改進,使用帶權(quán)重的HITS算法計算用戶的權(quán)威值。此外,Liu等人[8]就將體育比賽中的競爭機制應(yīng)用于專家發(fā)現(xiàn)的研究中,對用戶進行兩兩比較,計算用戶的權(quán)威值。

      專家用戶與普通用戶之間存在很大的區(qū)別,部分學(xué)者通過觀察專家用戶的習(xí)慣,如專家用戶的初期活動規(guī)律[9]和偏好選擇規(guī)律[10],來構(gòu)建模型以更好地發(fā)現(xiàn)專家用戶。本文通過觀察得知大部分專家用戶的擅長領(lǐng)域是相近的,根據(jù)用戶不同類別的參與度不同,提出了一種基于用戶類別參與度的社區(qū)問答專家發(fā)現(xiàn)方法,除了考慮所屬類別回答者的回答質(zhì)量外,還考慮了相近類別中回答者的回答質(zhì)量,綜合考慮來分辨出專家用戶。

      1 相關(guān)工作

      1.1 PageRank算法

      PageRank算法在1998年由Sergey Brin和Larry Page提出,是一種靜態(tài)的網(wǎng)頁評級算法,可用于提高搜索引擎對網(wǎng)頁排序的準(zhǔn)確度[11]。主要思想是:

      (1)網(wǎng)頁i指向網(wǎng)頁j的超鏈接表示對網(wǎng)頁j權(quán)威的隱含認(rèn)可,即網(wǎng)頁j的權(quán)威度與其鏈入超鏈接數(shù)量成正比關(guān)系;

      (2)指向網(wǎng)頁j的網(wǎng)頁i自身權(quán)威值對網(wǎng)頁j的權(quán)威度會產(chǎn)生影響。若高權(quán)威值網(wǎng)頁i1和低權(quán)威值網(wǎng)頁i2都指向網(wǎng)頁j,則網(wǎng)頁i1對網(wǎng)頁j權(quán)威度的貢獻(xiàn)要比網(wǎng)頁i2要大些。即一個被其它重要網(wǎng)頁所指向的網(wǎng)頁也很重要。

      將PageRank算法運用于本文的專家發(fā)現(xiàn)時,網(wǎng)頁代指用戶。對于一個社區(qū)問答網(wǎng)絡(luò),從一個用戶出發(fā),鏈接出去的其它用戶的概率為(1-λ);則給定一用戶i,其Page-Rank值定義公式如下

      式中:Oj——用戶j的出鏈數(shù)。初始值設(shè)為:P(i)=1/N,i=1,……,N;λ取值為0.15。故P(i)∈ [0,1]。

      1.2 HITS算法

      HITS算法在1998年由Jon Kleinberg提出,對網(wǎng)頁的評級指標(biāo)為權(quán)威等級 (authority)和中心等級 (hub)。其關(guān)鍵思想是:權(quán)威網(wǎng)頁和中心網(wǎng)頁之間的關(guān)系相互影響并促進。即權(quán)威等級高的網(wǎng)頁會被很多中心等級高的網(wǎng)頁所指向,同理中心等級高的網(wǎng)頁會被很多權(quán)威等級高的網(wǎng)頁所指向。

      將HITS算法運用于本文的專家發(fā)現(xiàn)時,網(wǎng)頁代指用戶。對于一個社區(qū)問答網(wǎng)絡(luò),每個用戶i的權(quán)威分值表示為a(i),中心分值表示為h(i),則兩種分值的相互增益關(guān)系可表示成公式如下

      初始值設(shè)為:a(i)=h(i)=1,i=1,……,N。每次迭代后,都進行歸一化處理∈ [0,1],h(i)∈ [0,1]。

      1.3 LDA主題模型

      LDA主題模型是一種包含詞、主題和文檔三層結(jié)構(gòu)的產(chǎn)生式概率模型,其概率圖模型如圖1所示。LDA生成文檔中詞的過程是一個概率抽樣過程,由參數(shù) (α,β)來確定文檔集合中的三層結(jié)構(gòu),其中參數(shù)α控制了文檔中不同主題的相對出現(xiàn)概率,參數(shù)β調(diào)節(jié)所有主題中不同詞的出現(xiàn)概率分布,其生成文檔的具體過程如下:

      (1)由參數(shù)α確定的Dirichlet(a)分布得到文檔d上的主題多項式分布函數(shù)θd。

      (2)由參數(shù)β確定的Dirichlet(β)分布得到主題t上的詞多項式分布函數(shù)(t)。

      (3)循環(huán)抽樣得到每個文檔中的每個單詞wdi:

      1)從文檔d對應(yīng)的θd中,抽樣得到主題t。

      2)從主題t對應(yīng)的(t)中,抽樣得到一個單詞作為wdi。

      圖1 LDA的概率圖模型

      將LDA主題模型運用于本文的專家發(fā)現(xiàn)時,對于類別的主題分布,一篇文檔對應(yīng)為某一類別中所有的問題答案集;對于用戶的主題分布,一篇文檔對應(yīng)為某一用戶參與的所有的問題和答案。

      2 基于類別參與度的專家發(fā)現(xiàn)

      通過觀察百度知道的用戶信息,可以從中得出一個結(jié)論:大部分專家用戶的擅長領(lǐng)域是相近的。圖2是從百度知道中截取的兩位有代表性的專家用戶的信息。第一位專家用戶的擅長領(lǐng)域是 “文化教育”,第二位專家用戶的擅長領(lǐng)域是 “運動娛樂”。由圖2可見,對某一類別領(lǐng)域進行專家發(fā)現(xiàn)時,用戶u在其它相近的類別參與度,有助于提高在該類別領(lǐng)域的專家得分,故本文提出了一種基于用戶類別參與度的社區(qū)問答專家發(fā)現(xiàn)方法。

      圖2 百度知道專家用戶信息

      2.1 系統(tǒng)框架

      基于用戶類別參與度的專家發(fā)現(xiàn)系統(tǒng)的基本流程如圖3所示,具體分為以下過程:

      (1)根據(jù)用戶之間提出問題、回答問題的關(guān)系,對每一個類別,將社區(qū)問答中的用戶構(gòu)建成一個有向圖網(wǎng)。

      (2)對每一個類別用鏈接分析算法PageRank和HITS得到用戶的初步專家得分。

      (3)將每一個類別看成一個文檔,利用LDA主題模型來進行訓(xùn)練,得到每一個類別的主題分布,利用KL距離來計算類別之間的相似度。

      (4)把用戶看成文檔,用LDA模型進行推斷,得到每一個用戶的主題分布,利用KL距離來計算用戶對每一個類別的參與度。

      (5)根據(jù)類別間相似度和用戶類別參與度,得到本類別對應(yīng)的其它相近類別參與度得分。

      (6)最后,綜合用戶在本類別的初步專家得分和其它相近類別的參與度得分,即為最終的本類別專家得分。

      圖3 基于類別參與度的專家發(fā)現(xiàn)系統(tǒng)框架

      2.2 網(wǎng)絡(luò)結(jié)構(gòu)

      在社區(qū)問答系統(tǒng)中,用戶j回答用戶i提出的問題q,則用戶i和用戶j之間存在著鏈接關(guān)系,如圖4(a)所示。用戶3回答了用戶1的問題,則轉(zhuǎn)化為用戶1指向用戶3的有向邊,如圖4(b)所示。于是,對每一個類別,根據(jù)用戶之間提出問題、回答問題,答案對應(yīng)問題的關(guān)系,可以構(gòu)建成一個用戶有向圖網(wǎng)。

      圖4 社區(qū)問答用戶鏈接有向圖

      設(shè)類別集合為 C = {c1,c2,...,cn},用戶集合為U ={u1,u2,...,um},則給定類別c,可將類別c中的用戶網(wǎng)絡(luò)看作是一個有向圖Gc= (Vc,Ec),其中,Vc= {ui}是類別c中所有用戶的集合,Ec={eij}是類別c中用戶間的有向邊集合,eij指用戶uj回答了用戶ui提出的問題。

      2.3 用戶類別專家得分

      每一位專家用戶都有自己感興趣,并擅長的領(lǐng)域,在社區(qū)問答中,會經(jīng)常參與到對應(yīng)的類別中為他人提供專業(yè)標(biāo)準(zhǔn)的答案。于是,每一個用戶在不同的類別中具有不同的初步專家得分。

      對每一個類別,先構(gòu)建一個用戶有向圖網(wǎng),再利用鏈接分析算法,得到初步專家得分。給定類別cj,用戶ui,可如下得到用戶的初步專家得分。

      (1)PageRank算法:PageRank值體現(xiàn)了用戶的權(quán)威等級,故初步專家得分為對應(yīng)的PageRank值,即為scorePageRank(ui,cj)=P(i)∈ [0,1]。

      (2)HITS算法:權(quán)威分值 (Authority)體現(xiàn)了回答者的重要性,中心分值 (Hub)體現(xiàn)了提問者的重要性,故把權(quán)威分值作為初步專家得分,即scoreHITS(ui,cj)=a(i)∈ [0,1]。

      2.4 類別間相似度

      對某一類別領(lǐng)域進行專家發(fā)現(xiàn)時,用戶u在其它相近類別的參與度,有助于提高在該類別領(lǐng)域的專家得分,故需要得到兩兩類別間的相似度。

      將所有類別的問題答案集看成一個語料集D,每一個類別看成一個文檔d,文檔的內(nèi)容為該類別中所有的問題和答案。利用LDA模型,進行訓(xùn)練,可以得到每一個類別對應(yīng)的K維主題分布p(z|c),K為主題個數(shù)。

      利用KL距離[12]來計算類別之間的相似度,則類別ci和類別cj的相似度計算公式如下

      2.5 用戶類別參與度

      用戶類別參與度是指在某一類別領(lǐng)域進行專家發(fā)現(xiàn)時,用戶在其它相近類別的參與度。由上面得到的類別間相似度,可以得到該類別的相近類別;參與度為用戶主題分布和類別主題分布之間的相似性。

      先得到用戶的主題分布。將所有用戶參與的問題和答案作為一個語料集,語料集中的文檔個數(shù)為用戶數(shù)量,文檔內(nèi)容為用戶的屬性,即用戶參與的所有的問題和答案。利用LDA模型,進行推斷,可以得到每一個用戶對應(yīng)的K維主題分布p(z|u),K為主題個數(shù)。

      利用KL距離[12]來計算用戶對類別的參與度,則用戶ui在類別cj中的參與度計算公式如下

      2.6 綜合專家得分

      除了考慮所屬類別回答者的回答質(zhì)量外,還考慮了相關(guān)類別中回答者的回答質(zhì)量,綜合考慮來分辨出專家用戶。本文采用線性結(jié)合的方法,綜合用戶在本類別的專家得分和其它相近類別的參與度得分,作為最終的本類別專家得分。

      對于用PageRank算法,其綜合得分如式 (5)所示

      其中,Sim(cj,ck)>λ,λ為判斷相近類別的閾值。

      同理,用HITS算法時,其綜合得分如式 (6)所示

      其中,Sim(cj,ck)>λ,λ為判斷相近類別的閾值。

      由于 Par(ui,cj)∈ (0,1],score(ui,ck)∈ [0,1],故為類別總數(shù)。score(ui,cj)值越大,則用戶ui在類別cj中稱為專家的可能性也越大。

      3 實 驗

      3.1 實驗數(shù)據(jù)

      本文采用的實驗語料來自Yahoo!Answers網(wǎng)站上抽取的真實標(biāo)注數(shù)據(jù)集。去掉匿名用戶和匿名者給出的答案,實驗語料集共有94596個問題和587354個對應(yīng)的答案,詳細(xì)的信息見表1。

      3.2 結(jié)果評價

      本文對比了5種不同的專家發(fā)現(xiàn)方法來進行評價本文所提出方法的性能,其中 (2)為文獻(xiàn) [7]中的方法。

      (1)HITS:分別對每一個類別,使用HITS算法

      表1 語料集的統(tǒng)計信息情況

      (2)WeightHITS[7]:在方法 (1)的基礎(chǔ)上,使用帶權(quán)重的HITS算法

      (3)BoostHITS:在方法 (1)的基礎(chǔ)上,使用基于類別參與度的HITS算法

      (4)PageRank:分別對每一個類別使用PageRank算法

      (5)BoostPageRank:在方法 (4)的基礎(chǔ)上,使用基于類別參與度的PageRank算法

      本文采用AP@10和MAP兩種指標(biāo)來進行結(jié)果的評價,得分越高,對應(yīng)的性能越好。本文的方法與對比實驗的方法在評價指標(biāo)AP@10上的結(jié)果如表2所示,在評價指標(biāo)MAP上的結(jié)果如圖5所示。

      表2 5種方法的AP@10值

      圖5 5種方法的MAP值

      3.3 實驗結(jié)果分析

      本文采用了AP@10指標(biāo)和MAP指標(biāo)來評價方法的效果,結(jié)果評價數(shù)據(jù)如表2和圖5所示,并對實驗結(jié)果進行如下分析。

      (1)對于常規(guī)的PageRank算法和 HITS算法而言,PageRank算法的結(jié)果要明顯好于HITS算法。這是因為HITS算法有權(quán)威分值 (authority)和中心分值 (hub)兩個評級,權(quán)威分值體現(xiàn)了回答者的重要性,中心分值體現(xiàn)了提問者的重要性,兩者是相互關(guān)聯(lián)、耦合的。故一些提問比較多的用戶會影響回答者的權(quán)威分值。

      (2)帶權(quán)重的HITS算法比常規(guī)的HITS算法略好一些,說明用戶之間邊的連線具有差異性。用戶i回答了用戶j提出的問題,根據(jù)答案是否被選為正確答案,用戶j指向用戶i的邊權(quán)重應(yīng)設(shè)為不同,選為正確答案的,邊權(quán)重應(yīng)大些。

      (3)基于類別參與度的HITS算法比前兩個效果又要好一些,說明對某一類別領(lǐng)域進行專家發(fā)現(xiàn),用戶u在其它相近的類別參與度,有助于提高在該類別領(lǐng)域的專家得分。進一步證明了本文提出的方法。

      (4)基于類別參與度的PageRank算法的效果是最好的,比BoostHITS算法要好很多。這與常規(guī)的PageRank算法比HITS算法好很多是相一致的。由于用戶有向圖的拓?fù)浣Y(jié)構(gòu)的微小的改動能夠明顯改變HITS算法得到的權(quán)威分值和中心分值,而對于PageRank算法來說幾乎沒有影響。因此由語料得到的網(wǎng)絡(luò)圖可能會存在影響。

      (5)本文進一步采用了MAP指標(biāo)來進行評價,如圖5所示,其結(jié)果趨勢與AP@10指標(biāo)的結(jié)果趨勢是相一致的。每一個類別返回前20個用戶,故MAP值也比較高。

      3.4 網(wǎng)絡(luò)圖分析

      結(jié)果分析部分是通過實驗得到的數(shù)據(jù),來定量地分析本文方法的有效性。為了更直觀地分析,利用網(wǎng)絡(luò)分析工具UCINET來可視化用戶網(wǎng)絡(luò)圖,圖6為社區(qū)問答系統(tǒng)中用戶有向網(wǎng)絡(luò)圖。

      圖6 (a)為類別 “Homework Help”中與15個專家用戶有關(guān)聯(lián)的用戶構(gòu)成的有向網(wǎng)絡(luò)圖,圖6(b)為所有類別中與15個專家用戶有關(guān)聯(lián)的用戶構(gòu)成的有向網(wǎng)絡(luò)圖,圖中的小圓點為一般用戶,大圓點為專家用戶,帶箭頭的邊為用戶間的關(guān)系,箭頭的指向為提問者用戶指向回答者用戶(意義與圖4(b)一致),而且兩圖中專家用戶的位置是一一對應(yīng)的。從圖6中可以看出,加入其它參與類別的信息后,專家用戶的入度數(shù)更多了,更容易成為一個小網(wǎng)絡(luò)的中心,即權(quán)威性也有所提高,從而更有效地進行專家發(fā)現(xiàn)。

      表3 為圖6中用戶的入度數(shù)。可知,加入其它參與類別的用戶后,15個專家用戶的平均入度數(shù)增加了一倍多,而且整個網(wǎng)絡(luò)用戶的平均入度數(shù)也有所增加。說明專家用戶在其它類別的參與度也是非常多的,因此,利用用戶在其它類別的參與度信息可以有效地提高本類別的專家發(fā)現(xiàn)水平。

      圖6 社區(qū)問答系統(tǒng)中用戶有向網(wǎng)絡(luò)

      表3 社區(qū)問答系統(tǒng)中用戶入度數(shù)

      4 結(jié)束語

      本文提出了一種基于用戶類別參與度的方法,來幫助辨別社區(qū)問答中的專家用戶。首先利用鏈接分析方法Page-Rank和HITS分別計算用戶在每一個參與類別的專家得分,然后由LDA模型得到類別和用戶的主題分布,再利用KL距離函數(shù)得到類別間的相似度和用戶對每一個參與類別的參與度得分,最后線性綜合用戶在本類別的專家得分與其它相近類別的參與度得分即為用戶在該類別的最終得分。如實驗部分所述,本文所述的專家發(fā)現(xiàn)方法顯示出了良好的性能。該方法能夠很好地挖掘出興趣、愛好和擅長領(lǐng)域相近的專家用戶,但對于擅長領(lǐng)域差異比較大的、或是沒有交集的專家用戶,本方法還有待于改進,這也是今后需要進一步研究的方向。

      [1]Chen Lin,Nayak R.Expertise analysis in a question answer portal for author ranking [C]//Washington,USA:Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology,2008:134-140.

      [2]Kao Weichen,Liu Duenren,Wang Shiuwen.Expert finding in question-answering websites:A novel hybrid Approach [C]//Sierre,Switzerland:Proceedings of the ACM Symposium on Applied Computing,2010:867-871.

      [3]Riahi F,Zolaktaf Z,Shafiei M,et al.Finding expert users in community question answering [C]//Lyon,F(xiàn)rance:Proceedings of the 21st International Conference Companion on World Wide Web,2012:791-798.

      [4]Qu Mingcheng,Qiu Guang,He Xiaofei,et al.Probabilistic question recommendation for question answering communities[C]//CM:Proceedings of the 18th International Conference on World Wide Web,2009:1229-1230.

      [5]LIU Mingrong,LIU Yicen,YANG Qing.Predicting best answerers for new questions in community question answering[M].Web-Age Information Management.Springer Berlin Heidelberg,2010:127-138.

      [6]Jurczyk P,Agichtein E.Discovering authorities in question answer communities by using link analysis[C]//Lisboa,Portugal:Proceedings of the 16th ACM Conference on Conference on Information and Knowledge Management,2007:919-922.

      [7]Jie Shen,Wen Shen,Xin Fan.Recommending experts in Q & A communities by weighted HITS algorithm [C]//Chengdu,China:International Forum on Information Technology and Applications,2009:151-154.

      [8]Liu Jing,Song Y I,Lin C Y.Competition-based user exper-tise score estimation [C]//Beijing,China:Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,2011:425-434.

      [9]Aditya P,Rosta F,Joseph A K,et al.Early detection of potential experts in question answering communities [C]//Girona,Spain:Proceedings of the 19th of User Modeling,Adaptation and Personalization,2011:231-242.

      [10]Aditya P,Joseph A K.Expert identification in community question answering:Exploring question selection bias[C]//Toronto,Canada:Proceedings of the 19th ACM International Conference on Information and Knowledge Management,2010:1505-1508.

      [11]GUO Qingbao,JIA Daiping.Improved PageRank algorithm of merging feedback information and topical relationship [J].Computer Engineering and Design,2011,32 (12):4071-4074(in Chinese).[郭慶寶,賈代平.融合反饋信息與內(nèi)容相關(guān)度的PageRank改進算法 [J].計算機工程與設(shè)計,2011,32 (12):4071-4074.]

      [12]Celikyilmaz A,Tur D H,Tur G.LDA based similarity modeling for question answering [C]//Stroudsburg,PA,USA:Proceedings of the NAACL HLT Workshop on Semantic Search,2010:1-9.

      猜你喜歡
      參與度權(quán)威分值
      一起來看看交通違法記分分值有什么變化
      工會博覽(2022年8期)2022-06-30 12:19:30
      提高學(xué)生課堂參與度 激活珠心算生命力
      初中語文教學(xué)中如何有效提高學(xué)生的課堂參與度
      甘肅教育(2020年24期)2020-04-13 08:24:40
      各大權(quán)威媒體聚焦流翔高鈣
      鼓勵自主安全活動 提升員工參與度
      勞動保護(2019年3期)2019-05-16 02:38:06
      跟蹤督察:工作干得實 權(quán)威立得起
      權(quán)威發(fā)布
      電影(2017年6期)2017-06-24 11:01:26
      權(quán)威的影子
      小說月刊(2015年1期)2015-04-19 02:04:19
      宿遷城鎮(zhèn)居民醫(yī)保按病種分值結(jié)算初探
      病種分值結(jié)算模式下的醫(yī)療監(jiān)管之實踐與啟示
      南川市| 玛曲县| 临清市| 定远县| 宝丰县| 曲水县| 大悟县| 皮山县| 宁海县| 德庆县| 扬州市| 天等县| 吉隆县| 盘山县| 玉树县| 江山市| 富川| 新民市| 吉首市| 孝昌县| 大宁县| 龙南县| 五华县| 石城县| 通城县| 建昌县| 逊克县| 虹口区| 同江市| 泰兴市| 海宁市| 水城县| 桂林市| 丽水市| 县级市| 田阳县| 镇平县| 和政县| 柳州市| 遵义市| 黄陵县|