孔維澤,劉奕群,張 敏,馬少平
(智能技術與系統(tǒng)國家重點實驗室,清華信息科學與技術國家實驗室(籌),清華大學 計算機系,北京 100084)
21世紀開始, 用戶產(chǎn)生內容(User-generated Content)的網(wǎng)絡應用模式開始變得越來越流行,其中較為著名的網(wǎng)絡應用有Facebook、人人網(wǎng)、百度知道等。這種用戶產(chǎn)生內容的形式由于廣泛的用戶參與,其內容資源會快速增長,對人類知識的積累和傳播起到了非常大的作用。
問答社區(qū)是一種近年來受到廣泛關注的用戶產(chǎn)生內容的網(wǎng)絡應用。其基本形式是由用戶根據(jù)自己的需求提出問題,由其他的用戶來給出回答。這種形式為用戶在網(wǎng)絡上獲取信息提供了新的渠道。然而,由于任何用戶都可以隨意地創(chuàng)建內容,問答社區(qū)中的信息質量差異非常大。有的用戶提供了令人滿意的回答,幫助提問者直接獲取所需信息。而有的回答只是網(wǎng)絡用戶之間的閑聊,有時候甚至是惡意的廣告、垃圾信息。這樣嚴重的信息質量差異已成為問答社區(qū)使用的一個主要問題。同時,傳統(tǒng)的網(wǎng)絡資源信息質量評價的方式并沒有考慮到問答社區(qū)獨有的特點。除了傳統(tǒng)的文本內容、鏈接關系之外,問答社區(qū)中還包含了用戶、問題、回答之間的關系,還有投票、最佳答案等特別的元素。因此,如何利用問答社區(qū)的特點有針對性地設計問答社區(qū)中信息質量評價的方法是一個重要的課題。
為此,我們研究了如何評價問答系統(tǒng)中回答質量的高低的問題。分析了針對問答社區(qū)的回答質量評價的多方面特征,并使用學習分類框架來綜合這些特征,對回答質量做出評價。本文主要貢獻有: 1) 構建了據(jù)我們所知最大規(guī)模的中文問答社區(qū)語料庫。2) 提出了基于時序的特征,根據(jù)用戶在回答交互時間關系上的特點,評價回答質量。3) 提出了基于問題粒度的特征。不同問題的回答之間具有差異,因而采取同樣的標準衡量并不合理?;趩栴}粒度的特征能夠通過比較同一問題的不同回答,給出相對性的衡量。4) 提出了符合中文問答社區(qū)應用習慣的基于用戶的特征。
問答社區(qū)是一種近年來受到廣泛關注的用戶產(chǎn)生內容的網(wǎng)絡應用。其基本形式是由用戶根據(jù)自己的需求提出問題,由其他的用戶來給出回答。這種形式為用戶在網(wǎng)絡上獲取信息提供了新的渠道。目前傳統(tǒng)的搜索引擎難以理解用戶查詢的意圖,直接給出答案,而是返回大量的相關網(wǎng)頁,讓用戶挑選、瀏覽以獲取信息。而問答社區(qū)通過網(wǎng)友回答問題,利用了大眾的智慧(Wisdom of the Crowds)對用戶的提問直接給出針對性的回答。同時,問答社區(qū)上積累的問答數(shù)據(jù)資源還可以為搜索引擎索引提供稀缺而高質量的信息內容。
百度知道*http://zhidao.baidu.com/是最流行中文的社區(qū)問答之一。截止2010年6月7日,該系統(tǒng)已有85 494 309個已解決問題。根據(jù)文獻[1],百度知道在其發(fā)布后兩年時間內共產(chǎn)生17 596 864 個問題,已解決17 012 767個問題,問題解決率高達96.7%,每日超過1 000萬用戶訪問百度知道,每天平均產(chǎn)生71 308個問題,223 907個回答,平均每一個問題吸引3.14個用戶參與互動。另外,據(jù)調查*http://news.iresearch.cn/viewpoints/84557.shtml2008年2至7月份,百度知道對百度搜索的貢獻率保持在13%左右。由于百度知道具有大量用戶群和不同話題類別的中文問答數(shù)據(jù),它非常適合問答社區(qū)中信息質量評價的研究。
隨著Yahoo! Answers、百度知道等問答社區(qū)的快速發(fā)展,關于問答社區(qū)的研究工作越來越多。Jeon等人[2]提出了一種基于機器翻譯(Machine Translation)的檢索方法以在問答社區(qū)中識別相似的問題用于檢索。但是他們的工作沒有考慮問答社區(qū)中回答的質量。Su等人[3]指出問答社區(qū)中的回答平均信息質量較高,但其信息質量差異也很大。他們在Yahoo! Answers中的分析發(fā)現(xiàn),一個問題的所有回答中正確的比例只有17%至45%,而一個問題至少有一個優(yōu)質的回答的比例為65%至90%??梢妼ふ腋咝畔①|量的回答在提高用戶滿意程度上有重要的作用。
在問答社區(qū)信息質量評價的方法上,Jeon等人[4]設計了問題、回答上下文信息的非文本特征,并根據(jù)此構建了基于語言建模的檢索模型(Language modeling-based Retrieval Model) 以對問答社區(qū)中的回答的信息質量給出評價。Agichtein等人[5]提出了更豐富的特征,包括結構特征、文本特征、社區(qū)特征(Community Features),并使用了分類框架來綜合這些特征已區(qū)分問答社區(qū)中信息質量的高度。另外,他們的工作[6]還評價了用戶對回答的滿意情況。Blooma等人[7]設計了更多的特征,用回歸分析(Regression Analyzers)生成有效特征以預測最佳的回答。在問答社區(qū)的檢索排序方面,Bian等人[8]提出了GBRank算法。該算法利用了用戶的關系信息以檢索出高質量的內容。它綜合了提交查詢與問答的相關性、用戶交互信息和問答社區(qū)中用戶的反饋信息以檢索客觀的(Factual)內容。然后他們[9]探討了問答社區(qū)中用戶惡意的交互,提出了應對用戶惡意投票的問答社區(qū)檢索排序算法。
一些研究人員還研究如何在問答社區(qū)中找出專家用戶的問題,以幫助解決問答社區(qū)中信息質量評價和檢索排序的問題。因為他們假設問答社區(qū)中權威性較高的用戶創(chuàng)建的內容信息質量更高。Jurczyk等人[10]將HITS算法應用在在線論壇的用戶回答圖(User-answer Graph)上。Zhang等人[11]提出了ExpertiseRank算法識別專家用戶(Users with High Expertise)。他們都發(fā)現(xiàn)問答社區(qū)中專家用戶網(wǎng)絡和回答的信息質量有很強的相關性。Bian等人[12]還利用相互增強關系(Mutually Reinforcing Relationship)提出了能夠應用于包括用戶、問題、回答這些不同節(jié)點類型的網(wǎng)絡上的排序算法,而且該方法還綜合了文本內容和其他問答社區(qū)特征的。
為了對中文問答社區(qū)進行相關問題的研究,我們對使用廣泛的百度知道建立了語料數(shù)據(jù),作為研究問答社區(qū)內容質量分析等相關問題的基礎。我們希望語料庫的內容是受用戶關注的,因此我們以“抓取用戶瀏覽訪問量大的問答為原則”進行抓取。在某商業(yè)搜索引擎的幫助下,我們收集了網(wǎng)絡用戶對百度知道網(wǎng)頁訪問的情況。根據(jù)收集到的2009年7月至2009年12月超過6 000萬條的百度知道用戶訪問日志數(shù)據(jù),我們抓取了其中訪問量大于5次的問答頁面。提取出問題數(shù)1 555 787個,包括問題分類、問題內容等12個數(shù)據(jù)項,其中85%的為已解決問題;回答數(shù)5 865 941個,包括回答類型、回答內容等13個數(shù)據(jù)項,其中最佳答案和其他回答分別占23%和74%*除最佳答案和其他回答外,所提取的回答中還有投票中的回答、已關閉問題的回答等回答類型。。完成問答頁面信息提取之后,我們提取出了所有參與這些問答的用戶,對這些用戶的用戶信息頁面進行抓取,共3 110 784個,包括經(jīng)驗值總分、日常操作分等29個數(shù)據(jù)項。這些問答數(shù)據(jù)共來自于861個類別(或子類別),其中游戲、娛樂休閑、電腦/網(wǎng)絡和教育/科學是語料中占問題量最多的4個一級類別,分別占22%、14%、12%和12%。
問答社區(qū)除了具有傳統(tǒng)網(wǎng)頁資源中的文本、鏈接等信息之外,還有豐富的用戶交互產(chǎn)生的數(shù)據(jù)。例如,用戶可以對最佳答案“豎拇指”表示該回答很有幫助,系統(tǒng)根據(jù)用戶的操作所累計的經(jīng)驗值等。還有一些隱式的基于鏈接的信息,例如用戶之間的問答關系等。另外,我們還了解從回答的時間關系以及比較同個問題不同回答的角度提出了特征。我們將與回答相關的信息分為以下5類來進行討論: 基于文本的特征、基于鏈接的特征、基于時序的特征、基于用戶的特征、基于問題粒度的特征。我們主要統(tǒng)計比較了最佳答案和其他回答的特征分布情況,以考察特征對回答質量的區(qū)分力。我們假設最佳答案為高質量的回答,將其他回答視為非高質量(一般質量或低質量)的回答。因為最佳答案是由提問者指定或由多個用戶投票得出的,這基本可以表明該回答優(yōu)于其他的回答。
與傳統(tǒng)的網(wǎng)頁資源相同,問答社區(qū)的問答內容基本上是以文本的方式呈現(xiàn)的。因此,適用于傳統(tǒng)網(wǎng)頁的文本特征或是衡量文本質量的自然語言處理方法都可以應用于問答社區(qū)中問答信息質量的評價。根據(jù)參考文獻[5],我們考察了相關的特征,包括回答長度、回答熵、回答的非重復字符數(shù)、問答字符重疊率等。其中前三個特征的最佳答案和其他答案的特征分布差異較大,對高低質量回答的區(qū)分力較強。但它們之間的相關性較高,達90%以上。而問答字符重疊率與前三個特征相關度較低,但是其區(qū)分效果不如前三個特征。
通過問答關系等用戶交互關系,可以構建不同形式的圖,利用鏈接分析的技術,挖掘用戶專業(yè)程度,甚至回答質量的信息。我們在提問者回答者關系圖[10-11]和用戶問答圖[12]上嘗試了相關鏈接分析方法,如HITS、PageRank、Z-Score等。另外,我們修改了回答者提問者關系圖,只保留下最佳答案的問答關系,因為最佳答案比普通的回答更可靠。我們稱該圖為最佳答案提問者回答者關系圖。但在該圖中,所有未提供最佳答案用戶的PageRank都為0,無法區(qū)分他們之間的專業(yè)程度。圖1給出了兩種圖PageRank分布。圖中可以看出提問者回答者關系圖的PageRank值能較好區(qū)分回答質量高低,而最佳答案提問者回答者關系圖的PageRank值一定程度上能對提供過最佳答案的用戶給出的回答做質量區(qū)分。
百度知道系統(tǒng)記錄了每個回答的給出時間。為了考察回答時序與回答質量之間的關系,我們設計了回答倒序的這一特征?;卮鸬剐蚓褪前言摶卮鹚诘膯柎鹩懻摾锏乃谢卮鹨詮耐淼皆绲臅r間順序排列后,該回答的順序數(shù),例如倒數(shù)第一個回答其回答倒序為1。
根據(jù)圖2,有一半以上的最佳答案的回答倒序為1,而其他回答的情況只有19%。僅有2%的最佳答案回答倒序大于等于10,而其他回答的卻占了13%。比較分布的總體情況可以發(fā)現(xiàn),最佳答案的回答倒序要小于其他回答的。
我們認為造成這樣的分布差異主要有兩個原因。問答社區(qū)中的問答如下的現(xiàn)象較為普遍: 用戶的提問內容并沒有將問題描述清楚,因而在前幾個回答中,回答者往往是在和提問者討論問題的內容細節(jié)以澄清問題,并非在回答該問題。當問題澄清之后,用戶給出的回答才解決了該問題。這種討論問題最后才引出答案的情況是造成回答倒序分布差異的一個原因。另外,正常的用戶會根據(jù)之前的回答情況決定自己是否回答。如果用戶發(fā)現(xiàn)問答討論中的回答有需要改進的,用戶很可能會提交改進的答案,而如果討論中已有能解決問題的回答時,用戶往往就不會再重復給出答案了。
圖2 最佳答案與其他回答的回答倒序分布
社會化媒體的一個重要的特點在于用戶參與編輯發(fā)布內容。作為社會化媒體的一種形式,問答社區(qū)不僅是讓用戶發(fā)布問答內容,而且用戶還參與到很多評價和管理任務中。這些問答社區(qū)中豐富的用戶交互形式為其內容質量的評價提供了不同于文本內容的信息。我們希望通過基于用戶的特征來衡量用戶的專業(yè)程度。所謂專業(yè)程度指用戶能夠給出高質量回答的能力?;诨卮鹫邔I(yè)程度的評價,幫助估計回答者給出的回答的質量。
我們不僅參考了文獻[5]中的較為通用的基于用戶的特征(如包括用戶最佳答案率等),還根據(jù)百度知道統(tǒng)計的用戶信息,提出百度知道獨有的用戶特征,例如經(jīng)驗值、回答得分等。百度知道系統(tǒng)根據(jù)用戶的歷史回答操作累積回答得分,它是衡量用戶的活躍性的有效評價。因此,我們直接使用該得分作為用戶特征。根據(jù)統(tǒng)計,最佳答案和其他回答的回答得分分布都接近于正態(tài)分布,但最佳答案回答者的分布相對更偏向高值。而且,在低值的部分幾乎沒有分布。此外,我們也考察了用戶在不同類別里回答比例,以及文獻[13]提到的用戶熵的特征。它們對回答質量高低的區(qū)分力,在我們的語料集中,較為有限。
問答社區(qū)中包括了各式各樣的問題,其對應的高質量回答內容、形式上的差異也很大(甚至在相同的話題分類中)。例如在“程序設計”的分類中有“正則表達式中的/是什么意思”和“易語言編譯和靜態(tài)編譯的區(qū)別”兩個問題。對于前一個問題無論是高質量還是低質量的回答長度都比較低,而對于后一個問題高質量的回答會較詳細地給出介紹,而低質量的回答可能只給出了部分解釋??梢娫谠u價回答質量的時候,不同的問題用同樣的標準存在不足。為此我們設計了基于問題粒度的特征,通過比較一個問題的不同回答的某種特征的相對大小,做出相對性的衡量。令問題q的第x個回答的f特征的值為fx,q問題的回答總數(shù)為n,則第x個回答的f特征的基于問題粒度特征的定義為
(1)
圖3中顯示回答長度和問題粒度回答長度都具有較高的區(qū)分力度,而問題粒度回答長度的區(qū)分力更大。問題粒度回答長度值大于0.95的范圍里,最
佳答案的比例高達73%,而其他回答只有12%。其他基于問題粒度的特征在一定程度上能提高原特征的區(qū)分力。
圖3 相對性回答長度與回答長度
表1“醫(yī)療健康”與“煩惱”類實驗數(shù)據(jù)分組
類 別問題量回答量最佳答案比例類平均回答長度類平均回答數(shù)類提問者回答者重疊程度1訓練集醫(yī)療健康外科731207835.18%459.63 3.09 4.39E-04測試集醫(yī)療健康內科1641407940.23%813.01 2.56 2.60E-042訓練集煩惱家庭關系
我們從語料庫中選取了“醫(yī)療健康”與“煩惱”下的4個子類別的數(shù)據(jù)分成兩組進行實驗。其分組情況及數(shù)據(jù)量見表1。
根據(jù)表1,我們還可以看出“醫(yī)療健康”與“煩惱”中的問答內容性質具有較大的差異?!搬t(yī)療健康”的內容較專業(yè),其類回答較長、類回答數(shù)較少、類提問者和回答者重疊程度小,而“煩惱”的內容更偏向生活或者是非客觀的意見,因此其類回答數(shù)相對較多,類提問者和回答者重疊程度更大。
對實驗數(shù)據(jù)集中回答質量的標注,我們將社區(qū)用戶評選出的(提問者指定或其他用戶投票得出的)最佳答案標記為高質量的回答,將其他回答標記為非高質量的回答。這與第4節(jié)的假設相同。最佳答案表示用戶認為該回答優(yōu)于其他的回答,我們假設最佳答案為高質量回答,其他回答相對質量較低。
我們采用了分類的學習方法,嘗試了決策樹和SVM[14]。結果表明SVM的效果更好,且SVM能夠提供分類的概率,有助于對回答質量的評分。因此,我們這里只分析SVM的實驗結果。為了考察各方面特征的效果,在SVM的分類實驗中,我們將五個方面的特征依次加入到分類的特征空間里,考察各組合的分類效果。實驗結果分析中,我們將文本特征和鏈接特征的組合情況作為基線結果,與加入我們提出的基于時序、基于問題粒度和部分的用戶特征的情況做比較。為了表述方便,我們對各方面特征名使用以下簡稱: 基于文本的特征(T)、基于鏈接的特征(L)、基于時序的特征(Seq)、基于用戶的特征(U)、基于問題粒度的特征(QD)。
從表2可知,無論是“醫(yī)療健康”還是“煩惱”的數(shù)據(jù),依次加入考察中的特征后,分類的效果有穩(wěn)步的提升(除了用戶特征)。最大的提升是在加入鏈接的特征后,準確率提高了7%以上。其次,時序和問題粒度特征也對分類具有較高的提升,在醫(yī)療健康的實驗數(shù)據(jù)中,分別為4.02%和3.70%。另外,表中顯示加入用戶特征后分類效果略有下降。將用戶特征從最后一組特征組合(T+L+Seq+U+QD)中去除,發(fā)現(xiàn)“醫(yī)療健康”和“煩惱”兩組數(shù)據(jù)準確率分別有0.05%和0.10%的下降。因此,我們認為用戶特征從總體上看也是有效的,但效果不顯著。
表2 SVM分類準確率與AUC
另外,為了進一步分析問答質量的評測效果,我們將SVM給出的分類概率作為回答質量評分,取得分最高的回答作為該問題的最佳答案,對最佳答案進行預測。表1的實驗結果中濾掉只獲得一個回答的問題數(shù)據(jù)(這些數(shù)據(jù)不需要選擇最佳答案)。
表3中的最佳答案預測準確率為準確預測的最佳答案數(shù)與問題數(shù)的比值。基于我們給出的回答質量評分,最佳答案預測準確率接近80%左右,遠高于隨機判斷的結果,也優(yōu)于文獻[13]中70%左右的結果。
表3 最佳答案的預測
對問答社區(qū)的回答質量評價的問題,我們提出了三方面特征: 基于時序的特征、基于問題粒度的特征和基于百度知道特性的用戶特征。通過使用分類學習的框架綜合了文本、鏈接和這三方面的特征,評估回答的質量。實驗結果表明,我們提出的基于時序和基于問題粒度的特征能夠有效的提高回答質量評估效果。另外,該回答質量評價方法能夠以較高的準確率預測最佳答案。
[1] 百度公司,中國人知識搜索行為研究報告[EB/OL]. 2007年7月11日. (http://cimg3.163.com/tech/school/other/chinasearch.pdf).
[2] J. Jeon, W. Croft, and J. Lee. Finding similar questions in large question and answer archives[C]//Proceedings of CIKM, 2005.
[3] Q. Su, D. Pavlov, J. Chow, and W. Baker. Internet-scale collection of human-reviewed data[C]//Proceedings of the 16th international conference on World Wide Web, 2007.
[4] J. Jeon, W. Croft, and etc. A framework to predict the quality of answers with non-textual features[C]//Proceedings of SIGIR, 2006.
[5] E. Agichtein, C. Castillo, and etc. Finding high-quality content in social media[C]//Proceedings of SIGIR, 2008.
[6] Y. Liu, J. Bian, and E. Agichtein. Predicting information seeker satisfaction in community question answering[C]//Proceedings of SIGIR, 2008.
[7] M. Blooma, A. Chua, and D. Goh. A predictive framework for retrieving the best answer[C]//Proceedings of SAC, 2008.
[8] J. Bian, Y. Liu, and etc. Finding the right facts in the crowd: Factoid question answering over social media[C]//Proceedings of the 17th international conference on World Wide Web, 2008.
[9] J. Bian, Y. Liu, and etc. A few bad votes too many? Towards robust ranking in social media[C]//Proceedings of AIRWeb, 2008.
[10] P. Jurczyk and E. Agichtein. Discovering authorities in question answer communities by using link analysis[C]//Proceedings of CIKM, 2007.
[11] J. Zhang, M. Ackerman, and L. Adamic. Expertise networks in online communities: Structure and algorithms[C]//Proceedings of the 16th international conference on World Wide Web, 2007.
[12] J. Bian, and etc. Learning to Recognize Reliable Users and Content in Social Media with Coupled Mutual Reinforcement[C]//Proceedings of the 18th international conference on World Wide Web, 2009.
[13] L. Adamic, J. Zhang, E. Bakshy, M. Ackerman, Knowledge sharing and yahoo answers: everyone knows something[C]//Proceeding of the 17th international conference on World Wide Web, 2009.
[14] C. Chang and C. Lin, LIBSVM: a library for support vector machines[EB/OL]. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm 2001.