趙一鳴 姚 丹 鄧勝利
(武漢大學(xué)信息資源研究中心,武漢,430072)
技術(shù)視角下社交問(wèn)答平臺(tái)問(wèn)題和答案的相關(guān)研究進(jìn)展
趙一鳴姚丹鄧勝利
(武漢大學(xué)信息資源研究中心,武漢,430072)
[摘要]社交問(wèn)答改變了用戶在線獲取信息的方式,研究者對(duì)社交問(wèn)答中的問(wèn)題、答案等用戶生成內(nèi)容開(kāi)展了大量的研究。本文綜述了問(wèn)題分類、推薦、檢索方面的研究,總結(jié)了答案評(píng)價(jià)方面的研究進(jìn)展,包括回答者的評(píng)價(jià)和答案本身的評(píng)價(jià)兩個(gè)方面,最后指出了一些潛在的研究機(jī)會(huì)。
[關(guān)鍵詞]社交問(wèn)答用戶生成內(nèi)容問(wèn)題分類問(wèn)題檢索答案評(píng)價(jià)
1引言
社交問(wèn)答自出現(xiàn)以來(lái),用戶點(diǎn)擊量一直持續(xù)增長(zhǎng),在Alexa的2014年網(wǎng)站排名中,社交問(wèn)答平臺(tái)Yahoo!Answers排在參考咨詢類網(wǎng)站的榜首[1]。相較于 Facebook、Twitter等社交媒體平臺(tái),社交問(wèn)答中的文本內(nèi)容更豐富、信息可靠性更高,因此很多學(xué)者熱衷于針對(duì)社交問(wèn)答平臺(tái)展開(kāi)研究。
社交問(wèn)答設(shè)立的動(dòng)機(jī)是為用戶提供一個(gè)提出和解答問(wèn)題的平臺(tái),其成功的關(guān)鍵在于用戶的廣泛參與、互動(dòng)和交流。國(guó)內(nèi)外代表性社交問(wèn)答平臺(tái)包括Yahoo!Answers、AnswerBag、Answers.com、Knowledge-iN、Stack Overflow、Quora、Naver Knowledge、新浪愛(ài)問(wèn)、百度知道、騰訊搜搜問(wèn)問(wèn)、知乎等。
社交問(wèn)答的研究可以分為用戶、內(nèi)容兩個(gè)方面,用戶方面的研究包括用戶需求、參與動(dòng)機(jī)等,內(nèi)容方面的研究包括問(wèn)題分類、問(wèn)題檢索、問(wèn)題質(zhì)量、答案質(zhì)量等[6]。根據(jù)問(wèn)答平臺(tái)的特點(diǎn),用戶自然地被分為提問(wèn)者和回答者,社交問(wèn)答中的用戶生成內(nèi)容也天然地形成了問(wèn)題和答案兩個(gè)子集。本文從技術(shù)的視角對(duì)問(wèn)題和答案兩個(gè)方面的相關(guān)研究進(jìn)行了梳理。
2問(wèn)題的分類、推薦與檢索
對(duì)問(wèn)題的相關(guān)研究包括用戶和技術(shù)兩個(gè)視角。用戶視角下的研究包括根據(jù)問(wèn)題的分類來(lái)區(qū)分提問(wèn)者的角色、通過(guò)分析問(wèn)題內(nèi)容判斷用戶信息需求及提問(wèn)動(dòng)機(jī)等等。技術(shù)視角下的研究以問(wèn)題分類、問(wèn)題推薦、問(wèn)題檢索三個(gè)方面為主,問(wèn)題自動(dòng)生成、查詢擴(kuò)展等內(nèi)容則可以納入問(wèn)題檢索的范疇。
社交問(wèn)答平臺(tái)是典型的知識(shí)交流與共享平臺(tái),問(wèn)題的分類對(duì)于社交問(wèn)答平臺(tái)中知識(shí)的組織、分享與交流非常重要,也是問(wèn)答平臺(tái)組織排列內(nèi)容的重要依據(jù)。問(wèn)題分類的研究一方面有利于合并同類問(wèn)題,為同類問(wèn)題進(jìn)行自動(dòng)推薦已有的相關(guān)答案,或者將問(wèn)題推薦給相關(guān)用戶進(jìn)行回答;另一方面也有利于研究者面向特定領(lǐng)域的特定問(wèn)題進(jìn)行數(shù)據(jù)的挖掘與分析。同時(shí),當(dāng)前主流的社交問(wèn)答平臺(tái)以綜合性的大網(wǎng)站為主,基于有效的問(wèn)題分類,可以直接通過(guò)內(nèi)容的遷移,形成若干個(gè)面向領(lǐng)域的垂直類社交問(wèn)答平臺(tái),強(qiáng)化問(wèn)答服務(wù)的領(lǐng)域特色和專業(yè)性,形成黏性更強(qiáng)的社交問(wèn)答用戶社區(qū)。
在分類標(biāo)準(zhǔn)方面,Ignatova[2]提出了一個(gè)包含九種類型的問(wèn)題分類方案,并從語(yǔ)義、語(yǔ)法和詞匯三個(gè)層次對(duì)分類效果進(jìn)行評(píng)估。Harper[3]等基于Pomerantz[4]和Ignatova[8]等人的研究,利用亞里士多德和20世紀(jì)修辭理論家的相關(guān)成果,構(gòu)建了一種能夠通過(guò)修辭分析對(duì)問(wèn)題進(jìn)行分類的方法。同時(shí)通過(guò)對(duì)不同類型問(wèn)題差異性的量化分析得出,不同類型問(wèn)題包含不同的常用詞,且對(duì)應(yīng)答案的數(shù)量和字?jǐn)?shù)也存在一定的差異。社交問(wèn)答中的問(wèn)題可以分為兩類,一類是對(duì)話類問(wèn)題,希望通過(guò)交流獲得靈感和啟發(fā),另一類是信息類問(wèn)題,主要針對(duì)特定的事實(shí)進(jìn)行提問(wèn)。不難看出,第二類問(wèn)題更具有長(zhǎng)期保存的價(jià)值。但是,在第一類問(wèn)題中,社交問(wèn)答平臺(tái)在滿足用戶信息獲取的需求以外,還為用戶提供了情感和心理支持,發(fā)揮了較好的社交作用。
在問(wèn)題分類的自動(dòng)化處理方面,詞袋模型、組合內(nèi)核函數(shù)、支持向量機(jī)、樸素貝葉斯分類、n-grams和LDA等語(yǔ)言模型被廣泛使用[5-8]。比如Lei[9]等提出了一種基于支持向量機(jī)的機(jī)器學(xué)習(xí)算法,并使用一系列詞匯和語(yǔ)義的特征量去改善分類的效果。而Cai[10]等則利用維基百科中的語(yǔ)義知識(shí)來(lái)解決社交問(wèn)答中大規(guī)模的問(wèn)題分類問(wèn)題。
問(wèn)題推薦可以看成是問(wèn)題分類的一個(gè)分支或者是一種延伸,因?yàn)橥扑]從本質(zhì)上說(shuō)就是對(duì)問(wèn)題的分類與排序。
社交問(wèn)答中問(wèn)題推薦的研究主要分為兩個(gè)方向,其一是將推薦作為一種問(wèn)題分類來(lái)實(shí)現(xiàn),另外一種是通過(guò)排名模型來(lái)生成一種問(wèn)題推薦的排名列表,以便將問(wèn)題及時(shí)地推薦給最適合的用戶進(jìn)行回答[11]。前者可利用問(wèn)答對(duì)局部和整體特征來(lái)加強(qiáng)分類效果[12],后者可結(jié)合用戶-問(wèn)題-答案的組合、貝葉斯網(wǎng)絡(luò)模型[13]、基于主題的用戶興趣模型[14]等,通過(guò)獲取用戶的興趣主題來(lái)決定排序,從而向用戶推送問(wèn)題。Zhou[15]等提出一種基于專業(yè)知識(shí)的問(wèn)題推薦方法,首先通過(guò)用戶以前的回答歷史來(lái)計(jì)算用戶的專業(yè)性,這一任務(wù)主要通過(guò)基于文檔模型、線性模型和聚類模型來(lái)實(shí)現(xiàn),其次通過(guò)用戶之間的關(guān)系機(jī)構(gòu)來(lái)重新排列用戶的專業(yè)性。將兩步整合到一個(gè)概率模型中用于計(jì)算用戶的最終排名。另外,還可以基于多通道空間向量的表示模型[16]、分類敏感性語(yǔ)言模型[17]、語(yǔ)法樹(shù)結(jié)構(gòu)的檢索框架[18]等查找相似問(wèn)題。
由于需要將問(wèn)題推薦給潛在的回答者,提問(wèn)者的偏好、回答者的答案質(zhì)量、用戶評(píng)論和投票等信息都被納入到問(wèn)題推薦的考慮范圍。比如Zhou[19]等提出一種結(jié)合相關(guān)性和答案質(zhì)量的推薦模型,首先將單詞不匹配和答案質(zhì)量帶入一個(gè)統(tǒng)一框架用以生成一般概率模型,并通過(guò)改進(jìn)的翻譯模型為用戶興趣打分以及通過(guò)回答者的專業(yè)技能和答案的非文本特征來(lái)為答案質(zhì)量進(jìn)行評(píng)分,以實(shí)現(xiàn)通過(guò)用戶排名來(lái)達(dá)到問(wèn)題推薦的相關(guān)效果。Chang[20]等將問(wèn)題推送的重點(diǎn)從傳統(tǒng)的面向?qū)<业耐扑]轉(zhuǎn)向面向具有合作和提供有用答案的潛在用戶方面,并將用戶的回答、評(píng)論和投票等用戶偏好列入問(wèn)題推薦模型中。
問(wèn)題推薦方面比較有特色的研究還包括:Jeon等[21]提出了一種在社交問(wèn)答中查找語(yǔ)義相似問(wèn)題的算法,通過(guò)語(yǔ)言翻譯模型來(lái)計(jì)算問(wèn)題與問(wèn)題的相似度,并同時(shí)考慮了與問(wèn)題相對(duì)應(yīng)的答案信息,實(shí)現(xiàn)問(wèn)題自動(dòng)推薦。Xu等[22]則從社交問(wèn)答中用戶的角色出發(fā),第一次系統(tǒng)的探討兩種角色(提問(wèn)者和回答者)對(duì)問(wèn)題推薦效果的不同影響,并構(gòu)建一個(gè)基于雙重角色模型的問(wèn)題推薦方法,這種方法通過(guò)將提問(wèn)者與回答者之間的用戶關(guān)系以及回答者和問(wèn)題的內(nèi)容關(guān)系整合到一個(gè)統(tǒng)一的概念框架中去以實(shí)現(xiàn)最終任務(wù)。
社交問(wèn)答平臺(tái)保存了大量有價(jià)值的問(wèn)題和答案數(shù)據(jù),檢索已有的問(wèn)題以滿足用戶的信息需求是其提供的重要服務(wù)之一。當(dāng)用戶的信息需求可以從已有問(wèn)題的答案中得到滿足,則可以大大減少用戶獲取最佳答案的時(shí)間。問(wèn)題檢索的研究強(qiáng)化了社交問(wèn)答平臺(tái)作為人類社會(huì)知識(shí)庫(kù)的作用,因?yàn)榇蟛糠钟脩敉ㄟ^(guò)檢索現(xiàn)有問(wèn)題即可獲得需要的信息,而不需要再次重復(fù)提問(wèn),減少了重復(fù)提問(wèn)和資源的浪費(fèi)。檢索技術(shù)本身的飛速發(fā)展也給嵌入在社交問(wèn)答平臺(tái)中的檢索服務(wù)提供了支撐。目前,網(wǎng)民越來(lái)越習(xí)慣于在社交媒體中尋求答案,這為社交問(wèn)答平臺(tái)提供了新的發(fā)展機(jī)會(huì),而社交網(wǎng)站檢索功能的好壞直接決定了用戶的使用體驗(yàn)和持續(xù)使用的意愿。
向量空間模型、Okapi模型、語(yǔ)言模型以及翻譯模型都被應(yīng)用于社交問(wèn)答平臺(tái)中的問(wèn)題檢索。相比而言,有學(xué)者認(rèn)為翻譯模型的檢索效果要高于前三種模型的檢索效果[20]?;诙陶Z(yǔ)的翻譯模型,相較于傳統(tǒng)的單個(gè)詞語(yǔ)的翻譯模型來(lái)說(shuō)檢索效果有所提高[23]。基于詞權(quán)重排序的翻譯模型,引入噪音控制,使檢索效果大幅提高[24]。基于目的的語(yǔ)言模型,可應(yīng)對(duì)用戶的短文本檢索問(wèn)題[25]?;诜g的語(yǔ)言模型,將翻譯模型與查詢語(yǔ)言可能性模型相結(jié)合,可為用戶提供相關(guān)且高質(zhì)量的問(wèn)題[26-27],Cai[28]、Zhou[29]等在其研究中也使用了該模型。
問(wèn)題的主題信息對(duì)提高用戶問(wèn)題檢索的效果起到一定的作用。問(wèn)題的主題和問(wèn)題的焦點(diǎn)是問(wèn)題的主要組成部分,相似問(wèn)題的檢索就是相似問(wèn)題主題和焦點(diǎn)的檢索,可使用基于最小描述長(zhǎng)度樹(shù)識(shí)別相似問(wèn)題的方法,提升用戶檢索效率。此外,Zhang等[30]提出一種基于主題的語(yǔ)義相似性計(jì)算方法來(lái)發(fā)現(xiàn)社交問(wèn)答中的相似問(wèn)題。Cai[27]、Zhou[28]等也同樣研究了潛在的主題信息對(duì)社交問(wèn)答平臺(tái)檢索效果的影響。
問(wèn)題的分類信息也被用于問(wèn)題檢索的相關(guān)研究中。社交問(wèn)答平臺(tái)的類別信息主要有三種作用:類別的等級(jí)結(jié)構(gòu)方便用戶瀏覽問(wèn)題和答案;基于類別的知識(shí)組織便于用戶在子類中搜尋信息;類別信息能夠有效的改善問(wèn)題檢索模型。2009年,Cao等[31]使用層次聚類和局部平滑方法計(jì)算新的問(wèn)題屬于某一類別的可能性,并通過(guò)實(shí)驗(yàn)證明這種檢索模型的檢索效果。2010年,Cao等[32]又提出了一種新的利用分類信息以提高檢索的效率方法,該方法包括兩個(gè)關(guān)聯(lián)度的評(píng)分,且這種方法普遍適用于現(xiàn)有的問(wèn)題檢索模型。2012年,Cao等[33]再次提出了四種新的方法用以提高問(wèn)題檢索,分別是LS法(the leaf category smoothing enhancement)、CS法(thecategory enhancement)、QC法(the query classification enhancement)和DS法(the question classification enhancement)。
問(wèn)題自動(dòng)生成可以輔助用戶進(jìn)行問(wèn)題構(gòu)建,德國(guó)Ubiquitous Knowledge Processing 實(shí)驗(yàn)室[34]從社交問(wèn)答平臺(tái)上的低質(zhì)量問(wèn)題中通過(guò)拼寫和語(yǔ)法錯(cuò)誤修正以及從關(guān)鍵詞中自動(dòng)產(chǎn)生問(wèn)題的方法,自動(dòng)生成高質(zhì)量問(wèn)題,從而提高用戶提問(wèn)的效率。
3回答者中的專家發(fā)現(xiàn)及答案質(zhì)量評(píng)價(jià)
對(duì)社交問(wèn)答平臺(tái)中的答案展開(kāi)的研究很多,比如回答者的參與動(dòng)機(jī)、提問(wèn)者對(duì)答案的滿意度、答案質(zhì)量、答案可信度、答案的相關(guān)性評(píng)價(jià)、答案分類等等,其中涉及到自然語(yǔ)言及相關(guān)技術(shù)處理的研究以專家發(fā)現(xiàn)、答案質(zhì)量評(píng)價(jià)兩個(gè)方面為主,專家發(fā)現(xiàn)從本質(zhì)上說(shuō)也屬于答案評(píng)價(jià)的研究范疇。
提問(wèn)者通常希望答案來(lái)自“專家”,通過(guò)評(píng)估用戶的權(quán)威性來(lái)識(shí)別“專家”對(duì)于高質(zhì)量答案的獲取至關(guān)重要。社交問(wèn)答平臺(tái)將這種數(shù)量較少但活躍度高,并能提供大量高質(zhì)量答案的核心用戶稱之為專家。
專家發(fā)現(xiàn)的過(guò)程中,學(xué)者們往往通過(guò)HITS、PageRank等算法來(lái)測(cè)量問(wèn)答社區(qū)中用戶的權(quán)威性,比如Jurczyk等[35]基于用戶關(guān)系構(gòu)建提問(wèn)者與回答者之間的社會(huì)網(wǎng)絡(luò),并使用HITS算法計(jì)算每個(gè)用戶的權(quán)威度。但是,這些傳統(tǒng)的基于鏈接分析的方式并沒(méi)有考慮到用戶間的主題相似性以及用戶的專業(yè)知識(shí)和用戶的聲譽(yù),Chen[36]通過(guò)對(duì)社交問(wèn)答平臺(tái)中影響用戶聲譽(yù)的關(guān)系進(jìn)行提取和分類,提出一種基于用戶聲譽(yù)使用模型的新方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法優(yōu)于鏈接拓?fù)潢P(guān)系HITS算法。Zhou等[37]考慮了鏈接的結(jié)構(gòu)和用戶的主題相似性,構(gòu)建了一種基于PageRank算法的主題敏感度概率模型,較傳統(tǒng)算法更為準(zhǔn)確。
使用HITS、PageRank等算法進(jìn)行專家發(fā)現(xiàn)存在一定的問(wèn)題,即需要人工設(shè)定專家的數(shù)量。為了克服這一問(wèn)題,Bouguessa等[38]提出一種結(jié)合γ混合分布、貝葉斯信息標(biāo)準(zhǔn)和期望最大化算法的權(quán)威用戶自動(dòng)識(shí)別系統(tǒng),并通過(guò)相關(guān)數(shù)據(jù)證明了該算法的有效性。
另外,問(wèn)題內(nèi)容、專家檔案之間的相似性、專業(yè)知識(shí)的層次差異、問(wèn)題回復(fù)的數(shù)量都可以納入權(quán)威用戶識(shí)別及專家發(fā)現(xiàn)的過(guò)程[39]。Kao[40]、林鴻飛[41]等也分別在前人研究的基礎(chǔ)上提出了專家發(fā)現(xiàn)的相關(guān)方法。
答案質(zhì)量評(píng)價(jià)對(duì)于理解用戶的信息需求、提升問(wèn)答服務(wù)質(zhì)量有重要作用。一方面,由于用戶信息需求的復(fù)雜性和模糊性,何種答案是滿足用戶需求的最佳答案是一個(gè)非常復(fù)雜的問(wèn)題;另一方面,答案的質(zhì)量決定了用戶對(duì)于問(wèn)答平臺(tái)的評(píng)價(jià),網(wǎng)站應(yīng)該盡量采取措施屏蔽掉低質(zhì)量、虛假、完全不相關(guān)的答案,同時(shí),網(wǎng)站還需要優(yōu)化激勵(lì)機(jī)制,鼓勵(lì)更多的用戶參與回答,尤其是那些擁有專門知識(shí)的用戶,激發(fā)群體智慧,提高答案的針對(duì)性和有效性。
答案質(zhì)量評(píng)價(jià)是一個(gè)包含信息質(zhì)量和自然語(yǔ)言處理技術(shù)的跨學(xué)科問(wèn)題,答案的文本內(nèi)容與非文本特征都可以作為評(píng)價(jià)其質(zhì)量的依據(jù)。文本內(nèi)容特征對(duì)質(zhì)量的影響高于社會(huì)和非文本因素的影響,其中內(nèi)容的完整性、可靠性、準(zhǔn)確性以及用戶的表達(dá)方式和積極的評(píng)價(jià)與答案質(zhì)量有著密切的關(guān)系,而高頻詞和答案的長(zhǎng)度對(duì)答案質(zhì)量的影響較小,此外還有學(xué)者指出答案的質(zhì)量與最佳答案的選擇不存在直接關(guān)系。在Adamic等[39]的研究中,答案的長(zhǎng)度、其他答案的數(shù)量和用戶的歷史記錄是最佳答案選擇的重要指標(biāo)。
與Adamic[39]的研究中顯示的用戶更加傾向于較長(zhǎng)的答案作為最佳答案不同,Kim等[42]則認(rèn)為用戶更加傾向于短而直接的答案,其假設(shè)提問(wèn)者在選擇最佳答案時(shí)都會(huì)對(duì)其作出相關(guān)評(píng)論,這些評(píng)論反映了用戶選擇特定答案的原因,即答案質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn)。早在2007年,Kim等[43]收集了1200多條用戶評(píng)論,并就此構(gòu)建問(wèn)題答案質(zhì)量評(píng)價(jià)框架,包括內(nèi)容、認(rèn)知、效用、信息源、外部因素、社會(huì)情感和一般敘述七個(gè)一級(jí)指標(biāo)??紤]到數(shù)據(jù)量較少和相關(guān)評(píng)價(jià)標(biāo)準(zhǔn)的局限性,2009年,Kim等[42]收集了7000多條用戶評(píng)論,將提問(wèn)者的答案質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)分為六類,即內(nèi)容、認(rèn)知、效用、信息源、外部因素和社會(huì)情感,并包含準(zhǔn)確性、特殊性、簡(jiǎn)潔性等23個(gè)子指標(biāo),研究發(fā)現(xiàn)問(wèn)題類型對(duì)評(píng)價(jià)標(biāo)準(zhǔn)有重要影響,比如在討論性問(wèn)題類中,用戶的社會(huì)情感是選擇最佳答案的最主要標(biāo)準(zhǔn)。
此外,F(xiàn)ichman[44]、Chua[45]、Golbeck[46]等對(duì)社交問(wèn)答平臺(tái)中答案質(zhì)量評(píng)價(jià)方面也做了一些有特色的研究。
4結(jié)語(yǔ)
通過(guò)以上綜述可以看出,近幾年對(duì)社交問(wèn)答中的問(wèn)題、答案等用戶生成內(nèi)容的研究集中在問(wèn)題分類、推薦、檢索,以及答案的評(píng)價(jià)等方面,而且從技術(shù)視角切入的研究成果占了較大比重。
目前,社交問(wèn)答中用戶生成內(nèi)容有關(guān)的研究機(jī)會(huì)還包括:
(1)研究問(wèn)題中蘊(yùn)含的用戶信息需求
社交問(wèn)答平臺(tái)為用戶提供了大量開(kāi)放的、容易獲取的知識(shí),這些知識(shí)來(lái)自于和他們有同樣經(jīng)歷、同樣訴求或者同樣興趣的人,這一特點(diǎn)使得社交問(wèn)答平臺(tái)中的答案會(huì)比搜索引擎里面的答案更貼近于用戶的真實(shí)需求,同時(shí),也為社交問(wèn)答平臺(tái)帶來(lái)了大量的用戶生成內(nèi)容,為研究者理解公眾信息需求、開(kāi)展學(xué)術(shù)研究提供了寶貴的文本資源。大量的學(xué)者利用Yahoo!Answers、All Experts、Live Qn等社交問(wèn)答平臺(tái)中的文本內(nèi)容研究用戶的圖像信息需求、用戶選擇或評(píng)價(jià)最佳答案的標(biāo)準(zhǔn)、社區(qū)反饋等等[43,47]。
(2)研究問(wèn)題和答案中蘊(yùn)含的用戶行為模式及特點(diǎn)
社交問(wèn)答平臺(tái)中存留的問(wèn)題和答案等用戶生成內(nèi)容,從本質(zhì)上說(shuō),是一種用戶網(wǎng)絡(luò)日志。基于網(wǎng)絡(luò)日志研究用戶行為的成果非常豐富,但基于社交問(wèn)答中用戶生成內(nèi)容挖掘用戶行為模式和特點(diǎn)的研究還不夠充分。除了用戶的參與動(dòng)機(jī)、用戶分類以外,值得研究的內(nèi)容還包括:用戶進(jìn)行知識(shí)創(chuàng)造和傳播的機(jī)制,用戶在社交問(wèn)答平臺(tái)中的行為模式及其影響因素,用戶類別對(duì)用戶提問(wèn)、搜索、回答等行為的影響等等。
(3)對(duì)社交問(wèn)答中的文本進(jìn)行統(tǒng)計(jì)分析、數(shù)據(jù)挖掘和可視化
目前已經(jīng)有學(xué)者面向特定領(lǐng)域,使用社交問(wèn)答平臺(tái)中的文本數(shù)據(jù)進(jìn)行詞匯的統(tǒng)計(jì)分析、空間聚類、主題發(fā)現(xiàn)及可視化等研究,以發(fā)現(xiàn)用戶的詞匯使用模式和統(tǒng)計(jì)特征,挖掘用戶關(guān)注的熱門主題、主題之間的語(yǔ)義關(guān)系、主題的演進(jìn)等[48-49]。作為社交媒體中用戶生成的天然知識(shí)庫(kù),社交問(wèn)答平臺(tái)中的文本內(nèi)容正在成為科學(xué)研究中最流行的文本數(shù)據(jù)源之一。
參考文獻(xiàn)
[1]Alexa.The top ranked sites in references category[EB/OL].[2014-12-21].http://www.alexa.com/topsites/category/Top/Reference
[2]Ignatova K, Toprak C, Bernhard D, et al. Annotating question types in social Q&A sites[C]//Tagungsband des GSCL Symposiums’ Sprachtechnologie und eHumanities. 2009: 44-49
[3]Harper F M, Weinberg J, Logie J, et al. Question types in social Q&A sites[J/OL]. First Monday, 2010,15:7.[2014-07-05].http://firstmondey.org/ojs/index.php/fm/article/view/2913/
[4]Pomerantz J. A linguistic analysis of question taxonomies[J]. Journal of the American Society for Information Science and Technology, 2005, 56(7): 715-728
[5]Qu B, Cong G, Li C, et al. An evaluation of classification models for question topic categorization[J]. Journal of the American Society for Information Science and Technology, 2012,63(5):889-903
[6]Fan S, Wang X, Wang X, et al. Using hybrid kernel method for question classification in CQA[C]//Neural Information Processing. Berlin Heidelberg:Springer,2011:121-130
[7]Chan W, Yang W, Tang J, et al. Community question topic categorization via hierarchical kernelized classification[C]//Proceedings of the 22nd ACM International Conference on Information & Knowledge Management. ACM, 2013: 959-968
[8]Bae K, Ko Y. An effective category classification method based on a language model for question category recommendation on a cQA service[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management. ACM, 2012: 2255-2258
[9]Lei Y, Jiang Y. Chinese question classification in community question answering[C]//2010 IEEE International Conference on Service-Oriented Computing and Applications(SOCA). IEEE, 2010:1-6
[10] Cai L, Zhou G, Liu K, et al. Large-scale question classification in cQA by leveraging Wikipedia semantic knowledge[C]//Proceedings of the 20th ACM International Conference on Information and Knowledge Management. ACM, 2011: 1321-1330
[11] Xu F, Ji Z, Wang B. Dual role model for question recommendation in community question answering[C]//Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2012: 771-780
[12] Zhou T C, Lyu M R, King I. A classification-based approach to question routing in community question answering[C]//Proceedings of the 21st International Conference Companion on World Wide Web. ACM, 2012: 783-790
[13] Guo J, Xu S, Bao S, et al. Tapping on the potential of q&a community by recommending answer providers[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management. ACM, 2008: 921-930
[14] Ni X, Lu Y, Quan X, et al. User interest modeling and its application for question recommendation in user-interactive question answering systems[J]. Information Processing & Management, 2012, 48(2): 218-233
[15] Zhou Y, Cong G, Cui B, et al. Routing questions to the right users in online communities[C]//IEEE 25th International Conference on Data Engineering. IEEE, 2009: 700-711
[16] Dror G, Koren Y, Maarek Y, et al. I want to answer; who has a question?: Yahoo! answers recommender system[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2011: 1109-1117
[17] Li B, King I, Lyu M R. Question routing in community question answering: putting category in its place[C]//Proceedings of the 20th ACM International Conference on Information and Knowledge Management. ACM, 2011: 2041-2044
[18] Wang, K, Zhao Y M, Tat-Seng C. A syntactic tree matching approach to finding similar questions in community-based QA services[C]//Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York,NY:ACM,2009:187-194
[19] Zhou G,Liu K,Zhao J.Joint relevance and answer quality learning for question routing in community QA[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management.ACM,2012:1492-1496
[20] Chang S,Pal A.Routing questions for collaborative answering in community question answering[C]//Proceedings of the 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.ACM,2013:494-501
[21] Jiwoon J, Croft W B, Lee J H. Finding similar questions in large question and answer archives[C]//Proceedings of the 14th ACM International Conference on Information and Knowledge Management. New York,NY:ACM,2005:84-90
[22] Xu F, Ji Z, Wang B. Dual role model for question recommendation in community question answering[C]//Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2012: 771-780
[23] Zhou T C, Lin C Y, King I, et al. Learning to suggest questions in online forums[C]//Proceedings of the 25th AAAI Conference on Artificial Intelligence(AAAI 2001).Menlo Park,CA:The AAAI Press,2011:1298-1303
[24] Lee J T, Kim S B, Song Y I, et al. Bridging lexical gaps between queries and questions on large online Q&A collections with compact translation models[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2008: 410-418
[25] Wu H, Wu W, Zhou M, et al. Improving search relevance for short queries in community question answering[C]//Proceedings of the 7th ACM International Conference on Web Search and Data Mining. ACM, 2014: 43-52
[26] Cao X, Cong G, Cui B, et al. The use of categorization information in language models for question retrieval[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. ACM, 2009: 265-274
[27] Ji Z, Xu F, Wang B. A category-integrated language model for question retrieval in community question answering[A]//Hou Y,et al(eds). Information Retrieval Technology. Berlin Heidelberg: Springer,2012:14-25
[28] Cai L, Zhou G, Liu K, et al. Learning the latent topics for question retrieval in community QA[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing.Chiang Mai,Thailand:Asian Federation of Natural Language Processing,2011:273-281
[29] Zhou G, Cai L, Zhao J, et al. Phrase-based translation model for question retrieval in community question answer archives[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 653-662
[30] Zhang W N, Liu T, Yang Y, et al. A topic clustering approach to finding similar questions from large question and answer archives[J]. PloS One, 2014, 9(3): e71511
[31] Cao X, Cong G, Cui B, et al. The use of categorization information in language models for question retrieval[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. ACM, 2009: 265-274
[32] Cao X, Cong G, Cui B, et al. A generalized framework of exploring category information for question retrieval in community question answer archives[C]//Proceedings of the 19th International Conference on World Wide Web. ACM, 2010: 201-210
[33] Cao X, Cong G, Cui B, et al. Approaches to exploring category information for question retrieval in community question-answer archives[J]. ACM Transactions on Information Systems (TOIS), 2012, 30(2): 7
[34] Ignatova K, Bernhard D, Gurevych I. Generating high quality questions from low quality questions[C]//Proceedings of the Workshop on the Question Generation Shared Task and Evaluation Challenge.Pittsburgh,2008.[2015-04-21].http://www.ukp.tu-darmstadt.de/fileadmin/user_upload/Group_UKP/publicationen/2008/QG08_Ignatova.pdf
[35] Jurczyk P,Agichtein E.Discovering authorities in question answer communities by using link analysis[C]//Proceedings of the 16th ACM Conference on Information and Knowledge Management(CIKM ’07).ACM Press,2007:919-922
[36] Chen L, Nayak R. Expertise analysis in a question answer portal for author ranking[C]//IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, WI-IAT’08. IEEE, 2008(1):134-140
[37] Zhou G, Lai S, Liu K, et al. Topic-sensitive probabilistic model for expert finding in question answer communities[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management. ACM, 2012: 1662-1666
[38] Bouguessa M, Dumoulin B, Wang S. Identifying authoritative actors in question-answering forums: The case of yahoo! Answers[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2008: 866-874
[39] Adamic L A, Zhang J, Bakshy E, et al. Knowledge sharing and yahoo answers: Everyone knows something[C]//Proceedings of the 17th International Conference on World Wide Web. ACM, 2008: 665-674
[40] Kao W C, Liu D R, Wang S W. Expert finding in question-answering websites: A novel hybrid approach[C]//Proceedings of the 2010 ACM Symposium on Applied Computing. ACM, 2010: 867-871
[41] 林鴻飛, 王健, 熊大平, 等. 基于類別參與度的社區(qū)問(wèn)答專家發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(1): 333-338
[42] Kim S, Oh S. Users’ relevance criteria for evaluating answers in a social Q&A site[J]. Journal of the American Society for Information Science and Technology, 2009, 60(4): 716-727
[43] Kim S, Oh J S, Oh S. Best‐answer selection criteria in a social Q&A site from the user-oriented relevance perspective[C]//Proceedings of the 70th Annual Meeting of American Society for Information Science and Technology. Medford,NJ:Information Today,2007:1-15
[44] Fichman P. A comparative assessment of answer quality on four question answering sites[J]. Journal of Information Science, 2011, 37(5): 476-486
[45] Chua A Y K,Balkunje R S.Comparative evaluation of community question answering websites[A]//Admin P A(eds).The Outreach of Digital Libraries:A Globalized Resource Network.Berlin Heidelberg: Springer,2012:209-218
[46] Golbeck J, Fleischmann K R. Trust in social Q&A: The impact of text and photo cues of expertise[C]//Proceedings of the 73rd the American Society for Information Science and Technology Annual Meeting on Navigating Streams in an Information Ecosystem.Medford,NJ:Information Today, 2010:1-10
[47] Yoon J W,Chung E K. Understanding image needs in daily life by analyzing questions in a social Q&A site[J].Journal of the American Society for Information Science and Technology, 2011,62(11):2201-2213
[48] Zhang J, Zhao YM. A user term visualization analysis based on a social question and answer log[J]. Information Processing & Management, 2013, 49(5): 1019-1048
[49] Zhang J, Zhao YM, Dimitroff A. A study on health care consumers’ diabetes term usage across identified categories[J]. Aslib Journal of Information Management, 2014, 66(4): 443- 463
Research Progress on Questions and Answers in Social Q&A Platforms: A Technology Perspective
Zhao Yiming Yao Dan Deng Shengli
(Center for Studies of Information Resources, Wuhan University, Wuhan, 430072)
[Abstract]Social question and answer (social Q&A) platforms broaden the way of online information access for users, and users post tons of questions and answers on those platforms. The growing popularity of social Q&A platforms presents great academic research opportunities and novel challenges. This paper aims to review and synthesize the advances of social Q&A studies on question classification, question recommendation, question retrieval, expert discovery in answerers and answer evaluation. Potential research opportunities and directions are presented and discussed at last.
[Key words]Social Q&AUser generated contentQuestion classificationQuestion retrievalAnswer evaluation
(收稿日期:2015-05-15)
DOI:10.13365/j.jirm.2015.04.032
[中圖分類號(hào)]G350
[文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]2095-2171(2015)04-0032-07
[作者簡(jiǎn)介]趙一鳴,助理研究員,博士,博士后,研究方向?yàn)橹R(shí)組織與可視化,Email:zym_0418@qq.com;姚丹,碩士研究生,研究方向?yàn)橛脩粜畔⑿袨?;鄧勝利,教授,研究方向?yàn)橛脩粜畔⑿袨榕c服務(wù)。
[基金項(xiàng)目]本研究得到國(guó)家社會(huì)科學(xué)基金項(xiàng)目“基于社交問(wèn)答平臺(tái)的用戶知識(shí)貢獻(xiàn)行為與服務(wù)優(yōu)化研究”(14BTQ044),武漢大學(xué)70后學(xué)術(shù)團(tuán)隊(duì)項(xiàng)目“網(wǎng)絡(luò)用戶信息行為”和中國(guó)博士后科學(xué)基金面上項(xiàng)目“基于詞匯集聚關(guān)系的潛在主題可視化研究”(2014M552090)的資助。