楊艷妮,廖栩君,閔錦濤,黃正偉,劉華媛
(1.三峽大學(xué) 文學(xué)與傳媒學(xué)院,湖北 宜昌 443000;2.三峽大學(xué) 計(jì)算機(jī)與信息學(xué)院,湖北 宜昌 443000;3.三峽大學(xué) 經(jīng)濟(jì)與管理學(xué)院,湖北 宜昌 443000)
網(wǎng)絡(luò)問(wèn)答社區(qū)中用戶(hù)提問(wèn)是用戶(hù)信息需求的鮮明表達(dá)[1],充分反映用戶(hù)偏好。對(duì)海量用戶(hù)提問(wèn)內(nèi)容的組織有益于用戶(hù)興趣挖掘、社區(qū)發(fā)現(xiàn)、網(wǎng)絡(luò)輿情分析等工作[2],對(duì)網(wǎng)絡(luò)問(wèn)答社區(qū)平臺(tái)建設(shè)具有重要意義。如何將離散分布、異構(gòu)無(wú)序的用戶(hù)提問(wèn)數(shù)據(jù)動(dòng)態(tài)關(guān)聯(lián)并有效組織起來(lái),從而優(yōu)化資源服務(wù)體系成為社區(qū)平臺(tái)信息組織的重要問(wèn)題[3]。本研究以網(wǎng)絡(luò)問(wèn)答社區(qū)用戶(hù)提問(wèn)的文本為對(duì)象,考慮問(wèn)題文本冗余海量、提問(wèn)口語(yǔ)化、社會(huì)化標(biāo)簽缺失等特點(diǎn),提出一種減少人工標(biāo)注且有利于關(guān)聯(lián)問(wèn)題推薦的用戶(hù)提問(wèn)主題聚類(lèi)圖譜構(gòu)建方法,實(shí)現(xiàn)網(wǎng)絡(luò)問(wèn)答社區(qū)中用戶(hù)提問(wèn)的知識(shí)聚類(lèi)與展示。本研究通過(guò)充分融合Glove和Word2vec算法的優(yōu)勢(shì),對(duì)用戶(hù)提問(wèn)進(jìn)行文本特征表示,在此基礎(chǔ)上比較不同聚類(lèi)算法的聚類(lèi)效果,選取最優(yōu)算法實(shí)現(xiàn)問(wèn)題文本多層次聚類(lèi),并利用TextRank進(jìn)行聚類(lèi)標(biāo)簽自動(dòng)化生成,然后在主題間層次結(jié)構(gòu)基礎(chǔ)上,基于圖模型將不同提問(wèn)的關(guān)聯(lián)關(guān)系呈現(xiàn)出來(lái),從而構(gòu)建網(wǎng)絡(luò)問(wèn)答社區(qū)用戶(hù)提問(wèn)的主題聚類(lèi)圖譜。
知識(shí)圖譜構(gòu)建技術(shù)在知識(shí)問(wèn)答、語(yǔ)義搜索、智能推薦等領(lǐng)域發(fā)揮至關(guān)重要的作用。網(wǎng)絡(luò)社區(qū)知識(shí)圖譜構(gòu)建主要是通過(guò)語(yǔ)義相似度、關(guān)聯(lián)度計(jì)算等探索知識(shí)主題間關(guān)聯(lián)關(guān)系,或構(gòu)建實(shí)體關(guān)系,再利用圖模型、Gephi等工具對(duì)知識(shí)主題進(jìn)行知識(shí)圖譜構(gòu)建和展示。主題聚類(lèi)圖譜作為一種模型化的知識(shí)表示工具,為解決大量、無(wú)序、非結(jié)構(gòu)的知識(shí)組織問(wèn)題[4],可將主題間的關(guān)聯(lián)關(guān)系與層次結(jié)構(gòu)關(guān)系清晰、有序地展現(xiàn)出來(lái)[5]。通過(guò)剖析主題的層次關(guān)系和主題間的共現(xiàn)關(guān)系,改進(jìn)網(wǎng)絡(luò)社區(qū)知識(shí)組織方式[6],并以直觀的方式將梳理、總結(jié)的知識(shí)展示給用戶(hù)[7]。
國(guó)內(nèi)外學(xué)者從網(wǎng)絡(luò)社區(qū)信息內(nèi)容的聚類(lèi)方法技術(shù)、聚類(lèi)展示等方面進(jìn)行探索。內(nèi)容聚類(lèi)方法技術(shù)方面,基于劃分的K-means算法(K-means Clustering Algorithm,K均值聚類(lèi)算法)、基于密度的DBSCAN算法(Density-based Spatial Clustering of Applications with Noise,基于密度的噪聲應(yīng)用空間聚類(lèi)算法)[8]等均是文本聚類(lèi)技術(shù)的有益嘗試。在進(jìn)行主題聚類(lèi)時(shí),以往的算法只考慮單詞的頻率,而不考慮它們對(duì)主題聚類(lèi)的效用,于是Choi Hyeok-Jun等人結(jié)合頻率和效用提出新的主題聚類(lèi)算法,對(duì)Twitter內(nèi)容進(jìn)行主題聚類(lèi)[9]。為了獲得更好的主題可解釋性和進(jìn)行文本表示,Ennajari Hafsa等人提出基于知識(shí)圖譜和詞嵌入的主題聚類(lèi)模型,該模型利用領(lǐng)域知識(shí)提高主題聚類(lèi)質(zhì)量[10]。大多數(shù)現(xiàn)有方法可以對(duì)大規(guī)模數(shù)據(jù)進(jìn)行聚類(lèi)得到社區(qū)熱門(mén)主題。其中,Singh Jagrati等人提出基于節(jié)點(diǎn)顯著性的內(nèi)容聚類(lèi)算法可以更快更有效地提取社區(qū)主題[11]。DBSCAN算法能夠?qū)Υ笠?guī)模數(shù)據(jù)聚類(lèi),但是對(duì)于時(shí)空和高維方面的數(shù)據(jù)聚類(lèi)效果不佳。對(duì)于具有時(shí)空屬性的數(shù)據(jù),Birant Derya等人提出了一種新的基于密度的聚類(lèi)算法,該算法能夠有效地對(duì)各種時(shí)空數(shù)據(jù)進(jìn)行聚類(lèi)分析[12]。從高維數(shù)據(jù)聚類(lèi)角度來(lái)看,Chen Yewang等人改進(jìn)DBSCAN算法,對(duì)高維數(shù)據(jù)進(jìn)行聚類(lèi)并達(dá)到了高效且高精度的效果[13]。
關(guān)于內(nèi)容聚類(lèi)結(jié)果的展示方面,各類(lèi)可視化算法工具備受關(guān)注:L’Yi Sehi等人提出一種聚類(lèi)結(jié)果可視化分析工具——XCluSim,除了能對(duì)單個(gè)聚類(lèi)結(jié)果可視化,還能夠?qū)Χ鄠€(gè)聚類(lèi)結(jié)果進(jìn)行可視化比較分析[14];對(duì)于數(shù)據(jù)聚類(lèi)和可視化,Shieh Shu-Ling等人提出一種非線(xiàn)性、無(wú)監(jiān)督的自組織映射算法,該算法的可視化效果更加直觀[15];為了對(duì)高維數(shù)據(jù)進(jìn)行可視化展示,Laurens Van Der Maaten等人提出一種非線(xiàn)性降維算法,能夠?qū)Ω呔S數(shù)據(jù)有效降維并可視化聚類(lèi)結(jié)果[16];林杰和苗潤(rùn)生為構(gòu)建專(zhuān)業(yè)網(wǎng)絡(luò)社區(qū)的主題圖譜,提出通過(guò)圖模型與譜聚類(lèi),展現(xiàn)主題間的關(guān)聯(lián)關(guān)系與層次結(jié)構(gòu)[17]。
綜上所述,關(guān)于文本內(nèi)容聚類(lèi)方法技術(shù)及展示的研究探索為網(wǎng)絡(luò)問(wèn)答社區(qū)用戶(hù)提問(wèn)的聚類(lèi)生成和展現(xiàn)提供了理論基礎(chǔ),然而目前網(wǎng)絡(luò)問(wèn)答社區(qū)中的知識(shí)聚合與主題發(fā)現(xiàn)和獲取的研究主要側(cè)重于對(duì)用戶(hù)生成答案進(jìn)行分析,而對(duì)另一種典型的用戶(hù)交互內(nèi)容——用戶(hù)提問(wèn),主要以提問(wèn)分類(lèi)、打標(biāo)簽等為基礎(chǔ)展開(kāi)其關(guān)聯(lián)內(nèi)容推薦。但在操作中存在以下兩方面的問(wèn)題:一方面,許多社區(qū)中的提問(wèn)并無(wú)標(biāo)簽,或存在標(biāo)簽隨意性強(qiáng)、關(guān)聯(lián)性差等缺點(diǎn);另一方面,目前針對(duì)網(wǎng)絡(luò)問(wèn)答社區(qū),只有以某一細(xì)分粒度層次對(duì)象下的內(nèi)容進(jìn)行知識(shí)聚類(lèi),或是只對(duì)網(wǎng)絡(luò)問(wèn)答社區(qū)中所有的內(nèi)容進(jìn)行粗粒度層次知識(shí)聚類(lèi),這使得網(wǎng)絡(luò)問(wèn)答社區(qū)平臺(tái)運(yùn)營(yíng)人員難以全面細(xì)致地了解用戶(hù)的提問(wèn)需求情況以及對(duì)用戶(hù)的提問(wèn)內(nèi)容進(jìn)行合理地組織。隨著用戶(hù)生成問(wèn)題的急速增多,瀏覽者在以往提問(wèn)者生成的海量提問(wèn)內(nèi)容中會(huì)花費(fèi)很多的時(shí)間和精力才能查詢(xún)到自己想要的相關(guān)提問(wèn)信息,從而最終影響瀏覽者的使用體驗(yàn)。因此,對(duì)網(wǎng)絡(luò)知識(shí)社區(qū)中用戶(hù)生成的海量提問(wèn)內(nèi)容進(jìn)行多層次的知識(shí)聚類(lèi)和展示,實(shí)現(xiàn)用戶(hù)提問(wèn)的知識(shí)組織,成為網(wǎng)絡(luò)問(wèn)答社區(qū)知識(shí)服務(wù)面臨的重要問(wèn)題。因而,本文提出了一個(gè)針對(duì)網(wǎng)絡(luò)問(wèn)答社區(qū)中用戶(hù)提問(wèn)內(nèi)容的多層次知識(shí)聚類(lèi)與圖譜構(gòu)建框架,主要從以下幾個(gè)方面展開(kāi)探索:第一是網(wǎng)絡(luò)問(wèn)答社區(qū)用戶(hù)提問(wèn)的文本表示;第二是網(wǎng)絡(luò)問(wèn)答社區(qū)用戶(hù)提問(wèn)聚類(lèi)及聚類(lèi)主題的生成;第三是基于多層次聚類(lèi)的用戶(hù)提問(wèn)主題圖譜構(gòu)建。
用戶(hù)提問(wèn)文本主題圖譜構(gòu)建的核心是獲取主題間的關(guān)系,通過(guò)建立主題關(guān)系實(shí)現(xiàn)主題聚類(lèi)。相應(yīng)地,主題間關(guān)系的描述包括基于主題共現(xiàn)關(guān)系以及基于主題間相似度兩類(lèi)主要方式。針對(duì)網(wǎng)絡(luò)問(wèn)答社區(qū)提問(wèn)文本特征,基于主題相似度作為提問(wèn)文本主題關(guān)聯(lián)的基礎(chǔ)依據(jù)。網(wǎng)絡(luò)問(wèn)答社區(qū)對(duì)碎片化提問(wèn)的組織中,相似問(wèn)題的聚合及主題關(guān)聯(lián)是關(guān)鍵。另外,主題與子主題之間的多層次結(jié)構(gòu)是大量提問(wèn)文本的主題關(guān)聯(lián)關(guān)系識(shí)別的另一關(guān)鍵問(wèn)題。相應(yīng)地,網(wǎng)絡(luò)問(wèn)答社區(qū)用戶(hù)提問(wèn)主題聚類(lèi)圖譜構(gòu)建如圖1所示。
Fig.1 The framework for construction of clustering graph of user question topics圖1 用戶(hù)提問(wèn)主題聚類(lèi)圖譜構(gòu)建思路與框架圖
網(wǎng)絡(luò)問(wèn)答社區(qū)中用戶(hù)提問(wèn)的文本大多為短文本,存在著稀疏性、非標(biāo)準(zhǔn)性等特點(diǎn),采用傳統(tǒng)單一詞向量表達(dá)方式在文本特征選擇和文本表示方面存在語(yǔ)義表達(dá)不充分的問(wèn)題。本文在文本特征表示部分提出了一種采用基于Glove和Word2vec詞向量融合方式表示用戶(hù)提問(wèn)文本特征的方法。Mikolov Tomas等人提出的Word2vec模型能根據(jù)某一詞語(yǔ)的上下文詞語(yǔ)預(yù)測(cè)該詞語(yǔ)出現(xiàn)的概率[18],較為充分學(xué)習(xí)到該詞語(yǔ)的上下文信息,具有良好的文本表示能力,但同時(shí)也存在對(duì)全局文本詞語(yǔ)的共現(xiàn)信息利用較少的情況。而Glove模型能夠?qū)W習(xí)到全局文本的信息[19],能夠彌補(bǔ)Word2vec模型無(wú)法利用全局詞語(yǔ)的共現(xiàn)信息的缺點(diǎn)。將Word2vec模型和Glove模型結(jié)合起來(lái)表示網(wǎng)絡(luò)問(wèn)答社區(qū)中的用戶(hù)提問(wèn)文本,可以充分表達(dá)用戶(hù)提問(wèn)文本的語(yǔ)義信息。
本文首先把問(wèn)答社區(qū)中用戶(hù)提問(wèn)的文本預(yù)處理后的分詞結(jié)果分別通過(guò)Word2vec模型和Glove模型各自訓(xùn)練學(xué)習(xí);其次,遍歷用戶(hù)提問(wèn)的文本分詞后的詞語(yǔ),將每個(gè)詞語(yǔ)的Word2vec詞向量和Glove詞向量進(jìn)行拼接,得到每個(gè)詞語(yǔ)新的詞向量;再次,根據(jù)訓(xùn)練得到的每個(gè)詞語(yǔ)的詞向量對(duì)每條用戶(hù)提問(wèn)文本信息分詞后進(jìn)行均值加權(quán),得到每條用戶(hù)提問(wèn)文本信息的特征向量,如公式(1)所示:
(1)
j為根據(jù)問(wèn)答社區(qū)中用戶(hù)提問(wèn)的文本語(yǔ)料生成的詞向量以及每條用戶(hù)提問(wèn)文本特征向量的維度;Wj為每個(gè)詞語(yǔ)的Word2vec詞向量;Vj為每個(gè)詞語(yǔ)的Glove詞向量;documentj為每條用戶(hù)提問(wèn)文本的特征向量;N為每條用戶(hù)提問(wèn)文本分詞后詞語(yǔ)的數(shù)量。
基于對(duì)用戶(hù)提問(wèn)文本的多層次聚類(lèi),獲取用戶(hù)提問(wèn)文本主題的多層次結(jié)構(gòu)。根據(jù)不同的聚類(lèi)思想,文本聚類(lèi)算法大致可分為基于劃分、基于密度、基于層次、基于模型的四類(lèi)[20-21],且各聚類(lèi)算法中都包含多種算法,及其衍生的改進(jìn)方法。本文采用層次聚類(lèi)算法中的分裂法,由上向下將大的類(lèi)別逐步分割,首先分別采用較為典型的K-means、DBSCAN、BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies,基于層次結(jié)構(gòu)的平衡迭代聚類(lèi)方法)、EM(Expectation-maximization Algorithm,最大期望算法)四種聚類(lèi)算法對(duì)用戶(hù)提問(wèn)文本進(jìn)行一級(jí)聚類(lèi),通過(guò)輪廓系數(shù)和Calinski-Harabasz系數(shù)確定一級(jí)聚類(lèi)的主題數(shù)量,以及評(píng)估不同聚類(lèi)算法對(duì)用戶(hù)提問(wèn)文本聚類(lèi)效果。輪廓系數(shù),是聚類(lèi)效果好壞的一種評(píng)價(jià)方式[22],它結(jié)合內(nèi)聚度和分離度兩種因素,將某個(gè)對(duì)象與自己的簇的相似程度和與其他簇的相似程度作比較。輪廓系數(shù)越大代表聚類(lèi)效果越好。Calinski-Harabasz系數(shù)指標(biāo)則是分離度與緊密度的比值,其中通過(guò)計(jì)算各類(lèi)中心點(diǎn)與數(shù)據(jù)集中心點(diǎn)距離平方和來(lái)度量數(shù)據(jù)集的分離度,通過(guò)計(jì)算類(lèi)中各點(diǎn)與類(lèi)中心的距離平方和來(lái)度量類(lèi)內(nèi)的緊密度。Calinski-Harabasz系數(shù)越大代表著類(lèi)自身越緊密、類(lèi)與類(lèi)之間越分散,即更優(yōu)的聚類(lèi)結(jié)果[23]。
然后依次對(duì)一級(jí)聚類(lèi)每個(gè)聚類(lèi)主題下的用戶(hù)提問(wèn)文本進(jìn)行更細(xì)粒度的聚類(lèi),與一級(jí)聚類(lèi)中提問(wèn)文本間主題差異較大不同的是,聚類(lèi)粒度越細(xì)聚類(lèi)間的差異越小,因此除了輪廓系數(shù)法則,還結(jié)合肘部法則共同確定多級(jí)聚類(lèi)下最適合的聚類(lèi)主題數(shù)量。肘部法則的計(jì)算主要依據(jù)類(lèi)別畸變程度,每個(gè)類(lèi)的畸變程度等于每個(gè)變量點(diǎn)到其類(lèi)別中心的位置距離平方和。二級(jí)聚類(lèi)下不同類(lèi)別之間樣本的差異不太明顯,肘部法則在一定程度上能夠有效區(qū)分不同樣本之間差異不明顯的問(wèn)題。
用戶(hù)提問(wèn)文本的聚類(lèi)標(biāo)簽自動(dòng)化生成,即對(duì)用戶(hù)提問(wèn)問(wèn)題文本聚類(lèi)后每個(gè)聚類(lèi)結(jié)果進(jìn)行主題詞的自動(dòng)提取,提取文本中具有代表意義的詞來(lái)描述提問(wèn)文本的信息,能夠極大提高傳統(tǒng)人工標(biāo)注的效率。對(duì)文本關(guān)鍵詞抽取常用的方法包括基于統(tǒng)計(jì)理論的TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)抽取、基于主題模型的抽取(如LDA〔Latent Dirichlet Allocation,隱含狄利克雷分布〕)和基于譜圖模型的抽取(如TextRank〔文本排序算法〕)等。本研究考慮用戶(hù)提問(wèn)文本特征,利用TextRank進(jìn)行聚類(lèi)標(biāo)簽自動(dòng)化生成,提取不同聚類(lèi)類(lèi)別的主題詞,依據(jù)詞權(quán)重較高的主題詞作為聚類(lèi)標(biāo)簽,從而明確不同聚類(lèi)類(lèi)別的主題。主題詞的提取規(guī)則是,對(duì)每類(lèi)聚類(lèi)結(jié)果分詞后的每個(gè)詞語(yǔ)的主題詞權(quán)重降序排序,選取其前若干詞語(yǔ),主題詞權(quán)重即詞語(yǔ)的TextRank值。
在通過(guò)聚類(lèi)算法得到不同類(lèi)簇及各個(gè)子類(lèi),形成主題間層次結(jié)構(gòu)的基礎(chǔ)上,主題聚類(lèi)圖譜將海量用戶(hù)提問(wèn)按不同主題分類(lèi)成不同聚類(lèi),相似問(wèn)題聚集在一起。用戶(hù)提問(wèn)文本主題聚類(lèi)圖譜采用圖的建模方式,以用戶(hù)提問(wèn)為節(jié)點(diǎn),用戶(hù)提問(wèn)間的相似度作為邊,將不同的用戶(hù)提問(wèn)連接起來(lái),得到主題-主題、主題-子主題、子主題-子主題、子主題與其內(nèi)部提問(wèn)、子主題內(nèi)部提問(wèn)間的關(guān)聯(lián)關(guān)系。定義關(guān)聯(lián)關(guān)系的計(jì)算方法為:采用調(diào)整之后的余弦相似度對(duì)不同主題下所有問(wèn)題兩兩之間進(jìn)行相似度計(jì)算,并通過(guò)設(shè)定閾值,當(dāng)相似度滿(mǎn)足設(shè)定的閾值時(shí)認(rèn)為該問(wèn)題之間存在關(guān)聯(lián)關(guān)系。如公式(2)所示:
(2)
其中:Si、Sj為用戶(hù)提問(wèn)的語(yǔ)義向量;mean(S)表示用戶(hù)提問(wèn)語(yǔ)義向量的均值。調(diào)整后的余弦相似度相比普通的余弦相似度不僅能夠考慮到語(yǔ)義向量的高維空間方向信息還能考慮到語(yǔ)義向量標(biāo)量大小的信息。
定義主題與主題之間關(guān)聯(lián)關(guān)系的計(jì)算方法為計(jì)算不同主題下某個(gè)問(wèn)題與整體問(wèn)題的相似情況,選取相同主題下與整體問(wèn)題相似度較高的若干問(wèn)題代表該主題計(jì)算不同主題下彼此之間的相似度。
本文利用Python從知乎網(wǎng)絡(luò)問(wèn)答社區(qū)的科學(xué)、知識(shí)、心理、人文等板塊隨機(jī)爬取若干用戶(hù)提問(wèn)文本作為實(shí)驗(yàn)數(shù)據(jù),抓取的內(nèi)容包括提問(wèn)問(wèn)題的題目、問(wèn)題詳細(xì)描述、問(wèn)題標(biāo)簽等文本信息,如表1所示。通過(guò)剔除重復(fù)提問(wèn)后,獲得共30 852條用戶(hù)提問(wèn)文本數(shù)據(jù)。首先,將每條提問(wèn)文本數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,分詞、去停用詞后分別采用Glove詞向量和Word2vec詞向量模型進(jìn)行詞向量訓(xùn)練并進(jìn)行詞向量組合拼接,再將拼接后的詞向量對(duì)用戶(hù)提問(wèn)文本進(jìn)行詞向量表示;其次,對(duì)用戶(hù)提問(wèn)文本特征進(jìn)行兩次降維處理后分別采用具有代表意義的四種聚類(lèi)方法進(jìn)行一級(jí)聚類(lèi),并比較各類(lèi)算法的聚類(lèi)結(jié)果后選用效果較好的聚類(lèi)方法,對(duì)用戶(hù)提問(wèn)文本依次做更細(xì)粒度的聚類(lèi);再次,分別提取出多級(jí)聚類(lèi)的主題,以及不同聚類(lèi)類(lèi)別的聚類(lèi)標(biāo)簽。聚類(lèi)后,以用戶(hù)提問(wèn)問(wèn)題為節(jié)點(diǎn),用戶(hù)提問(wèn)問(wèn)題間的關(guān)聯(lián)關(guān)系程度作為邊,構(gòu)建用戶(hù)提問(wèn)主題聚類(lèi)圖譜,對(duì)主題圖譜進(jìn)行可視化展示,以便進(jìn)一步分析用戶(hù)提問(wèn)主題關(guān)系。
表1 知乎社區(qū)用戶(hù)提問(wèn)文本數(shù)據(jù)抓取結(jié)果(部分)Table 1 Text data collection results of user questions in Zhihu (part)
分別采用較常用的K-means、DBSCAN、BIRCH、EM四種算法對(duì)用戶(hù)提問(wèn)問(wèn)題文本進(jìn)行一級(jí)聚類(lèi)后可視化,不同聚類(lèi)算法聚類(lèi)結(jié)果的空間分布二維圖如圖2所示。不難看出,基于密度的DBSCAN聚類(lèi)方法存在較多噪聲,而K-means、BIRCH、EM算法的聚類(lèi)結(jié)果中各個(gè)聚類(lèi)邊界較為明顯。
Fig.2 The two-dimensional spatial distribution map of the first-level clustering of user question text by different clustering methods圖2 不同聚類(lèi)方法對(duì)用戶(hù)提問(wèn)文本一級(jí)聚類(lèi)的二維空間分布圖
為進(jìn)一步研究不同聚類(lèi)算法的具體聚類(lèi)效果,采用聚類(lèi)算法中常見(jiàn)的輪廓系數(shù)和Calinski-Harabasz系數(shù)評(píng)價(jià)指標(biāo)對(duì)不同聚類(lèi)算法進(jìn)行分析。如表2所示,不難發(fā)現(xiàn),基于劃分的K-means聚類(lèi)方法在對(duì)用戶(hù)提問(wèn)問(wèn)題文本進(jìn)行聚類(lèi)的效果略好于基于層次的BIRCH聚類(lèi)方法、基于模型的EM聚類(lèi)方法,明顯好于基于密度的DBSCAN聚類(lèi)方法。
表2 不同聚類(lèi)方法對(duì)用戶(hù)提問(wèn)問(wèn)題文本一級(jí)聚類(lèi)的效果評(píng)估Table 2 Evaluation of the effect of different clustering methods on the first-level clustering of user question texts
表2中K-means算法的值最大,隨后,選用K-means聚類(lèi)方法對(duì)用戶(hù)提問(wèn)問(wèn)題文本一級(jí)聚類(lèi)后每類(lèi)的結(jié)果,結(jié)合TextRank計(jì)算出各個(gè)聚類(lèi)下主題詞權(quán)重并進(jìn)行排序,提取不同聚類(lèi)類(lèi)別的主題詞,將詞權(quán)重較高的主題詞作為聚類(lèi)標(biāo)簽,并明確不同聚類(lèi)類(lèi)別的主題,如表3所示。
表3 用戶(hù)提問(wèn)文本一級(jí)聚類(lèi)結(jié)果Table 3 The first-level clustering result of the user question text
續(xù)表3 用戶(hù)提問(wèn)文本一級(jí)聚類(lèi)結(jié)果Continued Table 3 The first-level clustering result of the user question text
在實(shí)現(xiàn)對(duì)用戶(hù)提問(wèn)文本一級(jí)聚類(lèi)的基礎(chǔ)上進(jìn)行二級(jí)聚類(lèi)主題生成,采用聚類(lèi)算法中常用的輪廓系數(shù)法則和肘部法則來(lái)確定每個(gè)一級(jí)聚類(lèi)主題下的二級(jí)聚類(lèi)主題的聚類(lèi)數(shù)量,結(jié)果分別如圖3和圖4所示。不難看出,采用輪廓系數(shù)法則和肘部法則確定二級(jí)聚類(lèi)主題最佳聚類(lèi)數(shù)量基本保持一致。如,一級(jí)聚類(lèi)主題“科學(xué)”,在對(duì)其進(jìn)行二級(jí)聚類(lèi)時(shí),無(wú)論是輪廓系數(shù)法則或肘部法則,二級(jí)聚類(lèi)最佳聚類(lèi)數(shù)均為3。
Fig.3 Number of second-level clustering topics based on the silhouette coefficient rule圖3 輪廓系數(shù)法則確定二級(jí)聚類(lèi)主題數(shù)量
對(duì)12個(gè)一級(jí)聚類(lèi)的二級(jí)聚類(lèi)的效果進(jìn)行評(píng)估,結(jié)果如表4所示,輪廓系數(shù)及Calinski-Harabasz系數(shù)的值均較高,因此聚類(lèi)效果較好。綜合輪廓系數(shù)法則(圖3結(jié)果)和肘部法則(圖4結(jié)果)確定12個(gè)一級(jí)聚類(lèi)下各二級(jí)聚類(lèi)最終聚類(lèi)數(shù),如對(duì)于一級(jí)聚類(lèi)ID為1的“體育”,其二級(jí)聚類(lèi)數(shù)量為2。
表4 用戶(hù)提問(wèn)問(wèn)題文本二級(jí)聚類(lèi)的效果評(píng)估Table 4 Evaluation of the effect of second-level clustering of user question texts
在確定各一級(jí)聚類(lèi)下二級(jí)聚類(lèi)最終聚類(lèi)數(shù)的基礎(chǔ)上,分別對(duì)用戶(hù)提問(wèn)各一級(jí)聚類(lèi)結(jié)果進(jìn)行二次聚類(lèi),利用TextRank生成各二次聚類(lèi)的主題詞及其權(quán)重,并歸納得到各聚類(lèi)的聚類(lèi)標(biāo)簽,如表5所示。
表5 二級(jí)聚類(lèi)標(biāo)簽自動(dòng)提取結(jié)果Table 5 Label automatic extraction results of second-level clustering
續(xù)表5 二級(jí)聚類(lèi)標(biāo)簽自動(dòng)提取結(jié)果Continued Table 5 Label automatic extraction results of second-level clustering
續(xù)表5 二級(jí)聚類(lèi)標(biāo)簽自動(dòng)提取結(jié)果Continued Table 5 Label automatic extraction results of second-level clustering
按照前述方法獲取用戶(hù)提問(wèn)文本關(guān)聯(lián)關(guān)系,形成以用戶(hù)提問(wèn)問(wèn)題為節(jié)點(diǎn)、關(guān)聯(lián)度為邊的圖模型,生成用戶(hù)提問(wèn)主題聚類(lèi)圖譜,如圖5所示。圖中顯示了部分提問(wèn)節(jié)點(diǎn),邊的權(quán)重為提問(wèn)間的相似程度。本研究三萬(wàn)余條提問(wèn)形成12個(gè)一級(jí)聚類(lèi),各一級(jí)聚類(lèi)下形成數(shù)量不等的二級(jí)聚類(lèi),各級(jí)聚類(lèi)的主題標(biāo)簽如3.2節(jié)結(jié)果所示,形成一級(jí)聚類(lèi)主題、二級(jí)聚類(lèi)子主題以及聚類(lèi)內(nèi)部提問(wèn)文本間的關(guān)聯(lián)關(guān)系。圖5展示了部分一級(jí)聚類(lèi)主題下的部分子主題,如一級(jí)聚類(lèi)“考研”主題下,包括“復(fù)試”“復(fù)習(xí)經(jīng)驗(yàn)”“院校專(zhuān)業(yè)選擇”等二級(jí)聚類(lèi)子主題。圖5中的主題關(guān)聯(lián)為用戶(hù)提問(wèn)文本的關(guān)聯(lián)推薦和查詢(xún)提供索引。網(wǎng)絡(luò)知乎社區(qū)用戶(hù)提問(wèn)主題圖譜能夠建立用戶(hù)提問(wèn)文本的關(guān)聯(lián)關(guān)系,將具有相似主題的用戶(hù)提問(wèn)通過(guò)聚類(lèi)可視化展示,幫助社區(qū)信息資源組織者提升內(nèi)容組織效率。
Fig.5 User question text topic clustering graph of Zhihu (part)圖5 知乎社區(qū)用戶(hù)提問(wèn)文本主題聚類(lèi)圖譜(部分節(jié)點(diǎn))
用戶(hù)提問(wèn)與用戶(hù)生成答案均是網(wǎng)絡(luò)問(wèn)答社區(qū)中重要的用戶(hù)交互內(nèi)容。面對(duì)紛繁復(fù)雜的數(shù)據(jù),如何將離散分布、異構(gòu)無(wú)序的用戶(hù)交互內(nèi)容動(dòng)態(tài)關(guān)聯(lián)并組織起來(lái),為網(wǎng)絡(luò)問(wèn)答社區(qū)滿(mǎn)足用戶(hù)的內(nèi)容服務(wù)需求提供基礎(chǔ)十分重要。網(wǎng)絡(luò)問(wèn)答社區(qū)中用戶(hù)生成答案聚合組織的相關(guān)研究為本文研究提供了重要參考,但用戶(hù)提問(wèn)文本大多為短文本,與用戶(hù)生成答案大多為長(zhǎng)文本有所區(qū)別,內(nèi)容組織有所差異。針對(duì)用戶(hù)提問(wèn)大多為短文本的特點(diǎn),本研究對(duì)傳統(tǒng)知識(shí)聚合方式進(jìn)行改進(jìn),對(duì)用戶(hù)提問(wèn)文本用Word2vec和Glove特征組合進(jìn)行詞向量表示,以解決用戶(hù)提問(wèn)大多為短文本帶來(lái)的數(shù)據(jù)稀疏性問(wèn)題。通過(guò)對(duì)網(wǎng)絡(luò)問(wèn)答社區(qū)中用戶(hù)提問(wèn)文本進(jìn)行多層次聚類(lèi)和聚類(lèi)主題標(biāo)簽生成,并基于圖模型得到主題-主題、主題-子主題、子主題-子主題、子主題與其內(nèi)部提問(wèn)、子主題內(nèi)部提問(wèn)間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)用戶(hù)提問(wèn)的主題聚類(lèi)圖譜構(gòu)建,從而對(duì)問(wèn)答社區(qū)海量用戶(hù)提問(wèn)進(jìn)行有效組織。本文以知乎網(wǎng)絡(luò)問(wèn)答社區(qū)用戶(hù)提問(wèn)文本數(shù)據(jù)為例進(jìn)行分析,構(gòu)建包含12個(gè)一級(jí)聚類(lèi)的主題圖譜,為提升網(wǎng)絡(luò)問(wèn)答社區(qū)信息資源組織效率提供借鑒。
本文研究的不足之處在于,如何拓展用戶(hù)提問(wèn)這種短文本的語(yǔ)義,使問(wèn)題文本特征更加豐富還有待研究。另外,本實(shí)驗(yàn)采集的問(wèn)答社區(qū)用戶(hù)提問(wèn)的文本數(shù)據(jù)較少,不能完整細(xì)致地刻畫(huà)整個(gè)網(wǎng)絡(luò)問(wèn)答社區(qū)中用戶(hù)提問(wèn)情況,如果擴(kuò)大文本數(shù)據(jù)量以及涵蓋不同網(wǎng)絡(luò)問(wèn)答社區(qū)用戶(hù)提問(wèn)數(shù)據(jù),可使得聚類(lèi)結(jié)果更細(xì)致,得到更細(xì)粒度的聚類(lèi)主題和主題間關(guān)系,從而更好地服務(wù)于網(wǎng)絡(luò)社區(qū)的信息資源組織需求。