曹玖新,陳高君,吳江林,劉 波,周 濤,胥 帥,朱子青
(1.東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇南京210096;2.東南大學(xué)計(jì)算機(jī)網(wǎng)絡(luò)和信息集成教育部重點(diǎn)實(shí)驗(yàn)室,江蘇南京210096)
基于多維特征分析的社交網(wǎng)絡(luò)意見領(lǐng)袖挖掘
曹玖新,陳高君,吳江林,劉 波,周 濤,胥 帥,朱子青
(1.東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇南京210096;2.東南大學(xué)計(jì)算機(jī)網(wǎng)絡(luò)和信息集成教育部重點(diǎn)實(shí)驗(yàn)室,江蘇南京210096)
在社交網(wǎng)絡(luò)中進(jìn)行意見領(lǐng)袖的挖掘?qū)π畔鞑ヅc演化的深度分析、輿情監(jiān)控和引導(dǎo)具有重要意義,本文綜合結(jié)構(gòu)特征、行為特征和用戶的情感特征對(duì)意見領(lǐng)袖節(jié)點(diǎn)挖掘問題進(jìn)行研究.本文首先對(duì)微博真實(shí)文本數(shù)據(jù)進(jìn)行話題識(shí)別得到主題社區(qū),在主題社區(qū)中基于用戶節(jié)點(diǎn)之間的關(guān)注關(guān)系構(gòu)建交互網(wǎng)絡(luò)拓?fù)?然后分別從結(jié)構(gòu)、行為和情感三個(gè)維度對(duì)用戶的影響力進(jìn)行度量.最后,分析用戶在主題社區(qū)中的影響力分布與傳播規(guī)律,提出意見領(lǐng)袖識(shí)別算法MFP(Multi-Feature PageRank).實(shí)驗(yàn)表明,該算法可有效地挖掘潛在的意見領(lǐng)袖節(jié)點(diǎn),能夠獲得較高的支持率.
社交網(wǎng)絡(luò);話題;情感分析;意見領(lǐng)袖
社交網(wǎng)絡(luò)是由社會(huì)成員之間的相互交互所形成的相對(duì)穩(wěn)定的社會(huì)結(jié)構(gòu)[1],具有復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和信息動(dòng)態(tài)傳播機(jī)制.隨著互聯(lián)網(wǎng)的普及和發(fā)展,在線社交網(wǎng)絡(luò)已經(jīng)成為人們結(jié)識(shí)好友和共享信息的主要渠道,并已演變?yōu)橐粋€(gè)巨大的社會(huì)熱點(diǎn)事件發(fā)布平臺(tái).社交網(wǎng)絡(luò)節(jié)點(diǎn)的異質(zhì)性決定了節(jié)點(diǎn)地位的非對(duì)等性,部分節(jié)點(diǎn)對(duì)其他節(jié)點(diǎn)具有較大的影響力,對(duì)輿論的發(fā)展能起到關(guān)鍵性的導(dǎo)向作用,被稱為“意見領(lǐng)袖”(Opinion Leader).在社交網(wǎng)絡(luò)中,用戶發(fā)表的言論往往受到一段時(shí)期內(nèi)直接相關(guān)的事件或活動(dòng)影響,與特定主題(Topic)緊密相關(guān).因此,社交網(wǎng)絡(luò)中的意見領(lǐng)袖挖掘是面向主題社區(qū)的.在主題社區(qū)“意見領(lǐng)袖”的影響下,熱點(diǎn)新聞或熱點(diǎn)信息會(huì)吸引眾多的用戶參與討論,產(chǎn)生大量反饋、交互和評(píng)價(jià),形成熱點(diǎn)話題.各種觀點(diǎn)逐漸被引導(dǎo)聚合,形成具有某些傾向性的結(jié)果.因此,對(duì)意見領(lǐng)袖的挖掘研究,有助于社交網(wǎng)絡(luò)中的信息傳播與演化的深度分析,為社交網(wǎng)絡(luò)的輿情監(jiān)控和引導(dǎo)提供決策依據(jù)和技術(shù)支撐.
關(guān)于社交網(wǎng)絡(luò)中意見領(lǐng)袖的挖掘,研究者重點(diǎn)關(guān)注圖結(jié)構(gòu)、用戶內(nèi)容、用戶行為記錄等多個(gè)方面,綜合運(yùn)用了社會(huì)網(wǎng)絡(luò)理論和各類機(jī)器學(xué)習(xí)方法.研究對(duì)象既涵蓋了傳統(tǒng)BBS網(wǎng)絡(luò)、博客網(wǎng)絡(luò),也包括Weibo、Twitter等微博類網(wǎng)絡(luò).近來,在線股票平臺(tái)、在線學(xué)習(xí)平臺(tái)等具有用戶交互的專業(yè)性平臺(tái)由于其社交網(wǎng)絡(luò)屬性,也成為了研究熱點(diǎn).
現(xiàn)有關(guān)于意見領(lǐng)袖挖掘的研究側(cè)重點(diǎn)各有不同.文獻(xiàn)[2~4]基于社交網(wǎng)絡(luò)結(jié)構(gòu),利用節(jié)點(diǎn)入度、中介中心性、接近中心性等特征來衡量節(jié)點(diǎn)影響力,但是其準(zhǔn)確度不高,不能很好地體現(xiàn)節(jié)點(diǎn)的影響力.文獻(xiàn)[5~7]通過構(gòu)建社交關(guān)系網(wǎng)絡(luò)并基于用戶行為和興趣領(lǐng)域發(fā)現(xiàn)社區(qū)中的意見領(lǐng)袖.文獻(xiàn)[8~13]從用戶發(fā)表的內(nèi)容出發(fā),分析文本語義信息,挖掘用戶潛在情感,進(jìn)而找到社區(qū)中的意見領(lǐng)袖.在微博社交網(wǎng)絡(luò)中,綜合考慮網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、話題語義和文本情感因素,對(duì)研究新的節(jié)點(diǎn)特征模型與設(shè)計(jì)意見領(lǐng)袖挖掘算法具有重要意義.
本文將微博社交網(wǎng)絡(luò)中節(jié)點(diǎn)之間的關(guān)系分為物理關(guān)系和虛擬關(guān)系,物理關(guān)系如關(guān)注關(guān)系、回復(fù)關(guān)系等,虛擬關(guān)系如興趣相似關(guān)系和觀點(diǎn)相似關(guān)系.基于對(duì)以上兩種關(guān)系的分析,本文利用話題識(shí)別、情感分析等技術(shù),在微博社交網(wǎng)絡(luò)中分析用戶節(jié)點(diǎn)的影響力,挖掘意見領(lǐng)袖節(jié)點(diǎn).
本文總體技術(shù)框架如圖1所示,主要包括以下三個(gè)方面的工作:
第一,主題社區(qū)發(fā)現(xiàn).通過對(duì)用戶產(chǎn)生的微博進(jìn)行文本分析,采用聚類算法進(jìn)行話題識(shí)別,得到話題集后進(jìn)行話題-用戶映射,形成主題社區(qū).
第二,意見領(lǐng)袖節(jié)點(diǎn)特征分析.不僅分析用戶節(jié)點(diǎn)的結(jié)構(gòu)特征和行為特征,而且對(duì)微博文本的語義情感進(jìn)行分析,得到用戶之間的情感極性.
第三,意見領(lǐng)袖節(jié)點(diǎn)識(shí)別算法.在分析用戶節(jié)點(diǎn)特征的基礎(chǔ)上,設(shè)計(jì)意見領(lǐng)袖識(shí)別算法.
在微博社交網(wǎng)絡(luò)中,用戶所發(fā)表、轉(zhuǎn)發(fā)和回復(fù)的微博都與特定的話題相關(guān),表現(xiàn)了用戶的興趣愛好.具有相似興趣愛好的用戶往往會(huì)形成一個(gè)以“興趣話題”為核心的虛擬社區(qū),本文稱之為主題社區(qū).主題社區(qū)中的話題特征為用戶結(jié)點(diǎn)的特征提取提供了豐富的語義支持,有助于意見領(lǐng)袖挖掘算法的設(shè)計(jì).
4.1話題識(shí)別
話題識(shí)別是主題社區(qū)發(fā)現(xiàn)的前提,是通過真實(shí)的社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析找出熱點(diǎn)話題的過程.本文采用無監(jiān)督且自適應(yīng)的話題識(shí)別方法,其思想是根據(jù)話題識(shí)別過程中的相關(guān)反饋對(duì)話題模型進(jìn)行自學(xué)習(xí),為話題模型引入新的特征,同時(shí)調(diào)整特征權(quán)重,減少先驗(yàn)知識(shí)的稀疏性對(duì)話題模型的影響.話題識(shí)別的具體流程如算法1所示:
算法1 話題識(shí)別算法
1 將微博集中的微博都處理成文本向量vi,并構(gòu)成文本向量集V
2 初始化話題集為T={t0},其中t0=v0
3 對(duì)于文本集V中的每一條文本vi,計(jì)算其與已有話題相似度:
4 如果simax>ε,則更新對(duì)應(yīng)話題下的微博,否則定義新的話題
tnew并且更新話題集T={tnew}∪T
微博文本向量vi=(tfidf0,tfidf1,tfidf2…ifidfn),其中tfidfi表示分詞i在文本語料庫中的詞頻-逆文檔頻率值(Term Frequency-Inverse Document Frequency,TF-IDF).計(jì)算方法如式(1):
其中ni,j表示分詞i在文檔j中的出現(xiàn)的頻次為文檔j中所有分詞的頻次總和,K為文檔j中的分詞總數(shù),|C|表示文檔總數(shù),|{c:wi∈c}|表示包含該分詞i的文檔數(shù)量,leni是分詞i的長(zhǎng)度.
4.2主題社區(qū)網(wǎng)絡(luò)拓?fù)錁?gòu)建
基于話題識(shí)別的結(jié)果,根據(jù)與特定話題ti相關(guān)的微博集合Ci可構(gòu)建相應(yīng)的交互網(wǎng)絡(luò)拓?fù)?,其?gòu)建過程可用圖2形象地描述.首先,在B層中找出Ci中所有微博的作者,形成一個(gè)由用戶節(jié)點(diǎn)組成的集合U.然后,抽取原始數(shù)據(jù)集中這些用戶的交互關(guān)系,添加到U中,得到主題社區(qū)交互網(wǎng)絡(luò)拓?fù)洌鐖D2中C層.
網(wǎng)絡(luò)拓?fù)錁?gòu)建算法如算法2所示.
算法2 網(wǎng)絡(luò)拓?fù)錁?gòu)建算法
輸入:話題微博集對(duì)應(yīng)的用戶種子集合U
輸出:網(wǎng)絡(luò)拓?fù)洌ü?jié)點(diǎn)集合V、邊關(guān)系集合E、邊權(quán)重)
1 將話題微博集對(duì)應(yīng)的用戶種子集合U依次放入隊(duì)列Q
2 while(隊(duì)列Q非空且用戶數(shù)未滿足要求)
3 do
4 從隊(duì)列Q首部取出用戶節(jié)點(diǎn)ui;
5 抽取出該用戶節(jié)點(diǎn)ui所發(fā)表的屬于這個(gè)話題集的微博集合M;
6 對(duì)M中每一條微博mi:
7 獲取評(píng)論微博mi且是ui好友的用戶集合US
8 (若采用轉(zhuǎn)發(fā)關(guān)系,則獲取轉(zhuǎn)發(fā)微博mi的下一跳用戶集合US)
9 對(duì)US中每個(gè)用戶uj:
10 若(uj,ui)∈E,則Wj,i=Wj,i+1
11 否則建立新邊(uj,ui)并令Wj,i=1
12 將uj加入節(jié)點(diǎn)集合V以及隊(duì)列Q
13 end while
主題社區(qū)構(gòu)建之后,挖掘用戶影響力的特征成為意見領(lǐng)袖節(jié)點(diǎn)識(shí)別的關(guān)鍵因素.用戶節(jié)點(diǎn)的影響力是多種復(fù)雜因素共同作用的結(jié)果.基于對(duì)用戶節(jié)點(diǎn)的深度分析,綜合用戶節(jié)點(diǎn)的各類屬性,本文選取用戶的結(jié)構(gòu)特征、行為特征和情感特征作為用戶影響力特征.
5.1結(jié)構(gòu)特征
結(jié)構(gòu)特征體現(xiàn)了用戶本身因素和所在網(wǎng)絡(luò)拓?fù)涞慕Y(jié)構(gòu)因素,如用戶的好友數(shù)、粉絲數(shù)、中介中心度.根據(jù)社交網(wǎng)絡(luò)拓?fù)淠P涂梢缘贸鎏卣髁恐担⒆鳉w一化處理,這里采用最大最小值歸一化方法.假設(shè)特征值量化后為f,最大值為fmax,最小值為fmin,則歸一化后的fn為:
取歸一化后的數(shù)值的平均值,作為用戶的結(jié)構(gòu)特征值:
其中ufriend是好友數(shù)歸一化后數(shù)值,ufollower是粉絲數(shù)歸一化后數(shù)值,ubetweeness是中介中心度歸一化后的數(shù)值.
5.2行為特征
行為特征歸結(jié)為以下兩點(diǎn):
(1)活躍度:用戶在一段時(shí)間內(nèi)主動(dòng)發(fā)表、轉(zhuǎn)發(fā)、評(píng)論的有效微博條數(shù);
(2)傳播力:用戶的微博被轉(zhuǎn)發(fā)、被評(píng)論的有效條數(shù).
在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中,將用戶的活躍度和傳播力這兩個(gè)特征量化并歸一化后取其平均值得到用戶的行為特征值.
其中uactive是用戶主動(dòng)發(fā)表、轉(zhuǎn)發(fā)、評(píng)論的有效微博條數(shù)歸一化后的數(shù)值,表示用戶活躍度,uforward是用戶的微博被轉(zhuǎn)發(fā)、被評(píng)論的有效條數(shù)歸一化后的數(shù)值,表示用戶傳播力.
5.3情感特征
在意見領(lǐng)袖挖掘問題中,用戶的影響力不能簡(jiǎn)單地從結(jié)構(gòu)特征和行為特征衡量,還需要從語義內(nèi)容角度去評(píng)價(jià)特定用戶對(duì)于某一話題的觀點(diǎn)[14],這便是用戶的情感特征.在微博社交網(wǎng)絡(luò)中,原創(chuàng)微博會(huì)引發(fā)大量的評(píng)論微博,這些評(píng)論綜合體現(xiàn)了眾人的褒貶情感,因此本文將評(píng)論微博作為情感特征分析的對(duì)象.
本文采用基于情感詞典的機(jī)器學(xué)習(xí)方法對(duì)微博評(píng)論進(jìn)行情感極性分析,并將情感極性分為正向極性、中性和負(fù)向極性三類.常見的情感詞典有臺(tái)灣大學(xué)中文情感詞典(NTUSD)[15]、知網(wǎng)(HowNet)[16],哈爾濱工業(yè)大學(xué)《同義詞詞林?jǐn)U展版》[17]等,本文選用知網(wǎng)詞典.
本文采用的微博評(píng)論情感極性挖掘的特征如表1所示.使用經(jīng)過標(biāo)記的250000條正向情感微博和250000條負(fù)向情感微博并基于決策樹方法訓(xùn)練分類器,采取十次十折交叉驗(yàn)證的方法保證分類器的性能.
根據(jù)決策樹分類模型,對(duì)主題社區(qū)的原創(chuàng)微博的評(píng)論進(jìn)行情感極性分析,獲得用戶之間的意見趨勢(shì),具體的流程如圖3所示.
獲得評(píng)論的情感極性分類后,設(shè)用戶ui關(guān)注了用戶uj,ui多次評(píng)論了uj所發(fā)表的微博,將ui對(duì)uj的正向評(píng)論占總評(píng)論的比例定義為情感支持權(quán)重:
其中,Npos表示ui對(duì)uj進(jìn)行正向評(píng)價(jià)的次數(shù),Ntotal表示ui對(duì)uj的總評(píng)價(jià)數(shù).
表1 用于情感分析的特征
本文在主題社區(qū)中挖掘意見領(lǐng)袖節(jié)點(diǎn),綜合考慮用戶節(jié)點(diǎn)的結(jié)構(gòu)特征、行為特征和情感特征,提出多維意見領(lǐng)袖挖掘算法MFP(Multi-Feature PageRank),算法使用式(6)計(jì)算節(jié)點(diǎn)的意見影響力值:
其中INF(ui)為用戶的影響力值,S(ui)為用戶歸一化后的結(jié)構(gòu)特征,B(ui)為用戶歸一化后的行為特征,Wj,i為uj對(duì)ui的意見權(quán)重,d為阻尼系數(shù),取0.8.
MFP算法的提出借鑒了網(wǎng)頁重要性排名算法PageRank的思想,認(rèn)為一個(gè)用戶的意見影響力不僅與其結(jié)構(gòu)特征和行為特征緊密相關(guān),還取決于其粉絲用戶的意見態(tài)度:如果粉絲用戶對(duì)該用戶的意見普遍贊成,則相應(yīng)的意見權(quán)重也就越大,對(duì)于此用戶的影響力貢獻(xiàn)度越大.另一方面,當(dāng)前用戶的意見影響力大小還與他的鄰居用戶的意見影響力有關(guān),如果鄰居用戶的意見影響力普遍較高,而且對(duì)當(dāng)前用戶表現(xiàn)出正向情感,則對(duì)當(dāng)前用戶的意見影響力會(huì)有很大貢獻(xiàn).因此,MFP算法既具有PageRank的優(yōu)勢(shì),又結(jié)合語義內(nèi)容,能發(fā)現(xiàn)深層次的影響因素.算法具體描述如下:
算法3 多維意見領(lǐng)袖挖掘算法(MFP)
輸入:網(wǎng)絡(luò)拓?fù)潢P(guān)系
(節(jié)點(diǎn)集合V和邊關(guān)系集合E及情感權(quán)重W)
輸出:節(jié)點(diǎn)影響力排名(Top-K)
1 計(jì)算vi的鄰居節(jié)點(diǎn)的邊情感權(quán)重之和Self(vi):
2 初始化ε,令ε>εthreshold
3 while(ε>εthreshold)
4 do
5 ε=0
6 計(jì)算粉絲節(jié)點(diǎn)vj對(duì)vi的影響力貢獻(xiàn):
7 計(jì)算前后兩次迭代的差值之和:
8 end while
9 輸出影響力較大的K個(gè)節(jié)點(diǎn)
假設(shè)拓?fù)淠P椭械挠脩艨倲?shù)為N,迭代次數(shù)為k,則上述MFP算法的時(shí)間復(fù)雜度為 O(kN2).
7.1實(shí)驗(yàn)數(shù)據(jù)
本文基于新浪微博的開放API抓取實(shí)驗(yàn)數(shù)據(jù),抓取程序依照廣度優(yōu)先的策略,從一個(gè)特定的用戶開始,爬取該用戶最近發(fā)表的100條微博,對(duì)于其中的每條微博,再爬取該微博的轉(zhuǎn)發(fā)微博以及轉(zhuǎn)發(fā)該微博的用戶信息,將這些用戶添加至待爬取隊(duì)列.結(jié)束對(duì)一個(gè)用戶的處理之后,取出待爬取用戶隊(duì)列的第一個(gè)用戶,繼續(xù)同樣的處理,循環(huán)往復(fù).最終獲取的數(shù)據(jù)集中共包括10785921條微博,其中28.98%是原創(chuàng)微博.
7.2主題社區(qū)發(fā)現(xiàn)及特征值計(jì)算
微博文本大部分內(nèi)容簡(jiǎn)短、偏口語化,并夾雜表情符號(hào),這種文本特點(diǎn)會(huì)導(dǎo)致話題識(shí)別的準(zhǔn)確度不高.為此,需要對(duì)微博數(shù)據(jù)集做如下處理:
(1)去除微博中表示表情的詞;
(2)去除停用詞;
(3)排除長(zhǎng)度小于100的微博.
根據(jù)上述處理方法,在10785921條微博中共得到792051條微博,使用算法1對(duì)792051條微博進(jìn)行話題識(shí)別,得到了1276個(gè)話題.其中規(guī)模最大的話題為“北京暴雨”,包含877條微博.
根據(jù)網(wǎng)絡(luò)拓?fù)錁?gòu)建算法,這里選取最大規(guī)模話題集“北京暴雨”中的用戶節(jié)點(diǎn)為初始種子節(jié)點(diǎn),分別使用用戶之間的關(guān)注關(guān)系和轉(zhuǎn)發(fā)關(guān)系,進(jìn)行網(wǎng)絡(luò)拓?fù)涞臉?gòu)建,表2是關(guān)注關(guān)系網(wǎng)絡(luò)和轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)的各項(xiàng)網(wǎng)絡(luò)指標(biāo).
表2 兩種關(guān)系網(wǎng)絡(luò)的指標(biāo)對(duì)比
從表2可以看出,轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)的平均度很低,網(wǎng)絡(luò)直徑很大,造成轉(zhuǎn)發(fā)關(guān)系網(wǎng)絡(luò)的緊密程度不高.而關(guān)注關(guān)系網(wǎng)絡(luò)用戶之間的關(guān)系更加緊密,符合標(biāo)準(zhǔn)社交網(wǎng)絡(luò)的一般規(guī)律.基于意見領(lǐng)袖挖掘研究的特點(diǎn),本文采用關(guān)注關(guān)系網(wǎng)絡(luò)作為意見領(lǐng)袖挖掘的基本圖模型,其較小的網(wǎng)絡(luò)直徑和較大的聚類系數(shù)更加符合主題社區(qū)的構(gòu)建需求.
使用本文第5節(jié)中的情感分析模型對(duì)評(píng)論微博進(jìn)行極性分類,統(tǒng)計(jì)出主題社區(qū)內(nèi)所有用戶的情感支持權(quán)重.圖4為用戶情感支持權(quán)重的分布情況.
由上圖可以看出,情感支持權(quán)重在0.4~0.55范圍之間的用戶數(shù)最多,而情感支持權(quán)重特別小或者特別大的用戶很少,符合正態(tài)分布的基本特征.
7.3對(duì)比算法
為了驗(yàn)證MFP算法的有效性,本文設(shè)計(jì)了多個(gè)對(duì)比算法和對(duì)比實(shí)驗(yàn),綜合驗(yàn)證了結(jié)構(gòu)特征、行為特征和情感特征對(duì)意見領(lǐng)域挖掘效果的影響.現(xiàn)將實(shí)驗(yàn)使用到的對(duì)比算法描述如下.
Rank算法:計(jì)算主題社區(qū)中用戶節(jié)點(diǎn)的度,按度大小進(jìn)行直接排序.
SRank算法:基于情感特征的排名算法(Sentimentbased Rank),將主題社區(qū)中用戶獲得的正向評(píng)價(jià)在獲得的總評(píng)價(jià)數(shù)的比例定義為該用戶的影響力.
HITS算法:HITS算法是網(wǎng)頁鏈接分析中基礎(chǔ)且重要的算法,它將每個(gè)網(wǎng)頁節(jié)點(diǎn)的屬性抽象為兩種特征,一種特征是權(quán)威度Authority,指與某個(gè)領(lǐng)域或者某個(gè)話題相關(guān)的高質(zhì)量節(jié)點(diǎn);另一種特征是中心度Hub,指包含了很多指向高質(zhì)量Authority節(jié)點(diǎn)鏈接的節(jié)點(diǎn).HITS算法為每個(gè)用戶節(jié)點(diǎn)設(shè)定這兩個(gè)屬性,初始時(shí)都設(shè)定為1,計(jì)算方法如式(7)所示:
PageRank算法:PageRank算法是網(wǎng)頁重要性排名的算法,也是本文MFP算法的參考算法.PageRank算法節(jié)點(diǎn)重要性計(jì)算公式如下所示:
SHITS算法:在HITS算法原始結(jié)構(gòu)的基礎(chǔ)上,將用戶節(jié)點(diǎn)的情感傾向作為中心度和權(quán)威度計(jì)算的權(quán)重.按式(9)計(jì)算加權(quán)中心度和權(quán)威度:
其中,Wij為用戶vi對(duì)用戶vj的意見權(quán)重.
MFP去除結(jié)構(gòu)特征(Behavior+Senti),按照式(10)計(jì)算節(jié)點(diǎn)的影響力.
MFP去除行為特征(Structure+Senti),根據(jù)式(11)計(jì)算節(jié)點(diǎn)的影響力.
MFP去除結(jié)構(gòu)特征和行為特征(Senti),根據(jù)式(12)計(jì)算節(jié)點(diǎn)的影響力:
7.4評(píng)價(jià)指標(biāo)
為了更全面的說明本文提出的MFP算法的有效性,實(shí)驗(yàn)使用了兩種評(píng)價(jià)指標(biāo).
(1)支持率(Support Rate,SR):支持率從情感角度衡量了意見領(lǐng)袖在主題社區(qū)中受支持的程度,其計(jì)算公式如下:
其中N表示社區(qū)中的總用戶數(shù),|vj|表示參與話題討論的用戶中給予用戶vi正向評(píng)價(jià)的數(shù)量.
(2)重合度(Top Overlap Ratio):以考慮情感因素和不考慮情感因素所得到的意見領(lǐng)袖集合的重合度作為評(píng)價(jià)指標(biāo),其計(jì)算公式如下:
其中K為挖掘出的節(jié)點(diǎn)數(shù)目,ai表示所使用的算法,TopResultsenti表示基于情感的網(wǎng)絡(luò)輸出的Top-K節(jié)點(diǎn)集合,TopResultnosenti表示基于無情感網(wǎng)絡(luò)輸出的Top-K節(jié)點(diǎn)集合.
7.5實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)一 MFP、SRank和SHITS三種算法的對(duì)比實(shí)驗(yàn)
本文首先比較MFP、SRank和SHITS三種算法的實(shí)驗(yàn)結(jié)果,如圖5所示.由圖可以看出,基于多維特征的MFP算法和SHITS算法明顯好于直接排名的SRank算法.當(dāng)選取的Top-K較小時(shí),MFP算法可以獲得很高的支持率,該算法只需選擇較少的意見領(lǐng)袖節(jié)點(diǎn)便可獲得更多用戶的支持.對(duì)于社交網(wǎng)絡(luò)輿情監(jiān)控或者廣告營(yíng)銷行業(yè),這種算法效果具有很大的現(xiàn)實(shí)意義.
進(jìn)一步分析可知,SRank算法雖然考慮了情感特征,但只是對(duì)用戶個(gè)體的影響力評(píng)估,而MFP算法綜合考慮了周圍好友的影響力,不僅考慮個(gè)體因素,而且考慮用戶之間的潛在影響關(guān)系,這也印證了社交網(wǎng)絡(luò)中用戶的影響力相互作用的傳播規(guī)律.類似地,SHITS算法使用權(quán)威度和中心度體現(xiàn)了用戶之間的相互影響,相比SRank算法具有較大的優(yōu)勢(shì).
實(shí)驗(yàn)二 MFP算法去除行為因素、結(jié)構(gòu)因素對(duì)比實(shí)驗(yàn)
為進(jìn)一步研究結(jié)構(gòu)特征和行為特征對(duì)節(jié)點(diǎn)影響力的影響,分別將MFP算法中的結(jié)構(gòu)特征、行為特征去除,做出圖6所示的對(duì)比實(shí)驗(yàn).其中,Structure+Senti表示僅考慮結(jié)構(gòu)特征和情感特征,Behavior+Senti表示僅考慮行為特征和情感特征,Senti表示同時(shí)去除結(jié)構(gòu)特征和行為特征.
實(shí)驗(yàn)結(jié)果表明,當(dāng)選取的意見領(lǐng)袖節(jié)點(diǎn)數(shù)Top-K較小時(shí),加入了結(jié)構(gòu)特征或者行為特征的算法實(shí)驗(yàn)效果比較接近,比不考慮兩個(gè)特征的算法有明顯優(yōu)勢(shì),而同時(shí)考慮結(jié)構(gòu)特征、行為特征和情感特征的 MFP算法效果最好.但是,隨著意見領(lǐng)袖節(jié)點(diǎn)數(shù)Top-K的增大,結(jié)構(gòu)特征和行為特征帶來的優(yōu)勢(shì)逐漸消失.可見在真實(shí)的社交網(wǎng)絡(luò)中,結(jié)構(gòu)特征與行為特征對(duì)于影響力較大的節(jié)點(diǎn)具有較高的區(qū)分度,但對(duì)影響力一般的用戶節(jié)點(diǎn),結(jié)構(gòu)特征和行為特征并不是影響用戶權(quán)威的主要因素.
實(shí)驗(yàn)三 MFP、PageRank、HITS和 Rank算法對(duì)比實(shí)驗(yàn)
此外,為了說明MFP算法在挖掘基于情感權(quán)重的意見領(lǐng)袖節(jié)點(diǎn)的有效性,本文首先通過實(shí)驗(yàn)將 MFP算法和不考慮情感因素的Rank、HITS和PageRank算法做比較,以支持率作為實(shí)驗(yàn)效果的評(píng)價(jià)依據(jù).上述各算法均運(yùn)行在7.2節(jié)描述的主題社區(qū)網(wǎng)絡(luò)上.實(shí)驗(yàn)結(jié)果如圖7.
從圖中可以看出,雖然 MFP、PageRank、HITS和Rank算法均可以用來挖掘傳統(tǒng)意義上無情感的意見領(lǐng)袖節(jié)點(diǎn),但是MFP算法相比其他算法能得到更高的支持率.這說明按照傳統(tǒng)意見領(lǐng)袖挖掘算法獲得的節(jié)點(diǎn)難以體現(xiàn)社交網(wǎng)絡(luò)“意見領(lǐng)袖”應(yīng)具有的語義特征,雖然在社區(qū)中能影響到很多用戶,但是沒有真正起到領(lǐng)袖作用.基于此,本文提出的MFP算法能夠更精確地發(fā)現(xiàn)社交網(wǎng)絡(luò)中的意見領(lǐng)袖.
實(shí)驗(yàn)四 MFP、PageRank和HITS算法的重合度對(duì)比實(shí)驗(yàn)
本文最后結(jié)合重合度指標(biāo),統(tǒng)計(jì)得到MFP算法和PageRank算法、MFP算法和HITS算法挖掘到的節(jié)點(diǎn)集合的重合度,實(shí)驗(yàn)結(jié)果如圖8所示.通過實(shí)驗(yàn)結(jié)果能夠直觀看出,隨著選取意見領(lǐng)袖數(shù)目的增長(zhǎng),重合度逐漸增大并趨于平穩(wěn),社區(qū)中大部分高支持率的意見領(lǐng)袖都能被挖掘出來,未重合部分表明,MFP算法能挖掘到傳統(tǒng)算法容易忽視的節(jié)點(diǎn),這些節(jié)點(diǎn)在傳統(tǒng)意義上的影響力有限,但其言論得到本社區(qū)內(nèi)其他用戶的普遍認(rèn)可,符合本文對(duì)于主題社區(qū)中意見領(lǐng)袖的定義.
本文基于多維特征分析對(duì)社交網(wǎng)絡(luò)中意見領(lǐng)袖節(jié)點(diǎn)挖掘問題進(jìn)行研究.從社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)與微博的語義內(nèi)容出發(fā),在考慮網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上,兼顧動(dòng)態(tài)特征以及用戶對(duì)話題的感情傾向,更加準(zhǔn)確地挖掘影響力節(jié)點(diǎn).多方面的對(duì)比實(shí)驗(yàn)表明,本文提出的MFP算法能有效挖掘出具有領(lǐng)域性的意見領(lǐng)袖節(jié)點(diǎn),而且獲得的意見領(lǐng)袖節(jié)點(diǎn)具有較高的支持率.
然而,本文仍然存在一些不足,如受新浪API的限制,無法獲得用戶的所有微博以及評(píng)論,因此針對(duì)內(nèi)容的處理由于缺少規(guī)模較大的語料,準(zhǔn)確率有待進(jìn)一步加強(qiáng).此外,話題熱度的上升帶來的主題社區(qū)的規(guī)模不斷壯大,隨著社區(qū)規(guī)模的擴(kuò)大,意見領(lǐng)袖識(shí)別算法的計(jì)算效率受到了嚴(yán)重的制約.在以后的研究工作中,應(yīng)發(fā)掘基于云計(jì)算平臺(tái)的分布式意見領(lǐng)袖識(shí)別算法,提高其計(jì)算效率,從而提升意見領(lǐng)袖挖掘推廣到企業(yè)應(yīng)用的價(jià)值.
[1]Ellison N B.Social network sites:Definition,history,and scholarship[J].Journal of Computer-Mediated Communication,2007,13(1):210-230.
[2]Kleinberg J M.Authoritative sources in a hyperlinked environment[J].Journal of the ACM(JACM),1999,46(5):604-632.
[3]Brin S,Page L.The anatomy of a large-scale hypertextual Web search engine[J].ComputerNetworks and ISDN Systems,1998,30(1):107-117.
[4]Kleinberg J M.Hubs,authorities,and communities[J]. ACM Computing Surveys(CSUR),1999,31(4es):5.
[5]Zhai Z,Xu H,Jia P.Identifying opinion leaders in BBS [A].IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology[C].IEEE,2008.398-401.
[6]Amit G,F(xiàn)rancesco B,Laks V S L.Discovering leaders from community actions[A].International Conference on Information and Knowledge Management(CIKM)[C]. California,USA,2008.499-508.
[7]Tsai M F,Tzeng C W,Lin Z L,et al.Discovering leaders from social network by action cascade[J].Social Network Analysis and Mining,2014,4(1):1-10.
[8]Xiaodan S,Yun C,Koji H,et al.Identifying opinion leaders in the Blogosphere[A].Proceedings of the Sixteenth ACM Conference on Information and Knowledge Management [C].New York,USA,2007.971-974.
[9]Li Y,Ma S,Zhang Y,et al.An improved mix framework for opinion leader identification in online learning communities[J].Knowledge-Based Systems,2013,43:43-51.
[10]Zhou H,Zeng D,Zhang C.Finding leaders from opinion networks[A].Intelligence and Security Informatics[C]. Dallas,USA,2009.266-268.
[11]Liu X,Wang Y,Li Y,et al.Identifying topic experts and topic communities in the blogspace[A].Database Systems for AdvancedApplications[M].BerlinHeidelberg:Springer,2011.68-77.
[12]夏霖.BBS中組織拓?fù)浣Y(jié)構(gòu)研究和意見領(lǐng)袖識(shí)別[D].
武漢:華中科技大學(xué),2011. Xia Lin.Topology structure research and opinion leader identifying in BBS[D].Wuhan:Huazhong University ofScience and Technology,2011.(in Chinese)
[13]Duan Jiangjiao,Jianping Zeng,Banghui Luo.Identification of opinion leaders based on user clustering and sentiment analysis[A].2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence(WI)and Intelligent A-gent Technologies(IAT)[C].IEEE,2014.vol 1.
[14]Song K,Wang D,F(xiàn)eng S,et al.Detecting opinion leader dynamically in Chinese news comments[A].Web-Age Information Management[M].Berlin Heidelberg:Springer,2012.197-209.
[15] NTUSD.[EB/OL].http://www.datatang.com/ data/11837.
[16]HowNet.[EB/OL].HowNet’s Home Page.http:// www.keenage.com.
[17]同義詞詞林?jǐn)U展版.[EB/OL].http://www.ir-lab.org.
曹玖新(通訊作者) 男,1967年生于河南商丘,東南大學(xué)教授、博士生導(dǎo)師,主要研究領(lǐng)域?yàn)榉?wù)計(jì)算、網(wǎng)絡(luò)安全、社會(huì)計(jì)算.
E-mail:jx.cao@seu.edu.cn
陳高君 男,1988年生于河南漯河,東南大學(xué)碩士生,主要研究領(lǐng)域?yàn)樯鐣?huì)計(jì)算.
吳江林 男,1988年生于江蘇南通市,東南大學(xué)碩士生,主要研究領(lǐng)域?yàn)樯鐣?huì)計(jì)算.
Multi-Feature Based Opinion Leader Mining in Social Networks
CAO Jiu-xin,CHEN Gao-jun,WU Jiang-lin,LIU Bo,ZHOU Tao,XU Shuai,ZHU Zi-qing
(1.School of Computer Science and Engineering,Southeast University,Nanjing,Jiangsu 210096,China;2.Key Laboratory of Computer Network and Information Integration(Ministry of Education),Southeast University,Nanjing,Jiangsu 210096,China)
Mining opinion leaders in social network is important for analysis of information dissemination and evolution of public opinion.This paper conducts the study on this problem considering structural features,behavior and emotional characteristics comprehensively.Firstly,we extract topics from micro-blogging texts,and get user communities according to the topic division,and an interactive network topology of topic community is built with the following relationships.Then,three kinds of user feature are gained from different aspect:network structure,user behavior and user sentiment.Finally,according to the analysis of users’influence distribution,opinion leaders mining algorithm MFP(Multi-Feature PageRank)is proposed.Experiments show that the algorithm can obtain the potential opinion leader nodes effectively,and have a good performance in support rate from other user nodes.
social network;topic;sentiment analysis;opinion leader
TP393
A
0372-2112(2016)04-0898-08
電子學(xué)報(bào)URL:http://www.ejournal.org.cn 10.3969/j.issn.0372-2112.2016.04.021
2014-10-16;
2015-06-12;責(zé)任編輯:李勇鋒
國(guó)家863高技術(shù)研究發(fā)展計(jì)劃(No.2013AA013503);東南大學(xué)計(jì)算機(jī)網(wǎng)絡(luò)和信息集成教育部重點(diǎn)實(shí)驗(yàn)室基金(No.93k-9);國(guó)家973重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(No.2010CB328104);國(guó)家自然科學(xué)基金(No.61272531,No.61202449,No.61272054,No.61370207,No.61370208,No. 61300024,No.61320106007,No.61472081);高等學(xué)校博士點(diǎn)學(xué)科專項(xiàng)科研基金(No.2011009213002);江蘇省科技計(jì)劃基金(No.SBY2014021039 -10);江蘇省網(wǎng)絡(luò)與信息安全重點(diǎn)實(shí)驗(yàn)室基金(No.BM2003201)