• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合用戶情感評分的節(jié)點專業(yè)影響力分析

      2018-07-25 09:10:28王仁武張文慧華東師范大學(xué)經(jīng)濟與管理學(xué)部信息管理系上海200241
      現(xiàn)代情報 2018年7期
      關(guān)鍵詞:數(shù)據(jù)挖掘影響力領(lǐng)域

      王仁武 周 威 張文慧(華東師范大學(xué)經(jīng)濟與管理學(xué)部信息管理系,上海 200241)

      社交網(wǎng)絡(luò)是一個無標(biāo)度網(wǎng)絡(luò)[1],其無標(biāo)度性質(zhì)決定了少數(shù)具有較高度數(shù)的節(jié)點統(tǒng)治著網(wǎng)絡(luò),這些極重要的節(jié)點即是本文研究的“影響力節(jié)點”?!坝绊懥?jié)點”用戶對其他節(jié)點具有較大的影響力,他們能夠在更大程度上影響到網(wǎng)絡(luò)的結(jié)構(gòu)和功能,甚至控制信息的傳播和流通,對輿論的發(fā)展起著關(guān)鍵性的導(dǎo)向作用。因此,識別影響力節(jié)點是極其重要的。在社交網(wǎng)絡(luò)中,影響力節(jié)點通常又是多主題的,會針對各種不同專業(yè)領(lǐng)域的熱點問題發(fā)表言論見解。在他們擅長的領(lǐng)域內(nèi),他們是這個領(lǐng)域中的權(quán)威,而在其不擅長的領(lǐng)域中,他們就成了一般意義上的“聽眾”?!皩I(yè)影響力節(jié)點”特指在某個專業(yè)領(lǐng)域內(nèi)有權(quán)威的影響力節(jié)點,相對于一般意義上的“影響力節(jié)點”而言,“專業(yè)影響力節(jié)點”在其擅長的專業(yè)領(lǐng)域內(nèi)擁有更強的影響力,能夠更為有效的控制領(lǐng)域內(nèi)信息的傳播和流通。

      基于互聯(lián)網(wǎng)的社交網(wǎng)絡(luò)節(jié)點數(shù)據(jù)的可獲得性,為社交網(wǎng)絡(luò)用戶節(jié)點影響力的定量計算帶來方便。目前比較多的研究節(jié)點影響力的方法是基于復(fù)雜網(wǎng)絡(luò)分析技術(shù)的中心度方法,苑衛(wèi)國等[2]認為節(jié)點的重要性指標(biāo)可以用來分析節(jié)點的影響力,例如節(jié)點的度中心性、介數(shù)中心性、緊密中心性、k-core等都能一定程度地表示節(jié)點影響力,并且通過實驗證明,緊密度和k-core較其他指標(biāo)可以更加準(zhǔn)確地描述節(jié)點在信息傳播中所處的網(wǎng)絡(luò)核心位置。這類方法一定程度上可以解決節(jié)點影響力的度量問題,但指標(biāo)尚顯單一。韓忠明等人[3]則較全面地從拓撲結(jié)構(gòu)、行為特征、內(nèi)容特征這3個維度來度量節(jié)點影響力。其中內(nèi)容維度包括了話題分析、新穎度敏感度分析、文本傾向性分析、文本相似性分析。但是該文并沒有考慮用戶(其關(guān)注者)的觀點,在專業(yè)領(lǐng)域中,節(jié)點的專業(yè)影響力與熟悉該領(lǐng)域的用戶對其的認可有關(guān),所以需要納入用戶評價的測度。

      本文以新浪微博社區(qū)為例,對其中的專業(yè)影響力節(jié)點進行挖掘和評估時,除了需要考慮節(jié)點本身的微博吸引力、微博轉(zhuǎn)發(fā)數(shù)等基本特征之外,還引入了節(jié)點的領(lǐng)域相關(guān)度和情感支持度兩個新的評價指標(biāo)來改進和優(yōu)化算法。

      1 相關(guān)研究

      節(jié)點影響力的評估首先需要科學(xué)合理的評價指標(biāo)。社交網(wǎng)絡(luò)中的評價指標(biāo)可選范圍非常廣泛,基于用戶行為的評價指標(biāo)經(jīng)常使用的是轉(zhuǎn)發(fā)、評論、提及3種行為,Cha M[4]等人根據(jù)這3種行為評估Twitter用戶的影響力并分析了這3種行為所表征的用戶影響力類型。齊超[5]等綜合分析用戶的轉(zhuǎn)發(fā)、評論、提及3種行為,結(jié)合PageRank算法提出一種基于用戶行為綜合分析的微博用戶傳播影響力評價算法。時間維度對于用戶影響力的評估同樣是一個關(guān)鍵指標(biāo),Chen S[6]基于PageRank思想,結(jié)合時間維度建立用戶實時影響力算法(MURank),通過微博用戶之間的轉(zhuǎn)發(fā)關(guān)系,對用戶進行影響力測量評估,相比于現(xiàn)有算法,該算法能夠體現(xiàn)用戶影響力隨時間變化的特征,算法也具有不錯的收斂性。

      專業(yè)影響力節(jié)點的識別需要計算用戶的專業(yè)權(quán)威性,用戶專業(yè)權(quán)威度計算可以采用影響力節(jié)點分析時常用的鏈接分析技術(shù),一個具有權(quán)威性的用戶會被大量鏈接所指向。大多數(shù)使用鏈接關(guān)系進行影響力節(jié)點挖掘的研究中,多是基于PageRank算法的改進。國外基于推特的研究就產(chǎn)生了類似TwitterRank[7],InfluenceRank[8]等PageRank改進算法。這類方法能夠比較客觀合理地給出用戶影響力的度量。然而這些方法是針對一般意義上的“影響力節(jié)點”的挖掘,無法有效的識別和挖掘“專業(yè)影響力節(jié)點”。主要原因在于PageRank算法忽略了粉絲的情感觀點的傾向性對于節(jié)點影響力大小的影響,通常情況下,轉(zhuǎn)發(fā)和評論等互動行為會出現(xiàn)在粉絲比較支持博主觀點的情況下。

      另外,因鏈接分析方法只考慮了社交網(wǎng)絡(luò)的結(jié)構(gòu)特征,而忽視社交網(wǎng)絡(luò)信息的生成傳播,即沒有考慮內(nèi)容分析。因此劉濟群[9]對基于內(nèi)容的節(jié)點影響力度量的方法進行了綜述,在內(nèi)容分析方面比較多的是采用LDA主題模型的分析框架。

      本文在借鑒已有研究成果的基礎(chǔ)上,利用領(lǐng)域字典和話題識別模型對主題進行限定,從而降低主題漂移帶來的影響;然后結(jié)合節(jié)點的微博數(shù)量、轉(zhuǎn)發(fā)數(shù)量、粉絲數(shù)量、領(lǐng)域相關(guān)度等基本特征,并深入挖掘微博評論中的情感觀點特征,利用節(jié)點之間的關(guān)注關(guān)系構(gòu)建鏈路結(jié)構(gòu),在此基礎(chǔ)上提出基于PageRank算法改進的Domain Rank算法來識別和挖掘社交網(wǎng)絡(luò)中的專業(yè)影響力節(jié)點。

      2 節(jié)點專業(yè)影響力分析模型

      本文設(shè)計的節(jié)點專業(yè)影響力分析模型如圖1所示。首先在相關(guān)研究文獻的基礎(chǔ)之上構(gòu)建和節(jié)點專業(yè)影響力相關(guān)的評估指標(biāo),然后確定研究的專業(yè)領(lǐng)域,通過構(gòu)建領(lǐng)域字典進行社交網(wǎng)絡(luò)話題限定,通過話題識別對全網(wǎng)的社交網(wǎng)絡(luò)用戶進行定向主題篩選,確認某用戶是否關(guān)注該領(lǐng)域,從而識別出關(guān)注該領(lǐng)域的社交網(wǎng)絡(luò)用戶,并篩選出該領(lǐng)域最有代表性的話題以及談?wù)撨@些話題的用戶;然后構(gòu)建情感字典對用戶談?wù)撛掝}的用戶評論進行情感評分;進一步需要基于關(guān)注關(guān)系的鏈接分析方法來識別和評估這些用戶在該領(lǐng)域的貢獻以及權(quán)威性;最后在實證分析中,通過專家背景調(diào)研對專業(yè)影響力節(jié)點進行分析解讀從而能評估結(jié)果的準(zhǔn)確性。

      2.1 領(lǐng)域字典構(gòu)建與社交網(wǎng)絡(luò)數(shù)據(jù)采集

      構(gòu)建領(lǐng)域字典的目的是方便將所抓取的社交網(wǎng)絡(luò)的話題內(nèi)容限定在該領(lǐng)域的范疇內(nèi)。為了構(gòu)建目標(biāo)領(lǐng)域的字典,本文選擇知乎網(wǎng)作為語料采集對象。知乎網(wǎng)是目前國內(nèi)最專業(yè)的問答社區(qū),這里的問題和答案相比百度知道更加專業(yè)完善,利用從知乎網(wǎng)中采集下的文本數(shù)據(jù)經(jīng)過分詞和提取并采取TFIDF算法處理,篩選出最能夠代表這個領(lǐng)域話題的關(guān)鍵詞,通過分詞和話題識別,發(fā)現(xiàn)具有代表性的關(guān)鍵詞及詞塊(一組相關(guān)詞)。同時,知乎網(wǎng)的口語化問答交流方式與社交網(wǎng)絡(luò)例如新浪微博等社交媒體用戶的信息表達方式比較匹配。

      本文以新浪微博為例,通過其數(shù)據(jù)接口,采集微博數(shù)據(jù)。存放采集的微博數(shù)據(jù)庫中包括4張核心數(shù)據(jù)表。

      表A——用于存儲單條微博的詳細信息,主要字段有微博ID、用戶ID、昵稱、微博文本、發(fā)布時間、轉(zhuǎn)發(fā)數(shù)、評論數(shù);

      表B——是所有用戶所在的表,包括用戶個體的詳細信息,主要字段有用戶ID、昵稱、性別、地區(qū)、主頁微博ID、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)、簡介;

      表C——是用戶之間的關(guān)注關(guān)系,每條記錄表示一條關(guān)注關(guān)系,這個關(guān)系是有向的,主要字段有關(guān)注者ID、關(guān)注者昵稱、被關(guān)注者ID、被關(guān)注者昵稱;

      表D—用于存儲微博的評論詳細信息,主要字段包括微博ID,評論者ID,評論時間,評論內(nèi)容。

      2.2 基于關(guān)鍵詞共現(xiàn)的話題識別

      話題總是涉及某一領(lǐng)域的主題,而專業(yè)影響力節(jié)點往往是指某一特定領(lǐng)域的影響力節(jié)點,所以首先要確定領(lǐng)域主題。在專業(yè)影響力節(jié)點識別時要注意的是通常來說用戶擅長的不僅是領(lǐng)域中單獨的一個主題,而是相近似的多個主題。比如一個用戶在音樂領(lǐng)域中的聲樂方面表現(xiàn)突出,那么他有很大可能會在樂器這一領(lǐng)域也有一定量的高質(zhì)量內(nèi)容發(fā)布。所以社交網(wǎng)絡(luò)中的專業(yè)影響力節(jié)點的識別需要結(jié)合某領(lǐng)域的多個主題來分析。

      圖1 社交網(wǎng)絡(luò)中專業(yè)影響力節(jié)點識別的模型

      目前比較主流的話題識別方法有LDA主題模型[10]、PLSA潛在語義識別模型[11]、模塊化話題聚類算法以及其它改進版本。因領(lǐng)域中的專業(yè)節(jié)點討論的話題會涉及多主題,前述的話題識別方法會產(chǎn)生主題漂移,所以本文采用關(guān)鍵詞共現(xiàn)的話題識別方法[12]。

      2.3 節(jié)點專業(yè)影響力評估的指標(biāo)選擇

      本文在對微博社區(qū)中的專業(yè)影響力節(jié)點進行挖掘和評估時,除了需要考慮節(jié)點本身的微博吸引力、微博轉(zhuǎn)發(fā)數(shù)等基本特征之外,還引入了節(jié)點的領(lǐng)域相關(guān)度和情感觀點支持度兩個新的評價指標(biāo)來改進和優(yōu)化算法。

      2.3.1 微博吸引力

      微博吸引力定義為微博數(shù)量/粉絲數(shù)量。在實際應(yīng)用中,微博吸引力比微博數(shù)量更能客觀準(zhǔn)確的衡量微博內(nèi)容的質(zhì)量。因為一個沒有粉絲或者粉絲數(shù)量非常少的節(jié)點即使經(jīng)常發(fā)微博也不會產(chǎn)生很強的專業(yè)影響力。節(jié)點的微博質(zhì)量越高,吸引力就越大,從而也會產(chǎn)生越大的影響力。因此,微博吸引力同節(jié)點影響力正相關(guān)。將節(jié)點微博數(shù)量/粉絲數(shù)量歸一化處理得到其微博吸引力,計算方法如下:

      (1)

      其中,Mblogs是節(jié)點i的微博數(shù)量,F(xiàn)ollowers是節(jié)點i的粉絲數(shù)量。

      2.3.2 微博轉(zhuǎn)發(fā)次數(shù)

      轉(zhuǎn)發(fā)是微博中的一個重要功能,通過轉(zhuǎn)發(fā)就可以將自己看到的信息分享給自己的粉絲,微博轉(zhuǎn)發(fā)過程中會產(chǎn)生轉(zhuǎn)發(fā)網(wǎng)絡(luò),轉(zhuǎn)發(fā)網(wǎng)絡(luò)的形成進一步擴大了信息的傳播范圍和覆蓋面。因此,節(jié)點微博被轉(zhuǎn)發(fā)頻次越高,其產(chǎn)生的影響力也就越大。與微博吸引力的計算類似,對節(jié)點i微博的總轉(zhuǎn)發(fā)次數(shù)也采取歸一化處理:

      (2)

      其中,Rnumsk是節(jié)點i的第k條微博的轉(zhuǎn)發(fā)次數(shù)。

      2.3.3 領(lǐng)域相關(guān)度

      在社交平臺中,用戶一般都是同時關(guān)注多個領(lǐng)域的,為了計算節(jié)點的專業(yè)影響力,需要將節(jié)點的主題范圍限制在固定的專業(yè)領(lǐng)域內(nèi)。因此,我們定義了節(jié)點的領(lǐng)域相關(guān)度指標(biāo),領(lǐng)域相關(guān)度指的是用戶其微博同某個專業(yè)領(lǐng)域的相關(guān)程度,如果用戶經(jīng)常發(fā)送該領(lǐng)域的相關(guān)信息,則其領(lǐng)域相關(guān)度較高。在基于文本挖掘的微博主題相關(guān)度的研究中[13],通常采用以下公式來計算:

      (3)

      其中,j為微博編號,k表示主題詞庫中的詞,m表示領(lǐng)域字典中主題詞的數(shù)量,p(j,k)表示第j條微博中的第k個主題詞的權(quán)重,權(quán)重使用TFIDF計算出來,θ表示微博是原創(chuàng)還是轉(zhuǎn)發(fā)。

      但由于微博文本短、信息量少、特征關(guān)鍵詞不足,通過TFIDF方法并不能達到很好的區(qū)分微博主題的預(yù)期效果。因此,我們采用每個用戶和數(shù)據(jù)挖掘領(lǐng)域相關(guān)的微博數(shù)量占其所有微博數(shù)量的比例作為該節(jié)點的領(lǐng)域相關(guān)度指標(biāo)。歸一化后的節(jié)點領(lǐng)域相關(guān)度計算方法如下:

      (4)

      其中,RelatedNums是節(jié)點i的領(lǐng)域相關(guān)微博數(shù)量,Blogs是節(jié)點i的全部微博數(shù)量。

      2.3.4 情感支持度

      目前常見的情感極性分析方法主要有兩種:基于情感詞典的方法和基于機器學(xué)習(xí)的方法。本研究使用基于情感詞典的情感分析方法,常用的情感詞典有臺灣大學(xué)中文情感詞典(NTUSD)、知網(wǎng)(HowNet)、BosonNLP情感詞典等。

      我們將每位博主所有微博的情感極性得分之和除以總評論數(shù)量得到每個節(jié)點的情感極性平均分,歸一化后的節(jié)點情感支持度計算公式如下:

      (5)

      其中,scoren為節(jié)點i第n條評論的情感分值,N為評論數(shù)量。

      許多學(xué)者針對不同的場景分別提出了用戶評論情感賦值公式[14],本研究參考已有BosonNLP情感詞典增加了情感副詞的不同強度劃分,并用不同強度的情感副詞進行賦值,再利用情感賦值公式對用戶評論進行情感傾向分析。在前人研究的基礎(chǔ)上,提出情感賦值公式:

      Score=-1j(x×k)

      (6)

      算法設(shè)計如下:

      1)情感詞,x值。調(diào)用分詞后的評論,與正負兩個情感詞集匹配相應(yīng)情感詞,出現(xiàn)一個積極詞就+1,出現(xiàn)一個消極詞就-1。

      2)程度詞權(quán)重,k值。情感詞前往往會有一個程度修飾詞。如“極好”就比“較好”或者“好”的情感更強,所以需要對情感詞前的程度修飾詞進行識別,并給不同的程度賦予權(quán)值。賦值如表1所示。

      表1 程度修飾詞賦值表

      3)否定詞,j值。情感詞前存在否定詞時,會出現(xiàn)情感的反轉(zhuǎn)。因中文的表達方式為雙重否定為肯定,所以在尋找情感詞前的否定詞時,還需對否定詞出現(xiàn)的次數(shù)進行計數(shù),如果是單數(shù),情感詞的權(quán)重為-1;如果是偶數(shù),那情感就沒有反轉(zhuǎn),權(quán)重為1。

      4)輸出值,S值。由于博主經(jīng)常會和粉絲進行互動,1條微博下面會有幾條留言和回復(fù),針對微博評論的這種特點,我們先計算出粉絲每條評論的情感分值,然后將其所有評論的正向情感分值和負向情感分值相加得到粉絲對這條微博的評論的情感分數(shù),最終輸出粉絲評論的情感值。

      2.3.5 節(jié)點領(lǐng)域傳播能力

      節(jié)點的微博吸引力、轉(zhuǎn)發(fā)數(shù)量、評論情感支持度以及微博的主題相關(guān)度等指標(biāo)之間是相互促進、互為影響的關(guān)系,基于上述4個指標(biāo)可以定義一個新的指標(biāo)——節(jié)點領(lǐng)域傳播能力。節(jié)點領(lǐng)域傳播能力衡量了用戶在某個專業(yè)領(lǐng)域內(nèi)對信息傳播和流通的控制能力,計算公式如下:

      SPi=Ai×Ri×SEi×TRi

      (7)

      2.4 節(jié)點專業(yè)影響力評估算法

      目前不少研究方法通過關(guān)注關(guān)系來發(fā)現(xiàn)用戶網(wǎng)絡(luò)中的關(guān)鍵人物,比如社交網(wǎng)絡(luò)中意見領(lǐng)袖、影響者的識別研究。PageRank算法通常用于在社會網(wǎng)絡(luò)中識別關(guān)鍵影響力節(jié)點的研究,算法公式如下:

      (8)

      其中Mpi是所有對節(jié)點Pi有出鏈的節(jié)點集合,L(pj)是節(jié)點Pi的出鏈數(shù)目,N為節(jié)點總數(shù),α取0.85。

      從表達式理解,PageRank算法中頁面的PR值是均勻地傳遞到鏈出的頁面上去的,這樣做的結(jié)果就是忽略了頁面本身的重要程度,因此,為了克服PageRank算法在計算時將PR值均勻地傳遞到鏈出的節(jié)點這一缺陷,我們將公式7中定義的節(jié)點領(lǐng)域傳播能力作為分配PR值的標(biāo)準(zhǔn),根據(jù)節(jié)點領(lǐng)域傳播能力大小來分配PR值。從而使得模型能夠更加準(zhǔn)確和客觀地衡量節(jié)點的專業(yè)影響力大小。最終基于PageRank算法改進的Domain Rank算法設(shè)計如下:

      (9)

      其中,Mpi是所有對節(jié)點Pi有出鏈的節(jié)點集合,N為節(jié)點總數(shù),α取0.85,以保證算法收斂,Wij是節(jié)點Pj分配給Pi的DR權(quán)重,其計算公式如下:

      (10)

      其中,SPi是節(jié)點i的領(lǐng)域傳播能力,N為節(jié)點j的好友數(shù),從公式上理解,節(jié)點j分配給節(jié)點i的DR權(quán)重是用節(jié)點i的領(lǐng)域傳播能力占節(jié)點j所有好友的領(lǐng)域傳播能力之和的比例得到的,如果節(jié)點i的領(lǐng)域傳播能力強,則分配較大的權(quán)重,反之,則分配較小的權(quán)重,從而保證了節(jié)點DR值的傳遞是不均勻的。

      3 節(jié)點專業(yè)影響力分析的實證研究

      本文嘗試在新浪微博中識別數(shù)據(jù)挖掘領(lǐng)域的專業(yè)影響力節(jié)點。為了將采集的微博文本限定在數(shù)據(jù)挖掘領(lǐng)域,先要構(gòu)建數(shù)據(jù)挖掘領(lǐng)域詞典;然后利用該詞典對微博數(shù)據(jù)中有關(guān)數(shù)據(jù)挖掘領(lǐng)域的微博進行話題識別,從而確定相關(guān)領(lǐng)域的用戶。通過對這些用戶的發(fā)表微博數(shù)據(jù)采集處理、話題聚類,同時根據(jù)話題內(nèi)容和人群聚類結(jié)果進行人群劃分,篩選出發(fā)表內(nèi)容較專業(yè)且屬于“數(shù)據(jù)挖掘”的用戶群體作為候選節(jié)點;然后計算候選節(jié)點用戶的領(lǐng)域相關(guān)度。通過用戶的微博評論數(shù)據(jù)同時結(jié)合情感字典,對候選節(jié)點用戶進行情感評分。最后通過微博用戶的基本信息數(shù)據(jù)計算節(jié)點用戶的吸引力和轉(zhuǎn)發(fā)數(shù)。完成指標(biāo)計算之后,通過歸一化處理獲得候選節(jié)點的傳播力,最終以排序的方式得到專業(yè)影響力節(jié)點的綜合排名結(jié)果。

      圖2 節(jié)點專業(yè)影響力實證分析過程

      3.1 數(shù)據(jù)挖掘領(lǐng)域詞典構(gòu)建

      數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及機器學(xué)習(xí)、人工智能、信息檢索、信息可視化和專家系統(tǒng)等多個領(lǐng)域。這個領(lǐng)域中人們較多關(guān)注于相關(guān)技術(shù)的問題討論、行業(yè)應(yīng)用、技術(shù)發(fā)展等。為了構(gòu)建該領(lǐng)域的字典,本文采集了知乎網(wǎng)數(shù)據(jù)挖掘版塊下的所有提問和答案。利用采集下來的文本數(shù)據(jù)經(jīng)過分詞和提取等步驟構(gòu)建好“數(shù)據(jù)挖掘”的領(lǐng)域字典,表2給出了該字典的部分內(nèi)容。

      表2 數(shù)據(jù)挖掘領(lǐng)域字典(部分)

      3.2 微博數(shù)據(jù)采集與話題識別

      通過3.1節(jié)建立好的領(lǐng)域字典,編寫Python爬蟲程序,我們抓取了2015年8月31日-2016年7月31日這段時間內(nèi)的所有涉及“數(shù)據(jù)挖掘”領(lǐng)域字典中關(guān)鍵詞的微博。數(shù)據(jù)按照2.2設(shè)計的表格內(nèi)容抓取,共計67 616條原創(chuàng)微博。對這些數(shù)據(jù)進行去重和清洗處理后,保留53 120條符合條件的微博記錄。通過統(tǒng)計發(fā)現(xiàn)這53 120條微博由29 051人發(fā)布,絕大多數(shù)人在抓取時間跨度內(nèi)只發(fā)布了1條與“數(shù)據(jù)挖掘”領(lǐng)域相關(guān)的微博。進一步發(fā)現(xiàn)發(fā)布超過兩條相關(guān)微博的用戶有3 100人,超過3次的共有1 561人,而超過5次的只有323人,因此,我們保留了超過3次以上的用戶,共計1 561人。然后,對篩選后留下的這1 561個用戶的微博文本數(shù)據(jù)經(jīng)過分詞和提取,分析詞與詞共現(xiàn)關(guān)系,通過模塊化詞聚類算法,識別出該領(lǐng)域中主要討論的話題,有算法討論與研究、技術(shù)問題咨詢以及數(shù)據(jù)挖掘在公司的價值和應(yīng)用。話題識別結(jié)果見圖3、圖4。另外,研究中發(fā)現(xiàn)也有一些不相關(guān)的話題存在,比如“范冰冰:知識圖譜”、“韓庚:知識圖譜”這些內(nèi)容雖涉及“知識圖譜”,但其本身并沒有討論知識圖譜的知識或者相關(guān)研究。最后,通過對多個話題進行郵別,從中篩選出“數(shù)據(jù)挖掘技術(shù)討論”、“數(shù)據(jù)挖掘?qū)W習(xí)與實現(xiàn)”、“數(shù)據(jù)挖掘招聘”等6個主要話題,將這6個話題集合映射到用戶集合,從中篩選出741位用戶作為候選節(jié)點。

      圖3 話題例舉:數(shù)據(jù)挖掘技術(shù)討論

      圖4 話題例舉:數(shù)據(jù)挖掘?qū)W習(xí)和實現(xiàn)

      3.3 專業(yè)影響力節(jié)點基本信息采集

      通過領(lǐng)域詞典和話題識別技術(shù)對用戶進行定向主題篩選后,將保留下的741位用戶的基本信息存儲在2.1節(jié)的表B中。下一步根據(jù)這些用戶的微博ID信息,通過Python程序爬取了他們2016年8月后發(fā)布的微博共計3萬條,并將以上信息存儲在2.1中定義的表A中。表3中展示了計算節(jié)點領(lǐng)域傳播能力所需要的粉絲數(shù)、微博數(shù)、轉(zhuǎn)發(fā)數(shù)等詳細信息的部分示例數(shù)據(jù)。

      表3節(jié)點基本信息表(部分)

      微博昵稱微博數(shù)量粉絲數(shù)量轉(zhuǎn)發(fā)數(shù)量36大數(shù)據(jù)網(wǎng)8176101279402 452nlp1334215115132752 9愛范兒3577210678647970002愛可可愛生活366610121132892 5陳利人4172128770151339 3廣告門17901249964542400 3好東西傳送門33882963928882 7黃曉慶83621158190195879 9老師木1076721317236874李航博士12024395061752 75

      3.4 專業(yè)影響力節(jié)點領(lǐng)域相關(guān)度計算

      為了提高計算節(jié)點領(lǐng)域相關(guān)度的準(zhǔn)確性,在計算節(jié)點領(lǐng)域相關(guān)度之前,需要擴展和完善領(lǐng)域詞典?;舅悸肥牵菏紫冉Y(jié)合利用Jieba分詞工具對3.2節(jié)采集到的數(shù)據(jù)挖掘領(lǐng)域相關(guān)微博進行了預(yù)處理,預(yù)處理主要包括文本分詞、詞性過濾、停用詞過濾等;然后通過人工挑選的方法從分詞集合中挑選出數(shù)據(jù)挖掘領(lǐng)域的主題詞加入領(lǐng)域詞典中,最終擴展完善領(lǐng)域詞典;下一步通過完善后的領(lǐng)域詞典對微博文本進行分類后即可計算每個用戶和數(shù)據(jù)挖掘領(lǐng)域相關(guān)的微博數(shù)量占其所有微博數(shù)量的比例。計算出來的領(lǐng)域相關(guān)度結(jié)果如表4所示:

      表4 節(jié)點領(lǐng)域相關(guān)度(部分)

      3.5 微博評論的情感評分

      本文采用基于情感詞典的文本情感極性分析方法對粉絲的評論進行情感打分,將用戶的情感極性分為正向、負向和中性3類。正向為1分,負向為-1分,中性為0分。本文以BosonNLP情感詞典為基礎(chǔ),進一步通過Python爬蟲程序抓取了這741個微博用戶2016年8月后的所有微博評論,將所有的評論數(shù)據(jù)存放在2.1節(jié)定義的表D中;然后利用Jieba分詞工具對這些評論進行分詞和去除停用詞處理;最后利用Google的Word2Vec算法[15],對大量語料進行無監(jiān)督學(xué)習(xí),將詞語轉(zhuǎn)化為高維詞向量。通過計算詞向量之間的距離,得到與現(xiàn)有情感詞極性相同的情感新詞,結(jié)合現(xiàn)有的BosonNLP情感詞典形成一部較為完善的情感詞典。

      在情感詞典的構(gòu)建過程中我們發(fā)現(xiàn),評論中存在很多“@我的印象筆記”、“@有道云筆記收藏”這樣的評論,印象筆記、有道云筆記都是用來收集和整理知識的專業(yè)筆記軟件,用戶收藏微博到筆記的行為,反映出了微博內(nèi)容符合粉絲的需求,因此,我們將收藏到筆記的行為判斷為積極的表現(xiàn),進行單獨計算。

      最后,利用2.3節(jié)中的公式5和公式6,計算得到這741個節(jié)點的情感極性平均分,計算結(jié)果如表5所示:

      表5 節(jié)點微博評論情感極性平均分(部分)

      3.6 節(jié)點領(lǐng)域傳播能力計算

      關(guān)注關(guān)系作為微博主要功能之一,用戶可以關(guān)注自己感興趣的人,接受他們發(fā)布的信息。不少影響力研究中,關(guān)注關(guān)系是計算研究的核心數(shù)據(jù)。為此,我們進一步采集了這741個候選節(jié)點的相互關(guān)注關(guān)系,例如,其中A關(guān)注了B,C關(guān)注了B則我們記錄這兩條有向數(shù)據(jù)為A→B和C→B。通過python爬蟲抓取處理,共獲取到4 721條有效數(shù)據(jù)記錄。為了使用2.4節(jié)中提到鏈接分析方法挖掘和識別數(shù)據(jù)挖掘領(lǐng)域中的專業(yè)影響力節(jié)點,需要利用上文得到的節(jié)點基本信息評估指標(biāo)計算各個節(jié)點領(lǐng)域傳播能力,節(jié)點的領(lǐng)域傳播能力使用2.3節(jié)的公式7來計算。在計算之前,首先需要對表3、表4和表5提供的各項指標(biāo)進行標(biāo)準(zhǔn)化處理,以消除數(shù)據(jù)在量綱和數(shù)量級上的差異。經(jīng)過歸一化后的各節(jié)點基本信息以及計算出來的領(lǐng)域傳播能力如表6所示:

      表6 節(jié)點基本信息及領(lǐng)域傳播能力(部分)

      得到各節(jié)點的領(lǐng)域傳播能力以后,利用2.4節(jié)提出的專業(yè)影響力節(jié)點挖掘算法,最終得到節(jié)點的專業(yè)影響力排序結(jié)果。表7是使用本文提出的專業(yè)影響力挖掘框架最終產(chǎn)生的排名前10位的影響力節(jié)點。

      排名前10位的專業(yè)影響力節(jié)點分別為:龍星鏢局、王威廉、南大周志華、梁斌penny、好東西傳送門、馬少平thu、老師木、陳利人、張棟_機器學(xué)習(xí)、西瓜大丸子湯。排名第11~20位的專業(yè)影響力節(jié)點有:網(wǎng)路冷眼、愛可可愛生活、數(shù)據(jù)挖掘研究院、李航博士、研究者July、社會網(wǎng)絡(luò)與數(shù)據(jù)挖掘、微軟亞洲研究院、52nlp、36大數(shù)據(jù)網(wǎng)、愛范兒。接下來我們對這些用戶進行了持續(xù)跟蹤以及背景調(diào)研,發(fā)現(xiàn)其中一部分是機構(gòu)組織賬號,如36大數(shù)據(jù)網(wǎng)、微軟亞洲研究院等,另一部分為個人微博。其中個人微博用戶都是該領(lǐng)域中具有一定建樹的研究人員。比如“張棟_機器學(xué)習(xí)”為百度科學(xué)家、鳳巢系統(tǒng)架構(gòu)師、原GOOGLE研究員;“南大周志華”,為南京大學(xué)教授,主要從事人工智能、機器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識別等方面的研究;“梁斌penny”為清華大學(xué)人工智能方向博士研究生,曾就職于搜狗搜索,承擔(dān)新聞搜索、個性化新聞、日志挖掘、商業(yè)廣告系統(tǒng)等開發(fā)和研究;研究者july為數(shù)據(jù)科學(xué)在線教育平臺“7月在線”創(chuàng)始人。這些用戶是在“數(shù)據(jù)挖掘”領(lǐng)域影響力比較大的節(jié)點。

      表7 專業(yè)影響力節(jié)點排名(部分)

      綜上所述,通過對本文計算出的排名靠前的專業(yè)影響力節(jié)點在現(xiàn)實生活中的專業(yè)背景的調(diào)研,確實他們絕大多數(shù)都是專業(yè)領(lǐng)域權(quán)威的專家,這也證明了本文算法具有比較高的正確性。

      4 結(jié) 語

      本文提出了社交網(wǎng)絡(luò)中專業(yè)影響力節(jié)點的識別模型。其中利用了話題識別技術(shù)找到了用戶關(guān)注的話題以及關(guān)注這些話題的用戶,將專業(yè)影響力節(jié)點的挖掘范圍限制在這些用戶群體內(nèi);以用戶的粉絲數(shù)量、微博數(shù)量、轉(zhuǎn)發(fā)數(shù)量、領(lǐng)域相關(guān)度等特征為基礎(chǔ),同時利用語義分析技術(shù)研究微博評論中的情感特征,并基于關(guān)注關(guān)系構(gòu)建鏈路網(wǎng)絡(luò),采用Domain Rank算法識別和挖掘社交網(wǎng)絡(luò)中的專業(yè)影響力節(jié)點;同時針對最終結(jié)果,本文還對其進行調(diào)研和專業(yè)評估,證實該方法確實成功識別出“數(shù)據(jù)挖掘”領(lǐng)域的專業(yè)影響力節(jié)點。

      本文對用戶的情感評價主要是基于情感詞典的情感評分方法。進一步的研究,可以考慮充分利用本文在3.4中用到的詞向量技術(shù),利用深度學(xué)習(xí)的方法來提高情感評分的效果。

      猜你喜歡
      數(shù)據(jù)挖掘影響力領(lǐng)域
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      領(lǐng)域·對峙
      青年生活(2019年23期)2019-09-10 12:55:43
      天才影響力
      NBA特刊(2018年14期)2018-08-13 08:51:40
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      黃艷:最深遠的影響力
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      3.15消協(xié)三十年十大影響力事件
      傳媒不可估量的影響力
      人間(2015年21期)2015-03-11 15:24:39
      新常態(tài)下推動多層次多領(lǐng)域依法治理初探
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      鄂托克前旗| 海南省| 武乡县| 宁南县| 陇南市| 定边县| 温州市| 海兴县| 天台县| 台湾省| 永福县| 舟曲县| 赫章县| 安陆市| 神木县| 长子县| 灌南县| 醴陵市| 台江县| 策勒县| 黎城县| 平远县| 永昌县| 隆德县| 大埔区| 云梦县| 丰都县| 兴仁县| 寿阳县| 长垣县| 龙口市| 周宁县| 瑞安市| 江永县| 垦利县| 延吉市| 高碑店市| 凉山| 金溪县| 兰州市| 高台县|