• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于情緒和興趣的用戶訪問行為預(yù)測①

      2018-02-07 02:41:10鋒,陳增,鄭嘯,童
      關(guān)鍵詞:文檔社交預(yù)測

      秦 鋒,陳 增,鄭 嘯,童 琨

      1(安徽工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,馬鞍山 243032)2(安徽祥云科技有限公司,馬鞍山 243032)

      1 引言

      隨著網(wǎng)絡(luò)的快速發(fā)展,為了對用戶的社交網(wǎng)絡(luò)訪問行為進(jìn)行預(yù)測,將用戶關(guān)注的內(nèi)容呈現(xiàn)給用戶,實(shí)現(xiàn)個性化推薦,并且對網(wǎng)絡(luò)用戶行為實(shí)時(shí)監(jiān)管,是當(dāng)下網(wǎng)絡(luò)發(fā)展過程中遇到的難題之一.用戶訪問行為預(yù)測研究不僅僅實(shí)現(xiàn)對用戶的個性化推薦,展現(xiàn)了其商業(yè)價(jià)值,同時(shí)也為網(wǎng)絡(luò)信息傳播、輿情監(jiān)控、網(wǎng)絡(luò)異常行為監(jiān)控和熱點(diǎn)提取等問題的研究提供幫助,展現(xiàn)了其科研價(jià)值.根據(jù)CNNIC[1]發(fā)布的第38次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告,直到2016年6月份,我國微博用戶規(guī)模為2.42億.

      2 相關(guān)工作

      現(xiàn)在微博已成為在我國最廣泛使用的社交網(wǎng)絡(luò),分析研究微博用戶的行為習(xí)慣對于了解社交網(wǎng)絡(luò)信息的傳遞與擴(kuò)散有著重要的參考價(jià)值.目前國內(nèi)外對于微博用戶的行為研究主要根據(jù)用戶的瀏覽和轉(zhuǎn)發(fā)的歷史行為或者用戶關(guān)注對象特征等用戶靜態(tài)屬性進(jìn)行預(yù)測,而忽略了用戶本身的情緒和興趣的影響.在心理學(xué)研究中發(fā)現(xiàn)情緒對于用戶行為有著直接的影響,目前已經(jīng)有部分學(xué)者將心理學(xué)模型于用到文本情感分析研究中,本文主要從用戶發(fā)布微博的文本信息進(jìn)行研究分析,將用戶瀏覽微博時(shí)的情感和興趣引入到預(yù)測模型中,與用戶的屬性特征結(jié)合,以此達(dá)到提升預(yù)測模型的效果.

      2.1 用戶行為預(yù)測

      隨著微博用戶規(guī)模的不斷擴(kuò)大,微博在人們的日常生活中的地位也更加重要,國內(nèi)外對于微博網(wǎng)絡(luò)中用戶行為也有了更多的研究.張旸等人[2]根據(jù)分析Twitter中用戶轉(zhuǎn)發(fā)行為的特點(diǎn),根據(jù)選取特征的重要性排名,提出了基于特征加權(quán)預(yù)測模型,使用機(jī)器學(xué)習(xí)的方法驗(yàn)證了模型的有效性.清華大學(xué)的Tan等人[3]通過構(gòu)建社交網(wǎng)絡(luò)結(jié)構(gòu),分析用戶屬性和用戶行為歷史,提出NTT-FGM模型以便更好地預(yù)測用戶行為.曹玖新等人[4]以新浪微博為研究對象,對各種影響用戶轉(zhuǎn)發(fā)微博的因素統(tǒng)計(jì)分析,并且根據(jù)分析的特征進(jìn)行建模研究.最終選取用戶特征、社交特征和微博特征構(gòu)建轉(zhuǎn)發(fā)預(yù)測模型,通過機(jī)器學(xué)習(xí)的方法驗(yàn)證模型的效果.Xu Zhiheng等[5]從個人用戶的轉(zhuǎn)發(fā)行為的視角對Twitter的社會特征、內(nèi)容特征、Twitter特征和作者特征構(gòu)建預(yù)測模型,實(shí)驗(yàn)中使用C4.5決策樹、支持向量機(jī)、邏輯回歸三種分類算法,并提出了“l(fā)eave-onefeature-out”的方法確定了影響用戶轉(zhuǎn)發(fā)行為的特征是密切相關(guān)的.劉瑋等[6]將影響用戶轉(zhuǎn)發(fā)行為的因素分為三類:用戶行為因素、微博因素、用戶興趣因素.通過分析各方面的特征建立預(yù)測模型UBF-RPM模型,實(shí)驗(yàn)表明效果提升3.59%.李志清等[7]分析了影響用戶轉(zhuǎn)發(fā)行為的各類因素,通過將LDA概率主題模型挖掘微博的隱含主題特征,與微博特征和用戶特征結(jié)合建立微博轉(zhuǎn)發(fā)預(yù)測模型,實(shí)驗(yàn)結(jié)果表明融合特征對轉(zhuǎn)發(fā)行為預(yù)測的有效性.

      2.2 文本情感與興趣

      微博短文本情感分析是通過對微博文本內(nèi)容的分析,挖掘用戶在微博文本中表達(dá)的情感色彩,同時(shí)這是微博短文本情感分析的工作核心.如今國內(nèi)外在微博短文本情感方面的研究非常多,Pak等人[8]從語言學(xué)的角度對抓取的Twitter微博進(jìn)行分析,構(gòu)建語料庫,建立情感分類器,并且在NB、SVM和CRF實(shí)現(xiàn).Sriram等[9]考慮到微博文本的特有特征,如作者信息、發(fā)布時(shí)間等,通過實(shí)驗(yàn)說明在文本分類任務(wù)時(shí)加入這些特征后,分類性能得到了提高.國內(nèi)外對于微博用戶興趣的研究同樣取得了很大的進(jìn)展.Shen等[10]假設(shè)用戶的興趣分布可以用各種實(shí)體表示,利用主題算法對知識庫進(jìn)行實(shí)體訓(xùn)練以及上下文語義關(guān)聯(lián),構(gòu)建用戶興趣模型并完成實(shí)體鏈接任務(wù).邱云飛等人[11]結(jié)合微博短文本數(shù)據(jù)集,給出微博短文本重構(gòu)概念,對微博的原始特征進(jìn)行擴(kuò)充,讓聚類效果有所提升,而且根據(jù)重構(gòu)特征建立用戶興趣模型.王巖等[12]根據(jù)微博數(shù)據(jù)存在大量鏈接的特點(diǎn),抽取HTML元素組成文檔鏈,根據(jù)共現(xiàn)閾值構(gòu)造主題抽取模型,并且實(shí)現(xiàn)話題的情感分析.陳文濤等人[13]通過對TwitterLDA、UserLDA以及AuthorLDA的對比實(shí)驗(yàn),分析了三種LDA模型優(yōu)勢所在,同時(shí)詳細(xì)介紹了通過主題模型來構(gòu)建用戶興趣模型的方法和技術(shù).

      3 社交網(wǎng)絡(luò)用戶行為

      3.1 社交網(wǎng)絡(luò)用戶行為特點(diǎn)

      網(wǎng)絡(luò)用戶行為的一個子類——社交網(wǎng)站用戶行為,不但擁有其父類的特征,自身同時(shí)具有獨(dú)特的個性.我們把社交網(wǎng)絡(luò)中的行為特點(diǎn)總結(jié)歸納成下面的4點(diǎn).

      1)交互性.當(dāng)用戶瀏覽社交網(wǎng)絡(luò)平臺的時(shí)候,會通過信息的發(fā)布、轉(zhuǎn)發(fā)、評論等行為與好友進(jìn)行交互,在信息轉(zhuǎn)發(fā)等傳遞過程中,用戶的信息交互促進(jìn)朋友關(guān)系的發(fā)展,也會吸引更多新的用戶加入.

      2)消息快速擴(kuò)散性.社交網(wǎng)絡(luò)中,用戶之間構(gòu)建了龐大的復(fù)雜的用戶關(guān)系網(wǎng)絡(luò),用戶發(fā)布或者分享的消息能夠快速的在用戶間傳播,隨著社交平臺的多樣化,信息的傳播速度也大大提升.

      3)保密性.多數(shù)的社交平臺使用中,不要求用戶實(shí)名認(rèn)證,對用戶的信息最大程度上給予保護(hù).

      4)不確定性.現(xiàn)在隨著各式各樣的社交網(wǎng)絡(luò)平臺的出現(xiàn),使得原本繁雜的網(wǎng)絡(luò)環(huán)境更加的復(fù)雜,社交用戶的群體也有著很大的區(qū)別,這些都讓用戶在社交網(wǎng)絡(luò)中的行為變得更加復(fù)雜多變,難以預(yù)測.

      3.2 微博用戶行為對比

      在微博平臺中,對于所有用戶均可見的行為有轉(zhuǎn)發(fā)、評論和點(diǎn)贊3種,還有一種收藏行為除了用戶本身之外的其他均不可見,所以對于微博用戶行為的研究中不考慮收藏行為.

      我們通過對某一認(rèn)證用戶一個星期內(nèi)發(fā)布的微博的點(diǎn)贊數(shù)、評論數(shù)及轉(zhuǎn)發(fā)數(shù)的對比,我們發(fā)現(xiàn)三種行為之間的操作次數(shù)的變化趨勢呈現(xiàn)出一致性,所以認(rèn)為3種行為操作之間具有正相關(guān)的關(guān)系,如圖1所示.

      圖1 微博轉(zhuǎn)發(fā)、評論、點(diǎn)贊數(shù)對比

      經(jīng)過對該認(rèn)證用戶的這一個星期內(nèi)發(fā)布的微博的點(diǎn)贊數(shù)、評論數(shù)及轉(zhuǎn)發(fā)數(shù)的對比分析,我們通過SPSS工具對微博的三種操作次數(shù)進(jìn)行相關(guān)性分析,結(jié)果發(fā)現(xiàn)其顯著性p=0.2%<1%(顯著性水平),說明三種行為之間都具有強(qiáng)正相關(guān)關(guān)系,其相關(guān)系數(shù)都超過了99%,這說明微博用戶的轉(zhuǎn)發(fā)、評論和點(diǎn)贊行為之間有直接的關(guān)系.

      4 用戶訪問行為預(yù)測模型

      4.1 用戶特征

      本文選取的屬性特征有微博等級、粉絲數(shù)量、微博累計(jì)數(shù)量、認(rèn)證類別、微博使用天數(shù)、是否是會員、會員等級、關(guān)注用戶數(shù)量等.這些用戶主要特征能夠很好地幫助我們識別用戶的類型,其中關(guān)注用戶數(shù)量能夠反映當(dāng)前用戶微博被轉(zhuǎn)發(fā)的可能性大小.

      4.2 文本情感模型

      本文情感特征是通過短文本情感分析方法,對文本進(jìn)行識別分析,最終得到文本的情感特征,這里情感特征主要分為三類,包括:正向情感特征,中性情感特征,以及負(fù)向情感特征.由于微博的特性,本文采用微博短文本情緒分類方法,主要選取的文本特征包括情感詞典、否定詞、表情及標(biāo)點(diǎn)符號、詞性標(biāo)注特征等.

      4.2.1 情感特征

      目前主流的情感分析算法,很多都在使用情感詞典,但是目前主流的情感詞典中HowNet和NTUSD詞典只有情感極性分類,沒有情感強(qiáng)度的劃分,所以本文在情感詞的識別任務(wù)中,我們根據(jù)HowNet、DLUT、NTUSD情感詞典,構(gòu)建AHUT情感詞典.格式如表1所示.

      表1 AHUT情感詞典示例

      在文本情感計(jì)算中還引入程度副詞,表情符號及特殊標(biāo)點(diǎn)符號 (如“?”、“?。。 ?、“……”等等),使情感計(jì)算更加準(zhǔn)確,一般情況下僅有一個程度副詞修飾該情感詞.程度級別副詞詞典由HowNet提供,共包含219 個詞匯,分為 6 個級別,“極其/最”,“很”,“較”,“稍”,“欠”,“超”.還將否定詞加入到特征中去,本文中用到的否定詞如表2所示.

      表2 否定詞列表

      綜合考慮情感模型的特征,情感計(jì)算公式如下:

      4.2.2 情感模型構(gòu)建

      結(jié)合當(dāng)前短文本情感分析的研究,選取在短文本分析中重要的特征構(gòu)建本文微博情感分析模型,其中微博情感強(qiáng)度計(jì)算如算法1所示.

      FOR each Ti∈ {T1,T2,···,Tn} DO//文本預(yù)處理,分詞,去除URL,@用戶名以及停用詞等Ti←preprocessing (Ti)

      Ti← //微博詞向量IF (Ti contain (Si,j))Senti += Si,j *advi,j*(–1)k;IF (Ti contain (Syn))Senti += Syn;END IF END FOR IF (Senti==0)//根據(jù)情感詞強(qiáng)度計(jì)算//情感強(qiáng)度,然后根據(jù)對文本標(biāo)記Ti_Lable = 0;ELSE IF (Senti>0)Ti_Lable = 1;ELSE Ti_Lable = –1;END IF

      4.3 用戶興趣模型

      為了將用戶興趣更好的分類展示,我們對新浪微博主頁的熱門類別與各種門戶網(wǎng)站上的類別目錄進(jìn)行分析研究,最后確定將微博用戶興趣映射到10個較為常見的分類中,分別是:新聞、娛樂、體育、財(cái)經(jīng)、科技、時(shí)尚、汽車、{旅游、教育、文}化.并且由此構(gòu)建用戶興趣向量Ij=Ij,1,Ij,2,···,Ij,10.如某用戶對美食和娛樂的內(nèi)容興趣度較高,則其對應(yīng)的興趣向量為I={1,0,1,0,0,0,0,0,0,0}.本文用戶興趣模型從用戶標(biāo)簽特征和文本隱含主題特征兩個方面提取用戶興趣.

      4.3.1 用戶標(biāo)簽特征

      用戶個人標(biāo)簽是指描寫職業(yè)、個性或者興趣等的短語或者有關(guān)自我介紹的詞組等,這些標(biāo)簽在很大程度上反映了用戶的興趣領(lǐng)域,但是也有一些不利之處,如微博中很多用戶是沒有設(shè)置自己的標(biāo)簽或者標(biāo)簽是隨便填寫,不能真實(shí)的體現(xiàn)用戶的興趣等.

      4.3.2 基于改進(jìn)TF-IDF興趣關(guān)鍵詞提取

      TF-IDF (Term Frequency-Inverse Document Frequency)是文本分類研究中的常用技術(shù),是用來統(tǒng)計(jì)文檔中每個詞匯對于該文檔的影響力大小的工具[14].TFIDF的主要思路是:如果在某個文檔中一個詞語出現(xiàn)的次數(shù)較多,而在其余文檔中出現(xiàn)次數(shù)較少,則這個詞語就能夠很好的把該文檔與其他的區(qū)別開來.TFIDF值等于:表示詞頻,即wi在文檔j中出現(xiàn)的頻率,IDFi為wi在訓(xùn)練語料上的逆文檔頻率值.

      在選擇特征方面,TF-IDF方法和信息增益(Information Gain)方法忽略了特征詞類間分布情況;而卡方檢驗(yàn)(Chi-square test)方法和互信息(Mutual Information)方法有低頻詞傾向,夸大了低頻詞的作用.文檔分布方差反映的是不同類別文本間特征詞分布差異,詞概率分布方差則可以修正文檔分布方差的低頻詞缺陷.根據(jù)這兩類方差的特點(diǎn),將其與TF-IDF計(jì)算融合到一起中,能夠在一定程度上提升主題關(guān)鍵詞的提取效果.例如“手機(jī)”既有可能在“科技”類別的新聞中出現(xiàn),又可能出現(xiàn)在“時(shí)尚”類別新聞中等等.為了保證“類別”專有特征的選擇效果并且保證主題關(guān)鍵詞的提取準(zhǔn)確率,我們用詞的類間概率分布方差和文檔分布方差乘積的對數(shù)來更新TF-IDF的特征權(quán)重.

      設(shè)wi是文本集中的一個詞,詞wi的類間概率分布方差為:

      c為類別總數(shù),是詞wi在類別cj中的出現(xiàn)的概率,同理,定義詞wi的類間文檔分布方差為:

      文檔j中詞wi的TF-IDF特征修正權(quán)重是:

      4.3.3 LDA主題特征

      現(xiàn)實(shí)的微博網(wǎng)絡(luò)環(huán)境中,微博的文本內(nèi)容在很大程度上影響用戶是否瀏覽、轉(zhuǎn)發(fā)該信息,每個用戶都有自己獨(dú)特的興趣愛好,關(guān)注科技方面但是不懂體育的用戶在瀏覽微博時(shí),對“大數(shù)據(jù)”為主題的微博的興趣度要比“NBA比賽”為主題的微博的興趣度高很多.因此,微博文本的內(nèi)容隱含主題特征對于微博用戶行為的影響非常大.本文通過使用LDA模型對用戶一定時(shí)間段內(nèi)的微博文本提取特定主題數(shù)的主題詞語分布,實(shí)現(xiàn)了文本內(nèi)容到主題向量的映射.本文的LDA主題模型使用的是LDA開源工具JGibbLDA,LDA模型中的主要參數(shù)alpha默認(rèn)為50/K(K是主題數(shù)目),beta默認(rèn)值取0.1.

      4.3.4 用戶興趣模型構(gòu)建

      為了更加準(zhǔn)確地提取用戶的興趣,我們構(gòu)建用戶興趣模型,將用戶的標(biāo)簽興趣Q與文本實(shí)時(shí)興趣P根據(jù)公式計(jì)算,得出最終用戶興趣I.標(biāo)簽興趣Q是根據(jù)標(biāo)簽詞語和用戶興趣類別關(guān)鍵詞的相似度計(jì)算得出,實(shí)時(shí)興趣P是根據(jù)TF-IDF提取的關(guān)鍵詞與LDA模型輸出的主題分布進(jìn)行相似度計(jì)算,如算法2所示.

      算法2.用戶短期興趣提取算法輸入:T = {T1,T2,…,Tn} //用戶微博集合F = {F1,F2,…,Fm} //用戶特征向量輸出://用戶興趣向量SHORT_INTEREST PROCEDURE FOR i = 0,1,2,…,n DO//通過文檔主題生成模型獲取關(guān)鍵詞分布K = {K1,K2,…,Kl}←Ti;//TF-IDF算法處理過程Words = {W1,W2,…,Wh }←Ti;FOR j = 0,1,2,…,h FOR k = 0,1,2,…,l If (Similar(Kk,Wj)< α)remove Kk from K;END FOR END FOR Short ← K;Similar(Kj,Wi)←JaccardSimilarty(Kj,Wi);END FOR

      根據(jù)用戶微博的發(fā)布時(shí)間,將其短期興趣分為k個時(shí)段的實(shí)時(shí)興趣(本文中時(shí)間間隔取一周),根據(jù)興趣衰減函數(shù),得到用戶在時(shí)間內(nèi)的用戶興趣,其公式如下:

      如圖2所示,介紹了用戶興趣提取實(shí)現(xiàn)過程.

      圖2 用戶興趣提取過程

      4.4 微博用戶訪問行為預(yù)測模型

      將情感特征提取模型和用戶興趣模型,獲取的微博情感,用戶興趣以及用戶特征融合,建立微博用戶的行為預(yù)測模型,預(yù)測模型特征如表3所示.

      表3 預(yù)測模型特征

      根據(jù)選取的特征,構(gòu)建模型輸入向量,根據(jù)分類器輸出行為預(yù)測結(jié)果向量,當(dāng)時(shí)表示不會進(jìn)行轉(zhuǎn)發(fā)操作,當(dāng)時(shí),表示進(jìn)行轉(zhuǎn)發(fā)操作;當(dāng)時(shí),表示評論,當(dāng)時(shí),表示不評論;當(dāng)時(shí)表示不點(diǎn)贊,當(dāng)時(shí)表示點(diǎn)贊.如圖3所示.

      圖3 預(yù)測模型

      5 實(shí)驗(yàn)結(jié)果分析

      5.1 數(shù)據(jù)集與評價(jià)指標(biāo)

      數(shù)據(jù)集由北京理工大學(xué)網(wǎng)絡(luò)搜索挖掘與安全實(shí)驗(yàn)室張華平博士分享的五百萬微博語料提取所得,提取規(guī)則為:用戶微博數(shù)超過2000,并且相鄰兩篇微博發(fā)布時(shí)間的間隔要小于24小時(shí).一共選取200位用戶大概450 000條微博文本.每條數(shù)據(jù)記錄的屬性是:uid:用戶編號,weiboId:微博編號,created_at:發(fā)表時(shí)間,favorited:是否收藏,reposts_count:轉(zhuǎn)發(fā)次數(shù),comments_count:評價(jià)次數(shù),attitudes_count:點(diǎn)贊次數(shù),text:微博內(nèi)容.

      為了評估預(yù)測分類效果,我們采取常見的評價(jià)標(biāo)準(zhǔn),準(zhǔn)確率P(Precision)、查全率R(Recall)和F值(F-measure),作為我們的評價(jià)標(biāo)準(zhǔn),點(diǎn)贊行為實(shí)驗(yàn)結(jié)果以表4的形式表示.

      表4 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)表

      那么,P、R和F-measure的具體計(jì)算公式如下:

      同理我們可以計(jì)算得出評論行為和轉(zhuǎn)發(fā)行為的分類預(yù)測的準(zhǔn)確率P(Precision)、查全率R(Recall)和F值(F-measure).

      5.2 微博情感與興趣實(shí)驗(yàn)結(jié)果與分析

      在微博文本情感特征提取模型中,我們采用的是目前短文本分類常用的分類器,包括樸素貝葉斯(NB)、K-近鄰(KNN)、支持向量機(jī)(SVM)、TF-IDF文本分類算法四種文本分析主流算法.情感特征提取實(shí)驗(yàn)中采用5折交叉驗(yàn)證實(shí)驗(yàn),其平均性能如表5所示.

      表5 常用分類器性能對比

      通過對比實(shí)驗(yàn),我們可以看出在情感特征提取中SVM分類算法表現(xiàn)的效果最好.

      用戶興趣模型的分類結(jié)果如圖4所示.

      圖4 用戶興趣分類結(jié)果

      5.3 微博用戶行為預(yù)測結(jié)果與分析

      5.3.1 特征選取對比實(shí)驗(yàn)

      為了驗(yàn)證情感特征和興趣特征的重要性,我們在無情感特征(選取用戶特征和興趣特征)、無主題特征(選取用戶特征和情感特征)和全特征(選取全部三種特征)三種情況下的準(zhǔn)確率、查全率和F-measure.實(shí)驗(yàn)中是以LibSVM為分類器.實(shí)驗(yàn)結(jié)果對比如圖5所示.

      通過統(tǒng)計(jì)圖我們可以很清楚地觀察到,在特征選取時(shí)只考慮用戶情感或者興趣,無論是用戶的點(diǎn)贊行為、轉(zhuǎn)發(fā)行為還是評論行為預(yù)測的準(zhǔn)確率和召回率都比全特征時(shí)的高,因此情緒特征和興趣特征對用戶行為的預(yù)測是有效的.

      5.3.2 常見分類器對比實(shí)驗(yàn)結(jié)果分析

      根據(jù)本文構(gòu)建的微博用戶預(yù)測模型,我們分別使用樸素貝葉斯、K近鄰、支持向量機(jī)3種常用分類算法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)采取的是數(shù)據(jù)的5折交叉驗(yàn)證,分別實(shí)現(xiàn)了轉(zhuǎn)發(fā)、評論、點(diǎn)贊3種行為的預(yù)測分析,如圖6是5折交叉實(shí)驗(yàn)的平均結(jié)果.

      通過實(shí)驗(yàn)結(jié)果對比,我們發(fā)現(xiàn)行為預(yù)測模型在樸素貝葉斯和K近鄰分類器上對用戶行為預(yù)測的準(zhǔn)確率、召回率都在75%以上,在支持向量機(jī)分類算法上表現(xiàn)得很好,最高的準(zhǔn)確率接近90%,所以認(rèn)為該微博用戶行為預(yù)測模型是有效的,但是相比較轉(zhuǎn)發(fā)和點(diǎn)贊行為的預(yù)測結(jié)果,評論行為的預(yù)測效果表現(xiàn)較差,根據(jù)分析我們猜測評論用戶對微博的關(guān)注重點(diǎn)與轉(zhuǎn)發(fā)和點(diǎn)贊的用戶有所差別,比如當(dāng)用戶看到一些實(shí)用技巧分享的微博,可能會進(jìn)行轉(zhuǎn)發(fā)或者點(diǎn)贊,但是不一定會評論,相對于評論行為,用戶可能會更加傾向于點(diǎn)贊和轉(zhuǎn)發(fā).

      圖6 行為預(yù)測結(jié)果對比

      6 總結(jié)與下一步工作

      本文主要對于用戶的行為進(jìn)行研究,建立了基于用戶情感和興趣的行為預(yù)測模型,通過使用常用的分類算法對微博用戶的三種行為進(jìn)行對比實(shí)驗(yàn),通過統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果的準(zhǔn)確率、召回率和F值,證明了預(yù)測模型的可行性與有效性,本文下一步工作就是將微博用戶的一些歷史行為、關(guān)注用戶列表等因素融入到預(yù)測模型中,也可以在微博文本分析中將圖片、視頻等融入到情感模型中,提升用戶情感分析的準(zhǔn)確率.

      1 中國互聯(lián)網(wǎng)絡(luò)信息中心.第38次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》.北京:中國互聯(lián)網(wǎng)絡(luò)信息中心,2016.

      2 張旸,路榮,楊青.微博客中轉(zhuǎn)發(fā)行為的預(yù)測研究.中文信息學(xué)報(bào),2012,26(4):109–114,121.

      3 Tan CH,Tang J,Sun JM,et al.Social action tracking via noise tolerant time-varying factor graphs.Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Washington,DC,USA.2010.1049–1058.

      4 曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測.計(jì)算機(jī)學(xué)報(bào),2014,37(4):779–790.

      5 Xu ZH,Yang Q.Analyzing user retweet behavior on twitter.Proceedings of 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.Istanbul,Turkey.2012.46–50.

      6 劉瑋,賀敏,王麗宏,等.基于用戶行為特征的微博轉(zhuǎn)發(fā)預(yù)測研究.計(jì)算機(jī)學(xué)報(bào),2016,39(10):1992–2006.[doi:10.11897/SP.J.1016.2016.01992]

      7 李志清.基于LDA主題特征的微博轉(zhuǎn)發(fā)預(yù)測.情報(bào)雜志,2015,34(9):158–162.

      8 Pak A,Paroubek P.Twitter as a corpus for sentiment analysis and opinion mining.Proceedings of the 7th Conference on International Language Resources and Evaluation.Valleta,Malta.2010.

      9 Sriram B,Fuhry D,Demir E,et al.Short text classification in twitter to improve information filtering.Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval.Geneva,Switzerland.2010.841–842.

      10 Shen W,Wang JY,Luo P,et al.Linking named entities in tweets with knowledge base via user interest modeling.Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Chicago,IL,USA.2013.68–76.

      11 邱云飛,王琳潁,邵良杉,等.基于微博短文本的用戶興趣建模方法.計(jì)算機(jī)工程,2014,40(2):275–279.

      12 王巖.基于共現(xiàn)鏈的微博情感分析技術(shù)的研究與實(shí)現(xiàn)[碩士學(xué)位論文].長沙:國防科學(xué)技術(shù)大學(xué),2011.

      13 陳文濤,張小明,李舟軍.構(gòu)建微博用戶興趣模型的主題模型的分析.計(jì)算機(jī)科學(xué),2013,40(4):127–130,135.

      14 王甜甜,康宇.方差和詞向量用于文本降維的研究.計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(11):29–34.[doi:10.15888/j.cnki.csa.005473]

      猜你喜歡
      文檔社交預(yù)測
      社交之城
      英語世界(2023年6期)2023-06-30 06:28:28
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      有人一聲不吭向你扔了個文檔
      社交距離
      你回避社交,真不是因?yàn)閮?nèi)向
      文苑(2018年17期)2018-11-09 01:29:28
      不必預(yù)測未來,只需把握現(xiàn)在
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      巴南区| 图们市| 伽师县| 东港市| 达尔| 墨脱县| 广平县| 呼图壁县| 牡丹江市| 河曲县| 冕宁县| 图们市| 齐齐哈尔市| 昌图县| 通江县| 大同市| 湄潭县| 尖扎县| 军事| 河北区| 瓦房店市| 盐亭县| 林口县| 弥勒县| 屏东市| 西林县| 紫阳县| 夏津县| 镇康县| 松溪县| 成安县| 余干县| 宝兴县| 衡南县| 龙海市| 金塔县| 肃北| 依安县| 泰宁县| 黄山市| 太谷县|