• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主題的政務微博評論用戶畫像研究

      2022-04-12 03:55:30王志剛邱長波
      情報雜志 2022年3期
      關鍵詞:畫像政務群體

      王志剛 邱長波

      (吉林大學管理學院 長春 130022)

      0 引 言

      隨著服務型政府建設的推進,我國從中央到地方的各級政府都在積極推進電子政務的發(fā)展,實現(xiàn)政府改革。政務微博是政府向公眾提供服務、建立聯(lián)系的重要平臺。政務微博的使用提升了政府的信息受眾面,擴大了政策的社會影響力,還有利于實現(xiàn)政府透明化。對于公民來說,政務微博為公眾發(fā)聲提供了便利的條件,因此公眾的參政意識逐漸提高,對于接觸到的政治問題和社會事件,都會傾向于表達自己觀點和情感。普通用戶作為政務微博公眾參與的主體,對公眾參與效果起到?jīng)Q定性作用,而用戶在參與過程中的行為、表達的觀點等與用戶自身的特征和其他用戶有著緊密的聯(lián)系。因此對參與用戶的評論進行分析,有助于了解用戶特征和用戶行為之間的關系。如能對用戶社群進行分析,綜合考慮每個社群多方面的用戶特征,就能針對不同類型的用戶采取不同的管理策略,從而提高公眾參與效果。

      本文對用戶評論進行主題分析,基于用戶的主題偏好將用戶分為多個群體,并提取出每個用戶群體的典型特征,最終抽象出不同用戶群體的全貌,有助于政府了解不同用戶群體的特征和需求,對決策的制定具有重要意義。

      1 文獻回顧

      1.1政務微博用戶研究目前,對于政務微博用戶的研究,主要為用戶的整體研究,比如用戶行為、用戶情感、用戶滿意度等。有學者基于用戶行為主觀數(shù)據(jù)和客觀數(shù)據(jù),從使用與滿足理論[1]、持續(xù)使用理論[2-3]、技術接受理論[4]、刺激-響應理論[5]的角度構建了模型,研究了公眾參與行為的影響因素,并實現(xiàn)了用戶參與行為的預測。舒華麗和紀雪梅選取了人民網(wǎng)輿情中心發(fā)布的影響力較大的幾個政務微博,分析了不同議題、不同態(tài)度、不同語氣對公眾情感的影響[6-7];石國良通過對微博評論進行內(nèi)容分析,探索網(wǎng)民對于“弱”議題輿論引導的情感取向并分析原因[8];熊杰構建了政務微博評論用戶情緒反應模型,驗證了公眾情緒的影響因素[9]。魏姮清對某事件中相關公安政務微博的評論進行網(wǎng)絡爬蟲和情感時序的分析,用以發(fā)現(xiàn)公安政務微博在應對熱點輿情事件時存在的問題[10]。孫曉燕建立了公眾感知角度的政府形象評價指標體系,選擇4個政務微博作為實驗微博,檢驗了使用政務微博是否對公眾感知政府形象產(chǎn)生影響[11];鄒凱借鑒經(jīng)典顧客滿意度模型,結合政務微博服務的基本特點,構建了政務微博服務公眾滿意度指數(shù)模型,對推進電子政務戰(zhàn)略計劃和重構政府話語權具有重要意義[12]。

      1.2畫像研究用戶畫像是建立在用戶一系列數(shù)據(jù)的目標模型[13],最初常被用于精準營銷[14]。目前學者對畫像的研究可以分為三個流派:用戶畫像行為流派、用戶畫像社交媒體流派和用戶畫像興趣流派[15]。目前,使用用戶的社交媒體數(shù)據(jù)進行畫像研究,已經(jīng)有了較為豐富的成果。劉海鷗圍繞人類動力學研究視角構建了在線社交用戶的輿情畫像模型,對在線社交用戶信息傳播行為特征進行了實證分析,為網(wǎng)絡輿情生態(tài)環(huán)境的完善提供參考[16];徐海玲以“豆瓣”電影為例,分別構建用戶畫像和資源畫像模型,為社交媒體的資源聚合提供新的思路[17];安璐使用基于相關性的LDA主題模型提取微博主題,從用戶特征和文本特征兩個角度構建指標體系,并采用兩步聚類刻畫微博用戶特征,分析發(fā)布微博用戶和評論用戶的異同[18];任中杰提出一種基于微博情感分析和用戶畫像的突發(fā)事件情感預測模型,通過用戶畫像實現(xiàn)了公眾情感傾向性的預測[19];張亞楠抓取了國內(nèi)科研社交平臺科研之友上的科研人員相關科研行為數(shù)據(jù),借助深度學習自動從數(shù)據(jù)中提取高度抽象特征的特點,結合全局信息構建科研人員的立體精準畫像[20]??梢?,用戶畫像可以從用戶的一系列數(shù)據(jù)中提取出群體的典型特征,進而描繪出不同群體的全貌。

      以上的研究也能看出,政務微博參與用戶的研究多為整體研究,但忽略了用戶之間的特征差異,缺乏對用戶社群的特征研究,其成果并不能精準的了解不同群體用戶的需求,而用戶畫像的研究方法可以將用戶進行分類,提取出每個細分群體的典型特征,進而刻畫出不同群體的全貌,可以幫助政府了解到不同群體用戶的需求,從而更加精準的進行決策。

      2 用戶畫像構建流程設計

      用戶畫像的構建涉及到兩個關鍵的過程:首先是實現(xiàn)用戶的分類;其次是采用合理的方法提取出每類用戶的特征,構建用戶畫像。

      目前關于用戶畫像的研究,多采用定性分析實現(xiàn)用戶的分類,通過用戶特征的相似性對個體進行劃分。而在微博平臺上,用戶的興趣對其在社交平臺上的行為具有更大的影響,而評論內(nèi)容往往能體現(xiàn)出用戶感興趣的內(nèi)容。社會認同理論認為,個體會根據(jù)自身認知實現(xiàn)自我分類,認為自己擁有該群體成員的普遍特征,同樣,微博用戶在使用過程中也會認知所處的虛擬網(wǎng)絡并實現(xiàn)自我歸類,這種歸類主要依賴于自身的興趣愛好[21]。本文基于社會認同理論,按照用戶的興趣,即主題偏好,實現(xiàn)用戶的群體分類。相較于其他方法,基于主題的畫像方法可以增強畫像特征的多樣性。

      此外,用戶分類可以采用多維標度法(MDS),相比于聚類分析、關聯(lián)規(guī)則、決策樹、協(xié)同過濾等常用方法[22-23],多維標度法可以通過各種途徑把高維的研究對象轉化成低維情形進行定位、分析和歸類,還能繼續(xù)保留對象間的原始關系。同時也是一種可視化方法,實踐中通常利用2D或3D的MDS結果觀察點的分布和聚集來研究數(shù)據(jù)的性質(zhì)[24-25]。具體地說,多維標度法是以研究對象之間某種親近關系為依據(jù)(如距離、相似系數(shù),親疏程度的分類情況等),合理地將研究對象在低維空間中給出標度或位置,以便全面而又直觀地再現(xiàn)原始各研究對象之間的關系,同時在此基礎上也可按對象點之間距離的遠近實現(xiàn)對樣品的分類。多維標度法能彌補聚類分析、關聯(lián)規(guī)則等方法的不足之處,因為聚類分析、關聯(lián)規(guī)則將相似的樣品歸類,最后得到一個反映樣品親疏關系的譜系圖,雖然比較簡便易行,但是,其缺點是將一些高維的樣品強行納入一個一維的譜系分類中,常常使原始樣品之間的關系簡單化,甚至有時失真。而多維標度法是將幾個高維研究對象,在近似的意義下,從高維約簡到一個較低維的空間內(nèi),并且尋求一個最佳的空間維數(shù)和空間位置而仍保持各研究對象數(shù)據(jù)的原始關系。對于群體用戶的特征提取,可以使用Logistic回歸模型得到自變量和主題偏好之間的關系,通過變量的特殊取值,得到屬于某個群體最大概率的群體特征組合,作為用戶群體的典型特征。

      根據(jù)以上的分析,本研究用戶畫像的流程圖如圖1所示,包括數(shù)據(jù)爬取、數(shù)據(jù)預處理、主題分析、群體分類以及特征提取5個部分。

      圖1 政務微博評論用戶畫像分析流程

      a.數(shù)據(jù)獲取。本研究在用戶畫像的構建過程中,共需要獲取兩類數(shù)據(jù),一類是政務微博的評論內(nèi)容,一類是評論用戶的屬性數(shù)據(jù),包含性別、用戶等級、會員等級、關注數(shù)、粉絲數(shù)、是否認證、總微博數(shù)等屬性。

      b.數(shù)據(jù)預處理。爬取的用戶評論文本數(shù)據(jù)會存在一些對分析沒有用處的字符,所以需要對其進行清洗。首先,去除文本中的 html 字符,這些字符是網(wǎng)頁數(shù)據(jù)所具有的,沒有實際意義;其次,對缺失數(shù)據(jù)、異常數(shù)據(jù)和重復數(shù)據(jù)進行刪除和去重處理,清理后的文本可以作為用戶的偏好標簽集合。

      c.主題偏好標簽。主題提取是自然語言處理中的一種,是采用計算機語言將非結構化的數(shù)據(jù)轉化為結構化數(shù)據(jù)的方法和工具,涉及到分詞、詞性標注、文本分類[26],其中LDA模型最為常用,是一種對于文本內(nèi)容進行分析的方法[27]。LDA主題是基于“文檔-主題-詞”的三層貝葉斯模型,其中主題是一個概念,表現(xiàn)為一系列單詞的條件概率。當使用LDA主題模型挖掘用戶主題偏好時,文檔表示用戶的標簽集合,詞表示用戶的主題偏好標簽,進而得出用戶的主題-偏好標簽的概率分布向量。

      本文使用python的機器學習庫gensim對用戶的標簽集合進行分析,其中主題個數(shù)K由模型困惑度確定(perplexity),困惑值越低,模型的性能越好,確定K值后,可以得到每個用戶的“偏好標簽-主題”,即用戶ui的標簽在各個主題下的概率pj,此時TPi={pi1,pi2,…,pik},其中pik表示第i個用戶對第k個主題的偏好程度。

      d.用戶群體分類。采用多維標度法可以將用戶主題偏好的多維向量數(shù)據(jù)轉化為二維數(shù)據(jù),在二維狀態(tài)下展現(xiàn)出所有用戶之間的相對位置,進而將用戶目標進行分群,并進行下一步的復雜行為分析。

      e.用戶畫像特征提取。微博評論用戶的信息可以分為基本屬性(如性別、身份等)、活躍度屬性(用戶等級、微博數(shù)等)以及其他屬性(關注數(shù)、粉絲數(shù)、是否認證等)。采用Logistic模型可以計算出各屬性變量對因變量的影響程度,通過設定特殊取值來提取出不同對象群體的典型特征。

      3 基于主題的政務微博評論用戶群體分類

      3.1數(shù)據(jù)爬取與預處理本文采用編程的方法,以政務微博“中國警方在線”為例,爬取了前100頁微博,隨后使用鏈接擴散的方式獲取每條微博下面的評論和評論人信息,根據(jù)研究的需要,獲取的屬性包括微博文本(longTextContent)、評論文本(text)、性別(gender)、用戶等級(urank)、關注數(shù)(follow_count)、粉絲數(shù)(followers_count)、是否認證(verified)和微博數(shù)(statuses_count)。經(jīng)過無用字符的去除和異常數(shù)據(jù)的處理后,最終獲取的數(shù)據(jù)包含991條政務微博,以及35 549條評論和評論用戶信息。

      3.2用戶主題偏好標簽挖掘用戶對政務微博的評論內(nèi)容可以直觀的反映出用戶的偏好主題,通過主題挖掘能夠分析出用戶對于主題感興趣的程度。本文采用LDA模型對評論文本進行主題挖掘,過程如下。

      a.整理經(jīng)過預處理之后的評論文本,并且進行分詞和去除停用詞。使用LDA模型挖掘本文主題時,首先應該設定模型參數(shù),最大主題數(shù)設為100,迭代次數(shù)設為5 000次。

      b.LDA模型的最優(yōu)主題個數(shù)可以用困惑度來確定[28],主題數(shù)越多,困惑度越低,但過多的主題數(shù)會導致過擬合,通過困惑度的計算可以得到合適的主題數(shù)。由圖2可以發(fā)現(xiàn),主題數(shù)為9時,分布較為理想。設定主題數(shù)為9,得出每個主題的詞語分布,以及每條評論屬于每個主題的概率。各主題的主要內(nèi)容如表1所示。

      圖2 主題提取困惑度折線圖

      表1 評論文本主題劃分表

      3.3評論用戶的群體分類

      3.3.1 用戶相似度 根據(jù)主題提取的結果,可以獲取每條評論對于9種主題的概率分布,即每條評論用戶偏好主題的9維概率向量。通過計算用戶偏好向量之間的距離,可以得到用戶相似度。計算向量相似度的常用方法有余弦相似度、歐氏距離、曼哈頓距離和皮爾遜相關系數(shù)等,本文采用歐氏距離的方法計算用戶相似度,歐式距離指多維空間中兩點之間的真實距離。計算方法為:

      (1)

      其中,xi、yi分別表示兩個用戶參與第i個主題的概率,d表示點(x1,x2,…,xn)到點(y1,y2,…,yn)之間的距離。d值越小,用戶的主題偏好越相似,d值越大,用戶的主題偏好差異越大。

      3.3.2 基于多維標度法的用戶群體分類 根據(jù)用戶主題偏好之間的距離,使用多維標度法可以將用戶之間的相對位置可視化,具體的分布見圖3,距離越近,表示用戶的興趣主題越相近。

      圖3 用戶興趣偏好的相似度分布

      由MDS運行結果分析可知,經(jīng)過5次迭代后,Stress的值的改進量小于指定值0.001,迭代停止,此時Stress=0.19763;觀察距離的變異中可以由模型解釋的百分比:RSQ=0.85623。表明二維模型對觀察數(shù)據(jù)的擬合非常好,通過多維標度法達到了很好的自動分類效果。由圖3可知,用戶在二維空間上的分布較為集中,大概呈六角形狀,極少的用戶部分相對零散。根據(jù)用戶的相對位置,按照集中程度可以將用戶分為6類,分別為以下區(qū)域:

      R1∈{(pos[,1],pos[,2])|-20≤pos[,1]<-4,2≤pos[,1]<18}

      R2∈{(pos[,1],pos[,2])|-4≤pos[,1]<7,2≤pos[,1]<28}

      R3∈{(pos[,1],pos[,2])|7≤pos[,1]<28,-2≤pos[,1]<9}

      R4∈{(pos[,1],pos[,2])|-28≤pos[,1]<0,-8≤pos[,1]<2}

      R5∈{(pos[,1],pos[,2])|-10≤pos[,1]<2,-28≤pos[,1]<2}

      R6∈{(pos[,1],pos[,2])|2≤pos[,1]<22,-18≤pos[,1]<-5}

      根據(jù)劃分的6類用戶群體,利用重心法找出每類用戶群體的中心點,該點是這類群體中距離所有用戶最近的點,因此最具有代表性,可以通過此用戶來了解群體用戶的主題偏好概率分布(見表2)及用戶所關心的主題內(nèi)容。

      由表2可知,群體1積極參與到明星犯罪事件的討論中,此類娛樂事件更能引起他們的興趣,同時這類用戶對網(wǎng)絡上的謠言也比較關注;群體2比較關注河南省暴雨事件,也對國家英雄進行了討論,比如暴雨事件中的馳援者、以及國家的功勛人物;群體3使用微博的目的是發(fā)表對路面交通狀況、交通安全以及社會法制問題的看法,該群體通常具有較高的自主意識;群體4注重財經(jīng)問題,這類人通常具有較強的專業(yè)性;群體5關注政府的工作問題,會提出自己的建議和看法,起到了很好的監(jiān)督作用;群體6參與了教育類問題,同時也對明星犯罪事件比較關注,主要是明星犯罪對社會有很大的負面影響。

      表2 用戶群體中心點主題偏好概率分布

      4 用戶畫像構建與分析

      4.1基于Logistic的用戶畫像特征提取采用Logistic模型可以計算出各屬性變量對因變量的影響程度,通過設定特殊取值來提取出不同對象群體的典型特征,得到群體用戶畫像。

      本文使用python爬取到評論用戶的信息屬性中用戶性別、是否認證為二分類變量,用戶等級、會員等級、關注數(shù)、粉絲數(shù)和微博數(shù)為連續(xù)變量,認證身份為多分類變量。

      首先對用戶個人屬性進行離散化處理,并對全屬性進行建模分析,系數(shù)顯著性的檢驗結果見表3。

      表3 用戶各屬性系數(shù)的顯著性檢驗結果

      檢驗結果顯示,認證身份這個變量的系數(shù)的顯著性沒有通過檢驗,因此需要剔除。

      對剔除后的變量進行逐步回歸方法構建最終的logistics模型。具體模型見公式2,模型結果見表4。

      表4 多項logistic模型回歸系數(shù)

      (2)

      其中,i,j的取值為1、2、3、4、5、6,分別代表6類不同的用戶群體,并且i≠j。

      根據(jù)回歸模型,可以計算出每類群體對應的估計概率,即屬于某主題的最大概率的用戶特征組合,根據(jù)社會認同理論,該特征組合也是群體中的用戶最能感受到的關鍵特征。計算方法見公式3,結果見表5。

      (3)

      表5 不同屬性組合得到的群體分類最大概率

      4.2用戶畫像分析根據(jù)用戶變量的特殊取值,可以得到用戶群體的典型特征。不同群體用戶的最優(yōu)特征組合見表6。

      表6 不同群體分類最大概率的特征組合

      群體1中,典型用戶往往為女性,關注數(shù)和粉絲數(shù)都不太多,反而微博數(shù)和微博等級較高,可見他們雖然屬于活躍用戶,但并不熱衷于社交。在日常生活中,他們把微博平臺當作一個記錄生活以及發(fā)泄情感的工具,而不是去交流。這類用戶對娛樂、謠言等八卦事件很感興趣,會積極參與到討論當中,提供線索或給出自己的看法。對于這類群體,可以向他們推送關于娛樂犯罪事件的處理進程,滿足他們的興趣偏好,同時他們的積極參與可能會給政府提供更多的建議和線索。

      群體2中,典型用戶往往會關注大量的其他賬號,但粉絲量和微博數(shù)都偏少,這類用戶往往很容易受到別人觀點的影響,喜歡瀏覽別人的微博,并參與到當前的熱點話題(比如河南暴雨事件、國家歷史英雄)中。這類用戶是很好的傳播者,政府發(fā)布的微博信息可能通過這類人群的傳播,讓更多人瀏覽到內(nèi)容信息,加強政務微博的傳播效果。

      群體3中,典型用戶為男性,往往通過了認證,具有一定的身份,并且用戶等級和微博數(shù)都較高,但關注數(shù)和粉絲數(shù)較低。這類用戶通常比較關注交通狀況及法治意識等社會性問題,具有專業(yè)的見解,但影響力較低。這類人群對于政府汲取民意具有重要的作用,向這類用戶推送有關交通路況的內(nèi)容,有助于政策的制定和改善。

      群體4中,典型用戶為男性,往往通過了認證,具有一定的身份,與用群體3不同的是,該類群體擁有較多的粉絲,但其關注數(shù)、微博數(shù)和用戶等級較低,該類用戶對于自己的言行比較謹慎,并不會在微博上隨意發(fā)言,其在微博上的活躍度并不高,所以其關注度、微博數(shù)和用戶等級并不高,但該類用戶在自己的領域通常具有一定的影響力,其觀點具有專業(yè)性,因此會有較多的粉絲想要去獲取信息。這類用戶關注財經(jīng)類的相關話題,他們當中具有較多意見領袖。對于這類群體,政府應該積極的回應,維持輿論場的穩(wěn)定。

      群體5中,典型用戶為女性,往往通過了認證,具有一定的身份,并且有大量的關注數(shù)和粉絲數(shù),說明該類用戶不僅是信息的接收者,同時也是信息的傳遞者。這部分人群比較關注政府的工作內(nèi)容及進度,并且具有很高的傳播性,是政府工作的良好監(jiān)督者,多向該用戶群體推送此類內(nèi)容,有助于政府公信力的改善。

      群體6中,典型用戶比較普通,低關注、低粉絲、低微博、低等級、無認證,這類用戶雖然不活躍,也不具有影響力,但代表了大多數(shù)人群。這類用戶比較關注教育問題以及明星犯罪問題,尤其對近期明星對于青少年的負面引導表示擔憂。這類用戶的關注點通常是當前突發(fā)的社會問題,政府應該啟動緊急應對方案,并及時公布進展。

      5 總結與討論

      本文基于評論用戶的主題偏好進行群體分類。通過LDA主題模型,分析每個用戶對主題的偏好情況,然后采用多維標度法將用戶分為了6個群體并得到每個群體偏好的主題內(nèi)容,最后采用Logistic模型來提取出不同對象群體的典型特征。

      參與政務微博評論的每類群體用戶的主題偏好以及群體特征存在差異,根據(jù)用戶群體特點,政府可以采取針對性的管理和應對策略,有助于提高公眾參與的效果,同時對改善政務微博用戶體驗具有重要的意義。首先,政府可以根據(jù)用戶群體的典型特征,向用戶精準推送相關的主題內(nèi)容,增強政民溝通的效率;其次,對于政府來說,不同特點的用戶群體的評論會發(fā)揮出不同的作用,政府應該采取不同的處理方式,具體如下:a.影響力不高的活躍用戶,可以作為政府的“眼睛”,發(fā)揮群體力量,為政府工作提供線索,加快政府工作進度;同時,他們也是信息傳播的主力人群,政務微博內(nèi)容可以通過該群體獲得更大的輻射范圍。b.高影響力的意見領袖群體,通常具有一定的專業(yè)性,對于自身的言論比較謹慎。因此,此類用戶的評論非常具有參考意義,政府可以根據(jù)他們的意見,來調(diào)整或改進相關政策。c.低影響力、不活躍類型的用戶,雖然個人作用很小,但代表了大多數(shù)普通人。對于這類用戶,政府應該注意收集并統(tǒng)計評論內(nèi)容,了解群眾需求,及時啟動應對方案。

      本文所爬取到的用戶信息仍不完善,缺乏用戶的瀏覽信息、歷史微博信息等,在未來的研究中,可以用更多的用戶信息,構建更為全面、精準的用戶畫像。

      猜你喜歡
      畫像政務群體
      威猛的畫像
      “00后”畫像
      畫像
      通過自然感染獲得群體免疫有多可怕
      科學大眾(2020年10期)2020-07-24 09:14:12
      “群體失語”需要警惕——“為官不言”也是腐敗
      當代陜西(2019年6期)2019-04-17 05:04:02
      政務
      廣東飼料(2016年5期)2016-12-01 03:43:19
      政務
      廣東飼料(2016年3期)2016-12-01 03:43:09
      政務
      廣東飼料(2016年2期)2016-12-01 03:43:04
      政務
      廣東飼料(2016年1期)2016-12-01 03:42:58
      潛行與畫像
      察隅县| 楚雄市| 河池市| 洞口县| 城固县| 虹口区| 铜山县| 阿图什市| 南丹县| 建瓯市| 巫溪县| 葫芦岛市| 庆阳市| 徐汇区| 玉树县| 宁德市| 潮州市| 济宁市| 芦山县| 白水县| 皮山县| 嘉义市| 肇东市| 富阳市| 尉氏县| 通河县| 来安县| 哈尔滨市| 吉林市| 静乐县| 乌拉特后旗| 靖安县| 平阴县| 安福县| 克什克腾旗| 湖州市| 广宗县| 乌苏市| 宜良县| 宾阳县| 宽甸|