• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中文社交媒體用戶性別預(yù)測(cè)研究

    2021-12-01 09:51:27劉雅琦李得志王瑞雪
    知識(shí)管理論壇 2021年4期
    關(guān)鍵詞:語(yǔ)言特征

    劉雅琦 李得志 王瑞雪

    摘要:[目的/意義]與互聯(lián)網(wǎng)的高速發(fā)展不同,個(gè)人信息安全保護(hù)的發(fā)展相對(duì)滯后,通過(guò)預(yù)測(cè)社交媒體用戶的性別,能夠更好地針對(duì)不同性別用戶提供隱私保護(hù)。[方法/過(guò)程]以新浪微博這一社交媒體中用戶發(fā)布的短文本為研究對(duì)象,從中抽取語(yǔ)言特征和主題特征,為每一個(gè)用戶構(gòu)建基于語(yǔ)言特征、主題特征以及兩個(gè)特征疊加的特征表達(dá)向量,利用SVM機(jī)器學(xué)習(xí)算法構(gòu)建性別預(yù)測(cè)的分類器。[結(jié)果/結(jié)論]實(shí)驗(yàn)表明,從微博短文本中抽取的語(yǔ)言特征和主題特征能夠準(zhǔn)確預(yù)測(cè)用戶性別,其效果在主要評(píng)價(jià)指標(biāo)中均有大幅提升。

    關(guān)鍵詞:短文本? ? 性別預(yù)測(cè)? ? 主題特征? ? 語(yǔ)言特征

    分類號(hào):TP391.1

    引用格式:劉雅琦, 李得志, 王瑞雪. 中文社交媒體用戶性別預(yù)測(cè)研究: 以新浪微博短文本內(nèi)容為例[J/OL]. 知識(shí)管理論壇, 2021, 6(4): 213-227[引用日期]. http://www.kmf.ac.cn/p/255/.

    1? 引言

    隨著互聯(lián)網(wǎng)的深入發(fā)展,近年來(lái)信息安全逐步得到了人們的重視,中共中央成立了中央網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組,“沒(méi)有信息安全就沒(méi)有國(guó)家安全”的理念深入人心。但現(xiàn)階段,對(duì)信息商業(yè)價(jià)值的利用仍遠(yuǎn)遠(yuǎn)超過(guò)了對(duì)信息隱私安全的保護(hù),信息的隱私保護(hù)依然處于相對(duì)滯后的狀態(tài);公共部門信息資源增值利用中,個(gè)人信息還存在著信息授權(quán)、利益平衡、法律救濟(jì)和監(jiān)管多方面的風(fēng)險(xiǎn)[1]?,F(xiàn)有的法律體系中,雖然有大量的法律法規(guī)對(duì)個(gè)人信息保護(hù)提出立法,但在實(shí)際過(guò)程中,法律法規(guī)起到的保護(hù)作用有限,個(gè)人信息的保護(hù)還存在一些障礙[2]。

    社交媒體持續(xù)發(fā)展,用戶數(shù)量不斷壯大。一方面社交媒體的發(fā)展為用戶提供了方便快捷的信息獲取方式;另一方面由于社交媒體的使用者門檻較低,社交網(wǎng)絡(luò)的開(kāi)放性、共享性與連通性的特點(diǎn)[3],使得用戶的個(gè)人信息容易受到侵犯。為保護(hù)個(gè)人信息安全,部分用戶在進(jìn)行注冊(cè)時(shí)會(huì)選擇不填或虛假填寫自己的性別[4],而相關(guān)研究表明女性用戶對(duì)信息層面因素敏感,更易受影響[5],相較而言更容易透露自己的隱私信息[6]。因此需要基于用戶的性別提供服務(wù),對(duì)用戶進(jìn)行適當(dāng)?shù)男畔⒈Wo(hù),使用戶免受互聯(lián)網(wǎng)中大量垃圾信息的傷害,如不對(duì)女性群體進(jìn)行暴力內(nèi)容的推送等。與此同時(shí),用戶的性別信息也是用戶畫像的重要組成部分,準(zhǔn)確的用戶畫像可以為企業(yè)營(yíng)銷、廣告投放、內(nèi)容推薦提供便利[7];用戶也可以從中獲得個(gè)性化推薦內(nèi)容,減少信息搜尋的時(shí)間,提高使用社交媒體的滿意度。

    近年來(lái),用戶畫像相關(guān)的測(cè)評(píng)比賽也廣泛興起,例如名為PAN的學(xué)者群體舉辦了6屆作者特征提取測(cè)評(píng)和1屆僵尸用戶與用戶性別測(cè)評(píng)[8],由中國(guó)中文信息學(xué)會(huì)社會(huì)媒體處理專委會(huì)主辦的全國(guó)社會(huì)媒體處理大會(huì)(SMP)于2016-2018年連續(xù)三年組織了相關(guān)的用戶畫像比賽[9]。相關(guān)測(cè)評(píng)比賽中,性別預(yù)測(cè)是重要的子任務(wù),是用戶畫像的核心內(nèi)容之一,也是其他應(yīng)用的基礎(chǔ)[10]。之所以要進(jìn)行社交媒體用戶的性別預(yù)測(cè),是因?yàn)橛脩粼谶M(jìn)行注冊(cè)時(shí)會(huì)忽略性別、興趣等相關(guān)信息[11-12]。

    本文以新浪微博這一社交媒體平臺(tái)中的用戶信息為研究對(duì)象,利用不同性別用戶語(yǔ)言表達(dá)和興趣偏好上的差異預(yù)測(cè)用戶性別。在社交網(wǎng)絡(luò)中,男性和女性用戶使用的語(yǔ)言以及興趣愛(ài)好具有差異,A. H. Schwartz等[13]從75 000名志愿者的Facebook消息中收集了7億個(gè)單詞、短語(yǔ)和主題實(shí)例,對(duì)其分析顯示,不同性別的用戶使用的語(yǔ)言有很大的不同,語(yǔ)言和性別以及年齡之間有著比較大的關(guān)聯(lián);M. Vicente等[14]對(duì)65 000名英語(yǔ)用戶的用戶名、用戶描述、圖片和發(fā)送的推特內(nèi)容進(jìn)行分析,發(fā)現(xiàn)性別對(duì)用戶的語(yǔ)言使用有影響,從而實(shí)現(xiàn)對(duì)用戶性別的預(yù)測(cè)。因此,用戶發(fā)布的社交媒體內(nèi)容與性別相關(guān)聯(lián),呈現(xiàn)出差異化的特點(diǎn)。在此基礎(chǔ)上,本文通過(guò)分析不同性別用戶在發(fā)送社交媒體短文本時(shí)的差異,提取相關(guān)的語(yǔ)言特征和主題特征,構(gòu)建模型進(jìn)行用戶性別的預(yù)測(cè)。

    2? 相關(guān)研究

    2.1? 基于圖像的性別預(yù)測(cè)

    基于圖像的性別預(yù)測(cè)是通過(guò)分析用戶的面部特征進(jìn)行預(yù)測(cè)。目前,基于圖像的用戶性別預(yù)測(cè)主要使用的是傳統(tǒng)圖像分類方法,即通過(guò)模型提取圖像中的人臉特征,再利用分類算法進(jìn)行預(yù)測(cè)。常用于提取人臉特征的模型有BIF(Bio-inspired Features)[15-16]、主動(dòng)外觀模型(Active Appearance Model, AAM)[17]、局部紋理特征(Local Binary Pattern, LBP)[18-19]等。完成人臉特征提取后,利用不同的算法進(jìn)行分類,常使用的算法有k-近鄰[18]、SVM算法[19]、AdaBoost算法[20]等。近些年,隨著深度學(xué)習(xí)在圖像識(shí)別上的發(fā)展,各種神經(jīng)網(wǎng)絡(luò)算法[21-22]在基于圖像的性別預(yù)測(cè)研究中取得了不錯(cuò)的效果。

    2.2? 基于用戶信息的性別預(yù)測(cè)

    在社交網(wǎng)絡(luò)中,基于用戶信息的性別預(yù)測(cè)主要分為兩類,一類是基于用戶的公開(kāi)信息進(jìn)行預(yù)測(cè),另一類為基于用戶發(fā)表的短文本內(nèi)容進(jìn)行預(yù)測(cè)。

    2.2.1? 基于用戶公開(kāi)信息的性別預(yù)測(cè)

    基于用戶公開(kāi)信息的性別預(yù)測(cè)利用用戶的賬戶名稱、個(gè)人描述、個(gè)人主頁(yè)設(shè)置、標(biāo)簽等信息,如J. D. Burger等[23]使用Twitter用戶的賬戶名稱、個(gè)人描述等用戶公開(kāi)信息預(yù)測(cè)用戶的性別,最高可達(dá)92%的準(zhǔn)確率;J. S. Alowibdi等[24]提取了用戶在Twitter上5個(gè)不同位置設(shè)置的顏色:個(gè)人資料背景顏色、文字顏色、鏈接顏色、邊框填充顏色以及界面邊框顏色做為特征預(yù)測(cè)用戶的性別,在不同數(shù)據(jù)集大小的實(shí)驗(yàn)中基本都能達(dá)到70%左右的準(zhǔn)確率。社交媒體中存在大量緘默用戶,其特點(diǎn)為很少發(fā)表內(nèi)容、微博標(biāo)簽較少,因此準(zhǔn)確預(yù)測(cè)較難,錢鐵云等[25]利用微博用戶個(gè)人資料中的標(biāo)簽信息,對(duì)緘默用戶進(jìn)行性別預(yù)測(cè),達(dá)到了71%的準(zhǔn)確率。

    當(dāng)用戶的公開(kāi)信息特征與訓(xùn)練樣本的特征之間差異較大時(shí),基于用戶公開(kāi)信息的性別預(yù)測(cè)方法的準(zhǔn)確率會(huì)降低;同時(shí)用戶公開(kāi)信息量較少也會(huì)影響預(yù)測(cè)結(jié)果,例如用戶昵稱簡(jiǎn)短、沒(méi)有個(gè)人描述等。此外,用戶出于個(gè)人信息隱私保護(hù)的原因,在個(gè)人主頁(yè)設(shè)置中選擇不公開(kāi)個(gè)人信息,將會(huì)使預(yù)測(cè)準(zhǔn)確率大幅下降。

    2.2.2? 基于內(nèi)容的性別預(yù)測(cè)

    文本內(nèi)容可根據(jù)長(zhǎng)度不同分為短文本與長(zhǎng)文本,社交媒體的文本主要為短文本,包括原創(chuàng)文本、轉(zhuǎn)發(fā)文本以及評(píng)論文本三種類型。S. Li等[26]提出了一種整數(shù)線性規(guī)劃方法(Integer Linear Programming),利用用戶原創(chuàng)及轉(zhuǎn)發(fā)文本中的評(píng)論交互文本預(yù)測(cè)用戶性別;戴斌等[27]利用半監(jiān)督學(xué)習(xí)的方法實(shí)現(xiàn)了基于短文本內(nèi)容的用戶性別預(yù)測(cè),達(dá)到了84.3%的準(zhǔn)確率,解決了監(jiān)督學(xué)習(xí)方法需要人工標(biāo)注樣本的障礙;N. Cheng等[28]從Twitter文本中抽取了用戶語(yǔ)言的心理語(yǔ)言學(xué)特征用于構(gòu)建特征空間進(jìn)行用戶性別預(yù)測(cè),達(dá)到了85.13%的準(zhǔn)確率;J. A. B. L. Filho等[29]把用戶發(fā)送的Twitter文本中的字詞個(gè)數(shù)、標(biāo)點(diǎn)符號(hào)等作為文本元屬性,進(jìn)行用戶性別預(yù)測(cè),其準(zhǔn)確率達(dá)到了81.6%;Q. Wang等[30]對(duì)比了文本表示方法VSM(Vector space model)與主題模型LDA(Latent Dirichlet allocation)、LSA(Latent semantic analysis)預(yù)測(cè)中文社交媒體中的用戶性別、地域和年齡相關(guān)的人口統(tǒng)計(jì)學(xué)信息的效果,主題模型LSA在性別預(yù)測(cè)上效果表現(xiàn)最好,準(zhǔn)確率達(dá)到87.2%,但相較于LDA與VSM效果提升也比較有限。

    n元語(yǔ)法模型是自然語(yǔ)言處理中常用的模型,在性別預(yù)測(cè)領(lǐng)域有大量的研究以此為基礎(chǔ)進(jìn)行短文本分析,進(jìn)而預(yù)測(cè)用戶性別,例如C. Peersman等[31]使用n元語(yǔ)法模型并用卡方檢驗(yàn)進(jìn)行特征選擇,利用構(gòu)造的特征向量進(jìn)行用戶性別和年齡的預(yù)測(cè);王晶晶等[32]在n元語(yǔ)法特征的基礎(chǔ)上加上了首尾特征,使用用戶的姓名和微博內(nèi)容對(duì)性別進(jìn)行預(yù)測(cè),當(dāng)用戶樣本足夠大時(shí),將基于用戶姓名的分類器和基于微博內(nèi)容的分類器融合之后能達(dá)到90%的準(zhǔn)確率;Z. Miller等[33]使用n元語(yǔ)法特征結(jié)合貝葉斯算法來(lái)預(yù)測(cè)用戶的性別,其使用了6種特征選擇方法,最高可以達(dá)到97%的準(zhǔn)確率;D. Rao等[34]抽取了用戶的社會(huì)語(yǔ)言特征并與n元語(yǔ)法特征結(jié)合對(duì)Twitter用戶的性別、年齡、地域和政治傾向進(jìn)行了預(yù)測(cè),對(duì)性別的預(yù)測(cè)準(zhǔn)確率為72%。

    基于內(nèi)容的性別預(yù)測(cè)方法對(duì)文本內(nèi)容量的需求較高,社交網(wǎng)絡(luò)中用戶發(fā)送的文本多以短文本為主,當(dāng)用戶發(fā)送的內(nèi)容較少時(shí),僅憑借少量的文本內(nèi)容很難準(zhǔn)確預(yù)測(cè)用戶的性別,這要求進(jìn)行性別預(yù)測(cè)時(shí)所選取的文本特征既要體現(xiàn)出性別差異,也要有足夠大的使用率。當(dāng)數(shù)據(jù)量不足時(shí)會(huì)出現(xiàn)構(gòu)建的分類器屬性稀疏等問(wèn)題,導(dǎo)致性別預(yù)測(cè)的準(zhǔn)確率下降。

    3? 實(shí)驗(yàn)數(shù)據(jù)與預(yù)處理

    本文使用中文社交媒體平臺(tái)新浪微博的用戶數(shù)據(jù),數(shù)據(jù)集來(lái)源于“SMP CUP2016微博用戶畫像”比賽[35]。數(shù)據(jù)集中一共包含三類信息:

    (1)社交關(guān)系信息。包含一個(gè)約256.7萬(wàn)名微博用戶構(gòu)成的社交網(wǎng)絡(luò),其中的社交關(guān)系可能是單向的(即單向關(guān)注,即為粉絲關(guān)系)或雙向的(即互相關(guān)注,即為好友關(guān)系)。

    (2)用戶微博信息。包含約4.6萬(wàn)名用戶的微博文本內(nèi)容,這些用戶都屬于上述社交網(wǎng)絡(luò)。

    (3)用戶標(biāo)簽信息。包含約0.5萬(wàn)名用戶的年齡、性別及地域標(biāo)簽,均屬于上述4.6萬(wàn)名用戶。

    三類信息的關(guān)系如圖1所示:

    本文是基于短文本內(nèi)容的用戶性別研究,最終選擇了“SMP CUP2016微博用戶畫像”比賽數(shù)據(jù)集中的用戶標(biāo)簽信息及其對(duì)應(yīng)的用戶微博信息作為本研究的初始數(shù)據(jù)集,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理工作。

    數(shù)據(jù)預(yù)處理分為以下3個(gè)步驟:

    (1)剔除與分析無(wú)關(guān)的噪聲數(shù)據(jù)。用戶微博信息中存在網(wǎng)頁(yè)鏈接、字符亂碼等噪聲數(shù)據(jù),這部分?jǐn)?shù)據(jù)既不能還原用戶的語(yǔ)言表達(dá)意圖,也不能用于性別預(yù)測(cè)的特征提取,因此將其剔除。

    (2)剔除缺失數(shù)據(jù)。將缺失性別標(biāo)簽及微博信息少于5條的用戶標(biāo)簽信息剔除,缺失性別信息的數(shù)據(jù)無(wú)法用于性別預(yù)測(cè)實(shí)驗(yàn),而微博信息過(guò)少也難以提取有效特征,導(dǎo)致性別預(yù)測(cè)效果差的結(jié)果。

    (3)對(duì)微博信息中的短文本內(nèi)容進(jìn)行分詞,本研究采用NLPIR漢語(yǔ)分詞系統(tǒng)進(jìn)行分詞處理,并保留標(biāo)點(diǎn)符號(hào)等原始信息。

    經(jīng)過(guò)處理后的數(shù)據(jù)集包含4 342個(gè)用戶及其發(fā)送的微博短文本331 634條,用于實(shí)驗(yàn)?zāi)P偷挠?xùn)練與檢驗(yàn)。

    4? 實(shí)驗(yàn)構(gòu)建與特征抽取

    4.1? 實(shí)驗(yàn)構(gòu)建

    本研究的輸入為微博短文本,通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析,利用數(shù)據(jù)特征進(jìn)行建模,訓(xùn)練相關(guān)算法,進(jìn)而對(duì)微博用戶的性別進(jìn)行預(yù)測(cè)。對(duì)性別預(yù)測(cè)的結(jié)果,通過(guò)相應(yīng)評(píng)測(cè)指標(biāo)的評(píng)價(jià),對(duì)算法的效果進(jìn)行評(píng)估。實(shí)驗(yàn)的一般流程如圖2所示:

    4.2? 特征抽取

    根據(jù)特征抽取方式的不同,可以獲得微博短文本內(nèi)容的兩類不同特征,分別為語(yǔ)言特征和主題特征。

    4.2.1? 語(yǔ)言特征

    N. Cheng[28]、D. Rao[34]在使用Twitter數(shù)據(jù)進(jìn)行用戶性別預(yù)測(cè)時(shí)采納的語(yǔ)言特征如表1所示,考慮到中文文本與Twitter用戶使用語(yǔ)言的差別,在此基礎(chǔ)上,本研究總結(jié)了7個(gè)可從微博短文本中提取的語(yǔ)言特征類別,分別為:①表情:微博中用戶使用的表情;②情感詞語(yǔ):積極、消極、焦慮、憤怒等情感詞的總稱;③語(yǔ)氣詞:“哈哈”“恩恩”等描述語(yǔ)氣的詞;④親屬稱呼:“媽媽”“父母”“兄弟姐妹”等稱呼;⑤標(biāo)點(diǎn)符號(hào):包括各種重復(fù)使用的標(biāo)點(diǎn),如“?。?!”;⑥代詞:“你”“你的”等;⑦禁語(yǔ):指在用戶文本中出現(xiàn)的不文明語(yǔ)言。

    本文通過(guò)以下方式獲取語(yǔ)言特征:

    (1)表情。微博短文本中表情以“[具體表情]”的格式體現(xiàn)(例如:[微笑]),可使用正則表達(dá)式從文中抓取每一個(gè)用戶使用的表情,對(duì)每一個(gè)用戶的所有表情取并集獲得表情全集。

    (2)情感詞。對(duì)于情感詞語(yǔ)語(yǔ)言特征可使用NTUSD情感詞典與原文進(jìn)行匹配,獲取用戶使用的情感詞語(yǔ),對(duì)每一個(gè)用戶的所有情感詞語(yǔ)取并集獲得情感詞語(yǔ)全集。

    (3)語(yǔ)氣詞、親屬稱呼、標(biāo)點(diǎn)符號(hào)、代詞、禁語(yǔ)。由于該類詞語(yǔ)的數(shù)量相對(duì)而言比較少,可以直接通過(guò)對(duì)部分用戶的微博短文本進(jìn)行標(biāo)記,找出相關(guān)的詞語(yǔ)。但考慮到人工標(biāo)記不全的問(wèn)題,本文嘗試?yán)梦谋鞠蛄炕蟮挠嘞揖嚯x,選擇相似的詞作為該類詞語(yǔ)的補(bǔ)充,具體而言:使用Word2Vec對(duì)分詞后的微博短文本進(jìn)行計(jì)算,獲得每個(gè)詞的詞向量;針對(duì)人工標(biāo)記出的語(yǔ)氣詞、親屬稱呼、代詞、禁語(yǔ),計(jì)算這些詞語(yǔ)與語(yǔ)料庫(kù)中詞語(yǔ)的相似度,根據(jù)相似度排序篩選出同類別的詞作為補(bǔ)充最高的詞。

    對(duì)于短文本中出現(xiàn)的詞語(yǔ)t,使用公式(1)統(tǒng)計(jì)性別i使用詞語(yǔ)t的人數(shù)占該性別總?cè)藬?shù)的比例,式中n(i,t)表示性別i的用戶中使用了t詞語(yǔ)的人數(shù),n(i)表示性別i的用戶總?cè)藬?shù)。

    公式(1)

    通過(guò)對(duì)7個(gè)類別詞語(yǔ)在不同性別用戶中的使用比例,發(fā)現(xiàn)男性和女性使用標(biāo)點(diǎn)符號(hào)和代詞類別詞語(yǔ)的比例相近,因而不選擇這兩類詞作為語(yǔ)言特征。

    對(duì)表情、情感詞語(yǔ)、語(yǔ)氣詞、親屬稱呼和禁語(yǔ)這5個(gè)類別的詞語(yǔ)分析,男女使用比例最高的10個(gè)詞語(yǔ)的如圖3-圖7所示。橫坐標(biāo)代表某個(gè)詞語(yǔ),縱坐標(biāo)為使用比例。從中可以看出:女性相比男性,使用表情的比例更大;情感詞語(yǔ)中不同詞語(yǔ)的使用情況不同;親屬稱呼和語(yǔ)氣詞中,個(gè)別詞語(yǔ)男性使用的比例更大,總體上女性更偏向使用該類詞語(yǔ);禁語(yǔ)總體使用比例較小,但男性比女性更傾向使用這類詞語(yǔ)。

    對(duì)于表情和情感詞語(yǔ)這兩個(gè)特征,本研究使用卡方檢驗(yàn)(chi-square test)進(jìn)行篩選詞語(yǔ)用于特征構(gòu)建。對(duì)詞語(yǔ)t,統(tǒng)計(jì)不同性別使用該詞語(yǔ)的情況如表2所示:

    詞語(yǔ)t的卡方值χ2可由公式(2)計(jì)算得,卡方值越大說(shuō)明該詞語(yǔ)與性別的相關(guān)度越大,因此各選擇卡方值最大的100個(gè)詞語(yǔ)構(gòu)成表情和情感詞語(yǔ)的語(yǔ)言特征。

    對(duì)于語(yǔ)氣詞、親屬稱呼和禁語(yǔ)這三個(gè)語(yǔ)言特征,由于在特征詞篩選的過(guò)程中篩選的詞較少,本文不采用上述的卡方檢驗(yàn)的方案選取特征,而是將這三個(gè)類別的全部詞語(yǔ)共計(jì)75個(gè)用于語(yǔ)言特征的構(gòu)造。

    以上5個(gè)類別共選取了275個(gè)詞語(yǔ)用于構(gòu)成微博短文本內(nèi)容的語(yǔ)言特征。對(duì)于第i個(gè)用戶,統(tǒng)計(jì)該用戶使用詞語(yǔ)t的頻次tin,構(gòu)建語(yǔ)言特征向量Xi,其計(jì)算公式為:

    Xi=(ti1,ti2,ti3,…,tin)? ? ? ? ? ? ? ? 公式(3)

    4.2.2? 主題特征

    不同性別用戶的興趣愛(ài)好不同會(huì)導(dǎo)致發(fā)送微博文本的主題不同,因此可以運(yùn)用LDA(Latent Dirichlet Allocation)模型對(duì)用戶微博短文本的主題抽取,構(gòu)建主題特征用于預(yù)測(cè)用戶性別。LDA是一種基于詞袋模型的無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法,可以用來(lái)識(shí)別大規(guī)模文檔集中潛藏的主題信息,同時(shí)也能有效對(duì)文本內(nèi)容降維,解決數(shù)據(jù)稀疏問(wèn)題。

    LDA模型將語(yǔ)料庫(kù)中的每一篇文檔與K個(gè)主題的多項(xiàng)式分布記為θ,每個(gè)主題與詞匯表中的N個(gè)單詞的多項(xiàng)式分布記為 ?。θ和?分別有一個(gè)帶有超參數(shù)α和β的Dirichlet先驗(yàn)分布。對(duì)于一篇文檔d中的每一個(gè)單詞wi,P(zi=k)代表從文檔中抽取一個(gè)單詞wi,P(wi|zi=k)屬于主題z的概率;從主題z中抽取一個(gè)單詞,代表當(dāng)取出單詞屬于主題k時(shí)該單詞為wi的概率。將這個(gè)過(guò)程重復(fù)Nd次(Nd是文檔d的單詞總數(shù)),就產(chǎn)生了文檔d。文檔中單詞wi的概率就能表示為:

    公式(4)

    在本研究中,將每名用戶發(fā)布的所有短文本內(nèi)容構(gòu)成第i個(gè)用戶的文檔Di,那么可認(rèn)為文檔Di的主題分布向量(zi1, zi2, zi3, …, zik)可認(rèn)為構(gòu)成了第i個(gè)用戶的主題分布向量。

    Yi=(zi1, zi2, zi3, …, zik)? ? ? ? ? ?公式(5)

    本文在LDA模型訓(xùn)練的過(guò)程中使用困惑度確定模型最佳K值,實(shí)驗(yàn)過(guò)程中,Gibbs抽樣迭代的次數(shù)設(shè)為100,α、β超參數(shù)設(shè)置為α=50/K,β=0.01,此時(shí)算法有較好的表現(xiàn)[37]。在K值提升的過(guò)程中,困惑度的下降有限,圖8展示的是K值與困惑度的關(guān)系,結(jié)合不同K值的困惑度和最終產(chǎn)出主題的詞語(yǔ),本文使用K值為15時(shí)產(chǎn)出的模型結(jié)果。表3展示的是15個(gè)主題中排序前10的詞語(yǔ)。

    5? 實(shí)驗(yàn)結(jié)果與分析

    5.1? 評(píng)價(jià)方法

    研究選用精準(zhǔn)率(Precision)、召回率(Recall)和F值(F-Measure)作為評(píng)價(jià)指標(biāo)來(lái)對(duì)實(shí)驗(yàn)的結(jié)果進(jìn)行比較評(píng)價(jià)。三種指標(biāo)的計(jì)算方式如下:

    ;? ? ? ? ? ? 公式(6)

    ;? ? ? ? ? ? ?公式(7)

    公式(8)

    以女性性別為例,TP表示將性別預(yù)測(cè)正確的數(shù)量;FN表示將正確的女性預(yù)測(cè)為男性的數(shù)量;FP表示將正確的男性預(yù)測(cè)為女性的數(shù)量。

    5.2? 模型訓(xùn)練

    5.2.1? 訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)

    數(shù)據(jù)預(yù)處理得到的4 342名用戶中男性和女性的數(shù)據(jù)比例不一致,為更好地進(jìn)行試驗(yàn),隨機(jī)選擇2 110名用戶按照1:1的性別比例構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,2 110名用戶共發(fā)表微博156 627篇。其中1 560名用戶用于模型的訓(xùn)練(男女性別比例為1:1),550名用戶用于模型效果的檢驗(yàn)(男女性別比例為1:1)。

    在模型訓(xùn)練階段,1 560名用戶采用5折交叉檢驗(yàn)的方法進(jìn)行模型訓(xùn)練,保證數(shù)據(jù)的充分利用與模型訓(xùn)練的準(zhǔn)確。

    5.2.2? 模型的參數(shù)調(diào)優(yōu)

    將抽取的用戶語(yǔ)言特征與主題特征組合成為新的特征向量進(jìn)行實(shí)驗(yàn),獲取最佳的性別預(yù)測(cè)結(jié)果。

    Mi=(Xi+Yi)=(ti1, ti2, ti3, …, tin, zi1, zi2, zi3, …, zik)

    公式(9)

    本研究采用的是支持向量機(jī)(Support Vector Machine, SVM)這一基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法。支持向量機(jī)通過(guò)核函數(shù)解決計(jì)算復(fù)雜度的問(wèn)題,除重要的參數(shù)cost外,還有四種不同的核函數(shù),分別為線性(Linear)核函數(shù)、徑向基(radial basis function, RBF)核函數(shù)、sigmoid核函數(shù)和多項(xiàng)式(Polynomial)核函數(shù),每一種核函數(shù)有不同數(shù)量的參數(shù)。本文使用LIBSVM這一軟件包實(shí)現(xiàn)對(duì)用戶性別的預(yù)測(cè),通過(guò)選定不同的核函數(shù)、控制相關(guān)變量對(duì)核函數(shù)進(jìn)行參數(shù)訓(xùn)練,從而獲得最優(yōu)的預(yù)測(cè)效果。

    對(duì)于線性核函數(shù)只需訓(xùn)練參數(shù)cost。為了使cost值盡量覆蓋更多的值,本文使用指數(shù)函數(shù)規(guī)定cost的選取范圍,其取值范圍為2–10至25。最終結(jié)果顯示當(dāng)cost=1/32時(shí)在評(píng)價(jià)指標(biāo)上表現(xiàn)最好,有較好的預(yù)測(cè)效果。圖9展示了不同cost取值時(shí)的預(yù)測(cè)效果,可以看出當(dāng)cost值較小或者較大的時(shí)候,預(yù)測(cè)的效果都不夠好,這是因?yàn)椋琧ost值越高越容易過(guò)擬合,cost值越小越容易欠擬合。

    徑向基核函數(shù)有g(shù)amma參數(shù)以及cost參數(shù),本研究使用GridSearch網(wǎng)格搜索的方式確定最佳參數(shù),gamma以及cost的變化范圍都是從2–10至25。當(dāng)cost=32,gamma=1/128時(shí)預(yù)測(cè)結(jié)果最佳。gamma是RBF函數(shù)中自帶的一個(gè)參數(shù),一定程度上決定了數(shù)據(jù)映射到新的特征空間后的分布,gamma值越大支持向量越少,gamma值越小支持向量越多,支持向量的個(gè)數(shù)影響模型訓(xùn)練的速度和準(zhǔn)確度。圖10展示的是固定cost值為1,改變模型gamma的值,在測(cè)試集中進(jìn)行分類的結(jié)果,從中可以看到,當(dāng)gamma大于1的時(shí)候預(yù)測(cè)的準(zhǔn)確率很低。

    sigmoid核函數(shù)有cost、gamma和coef0三種參數(shù),本研究分兩步進(jìn)行參數(shù)調(diào)優(yōu):①將cost設(shè)為默認(rèn)值1,使用GridSearch網(wǎng)格搜索確定gamma以及coef0的值,其中g(shù)amma和coef0的取值范圍定為2–10至25;②使用第一步訓(xùn)練出的gamma以及coef0值,將cost的范圍設(shè)定為2–10至25進(jìn)行訓(xùn)練。最終得到當(dāng)cost=32,coef0=8,gamma=1/16時(shí)模型的預(yù)測(cè)效果最佳。圖11展示的是固定cost值與gamma值,改變模型中coef0的值對(duì)測(cè)試集的預(yù)測(cè)效果,當(dāng)coef0的值超過(guò)某個(gè)值后,其預(yù)測(cè)效果將大幅下滑,通常情況下coef0的值越大,預(yù)測(cè)結(jié)果越差。

    多項(xiàng)式核函數(shù)有cost、gamma、coef0和degree 4種參數(shù),其中degree參數(shù)最為關(guān)鍵。本文分3個(gè)步驟來(lái)確定最佳參數(shù):①將cost,gamma,coef0設(shè)定成為默認(rèn)值,將degree范圍設(shè)定為0至19進(jìn)行訓(xùn)練,得到最佳degree值為1;②將cost設(shè)置為默認(rèn)值,degree設(shè)置為最優(yōu)參數(shù)1,使用GridSearch網(wǎng)格搜索法使gamma及coef0在2–10至25取值范圍內(nèi)變化,得到最佳的gamma=1/4, coef0=16的值;③degree=1,gamma=1/4,coef0=16設(shè)為固定參數(shù),將cost取值在2–10至25訓(xùn)練,最終確定的最優(yōu)參數(shù)為degree=1, gamma=1/4,coef0=16,cost=16時(shí)模型的預(yù)測(cè)效果最佳。圖12展示的是改變模型中degree的值,對(duì)測(cè)試集進(jìn)行預(yù)測(cè)的效果,其中degree的變化范圍從0到19,隨著degree值越來(lái)越大,預(yù)測(cè)效果越來(lái)越差,當(dāng)degree超過(guò)15后預(yù)測(cè)結(jié)果幾乎沒(méi)有任何改變。

    針對(duì)在測(cè)試集的預(yù)測(cè)結(jié)果,選取4種不同核函數(shù)效果最優(yōu)的參數(shù)進(jìn)行橫向比較,可以看出sigmoid核函數(shù)的表現(xiàn)最差,在三個(gè)指標(biāo)中均未達(dá)到80%;徑向基核函數(shù)的預(yù)測(cè)效果最好,在三個(gè)評(píng)測(cè)指標(biāo)中都比其他核函數(shù)表現(xiàn)更好。因此將選擇參數(shù)為cost=32,gamma=1/128的徑向基核函數(shù)作為預(yù)測(cè)模型,用于實(shí)驗(yàn)數(shù)據(jù)的預(yù)測(cè)。

    5.3? 結(jié)果比較

    5.3.1? baseline選擇

    基于n元語(yǔ)法模型的性別預(yù)測(cè)方法[31-34]和基于心理語(yǔ)言學(xué)詞典的性別預(yù)測(cè)方法[38]都是利用用戶的微博文本內(nèi)容進(jìn)行性別預(yù)測(cè)的自然語(yǔ)言處理方法,在針對(duì)社交媒體中用戶的性別預(yù)測(cè)有較好的效果。本文選擇這兩種方法作為baseline進(jìn)行比較。

    在n元語(yǔ)法模型中,通過(guò)抽取500個(gè)最具有區(qū)分性的一元和二元詞,統(tǒng)計(jì)每名用戶的使用頻率作為權(quán)重構(gòu)建用戶的特征向量;針對(duì)基于心理語(yǔ)言學(xué)詞典的用戶特征向量,使用文心(TextMind)中文心理分析系統(tǒng)[39]構(gòu)建,對(duì)用戶發(fā)文的內(nèi)容進(jìn)行統(tǒng)計(jì),提取102個(gè)特征,包括各種詞性詞語(yǔ)使用的數(shù)量、詞長(zhǎng)比例、情感詞數(shù)量等。

    5.3.2? 結(jié)果對(duì)比

    將實(shí)驗(yàn)數(shù)據(jù)應(yīng)用于訓(xùn)練所得的最優(yōu)模型,如圖13所示,本文提出的主題特征、語(yǔ)言特征構(gòu)建及兩種特征融合構(gòu)建的性別預(yù)測(cè)模型的精準(zhǔn)率、召回率和F值指標(biāo)均比選擇的baseline有所提升,特別是與心理語(yǔ)言學(xué)詞典相比,提升較大,本研究表現(xiàn)最差的主題特征在該指標(biāo)上都提升了14.3個(gè)百分點(diǎn)。

    基于n元語(yǔ)法模型的性別預(yù)測(cè)效果不顯著,精準(zhǔn)率、召回率和F值都未達(dá)到70%,其中F值表現(xiàn)最好,為69.3%。通過(guò)分析可知,n元語(yǔ)法模型雖然抽取了500個(gè)特征進(jìn)行特征向量的降維,但構(gòu)造的特征向量依然較為稀疏。表5展示了針對(duì)同一用戶使用n元語(yǔ)法模型和語(yǔ)言特征構(gòu)造的向量。由于n元語(yǔ)法模型是針對(duì)所有的一元和二元詞匯進(jìn)行的特征選擇,這些詞語(yǔ)數(shù)量較多,造成向量稀疏。而本文構(gòu)建語(yǔ)言特征時(shí)選擇的詞語(yǔ),通過(guò)對(duì)用戶使用頻率的統(tǒng)計(jì)有效避免了稀疏問(wèn)題。

    心理語(yǔ)言學(xué)詞典方法的精準(zhǔn)率雖然達(dá)到了72.6%,但召回率只有60%。通過(guò)分析可知,心理語(yǔ)言詞典構(gòu)建的特征中包含代詞、表達(dá)符合這類的詞語(yǔ),而本文的語(yǔ)言特征通過(guò)統(tǒng)計(jì)這類詞語(yǔ)與性別的關(guān)聯(lián)度,這類詞語(yǔ)忽略,不納入語(yǔ)言特征的構(gòu)建,而心理語(yǔ)言詞典沒(méi)有忽略,均納入了特征構(gòu)建,得到的精確率、召回率和F值比語(yǔ)言特征分別低9.1%、20.4%和17.3%。從而進(jìn)一步驗(yàn)證了基于語(yǔ)言特征構(gòu)建模型預(yù)測(cè)性別時(shí)需忽略代詞和表達(dá)符合等。

    對(duì)比本研究的主題特征、語(yǔ)言特征和兩種特征疊加可知,主題特征表現(xiàn)最差,語(yǔ)言特征表現(xiàn)較好,疊加特征結(jié)果最優(yōu)。在精準(zhǔn)率指標(biāo)上,語(yǔ)言特征的精準(zhǔn)率為81.7%,僅比主題特征高0.8%,但在召回率和F值上,語(yǔ)言特征大幅提升,分別提升了6.1%和5.7%。精準(zhǔn)率的提升,表明語(yǔ)言特征進(jìn)行性別預(yù)測(cè)時(shí)更加有效。兩種特征疊加的預(yù)測(cè)結(jié)果,在語(yǔ)言特征的基礎(chǔ)上精準(zhǔn)率進(jìn)一步提升了1.4%,達(dá)到83.1%提升效果顯著;相較之下,召回率和F值與語(yǔ)言特征相比提升有限。分析可知這與主題特征的特征數(shù)量與預(yù)測(cè)效果有關(guān),一方面主題特征的特征數(shù)量較少,另一方面主題特征的召回率與F值相對(duì)語(yǔ)言特征差值較大,因此兩種特征疊加對(duì)召回率和F值的提升較少。

    同時(shí),本文對(duì)比了SVM模型與BP神經(jīng)網(wǎng)絡(luò)和TEXTCNN[40]神經(jīng)網(wǎng)絡(luò)的效果。本文構(gòu)建了2層隱藏層的BP神經(jīng)網(wǎng)絡(luò):第一層含有神經(jīng)元120個(gè),第二層有神經(jīng)元60個(gè),使用通過(guò)主題特征和語(yǔ)言特征提取的向量作為輸入,使用sigmoid函數(shù)作為輸出層函數(shù)。對(duì)于TEXTCNN模型,則不再使用特征向量作為輸入,而是用戶發(fā)送的文本分詞后的詞向量,向量的維數(shù)為128維;在卷積層,使用三種不同高度的卷積核,分別為2、3、4,每一種卷積核的個(gè)數(shù)設(shè)置為128個(gè)。兩種不同模型與SVM模型的效果對(duì)比如圖14所示,總體而言三種模型的效果較為接近,SVM的效果最好。SVM模型的F值比神經(jīng)網(wǎng)絡(luò)高了4%,比TEXTCNN模型高了2%,精準(zhǔn)率上SVM模型比BP神經(jīng)網(wǎng)絡(luò)和TEXTCNN高1%。TEXTCNN的效果比較優(yōu)秀也是因?yàn)槟P涂紤]到了語(yǔ)言上下文之間的關(guān)系,而通過(guò)語(yǔ)言特征和主題特征提取的向量也有相同效果,進(jìn)一步說(shuō)明了語(yǔ)言、主題兩類特征對(duì)于文本性別分類的重要性。

    總體而言,本文提出的主題特征、語(yǔ)言特征和兩種特征疊加對(duì)性別的預(yù)測(cè)均優(yōu)于選取的baseline方法,對(duì)社交媒體用戶性別的預(yù)測(cè)效果起到了很好的提升。

    6? 結(jié)語(yǔ)

    社交媒體中個(gè)人信息的隱私保護(hù)始終面臨諸多挑戰(zhàn),雖然已有法律條文的規(guī)范,但在實(shí)踐過(guò)程中用戶依然暴露在風(fēng)險(xiǎn)中。利用社交媒體中的相關(guān)信息進(jìn)行性別預(yù)測(cè),能對(duì)用戶起到一定的保護(hù)作用。

    本文以中文社交媒體新浪微博為例,從用戶的短文本中提取主題特征和語(yǔ)言特征,對(duì)支持向量機(jī)的機(jī)器學(xué)習(xí)算法進(jìn)行參數(shù)調(diào)優(yōu)與訓(xùn)練,得到一個(gè)對(duì)性別預(yù)測(cè)有顯著提升的分類器,起到了較好的預(yù)測(cè)效果,在精準(zhǔn)率、召回率和F值上都有所提升,特別是精準(zhǔn)率與baseline方法相比提升均超過(guò)10個(gè)百分點(diǎn),說(shuō)明從短文本的角度對(duì)用戶性別進(jìn)行預(yù)測(cè)是一個(gè)有效的途徑。同時(shí),與常用的n元語(yǔ)法模型和心理語(yǔ)言學(xué)詞典方法相比較,有效解決了構(gòu)造向量的稀疏問(wèn)題,為進(jìn)一步促進(jìn)基于性別的用戶信息保護(hù)提供了基礎(chǔ)。

    本研究提出的方法是利用中文短文本進(jìn)行性別預(yù)測(cè),該方法可推廣到其他社交媒體如Twitter中進(jìn)行中文用戶的性別預(yù)測(cè)。

    參考文獻(xiàn):

    [1] 陳傳夫, 劉雅琦. 公共部門信息增值利用中的個(gè)人信息保護(hù)[J].情報(bào)科學(xué), 2010, 28(10): 1455-1460.

    [2] 劉雅琦. 公共部門信息增值利用中的個(gè)人信息保護(hù)立法研究[J]. 情報(bào)理論與實(shí)踐, 2011, 34(4): 40-43.

    [3] 鄭莉, 蔡瓊, 石曼, 等. 社交網(wǎng)絡(luò)隱私成本的量化研究[J]. 科教導(dǎo)刊(電子版), 2019(1): 282.

    [4] 曹楊. 微博用戶性別分類研究及應(yīng)用[D]. 合肥: 安徽大學(xué), 2019.

    [5] 熊杰. 政務(wù)微博在線評(píng)論中的用戶情緒及行為研究[D].成都: 電子科技大學(xué), 2020.

    [6] WALTON S C, RICE R E. Mediated disclosure on Twitter: the roles of gender and identity in boundary impermeability, valence, disclosure, and stage[J]. Computers in human behavior, 2013, 29(4): 1465-1474.

    [7] PIAO G, BRESLIN J G. User modeling on Twitter with WordNet Synsets and DBpedia Concepts for Personalized Recommendations[C]//ACM international conference on information & knowledge management. Indianapolis: ACM, 2016:2057-2060.

    [8] PAN. Shared tasks[EB/OL].[2021-02-04]. https://pan.webis.de/shared-tasks.html.

    [9] BIENDATA.比賽項(xiàng)目[EB/OL].[2021-02-04]. https://www.biendata.xyz/competition/.

    [10] SMITH J. Gender prediction in social media[EB/OL].[2021-02-04]. https://arxiv.org/abs/1407.2147.

    [11] ABBASI M A, CHAI S K, LIU H, et al. Real-world behavior analysis through a social media lens[C]//International conference on social computing, behavioral-cultural modeling, and prediction. Berlin: Springer, 2012: 18-26.

    [12] ZHELEVA E, GETOOR L. To join or not to join: the illusion of privacy in social networks with mixed public and private user profiles[C]//Proceedings of the 18th international conference on World Wide Web, 2009: 531-540.

    [13] SCHWARTZ H A, EICHSTAEDT J C, KERN M L, et al. Personality, gender, and age in the language of social media: the open-vocabulary approach[J]. PloS one, 2013, 8(9): e73791.

    [14] VICENTE M, BATISTA F, CARVALHO J P. Gender detection of Twitter users based on multiple information sources[M]//Interactions between computational intelligence and mathematics part 2. Cham: Springer,? 2019: 39-54.

    [15] SUN X, WU P, LIU H. Facial age estimation using bio-inspired features and cost-sensitive ordinal hyperplane rank[C]// IEEE, International Conference on Cloud Computing and Intelligence Systems. Shenzhen: IEEE, 2015:81-85.

    [16] GUO G, MU G, FU Y. Gender from body: a biologically-inspired approach with manifold learning[M]// Computer vision – ACCV 2009. Berlin: Springer, 2009.

    [17] LANITIS A, TAYLOR C J, COOTES T F. Toward automatic simulation of aging effects on face images[J]. Pattern analysis & machine intelligence IEEE transactions on, 2002, 24(4):442-455.

    [18] GUNAY A, NABIYEV V V. Automatic age classification with LBP[C]// International symposium on computer and information sciences. Istanbul: IEEE, 2008:1-4.

    [19] SHAN C. Learning local binary patterns for gender classification on real-world face images[M]. Amsterdam: Elsevier Science Inc. 2012.

    [20] BALUJA S, ROWLEY H. Boosting sex identification performance[J]. International journal of computer vision, 2007, 71(1): 111-119.

    [21] MANSANET J, ALBIOL A, PAREDES R. Local deep neural networks for gender recognition[M]. Amsterdam: Elsevier Science Inc, 2016.

    [22] 吳澤銀. 基于集成卷積神經(jīng)網(wǎng)絡(luò)的人臉性別識(shí)別研究[D].廣州: 華南理工大學(xué),2016.

    [23] BURGER J D, HENDERSON J, KIM G, et al. Discriminating gender on Twitter[C]// Conference on empirical methods in natural language processing. Edinburgh: Association for Computational Linguistics, 2011: 1301-1309.

    [24] ALOWIBDI J S, BUY U A, YU P. Language independent gender classification on Twitter[C]// IEEE/ACM international conference on advances in social networks analysis and mining. Niagara Falls: IEEE, 2013:739-743.

    [25] 錢鐵云, 尤珍妮, 陳麗, 等. 基于興趣標(biāo)簽的緘默用戶性別預(yù)測(cè)研究[J]. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 43(12): 101-105.

    [26] LI S, WANG J, ZHOU G, et al. Interactive gender inference with integer linear programming[C]// International joint conference on artificial intelligence. Barcelona: AAAI Press, 2015: 2341-2347.

    [27] 戴斌, 李壽山, 貢正仙, 等. 基于多類型文本的半監(jiān)督性別分類方法研究[J]. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 40(1):14-20.

    [28] CHENG N, CHANDRAMOULI R, SUBBALAKSHMI K P. Author gender identification from text[J]. Digital investigation, 2012, 8(1):78-88.

    [29] FILHO J A B L, PASTI R, CASTRO L N D. Gender classification of twitter data based on textual meta-attributes extraction[C]// World conference on information systems and technologies. Switzerland: Springer, 2016:1025-1034.

    [30] WANG Q, MA S, ZHANG C. Predicting users demographic characteristics in a Chinese social media network[J]. The electronic library, 2017, 35(4): 758-769.

    [31] PEERSMAN C, DAELEMANS W, VAERENBERGH L V. Predicting age and gender in online social networks[C]// International CIKM workshop on search and mining user-generated contents. Glasgow:DBLP, 2011:37-44.

    [32] 王晶晶, 李壽山, 黃磊. 中文微博用戶性別分類方法研究[J]. 中文信息學(xué)報(bào), 2014, 28(6):150-155.

    [33] MILLER Z, DICKINSON B, HU W. Gender prediction on Twitter using stream algorithms with N-Gram character features[J]. International journal of intelligence science, 2012, 2(4):143-148.

    [34] RAO D, YAROWSKY D, SHREEVATS A, et al. Classifying latent user attributes in Twitter[C]// International workshop on search and mining user-generated contents. New York: ACM, 2010:37-44.

    [35] BIENDATA.SMPCUP2016微博用戶畫像數(shù)據(jù)[EB/OL]. [2020-10-08].https://www.biendata.xyz/competition/smpcup2016/data/.

    [36] BAMMAN D, EISENSTEIN J, SCHNOEBELEN T. Gender identity and lexical variation in social media[J]. Journal of sociolinguistics, 2014, 18(2):135–160.

    [37] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of machine learning research, 2003, 3(3):993-1022.

    [38] CHEN J, HUANG H, TIAN S, et al. Feature selection for text classification with Na?ve Bayes[J]. Expert systems with applications an international journal, 2009, 36(3):5432-5435.

    [39] GAO R, HAO B, LI H, et al. Developing simplified Chinese psychological linguistic analysis dictionary for Microblog[M]// Brain and health informatics, 2013:359-368.

    [40] KIM Y. Convolutional neural networks for sentence classification[EB/OL].[2021-02-04]. https://arxiv.org/abs/1408.5882

    作者貢獻(xiàn)說(shuō)明:

    雅琦:實(shí)驗(yàn)設(shè)計(jì)與論文修改;

    李得志:數(shù)據(jù)收集、實(shí)驗(yàn)與部分論文撰寫;

    王瑞雪:數(shù)據(jù)分析與部分論文撰寫。

    Research on Gender Prediction of Chinese Social Media Users

    ——Taking Sina Weibo Short Text Content as an Example

    Liu Yaqi1? Li Dezhi2? Wang Ruixue3

    1. School of Information and Security Engineering, Zhongnan University of Economics and Law,

    Wuhan? 430073

    2. Baidu Network Technology Co.,Ltd., Beijing 100085

    3. School of Information Management, Wuhan University, Wuhan 430072

    Abstract: [Purpose/significance] Different from the rapid development of the Internet, the development of personal information security protection is relatively lagging. By predicting the gender of social media users, it can better provide privacy protection for the users. [Method/process] The short texts posted by users in social media, Sina Weibo, were taken as the research object. The experiment extracted linguistic features and topic features from the short texts. For each user, we constructed features vector based on linguistic features, topic features, and the superposition of two features, then used SVM Machine learning algorithms built a classifier for gender prediction. [Result/conclusion] Experiments show that the linguistic features and topic features can predict the gender of the users accurately, and the effect is superior to other features used in gender prediction.

    Keywords: short text? ? gender prediction? ? topic features? ? linguistic features

    猜你喜歡
    語(yǔ)言特征
    試論基于當(dāng)今語(yǔ)境的播音主持語(yǔ)言藝術(shù)特征
    從北方方言淺析老舍《火車集》語(yǔ)言特征
    《哈克貝利?芬歷險(xiǎn)記》中黑人英語(yǔ)的語(yǔ)言特征
    當(dāng)代中國(guó)意象油畫的語(yǔ)言特征與色彩表現(xiàn)研究
    物流英語(yǔ)的語(yǔ)言特征及翻譯
    萊爾《老年的浪漫》英譯本語(yǔ)言淺析
    人間(2016年30期)2016-12-03 19:22:36
    茶藝英語(yǔ)的中國(guó)英語(yǔ)研究
    考試周刊(2016年89期)2016-12-01 12:59:53
    解構(gòu)口語(yǔ)化新聞的語(yǔ)言特征
    今傳媒(2016年9期)2016-10-15 23:05:15
    中國(guó)英語(yǔ)的語(yǔ)言特征及其對(duì)中國(guó)英語(yǔ)教學(xué)的啟示
    青春歲月(2015年20期)2015-11-09 12:31:18
    基于.NET的維哈柯多語(yǔ)種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    色综合色国产| 国产精品久久视频播放| 夜夜夜夜夜久久久久| 精品国内亚洲2022精品成人| 国产极品精品免费视频能看的| 午夜影院日韩av| 日本精品一区二区三区蜜桃| 久久久久国内视频| 亚洲国产精品久久男人天堂| 亚洲欧美日韩东京热| 中文字幕av成人在线电影| 久久精品国产清高在天天线| 久久久久九九精品影院| 尤物成人国产欧美一区二区三区| 三级经典国产精品| 香蕉av资源在线| 99国产精品一区二区蜜桃av| 亚洲美女搞黄在线观看 | 97在线视频观看| 禁无遮挡网站| 啦啦啦观看免费观看视频高清| 国产高清不卡午夜福利| 久久久成人免费电影| 两个人视频免费观看高清| 99热这里只有是精品在线观看| 免费一级毛片在线播放高清视频| 一进一出抽搐gif免费好疼| 丰满人妻一区二区三区视频av| 亚洲国产精品成人综合色| 美女高潮的动态| 波多野结衣巨乳人妻| 亚洲成人av在线免费| 欧美bdsm另类| 亚洲五月天丁香| 校园春色视频在线观看| 亚洲精品一卡2卡三卡4卡5卡| 97人妻精品一区二区三区麻豆| 嫩草影院精品99| 日韩 亚洲 欧美在线| 成人美女网站在线观看视频| 欧美三级亚洲精品| 国产国拍精品亚洲av在线观看| 国产精华一区二区三区| 中文字幕久久专区| 中文字幕av成人在线电影| 床上黄色一级片| 在现免费观看毛片| 看片在线看免费视频| 国产免费一级a男人的天堂| 亚洲精品色激情综合| 俺也久久电影网| 国产乱人偷精品视频| 白带黄色成豆腐渣| 少妇丰满av| 两个人视频免费观看高清| 特大巨黑吊av在线直播| 国产精品1区2区在线观看.| 日韩精品有码人妻一区| 一边摸一边抽搐一进一小说| 午夜福利成人在线免费观看| 淫妇啪啪啪对白视频| 亚洲欧美日韩高清在线视频| 天堂网av新在线| 国产毛片a区久久久久| 一区二区三区高清视频在线| 久久久久久久久大av| 久久久久久大精品| 亚洲四区av| 99热这里只有精品一区| 日韩一区二区视频免费看| 在线国产一区二区在线| 中文字幕久久专区| 午夜视频国产福利| 亚洲性久久影院| 国产在线精品亚洲第一网站| 日韩欧美在线乱码| 九九爱精品视频在线观看| 黄色欧美视频在线观看| av在线亚洲专区| 亚洲成人av在线免费| 男人舔奶头视频| 国产一区二区在线观看日韩| 国产精品一区二区三区四区久久| 偷拍熟女少妇极品色| 插阴视频在线观看视频| 欧美3d第一页| 三级经典国产精品| 国产精品一区二区三区四区久久| 亚洲国产精品成人久久小说 | 伦精品一区二区三区| 村上凉子中文字幕在线| 性插视频无遮挡在线免费观看| 亚洲久久久久久中文字幕| 亚洲色图av天堂| 男女做爰动态图高潮gif福利片| 国产精品久久久久久av不卡| 人妻丰满熟妇av一区二区三区| 国产免费一级a男人的天堂| 成年女人永久免费观看视频| 国产精品一二三区在线看| 国产成人一区二区在线| 国产蜜桃级精品一区二区三区| 一边摸一边抽搐一进一小说| 日韩一区二区视频免费看| 99久国产av精品国产电影| 亚洲第一电影网av| 亚洲一区二区三区色噜噜| 色哟哟·www| 麻豆精品久久久久久蜜桃| 国产伦一二天堂av在线观看| 久久婷婷人人爽人人干人人爱| 亚洲va在线va天堂va国产| 黄色欧美视频在线观看| 国产真实伦视频高清在线观看| 69人妻影院| 精品久久久久久成人av| 成人av一区二区三区在线看| 亚洲最大成人av| 最新在线观看一区二区三区| 亚洲经典国产精华液单| 亚洲精品粉嫩美女一区| 日本撒尿小便嘘嘘汇集6| 欧美日韩国产亚洲二区| 免费电影在线观看免费观看| 午夜激情欧美在线| 少妇高潮的动态图| 麻豆国产97在线/欧美| 一级黄片播放器| 内射极品少妇av片p| 日韩中字成人| 男人和女人高潮做爰伦理| 99久久精品一区二区三区| 日日啪夜夜撸| 免费搜索国产男女视频| 国内精品久久久久精免费| 又粗又爽又猛毛片免费看| 欧美性感艳星| 色尼玛亚洲综合影院| 国产精品久久久久久久电影| 激情 狠狠 欧美| 老司机午夜福利在线观看视频| 亚洲经典国产精华液单| 久久久久久久午夜电影| 中出人妻视频一区二区| 精品一区二区三区视频在线观看免费| 欧美一区二区国产精品久久精品| 老司机福利观看| 国产亚洲精品久久久久久毛片| 亚洲熟妇中文字幕五十中出| 成熟少妇高潮喷水视频| 成人毛片a级毛片在线播放| 国产一区二区三区在线臀色熟女| 精品人妻一区二区三区麻豆 | 毛片一级片免费看久久久久| 可以在线观看毛片的网站| 欧美又色又爽又黄视频| av在线播放精品| av黄色大香蕉| 日日啪夜夜撸| 亚洲高清免费不卡视频| 中文字幕av在线有码专区| 少妇人妻一区二区三区视频| 久久久色成人| 国产成人freesex在线 | 亚洲性久久影院| 日韩欧美一区二区三区在线观看| 国产成人aa在线观看| 欧美人与善性xxx| 男女下面进入的视频免费午夜| 亚洲最大成人手机在线| 黄色一级大片看看| 亚洲国产欧美人成| 一卡2卡三卡四卡精品乱码亚洲| 熟女电影av网| 综合色丁香网| 啦啦啦观看免费观看视频高清| 久久人人精品亚洲av| 六月丁香七月| 日日摸夜夜添夜夜添av毛片| 色吧在线观看| 国产单亲对白刺激| 三级国产精品欧美在线观看| 女人十人毛片免费观看3o分钟| 最近最新中文字幕大全电影3| 久久欧美精品欧美久久欧美| 国产成人影院久久av| 国产伦精品一区二区三区四那| 成人三级黄色视频| 给我免费播放毛片高清在线观看| 国产探花极品一区二区| 哪里可以看免费的av片| 尤物成人国产欧美一区二区三区| 国产精品福利在线免费观看| 久久久色成人| 波野结衣二区三区在线| av在线天堂中文字幕| 别揉我奶头 嗯啊视频| 日韩欧美 国产精品| 日本免费a在线| 亚洲天堂国产精品一区在线| 国产 一区精品| 亚洲va在线va天堂va国产| 18+在线观看网站| 色综合亚洲欧美另类图片| 99热全是精品| 亚洲中文字幕一区二区三区有码在线看| 中文字幕熟女人妻在线| 日本三级黄在线观看| 日本免费一区二区三区高清不卡| 国产黄色小视频在线观看| 国产 一区 欧美 日韩| 欧美又色又爽又黄视频| 国产片特级美女逼逼视频| 搞女人的毛片| 亚洲国产欧洲综合997久久,| 久久久久久久久久久丰满| 在线观看av片永久免费下载| 日韩高清综合在线| 久久鲁丝午夜福利片| 国产亚洲91精品色在线| 色av中文字幕| 一进一出抽搐gif免费好疼| 亚洲aⅴ乱码一区二区在线播放| 黄色欧美视频在线观看| 国产蜜桃级精品一区二区三区| 51国产日韩欧美| 白带黄色成豆腐渣| 欧美性感艳星| 看片在线看免费视频| 久久精品国产亚洲av香蕉五月| 国产精品美女特级片免费视频播放器| 高清午夜精品一区二区三区 | 免费看日本二区| 人妻夜夜爽99麻豆av| 免费人成视频x8x8入口观看| 亚洲国产日韩欧美精品在线观看| 长腿黑丝高跟| 久久久久精品国产欧美久久久| 波多野结衣高清无吗| 久久午夜福利片| 亚洲成av人片在线播放无| 99热网站在线观看| 欧美色欧美亚洲另类二区| 99视频精品全部免费 在线| 最近视频中文字幕2019在线8| 亚洲天堂国产精品一区在线| 久久这里只有精品中国| 国产精品久久久久久久久免| 亚洲精品日韩在线中文字幕 | 日本三级黄在线观看| 婷婷精品国产亚洲av在线| 久久久久国内视频| 国语自产精品视频在线第100页| 国产一区二区三区在线臀色熟女| 国产精品野战在线观看| 亚洲av免费在线观看| 成人二区视频| 神马国产精品三级电影在线观看| 欧美色视频一区免费| 18禁黄网站禁片免费观看直播| 嫩草影院精品99| 国产在线精品亚洲第一网站| 免费av毛片视频| a级毛色黄片| 国产精品久久久久久久电影| 久久天躁狠狠躁夜夜2o2o| 国产精品不卡视频一区二区| 久久久精品94久久精品| 午夜精品一区二区三区免费看| 精品久久久久久久久亚洲| 可以在线观看的亚洲视频| 99视频精品全部免费 在线| 国产黄色小视频在线观看| av专区在线播放| 久久婷婷人人爽人人干人人爱| 麻豆av噜噜一区二区三区| 一区二区三区高清视频在线| 亚洲va在线va天堂va国产| 久久久久国产网址| 舔av片在线| 精品一区二区三区av网在线观看| www.色视频.com| 美女高潮的动态| 国产爱豆传媒在线观看| 日本欧美国产在线视频| 在线观看免费视频日本深夜| 久久韩国三级中文字幕| 少妇高潮的动态图| 成人漫画全彩无遮挡| 成人综合一区亚洲| 国产精品一及| 内地一区二区视频在线| av国产免费在线观看| 国产麻豆成人av免费视频| 欧美区成人在线视频| 午夜亚洲福利在线播放| 亚洲国产日韩欧美精品在线观看| 国国产精品蜜臀av免费| 久久久久久久亚洲中文字幕| 免费不卡的大黄色大毛片视频在线观看 | 看片在线看免费视频| 99热只有精品国产| 级片在线观看| 日韩欧美一区二区三区在线观看| 直男gayav资源| 日韩中字成人| 成熟少妇高潮喷水视频| 3wmmmm亚洲av在线观看| 亚洲av不卡在线观看| 亚洲美女黄片视频| 日本黄色片子视频| 色在线成人网| 免费看av在线观看网站| 日本五十路高清| 亚洲国产精品成人久久小说 | 天堂动漫精品| 国产高清三级在线| 国产成年人精品一区二区| 成年av动漫网址| 日本与韩国留学比较| 51国产日韩欧美| 99久久久亚洲精品蜜臀av| 日韩欧美精品免费久久| 免费av不卡在线播放| 嫩草影院新地址| 搡老熟女国产l中国老女人| 有码 亚洲区| 男女那种视频在线观看| 国产精品国产三级国产av玫瑰| 别揉我奶头 嗯啊视频| 黄片wwwwww| 国产单亲对白刺激| 亚洲精品成人久久久久久| 欧美色欧美亚洲另类二区| 嫩草影视91久久| 国产人妻一区二区三区在| 中文亚洲av片在线观看爽| 亚洲高清免费不卡视频| 成人亚洲欧美一区二区av| 性插视频无遮挡在线免费观看| 又黄又爽又免费观看的视频| 欧美日韩乱码在线| 人妻制服诱惑在线中文字幕| 欧美一区二区亚洲| 免费看光身美女| 日本免费a在线| av在线亚洲专区| 欧美一区二区国产精品久久精品| 中文字幕av在线有码专区| 国产一区二区激情短视频| 亚洲丝袜综合中文字幕| 亚洲熟妇中文字幕五十中出| 国内精品久久久久精免费| 亚州av有码| 国产色爽女视频免费观看| 精品一区二区免费观看| 国产av一区在线观看免费| 久久婷婷人人爽人人干人人爱| 女的被弄到高潮叫床怎么办| www日本黄色视频网| 免费看av在线观看网站| www日本黄色视频网| 特大巨黑吊av在线直播| 一区福利在线观看| av黄色大香蕉| 国产一区亚洲一区在线观看| 一级毛片aaaaaa免费看小| 国产高清视频在线观看网站| 国产高清三级在线| 亚洲av成人av| 国产伦精品一区二区三区四那| 精品久久国产蜜桃| 国产亚洲精品综合一区在线观看| 亚洲最大成人av| 18+在线观看网站| 露出奶头的视频| 午夜日韩欧美国产| 综合色丁香网| 亚洲色图av天堂| 国产成人a∨麻豆精品| 亚洲av二区三区四区| 欧美高清性xxxxhd video| 久久人人精品亚洲av| 99热全是精品| 国产免费一级a男人的天堂| 欧美在线一区亚洲| 欧美区成人在线视频| 美女cb高潮喷水在线观看| 国产午夜福利久久久久久| 久久久久九九精品影院| 国产一级毛片七仙女欲春2| 久久九九热精品免费| 麻豆久久精品国产亚洲av| 别揉我奶头~嗯~啊~动态视频| 精品一区二区三区视频在线观看免费| 国产淫片久久久久久久久| 午夜福利高清视频| 非洲黑人性xxxx精品又粗又长| 午夜福利在线在线| 精品午夜福利视频在线观看一区| 一区福利在线观看| 中文字幕人妻熟人妻熟丝袜美| 一进一出好大好爽视频| 啦啦啦观看免费观看视频高清| 麻豆国产97在线/欧美| 赤兔流量卡办理| 波多野结衣高清作品| 啦啦啦韩国在线观看视频| 变态另类丝袜制服| 中国美白少妇内射xxxbb| 天美传媒精品一区二区| 久久久久国产网址| 国产精品久久视频播放| 精品一区二区三区人妻视频| 国产黄色视频一区二区在线观看 | 亚洲经典国产精华液单| 高清毛片免费观看视频网站| ponron亚洲| 秋霞在线观看毛片| 欧美日韩精品成人综合77777| 欧洲精品卡2卡3卡4卡5卡区| 国产成年人精品一区二区| 成人欧美大片| 乱人视频在线观看| 国产精品国产高清国产av| 男女视频在线观看网站免费| 亚洲欧美精品自产自拍| 一进一出抽搐动态| 午夜福利18| 精品一区二区三区视频在线观看免费| 亚洲成人久久爱视频| 蜜臀久久99精品久久宅男| 蜜桃亚洲精品一区二区三区| 久久这里只有精品中国| 午夜精品一区二区三区免费看| 久久久久久国产a免费观看| 久久亚洲国产成人精品v| 免费观看人在逋| 伦理电影大哥的女人| 插阴视频在线观看视频| 久久热精品热| 免费在线观看成人毛片| 午夜a级毛片| 久久久a久久爽久久v久久| 亚洲熟妇熟女久久| 亚洲欧美成人精品一区二区| 狠狠狠狠99中文字幕| 三级男女做爰猛烈吃奶摸视频| 一本一本综合久久| av中文乱码字幕在线| 成年女人毛片免费观看观看9| 草草在线视频免费看| 亚洲在线自拍视频| 乱人视频在线观看| 国产日本99.免费观看| 自拍偷自拍亚洲精品老妇| 校园春色视频在线观看| 亚洲av免费在线观看| 亚洲人成网站在线观看播放| 女人十人毛片免费观看3o分钟| 国产视频一区二区在线看| 午夜精品在线福利| 久久热精品热| 亚洲av不卡在线观看| 99久久中文字幕三级久久日本| 中文字幕久久专区| 少妇裸体淫交视频免费看高清| 色综合色国产| 午夜福利视频1000在线观看| 日韩欧美 国产精品| 久久久久性生活片| 在线观看一区二区三区| 成人综合一区亚洲| 综合色丁香网| 亚洲中文字幕日韩| aaaaa片日本免费| avwww免费| 最近最新中文字幕大全电影3| 欧美一区二区国产精品久久精品| 亚洲国产精品合色在线| 日本一二三区视频观看| 此物有八面人人有两片| 午夜福利成人在线免费观看| 国产男人的电影天堂91| 欧美激情国产日韩精品一区| 久久久久九九精品影院| 日产精品乱码卡一卡2卡三| 国产精品久久电影中文字幕| 99在线人妻在线中文字幕| 中国美白少妇内射xxxbb| 亚洲精品影视一区二区三区av| 成人特级黄色片久久久久久久| 国产美女午夜福利| 午夜a级毛片| 精品久久久噜噜| 乱人视频在线观看| 色综合色国产| 国内精品宾馆在线| 此物有八面人人有两片| 亚洲国产精品久久男人天堂| 男女边吃奶边做爰视频| 伦精品一区二区三区| 97热精品久久久久久| 日韩av不卡免费在线播放| 精品午夜福利视频在线观看一区| 我的女老师完整版在线观看| 中文字幕av在线有码专区| 69av精品久久久久久| 日本-黄色视频高清免费观看| 在线看三级毛片| 日韩精品有码人妻一区| 国产欧美日韩精品一区二区| 一夜夜www| 午夜福利在线观看免费完整高清在 | 久久精品国产亚洲网站| 菩萨蛮人人尽说江南好唐韦庄 | 日本欧美国产在线视频| 少妇人妻一区二区三区视频| 真实男女啪啪啪动态图| 中国国产av一级| 小说图片视频综合网站| 午夜激情欧美在线| 菩萨蛮人人尽说江南好唐韦庄 | 中文字幕精品亚洲无线码一区| 搡老岳熟女国产| 丝袜喷水一区| 免费观看人在逋| av.在线天堂| 久久人人爽人人片av| 色综合亚洲欧美另类图片| 看黄色毛片网站| 免费人成视频x8x8入口观看| 22中文网久久字幕| 亚洲精品乱码久久久v下载方式| 色哟哟·www| 伦理电影大哥的女人| 久99久视频精品免费| 五月伊人婷婷丁香| 可以在线观看毛片的网站| 亚洲欧美日韩卡通动漫| 久久热精品热| 色尼玛亚洲综合影院| 狂野欧美激情性xxxx在线观看| 网址你懂的国产日韩在线| 成人av在线播放网站| av国产免费在线观看| 欧美最黄视频在线播放免费| 少妇猛男粗大的猛烈进出视频 | 91久久精品国产一区二区三区| 亚洲经典国产精华液单| 精品无人区乱码1区二区| 99热网站在线观看| 国产午夜精品论理片| 给我免费播放毛片高清在线观看| 日本色播在线视频| 亚洲欧美日韩高清在线视频| 成人午夜高清在线视频| 在线观看av片永久免费下载| 国产精品永久免费网站| 淫秽高清视频在线观看| 在线a可以看的网站| 在线免费观看不下载黄p国产| 免费av毛片视频| 亚洲无线观看免费| 男人的好看免费观看在线视频| 国产三级在线视频| 午夜精品一区二区三区免费看| 成人午夜高清在线视频| 91午夜精品亚洲一区二区三区| 尤物成人国产欧美一区二区三区| 18禁在线播放成人免费| 不卡一级毛片| 精品午夜福利视频在线观看一区| 女生性感内裤真人,穿戴方法视频| 婷婷精品国产亚洲av| 日本撒尿小便嘘嘘汇集6| 亚洲av免费在线观看| 又黄又爽又免费观看的视频| 欧美xxxx性猛交bbbb| 国产伦精品一区二区三区视频9| 久久久久久久久中文| 亚洲欧美清纯卡通| 日韩欧美精品v在线| 国产精品电影一区二区三区| 国产精品久久视频播放| 午夜福利18| 免费人成在线观看视频色| 亚洲高清免费不卡视频| 日本与韩国留学比较| 青春草视频在线免费观看| 欧美成人a在线观看| 最好的美女福利视频网| 99热这里只有是精品50| 免费人成视频x8x8入口观看| 亚洲精品在线观看二区| 天堂网av新在线| 国产成人a∨麻豆精品| av中文乱码字幕在线| 人妻丰满熟妇av一区二区三区| 国产精品久久久久久av不卡| 欧美日本亚洲视频在线播放| 中文字幕久久专区| 午夜福利在线观看吧| 国产三级在线视频| 欧美最黄视频在线播放免费| 欧美成人一区二区免费高清观看| 国产一区二区三区av在线 | 老熟妇仑乱视频hdxx| 尤物成人国产欧美一区二区三区| 日本免费a在线| 大型黄色视频在线免费观看| 真实男女啪啪啪动态图| 少妇猛男粗大的猛烈进出视频 | 午夜亚洲福利在线播放| 日韩av不卡免费在线播放|