• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中文社交媒體用戶性別預(yù)測(cè)研究

    2021-12-01 09:51:27劉雅琦李得志王瑞雪
    知識(shí)管理論壇 2021年4期
    關(guān)鍵詞:語(yǔ)言特征

    劉雅琦 李得志 王瑞雪

    摘要:[目的/意義]與互聯(lián)網(wǎng)的高速發(fā)展不同,個(gè)人信息安全保護(hù)的發(fā)展相對(duì)滯后,通過(guò)預(yù)測(cè)社交媒體用戶的性別,能夠更好地針對(duì)不同性別用戶提供隱私保護(hù)。[方法/過(guò)程]以新浪微博這一社交媒體中用戶發(fā)布的短文本為研究對(duì)象,從中抽取語(yǔ)言特征和主題特征,為每一個(gè)用戶構(gòu)建基于語(yǔ)言特征、主題特征以及兩個(gè)特征疊加的特征表達(dá)向量,利用SVM機(jī)器學(xué)習(xí)算法構(gòu)建性別預(yù)測(cè)的分類器。[結(jié)果/結(jié)論]實(shí)驗(yàn)表明,從微博短文本中抽取的語(yǔ)言特征和主題特征能夠準(zhǔn)確預(yù)測(cè)用戶性別,其效果在主要評(píng)價(jià)指標(biāo)中均有大幅提升。

    關(guān)鍵詞:短文本? ? 性別預(yù)測(cè)? ? 主題特征? ? 語(yǔ)言特征

    分類號(hào):TP391.1

    引用格式:劉雅琦, 李得志, 王瑞雪. 中文社交媒體用戶性別預(yù)測(cè)研究: 以新浪微博短文本內(nèi)容為例[J/OL]. 知識(shí)管理論壇, 2021, 6(4): 213-227[引用日期]. http://www.kmf.ac.cn/p/255/.

    1? 引言

    隨著互聯(lián)網(wǎng)的深入發(fā)展,近年來(lái)信息安全逐步得到了人們的重視,中共中央成立了中央網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組,“沒(méi)有信息安全就沒(méi)有國(guó)家安全”的理念深入人心。但現(xiàn)階段,對(duì)信息商業(yè)價(jià)值的利用仍遠(yuǎn)遠(yuǎn)超過(guò)了對(duì)信息隱私安全的保護(hù),信息的隱私保護(hù)依然處于相對(duì)滯后的狀態(tài);公共部門信息資源增值利用中,個(gè)人信息還存在著信息授權(quán)、利益平衡、法律救濟(jì)和監(jiān)管多方面的風(fēng)險(xiǎn)[1]?,F(xiàn)有的法律體系中,雖然有大量的法律法規(guī)對(duì)個(gè)人信息保護(hù)提出立法,但在實(shí)際過(guò)程中,法律法規(guī)起到的保護(hù)作用有限,個(gè)人信息的保護(hù)還存在一些障礙[2]。

    社交媒體持續(xù)發(fā)展,用戶數(shù)量不斷壯大。一方面社交媒體的發(fā)展為用戶提供了方便快捷的信息獲取方式;另一方面由于社交媒體的使用者門檻較低,社交網(wǎng)絡(luò)的開(kāi)放性、共享性與連通性的特點(diǎn)[3],使得用戶的個(gè)人信息容易受到侵犯。為保護(hù)個(gè)人信息安全,部分用戶在進(jìn)行注冊(cè)時(shí)會(huì)選擇不填或虛假填寫自己的性別[4],而相關(guān)研究表明女性用戶對(duì)信息層面因素敏感,更易受影響[5],相較而言更容易透露自己的隱私信息[6]。因此需要基于用戶的性別提供服務(wù),對(duì)用戶進(jìn)行適當(dāng)?shù)男畔⒈Wo(hù),使用戶免受互聯(lián)網(wǎng)中大量垃圾信息的傷害,如不對(duì)女性群體進(jìn)行暴力內(nèi)容的推送等。與此同時(shí),用戶的性別信息也是用戶畫像的重要組成部分,準(zhǔn)確的用戶畫像可以為企業(yè)營(yíng)銷、廣告投放、內(nèi)容推薦提供便利[7];用戶也可以從中獲得個(gè)性化推薦內(nèi)容,減少信息搜尋的時(shí)間,提高使用社交媒體的滿意度。

    近年來(lái),用戶畫像相關(guān)的測(cè)評(píng)比賽也廣泛興起,例如名為PAN的學(xué)者群體舉辦了6屆作者特征提取測(cè)評(píng)和1屆僵尸用戶與用戶性別測(cè)評(píng)[8],由中國(guó)中文信息學(xué)會(huì)社會(huì)媒體處理專委會(huì)主辦的全國(guó)社會(huì)媒體處理大會(huì)(SMP)于2016-2018年連續(xù)三年組織了相關(guān)的用戶畫像比賽[9]。相關(guān)測(cè)評(píng)比賽中,性別預(yù)測(cè)是重要的子任務(wù),是用戶畫像的核心內(nèi)容之一,也是其他應(yīng)用的基礎(chǔ)[10]。之所以要進(jìn)行社交媒體用戶的性別預(yù)測(cè),是因?yàn)橛脩粼谶M(jìn)行注冊(cè)時(shí)會(huì)忽略性別、興趣等相關(guān)信息[11-12]。

    本文以新浪微博這一社交媒體平臺(tái)中的用戶信息為研究對(duì)象,利用不同性別用戶語(yǔ)言表達(dá)和興趣偏好上的差異預(yù)測(cè)用戶性別。在社交網(wǎng)絡(luò)中,男性和女性用戶使用的語(yǔ)言以及興趣愛(ài)好具有差異,A. H. Schwartz等[13]從75 000名志愿者的Facebook消息中收集了7億個(gè)單詞、短語(yǔ)和主題實(shí)例,對(duì)其分析顯示,不同性別的用戶使用的語(yǔ)言有很大的不同,語(yǔ)言和性別以及年齡之間有著比較大的關(guān)聯(lián);M. Vicente等[14]對(duì)65 000名英語(yǔ)用戶的用戶名、用戶描述、圖片和發(fā)送的推特內(nèi)容進(jìn)行分析,發(fā)現(xiàn)性別對(duì)用戶的語(yǔ)言使用有影響,從而實(shí)現(xiàn)對(duì)用戶性別的預(yù)測(cè)。因此,用戶發(fā)布的社交媒體內(nèi)容與性別相關(guān)聯(lián),呈現(xiàn)出差異化的特點(diǎn)。在此基礎(chǔ)上,本文通過(guò)分析不同性別用戶在發(fā)送社交媒體短文本時(shí)的差異,提取相關(guān)的語(yǔ)言特征和主題特征,構(gòu)建模型進(jìn)行用戶性別的預(yù)測(cè)。

    2? 相關(guān)研究

    2.1? 基于圖像的性別預(yù)測(cè)

    基于圖像的性別預(yù)測(cè)是通過(guò)分析用戶的面部特征進(jìn)行預(yù)測(cè)。目前,基于圖像的用戶性別預(yù)測(cè)主要使用的是傳統(tǒng)圖像分類方法,即通過(guò)模型提取圖像中的人臉特征,再利用分類算法進(jìn)行預(yù)測(cè)。常用于提取人臉特征的模型有BIF(Bio-inspired Features)[15-16]、主動(dòng)外觀模型(Active Appearance Model, AAM)[17]、局部紋理特征(Local Binary Pattern, LBP)[18-19]等。完成人臉特征提取后,利用不同的算法進(jìn)行分類,常使用的算法有k-近鄰[18]、SVM算法[19]、AdaBoost算法[20]等。近些年,隨著深度學(xué)習(xí)在圖像識(shí)別上的發(fā)展,各種神經(jīng)網(wǎng)絡(luò)算法[21-22]在基于圖像的性別預(yù)測(cè)研究中取得了不錯(cuò)的效果。

    2.2? 基于用戶信息的性別預(yù)測(cè)

    在社交網(wǎng)絡(luò)中,基于用戶信息的性別預(yù)測(cè)主要分為兩類,一類是基于用戶的公開(kāi)信息進(jìn)行預(yù)測(cè),另一類為基于用戶發(fā)表的短文本內(nèi)容進(jìn)行預(yù)測(cè)。

    2.2.1? 基于用戶公開(kāi)信息的性別預(yù)測(cè)

    基于用戶公開(kāi)信息的性別預(yù)測(cè)利用用戶的賬戶名稱、個(gè)人描述、個(gè)人主頁(yè)設(shè)置、標(biāo)簽等信息,如J. D. Burger等[23]使用Twitter用戶的賬戶名稱、個(gè)人描述等用戶公開(kāi)信息預(yù)測(cè)用戶的性別,最高可達(dá)92%的準(zhǔn)確率;J. S. Alowibdi等[24]提取了用戶在Twitter上5個(gè)不同位置設(shè)置的顏色:個(gè)人資料背景顏色、文字顏色、鏈接顏色、邊框填充顏色以及界面邊框顏色做為特征預(yù)測(cè)用戶的性別,在不同數(shù)據(jù)集大小的實(shí)驗(yàn)中基本都能達(dá)到70%左右的準(zhǔn)確率。社交媒體中存在大量緘默用戶,其特點(diǎn)為很少發(fā)表內(nèi)容、微博標(biāo)簽較少,因此準(zhǔn)確預(yù)測(cè)較難,錢鐵云等[25]利用微博用戶個(gè)人資料中的標(biāo)簽信息,對(duì)緘默用戶進(jìn)行性別預(yù)測(cè),達(dá)到了71%的準(zhǔn)確率。

    當(dāng)用戶的公開(kāi)信息特征與訓(xùn)練樣本的特征之間差異較大時(shí),基于用戶公開(kāi)信息的性別預(yù)測(cè)方法的準(zhǔn)確率會(huì)降低;同時(shí)用戶公開(kāi)信息量較少也會(huì)影響預(yù)測(cè)結(jié)果,例如用戶昵稱簡(jiǎn)短、沒(méi)有個(gè)人描述等。此外,用戶出于個(gè)人信息隱私保護(hù)的原因,在個(gè)人主頁(yè)設(shè)置中選擇不公開(kāi)個(gè)人信息,將會(huì)使預(yù)測(cè)準(zhǔn)確率大幅下降。

    2.2.2? 基于內(nèi)容的性別預(yù)測(cè)

    文本內(nèi)容可根據(jù)長(zhǎng)度不同分為短文本與長(zhǎng)文本,社交媒體的文本主要為短文本,包括原創(chuàng)文本、轉(zhuǎn)發(fā)文本以及評(píng)論文本三種類型。S. Li等[26]提出了一種整數(shù)線性規(guī)劃方法(Integer Linear Programming),利用用戶原創(chuàng)及轉(zhuǎn)發(fā)文本中的評(píng)論交互文本預(yù)測(cè)用戶性別;戴斌等[27]利用半監(jiān)督學(xué)習(xí)的方法實(shí)現(xiàn)了基于短文本內(nèi)容的用戶性別預(yù)測(cè),達(dá)到了84.3%的準(zhǔn)確率,解決了監(jiān)督學(xué)習(xí)方法需要人工標(biāo)注樣本的障礙;N. Cheng等[28]從Twitter文本中抽取了用戶語(yǔ)言的心理語(yǔ)言學(xué)特征用于構(gòu)建特征空間進(jìn)行用戶性別預(yù)測(cè),達(dá)到了85.13%的準(zhǔn)確率;J. A. B. L. Filho等[29]把用戶發(fā)送的Twitter文本中的字詞個(gè)數(shù)、標(biāo)點(diǎn)符號(hào)等作為文本元屬性,進(jìn)行用戶性別預(yù)測(cè),其準(zhǔn)確率達(dá)到了81.6%;Q. Wang等[30]對(duì)比了文本表示方法VSM(Vector space model)與主題模型LDA(Latent Dirichlet allocation)、LSA(Latent semantic analysis)預(yù)測(cè)中文社交媒體中的用戶性別、地域和年齡相關(guān)的人口統(tǒng)計(jì)學(xué)信息的效果,主題模型LSA在性別預(yù)測(cè)上效果表現(xiàn)最好,準(zhǔn)確率達(dá)到87.2%,但相較于LDA與VSM效果提升也比較有限。

    n元語(yǔ)法模型是自然語(yǔ)言處理中常用的模型,在性別預(yù)測(cè)領(lǐng)域有大量的研究以此為基礎(chǔ)進(jìn)行短文本分析,進(jìn)而預(yù)測(cè)用戶性別,例如C. Peersman等[31]使用n元語(yǔ)法模型并用卡方檢驗(yàn)進(jìn)行特征選擇,利用構(gòu)造的特征向量進(jìn)行用戶性別和年齡的預(yù)測(cè);王晶晶等[32]在n元語(yǔ)法特征的基礎(chǔ)上加上了首尾特征,使用用戶的姓名和微博內(nèi)容對(duì)性別進(jìn)行預(yù)測(cè),當(dāng)用戶樣本足夠大時(shí),將基于用戶姓名的分類器和基于微博內(nèi)容的分類器融合之后能達(dá)到90%的準(zhǔn)確率;Z. Miller等[33]使用n元語(yǔ)法特征結(jié)合貝葉斯算法來(lái)預(yù)測(cè)用戶的性別,其使用了6種特征選擇方法,最高可以達(dá)到97%的準(zhǔn)確率;D. Rao等[34]抽取了用戶的社會(huì)語(yǔ)言特征并與n元語(yǔ)法特征結(jié)合對(duì)Twitter用戶的性別、年齡、地域和政治傾向進(jìn)行了預(yù)測(cè),對(duì)性別的預(yù)測(cè)準(zhǔn)確率為72%。

    基于內(nèi)容的性別預(yù)測(cè)方法對(duì)文本內(nèi)容量的需求較高,社交網(wǎng)絡(luò)中用戶發(fā)送的文本多以短文本為主,當(dāng)用戶發(fā)送的內(nèi)容較少時(shí),僅憑借少量的文本內(nèi)容很難準(zhǔn)確預(yù)測(cè)用戶的性別,這要求進(jìn)行性別預(yù)測(cè)時(shí)所選取的文本特征既要體現(xiàn)出性別差異,也要有足夠大的使用率。當(dāng)數(shù)據(jù)量不足時(shí)會(huì)出現(xiàn)構(gòu)建的分類器屬性稀疏等問(wèn)題,導(dǎo)致性別預(yù)測(cè)的準(zhǔn)確率下降。

    3? 實(shí)驗(yàn)數(shù)據(jù)與預(yù)處理

    本文使用中文社交媒體平臺(tái)新浪微博的用戶數(shù)據(jù),數(shù)據(jù)集來(lái)源于“SMP CUP2016微博用戶畫像”比賽[35]。數(shù)據(jù)集中一共包含三類信息:

    (1)社交關(guān)系信息。包含一個(gè)約256.7萬(wàn)名微博用戶構(gòu)成的社交網(wǎng)絡(luò),其中的社交關(guān)系可能是單向的(即單向關(guān)注,即為粉絲關(guān)系)或雙向的(即互相關(guān)注,即為好友關(guān)系)。

    (2)用戶微博信息。包含約4.6萬(wàn)名用戶的微博文本內(nèi)容,這些用戶都屬于上述社交網(wǎng)絡(luò)。

    (3)用戶標(biāo)簽信息。包含約0.5萬(wàn)名用戶的年齡、性別及地域標(biāo)簽,均屬于上述4.6萬(wàn)名用戶。

    三類信息的關(guān)系如圖1所示:

    本文是基于短文本內(nèi)容的用戶性別研究,最終選擇了“SMP CUP2016微博用戶畫像”比賽數(shù)據(jù)集中的用戶標(biāo)簽信息及其對(duì)應(yīng)的用戶微博信息作為本研究的初始數(shù)據(jù)集,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理工作。

    數(shù)據(jù)預(yù)處理分為以下3個(gè)步驟:

    (1)剔除與分析無(wú)關(guān)的噪聲數(shù)據(jù)。用戶微博信息中存在網(wǎng)頁(yè)鏈接、字符亂碼等噪聲數(shù)據(jù),這部分?jǐn)?shù)據(jù)既不能還原用戶的語(yǔ)言表達(dá)意圖,也不能用于性別預(yù)測(cè)的特征提取,因此將其剔除。

    (2)剔除缺失數(shù)據(jù)。將缺失性別標(biāo)簽及微博信息少于5條的用戶標(biāo)簽信息剔除,缺失性別信息的數(shù)據(jù)無(wú)法用于性別預(yù)測(cè)實(shí)驗(yàn),而微博信息過(guò)少也難以提取有效特征,導(dǎo)致性別預(yù)測(cè)效果差的結(jié)果。

    (3)對(duì)微博信息中的短文本內(nèi)容進(jìn)行分詞,本研究采用NLPIR漢語(yǔ)分詞系統(tǒng)進(jìn)行分詞處理,并保留標(biāo)點(diǎn)符號(hào)等原始信息。

    經(jīng)過(guò)處理后的數(shù)據(jù)集包含4 342個(gè)用戶及其發(fā)送的微博短文本331 634條,用于實(shí)驗(yàn)?zāi)P偷挠?xùn)練與檢驗(yàn)。

    4? 實(shí)驗(yàn)構(gòu)建與特征抽取

    4.1? 實(shí)驗(yàn)構(gòu)建

    本研究的輸入為微博短文本,通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析,利用數(shù)據(jù)特征進(jìn)行建模,訓(xùn)練相關(guān)算法,進(jìn)而對(duì)微博用戶的性別進(jìn)行預(yù)測(cè)。對(duì)性別預(yù)測(cè)的結(jié)果,通過(guò)相應(yīng)評(píng)測(cè)指標(biāo)的評(píng)價(jià),對(duì)算法的效果進(jìn)行評(píng)估。實(shí)驗(yàn)的一般流程如圖2所示:

    4.2? 特征抽取

    根據(jù)特征抽取方式的不同,可以獲得微博短文本內(nèi)容的兩類不同特征,分別為語(yǔ)言特征和主題特征。

    4.2.1? 語(yǔ)言特征

    N. Cheng[28]、D. Rao[34]在使用Twitter數(shù)據(jù)進(jìn)行用戶性別預(yù)測(cè)時(shí)采納的語(yǔ)言特征如表1所示,考慮到中文文本與Twitter用戶使用語(yǔ)言的差別,在此基礎(chǔ)上,本研究總結(jié)了7個(gè)可從微博短文本中提取的語(yǔ)言特征類別,分別為:①表情:微博中用戶使用的表情;②情感詞語(yǔ):積極、消極、焦慮、憤怒等情感詞的總稱;③語(yǔ)氣詞:“哈哈”“恩恩”等描述語(yǔ)氣的詞;④親屬稱呼:“媽媽”“父母”“兄弟姐妹”等稱呼;⑤標(biāo)點(diǎn)符號(hào):包括各種重復(fù)使用的標(biāo)點(diǎn),如“?。?!”;⑥代詞:“你”“你的”等;⑦禁語(yǔ):指在用戶文本中出現(xiàn)的不文明語(yǔ)言。

    本文通過(guò)以下方式獲取語(yǔ)言特征:

    (1)表情。微博短文本中表情以“[具體表情]”的格式體現(xiàn)(例如:[微笑]),可使用正則表達(dá)式從文中抓取每一個(gè)用戶使用的表情,對(duì)每一個(gè)用戶的所有表情取并集獲得表情全集。

    (2)情感詞。對(duì)于情感詞語(yǔ)語(yǔ)言特征可使用NTUSD情感詞典與原文進(jìn)行匹配,獲取用戶使用的情感詞語(yǔ),對(duì)每一個(gè)用戶的所有情感詞語(yǔ)取并集獲得情感詞語(yǔ)全集。

    (3)語(yǔ)氣詞、親屬稱呼、標(biāo)點(diǎn)符號(hào)、代詞、禁語(yǔ)。由于該類詞語(yǔ)的數(shù)量相對(duì)而言比較少,可以直接通過(guò)對(duì)部分用戶的微博短文本進(jìn)行標(biāo)記,找出相關(guān)的詞語(yǔ)。但考慮到人工標(biāo)記不全的問(wèn)題,本文嘗試?yán)梦谋鞠蛄炕蟮挠嘞揖嚯x,選擇相似的詞作為該類詞語(yǔ)的補(bǔ)充,具體而言:使用Word2Vec對(duì)分詞后的微博短文本進(jìn)行計(jì)算,獲得每個(gè)詞的詞向量;針對(duì)人工標(biāo)記出的語(yǔ)氣詞、親屬稱呼、代詞、禁語(yǔ),計(jì)算這些詞語(yǔ)與語(yǔ)料庫(kù)中詞語(yǔ)的相似度,根據(jù)相似度排序篩選出同類別的詞作為補(bǔ)充最高的詞。

    對(duì)于短文本中出現(xiàn)的詞語(yǔ)t,使用公式(1)統(tǒng)計(jì)性別i使用詞語(yǔ)t的人數(shù)占該性別總?cè)藬?shù)的比例,式中n(i,t)表示性別i的用戶中使用了t詞語(yǔ)的人數(shù),n(i)表示性別i的用戶總?cè)藬?shù)。

    公式(1)

    通過(guò)對(duì)7個(gè)類別詞語(yǔ)在不同性別用戶中的使用比例,發(fā)現(xiàn)男性和女性使用標(biāo)點(diǎn)符號(hào)和代詞類別詞語(yǔ)的比例相近,因而不選擇這兩類詞作為語(yǔ)言特征。

    對(duì)表情、情感詞語(yǔ)、語(yǔ)氣詞、親屬稱呼和禁語(yǔ)這5個(gè)類別的詞語(yǔ)分析,男女使用比例最高的10個(gè)詞語(yǔ)的如圖3-圖7所示。橫坐標(biāo)代表某個(gè)詞語(yǔ),縱坐標(biāo)為使用比例。從中可以看出:女性相比男性,使用表情的比例更大;情感詞語(yǔ)中不同詞語(yǔ)的使用情況不同;親屬稱呼和語(yǔ)氣詞中,個(gè)別詞語(yǔ)男性使用的比例更大,總體上女性更偏向使用該類詞語(yǔ);禁語(yǔ)總體使用比例較小,但男性比女性更傾向使用這類詞語(yǔ)。

    對(duì)于表情和情感詞語(yǔ)這兩個(gè)特征,本研究使用卡方檢驗(yàn)(chi-square test)進(jìn)行篩選詞語(yǔ)用于特征構(gòu)建。對(duì)詞語(yǔ)t,統(tǒng)計(jì)不同性別使用該詞語(yǔ)的情況如表2所示:

    詞語(yǔ)t的卡方值χ2可由公式(2)計(jì)算得,卡方值越大說(shuō)明該詞語(yǔ)與性別的相關(guān)度越大,因此各選擇卡方值最大的100個(gè)詞語(yǔ)構(gòu)成表情和情感詞語(yǔ)的語(yǔ)言特征。

    對(duì)于語(yǔ)氣詞、親屬稱呼和禁語(yǔ)這三個(gè)語(yǔ)言特征,由于在特征詞篩選的過(guò)程中篩選的詞較少,本文不采用上述的卡方檢驗(yàn)的方案選取特征,而是將這三個(gè)類別的全部詞語(yǔ)共計(jì)75個(gè)用于語(yǔ)言特征的構(gòu)造。

    以上5個(gè)類別共選取了275個(gè)詞語(yǔ)用于構(gòu)成微博短文本內(nèi)容的語(yǔ)言特征。對(duì)于第i個(gè)用戶,統(tǒng)計(jì)該用戶使用詞語(yǔ)t的頻次tin,構(gòu)建語(yǔ)言特征向量Xi,其計(jì)算公式為:

    Xi=(ti1,ti2,ti3,…,tin)? ? ? ? ? ? ? ? 公式(3)

    4.2.2? 主題特征

    不同性別用戶的興趣愛(ài)好不同會(huì)導(dǎo)致發(fā)送微博文本的主題不同,因此可以運(yùn)用LDA(Latent Dirichlet Allocation)模型對(duì)用戶微博短文本的主題抽取,構(gòu)建主題特征用于預(yù)測(cè)用戶性別。LDA是一種基于詞袋模型的無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法,可以用來(lái)識(shí)別大規(guī)模文檔集中潛藏的主題信息,同時(shí)也能有效對(duì)文本內(nèi)容降維,解決數(shù)據(jù)稀疏問(wèn)題。

    LDA模型將語(yǔ)料庫(kù)中的每一篇文檔與K個(gè)主題的多項(xiàng)式分布記為θ,每個(gè)主題與詞匯表中的N個(gè)單詞的多項(xiàng)式分布記為 ?。θ和?分別有一個(gè)帶有超參數(shù)α和β的Dirichlet先驗(yàn)分布。對(duì)于一篇文檔d中的每一個(gè)單詞wi,P(zi=k)代表從文檔中抽取一個(gè)單詞wi,P(wi|zi=k)屬于主題z的概率;從主題z中抽取一個(gè)單詞,代表當(dāng)取出單詞屬于主題k時(shí)該單詞為wi的概率。將這個(gè)過(guò)程重復(fù)Nd次(Nd是文檔d的單詞總數(shù)),就產(chǎn)生了文檔d。文檔中單詞wi的概率就能表示為:

    公式(4)

    在本研究中,將每名用戶發(fā)布的所有短文本內(nèi)容構(gòu)成第i個(gè)用戶的文檔Di,那么可認(rèn)為文檔Di的主題分布向量(zi1, zi2, zi3, …, zik)可認(rèn)為構(gòu)成了第i個(gè)用戶的主題分布向量。

    Yi=(zi1, zi2, zi3, …, zik)? ? ? ? ? ?公式(5)

    本文在LDA模型訓(xùn)練的過(guò)程中使用困惑度確定模型最佳K值,實(shí)驗(yàn)過(guò)程中,Gibbs抽樣迭代的次數(shù)設(shè)為100,α、β超參數(shù)設(shè)置為α=50/K,β=0.01,此時(shí)算法有較好的表現(xiàn)[37]。在K值提升的過(guò)程中,困惑度的下降有限,圖8展示的是K值與困惑度的關(guān)系,結(jié)合不同K值的困惑度和最終產(chǎn)出主題的詞語(yǔ),本文使用K值為15時(shí)產(chǎn)出的模型結(jié)果。表3展示的是15個(gè)主題中排序前10的詞語(yǔ)。

    5? 實(shí)驗(yàn)結(jié)果與分析

    5.1? 評(píng)價(jià)方法

    研究選用精準(zhǔn)率(Precision)、召回率(Recall)和F值(F-Measure)作為評(píng)價(jià)指標(biāo)來(lái)對(duì)實(shí)驗(yàn)的結(jié)果進(jìn)行比較評(píng)價(jià)。三種指標(biāo)的計(jì)算方式如下:

    ;? ? ? ? ? ? 公式(6)

    ;? ? ? ? ? ? ?公式(7)

    公式(8)

    以女性性別為例,TP表示將性別預(yù)測(cè)正確的數(shù)量;FN表示將正確的女性預(yù)測(cè)為男性的數(shù)量;FP表示將正確的男性預(yù)測(cè)為女性的數(shù)量。

    5.2? 模型訓(xùn)練

    5.2.1? 訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)

    數(shù)據(jù)預(yù)處理得到的4 342名用戶中男性和女性的數(shù)據(jù)比例不一致,為更好地進(jìn)行試驗(yàn),隨機(jī)選擇2 110名用戶按照1:1的性別比例構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,2 110名用戶共發(fā)表微博156 627篇。其中1 560名用戶用于模型的訓(xùn)練(男女性別比例為1:1),550名用戶用于模型效果的檢驗(yàn)(男女性別比例為1:1)。

    在模型訓(xùn)練階段,1 560名用戶采用5折交叉檢驗(yàn)的方法進(jìn)行模型訓(xùn)練,保證數(shù)據(jù)的充分利用與模型訓(xùn)練的準(zhǔn)確。

    5.2.2? 模型的參數(shù)調(diào)優(yōu)

    將抽取的用戶語(yǔ)言特征與主題特征組合成為新的特征向量進(jìn)行實(shí)驗(yàn),獲取最佳的性別預(yù)測(cè)結(jié)果。

    Mi=(Xi+Yi)=(ti1, ti2, ti3, …, tin, zi1, zi2, zi3, …, zik)

    公式(9)

    本研究采用的是支持向量機(jī)(Support Vector Machine, SVM)這一基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法。支持向量機(jī)通過(guò)核函數(shù)解決計(jì)算復(fù)雜度的問(wèn)題,除重要的參數(shù)cost外,還有四種不同的核函數(shù),分別為線性(Linear)核函數(shù)、徑向基(radial basis function, RBF)核函數(shù)、sigmoid核函數(shù)和多項(xiàng)式(Polynomial)核函數(shù),每一種核函數(shù)有不同數(shù)量的參數(shù)。本文使用LIBSVM這一軟件包實(shí)現(xiàn)對(duì)用戶性別的預(yù)測(cè),通過(guò)選定不同的核函數(shù)、控制相關(guān)變量對(duì)核函數(shù)進(jìn)行參數(shù)訓(xùn)練,從而獲得最優(yōu)的預(yù)測(cè)效果。

    對(duì)于線性核函數(shù)只需訓(xùn)練參數(shù)cost。為了使cost值盡量覆蓋更多的值,本文使用指數(shù)函數(shù)規(guī)定cost的選取范圍,其取值范圍為2–10至25。最終結(jié)果顯示當(dāng)cost=1/32時(shí)在評(píng)價(jià)指標(biāo)上表現(xiàn)最好,有較好的預(yù)測(cè)效果。圖9展示了不同cost取值時(shí)的預(yù)測(cè)效果,可以看出當(dāng)cost值較小或者較大的時(shí)候,預(yù)測(cè)的效果都不夠好,這是因?yàn)椋琧ost值越高越容易過(guò)擬合,cost值越小越容易欠擬合。

    徑向基核函數(shù)有g(shù)amma參數(shù)以及cost參數(shù),本研究使用GridSearch網(wǎng)格搜索的方式確定最佳參數(shù),gamma以及cost的變化范圍都是從2–10至25。當(dāng)cost=32,gamma=1/128時(shí)預(yù)測(cè)結(jié)果最佳。gamma是RBF函數(shù)中自帶的一個(gè)參數(shù),一定程度上決定了數(shù)據(jù)映射到新的特征空間后的分布,gamma值越大支持向量越少,gamma值越小支持向量越多,支持向量的個(gè)數(shù)影響模型訓(xùn)練的速度和準(zhǔn)確度。圖10展示的是固定cost值為1,改變模型gamma的值,在測(cè)試集中進(jìn)行分類的結(jié)果,從中可以看到,當(dāng)gamma大于1的時(shí)候預(yù)測(cè)的準(zhǔn)確率很低。

    sigmoid核函數(shù)有cost、gamma和coef0三種參數(shù),本研究分兩步進(jìn)行參數(shù)調(diào)優(yōu):①將cost設(shè)為默認(rèn)值1,使用GridSearch網(wǎng)格搜索確定gamma以及coef0的值,其中g(shù)amma和coef0的取值范圍定為2–10至25;②使用第一步訓(xùn)練出的gamma以及coef0值,將cost的范圍設(shè)定為2–10至25進(jìn)行訓(xùn)練。最終得到當(dāng)cost=32,coef0=8,gamma=1/16時(shí)模型的預(yù)測(cè)效果最佳。圖11展示的是固定cost值與gamma值,改變模型中coef0的值對(duì)測(cè)試集的預(yù)測(cè)效果,當(dāng)coef0的值超過(guò)某個(gè)值后,其預(yù)測(cè)效果將大幅下滑,通常情況下coef0的值越大,預(yù)測(cè)結(jié)果越差。

    多項(xiàng)式核函數(shù)有cost、gamma、coef0和degree 4種參數(shù),其中degree參數(shù)最為關(guān)鍵。本文分3個(gè)步驟來(lái)確定最佳參數(shù):①將cost,gamma,coef0設(shè)定成為默認(rèn)值,將degree范圍設(shè)定為0至19進(jìn)行訓(xùn)練,得到最佳degree值為1;②將cost設(shè)置為默認(rèn)值,degree設(shè)置為最優(yōu)參數(shù)1,使用GridSearch網(wǎng)格搜索法使gamma及coef0在2–10至25取值范圍內(nèi)變化,得到最佳的gamma=1/4, coef0=16的值;③degree=1,gamma=1/4,coef0=16設(shè)為固定參數(shù),將cost取值在2–10至25訓(xùn)練,最終確定的最優(yōu)參數(shù)為degree=1, gamma=1/4,coef0=16,cost=16時(shí)模型的預(yù)測(cè)效果最佳。圖12展示的是改變模型中degree的值,對(duì)測(cè)試集進(jìn)行預(yù)測(cè)的效果,其中degree的變化范圍從0到19,隨著degree值越來(lái)越大,預(yù)測(cè)效果越來(lái)越差,當(dāng)degree超過(guò)15后預(yù)測(cè)結(jié)果幾乎沒(méi)有任何改變。

    針對(duì)在測(cè)試集的預(yù)測(cè)結(jié)果,選取4種不同核函數(shù)效果最優(yōu)的參數(shù)進(jìn)行橫向比較,可以看出sigmoid核函數(shù)的表現(xiàn)最差,在三個(gè)指標(biāo)中均未達(dá)到80%;徑向基核函數(shù)的預(yù)測(cè)效果最好,在三個(gè)評(píng)測(cè)指標(biāo)中都比其他核函數(shù)表現(xiàn)更好。因此將選擇參數(shù)為cost=32,gamma=1/128的徑向基核函數(shù)作為預(yù)測(cè)模型,用于實(shí)驗(yàn)數(shù)據(jù)的預(yù)測(cè)。

    5.3? 結(jié)果比較

    5.3.1? baseline選擇

    基于n元語(yǔ)法模型的性別預(yù)測(cè)方法[31-34]和基于心理語(yǔ)言學(xué)詞典的性別預(yù)測(cè)方法[38]都是利用用戶的微博文本內(nèi)容進(jìn)行性別預(yù)測(cè)的自然語(yǔ)言處理方法,在針對(duì)社交媒體中用戶的性別預(yù)測(cè)有較好的效果。本文選擇這兩種方法作為baseline進(jìn)行比較。

    在n元語(yǔ)法模型中,通過(guò)抽取500個(gè)最具有區(qū)分性的一元和二元詞,統(tǒng)計(jì)每名用戶的使用頻率作為權(quán)重構(gòu)建用戶的特征向量;針對(duì)基于心理語(yǔ)言學(xué)詞典的用戶特征向量,使用文心(TextMind)中文心理分析系統(tǒng)[39]構(gòu)建,對(duì)用戶發(fā)文的內(nèi)容進(jìn)行統(tǒng)計(jì),提取102個(gè)特征,包括各種詞性詞語(yǔ)使用的數(shù)量、詞長(zhǎng)比例、情感詞數(shù)量等。

    5.3.2? 結(jié)果對(duì)比

    將實(shí)驗(yàn)數(shù)據(jù)應(yīng)用于訓(xùn)練所得的最優(yōu)模型,如圖13所示,本文提出的主題特征、語(yǔ)言特征構(gòu)建及兩種特征融合構(gòu)建的性別預(yù)測(cè)模型的精準(zhǔn)率、召回率和F值指標(biāo)均比選擇的baseline有所提升,特別是與心理語(yǔ)言學(xué)詞典相比,提升較大,本研究表現(xiàn)最差的主題特征在該指標(biāo)上都提升了14.3個(gè)百分點(diǎn)。

    基于n元語(yǔ)法模型的性別預(yù)測(cè)效果不顯著,精準(zhǔn)率、召回率和F值都未達(dá)到70%,其中F值表現(xiàn)最好,為69.3%。通過(guò)分析可知,n元語(yǔ)法模型雖然抽取了500個(gè)特征進(jìn)行特征向量的降維,但構(gòu)造的特征向量依然較為稀疏。表5展示了針對(duì)同一用戶使用n元語(yǔ)法模型和語(yǔ)言特征構(gòu)造的向量。由于n元語(yǔ)法模型是針對(duì)所有的一元和二元詞匯進(jìn)行的特征選擇,這些詞語(yǔ)數(shù)量較多,造成向量稀疏。而本文構(gòu)建語(yǔ)言特征時(shí)選擇的詞語(yǔ),通過(guò)對(duì)用戶使用頻率的統(tǒng)計(jì)有效避免了稀疏問(wèn)題。

    心理語(yǔ)言學(xué)詞典方法的精準(zhǔn)率雖然達(dá)到了72.6%,但召回率只有60%。通過(guò)分析可知,心理語(yǔ)言詞典構(gòu)建的特征中包含代詞、表達(dá)符合這類的詞語(yǔ),而本文的語(yǔ)言特征通過(guò)統(tǒng)計(jì)這類詞語(yǔ)與性別的關(guān)聯(lián)度,這類詞語(yǔ)忽略,不納入語(yǔ)言特征的構(gòu)建,而心理語(yǔ)言詞典沒(méi)有忽略,均納入了特征構(gòu)建,得到的精確率、召回率和F值比語(yǔ)言特征分別低9.1%、20.4%和17.3%。從而進(jìn)一步驗(yàn)證了基于語(yǔ)言特征構(gòu)建模型預(yù)測(cè)性別時(shí)需忽略代詞和表達(dá)符合等。

    對(duì)比本研究的主題特征、語(yǔ)言特征和兩種特征疊加可知,主題特征表現(xiàn)最差,語(yǔ)言特征表現(xiàn)較好,疊加特征結(jié)果最優(yōu)。在精準(zhǔn)率指標(biāo)上,語(yǔ)言特征的精準(zhǔn)率為81.7%,僅比主題特征高0.8%,但在召回率和F值上,語(yǔ)言特征大幅提升,分別提升了6.1%和5.7%。精準(zhǔn)率的提升,表明語(yǔ)言特征進(jìn)行性別預(yù)測(cè)時(shí)更加有效。兩種特征疊加的預(yù)測(cè)結(jié)果,在語(yǔ)言特征的基礎(chǔ)上精準(zhǔn)率進(jìn)一步提升了1.4%,達(dá)到83.1%提升效果顯著;相較之下,召回率和F值與語(yǔ)言特征相比提升有限。分析可知這與主題特征的特征數(shù)量與預(yù)測(cè)效果有關(guān),一方面主題特征的特征數(shù)量較少,另一方面主題特征的召回率與F值相對(duì)語(yǔ)言特征差值較大,因此兩種特征疊加對(duì)召回率和F值的提升較少。

    同時(shí),本文對(duì)比了SVM模型與BP神經(jīng)網(wǎng)絡(luò)和TEXTCNN[40]神經(jīng)網(wǎng)絡(luò)的效果。本文構(gòu)建了2層隱藏層的BP神經(jīng)網(wǎng)絡(luò):第一層含有神經(jīng)元120個(gè),第二層有神經(jīng)元60個(gè),使用通過(guò)主題特征和語(yǔ)言特征提取的向量作為輸入,使用sigmoid函數(shù)作為輸出層函數(shù)。對(duì)于TEXTCNN模型,則不再使用特征向量作為輸入,而是用戶發(fā)送的文本分詞后的詞向量,向量的維數(shù)為128維;在卷積層,使用三種不同高度的卷積核,分別為2、3、4,每一種卷積核的個(gè)數(shù)設(shè)置為128個(gè)。兩種不同模型與SVM模型的效果對(duì)比如圖14所示,總體而言三種模型的效果較為接近,SVM的效果最好。SVM模型的F值比神經(jīng)網(wǎng)絡(luò)高了4%,比TEXTCNN模型高了2%,精準(zhǔn)率上SVM模型比BP神經(jīng)網(wǎng)絡(luò)和TEXTCNN高1%。TEXTCNN的效果比較優(yōu)秀也是因?yàn)槟P涂紤]到了語(yǔ)言上下文之間的關(guān)系,而通過(guò)語(yǔ)言特征和主題特征提取的向量也有相同效果,進(jìn)一步說(shuō)明了語(yǔ)言、主題兩類特征對(duì)于文本性別分類的重要性。

    總體而言,本文提出的主題特征、語(yǔ)言特征和兩種特征疊加對(duì)性別的預(yù)測(cè)均優(yōu)于選取的baseline方法,對(duì)社交媒體用戶性別的預(yù)測(cè)效果起到了很好的提升。

    6? 結(jié)語(yǔ)

    社交媒體中個(gè)人信息的隱私保護(hù)始終面臨諸多挑戰(zhàn),雖然已有法律條文的規(guī)范,但在實(shí)踐過(guò)程中用戶依然暴露在風(fēng)險(xiǎn)中。利用社交媒體中的相關(guān)信息進(jìn)行性別預(yù)測(cè),能對(duì)用戶起到一定的保護(hù)作用。

    本文以中文社交媒體新浪微博為例,從用戶的短文本中提取主題特征和語(yǔ)言特征,對(duì)支持向量機(jī)的機(jī)器學(xué)習(xí)算法進(jìn)行參數(shù)調(diào)優(yōu)與訓(xùn)練,得到一個(gè)對(duì)性別預(yù)測(cè)有顯著提升的分類器,起到了較好的預(yù)測(cè)效果,在精準(zhǔn)率、召回率和F值上都有所提升,特別是精準(zhǔn)率與baseline方法相比提升均超過(guò)10個(gè)百分點(diǎn),說(shuō)明從短文本的角度對(duì)用戶性別進(jìn)行預(yù)測(cè)是一個(gè)有效的途徑。同時(shí),與常用的n元語(yǔ)法模型和心理語(yǔ)言學(xué)詞典方法相比較,有效解決了構(gòu)造向量的稀疏問(wèn)題,為進(jìn)一步促進(jìn)基于性別的用戶信息保護(hù)提供了基礎(chǔ)。

    本研究提出的方法是利用中文短文本進(jìn)行性別預(yù)測(cè),該方法可推廣到其他社交媒體如Twitter中進(jìn)行中文用戶的性別預(yù)測(cè)。

    參考文獻(xiàn):

    [1] 陳傳夫, 劉雅琦. 公共部門信息增值利用中的個(gè)人信息保護(hù)[J].情報(bào)科學(xué), 2010, 28(10): 1455-1460.

    [2] 劉雅琦. 公共部門信息增值利用中的個(gè)人信息保護(hù)立法研究[J]. 情報(bào)理論與實(shí)踐, 2011, 34(4): 40-43.

    [3] 鄭莉, 蔡瓊, 石曼, 等. 社交網(wǎng)絡(luò)隱私成本的量化研究[J]. 科教導(dǎo)刊(電子版), 2019(1): 282.

    [4] 曹楊. 微博用戶性別分類研究及應(yīng)用[D]. 合肥: 安徽大學(xué), 2019.

    [5] 熊杰. 政務(wù)微博在線評(píng)論中的用戶情緒及行為研究[D].成都: 電子科技大學(xué), 2020.

    [6] WALTON S C, RICE R E. Mediated disclosure on Twitter: the roles of gender and identity in boundary impermeability, valence, disclosure, and stage[J]. Computers in human behavior, 2013, 29(4): 1465-1474.

    [7] PIAO G, BRESLIN J G. User modeling on Twitter with WordNet Synsets and DBpedia Concepts for Personalized Recommendations[C]//ACM international conference on information & knowledge management. Indianapolis: ACM, 2016:2057-2060.

    [8] PAN. Shared tasks[EB/OL].[2021-02-04]. https://pan.webis.de/shared-tasks.html.

    [9] BIENDATA.比賽項(xiàng)目[EB/OL].[2021-02-04]. https://www.biendata.xyz/competition/.

    [10] SMITH J. Gender prediction in social media[EB/OL].[2021-02-04]. https://arxiv.org/abs/1407.2147.

    [11] ABBASI M A, CHAI S K, LIU H, et al. Real-world behavior analysis through a social media lens[C]//International conference on social computing, behavioral-cultural modeling, and prediction. Berlin: Springer, 2012: 18-26.

    [12] ZHELEVA E, GETOOR L. To join or not to join: the illusion of privacy in social networks with mixed public and private user profiles[C]//Proceedings of the 18th international conference on World Wide Web, 2009: 531-540.

    [13] SCHWARTZ H A, EICHSTAEDT J C, KERN M L, et al. Personality, gender, and age in the language of social media: the open-vocabulary approach[J]. PloS one, 2013, 8(9): e73791.

    [14] VICENTE M, BATISTA F, CARVALHO J P. Gender detection of Twitter users based on multiple information sources[M]//Interactions between computational intelligence and mathematics part 2. Cham: Springer,? 2019: 39-54.

    [15] SUN X, WU P, LIU H. Facial age estimation using bio-inspired features and cost-sensitive ordinal hyperplane rank[C]// IEEE, International Conference on Cloud Computing and Intelligence Systems. Shenzhen: IEEE, 2015:81-85.

    [16] GUO G, MU G, FU Y. Gender from body: a biologically-inspired approach with manifold learning[M]// Computer vision – ACCV 2009. Berlin: Springer, 2009.

    [17] LANITIS A, TAYLOR C J, COOTES T F. Toward automatic simulation of aging effects on face images[J]. Pattern analysis & machine intelligence IEEE transactions on, 2002, 24(4):442-455.

    [18] GUNAY A, NABIYEV V V. Automatic age classification with LBP[C]// International symposium on computer and information sciences. Istanbul: IEEE, 2008:1-4.

    [19] SHAN C. Learning local binary patterns for gender classification on real-world face images[M]. Amsterdam: Elsevier Science Inc. 2012.

    [20] BALUJA S, ROWLEY H. Boosting sex identification performance[J]. International journal of computer vision, 2007, 71(1): 111-119.

    [21] MANSANET J, ALBIOL A, PAREDES R. Local deep neural networks for gender recognition[M]. Amsterdam: Elsevier Science Inc, 2016.

    [22] 吳澤銀. 基于集成卷積神經(jīng)網(wǎng)絡(luò)的人臉性別識(shí)別研究[D].廣州: 華南理工大學(xué),2016.

    [23] BURGER J D, HENDERSON J, KIM G, et al. Discriminating gender on Twitter[C]// Conference on empirical methods in natural language processing. Edinburgh: Association for Computational Linguistics, 2011: 1301-1309.

    [24] ALOWIBDI J S, BUY U A, YU P. Language independent gender classification on Twitter[C]// IEEE/ACM international conference on advances in social networks analysis and mining. Niagara Falls: IEEE, 2013:739-743.

    [25] 錢鐵云, 尤珍妮, 陳麗, 等. 基于興趣標(biāo)簽的緘默用戶性別預(yù)測(cè)研究[J]. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 43(12): 101-105.

    [26] LI S, WANG J, ZHOU G, et al. Interactive gender inference with integer linear programming[C]// International joint conference on artificial intelligence. Barcelona: AAAI Press, 2015: 2341-2347.

    [27] 戴斌, 李壽山, 貢正仙, 等. 基于多類型文本的半監(jiān)督性別分類方法研究[J]. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 40(1):14-20.

    [28] CHENG N, CHANDRAMOULI R, SUBBALAKSHMI K P. Author gender identification from text[J]. Digital investigation, 2012, 8(1):78-88.

    [29] FILHO J A B L, PASTI R, CASTRO L N D. Gender classification of twitter data based on textual meta-attributes extraction[C]// World conference on information systems and technologies. Switzerland: Springer, 2016:1025-1034.

    [30] WANG Q, MA S, ZHANG C. Predicting users demographic characteristics in a Chinese social media network[J]. The electronic library, 2017, 35(4): 758-769.

    [31] PEERSMAN C, DAELEMANS W, VAERENBERGH L V. Predicting age and gender in online social networks[C]// International CIKM workshop on search and mining user-generated contents. Glasgow:DBLP, 2011:37-44.

    [32] 王晶晶, 李壽山, 黃磊. 中文微博用戶性別分類方法研究[J]. 中文信息學(xué)報(bào), 2014, 28(6):150-155.

    [33] MILLER Z, DICKINSON B, HU W. Gender prediction on Twitter using stream algorithms with N-Gram character features[J]. International journal of intelligence science, 2012, 2(4):143-148.

    [34] RAO D, YAROWSKY D, SHREEVATS A, et al. Classifying latent user attributes in Twitter[C]// International workshop on search and mining user-generated contents. New York: ACM, 2010:37-44.

    [35] BIENDATA.SMPCUP2016微博用戶畫像數(shù)據(jù)[EB/OL]. [2020-10-08].https://www.biendata.xyz/competition/smpcup2016/data/.

    [36] BAMMAN D, EISENSTEIN J, SCHNOEBELEN T. Gender identity and lexical variation in social media[J]. Journal of sociolinguistics, 2014, 18(2):135–160.

    [37] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of machine learning research, 2003, 3(3):993-1022.

    [38] CHEN J, HUANG H, TIAN S, et al. Feature selection for text classification with Na?ve Bayes[J]. Expert systems with applications an international journal, 2009, 36(3):5432-5435.

    [39] GAO R, HAO B, LI H, et al. Developing simplified Chinese psychological linguistic analysis dictionary for Microblog[M]// Brain and health informatics, 2013:359-368.

    [40] KIM Y. Convolutional neural networks for sentence classification[EB/OL].[2021-02-04]. https://arxiv.org/abs/1408.5882

    作者貢獻(xiàn)說(shuō)明:

    雅琦:實(shí)驗(yàn)設(shè)計(jì)與論文修改;

    李得志:數(shù)據(jù)收集、實(shí)驗(yàn)與部分論文撰寫;

    王瑞雪:數(shù)據(jù)分析與部分論文撰寫。

    Research on Gender Prediction of Chinese Social Media Users

    ——Taking Sina Weibo Short Text Content as an Example

    Liu Yaqi1? Li Dezhi2? Wang Ruixue3

    1. School of Information and Security Engineering, Zhongnan University of Economics and Law,

    Wuhan? 430073

    2. Baidu Network Technology Co.,Ltd., Beijing 100085

    3. School of Information Management, Wuhan University, Wuhan 430072

    Abstract: [Purpose/significance] Different from the rapid development of the Internet, the development of personal information security protection is relatively lagging. By predicting the gender of social media users, it can better provide privacy protection for the users. [Method/process] The short texts posted by users in social media, Sina Weibo, were taken as the research object. The experiment extracted linguistic features and topic features from the short texts. For each user, we constructed features vector based on linguistic features, topic features, and the superposition of two features, then used SVM Machine learning algorithms built a classifier for gender prediction. [Result/conclusion] Experiments show that the linguistic features and topic features can predict the gender of the users accurately, and the effect is superior to other features used in gender prediction.

    Keywords: short text? ? gender prediction? ? topic features? ? linguistic features

    猜你喜歡
    語(yǔ)言特征
    試論基于當(dāng)今語(yǔ)境的播音主持語(yǔ)言藝術(shù)特征
    從北方方言淺析老舍《火車集》語(yǔ)言特征
    《哈克貝利?芬歷險(xiǎn)記》中黑人英語(yǔ)的語(yǔ)言特征
    當(dāng)代中國(guó)意象油畫的語(yǔ)言特征與色彩表現(xiàn)研究
    物流英語(yǔ)的語(yǔ)言特征及翻譯
    萊爾《老年的浪漫》英譯本語(yǔ)言淺析
    人間(2016年30期)2016-12-03 19:22:36
    茶藝英語(yǔ)的中國(guó)英語(yǔ)研究
    考試周刊(2016年89期)2016-12-01 12:59:53
    解構(gòu)口語(yǔ)化新聞的語(yǔ)言特征
    今傳媒(2016年9期)2016-10-15 23:05:15
    中國(guó)英語(yǔ)的語(yǔ)言特征及其對(duì)中國(guó)英語(yǔ)教學(xué)的啟示
    青春歲月(2015年20期)2015-11-09 12:31:18
    基于.NET的維哈柯多語(yǔ)種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    国产综合懂色| 亚洲三级黄色毛片| 高清毛片免费观看视频网站| 欧美xxxx黑人xx丫x性爽| 毛片一级片免费看久久久久 | 999久久久精品免费观看国产| 永久网站在线| 日韩欧美国产一区二区入口| 丁香欧美五月| 在线观看一区二区三区| 我的女老师完整版在线观看| 亚洲熟妇熟女久久| 国产精品精品国产色婷婷| 亚洲性夜色夜夜综合| 女人十人毛片免费观看3o分钟| 男插女下体视频免费在线播放| 亚洲aⅴ乱码一区二区在线播放| 一个人免费在线观看电影| 我要搜黄色片| 久久精品国产清高在天天线| 亚洲片人在线观看| 国内揄拍国产精品人妻在线| 身体一侧抽搐| 亚洲成人免费电影在线观看| 国产精品99久久久久久久久| 白带黄色成豆腐渣| 自拍偷自拍亚洲精品老妇| 在线观看av片永久免费下载| 精品人妻偷拍中文字幕| 不卡一级毛片| 亚洲国产高清在线一区二区三| 精品国产亚洲在线| 亚洲国产精品999在线| 久久精品夜夜夜夜夜久久蜜豆| 精品乱码久久久久久99久播| 国内毛片毛片毛片毛片毛片| a级毛片免费高清观看在线播放| 午夜亚洲福利在线播放| 天天躁日日操中文字幕| 欧美xxxx黑人xx丫x性爽| 麻豆国产av国片精品| 亚洲一区高清亚洲精品| 99久久成人亚洲精品观看| 日韩欧美在线乱码| 国产乱人伦免费视频| 夜夜看夜夜爽夜夜摸| 一进一出抽搐gif免费好疼| 黄色配什么色好看| 国产老妇女一区| 在线观看免费视频日本深夜| 国内少妇人妻偷人精品xxx网站| 91av网一区二区| 在线免费观看的www视频| a级毛片a级免费在线| 嫩草影院新地址| 日本一二三区视频观看| 国产视频内射| 亚洲天堂国产精品一区在线| 午夜视频国产福利| 黄色一级大片看看| 色哟哟哟哟哟哟| 3wmmmm亚洲av在线观看| 免费高清视频大片| 亚洲精品粉嫩美女一区| 欧美性感艳星| 日韩av在线大香蕉| 国产精华一区二区三区| 欧美xxxx性猛交bbbb| 日韩欧美在线二视频| 亚洲成av人片在线播放无| 伦理电影大哥的女人| 中文亚洲av片在线观看爽| 亚洲成人久久性| 美女免费视频网站| 久久久成人免费电影| 亚洲国产欧美人成| 欧美在线一区亚洲| 精品一区二区三区视频在线| 国产视频内射| 又黄又爽又刺激的免费视频.| 亚洲中文日韩欧美视频| 老熟妇乱子伦视频在线观看| 91字幕亚洲| 欧美午夜高清在线| 亚洲黑人精品在线| 日韩 亚洲 欧美在线| 一级av片app| 老女人水多毛片| 天堂网av新在线| 特级一级黄色大片| 亚洲国产高清在线一区二区三| 久久人人精品亚洲av| 91麻豆精品激情在线观看国产| 99热这里只有是精品50| 久久久久免费精品人妻一区二区| 中文亚洲av片在线观看爽| 日韩欧美精品v在线| 五月玫瑰六月丁香| 免费搜索国产男女视频| 97超级碰碰碰精品色视频在线观看| av在线老鸭窝| 少妇高潮的动态图| 亚洲精品一区av在线观看| 国产私拍福利视频在线观看| 琪琪午夜伦伦电影理论片6080| 亚洲精品粉嫩美女一区| 欧美性猛交╳xxx乱大交人| 在线观看美女被高潮喷水网站 | 成人av在线播放网站| 51国产日韩欧美| av黄色大香蕉| 国产伦一二天堂av在线观看| 老熟妇乱子伦视频在线观看| 国产乱人视频| 久久久久久久久大av| 美女xxoo啪啪120秒动态图 | 国产白丝娇喘喷水9色精品| 成人国产一区最新在线观看| 色吧在线观看| 国内毛片毛片毛片毛片毛片| 真人一进一出gif抽搐免费| 国产单亲对白刺激| 国产在线男女| 麻豆久久精品国产亚洲av| av欧美777| 亚洲自偷自拍三级| 中文字幕精品亚洲无线码一区| 9191精品国产免费久久| 国产午夜精品久久久久久一区二区三区 | 婷婷亚洲欧美| 国产高清视频在线播放一区| 久久精品国产自在天天线| 精品免费久久久久久久清纯| 一级毛片久久久久久久久女| 国产淫片久久久久久久久 | 黄色配什么色好看| 欧美日本亚洲视频在线播放| 国产一区二区在线av高清观看| 亚洲精品影视一区二区三区av| 97超级碰碰碰精品色视频在线观看| 怎么达到女性高潮| 久久香蕉精品热| 热99在线观看视频| 成年女人永久免费观看视频| 国内毛片毛片毛片毛片毛片| 久久久色成人| 国产v大片淫在线免费观看| 亚洲av中文字字幕乱码综合| 久久国产精品影院| 深夜a级毛片| 色哟哟·www| 禁无遮挡网站| 亚洲美女搞黄在线观看 | 欧美日韩瑟瑟在线播放| 91字幕亚洲| 一二三四社区在线视频社区8| 日韩高清综合在线| 日韩欧美在线二视频| 91狼人影院| 国产乱人视频| 国产私拍福利视频在线观看| 丝袜美腿在线中文| 桃色一区二区三区在线观看| 九色国产91popny在线| 亚洲欧美日韩东京热| 男人舔奶头视频| 亚洲片人在线观看| 久久久久久久午夜电影| 午夜福利视频1000在线观看| 国产久久久一区二区三区| 成人永久免费在线观看视频| 在线观看舔阴道视频| 亚洲第一区二区三区不卡| 香蕉av资源在线| 中亚洲国语对白在线视频| 久久草成人影院| 99热精品在线国产| av在线蜜桃| 欧美黑人欧美精品刺激| 岛国在线免费视频观看| 女人被狂操c到高潮| 国产亚洲精品综合一区在线观看| 国产高清视频在线播放一区| 国产高清视频在线观看网站| 两个人视频免费观看高清| 国产美女午夜福利| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 亚洲第一区二区三区不卡| 欧美午夜高清在线| 日韩av在线大香蕉| 精品99又大又爽又粗少妇毛片 | 国产伦在线观看视频一区| 久久久久久九九精品二区国产| 香蕉av资源在线| 18禁裸乳无遮挡免费网站照片| 一级av片app| 在线a可以看的网站| 一二三四社区在线视频社区8| 99在线视频只有这里精品首页| 国产单亲对白刺激| 性欧美人与动物交配| 精品日产1卡2卡| 免费av观看视频| 国产高潮美女av| 精品久久久久久久久av| 久久久色成人| 亚洲欧美日韩高清在线视频| 亚洲人成网站高清观看| 少妇丰满av| 欧美性感艳星| 国产成人aa在线观看| 99热精品在线国产| 每晚都被弄得嗷嗷叫到高潮| 亚洲专区中文字幕在线| 99久久精品热视频| 色播亚洲综合网| 色视频www国产| 在线国产一区二区在线| 亚洲专区中文字幕在线| 88av欧美| 好男人在线观看高清免费视频| 日本一本二区三区精品| 亚洲人成网站在线播放欧美日韩| 午夜福利欧美成人| 色av中文字幕| 国产精品一区二区三区四区免费观看 | 色综合欧美亚洲国产小说| 久久香蕉精品热| 亚洲av一区综合| 日本一本二区三区精品| av欧美777| 国产中年淑女户外野战色| 国产黄片美女视频| 国产精品精品国产色婷婷| 九色国产91popny在线| 亚洲欧美日韩无卡精品| 99精品久久久久人妻精品| 国产乱人伦免费视频| 淫秽高清视频在线观看| 亚洲av成人精品一区久久| 深夜a级毛片| 麻豆成人午夜福利视频| 女同久久另类99精品国产91| 亚洲av一区综合| 亚洲三级黄色毛片| 亚洲美女视频黄频| 成年女人毛片免费观看观看9| 国产免费一级a男人的天堂| 两个人视频免费观看高清| 非洲黑人性xxxx精品又粗又长| 窝窝影院91人妻| av在线观看视频网站免费| 亚洲五月天丁香| 免费av观看视频| 亚洲av免费在线观看| 成熟少妇高潮喷水视频| 国产av在哪里看| 成年人黄色毛片网站| 国产精品一区二区三区四区免费观看 | 国产精品一区二区性色av| 亚洲aⅴ乱码一区二区在线播放| 国内精品久久久久精免费| 日韩中字成人| 亚洲人成伊人成综合网2020| 1000部很黄的大片| 国产精华一区二区三区| 日韩精品中文字幕看吧| 亚洲狠狠婷婷综合久久图片| 成人欧美大片| 美女黄网站色视频| 成熟少妇高潮喷水视频| 欧美又色又爽又黄视频| 一级作爱视频免费观看| 全区人妻精品视频| 老鸭窝网址在线观看| 亚洲午夜理论影院| 床上黄色一级片| 亚洲天堂国产精品一区在线| 热99在线观看视频| 午夜福利成人在线免费观看| 色在线成人网| 午夜精品久久久久久毛片777| 一个人看的www免费观看视频| 舔av片在线| 免费在线观看日本一区| 国产精品一及| 亚洲欧美精品综合久久99| 大型黄色视频在线免费观看| 好男人在线观看高清免费视频| 欧美最新免费一区二区三区 | 午夜视频国产福利| 天堂动漫精品| 久久久久精品国产欧美久久久| 亚洲精品日韩av片在线观看| 亚洲欧美激情综合另类| 日韩欧美国产一区二区入口| 18禁黄网站禁片午夜丰满| 动漫黄色视频在线观看| 男插女下体视频免费在线播放| 国产毛片a区久久久久| 极品教师在线免费播放| 亚洲午夜理论影院| 亚洲无线在线观看| 美女被艹到高潮喷水动态| 97超视频在线观看视频| 亚洲第一电影网av| 99久久精品热视频| 国产精品永久免费网站| 日韩成人在线观看一区二区三区| 美女高潮的动态| 嫩草影视91久久| 亚洲成av人片免费观看| 国产精品亚洲一级av第二区| 久久天躁狠狠躁夜夜2o2o| 特级一级黄色大片| 日本免费a在线| 麻豆一二三区av精品| 亚州av有码| 欧美国产日韩亚洲一区| 草草在线视频免费看| 一级av片app| 国产av在哪里看| 国产麻豆成人av免费视频| 欧美日韩黄片免| 亚洲欧美日韩卡通动漫| 夜夜躁狠狠躁天天躁| 在线观看66精品国产| av国产免费在线观看| 欧美日韩中文字幕国产精品一区二区三区| 内地一区二区视频在线| 大型黄色视频在线免费观看| 亚洲欧美清纯卡通| 看黄色毛片网站| 色吧在线观看| 国产日本99.免费观看| 在线国产一区二区在线| 搡老岳熟女国产| 亚洲成av人片免费观看| 国产免费男女视频| 欧美午夜高清在线| 少妇人妻精品综合一区二区 | 内射极品少妇av片p| 亚洲综合色惰| 51国产日韩欧美| 免费av不卡在线播放| 亚洲av成人av| 91麻豆av在线| 身体一侧抽搐| av在线天堂中文字幕| 中文字幕人妻熟人妻熟丝袜美| 亚洲 国产 在线| 91在线精品国自产拍蜜月| 亚洲在线观看片| 日韩中字成人| 精品熟女少妇八av免费久了| 伊人久久精品亚洲午夜| 亚洲,欧美精品.| xxxwww97欧美| 午夜两性在线视频| 制服丝袜大香蕉在线| 啦啦啦观看免费观看视频高清| 深夜a级毛片| 亚洲性夜色夜夜综合| 亚洲欧美日韩高清专用| 亚洲中文日韩欧美视频| 成人三级黄色视频| 日本 欧美在线| 亚洲欧美日韩高清在线视频| 97人妻精品一区二区三区麻豆| 免费搜索国产男女视频| 亚洲国产精品久久男人天堂| av天堂在线播放| 青草久久国产| 99久久成人亚洲精品观看| 在线国产一区二区在线| 精品久久久久久,| 嫁个100分男人电影在线观看| 色5月婷婷丁香| 久久人人爽人人爽人人片va | 久久久久久久久久成人| a级毛片a级免费在线| 亚洲在线观看片| 婷婷色综合大香蕉| 蜜桃久久精品国产亚洲av| 热99在线观看视频| 丰满人妻熟妇乱又伦精品不卡| 久久久成人免费电影| 欧美另类亚洲清纯唯美| 香蕉av资源在线| 国产aⅴ精品一区二区三区波| 国产免费av片在线观看野外av| 在线播放国产精品三级| 亚洲,欧美精品.| 亚洲在线自拍视频| 成年免费大片在线观看| av在线观看视频网站免费| 麻豆av噜噜一区二区三区| 亚洲欧美日韩无卡精品| 欧美高清性xxxxhd video| 九九久久精品国产亚洲av麻豆| 国内久久婷婷六月综合欲色啪| 国产欧美日韩一区二区三| 又爽又黄a免费视频| 美女黄网站色视频| 日日夜夜操网爽| 亚洲av日韩精品久久久久久密| 午夜日韩欧美国产| а√天堂www在线а√下载| 亚洲欧美日韩高清在线视频| 久久精品影院6| a级一级毛片免费在线观看| 女生性感内裤真人,穿戴方法视频| 波多野结衣巨乳人妻| 听说在线观看完整版免费高清| 亚洲成av人片在线播放无| 偷拍熟女少妇极品色| 伊人久久精品亚洲午夜| 一区二区三区免费毛片| 三级国产精品欧美在线观看| 国产成人av教育| 99国产极品粉嫩在线观看| 国产精品亚洲av一区麻豆| 国产一区二区在线观看日韩| www.熟女人妻精品国产| 亚洲18禁久久av| 国产精品野战在线观看| 国产精品女同一区二区软件 | 亚洲成人精品中文字幕电影| 免费黄网站久久成人精品 | 赤兔流量卡办理| 舔av片在线| 日韩国内少妇激情av| 久久亚洲真实| 999久久久精品免费观看国产| 精品熟女少妇八av免费久了| 午夜福利18| 中文字幕免费在线视频6| 国产欧美日韩一区二区三| 淫妇啪啪啪对白视频| 久久精品国产亚洲av香蕉五月| 美女cb高潮喷水在线观看| 嫩草影院新地址| 一卡2卡三卡四卡精品乱码亚洲| 国产精品一区二区性色av| 天天躁日日操中文字幕| 特级一级黄色大片| 亚洲国产欧美人成| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 久久精品久久久久久噜噜老黄 | 亚洲国产日韩欧美精品在线观看| 69人妻影院| 在线a可以看的网站| 欧美色视频一区免费| 神马国产精品三级电影在线观看| 如何舔出高潮| 久久久久久久久久黄片| 18+在线观看网站| 日日干狠狠操夜夜爽| 麻豆成人av在线观看| 亚洲av免费高清在线观看| 97碰自拍视频| 亚洲第一欧美日韩一区二区三区| 国产私拍福利视频在线观看| 成人精品一区二区免费| 一区二区三区四区激情视频 | 欧美成人a在线观看| 成年女人看的毛片在线观看| 日本a在线网址| 熟妇人妻久久中文字幕3abv| 成人无遮挡网站| av在线蜜桃| 久久99热6这里只有精品| eeuss影院久久| 国产在视频线在精品| 天堂√8在线中文| 91在线观看av| 最近最新免费中文字幕在线| 国产高潮美女av| 女人被狂操c到高潮| 九九久久精品国产亚洲av麻豆| 高潮久久久久久久久久久不卡| 中文字幕熟女人妻在线| 欧美不卡视频在线免费观看| 亚洲最大成人手机在线| 欧美日本亚洲视频在线播放| 黄色丝袜av网址大全| 有码 亚洲区| 老司机深夜福利视频在线观看| 老鸭窝网址在线观看| 人妻夜夜爽99麻豆av| 97超级碰碰碰精品色视频在线观看| 一区福利在线观看| 中文字幕久久专区| 精品免费久久久久久久清纯| 欧美三级亚洲精品| xxxwww97欧美| 香蕉av资源在线| 国产在线男女| 天天躁日日操中文字幕| ponron亚洲| 亚洲欧美精品综合久久99| 日韩欧美三级三区| 国产午夜精品论理片| 性插视频无遮挡在线免费观看| 人妻夜夜爽99麻豆av| 性欧美人与动物交配| 我的女老师完整版在线观看| 在线播放无遮挡| 中亚洲国语对白在线视频| ponron亚洲| 亚洲av不卡在线观看| 精品乱码久久久久久99久播| 国产午夜精品论理片| 性色avwww在线观看| 日韩欧美国产一区二区入口| 久久伊人香网站| 亚洲国产欧美人成| 亚洲av五月六月丁香网| 欧美日韩福利视频一区二区| 国产不卡一卡二| 脱女人内裤的视频| 亚洲av第一区精品v没综合| 亚洲 欧美 日韩 在线 免费| 国产日本99.免费观看| 丰满的人妻完整版| netflix在线观看网站| 性插视频无遮挡在线免费观看| 国产爱豆传媒在线观看| 蜜桃久久精品国产亚洲av| 国产精品三级大全| 看十八女毛片水多多多| 18禁黄网站禁片午夜丰满| 久久精品久久久久久噜噜老黄 | 12—13女人毛片做爰片一| 国产精品久久久久久久久免 | www.熟女人妻精品国产| 一个人免费在线观看的高清视频| 黄色日韩在线| 免费在线观看成人毛片| 国产免费av片在线观看野外av| 中文字幕av在线有码专区| 国产精品久久久久久人妻精品电影| 国产高清视频在线播放一区| 精品99又大又爽又粗少妇毛片 | 国产成人av教育| 久久这里只有精品中国| 天堂av国产一区二区熟女人妻| 露出奶头的视频| 国产午夜精品论理片| 精品一区二区免费观看| 国产免费av片在线观看野外av| 久久午夜福利片| 欧美三级亚洲精品| 国产淫片久久久久久久久 | 婷婷精品国产亚洲av在线| 日本撒尿小便嘘嘘汇集6| 亚洲美女黄片视频| 久久久久性生活片| 亚洲成人久久性| 成人性生交大片免费视频hd| 日韩免费av在线播放| 三级毛片av免费| 一级a爱片免费观看的视频| 一本精品99久久精品77| 精品久久久久久久久av| 亚洲午夜理论影院| 露出奶头的视频| 国产精品不卡视频一区二区 | 久久久久免费精品人妻一区二区| 偷拍熟女少妇极品色| 亚洲av二区三区四区| 性色avwww在线观看| 亚洲中文字幕日韩| 一本一本综合久久| 欧美三级亚洲精品| 午夜精品久久久久久毛片777| 大型黄色视频在线免费观看| 99热这里只有是精品在线观看 | 一级av片app| 国产精品av视频在线免费观看| 国产黄片美女视频| 97热精品久久久久久| 12—13女人毛片做爰片一| 99热这里只有精品一区| or卡值多少钱| 成年女人看的毛片在线观看| 亚洲av不卡在线观看| 久久久久久大精品| 亚洲电影在线观看av| 午夜福利成人在线免费观看| 久久久久久大精品| 动漫黄色视频在线观看| 人妻久久中文字幕网| 久久精品综合一区二区三区| 日本成人三级电影网站| 一级av片app| 女生性感内裤真人,穿戴方法视频| 三级男女做爰猛烈吃奶摸视频| 欧美色欧美亚洲另类二区| www.999成人在线观看| 国产精品国产高清国产av| 精品无人区乱码1区二区| 97超视频在线观看视频| 黄色配什么色好看| 精品无人区乱码1区二区| 亚洲av美国av| 久久久久国产精品人妻aⅴ院| 少妇人妻精品综合一区二区 | 99热这里只有精品一区| 国产精品自产拍在线观看55亚洲| 不卡一级毛片| 色尼玛亚洲综合影院| 超碰av人人做人人爽久久| 午夜福利高清视频| 精品久久久久久久久久久久久|