董春霖
(四川廣安岳池縣第一中學(xué),廣安 638300)
基于支持向量機的人格推斷模型
董春霖
(四川廣安岳池縣第一中學(xué),廣安 638300)
新浪微博是人們廣泛使用的社交平臺,提取微博用戶的信息,使用支持向量機對數(shù)據(jù)進行分類,建立人格推斷模型,可以對微博用戶的人格進行推斷。結(jié)果表明,該推斷模型能夠得到不錯的推斷準確率。
人格;支持向量機;新浪微博
人格是一種具有自我意識和自我控制能力,具有感覺、情感、意志等機能的主體,是具有一定傾向性和相對穩(wěn)定的心理特征。根據(jù)大五人格理論,人格可以被分為五個維度:開放性、盡責(zé)性、外向性、宜人性和神經(jīng)質(zhì)。開放性是指對新鮮事物的態(tài)度和偏好,盡責(zé)性是指對事物的態(tài)度,外向性是指社交的多少,宜人性是對他人的關(guān)心和幫助,神經(jīng)質(zhì)是情緒的穩(wěn)定程度。
對人格的研究是非常重要的,研究表明具有相同人格的人之間會相互吸引,如果讓相同人格的人進行合作,工作效率會得到提高。因此人格特點的研究可以作為特征服務(wù)的基礎(chǔ)。
之前關(guān)于社交網(wǎng)站的研究主要集中于社交網(wǎng)頁等。從某種意義上來說,虛擬世界是真實世界的一個縮影,遵循真實世界中大多數(shù)的原則。研究發(fā)現(xiàn),網(wǎng)絡(luò)用戶喜歡加入一些小的社區(qū)。同時,近年來,越來越多的網(wǎng)絡(luò)用戶在網(wǎng)絡(luò)上暴露自己的信息,這些信息可以用來對他們自身的特征息息相關(guān)。Junco Reynol研究了Facebook和學(xué)生表現(xiàn)之間的關(guān)系,發(fā)現(xiàn)Facebook的使用頻率和學(xué)生的成績成反比。
到目前為止,關(guān)于社交網(wǎng)絡(luò)和人格之間的研究還非常少。Emily S.Orr曾經(jīng)在大學(xué)生中研究過害羞和社交網(wǎng)絡(luò)的使用之間的關(guān)系。他發(fā)現(xiàn),害羞的人明顯在社交網(wǎng)絡(luò)上面花費更多的時間。但是,他們的好友數(shù)量卻比不害羞的人更少。Teresa Correa研究了用戶人格和社交媒體之間的關(guān)系,發(fā)現(xiàn)開放性和外向性與交媒體的使用成正相關(guān),神經(jīng)質(zhì)和社交媒體的使用負相關(guān)。但是這些研究只是給出了正負相關(guān),并不能對他們進行量化。Samuel D.Gosling研究了不同人格在社交網(wǎng)絡(luò)上面的表現(xiàn)。他的研究表明,人格和社交網(wǎng)絡(luò)的使用有著對應(yīng)關(guān)系。
總的來說,大多數(shù)關(guān)于人格的研究只使用了心理學(xué)的方法。不論是自陳量表還是他人觀察,對于大規(guī)模的問題來說都是不夠效率的。同時,他們的研究只是用了用戶對社交網(wǎng)絡(luò)的使用頻率。如果我們使用一些跟情緒相關(guān)的特征,將得到更好的結(jié)果。在關(guān)系模型中,只能得到社交網(wǎng)絡(luò)和人格之間的關(guān)系,但是不能夠直接預(yù)測人格。盡管這些因素可以描述人格和行為之間的關(guān)系,但是他們不能對人格進行定性研究。由于心理學(xué)和計算機科學(xué)有著各自的優(yōu)勢和劣勢,我們嘗試將這兩個學(xué)科統(tǒng)一起來,建立一個人格自動識別模型。
支持向量機(Support Vector Machine,SVM)以尋找在空間中最合適的平面為目標,該方法在適量的訓(xùn)練樣本上使用數(shù)學(xué)方法和優(yōu)化技術(shù)來生成一個最佳超平面,并且該超平面使得兩類之間數(shù)據(jù)點間距最大。也因此屬于間隔分類器。由于在訓(xùn)練時,訓(xùn)練集的每一個樣本是一個支持該平面的向量,該算法則被稱為支持向量機。
對于二分類問題,在樣本空間中,可將超平面描述為:
其中w=(w1,w2,…,wd)為法向量,據(jù)決定超平面的方向;b為位移。假設(shè)超平面(w,b)可以正確的對樣本進行分類,即可表示為:
那么可以通過解決以下優(yōu)化問題尋找到擁有最大間距(margin)的最優(yōu)二維分割超平面。
對上式的每個約束條件添加拉格朗日乘子,則可變形為:
求w和b的偏導(dǎo),再代入上式,解出α,求出w和b,即可得到模型。
需滿足Karush Kuhn-Tucker(KKT)條件
3.1 數(shù)據(jù)收集
本文嘗試建立一個基于社交網(wǎng)絡(luò)的人格計算模型。我們選取了現(xiàn)在中國實用率最高的社交平臺——微博,作為實驗平臺。微博對第三方應(yīng)用開放了很多API。這些三方應(yīng)用,可以被分為三類:網(wǎng)頁接口、應(yīng)用軟件接口和手機接口。本文使用一個網(wǎng)頁接口。當被試登錄網(wǎng)頁接口后,我們將得到他們的授權(quán)。然后,我們將通過這個接口接入微博獲得他們的數(shù)據(jù)信息。
每位參加實驗的被試都要做一份大五人格量表,測試他們的人格類型。得到的人格類型,在后面的數(shù)據(jù)處理中用來做類標,進行分類。
3.2 特征選擇
我們得到的數(shù)據(jù)并不能直接使用,需要從這些數(shù)據(jù)中提取有用的特征。根據(jù)之前的研究,我們提取了45個跟大五人格有關(guān)特征。這些特征可以分為5個組。具體的特征分類如表1所示。
表1 文字輸入特征分類
用戶基本信息和社交網(wǎng)絡(luò)使用信息已經(jīng)被很多研究所使用,這些信息包括用戶的性別、年齡、家鄉(xiāng)、博客使用頻率等。時間相關(guān)的特征包括微博發(fā)表頻率,對別人微博轉(zhuǎn)發(fā)頻率等。情緒相關(guān)特征是那些跟情緒表達相關(guān)的特征,包括用戶在微博中使用的表情、情感詞等。情感相關(guān)的特征就是找出微博中情感詞、表情的使用數(shù)量。時間和情感都相關(guān)的特征是指最近的情感表達。
4.1 被試
本文共選取200名位被試,所有被試都經(jīng)常使用微博,至少兩天登錄一次。他們的年齡在25-51歲(平均年齡38),其中女性121位,男性79位。在做實驗之前,我們會告訴他們,我們將會接入他們的微博,并獲得他們微博中的信息。每位被試按要求填寫大五人格量表。然后,被試登陸我們的第三方網(wǎng)頁接口,給我們授權(quán)收集他們的微博信息。
每位被試在實驗結(jié)束后都填寫一份大五人格量表,通過量表的得分給每位被試的數(shù)據(jù)加類標。為了得到用于分類的類標,我們把量表測得的分數(shù)離散化,把被試的得分分為兩組,高分組和低分組。高分組為高于或等于平均分的被試,低分組為低于平均分的被試。
通過轉(zhuǎn)換,得到下表所示的數(shù)據(jù)。
表2 人格量表得分離散化
4.2 分類模型建立
本文采用支持向量機算法建立分類模型。使用5折交叉驗證,4/5的數(shù)據(jù)用于建模,剩下的4/5的數(shù)據(jù)用來對該模型進行驗證。
最后對人格五個維度上的分類準確率進行統(tǒng)計,同時使用雙側(cè)T檢驗判斷分類的準確率和基線之間是否有顯著性差異。這里,我們用多數(shù)類所占的比例為基線。
無時間限制的人格推斷模型分類準確率如表2所示。從表中可以看出,通過支持向量機進行分類,開放性的分類準確率最高,達到了81.00%,是最容易被分類的。其次是盡責(zé)性,準確率達到了78%。分類效果最差的是宜人性,準確率只有69%。
這個結(jié)果,應(yīng)該和類標的獲取有著重要的關(guān)系。為了獲取類標,本次研究采用自陳量表的方式得到每位被試在各個維度得分的高低,得分容易受到自我認識的影響。大五人格五個維度中,一些容易被觀察到,例如宜人性,而一些是不容易被觀察到的,比如開放性。容易被觀察的維度,自評量表得到的結(jié)果就不是那么準確,容易有誤差,而不易觀察的維度,通過自評量表得到的結(jié)果更加準確。本文采用的自評的方式獲得人格分數(shù),所以分類結(jié)果不易觀察上的準確率更高(開放性最高),而不易觀察的維度上面的準確率較低(宜人性最低)。
同時,我們把每個維度的分類準確率和基線進行對比,使用雙側(cè)T檢驗(p<.05),得到的結(jié)果如表最后一列所示,只有宜人性的分類準確率沒有沒顯著高于基線,其他四個維度的分類準確率都顯著高于基線。
表3 人格五個維度上分類準確率
本文使用支持向量機,對微博用戶的人格進行推斷。通過對我們提取出來的45與人格相關(guān)的特征,在人格的五個維度上進行分類,得出已下結(jié)論:①本文建立的人格推斷模型能夠?qū)ξ⒉┯脩舻娜烁襁M行推斷。②模型在開放性維度的準確度最高,在宜人性維度上的準確度最低。
將來,我們將繼續(xù)在心理學(xué)計算機科學(xué)的交叉學(xué)科上進行研究。為了將整個人格推斷模型做地更好,我們將嘗試其他分類算法,期望找到更好的算法。同時,現(xiàn)在還存在很多其他社交平臺,例如QQ空間、微信,將來我們也打算在其他平臺進行嘗試,對我們的結(jié)論進行檢驗,同時希望更多的信息能夠提高我們的推斷準確率。
[1]Kaplan A M,Haenlein M.Users of the World,Unite!The Challenges and Opportunities of Social Media[J].Business Horizons.2010, 53(1):59-68.
[2]Reeves B,Nass C.The Media Equation:How People Treat Computers,Television,and New Media Like Real People and Places[M]. Cambridge University Press,1996.
[3]Goldberg L R.The Structure of Phenotypic Personality Traits.[J].American Psychologist,1993,48(1):26-34.
[4]Gosling S D,Rentfrow P J,Swann W B.A Very Brief Measure of the Big-Five Personality Domains.[J].Journal of Research in Personality.2003,37(6):504-528.
[6]Cattell H E."The Structure of Phenotypic Personality Traits":Comment.[J].American Psychologist.1993,48(12):1302-1303.
[7]Dd O C E O.Social Network Analysis[J].Encyclopedia of Social Network Analysis&Mining.2011,22(Suppl 1):109-127.
[8]Fang X,Chan S,Nair C.An Online Survey System on Computer Game Enjoyment and Personality[C].International Conference on Human-Computer Interaction,2009.2009:304-314.
[9]Fang X,Chan S,Nair C.An Online Survey System on Computer Game Enjoyment and Personality[J].Lecture Notes in Computer Science.2009,5613:304-314.
[10]王瑩,朱廷劭.微博人格結(jié)構(gòu)的詞匯學(xué)研究[C].全國心理學(xué)學(xué)術(shù)會議,2014.2014.
[11]王青.大學(xué)生微博用戶人格特質(zhì)、使用動機和使用行為的關(guān)系研究[D].南開大學(xué),2011.
[12]劉麗華.人格互動與微博傳播[J].新聞知識.2011(12):51-52.
[13]胡志海,范曉振.微博活躍使用者人格狀況分析[J].黃山學(xué)院學(xué)報.2014(4):90-93.
[14]陳俏,曹根牛,謝麗娟.支持向量機的研究進展[J].現(xiàn)代計算機:專業(yè)版.2009(4):47-50.
Personality Inference Model Based on Support Vector Machine
DONG Chun-lin
(No.1 Middle School,Guangan 638300)
Weibo is widely used in China.By extracting the information of Weibo users,and using support vector machine to classify the data,establishes a personality inference model to infer users'personality.The results show that the inference model can get good inference accuracy.
Personality;SVM;Sina Weibo
1007-1423(2017)07-0003-04
10.3969/j.issn.1007-1423.2017.07.001
董春霖(1982-),女,四川岳池人,本科,全國三級心理咨詢師
2016-12-22
2017-03-01