摘要:本文提出了一種依據(jù)多個(gè)來源的網(wǎng)絡(luò)信息計(jì)算用戶的人格特質(zhì)的方法。對高校等能獲取用戶網(wǎng)絡(luò)訪問日志的機(jī)構(gòu),先收集用戶一段時(shí)間內(nèi)所訪問的URL地址;然后使用爬蟲技術(shù)提取用戶訪問網(wǎng)頁的文本內(nèi)容;使用情感詞典計(jì)算各網(wǎng)站文本所體現(xiàn)的情感傾向;根據(jù)不同網(wǎng)站的特性給出網(wǎng)站在情感傾向上的不同權(quán)重,從而由各網(wǎng)站的情感傾向加權(quán)計(jì)算獲得最終的人格特質(zhì)評(píng)分。實(shí)驗(yàn)中以志愿者填寫自我報(bào)告量表作為結(jié)果驗(yàn)證的基準(zhǔn)數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明:志愿者在不同網(wǎng)站上表現(xiàn)出的人格特質(zhì)不同,基于單一社交媒體的人格特質(zhì)結(jié)果與真實(shí)情況有偏差?;诙嘣淳W(wǎng)絡(luò)信息進(jìn)行整體的、綜合的人格特質(zhì)計(jì)算方法,可以得到更準(zhǔn)確的結(jié)果。
關(guān)鍵詞:人格特質(zhì);人格計(jì)算;多信源互聯(lián)網(wǎng)信息
引言
高校大學(xué)生心理問題日益受到關(guān)注,如何獲取大學(xué)生的人格特質(zhì)成為大學(xué)生心理問題研究的難點(diǎn)之一[1]。當(dāng)前人格特質(zhì)計(jì)算研究主要是通過社交文本分析 、新聞評(píng)論或博客的用戶行為數(shù)據(jù)等分析人格特質(zhì)。然而,高校等機(jī)構(gòu)能獲取的數(shù)據(jù)是大學(xué)生的網(wǎng)絡(luò)訪問日志,而不能從互聯(lián)網(wǎng)網(wǎng)站后端直接獲取用戶行為數(shù)據(jù)。網(wǎng)絡(luò)訪問日志的相關(guān)數(shù)據(jù)來源廣泛、規(guī)模龐大、信息雜亂,各類網(wǎng)站所能獲取的信息在情感分析的支持維度、力度等都不盡相同。這些問題給基于網(wǎng)絡(luò)訪問日志進(jìn)行人格特質(zhì)計(jì)算的研究帶來很大困難。本文研究了基于多信源互聯(lián)網(wǎng)信息計(jì)算大學(xué)生人格特質(zhì)的方法,能根據(jù)大學(xué)生訪問互聯(lián)網(wǎng)的日志信息,獲取相應(yīng)的網(wǎng)絡(luò)訪問文本數(shù)據(jù),從中過濾提取與情感傾向相關(guān)的詞句,結(jié)合網(wǎng)站特性等因素,綜合計(jì)算得到用戶的人格特質(zhì)。本研究為當(dāng)前高校管理提供了一種有效的、較為可靠的大學(xué)生人格特質(zhì)獲取方法。
1. 基于多信源互聯(lián)網(wǎng)信息的人格特質(zhì)
當(dāng)前大部分高校已完成校園網(wǎng)建設(shè),為在校大學(xué)生提供免費(fèi)的互聯(lián)網(wǎng)接入服務(wù)。而大學(xué)生絕大部分時(shí)間都在校園內(nèi)學(xué)習(xí)和生活。因此,大學(xué)生的互聯(lián)網(wǎng)訪問活動(dòng)基本都是通過校園網(wǎng)接入的。通過校園網(wǎng)的北向接口,可以獲得學(xué)生的互聯(lián)網(wǎng)訪問日志,如網(wǎng)絡(luò)上下線日志、網(wǎng)絡(luò)URL日志、網(wǎng)絡(luò)APP使用日志等[2]。大學(xué)生對互聯(lián)網(wǎng)的日常使用和訪問,一方面,不存在刻意回避、作假等行為,具有較高的可信性;另一方面,無論是瀏覽信息癖好或發(fā)表的相關(guān)言論等,都是大學(xué)生人格特質(zhì)的重要體現(xiàn),對分析大學(xué)生的心理問題有重要意義。
1.1 計(jì)算流程
圖1顯示了基于多信源的人格特質(zhì)的計(jì)算過程。首先,對某用戶的網(wǎng)絡(luò)訪問日志進(jìn)行清洗,刪除無效的訪問記錄,例如非網(wǎng)頁的URL、失效的URL等;把有效的URL收集整合到有效頁面集合中。其次,使用爬蟲工具處理有效頁面日志中包含的所有URL。爬蟲工具將捕獲網(wǎng)頁的文本內(nèi)容,并把來自同一網(wǎng)站的所有文本集成到一個(gè)大文本文件中。再次,使用Jieba分詞工具和sc-liwc心理詞典,從網(wǎng)站大文本中統(tǒng)計(jì)語言情感特征詞的頻率和比例,并以此作為該用戶在此網(wǎng)站上內(nèi)容瀏覽的人格特質(zhì)計(jì)算依據(jù);進(jìn)而計(jì)算用戶在該網(wǎng)站上表現(xiàn)出的人格特質(zhì)。在綜合所有網(wǎng)站結(jié)果之前,需要把所有網(wǎng)站進(jìn)行分類并分配權(quán)重,以平衡網(wǎng)站在人格特質(zhì)計(jì)算上的傾向。最后,通過計(jì)算用戶在所有網(wǎng)站上的人格傾向的加權(quán)平均值,得到該用戶人格特質(zhì)最終結(jié)果。
1.2 網(wǎng)站分類及權(quán)重分配
在前述基于多信源網(wǎng)絡(luò)信息的人格特質(zhì)計(jì)算過程中,需要標(biāo)記不同網(wǎng)站的人格特質(zhì)計(jì)算權(quán)重。主要原因在于:不同的網(wǎng)站可以反映出不同的個(gè)性特征[3]。網(wǎng)站的功能是不同的。有些網(wǎng)站屬于社交媒體,用戶經(jīng)常就某些話題進(jìn)行討論、發(fā)表意見甚至爭論,因此可以清楚地顯示用戶的情感傾向。有些網(wǎng)站是功能性的,比如在銀行頁面上開設(shè)自己的賬戶,在電子商務(wù)網(wǎng)站上購物。這些操作通常與情感無關(guān),因此不能明顯地表達(dá)用戶的情感傾向。而有些網(wǎng)站,用戶主要瀏覽操作,閱讀他們感興趣的內(nèi)容,但不會(huì)表達(dá)他們的意見,例如新聞網(wǎng)站或其他感興趣的網(wǎng)站。這些頁面可以反映用戶的一些潛在情緒,但并不十分明顯。因此,我們可以對網(wǎng)站進(jìn)行分類,并對每種網(wǎng)站進(jìn)行加權(quán),以確定這些網(wǎng)站反映用戶情緒的能力。
我們在網(wǎng)絡(luò)訪問日志中對一些最常見的網(wǎng)站,根據(jù)網(wǎng)頁內(nèi)容對用戶情感顯現(xiàn)能力進(jìn)行了簡單分類,主要分為表達(dá)、閱讀、混合、功能等四大類[4]。其中,表達(dá)類是用戶經(jīng)常發(fā)表文本的網(wǎng)站,如各種BBS、微博等平臺(tái);閱讀類是用戶主要通過閱讀獲取信息,但較少發(fā)表文本的網(wǎng)站,如小說類網(wǎng)站;混合類是用戶所瀏覽閱讀的信息帶有情感傾向且有少量表達(dá)信息的網(wǎng)站;功能類是用戶完成購物、支付、業(yè)務(wù)等與情感無關(guān)工作的網(wǎng)站。
表1顯示了網(wǎng)站分類及其權(quán)重。一般來說,能夠清晰表達(dá)情感傾向的網(wǎng)站權(quán)重較高。網(wǎng)站的權(quán)重設(shè)定,是通過比較該網(wǎng)站計(jì)算的人格特質(zhì)與基準(zhǔn)人格特質(zhì)(基于自我報(bào)告量表)的差距,使用均方根誤差(RMSE)作為評(píng)估指標(biāo)[5]。RMSE值越小,則網(wǎng)站的權(quán)重越高,具體值的設(shè)定由研究人員設(shè)定。根據(jù)抽樣數(shù)據(jù)的分析結(jié)果,表達(dá)類網(wǎng)站體現(xiàn)的個(gè)性特征和基準(zhǔn)的RMSE最小。因此,我們將表達(dá)類的權(quán)重指定為最高。閱讀類和混合類的RMSE也很小,且某些網(wǎng)站的特定人格因素的RMES接近或小于表達(dá)類網(wǎng)站[6]。因此,我們也給閱讀類和混合類網(wǎng)站分配了一定的權(quán)重。而功能類的網(wǎng)頁表達(dá)的個(gè)人特質(zhì)與基準(zhǔn)的RMSE要高很多。因此分配給功能類的權(quán)重比其他類小得多。很難得到各類網(wǎng)站分配精確的權(quán)重值,因此表中權(quán)重是一個(gè)估計(jì)值。
1.3 人格特質(zhì)計(jì)算與驗(yàn)證方法
在前述多信源互聯(lián)網(wǎng)信息的人格特質(zhì)計(jì)算過程中,計(jì)算得到了某人在各網(wǎng)站上的人格特質(zhì)數(shù)據(jù)后,我們可以使用公式(1)得到該用戶在每類網(wǎng)站的人格因素的平均得分。
(1)
其中,i是指五因素人格模型的第i個(gè)人格因素,j是指網(wǎng)站所屬類別,k是指該類別中網(wǎng)站編號(hào)。p_sub_scorei,j,k是第j類網(wǎng)站中第k個(gè)網(wǎng)站針對該用戶計(jì)算出來的i人格因素得分。n_accessk是該用戶訪問k網(wǎng)站的次數(shù),是該用戶訪問j類別網(wǎng)站的總次數(shù)。
該用戶的人格特質(zhì)可用公式(2)計(jì)算得出最終結(jié)果。
(2)
其中,i是指五因素人格模型的第i個(gè)人格因素,j是指網(wǎng)站所屬類別[7]。p_weighti,j是如1.3節(jié)所述第j類網(wǎng)站在第i維度上的權(quán)重,p_sub_scorei, j是通過公式(1)得到的該用戶在j分類網(wǎng)站的i人格因素的得分。p_scorei是該用戶在五因素人格模型第i維度的得分。
實(shí)驗(yàn)中,我們使用與基準(zhǔn)人格特質(zhì)數(shù)據(jù)(由自我報(bào)告量表獲得)的均方根誤差(RMSE)作為評(píng)估指標(biāo)。RMSE的計(jì)算參考公式(3)。n是計(jì)算人格特質(zhì)的人數(shù),p_scorei是人格特質(zhì)第i個(gè)因子的得分,p_scoreib是第i個(gè)因素的基準(zhǔn)值。RMSE越小,則計(jì)算結(jié)果越準(zhǔn)確。
(3)
2. 實(shí)驗(yàn)與結(jié)果分析
本研究中,我們收集了122名志愿者的網(wǎng)絡(luò)訪問日志,網(wǎng)絡(luò)訪問日志的時(shí)間跨度為120天。表2顯示了一名志愿者在不同網(wǎng)站上的人格特質(zhì)與自我報(bào)告量表之間的偏差(僅列出一些典型網(wǎng)站)。從表中可以看出,該志愿者在天涯論壇、知網(wǎng)、新浪微博等表達(dá)類網(wǎng)站,顯示出的人格特質(zhì)與自我報(bào)告量表較為接近;而在京東、淘寶等功能性網(wǎng)站差別較大。并且,同一用戶在不同網(wǎng)站表現(xiàn)出來的人格特質(zhì)是不同的,可以認(rèn)為是網(wǎng)站氛圍造成的。此外,人格因素中神經(jīng)質(zhì)是與自我報(bào)告量表相對偏差最大的。
表3顯示了該志愿者的人格特質(zhì)與自我報(bào)告量表之間偏差的最終結(jié)果,該結(jié)果由公式(2)和公式(3)計(jì)算得出。從表3可以看出,通過綜合各網(wǎng)站訪問者的數(shù)據(jù),可以有效糾正網(wǎng)站氛圍給人格特質(zhì)計(jì)算造成的偏差,使綜合人格特質(zhì)更接近實(shí)際情況。
結(jié)語
本文研究了基于網(wǎng)絡(luò)訪問日志計(jì)算用戶的人格特質(zhì)方法。研究結(jié)果表明:志愿者在不同網(wǎng)站上表現(xiàn)出的人格特質(zhì)由于受到網(wǎng)站氛圍的影響,與其實(shí)際人格特質(zhì)不同,因此,基于單一社交媒體的人格特質(zhì)計(jì)算結(jié)果與真實(shí)情況有明顯偏差。在高校能獲得較完整的網(wǎng)絡(luò)訪問日志的背景下,對大學(xué)生基于多源網(wǎng)絡(luò)信息進(jìn)行整體的、綜合的人格特質(zhì)計(jì)算可以得到更準(zhǔn)確的結(jié)果,從而能更有效、更及時(shí)地對大學(xué)生進(jìn)行心理評(píng)估、心理干預(yù)等工作[8]。本研究主要針對用戶的URL日志,文本數(shù)據(jù)主要來自網(wǎng)頁,而URL訪問只是網(wǎng)絡(luò)訪問的一小部分,更多內(nèi)容(如手機(jī)訪問日志等)沒有被收集利用。此外,本研究未考慮圖像、視頻等類型的多媒體內(nèi)容,因而無法提取和分析更詳細(xì)的網(wǎng)絡(luò)行為及其相應(yīng)的人格特質(zhì)[9]。這也是我們未來心理大數(shù)據(jù)的研究方向。
參考文獻(xiàn):
[1]柳靜,王銘,孫啟武,等.我國大學(xué)生心理咨詢與危機(jī)干預(yù)的管理現(xiàn)狀調(diào)查[J].中國臨床心理學(xué)雜志,2022,30(2):477-482.
[2]陳雨濛,張亞利,俞國良.2010~2020中國內(nèi)地大學(xué)生心理健康問題檢出率的元分析[J].心理科學(xué)進(jìn)展,2022,30(5):991-1004.
[3]Stanek S,Sabat A.The application of it tools in assessing employees' personality and motivation[J].European Research Studies Journal. 2021,24(1):689-707.
[4]Fiske S T,Cuddy A,Glick P,et al..A model of (often mixed) stereotype content: competence and warmth respectively follow from perceived status and competition[J].Journal of Personality and Social Psychology,2002,82(6):878-902.
[5]Bargh J A,Gollwitzer P M,Lee-Chai A.The automated will:nonconscious activation and pursuit of behavioral goals[J].Journal of personality and social psychology,2019,81(6):1014-1027.
[6]Heeringen C V,Audenaert K,Laere K V,et al.Prefrontal 5-ht2a receptor binding index, hopelessness and personality characteristics in attempted suicide[J]. Journal of affective disorders,2019,74(2):149-158.
[7]Deeva I.Computational personality prediction based on digital footprint of a social media user[J].Procedia Computer Science,2019,156(3):185-193.
[8]Marouf A A,Hasan M K,Mahmud H.Comparative analysis of feature selection algorithms for computational personality prediction from social media[J]. IEEE Transactions on Computational Social Systems,2020,18(99),1-13.
[9]Nguyen T,Phung D,Hoai M,et al.Structural and Functional Decomposition for Personality Image Captioning in a Communication Game[J].2020,56(2):394-402.
作者簡介:鄭傳欽,碩士研究生,講師,研究方向:大數(shù)據(jù)、人工智能;洪希多,碩士研究生,副教授,研究方向:網(wǎng)絡(luò)工程、大數(shù)據(jù);李東升,本科,副主任醫(yī)師,研究方向:臨床醫(yī)學(xué)、醫(yī)學(xué)數(shù)據(jù)整合。