(天津師范大學(xué)管理學(xué)院 天津 300387)
介紹:目前,我們通過在線社交網(wǎng)站,如微博和豆瓣,以及個人網(wǎng)站上分享了許多個人信息和專業(yè)信息。這些網(wǎng)絡(luò)博客平臺在連接人們、分享信息、表達用戶的想法和觀點方面做出了重大貢獻。然而,當用戶發(fā)布和分享關(guān)于他們自己或朋友的信息時,他們不得不面對安全和隱私問題。我們相信,這個問題的嚴重性在我們分享并通過不同的網(wǎng)絡(luò)博客平臺發(fā)布更多的信息后變得至關(guān)重要。在這個工作中,我們關(guān)注于在網(wǎng)絡(luò)博客中挖掘用戶的個人相關(guān)信息。另外,我們假設(shè)當人們快樂或悲傷時,人們可能會更多地表達他們的個人信息、興趣。在線攻擊者可以利用這個問題進行推理攻擊,從而從個體中推斷出私人信息。
準備工作:研究表明,預(yù)測個人特征和屬性可能是一個嚴重的隱私問題。我們通過微博數(shù)據(jù)尋找個人信息,此外,還強調(diào)了可能從文本中泄露的潛在信息。微博還收集了用戶公開的個人信息,并開發(fā)了一種自動分析工具,收集用戶的更多信息。但是,這些研究都沒有涉及到網(wǎng)絡(luò)博客中用戶情緒和個人信息之間的關(guān)系。
研究方法:我們使用使用自然語言處理解析器和命名實體識別器來提取用戶的個人信息。我們提取專有名詞的詞性、標簽和數(shù)字等。此外,我們通過個人博客提取用戶的好惡,通過用戶的個人愛好揭示他們的特征。我們使用語言學(xué)的特性和同義詞來區(qū)分用戶喜歡或者不喜歡的程度,例如不反感、一般、喜歡、偏愛、無感、不喜歡、厭惡等等,以供用戶選擇。在情感分析方面,我們在每個博客中捕捉積極和消極的情緒。我們選擇用一句話來總結(jié)情緒分值,并在一個特定的博客上對多個句子進行綜合。我們相信,一個更廣泛的分數(shù)分布可以讓我們更好地提高情緒,而不是把整個博客的情緒建立在一個單詞或句子的分數(shù)上。我們選擇用一句話來總結(jié)情緒分值,并在一個特定的博客上對多個句子進行綜合。更廣泛的分數(shù)分布可以讓我們更好地判斷情緒,而不是把整個博客文章的情緒建立在一個單詞或句子的分數(shù)上。
我們使用ICWSM 2009的Spinn3r數(shù)據(jù)集進行評估,在這里,Spinn3r數(shù)據(jù)集是一個抓取數(shù)百萬篇博客文章、新聞文章、分類信息和論壇帖子的集合。我們使用Google協(xié)議緩沖API來解析和清理數(shù)據(jù),以獲得網(wǎng)絡(luò)博客文章的純文本內(nèi)容。此外,我們使用Spinn3r API將原始流文件解碼成單個有效負載對象,每個有效負載對象對應(yīng)于一個爬行的網(wǎng)頁條目。
評價:我們從Spinn3r數(shù)據(jù)集中使用了2440個獨特的網(wǎng)絡(luò)博客。對于每個博客,我們分析了情緒評分的經(jīng)驗概率分布函數(shù)。此外,我們還計算了情緒評分與其他三個特征之間的皮爾遜相關(guān)系數(shù)。
正面和負面情緒得分的總和用來捕捉故事的凈情感,而情感的絕對值,用來捕捉情緒得分的力量??偨Y(jié)我們的研究結(jié)果:
1.情緒與詞性標簽:Spinn3r數(shù)據(jù)集顯示了網(wǎng)絡(luò)情緒得分和詞性標簽之間的弱關(guān)聯(lián)(大約0.193)。我們相信在一個博客里有很多不同的積極和消極的情緒,這樣就可以抵消掉。我們觀察到絕對情緒強度和詞性標簽之間的相關(guān)性。這驗證了我們的假設(shè):當人們快樂時,“積極的情緒”或悲傷的“高消極情緒”,人們可能會談?wù)摳嗟膫€人信息。
2.情緒vs.喜歡/不喜歡:在博客中,人們傾向于更多地談?wù)撟约旱?積極的)喜歡而不是(消極的)不喜歡的事情,因為比起不喜歡,喜歡與情緒有更高的正相關(guān)。
結(jié)論和未來的工作:我們的研究結(jié)果表明,用戶情感與語言特征之間存在著顯著的正相關(guān)關(guān)系。未來的工作是開發(fā)一個分類器,準確地預(yù)測個人信息的基礎(chǔ)上,我們的分析的特點。同時,我們計劃探討這種個人博客信息是否可以與其他開放系統(tǒng)網(wǎng)絡(luò)和公共信息相結(jié)合,以評估用戶的安全風(fēng)險。
【參考文獻】
[1]李勇,徐震.青年報,2009,第19期,125-108
[2]徐靜.世界報.第51卷,2013,第10期,105-108
[3]許愛強,史賢俊,曲東才,2013全國學(xué)術(shù)論文集,北京,307-309
[4]Simon S.Woo,Harsha Manjunatha.Empirical Data Analysis on User Privacy and Sentiment in Personal Blogs
[5]魏來,鄭躍.隱私2.0:Web2.0時代的用戶隱私保護研究[J].圖書與情報,2010(5):60-64.