• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      社交網(wǎng)絡(luò)敏感數(shù)據(jù)獲取方法研究

      2018-03-26 02:14:46張章學(xué)
      軟件導(dǎo)刊 2018年3期
      關(guān)鍵詞:敏感數(shù)據(jù)爬蟲狀況

      張章學(xué)

      摘要:

      隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)變得至關(guān)重要,但是數(shù)據(jù)獲取一直是數(shù)據(jù)挖掘的一個(gè)難題。社交網(wǎng)絡(luò)的成熟使得數(shù)據(jù)獲取變得便捷,但是獲取方法仍然有待研究。通過分析社交網(wǎng)絡(luò)中的信息存儲(chǔ)狀況,構(gòu)造了社交網(wǎng)絡(luò)敏感數(shù)據(jù)獲取模型。從獲取用戶的個(gè)人簡介信息中得到用戶性別、出生日期、所在地等信息, 并通過瀏覽記錄對(duì)用戶興趣進(jìn)行分析,最后利用好友列表獲取其整個(gè)社交網(wǎng)中用戶的敏感數(shù)據(jù)。以新浪微博為例研究了用戶敏感數(shù)據(jù)獲取率。實(shí)驗(yàn)發(fā)現(xiàn),在所有數(shù)據(jù)獲取中職業(yè)獲取率是最低的,而其它信息獲取率較高。

      關(guān)鍵詞:

      社交網(wǎng)絡(luò);敏感數(shù)據(jù);網(wǎng)絡(luò)爬蟲

      DOIDOI:10.11907/rjdk.172235

      中圖分類號(hào):TP301

      文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)003005603

      英文摘要Abstract:With the advent of the age of big data, the data becomes critical. But accessing to data has been a problem for data mining. Social network of mature makes get data convenient, but the method still to be researched. The paper constructed social network sensitive data acquisition model by the analysis of social network in information storage condition. In the user's personal profile, we get some information such as user gender, date of birth, location, etc., and analyse user interest through the browsing record. Finally we get the entire users sensitive data of social network by the list of friends. By python,the paper make web crawler algorithm get network sensitive data. In the case of sina weibo , we get users sensitive data. In the experiment, we found that the acquisition rate of careers was the lowest, while the other information acquisition rate was higher.

      英文關(guān)鍵詞Key Words:social network; sensitive data; web spider

      0引言

      社交網(wǎng)絡(luò)通俗來講便是人與人交流的不同于現(xiàn)實(shí)而依附于虛擬網(wǎng)絡(luò)存在的人際關(guān)系網(wǎng),如常見的社交平臺(tái)Facebook、微博、人人網(wǎng)等,但它比現(xiàn)實(shí)中人們的關(guān)系網(wǎng)更為復(fù)雜。隨著社交網(wǎng)絡(luò)的不斷發(fā)展,網(wǎng)絡(luò)安全問題變得不可忽視。由于人們對(duì)個(gè)人隱私數(shù)據(jù)不重視,使得個(gè)人敏感信息泄漏,這種泄漏可能造成的結(jié)果可從兩個(gè)層面分析:①對(duì)用戶本人而言分兩種情況,一種是由于商業(yè)用途被獲取的敏感數(shù)據(jù),可能導(dǎo)致得到一些商業(yè)推廣信息,包括給郵箱發(fā)廣告、電話推銷,以及在瀏覽網(wǎng)頁時(shí)向用戶推薦鏈接等。另一種是某些團(tuán)體惡意獲取數(shù)據(jù),例如詐騙,在社交網(wǎng)絡(luò)中獲取個(gè)人信息如手機(jī)號(hào)、家庭地址等,進(jìn)行一些犯罪行為;②對(duì)于商業(yè)團(tuán)體而言,敏感數(shù)據(jù)的獲取能夠更好且有效地推廣產(chǎn)品。

      敏感數(shù)據(jù)指用戶年齡、性別、所在地、聯(lián)系方式、興趣等,社交網(wǎng)絡(luò)上敏感數(shù)據(jù)極易泄露,因?yàn)樯缃痪W(wǎng)絡(luò)平臺(tái)都需要注冊(cè)后才能進(jìn)行交流,而大部分用戶都會(huì)采用郵箱或手機(jī)號(hào)進(jìn)行注冊(cè),這導(dǎo)致該社交網(wǎng)絡(luò)平臺(tái)擁有用戶聯(lián)系方式。其次在用戶注冊(cè)后均需填寫個(gè)人信息,種種原因?qū)е旅舾须[私數(shù)據(jù)暴露,而敏感數(shù)據(jù)的獲取大部分采用爬蟲軟件進(jìn)行程序編寫。Jinhyung Jung、Chorong Jeong、Keunduk Byun、Sangjin Lee[1]提出利用越獄的方法獲取隱私數(shù)據(jù),或者使用獲取備份信息的方法。俞忻峰[2]提出兩種采集方法,一種是基于API,一種是網(wǎng)絡(luò)爬蟲。采取對(duì)比試驗(yàn),分別用這兩種方法獲取數(shù)據(jù)然后對(duì)比獲取的數(shù)據(jù)多少。高夢(mèng)超、胡慶寶、程耀東等[3]基于眾包模式,采用C/S架構(gòu),通過主題 Deep Web 爬蟲的分布式機(jī)器節(jié)點(diǎn)自動(dòng)向服務(wù)器請(qǐng)求爬蟲任務(wù)并上傳爬取數(shù)據(jù),再利用 Hadoop 分布式文件系統(tǒng)對(duì)獲取到的數(shù)據(jù)進(jìn)行處理。周思思、袁曉紅[4]針對(duì)微博類網(wǎng)站設(shè)計(jì)了支持Ajax(Asynchronous Java Script and XML)技術(shù)的網(wǎng)絡(luò)爬蟲,采用協(xié)議驅(qū)動(dòng)和事件驅(qū)動(dòng)結(jié)合的采集策略,實(shí)現(xiàn)了微博數(shù)據(jù)的成功抽取和存儲(chǔ)。

      本文通過分析社交網(wǎng)絡(luò)用戶敏感數(shù)據(jù)的存儲(chǔ)方式進(jìn)行敏感數(shù)據(jù)獲取研究。從獲取用戶的個(gè)人簡介信息中得到用戶性別、出生日期、所在地等信息 ,再通過瀏覽記錄對(duì)用戶興趣進(jìn)行分析,最后利用好友列表獲取其整個(gè)社交網(wǎng)絡(luò)中用戶的敏感數(shù)據(jù)。

      1模型建立

      1.1模型假設(shè)

      敏感數(shù)據(jù)獲取也就是一種網(wǎng)絡(luò)數(shù)據(jù)的獲取,而數(shù)據(jù)獲取離不開網(wǎng)絡(luò)爬蟲的應(yīng)用。網(wǎng)絡(luò)爬蟲,顧名思義就是在網(wǎng)絡(luò)上獲取數(shù)據(jù)的工具,而社交網(wǎng)絡(luò)應(yīng)用傳統(tǒng)爬蟲無法獲取全部信息,因此本文采用網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲能夠處理兩方面信息,一類是不需登錄便可獲取的信息,另一類是需要用戶注冊(cè)登錄后才能獲取的信息[5],而社交網(wǎng)絡(luò)中的數(shù)據(jù)是后一類。網(wǎng)絡(luò)爬蟲的工作原理見圖1。

      本文根據(jù)爬蟲工作原理作出如下假設(shè):

      (1)用戶的敏感數(shù)據(jù)為姓名、出生日期(或者年齡)、所在地、社交狀況、興趣愛好。

      (2)社交狀況分為兩個(gè)方面:一方面為好友數(shù),一方面是好友關(guān)系。其中好友關(guān)系比較抽象,本文將其具象化為好友間的互動(dòng),以此作為衡量他們之間關(guān)系的標(biāo)度,互動(dòng)行為分為互動(dòng)時(shí)間以及互動(dòng)頻率。

      (3)好友興趣愛好以用戶瀏覽的網(wǎng)頁數(shù)據(jù)進(jìn)行分析。本文根據(jù)上述假設(shè)建立模型,并編程封裝數(shù)據(jù)對(duì)象的類,包含要獲取的用戶ID、用戶名、年齡、性別、地域、網(wǎng)站來源、獲取該數(shù)據(jù)的時(shí)間點(diǎn)等。

      1.2模型分析與建立

      根據(jù)敏感數(shù)據(jù)的精確定義,在社交網(wǎng)絡(luò)中利用網(wǎng)絡(luò)爬蟲建立數(shù)據(jù)獲取模型構(gòu)架,見圖2。用戶性別、所在地、職業(yè)以及出生日期等信息可以輕易地在用戶簡介里找到,將其聚類起來便可使用,麻煩的是社交狀況和興趣狀況,這兩種信息需要對(duì)社交用戶具體分析。

      為了方便計(jì)算,本文將社交關(guān)系最好的用1表示,沒有社交關(guān)系則為0。為了使抽象的社交狀況轉(zhuǎn)為具象的數(shù)字,定義用戶i的粉絲集合為Gi,關(guān)注集合Hi,為用戶i與用戶j在t天內(nèi)評(píng)論、贊或者轉(zhuǎn)發(fā)過的項(xiàng)目集合,Tpij為用戶在t天內(nèi)進(jìn)行互動(dòng)行為的時(shí)間,n(Gi)、n(Hi)、n(Iij)分別為各個(gè)集合所包含的元素個(gè)數(shù),本文定義用戶i的社交狀況Si必須滿足以下方程:

      n(fi)=n(G∩H)(1)

      Si=a*n(fi)+b*∑j∈Gi∪HiTpijt*(n(Gi)+n(Hi))+c*Iijt(2)

      利用關(guān)鍵詞法[68]將用戶關(guān)注過的網(wǎng)頁與興趣進(jìn)行關(guān)聯(lián),明星關(guān)鍵詞集合S、養(yǎng)生關(guān)鍵詞集合Y、時(shí)尚關(guān)鍵詞集合F、美食關(guān)鍵詞集合E、文化關(guān)鍵詞集合W、娛樂關(guān)鍵詞集合L,見表1。

      將不同的關(guān)注詞聯(lián)系不同的興趣類型,然后進(jìn)行關(guān)注度分析。關(guān)注度即用戶對(duì)某種事物關(guān)注的程度,分析發(fā)現(xiàn),關(guān)注度與瀏覽數(shù)量瀏覽時(shí)間有關(guān)聯(lián)。因?yàn)樵诂F(xiàn)實(shí)生活中,只有感興趣用戶才會(huì)去花時(shí)間查找瀏覽。因此,定義用戶喜好與時(shí)間作為評(píng)價(jià)標(biāo)準(zhǔn),最后定義用戶興趣度表示用戶對(duì)該興趣的喜好程度。根據(jù)用戶i在t時(shí)間里登錄社交網(wǎng)絡(luò)的總時(shí)間t1,出現(xiàn)的關(guān)鍵詞集合Ri,以及每個(gè)關(guān)鍵詞k出現(xiàn)的時(shí)間tRik,本文定義用戶i的興趣狀況Hoi必須滿足以下方程:

      Z=max∑k∈Ri∩StRik,∑k∈Ri∩YtRik,∑k∈Ri∩FtRik,

      ∑k∈Ri∩EtRik,∑k∈Ri∩WtRik,∑k∈Ri∩LtRik(3)

      Hoi=明星if Z=∑k∈Ri∩StRik

      養(yǎng)生if Z=∑k∈Ri∩YtRik時(shí)尚if Z=∑k∈Ri∩FtRik美食if Z=∑k∈Ri∩EtRik文化if Z=∑k∈Ri∩WtRik娛樂if Z=∑k∈Ri∩LtRik(4)

      對(duì)用戶敏感信息進(jìn)行具體分析,明確所有的用戶敏感數(shù)據(jù)以及定義敏感數(shù)據(jù)值,其中最為重要且較難處理的是用戶社交狀況以及興趣。

      對(duì)上述兩個(gè)最復(fù)雜的數(shù)據(jù)進(jìn)行分析,將文本信息轉(zhuǎn)化為具體數(shù)值。利用網(wǎng)絡(luò)爬蟲工具進(jìn)行數(shù)據(jù)爬取,應(yīng)用Mysql數(shù)據(jù)庫語言對(duì)數(shù)據(jù)進(jìn)行整理。

      2仿真

      以微博為例,獲取用戶的敏感數(shù)據(jù)包括性別、出生日期、所在地、職業(yè)、社交關(guān)系及興趣愛好。由于現(xiàn)實(shí)的社交網(wǎng)絡(luò)平臺(tái)存在一些沒有具體意義的數(shù)據(jù),為了排除這些數(shù)據(jù)在試驗(yàn)中的干擾,在數(shù)據(jù)獲取過程中加入判斷語句,只有當(dāng)用戶滿足某種情況時(shí)才執(zhí)行數(shù)據(jù)收集[910]。首先,獲取用戶關(guān)注對(duì)象列表,進(jìn)行遍歷,依次進(jìn)入其頁面進(jìn)行關(guān)鍵詞獲取,再利用公式(3)和公式(4)求得其興趣愛好,如出現(xiàn)并列便是擁有多個(gè)愛好。其次,社交網(wǎng)絡(luò)狀況復(fù)雜,本文利用公式(1)和公式(2)對(duì)數(shù)據(jù)進(jìn)行處理,以獲取微博用戶的社交狀況。網(wǎng)絡(luò)爬蟲敏感數(shù)據(jù)的獲取率如圖3所示。

      從圖3可以發(fā)現(xiàn),在所有獲取數(shù)據(jù)中,職業(yè)獲取率是最低的,這是由于在社交網(wǎng)絡(luò)中只有進(jìn)行服務(wù)推廣或比較知名的用戶才會(huì)對(duì)職業(yè)進(jìn)行備注,而其它信息由于在基本簡介中屬于需要填寫的信息因此獲取率較高。興趣則由于用戶注冊(cè)微博很大一部分原因是為了獲取自己感興趣的內(nèi)容,所以根據(jù)用戶關(guān)注信息就能夠推斷出大部分用戶的興趣狀況。社交狀況同樣如此,由于用戶會(huì)和自己的朋友互粉,根據(jù)粉絲等信息分析用戶的社交狀況還是比較容易的。而用戶性別獲取率是最高的,可以發(fā)現(xiàn)性別對(duì)用戶而言是不影響用戶隱私的,甚至有些用戶并不認(rèn)為性別屬于用戶隱私的范疇。

      為了充分了解用戶敏感數(shù)據(jù)的獲取與實(shí)現(xiàn)情況,利用所獲取數(shù)據(jù)進(jìn)行社交用戶的興趣分析。根據(jù)所得數(shù)據(jù)計(jì)算不同用戶的興趣度,得到用戶興趣的分布情況如圖4所示。對(duì)能夠體現(xiàn)社交網(wǎng)絡(luò)特點(diǎn)的用戶進(jìn)行分析,以了解用戶詳細(xì)的社交狀況。篩選出滿足各項(xiàng)需求的用戶,從而使數(shù)據(jù)更為理想。部分用戶的社交狀況比較分析如圖5所示。

      從圖5可以看出,本文方法以及數(shù)據(jù)處理的方式能很好地獲取用戶敏感數(shù)據(jù),并對(duì)其進(jìn)行處理。可以發(fā)現(xiàn)用戶對(duì)明星的關(guān)注度最高,對(duì)養(yǎng)生的關(guān)注度最低,而社交狀況中,大部分用戶的社會(huì)關(guān)系值集中在0.45左右,少部分用戶社會(huì)狀況不太理想。

      3結(jié)語

      本文根據(jù)社交網(wǎng)絡(luò)用戶敏感數(shù)據(jù)存儲(chǔ)特點(diǎn),以微博為例,構(gòu)架了網(wǎng)絡(luò)爬蟲對(duì)敏感數(shù)據(jù)進(jìn)行獲取,定義了用戶之間興趣度,進(jìn)行社交狀況計(jì)算,然后分析了微博用戶之間的興趣度分布狀況和社交狀況,得出社交網(wǎng)絡(luò)中敏感數(shù)據(jù)的實(shí)現(xiàn)方法。傳統(tǒng)的敏感數(shù)據(jù)是基于語義對(duì)網(wǎng)絡(luò)信息進(jìn)行挖掘,本文利用社交網(wǎng)絡(luò)獲得用戶的社交狀況和興趣,使用python語句對(duì)用戶信息進(jìn)行采集并分析,使仿真結(jié)果更為完善。

      參考文獻(xiàn)參考文獻(xiàn):

      [1]JINHYUNG JUNG, CHORONG JEONG, KEUNDUK BYUN, et al. Epidemic information sensitive privacy data acquisition in the iPhone for digital forensic analysis[J]. Verlag Berlin Heidelberg, 2011(3):172186.

      [2]俞忻峰.社交網(wǎng)絡(luò)挖掘方案研究[J].現(xiàn)代電子科技,2015(38):2535.

      [3]高夢(mèng)超,胡慶寶,程耀東,等.基于眾包的社交網(wǎng)絡(luò)數(shù)據(jù)采集模型設(shè)計(jì)與實(shí)現(xiàn)社交網(wǎng)絡(luò)中信息傳播預(yù)測的研究綜述[J].計(jì)算機(jī)工程,2015(41):3640.

      [4]繆健美,姜華強(qiáng),項(xiàng)潔.社交網(wǎng)絡(luò)信息采集技術(shù)研究與實(shí)現(xiàn)[J].電子世界,2012(2):4041.

      [5]陳興蜀,尹雅麗,李衛(wèi),等.面向“人人網(wǎng)”的用戶信息采集及拓?fù)鋄J].電子科技大學(xué)學(xué)報(bào),2014(51):126137.

      [6]李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003(10):15.

      [7]CETINKAYA A. Regular expression generation through grammatical evolution[C]. Genetic and Evolutionary Computation Conference, GECCO 2007, Proceedings, London, England, UK, 2007, Companion Material, 2007:26432646.

      [8]LINZ P. An introduction to formal languages and automata[M]. Jones and Bartlett Publishers, Inc. 2011.

      [9]龍怡翔,李海濤,胡薇.戰(zhàn)術(shù)網(wǎng)絡(luò)中基于策略的網(wǎng)絡(luò)管理技術(shù)研究[J].信息安全與通信保密,2012(7):8789.

      [10]彭冬,蔡皖東.面向Web論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2011,33(1):157160.

      責(zé)任編輯(責(zé)任編輯:杜能鋼)

      猜你喜歡
      敏感數(shù)據(jù)爬蟲狀況
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
      干擾條件下可檢索數(shù)字版權(quán)管理環(huán)境敏感數(shù)據(jù)的加密方法
      聲敏感患者的焦慮抑郁狀況調(diào)查
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      實(shí)現(xiàn)虛擬機(jī)敏感數(shù)據(jù)識(shí)別
      基于透明加密的水下通信網(wǎng)絡(luò)敏感數(shù)據(jù)防泄露方法
      2019年中國國際收支狀況依然會(huì)保持穩(wěn)健
      中國外匯(2019年13期)2019-10-10 03:37:38
      基于4A平臺(tái)的數(shù)據(jù)安全管控體系的設(shè)計(jì)與實(shí)現(xiàn)
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      第五節(jié) 2015年法學(xué)專業(yè)就業(yè)狀況
      石狮市| 沁源县| 综艺| 双柏县| 郯城县| 南丹县| 锡林郭勒盟| 乾安县| 济南市| 色达县| 万山特区| 门头沟区| 江门市| 哈密市| 石景山区| 得荣县| 瑞昌市| 吉安县| 平顶山市| 固阳县| 铜鼓县| 建德市| 色达县| 宽甸| 丁青县| 攀枝花市| 健康| 贵州省| 始兴县| 彩票| 乐至县| 雷波县| 怀远县| 昌乐县| 永泰县| 买车| 响水县| 三原县| 南城县| 内乡县| 武夷山市|