• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于社交網(wǎng)絡(luò)的短文本信息的用戶屬性的特點(diǎn)

      2016-03-22 13:26:56陳彥敏王志華
      電腦知識(shí)與技術(shù) 2016年2期
      關(guān)鍵詞:社交網(wǎng)絡(luò)

      陳彥敏 王志華

      摘要:短文本信息是一種短文本數(shù)據(jù),數(shù)據(jù)中包含人們對(duì)社會(huì)各種現(xiàn)象的各種觀點(diǎn)和立場。消息發(fā)布大多通過用戶來完成,用戶有很多的屬性,例如用戶的年齡分布度,用戶的觀點(diǎn)傾向,用戶的等級(jí)程度等等都會(huì)影響短文本信息內(nèi)容的傳播。主要分析短文本信息的和用戶屬性的特點(diǎn)。

      關(guān)鍵詞: 短文本;用戶屬性; 社交網(wǎng)絡(luò)

      中圖分類號(hào):TP313 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)02-0003-02

      1 引言

      在目前網(wǎng)絡(luò)環(huán)境下新聞評(píng)論、商品評(píng)價(jià)、BBS、尤其是社交網(wǎng)絡(luò),都為信息傳播提供了新的平臺(tái)基礎(chǔ)。這些網(wǎng)絡(luò)應(yīng)用產(chǎn)生了大量的文本,但是這些文本一般長度比較短,稱之為短文本信息。短文本數(shù)據(jù)量非常巨大,數(shù)據(jù)中包含人們對(duì)社會(huì)各種現(xiàn)象的各種觀點(diǎn)和立場,話題涉及政治、經(jīng)濟(jì)、軍事、娛樂、生活等各個(gè)領(lǐng)域。

      短文本信息是一種即時(shí)交互性短文本,與常規(guī)文本相比,具有不完整性、不規(guī)范性等特點(diǎn)。常規(guī)文本聚類研究中采用的基于關(guān)鍵詞匹配,改進(jìn)的相似性度量方法不能很好地適應(yīng)短文本信息聚類的需要。

      隨著短文本挖掘需求的日益增長,近年來人們對(duì)短文的挖掘進(jìn)行了很多研究。龔才春等人提出了[1]基于頻繁詞集的方法。該方法是提出了一種大規(guī)模語料的劃分策略,將待發(fā)現(xiàn)頻繁模式的原始語料劃分為若干子語料。對(duì)每個(gè)子語料獨(dú)立發(fā)現(xiàn)其頻繁模式結(jié)果,并能保證對(duì)各子語料發(fā)現(xiàn)的頻繁模式結(jié)果的并集即為原始語料的頻繁模式集。能夠避免處理低頻模式,從而大大提高頻繁模式發(fā)現(xiàn)的速度DeLuea等人提出了基于語義的方法[2],利用概念間的共現(xiàn)關(guān)系來確定其語義聯(lián)系,并利用這種語義聯(lián)系來指導(dǎo)分類,從而達(dá)到比一般向量空間模型更好的短文分類效果。另一種方法[3]是使用潛在語義索引進(jìn)行短文本分類的方法。該方法通過潛在語義索引來定義詞匯之間的語義聯(lián)系,從而提高短文分類的準(zhǔn)確度。這些基于語義的方法在某些范圍內(nèi)獲得了較好的準(zhǔn)確度,但準(zhǔn)確度仍有待進(jìn)一步提高。宋萬鵬等人提出短文本相似度計(jì)算在用戶交互式問答系統(tǒng)中的一個(gè)具體的應(yīng)用[4]。楊震等人提出的基于字符串相似性聚類的網(wǎng)絡(luò)短文本輿情熱點(diǎn)發(fā)現(xiàn)技術(shù)[5]。文獻(xiàn)[6-7]提出了分別介紹了無監(jiān)督和半監(jiān)督的方法對(duì)短文本信息的技術(shù)研究,楊天平等人提出概念描述的短文本分類方法[8],路榮等人提出話題的發(fā)現(xiàn)[9]。

      這些研究包括對(duì)短文本信息從文本的語料和語義分析,到文本相似度的分類和聚類的分析,以及一些新的概念描述,都是對(duì)短文本信息本身進(jìn)行的研究。

      2 短文本的特征

      短文本數(shù)據(jù)和通常意義的文本信息數(shù)據(jù)不一樣。文本信息往往是一篇完整的文章或截取某一段的信息。信息句式完整,句子語義完整。在這樣的文本信息下,研究文本內(nèi)容的關(guān)聯(lián)和文本之間的關(guān)聯(lián)時(shí),可研究的內(nèi)容多,表達(dá)完整。尤其對(duì)文本做分類和聚類時(shí),這樣的文本信息劃分種類較容易,準(zhǔn)確度高。

      但是短文本數(shù)據(jù)和文本信息無論從文字長短上還是結(jié)構(gòu)特征上都有很大的區(qū)別。

      2.1文本來源不同

      文本信息來源主要是網(wǎng)站或已整理好的文章。而短文本信息主要來源于社交網(wǎng)絡(luò)的留言,用戶的微博,即時(shí)通訊工具等,這樣的短文本信息語義內(nèi)容少,必須要根據(jù)前后短文本信息的內(nèi)容來理解語義。文本來源多,內(nèi)容雜。

      2.2文本結(jié)構(gòu)不同

      文本信息的結(jié)構(gòu)主要是文字。但是短文本信息的結(jié)構(gòu)是復(fù)雜的。從短文本信息的特點(diǎn)上就有圖形,圖標(biāo),文字,flash等非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)代表相關(guān)的語義信息,但是僅僅分析文本內(nèi)容,并不能完全正確理解短文本的全部語義。如果從短文本信息的用戶屬性角度上分析的發(fā)送端和接收端,這些部分又是結(jié)構(gòu)化的數(shù)據(jù)。

      2.3文本的長度不同

      普通的文本長度一般在一段到幾段之間,甚至更長。這樣的長度,可以找出文本的關(guān)鍵詞等信息。但是短文本信息的文章這往往只有一句話或幾句話,甚至是幾個(gè)字。在這種情況下,通常意義的基于關(guān)鍵詞的頻率的查找方法就不適用用短文本的查找,因?yàn)檫@種頻率太低,沒有區(qū)分度。

      2.4文本信息數(shù)量不同

      通常意義下的文本信息數(shù)據(jù)都是以篇數(shù)來統(tǒng)計(jì)的,但是對(duì)于短文本信息數(shù)據(jù)沒有篇的概念,因?yàn)槎涛谋镜钠?,通常不超過100個(gè)詞,關(guān)鍵詞出現(xiàn)的也少。一般以條作為短文本的信息數(shù)量。通常要研究大量的短文本信息才具有意義。

      2.5文本信息的屬性特征不同

      通常意義下的文本,都是基于內(nèi)容的研究。而短文本在內(nèi)容上沒有太多可以表示的內(nèi)容,但是在短文本的用戶的屬性,短文本發(fā)送的地理位置,發(fā)送的時(shí)間,發(fā)送的相關(guān)對(duì)象等都具有特點(diǎn)的意義和特點(diǎn)。

      3 建立短文本信息數(shù)據(jù)庫的特點(diǎn)

      建立短文本信息數(shù)據(jù)庫與通常的文本數(shù)據(jù)庫也有很多的區(qū)別,一般的文本數(shù)據(jù)庫主要存儲(chǔ)的是以文本的篇數(shù)或文本的關(guān)鍵詞來存儲(chǔ)。但是短文本信息的數(shù)據(jù)庫根據(jù)短文本數(shù)據(jù)的規(guī)模大小,文本結(jié)構(gòu),提取的屬性,所需要的短文本數(shù)據(jù)庫也不同。

      在短文本信息數(shù)據(jù)庫中,如果研究是文本本身,需要存儲(chǔ)文本內(nèi)容。如果是短文本自帶的屬性,例如地理位置,發(fā)布時(shí)間,轉(zhuǎn)發(fā)數(shù)量等。這個(gè)就需要對(duì)短文本的屬性設(shè)置相應(yīng)的屬性項(xiàng)來實(shí)現(xiàn)。還有一種情況,就是研究發(fā)送短文本信息的用戶,用戶屬性包含類別很多,有用戶自身的屬性,還有用戶和其他用戶交互的行為過程,這些信息有些是非結(jié)構(gòu)化的,有些是結(jié)構(gòu)化的,不同的研究對(duì)象需要分別建立不同的數(shù)據(jù)庫。

      短文本信息與用戶之間是有一定的聯(lián)系的,因?yàn)橛脩魧?duì)短文本信息的發(fā)布,用戶本身會(huì)具有很多的屬性,例如用戶的年齡分布,用戶的權(quán)威度,用戶的觀點(diǎn)傾向,用戶的等級(jí)程度等等,不同的用戶屬性在不同程度上都會(huì)影響短文本信息內(nèi)容的可信度和傳播。

      4 短文本信息的用戶屬性

      短文本信息的發(fā)出者是用戶,由于短文本信息的發(fā)送和接受都是和用戶相關(guān)。所以研究用戶的屬性就是研究短文本的附加語義和價(jià)值的重要途徑。

      用戶屬性包括有以下幾種:

      4.1用戶的個(gè)人屬性

      包括:年齡,姓名,單位等。有些個(gè)人屬性是公開的,有些是非公開的。這些個(gè)人屬性都和短文本信息的內(nèi)容等有多相關(guān)的聯(lián)系。

      4.2用戶的等級(jí)屬性

      在很多的社交網(wǎng)絡(luò)中,都設(shè)計(jì)了不同的用戶等級(jí),有公眾的用戶等級(jí),有用戶通過發(fā)文和充值的等級(jí)等。

      4.3用戶的地理位置屬性

      在很多的手機(jī)端,軟件通過GPS和移動(dòng)網(wǎng)絡(luò)的基站確定用戶的地理位置。根據(jù)地理位置可以判斷用戶所在地區(qū),用戶移動(dòng)行跡路線,用戶常去的地方,有很多軟件基于此進(jìn)行信息推送。

      4.4用戶的短文本附加屬性

      這些屬性有短文本的轉(zhuǎn)發(fā)量,短文本的閱讀量,評(píng)論數(shù)等,這些附加屬性是基于用戶的。但對(duì)短文本信息的分析有幫助作用。

      5 結(jié) 論

      在建立文本信息數(shù)據(jù)庫和用戶屬性集的條件下,研究通過用戶屬性對(duì)短文本信息的提取具有什么樣的影響。哪些用戶屬性對(duì)文本信息具有關(guān)鍵作用。將用戶的屬性作為短文本信息提取的重要權(quán)重屬性,研究是否能夠通過類似的用戶屬性預(yù)測其他用戶的短文本信息發(fā)布的趨勢。同時(shí)研究建立合適的數(shù)學(xué)模型。

      總之,用戶的不同屬性,對(duì)分析和研究文本和語義都有重要的影響和意義。

      參考文獻(xiàn):

      [1]龔才春.短文本語言計(jì)算的關(guān)鍵技術(shù)研究[D].中國科學(xué)院.2008

      [2]E. W. DeLuea, A. Nurnberger. Ontology. Based Semantic Online Classification of Documents: Supporting Users in searching the web[J] In:Proc. Of the European Symposium on Intelligent Technologies (EUNITE2004).

      [3]Deerwester Scott et al. indexing by latent semantic analysis [J]. Journal of the American Society for Information Science, 1990, 41(6):391-407.

      [4] 宋萬鵬.短文本相似度計(jì)算在用戶交互式問答系統(tǒng)中的應(yīng)用[D].2010

      [5]楊震,段立娟,賴英旭,等.基于字符串相似性聚類的網(wǎng)絡(luò)短文本輿情熱點(diǎn)發(fā)現(xiàn)技術(shù)[J].北京工業(yè)大學(xué)學(xué)報(bào),2010,36(5):669-673.

      [6]黃九鳴,吳泉源,劉春陽,等.短文本信息流的無監(jiān)督會(huì)話抽取技術(shù)[J].軟件學(xué)報(bào),2012,23(4):735-747.

      [7]蔡月紅,朱倩,孫萍,等.基于屬性選擇的半監(jiān)督短文本分類算法[J].計(jì)算機(jī)應(yīng)用,2010,30(4):1015-1018.

      [8]楊天平,朱征宇.使用概念描述的中文短文本分類算法[J].計(jì)算機(jī)應(yīng)用,2012,32(12):3335-3338.

      [9]路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J].模式識(shí)別與人工智能,2012,25(3):382-387.

      猜你喜歡
      社交網(wǎng)絡(luò)
      口碑信息傳播對(duì)圖書館服務(wù)創(chuàng)新的啟示
      社交網(wǎng)絡(luò)對(duì)大學(xué)英語教學(xué)的影響及應(yīng)用
      科技視界(2016年26期)2016-12-17 20:01:00
      社交網(wǎng)絡(luò)推薦系統(tǒng)
      社交網(wǎng)絡(luò)對(duì)大學(xué)生人際交往的影響及對(duì)策研究
      基于五要素理論的視頻自媒體盈利模式
      聲屏世界(2016年10期)2016-12-10 21:16:45
      大數(shù)據(jù)時(shí)代社交網(wǎng)絡(luò)個(gè)人信息安全問題研究
      社交網(wǎng)絡(luò)中的隱私關(guān)注及隱私保護(hù)研究綜述
      基于圖片分享為核心的社交網(wǎng)絡(luò)應(yīng)用分析
      戲劇之家(2016年19期)2016-10-31 19:44:28
      社交網(wǎng)絡(luò)自拍文化的心理解讀
      新聞前哨(2016年10期)2016-10-31 17:46:44
      社交網(wǎng)絡(luò)營銷策略及盈利模式探討
      商情(2016年11期)2016-04-15 20:16:05
      茶陵县| 罗江县| 台山市| 大安市| 上栗县| 赤城县| 随州市| 疏附县| 射洪县| 察哈| 包头市| 新密市| 贵阳市| 博野县| 浦江县| 清丰县| 安乡县| 富源县| 察雅县| 临夏市| 泾阳县| 巴林左旗| 武宁县| 贵定县| 合山市| 高州市| 涟源市| 湘阴县| 新乡县| 望江县| 丹东市| 温泉县| 万山特区| 邵阳市| 东台市| 环江| 仁布县| 贵溪市| 永年县| 珠海市| 鄂托克旗|