• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于信息傳播特性的新詞發(fā)現(xiàn)方法研究

      2020-12-14 04:35:10曹春萍楊青林
      軟件導(dǎo)刊 2020年9期
      關(guān)鍵詞:信息傳播新詞

      曹春萍 楊青林

      摘 ?要: 針對(duì)現(xiàn)有方法無法有效、快速地識(shí)別出網(wǎng)絡(luò)中文新詞,且其生命周期比較短的問題,提出了一種基于信息傳播特性的新詞發(fā)現(xiàn)方法研究。利用N-gram算法得出候選詞串列表,基于詞頻和詞語靈活度對(duì)垃圾詞串進(jìn)行過濾,實(shí)現(xiàn)基于信息傳播特性的微博新詞統(tǒng)計(jì)方法。實(shí)驗(yàn)結(jié)果表明:提出的基于信息傳播特性的新詞發(fā)現(xiàn)方法在查準(zhǔn)率、召回率都要比使用中文ICTCLAP9115分詞方法分詞更好,更具有優(yōu)勢(shì)。

      關(guān)鍵詞: 信息傳播;新詞;發(fā)現(xiàn)方法;N-gram算法

      中圖分類號(hào): TP301 ???文獻(xiàn)標(biāo)識(shí)碼: A ???DOI:10.3969/j.issn.1003-6970.2020.09.053

      【Abstract】: In view of problem that existing methods can not identify Chinese new words on the Internet effectively and quickly, and their life cycle is relatively short, the paper proposes a new word discovery method based on characteristics of information dissemination. It obtains list of candidate word strings with N-gram algorithm, filters waste word strings based on word frequency and flexibility, realizes statistical method of new words in microblog based on characteristics of information dissemination. Experimental results show new word detection method based on characteristics of information dissemination has better precision and recall rate than the Chinese ICTCLAP9115segmentation method with advantages.

      【Key words】: Information dissemination; New words; Discovery method; N-gram algorithm

      0 ?引言

      自微博出現(xiàn)以后,其以實(shí)時(shí)性和方便性受到廣大網(wǎng)民的歡迎和熱愛,已經(jīng)發(fā)展為網(wǎng)絡(luò)應(yīng)用的愛寵。同時(shí)微博上匯聚的龐大用戶以及比較自由的言論環(huán)境,又使微博發(fā)展為切實(shí)掌握社會(huì)熱點(diǎn)的重要工具。伴隨計(jì)算機(jī)信息技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展創(chuàng)新和應(yīng)用,計(jì)算機(jī)網(wǎng)絡(luò)越發(fā)成為大眾信息發(fā)布與文化傳播交流的社會(huì)平臺(tái),因此產(chǎn)生一大批全新的網(wǎng)絡(luò)用語和熱詞。一些普及度比較高的網(wǎng)絡(luò)新詞開始為眾人所認(rèn)可,并被逐漸擴(kuò)展到中文詞語庫之中[1]。因?yàn)樵诰W(wǎng)絡(luò)世界中存在海量文本,而要想在文本中尋找到散落的網(wǎng)絡(luò)新詞單獨(dú)憑借人工查找、查閱和統(tǒng)計(jì)比較困難,因而怎樣在短時(shí)間內(nèi)快速有效地對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行查閱并發(fā)現(xiàn)新詞,這就成為一項(xiàng)迫切需要解決的現(xiàn)實(shí)問題。但網(wǎng)絡(luò)文本數(shù)據(jù)龐大,因?yàn)槠湎嚓P(guān)性比較差、組詞并無規(guī)律,這些就導(dǎo)致部分規(guī)律原理方法很難直接套用;而單條網(wǎng)絡(luò)文本因?yàn)槠湮谋鹃L(zhǎng)度比較短,噪聲比較大[2],這就造成傳統(tǒng)的基于統(tǒng)計(jì)學(xué)的發(fā)現(xiàn)方法很難提高其最終準(zhǔn)確率。因此,本文研究基于信息傳播特性的新詞發(fā)現(xiàn)方法。

      1 ?基于信息傳播特性的微博新詞發(fā)現(xiàn)方法

      相比于常規(guī)的語料訓(xùn)練,微博語料庫中包含的文

      本內(nèi)容由于身處網(wǎng)絡(luò)世界,要更為龐大復(fù)雜。除正常的文本信息以外,還會(huì)伴隨諸多無意義的干擾選項(xiàng),比如說表情符號(hào)中的[doge]、[淚]、[微笑]等等;微博用戶或平臺(tái)發(fā)布的網(wǎng)頁鏈接,比如http://t.cn/8syl8qn等;符號(hào)“//@”用戶名用代表轉(zhuǎn)發(fā)用戶,符號(hào)“@”+表示語句中提到的特定用戶;由于絕大多數(shù)微博用戶名不是正式網(wǎng)名,因此所有微博用戶名稱都不具有實(shí)際意義;以及微博語料庫中的標(biāo)點(diǎn)符號(hào),由于文本的失真和非正式性,導(dǎo)致大量微博用戶濫用標(biāo)點(diǎn)[3]。這幾種字符串并沒有產(chǎn)生新詞,因而能夠?qū)⑵鋸拇幚碚Z料庫中過濾,直接以“空格”來取代,如此可進(jìn)一步提升語料庫的文本含量并有效降低后續(xù)操作的難度。

      1.1 ?利用N-gram算法得出候選詞串列表

      N-gram模型主要是根據(jù)如下一種假設(shè):第個(gè)詞語的出現(xiàn)只和前面?zhèn)€詞語有關(guān)系,而和其他詞語之間均無關(guān)聯(lián)。我們以來表示這個(gè)詞語,如此出現(xiàn)的概率就能夠以來表示,這里使用代表詞串。在保證大量訓(xùn)練語料的基礎(chǔ)上,按照最大相似規(guī)則[4],就能夠獲取以下公式:

      1.2 ?基于詞頻和詞語靈活度過濾垃圾詞串

      任何一個(gè)新詞的出現(xiàn),勢(shì)必會(huì)伴隨著絕大多數(shù)群眾的大規(guī)模使用,而使用次數(shù)越少的詞語并不具有發(fā)展為一個(gè)新詞的可能性;同時(shí)因?yàn)榛ヂ?lián)網(wǎng)用戶在建立文檔的時(shí)候必然會(huì)出現(xiàn)輸入法錯(cuò)誤的操作,錯(cuò)別字等各式狀況的發(fā)生,在新詞候選集合中會(huì)出現(xiàn)諸多偶然性匹配,這種匹配在性質(zhì)上并不納入新詞考慮范圍內(nèi),絕大多數(shù)這種噪聲元組是沒有辦法通過閾值的篩選,可是依然會(huì)有一小部分的噪聲因?yàn)楸舜酥g信息閾值在計(jì)算方式上的不同,其統(tǒng)計(jì)記錄也會(huì)影響到詞語整體最終呈現(xiàn)的準(zhǔn)確率[5]。本文利用詞頻和詞語靈活度的方法對(duì)上文形成詞串中的垃圾詞串進(jìn)行過濾,以便有效提高之后新詞統(tǒng)計(jì)方法的工作效率。一個(gè)具備成為詞語的字符串,勢(shì)必會(huì)在社會(huì)得到廣泛推廣和使用,因而在訓(xùn)練語料庫中也會(huì)頻繁出現(xiàn)。出現(xiàn)頻率較低的詞串在性質(zhì)上會(huì)被歸屬為不具備一定意義的有效詞串。通過統(tǒng)計(jì)分析得知,92.01%的候選詞串其出現(xiàn)次數(shù)基本上小于等于2,所以本文在詞頻過濾方法的閾值大小設(shè)置為2。

      另外一方面,按照中文的形成和組詞規(guī)律,會(huì)存在一部分字符并不時(shí)常出現(xiàn)在詞首或詞尾,這些字符即為“停用字”,主要分為“詞首停用字”和“詞尾停用字”[6]。本文通過詞串的靈活度(代表每一個(gè)字符組成詞語的可能性和可行性)和設(shè)置閾值的比對(duì),去有效發(fā)現(xiàn)“停用字”。本文以來代表待判字符,以·代表隨意一個(gè)字符,有可能會(huì)出現(xiàn)在詞首/詞尾,甚至是詞的任何一個(gè)位置,由此定義“詞首停用字”為:

      上述公式中:代表詞串在訓(xùn)練語料庫中出現(xiàn)的實(shí)際次數(shù);代表字符出現(xiàn)在詞首或詞尾的可能性閾值。實(shí)驗(yàn)中設(shè)定閾值為2,共選取出大概200個(gè)停用字,如“是”“的”“了”“們”“你”等。對(duì)候選詞串完成垃圾過濾以后,本文以統(tǒng)計(jì)學(xué)方法獲取最終出現(xiàn)的新詞結(jié)果。

      1.3 ?基于信息傳播特性的微博新詞統(tǒng)計(jì)方法

      微博新詞與普通詞語在組成結(jié)構(gòu)上有很大不同,如詞語構(gòu)成上相較來說較為自由不受限,并沒有遵循傳統(tǒng)的語法構(gòu)造[7]。由于單純的漢語組成規(guī)則方法,其規(guī)則的制定比較耗時(shí),且可移植性較低;另外雖然單一的N-Gram模型其可移植性較為優(yōu)秀,可其在大規(guī)模數(shù)據(jù)的運(yùn)作中涉及的計(jì)算量比較龐大,所以本文提出了基于信息傳播特性的新詞發(fā)現(xiàn)方法,利用N-Gram方法對(duì)新詞進(jìn)行識(shí)別、統(tǒng)計(jì)。主要步驟如下所示:

      步驟1:首先對(duì)文本信息語料庫中的分詞碎片進(jìn)行預(yù)先處理,以便獲取到候選新詞集。在將其加入垃圾詞串庫的MC過程中需要把每一個(gè)文本連續(xù)編號(hào)以組建一個(gè)碎片子集FS,按照上述規(guī)則,F(xiàn)S主要是作為大于2個(gè)詞的詞子集而存在。比如:“第一次/大概/還/一知半解/不明覺厲”。按照剛剛的規(guī)則能夠獲得2個(gè)FS子集,即“第一次可能”和“不明覺厲”。在N-Gram模型詞串庫MC提取FS的候選語料算法的操作過程具體如下所示:

      算法:N-gram中候選新詞提取算法。

      輸入:MC//詞串語料庫集合;FS//碎片語料序列;

      輸出:CS//候選新詞子集。

      過程:

      1)在詞串語料庫MC中,按照關(guān)鍵詞的提示,候選詞串按照運(yùn)算規(guī)則提取到FS,將其作為三元的Bi-Gram和四元的Tri-Gram模型內(nèi)的計(jì)算對(duì)象;

      2)對(duì)每一個(gè)FS中蘊(yùn)含的詞語頻數(shù)進(jìn)行統(tǒng)計(jì),之后統(tǒng)一做歸一化處理,最后通過Bi-Gram模型公式(1)分別對(duì)FS的三元組、四元組和五元組字符出現(xiàn)的概率進(jìn)行精準(zhǔn)計(jì)算。之后將字符串連同其出現(xiàn)的概率值存儲(chǔ)至語料庫內(nèi);

      3)按照公式(2)對(duì)每一組詞句的分詞結(jié)果出現(xiàn)概率進(jìn)行比較,選擇最優(yōu)結(jié)果[8],換句話說就是通過公式(3)獲得概率的最大值,若是小概率則利用公式(4)對(duì)概率進(jìn)行計(jì)算。得到結(jié)果后,將所有字符串出現(xiàn)的概率按大小關(guān)系進(jìn)行排序,選擇較大的一組字符串作為候選字符串;

      4)借助TriGram模型,重復(fù)上述過程2)和過程3),獲得候選字符串,最后抽取同時(shí)存在于與內(nèi)的相同字符串作為候選語料的新詞序列。

      步驟2:通過相鄰熵對(duì)候選新詞子集進(jìn)行成詞概率的過濾。候選新詞一般是三元組或五元組,計(jì)算左右相鄰熵均超過閾值,如此便加入新詞子集內(nèi)。候選新詞通常為四元組,首先對(duì)左邊鄰近熵進(jìn)行計(jì)算,判斷其是否超過閾值[9-10];一旦超過閾值,繼續(xù)對(duì)右邊相鄰熵進(jìn)行計(jì)算,將左右鄰近熵超過閾值的候選新詞納入新詞子集內(nèi)。如果候選新詞判斷為新詞,那么其在語料庫中勢(shì)必具備較高的出現(xiàn)頻率,必然“高富帥”肯定會(huì)比和它有關(guān)的垃圾詞串“富帥不”出現(xiàn)頻率要高。假設(shè)候選新詞用表示,那么我們使用詞頻代表在語料庫內(nèi)出現(xiàn)的頻率,一般越大,作為新詞的可能性就越大,二者成正比例關(guān)系。根據(jù)有關(guān)資料顯示,用來表示兩個(gè)事物之間的相關(guān)性或親密度。在新詞篩選的過程中,可以用來衡量多個(gè)字/詞組合成語句的可能性大小。對(duì)于候選新詞而言,其親密度可用以下公式表示:

      2 ?實(shí)驗(yàn)論證與分析

      為保證本文設(shè)計(jì)的基于信息傳播特性的新詞發(fā)現(xiàn)方法的有效性,進(jìn)行實(shí)驗(yàn)論證分析。

      2.1 ?實(shí)驗(yàn)準(zhǔn)備

      硬件環(huán)境:需要兩臺(tái)計(jì)算機(jī),(1)配置:Intel Xeon E9-1331v5,4.50 GHz主頻,64 GB內(nèi)存,32位操作系統(tǒng);(2)配置:Intel Xeon E6-2929 v5,3.30 GHz主頻,256 GB內(nèi)存,64位操作系統(tǒng);軟件環(huán)境:(1)操作系統(tǒng)Windows10,(2)操作系統(tǒng)是Cent OS。算法采取JAVA與python雙結(jié)合,編輯工具以Eclipse和IDLE為主。

      本次實(shí)驗(yàn)選取9000條微博文本,分成三組作為輸入,分別利用本文方法和中文ICTCLAP9115分詞方法對(duì)其做相關(guān)處理,按照一系列的計(jì)算獲取最終結(jié)果。

      2.2 ?實(shí)驗(yàn)結(jié)果分析

      通過新浪微博APP,隨機(jī)抽選取新浪微博中粉絲數(shù)量比較多的微博賬號(hào)作為信息采集的起點(diǎn),利用“滾雪球”的方式,采集到2019年4月1日至2020年4月1日這些微博賬號(hào)在微博上公開發(fā)布的每一條微博的網(wǎng)絡(luò)IP、信息發(fā)布者、信息發(fā)布時(shí)間、信息發(fā)布內(nèi)容等,在對(duì)垃圾微博進(jìn)行過濾等處理后,建立了包括9000條微博的原始數(shù)據(jù)集合。

      3 ?結(jié)束語

      本文對(duì)基于信息傳播特性的新詞發(fā)現(xiàn)方法進(jìn)行分析與設(shè)計(jì),依托信息傳播的特性,收集并提取微博詞語數(shù)據(jù)的普遍特征,結(jié)合新詞出現(xiàn)規(guī)則,對(duì)新詞的出現(xiàn)進(jìn)行統(tǒng)計(jì)分析,實(shí)現(xiàn)新詞發(fā)現(xiàn)法的創(chuàng)新。實(shí)驗(yàn)論證結(jié)果表明,本文設(shè)計(jì)的基于信息傳播特性的新詞發(fā)現(xiàn)方法具備極高的有效性,在對(duì)微博新詞進(jìn)行統(tǒng)計(jì)查找的過程中,可以有效節(jié)省計(jì)算時(shí)間,提高查找率和召回率。希望本文的研究能夠?yàn)槲覈?guó)新詞發(fā)現(xiàn)方法提供理論依據(jù)和參考。

      參考文獻(xiàn)

      [1]趙志濱, 石玉鑫, 李斌陽. 基于句法分析與詞向量的領(lǐng)域新詞發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)科學(xué), 2019, 46(6): 29-34.

      [2]陳芬, 高小歡, 彭玥, 等. 融合文本傾向性分析的微博意見領(lǐng)袖識(shí)別[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2019, 3(11): 120-128.

      [3]賓晟, 孫更新. 基于多關(guān)系社交網(wǎng)絡(luò)的協(xié)同過濾推薦算法[J]. 計(jì)算機(jī)科學(xué), 2019, 46(12): 56-62.

      [4]李嘉興, 王晰巍, 常穎, 等. 社交網(wǎng)絡(luò)用戶行為國(guó)內(nèi)外研究動(dòng)態(tài)及發(fā)展趨勢(shì)[J]. 現(xiàn)代情報(bào), 2020, 40(4): 167-177.

      [5]劉偉童, 劉培玉, 劉文鋒, 等. 基于互信息和鄰接熵的新詞發(fā)現(xiàn)算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2019, 36(5): 1293-1296.

      [6]黃偉, 曹春萍.基于行為分析與傳播個(gè)體的微博傳播模型研究[J].軟件, 2019, 40(01): 127-131.

      [7]汪文妃, 徐豪杰, 楊文珍, 等. 中文分詞算法研究綜述[J]. 成組技術(shù)與生產(chǎn)現(xiàn)代化, 2018, 35(3): 1-8.

      [8]劉申凱, 周霽婷, 朱永華, 等. 融合知識(shí)圖譜和ESA方法的網(wǎng)絡(luò)新詞識(shí)別[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2019, 29(3): 12-17.

      [9]曾浩, 詹恩奇, 鄭建彬, 等. 基于擴(kuò)展規(guī)則與統(tǒng)計(jì)特征的未登錄詞識(shí)別[J]. 計(jì)算機(jī)應(yīng)用研究, 2019, 36(9): 2704- 2707+2711.

      [10]李娟, 虞金中. 基于新詞的新聞命名實(shí)體識(shí)別研究[J]. 電腦知識(shí)與技術(shù), 2018, 14(22): 153-154.

      [11]陳海宇.“大數(shù)據(jù)”時(shí)代背景下計(jì)算機(jī)信息處理技術(shù)的探討[J].計(jì)算機(jī)產(chǎn)品與流通, 2020(05): 6.

      猜你喜歡
      信息傳播新詞
      聲音·數(shù)字·新詞 等
      《微群新詞》選刊之十四
      Research on Micro-blog New Word Recognition Based on SVM
      淺析人民網(wǎng)《圖解新聞》欄目的信息傳播實(shí)踐
      今傳媒(2016年10期)2016-11-22 12:53:29
      新媒體信息傳播中的漢字視覺藝術(shù)呈現(xiàn)及發(fā)展
      新聞愛好者(2016年9期)2016-11-15 19:45:46
      全媒體語境下體育新聞教育建設(shè)的思索
      網(wǎng)絡(luò)輿論對(duì)公共政策制定的影響
      媒介融合背景下對(duì)新聞?dòng)浾咚刭|(zhì)的要求
      科技視界(2016年21期)2016-10-17 20:52:33
      如何進(jìn)行突發(fā)事件中的輿情引導(dǎo)
      人民論壇(2016年27期)2016-10-14 13:09:41
      小議網(wǎng)絡(luò)新詞“周邊”
      绿春县| 阿坝| 平阳县| 苏尼特左旗| 南澳县| 镇雄县| 河北省| 台中县| 广宁县| 佛坪县| 会同县| 竹溪县| 柞水县| 仁化县| 延川县| 抚顺县| 竹山县| 昌都县| 吴江市| 城固县| 广宗县| 临清市| 寻乌县| 渝北区| 镇赉县| 赤水市| 冷水江市| 海口市| 诏安县| 眉山市| 沙雅县| 交口县| 常熟市| 安仁县| 房山区| 青浦区| 尖扎县| 青河县| 日土县| 湄潭县| 应城市|