• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合相似性判斷的網(wǎng)絡(luò)新詞發(fā)現(xiàn)算法

    2022-04-20 04:06:32爽,陳莉,李
    關(guān)鍵詞:互信息新詞相似性

    張 爽,陳 莉,李 錚

    (西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127)

    近年來,微博、短視頻等各類社交媒體對人們?nèi)粘I钪械男畔鞑テ鹬艽笞饔?人們傾向于從這些社交軟件上獲取新聞資訊、關(guān)注熱點事件,大量網(wǎng)絡(luò)新詞也借助著這些社交媒體被廣泛傳播。已有研究表明,由于新詞沒有被完全發(fā)現(xiàn)會導(dǎo)致60%的分詞錯誤,而且分詞效果的好壞會直接影響中文文本情感分析過程中情感詞典的構(gòu)建以及情感傾向性判斷[1]。

    新詞發(fā)現(xiàn)通常指的是未登錄詞的發(fā)現(xiàn),這些詞大多來自于微博文本、短視頻評論以及長視頻彈幕,具有構(gòu)詞模式簡單自由且構(gòu)詞方式多樣等特點。目前新詞發(fā)現(xiàn)方法主要分為3種:①基于規(guī)則的方法、基于統(tǒng)計的方法以及基于統(tǒng)計與規(guī)則相結(jié)合的方法?;谝?guī)則的方法[2]主要利用語言學(xué)中的構(gòu)詞規(guī)則、詞性以及語義信息設(shè)計出可以進行詞語匹配的規(guī)則模板,然后,通過設(shè)計好的模板對語料進行匹配發(fā)現(xiàn)新詞,在特定領(lǐng)域使用這種方法進行新詞發(fā)現(xiàn)的準確率較高,但可移植性較差,需要耗費大量的人力物力。②基于統(tǒng)計的方法是通過詞頻、互信息及鄰接熵等統(tǒng)計信息量識別新詞,基于統(tǒng)計的方法更靈活,可移植性強且易于擴展。Zhang等人針對互信息的不對稱共現(xiàn)問題,首次提出了增強互信息用于計算詞語的內(nèi)部凝聚度,有效識別多字表達式,但其忽略了語言特征對于新詞識別的影響[3];李文坤等人提出一種基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)方法,從沒有成功分詞的“散串”中發(fā)現(xiàn)新詞,該方法對數(shù)據(jù)稀疏性很敏感,無法有效識別低頻新詞[4];夭榮朋等人提出了一種基于改進互信息和鄰接熵的微博新詞發(fā)現(xiàn)算法,針對傳統(tǒng)互信息難以識別大于兩個字的多字詞問題,證明了多字串互信息公式的有效性,但該算法采用N-Gram模型,導(dǎo)致新詞發(fā)現(xiàn)過程中候選詞串數(shù)量過多[5];劉偉童等人針對N-Gram產(chǎn)生大量詞串導(dǎo)致新詞發(fā)現(xiàn)效率較低的問題,提出從左到右逐字擴展候選詞串的切分方法,該算法有效提高了發(fā)現(xiàn)新詞的效率,但未考慮上下文語義對新詞識別的影響[6]。③融合規(guī)則和統(tǒng)計的方法成為目前新詞發(fā)現(xiàn)的主流方法,該方法綜合了兩種方法的優(yōu)點。張海軍等人提出利用逐層剪枝的方法過濾低頻重復(fù)串,再利用統(tǒng)計量計算得到字串的牢固程度,最后,加入偏旁的詞性猜測特征用于海量語料文本中的新詞發(fā)現(xiàn),但該方法對于長詞以及單字詞的識別效果不佳[7];趙志濱等人針對領(lǐng)域新詞的發(fā)現(xiàn),提出基于依存句法分析和詞向量結(jié)合的方法,首先,以依存句法分析為基礎(chǔ)構(gòu)建句法詞典,再結(jié)合詞向量技術(shù)可以有效識別領(lǐng)域新詞,但該方法對于開放領(lǐng)域的新詞識別具有局限性[8];Shang等人通過word2vec模型訓(xùn)練得到候選詞與舊詞相似值,在傳統(tǒng)互信息公式中加入相似性增強值的計算,過濾非新詞的固定表達,該算法在小規(guī)模語料庫上取得了不錯的效果,但忽略了句子結(jié)構(gòu)以及停用詞對識別結(jié)果的影響[9];王煜等人通過分析熱點新詞的特性,利用改進的FP-tree找到頻繁候選新詞串,在點互信息的基礎(chǔ)上加入時間特征值判斷候選詞的內(nèi)部結(jié)合強度,使得熱點新詞的識別率大幅度提升,但該方法無法適用于大量網(wǎng)絡(luò)文本的新詞發(fā)現(xiàn)[10]。

    綜上,現(xiàn)有的新詞發(fā)現(xiàn)方法已取得了較好的識別結(jié)果,但仍存在兩個主要問題:①大多方法默認新詞為二字詞或多字詞,未考慮單字詞作為新詞的情況,導(dǎo)致單字新詞無法識別;②忽略了句子結(jié)構(gòu)信息和上下文語義信息對于新詞識別的影響,導(dǎo)致新詞識別的準確率不高。針對上述問題,本文在新詞發(fā)現(xiàn)過程中,基于字的粒度進行統(tǒng)計量的計算,獲取候選新詞集;并基于CNN模型,提出一種依存句法與語義信息結(jié)合的相似性計算模型(similarity computing model based on dependency syntax and semantics,DSSCNN)計算候選詞和舊詞所在句子相似性值,得到最終新詞集合。實驗結(jié)果表明,該算法能夠有效提高新詞識別的精度。

    1 相關(guān)統(tǒng)計量

    1.1 最大增強互信息

    通常將互信息作為詞串成詞概率的內(nèi)部統(tǒng)計量,如果計算得到的互信息值越大,代表詞串內(nèi)部凝聚度越大,相互依賴性越強,即更容易組成詞語?;バ畔11]的計算如式(1)所示。

    (1)

    其中:p(x),p(y)表示詞或單個字x、y單獨出現(xiàn)在語料中的概率;p(x,y)表示x、y共同出現(xiàn)在語料中的概率;MI(x,y)表示x,y的凝聚程度。

    互信息在衡量詞語關(guān)聯(lián)性方面存在非對稱共現(xiàn)問題,即對于一個詞對來說,僅考慮兩個詞的共現(xiàn)概率,忽略了某詞單獨出現(xiàn)而其他詞沒有單獨出現(xiàn)的情況。比如:詞語A出現(xiàn)次數(shù)為100,詞語B出現(xiàn)次數(shù)為300,A和B共同出現(xiàn)次數(shù)為100,也就是說,A僅僅與B一塊出現(xiàn)了,但B可能與其他詞共同出現(xiàn)次數(shù)更多,在這種情況下,A中包含B的信息比B中包含A的信息更多,互信息就無法正確衡量A和B的內(nèi)部凝聚度。針對此不足,文獻[3]提出增強互信息(enhanced mutual information,EMI)的定義,如式(2)所示。

    (2)

    其中:多字候選詞w=w1,w2,…,wS;nw為候選詞w的出現(xiàn)次數(shù);nwi是wi的出現(xiàn)次數(shù);N是文本總數(shù);f是平滑因子,保證nw=nwi時分母不為0。

    通常同一新詞可能由3字及以上短語的不同模式組合而成[12],比如“華語LIVE王”具有“華語/LIVE/王”“華語LIVE/王”“華語/LIVE王”等多種不同的組成模式,若對不同的模式分開計算,會導(dǎo)致識別結(jié)果存在冗余。因此,本文對組合成同一新詞不同模式的EMI值取最大值。若同一候選詞共有m種不同的組成模式,只保留該候選詞的最大EMI值(MEMI),如式(3)所示。

    MEMI(w)=max(EMI(wi)),

    i=1,2,…,m。

    (3)

    1.2 加權(quán)左右鄰接熵

    鄰接熵(branch entropy,BE)是HUANG等人提出用來衡量詞串左右相鄰詞串對成詞概率的影響的外部統(tǒng)計量[13],通過計算信息熵得到候選詞左右鄰接詞串的可變性。通常候選詞的左右鄰接串可搭配的字詞越豐富,BE越大。故一般取HL和HR中的較小值,左右鄰接熵的計算分別如式(4)和式(5)所示。

    (4)

    (5)

    其中:Wl是候選詞x的左鄰接字集合;Wr是候選詞x的右鄰接字集合;p(xl|x)表示xl為候選詞x左鄰接字時的概率;p(xr|x)為xr候選詞x右鄰接字時的概率。

    若使用傳統(tǒng)鄰接熵計算得到的左右鄰接熵值相等,會默認左右鄰接字xl和xr對于候選詞x貢獻的信息量相同。但在實際文本中,若候選詞的鄰接字為停用詞時,比如標點符號、特殊符號、常見字等,候選詞更容易被切分為新詞[14],即左右鄰接字對候選詞能否成詞的貢獻量存在差異。由于網(wǎng)絡(luò)文本口語化嚴重,存在大量的停用詞,因此,本文在式(4)和式(5)的基礎(chǔ)上賦予鄰接字符權(quán)值,用于區(qū)分鄰接字為停用詞或普通詞時的貢獻程度,加權(quán)后的鄰接熵(weighted branch entropy,WBE)計算如式(6)和式(7)所示。

    (6)

    (7)

    其中,權(quán)值wxl和wxr分別表示左右鄰接字符對于新詞劃分邊界的貢獻大小。

    2 融合相似性判斷的網(wǎng)絡(luò)新詞發(fā)現(xiàn)算法

    本文面向微博和短視頻評論等網(wǎng)絡(luò)文本進行新詞發(fā)現(xiàn),針對傳統(tǒng)基于統(tǒng)計量的新詞發(fā)現(xiàn)算法忽略了新詞與舊詞具有高度相似的句法和語義信息的問題,提出一種改進的相似性計算模型過濾無用新詞。

    2.1 改進的相似性計算模型

    在實際文本中,某些滿足統(tǒng)計量識別出來的新詞只是一些固定表達,比如“在過程中”“年以來”等,容易被誤判為新詞[9]。并且只基于統(tǒng)計量無法正確識別舊詞新義的網(wǎng)絡(luò)新詞,比如“真香”“塌房”等。因此,本文提出一種相似性判斷原則,即新詞與某些歷史表達具有較強的關(guān)聯(lián)性,若詞語A與詞語B具有相似的上下文語義信息,并且擔(dān)當相同的句子成分或具有相同的依存關(guān)系時,詞語A是一個舊詞,詞語B成為新詞的可能性更大。

    通常使用余弦距離等方法直接計算句子相似度會導(dǎo)致語義信息的丟失, 而且網(wǎng)絡(luò)文本大多內(nèi)容簡短且數(shù)據(jù)量較大。 為了獲取局部特征且保證較高的執(zhí)行效率, 本文基于CNN模型, 提出DSSCNN相似性計算模型,DSSCNN模型結(jié)構(gòu)如圖1所示。

    圖1 相似性計算模型圖Fig.1 Similarity calculation model

    在模型輸入層使用word2vec訓(xùn)練詞向量,生成候選新詞與舊詞所對應(yīng)句子的句子矩陣向量作為輸入。

    在句法結(jié)構(gòu)相似性特征表示層,對中心詞分別為候選新詞和舊詞的句子S1和S2進行依存句法分析,提取句法分析結(jié)果的依存詞對,表示為三元組WordPair(wi,wj)=(wi,wj,relation),wi為中心詞,wj為從屬詞,relation表示依存關(guān)系。分析文本結(jié)構(gòu),新詞在句中大多充當主、謂、賓、定,依存關(guān)系以主謂、動賓、定中、狀中關(guān)系為主,所以句法分析結(jié)果保留以上依存對。在句法結(jié)構(gòu)相似性特征表示層,計算對應(yīng)詞向量w1和w2的相似度,形成句法相似性向量矩陣DM×N,M和N表示兩個句子的中心詞個數(shù),相似度計算公式如式(8)所示。

    (8)

    其中,n表示詞向量的維度。

    兩個句子的依存詞對集合分別為DSetS1和DSetS2,基于依存句法分析結(jié)果,對relation相同的依存對計算余弦相似值,根據(jù)式(9)生成句子的句法結(jié)構(gòu)相似性特征fdep。

    Simdep(S1,S2)=

    (9)

    其中,α是計算余弦相似度的調(diào)整系數(shù),由于不同數(shù)據(jù)集訓(xùn)練生成的詞向量模型不同,得到的相似度值也會存在不同程度的差異,α主要用于放大相似度值,調(diào)整誤差。設(shè)置門限值1,防止調(diào)整后的相似度值超出實際范圍[-1,1]。max(cos(w,DSetS2))表示在依存詞對集合DSetS2中詞向量與中心詞向量w的最大余弦相似度值。

    在卷積和池化層,選擇特定卷積核大小和最大池化方法,獲得句子的特征輸出表示向量o1和o2。在語義相似性計算層,依據(jù)余弦距離計算得出語義相似性特征表示fsem。在全連接層將o1、o2與獲取的相似性特征向量fdep、fsem結(jié)合,形成新的特征向量f。最后使用log-softmax計算相似度值Sim(S1,S2)。

    2.2 新詞發(fā)現(xiàn)算法

    現(xiàn)有的新詞識別方法大多基于詞的粒度,默認新詞為二字詞或多字詞,而使用互信息無法計算單字新詞的成詞概率。針對此問題,本文基于字的粒度識別新詞。

    若使用現(xiàn)有分詞工具分詞后,將散串作為候選詞會導(dǎo)致新詞無法被正確識別;若采用N-Gram模型獲取初始候選詞,會導(dǎo)致候選詞數(shù)量過于龐大,算法執(zhí)行效率大大降低。因此,本文采用從左向右逐字擴展的方法計算相關(guān)統(tǒng)計量獲得候選新詞。

    綜上,融合相似性判斷的網(wǎng)絡(luò)新詞發(fā)現(xiàn)算法先對原始文本數(shù)據(jù)進行預(yù)處理;再基于字的粒度,分別計算單字詞頻、最大增強互信息和加權(quán)左右鄰接熵獲取候選新詞集;最后,基于DSSCNN計算新詞與舊詞所在句子相似度,過濾候選新詞。算法的具體步驟如下。

    輸入: 原始文本數(shù)據(jù)集text, 詞頻閾值p,MEMI閾值t,WBE閾值k,相似度閾值s

    輸出:新詞集合newWords

    1)數(shù)據(jù)預(yù)處理。將獲得的文本字符全部轉(zhuǎn)為UTF-8編碼格式;去除掉轉(zhuǎn)發(fā)文本中的標識符、主題內(nèi)容及一些特殊字符串,如“@人民日報”等;進行斷句操作,保留斷句結(jié)果;將文本中的停用詞使用符號“-”代替。

    2)獲取候選單字新詞集。將1)中的句子切分為單字集合,依次計算單字詞頻,若大于詞頻閾值p,將其加入候選單字新詞集合中。

    3)獲取候選多字詞。選擇2)中單字與右鄰接字結(jié)合為候選多字詞。

    4)判斷最大增強互信息。使用式(3)計算候選多字詞的MEMI值。若大于閾值t,執(zhí)行5);若小于閾值t,將候選多字詞加入候選新詞集。

    5)判斷加權(quán)左右鄰接熵。使用式(6)、(7)計算候選多字詞的WHL和WHR值,若均大于閾值k,則向右繼續(xù)擴展,執(zhí)行4);若小于閾值k,則返回執(zhí)行3)。

    6)獲取候選新詞集。將2)的候選單字新詞集合并到候選新詞集合中。

    7)獲取舊詞集合。使用pyltp的cws.model對中文維基百科語料進行分詞,使用哈工大停用詞典去停用詞,得到舊詞集合。

    8)獲取依存詞對。使用pyltp的parse.model對候選新詞和舊詞所在句子進行依存句法分析。獲取以候選新詞和舊詞作為中心詞的依存詞對集合。

    9)判斷相似性獲取新詞集合。使用DSSCNN計算候選新詞與舊詞所在句子的相似度。若大于閾值s,則將候選新詞加入新詞集合;若小于閾值s,去除候選新詞。

    3 實驗結(jié)果與分析

    3.1 實驗數(shù)據(jù)集

    本文爬取部分微博文本和短視頻評論作為數(shù)據(jù)集,時間集中在2019年12月至2020年9月,包括基于關(guān)鍵字的微博內(nèi)容、部分微博及短視頻的評論信息。共采集數(shù)據(jù)8萬條,該時間段內(nèi)實時熱搜前十的部分話題微博6萬條,人民日報相關(guān)微博和熱門短視頻的評論文本2萬條。將數(shù)據(jù)集按照4∶1的比例隨機劃分為訓(xùn)練集和測試集,本文實驗部分所有對比方法均使用此數(shù)據(jù)集。

    3.2 實驗評價指標

    本文利用N-Gram模型將原始文本劃分為多個候選詞串,因新詞大多由1到6個字符構(gòu)成,故N取值為1~6;再進行去重、去停用詞等過濾操作;最后,根據(jù)搜狗新詞細胞庫等網(wǎng)絡(luò)資源進行人工比對,共選取900個新詞作為標準新詞集。通過正確識別出來的新詞個數(shù)與標準新詞集對比,評價新詞發(fā)現(xiàn)算法的優(yōu)劣。采用的算法評價指標有準確率P(precision)、召回率R(recall)和F值(F-measure)。計算公式分別為

    (10)

    (11)

    (12)

    其中:AN表示正確識別出的新詞數(shù);N表示識別出的詞語總數(shù);M表示標準新詞集中新詞個數(shù)。

    3.3 實驗環(huán)境與參數(shù)設(shè)置

    本文使用實驗環(huán)境設(shè)置見表1。確定參數(shù)取值是利用貪心算法的思想,先選擇一個隨機值,再在一定范圍內(nèi)根據(jù)步長的大小進行多次實驗,分析實驗結(jié)果,選取F值最大時的參數(shù)值作為最終取值。

    表1 實驗環(huán)境配置參數(shù)表Tab.1 Experimental environment configuration parameters

    對于調(diào)整參數(shù)α,初始取值為1,在范圍[1,2]內(nèi),設(shè)置步長為0.1,進行多次實驗得出F值隨α取值的變化過程如圖2所示,故最終確定α值為1.5。

    圖2 調(diào)整參數(shù)α對F值的影響變化圖Fig.2 The influence of adjustment parameter α on F

    在確定統(tǒng)計量閾值時,若取值過大,會導(dǎo)致部分有效候選新詞被過濾;若取值過小,劃分的候選詞串數(shù)量較大,導(dǎo)致新詞識別的準確率較低。因此,先隨機設(shè)置初始值,再進行反復(fù)實驗不斷調(diào)整。確定詞頻閾值時,初始值設(shè)為5,以步長5在范圍[5,40]內(nèi)進行多次實驗,當F值最大時,閾值為20;再在范圍[10,30]內(nèi),以步長2進行多次實驗,當F值最大時,閾值為20,故最終確定詞頻閾值為20。其他閾值的確定思想同上述過程。經(jīng)反復(fù)實驗對比后,最終設(shè)置詞頻閾值為20,MEMI閾值為10,WBE閾值為5,相似性閾值為0.55。WBE中權(quán)值的設(shè)定主要為了區(qū)分停用詞和普通詞對于劃分邊界的貢獻,故當鄰接字符為停用詞時,權(quán)值設(shè)置為1.5,相反,鄰接字符為普通詞時,權(quán)值設(shè)置為1。

    使用Skip-gram[15]對中文維基百科和訓(xùn)練集數(shù)據(jù)進行訓(xùn)練,設(shè)置上下文窗口值為5,向量維度為50,訓(xùn)練完成后獲得詞向量表。然后對DSSCNN模型進行訓(xùn)練,設(shè)置卷積映射個數(shù)為100,卷積核大小為5,迭代次數(shù)為20。

    3.4 實驗結(jié)果分析

    為驗證本文提出算法的有效性,共設(shè)置兩組對比實驗,實驗1為基于統(tǒng)計量的新詞發(fā)現(xiàn)對比實驗,實驗2為融合相似性判斷的新詞發(fā)現(xiàn)對比實驗。

    3.4.1 實驗1的結(jié)果與分析 第1組對比實驗是基于統(tǒng)計量的方法,分別選取傳統(tǒng)互信息與左右鄰接熵結(jié)合MI-BE[6]、互信息和加權(quán)左右鄰接熵MI-WBE結(jié)合[14]作為基準方法,同時和增強互信息與左右鄰接熵組合EMI-BE、最大增強互信息與左右鄰接熵組合MEMI-BE、增強互信息與加權(quán)左右鄰接熵組合EMI-WBE、最大增強互信息與加權(quán)左右鄰接熵組合MEMI-WBE共6種基于統(tǒng)計量的方法進行對比實驗,結(jié)果如表2所示。

    表2 基于統(tǒng)計量的實驗結(jié)果對比表Tab.2 Comparison of experimental results based on statistics %

    MI-BE采用文獻[6]提出的新詞發(fā)現(xiàn)方法,在進行新詞識別的過程中,出現(xiàn)了大量滿足閾值且具有近似含義的重復(fù)詞串,比如“電影院”和“影院”、“飯圈文化”和“文化”等,這些重復(fù)詞串的出現(xiàn)使得新詞識別的準確率較低。EMI-BE和MEMI-BE可以有效識別共現(xiàn)不均衡的詞語,準確率和召回率都有一定的提高。

    MI-WBE在互信息的基礎(chǔ)上使用加權(quán)左右鄰接熵,對于口語化的微博文本中存在更多的停用詞以及特殊符號,即使出現(xiàn)HL和HR相等的詞,也能夠有效識別新詞邊界。EMI-WBE和MEMI-WBE與之前的實驗相比,實驗結(jié)果值更高。但從圖3可以看出這兩個實驗結(jié)果相差不大,所以,MEMI只針對那些具有多種組成模式的新詞有效果,而且WBE的使用弱化了具有多種模式組合的新詞識別。

    MI-BE和MI-WBE均未考慮單字新詞的識別,其余4個實驗基于字的粒度識別出部分單字新詞,如:“卷”“凎”“害”“可”“暈”等,相比MI-BE和MI-WBE,召回率都有了較大的提升,表明本文提出基于字的粒度識別新詞是有效的。

    3.4.2 實驗2的結(jié)果與分析 為驗證本文提出的相似性計算模型DSSCNN對于新詞識別有效,以相似性增強互信息與左右鄰接熵結(jié)合(SEMI-BE)[9]為基準方法,使用文獻[16]提出的語義相似性計算模型SSCNN與本文提出的DSSCNN進行相似性判斷,分別與基于統(tǒng)計量的6種方法結(jié)合進行對比實驗,結(jié)果如表3所示。

    表3 統(tǒng)計量與相似性判斷結(jié)合的實驗結(jié)果對比表

    Tab.3 Comparison of experimental results based on statistics and similarity judgment

    方法P/%R/%F/% Baseline[9]SEMI-BE76.2775.6875.97 MI-BE73.3174.2073.75 EMI-BE75.6774.5575.11 SSCNN[16]MEMI-BE76.1675.5875.87 MI-WBE74.1074.6074.35 EMI-WBE76.2078.5977.38 MEMI-WBE78.5080.6879.58 MI-BE77.1078.7277.90 EMI-BE80.9079.4080.14 DSSCNN(本文模型)MEMI-BE81.9782.1082.03 MI-WBE80.3281.1080.71 EMI-WBE84.9685.1585.05 MEMI-WBE85.93 86.49 86.21

    實驗2采用的基準方法是文獻[9]提出基于相似性增強互信息的新詞發(fā)現(xiàn)算法,在MI-BE的基礎(chǔ)上,使用相似性增強互信息公式過濾候選新詞,可以看出識別效果較好。第2組實驗是加入SSCNN模型判斷句子語義相似性進行候選新詞的過濾,從實驗結(jié)果可以看出,相比于單獨使用統(tǒng)計量的方法,加入SSCNN進行句子上下文語義信息的判斷使得新詞識別結(jié)果有了較明顯的提升,但總體效果比基準方法稍差,只有SSCNN-EMI-WBE的召回率和SSCNN-MEMI-WBE方法的結(jié)果略好于基準方法。主要原因在于,基準方法通過訓(xùn)練詞向量模型,計算候選詞與舊詞的詞語相似性值,將其加入到MI計算公式中,而SSCNN模型得到的只是候選新詞與歷史表達句子語義相似。以上方法雖可以有效識別詞義相近的新詞,但對于具有相似句法結(jié)構(gòu)、詞義相差較大的新詞無法正確識別。

    本文提出的DSSCNN模型在SSCNN進行句子語義相似的基礎(chǔ)上加入句法結(jié)構(gòu)相似性特征。從圖3可以看出,加入DSSCNN的識別效果明顯優(yōu)于僅使用統(tǒng)計量和僅考慮語義相似的方法。通過分析新詞集合,在加入句法和語義結(jié)合的相似性判斷后,不僅能有效過濾掉經(jīng)常出現(xiàn)但不能被認為是新詞的固定表達,比如“年以來”等,也能有效識別出部分舊詞新義和中英文結(jié)合的新詞表達,比如“真香”“路人”“slay全場”“duck不必”“打call”等,使得新詞識別的準確率、召回率及F值都有了較大的提升。表明本文提出的相似性判斷模型DSSCNN對新詞識別是有效的。

    圖3 加入相似性判斷前后實驗結(jié)果對比圖Fig.3 Comparison of experimental results before and after adding semantic similarity judgment

    本文對獲取到的有效網(wǎng)絡(luò)新詞進行分析歸納,將網(wǎng)絡(luò)新詞主要分為縮略詞、新造詞等5個類別,具體描述如表4所示。從表4可以看出,不同于傳統(tǒng)新聞文本,在網(wǎng)絡(luò)文本內(nèi)容中,命名實體所占比例較少,而由縮略詞和諧音所衍生出的新詞所占比例較大。

    4 結(jié)語

    本文對新詞發(fā)現(xiàn)方法進行研究,提出了一種在統(tǒng)計量計算基礎(chǔ)上,融合句法與語義相似性判斷的網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法。該方法基于字的粒度,計算詞頻、最大增強互信息以及加權(quán)左右鄰接熵等統(tǒng)計量得到候選新詞集,和傳統(tǒng)的統(tǒng)計量計算結(jié)果相比,本文選用的統(tǒng)計量可有效過濾部分重復(fù)含義的詞串,也解決了字詞出現(xiàn)次數(shù)、鄰接字符貢獻不對稱以及多模式組合等問題。根據(jù)新詞與歷史表達的句法結(jié)構(gòu)與上下文語義相似性原則,本文提出改進的相似性計算模型DSSCNN,過濾無效新詞。對比實驗結(jié)果表明,加入相似性判斷

    表4 網(wǎng)絡(luò)新詞描述表Tab.4 Description of internet new words

    的新詞識別效果有了明顯提升。但使用CNN模型進行相似性判斷時,會丟失詞匯的位置順序信息,更適用于短句的相似性計算。在下一步工作中,將主要針對相似性判斷進行改進,希望在提高新詞識別準確率的同時降低計算復(fù)雜度。

    猜你喜歡
    互信息新詞相似性
    一類上三角算子矩陣的相似性與酉相似性
    淺析當代中西方繪畫的相似性
    河北畫報(2020年8期)2020-10-27 02:54:20
    《微群新詞》選刊之十四
    低滲透黏土中氯離子彌散作用離心模擬相似性
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    聯(lián)合互信息水下目標特征選擇算法
    改進的互信息最小化非線性盲源分離算法
    電測與儀表(2015年9期)2015-04-09 11:59:22
    基于增量式互信息的圖像快速匹配方法
    小議網(wǎng)絡(luò)新詞“周邊”
    語文知識(2014年12期)2014-02-28 22:01:18
    外教新詞堂
    精品国产亚洲在线| 女人被躁到高潮嗷嗷叫费观| 国产成人系列免费观看| 变态另类丝袜制服| а√天堂www在线а√下载| 亚洲五月婷婷丁香| 婷婷丁香在线五月| netflix在线观看网站| 国产视频一区二区在线看| 自线自在国产av| av天堂在线播放| 亚洲精品中文字幕在线视频| 欧美一区二区精品小视频在线| 巨乳人妻的诱惑在线观看| 亚洲久久久国产精品| 两个人视频免费观看高清| 亚洲一卡2卡3卡4卡5卡精品中文| 久久人妻av系列| 国产精品乱码一区二三区的特点 | 久久香蕉激情| 国产成人av激情在线播放| 国产精品乱码一区二三区的特点 | 久久久久国产一级毛片高清牌| 亚洲 欧美一区二区三区| 国产精品99久久99久久久不卡| 女人高潮潮喷娇喘18禁视频| 午夜福利免费观看在线| 女警被强在线播放| 男人舔女人的私密视频| 精品久久久久久,| 女生性感内裤真人,穿戴方法视频| 国产成人精品无人区| 久久这里只有精品19| 狂野欧美激情性xxxx| 婷婷丁香在线五月| 精品久久久久久成人av| 少妇粗大呻吟视频| 国产激情久久老熟女| 免费在线观看亚洲国产| 久99久视频精品免费| 国产精品二区激情视频| 亚洲欧美日韩无卡精品| 香蕉久久夜色| 久久人人精品亚洲av| 在线观看免费视频网站a站| 人妻丰满熟妇av一区二区三区| 久久这里只有精品19| 亚洲男人的天堂狠狠| 国产精品秋霞免费鲁丝片| 嫩草影视91久久| 久久久久亚洲av毛片大全| 天天躁夜夜躁狠狠躁躁| 久久精品国产亚洲av香蕉五月| 人人妻,人人澡人人爽秒播| 女人被躁到高潮嗷嗷叫费观| 亚洲精品在线美女| 亚洲成人久久性| 色哟哟哟哟哟哟| 国产视频一区二区在线看| 悠悠久久av| 亚洲国产看品久久| 久久精品aⅴ一区二区三区四区| 天堂动漫精品| 久久香蕉国产精品| 国产欧美日韩一区二区三| 亚洲国产看品久久| 变态另类丝袜制服| 国产成人精品在线电影| 日韩视频一区二区在线观看| 中亚洲国语对白在线视频| 日韩大码丰满熟妇| 午夜亚洲福利在线播放| 狠狠狠狠99中文字幕| 成年人黄色毛片网站| 国产精品久久久久久人妻精品电影| 1024视频免费在线观看| 禁无遮挡网站| 麻豆国产av国片精品| 女人被狂操c到高潮| 久久久国产成人精品二区| 黄片播放在线免费| 日本三级黄在线观看| 操出白浆在线播放| 亚洲九九香蕉| a在线观看视频网站| 亚洲免费av在线视频| 18禁裸乳无遮挡免费网站照片 | 久久久久精品国产欧美久久久| 精品人妻一区二区三区麻豆 | 国产精品久久视频播放| 男人和女人高潮做爰伦理| 成年人黄色毛片网站| 成人av在线播放网站| 麻豆精品久久久久久蜜桃| 可以在线观看的亚洲视频| 联通29元200g的流量卡| 嫩草影视91久久| 亚洲国产欧美人成| 国产亚洲欧美98| 亚洲午夜理论影院| 一级a爱片免费观看的视频| 免费观看人在逋| 麻豆精品久久久久久蜜桃| 欧美高清成人免费视频www| 在线观看av片永久免费下载| 日韩强制内射视频| 欧美中文日本在线观看视频| h日本视频在线播放| av国产免费在线观看| 超碰av人人做人人爽久久| 国产日本99.免费观看| 午夜视频国产福利| 亚洲精品在线观看二区| 日日干狠狠操夜夜爽| 中出人妻视频一区二区| 一级黄色大片毛片| 99在线人妻在线中文字幕| 日韩亚洲欧美综合| 赤兔流量卡办理| 嫩草影视91久久| 综合色av麻豆| 亚洲成a人片在线一区二区| 18+在线观看网站| 国产熟女欧美一区二区| 91av网一区二区| 日本a在线网址| 国产精品伦人一区二区| 又紧又爽又黄一区二区| 国产精品一区二区三区四区久久| 欧美xxxx性猛交bbbb| 日韩在线高清观看一区二区三区 | 黄色丝袜av网址大全| 看免费成人av毛片| 国产精品,欧美在线| 日本一二三区视频观看| 亚洲在线自拍视频| 久久久午夜欧美精品| 中文字幕熟女人妻在线| 中文字幕免费在线视频6| 网址你懂的国产日韩在线| 精品一区二区免费观看| 嫩草影院入口| 久9热在线精品视频| av在线蜜桃| 精品福利观看| 色哟哟哟哟哟哟| avwww免费| 久久久久久大精品| 男插女下体视频免费在线播放| 欧美3d第一页| 久久久久久久亚洲中文字幕| 日韩国内少妇激情av| 在线观看免费视频日本深夜| 婷婷精品国产亚洲av在线| 日韩欧美一区二区三区在线观看| 国产一区二区三区在线臀色熟女| 久久午夜福利片| 国产日本99.免费观看| av在线老鸭窝| 日本熟妇午夜| 日本色播在线视频| 禁无遮挡网站| 小蜜桃在线观看免费完整版高清| eeuss影院久久| 在线观看午夜福利视频| 赤兔流量卡办理| 深夜a级毛片| 亚洲黑人精品在线| 精品国内亚洲2022精品成人| 日韩中字成人| 欧美成人一区二区免费高清观看| 国产精品电影一区二区三区| 久久精品久久久久久噜噜老黄 | 日韩欧美在线乱码| 午夜a级毛片| a在线观看视频网站| 精品日产1卡2卡| 窝窝影院91人妻| 亚洲经典国产精华液单| 午夜a级毛片| 舔av片在线| 午夜精品在线福利| 一卡2卡三卡四卡精品乱码亚洲| 成人欧美大片| 国产黄片美女视频| 搡女人真爽免费视频火全软件 | 热99在线观看视频| 舔av片在线| 午夜精品在线福利| 国产成人a区在线观看| 亚洲国产精品合色在线| 村上凉子中文字幕在线| 九九热线精品视视频播放| 中国美女看黄片| 性欧美人与动物交配| 99精品在免费线老司机午夜| 亚洲色图av天堂| 男人舔奶头视频| 国产91精品成人一区二区三区| 舔av片在线| 最近在线观看免费完整版| 欧美高清性xxxxhd video| 欧美日韩综合久久久久久 | 欧美另类亚洲清纯唯美| 91久久精品电影网| 一级毛片久久久久久久久女| 亚洲在线观看片| 亚洲精品在线观看二区| 日韩av在线大香蕉| 91在线观看av| 亚洲自偷自拍三级| 国产亚洲欧美98| 99视频精品全部免费 在线| 亚洲国产欧美人成| 老女人水多毛片| 男人舔奶头视频| 日本 欧美在线| 美女被艹到高潮喷水动态| 欧美日韩精品成人综合77777| 日韩欧美精品免费久久| 成人永久免费在线观看视频| 国产av不卡久久| 欧美中文日本在线观看视频| 国产午夜福利久久久久久| 国产精品自产拍在线观看55亚洲| 日本一本二区三区精品| 美女免费视频网站| 成人性生交大片免费视频hd| 欧美不卡视频在线免费观看| 国产精品爽爽va在线观看网站| 亚洲久久久久久中文字幕| ponron亚洲| 狠狠狠狠99中文字幕| 精品一区二区三区av网在线观看| 3wmmmm亚洲av在线观看| 美女 人体艺术 gogo| 精品福利观看| 偷拍熟女少妇极品色| 亚洲av不卡在线观看| 国产精品一区二区性色av| 国产精品女同一区二区软件 | 国产国拍精品亚洲av在线观看| 免费在线观看成人毛片| 国产一级毛片七仙女欲春2| 国产国拍精品亚洲av在线观看| 欧美丝袜亚洲另类 | 久久九九热精品免费| 国产亚洲精品综合一区在线观看| 日韩欧美一区二区三区在线观看| 色视频www国产| 国产高清不卡午夜福利| 一个人免费在线观看电影| 中文在线观看免费www的网站| 人人妻,人人澡人人爽秒播| videossex国产| 真人做人爱边吃奶动态| 免费不卡的大黄色大毛片视频在线观看 | 床上黄色一级片| 亚洲av不卡在线观看| 日韩欧美 国产精品| 丝袜美腿在线中文| netflix在线观看网站| 久久久久免费精品人妻一区二区| 哪里可以看免费的av片| 观看免费一级毛片| 男人舔女人下体高潮全视频| 啦啦啦啦在线视频资源| 国产白丝娇喘喷水9色精品| 午夜影院日韩av| 午夜亚洲福利在线播放| 真实男女啪啪啪动态图| 色噜噜av男人的天堂激情| 午夜免费激情av| 亚洲第一电影网av| 欧美高清成人免费视频www| 国产精品一区二区性色av| 97超视频在线观看视频| 俺也久久电影网| 九色国产91popny在线| 在线天堂最新版资源| 美女黄网站色视频| a在线观看视频网站| 直男gayav资源| 欧美不卡视频在线免费观看| 精品国产三级普通话版| 欧美性猛交╳xxx乱大交人| 一个人免费在线观看电影| а√天堂www在线а√下载| 国产高清有码在线观看视频| 99热网站在线观看| 日本色播在线视频| 99久久中文字幕三级久久日本| 成年女人永久免费观看视频| 天天躁日日操中文字幕| 美女高潮的动态| 日本一本二区三区精品| 变态另类成人亚洲欧美熟女| 国产国拍精品亚洲av在线观看| 亚洲五月天丁香| 亚洲成a人片在线一区二区| 国产色婷婷99| 999久久久精品免费观看国产| 在线播放无遮挡| 日韩在线高清观看一区二区三区 | 久久久国产成人精品二区| 中文字幕久久专区| 日韩精品青青久久久久久| 免费观看人在逋| 国产精品永久免费网站| 自拍偷自拍亚洲精品老妇| 99国产精品一区二区蜜桃av| 国内精品久久久久精免费| 色噜噜av男人的天堂激情| 禁无遮挡网站| 国产亚洲精品久久久久久毛片| 日本与韩国留学比较| 午夜爱爱视频在线播放| 白带黄色成豆腐渣| 校园人妻丝袜中文字幕| 在线播放国产精品三级| av国产免费在线观看| 毛片女人毛片| 欧美高清性xxxxhd video| 久久人人精品亚洲av| 欧美zozozo另类| netflix在线观看网站| 热99在线观看视频| 最近中文字幕高清免费大全6 | 日本黄大片高清| 久久久久久伊人网av| 男人狂女人下面高潮的视频| 欧美三级亚洲精品| 男人的好看免费观看在线视频| 中文字幕高清在线视频| 五月伊人婷婷丁香| 国产精品伦人一区二区| 不卡视频在线观看欧美| 综合色av麻豆| 乱码一卡2卡4卡精品| 日韩精品有码人妻一区| 精品一区二区三区视频在线| 夜夜看夜夜爽夜夜摸| or卡值多少钱| 中文字幕高清在线视频| 97超视频在线观看视频| 天堂网av新在线| 人人妻人人澡欧美一区二区| 啦啦啦啦在线视频资源| 免费av不卡在线播放| 国国产精品蜜臀av免费| 亚洲人成网站高清观看| 久久国产乱子免费精品| 成年免费大片在线观看| 成年女人看的毛片在线观看| 久久久久国内视频| 色综合婷婷激情| 国产成人福利小说| 国产av一区在线观看免费| 日本 av在线| 美女 人体艺术 gogo| 久久热精品热| 日韩高清综合在线| 午夜福利在线观看免费完整高清在 | 大又大粗又爽又黄少妇毛片口| 午夜福利在线观看免费完整高清在 | 午夜精品一区二区三区免费看| 日日啪夜夜撸| 国产麻豆成人av免费视频| 欧美激情久久久久久爽电影| 亚洲熟妇中文字幕五十中出| 免费观看精品视频网站| 美女免费视频网站| 久久久久国内视频| 91在线观看av| 热99在线观看视频| 国产又黄又爽又无遮挡在线| 色在线成人网| 男人狂女人下面高潮的视频| 老熟妇仑乱视频hdxx| 好男人在线观看高清免费视频| 尾随美女入室| 久久中文看片网| 真实男女啪啪啪动态图| 美女免费视频网站| 欧美成人a在线观看| 中文字幕av在线有码专区| 搡女人真爽免费视频火全软件 | 哪里可以看免费的av片| 欧美一级a爱片免费观看看| 神马国产精品三级电影在线观看| 日本 欧美在线| 看十八女毛片水多多多| 久久精品综合一区二区三区| 国内久久婷婷六月综合欲色啪| 久久亚洲精品不卡| 亚洲国产色片| 黄色一级大片看看| 天天躁日日操中文字幕| 少妇的逼水好多| 久久久成人免费电影| 亚洲图色成人| 亚洲 国产 在线| 嫩草影院入口| 久久久久久久久久黄片| 亚洲自拍偷在线| 人人妻人人看人人澡| 午夜福利在线观看免费完整高清在 | 色哟哟·www| 中国美女看黄片| 人妻久久中文字幕网| 国产激情偷乱视频一区二区| 久久精品91蜜桃| 99热只有精品国产| 给我免费播放毛片高清在线观看| 乱码一卡2卡4卡精品| 欧美+日韩+精品| 国内精品美女久久久久久| 88av欧美| 舔av片在线| 两个人视频免费观看高清| 人妻久久中文字幕网| 日韩国内少妇激情av| 欧美bdsm另类| 亚洲av.av天堂| 一级毛片久久久久久久久女| 成年免费大片在线观看| 日本欧美国产在线视频| 麻豆av噜噜一区二区三区| 国产伦在线观看视频一区| 无遮挡黄片免费观看| 少妇猛男粗大的猛烈进出视频 | 亚洲va在线va天堂va国产| 精品一区二区三区视频在线| 真人一进一出gif抽搐免费| 少妇人妻精品综合一区二区 | 搡女人真爽免费视频火全软件 | h日本视频在线播放| 小说图片视频综合网站| 日韩av在线大香蕉| 91在线观看av| 在线观看美女被高潮喷水网站| 日韩,欧美,国产一区二区三区 | 国产三级在线视频| 免费观看人在逋| 日日摸夜夜添夜夜添小说| 日日撸夜夜添| 成人欧美大片| 国产精品久久久久久精品电影| 久久久久久久亚洲中文字幕| 国产一区二区亚洲精品在线观看| 国产综合懂色| 九色成人免费人妻av| 1024手机看黄色片| h日本视频在线播放| 欧美精品国产亚洲| 观看免费一级毛片| 久久精品久久久久久噜噜老黄 | 欧美极品一区二区三区四区| 久久精品国产亚洲av香蕉五月| 国产精品伦人一区二区| 成人毛片a级毛片在线播放| 嫁个100分男人电影在线观看| 91久久精品电影网| 高清日韩中文字幕在线| 级片在线观看| 久久久久久九九精品二区国产| 国产成人av教育| 一区二区三区激情视频| videossex国产| 久久久色成人| 老熟妇仑乱视频hdxx| 久久国内精品自在自线图片| 精品不卡国产一区二区三区| 久久精品夜夜夜夜夜久久蜜豆| 一区二区三区免费毛片| 国产黄片美女视频| 国产亚洲av嫩草精品影院| 波野结衣二区三区在线| videossex国产| 日韩欧美 国产精品| 深爱激情五月婷婷| 久久久久久久久中文| 久久6这里有精品| 99在线人妻在线中文字幕| 国产精品不卡视频一区二区| 岛国在线免费视频观看| 老女人水多毛片| 九九热线精品视视频播放| 国产69精品久久久久777片| 国内少妇人妻偷人精品xxx网站| 国产黄色小视频在线观看| 在线观看舔阴道视频| 日韩人妻高清精品专区| 国产欧美日韩一区二区精品| 一级黄色大片毛片| 亚洲国产精品成人综合色| 国产探花极品一区二区| 一个人观看的视频www高清免费观看| 国产伦一二天堂av在线观看| 露出奶头的视频| 欧美潮喷喷水| 亚洲自偷自拍三级| 亚洲avbb在线观看| 一a级毛片在线观看| 亚洲自偷自拍三级| 午夜日韩欧美国产| 欧美性猛交黑人性爽| 国产毛片a区久久久久| 毛片女人毛片| 亚洲电影在线观看av| 国产成人av教育| 亚洲最大成人中文| 亚洲七黄色美女视频| 淫妇啪啪啪对白视频| av天堂在线播放| 欧美成人a在线观看| 人妻丰满熟妇av一区二区三区| 一级a爱片免费观看的视频| 国产亚洲91精品色在线| 亚洲人成伊人成综合网2020| 日韩,欧美,国产一区二区三区 | 在线免费十八禁| 国产在线精品亚洲第一网站| 欧美日本亚洲视频在线播放| x7x7x7水蜜桃| 欧美区成人在线视频| 最后的刺客免费高清国语| 亚洲性久久影院| 俄罗斯特黄特色一大片| av女优亚洲男人天堂| 欧美激情久久久久久爽电影| 国产不卡一卡二| 亚洲国产色片| 国内精品久久久久久久电影| 亚洲第一区二区三区不卡| 露出奶头的视频| 小蜜桃在线观看免费完整版高清| 亚洲精品国产成人久久av| 午夜免费男女啪啪视频观看 | 直男gayav资源| 日韩欧美国产一区二区入口| 深夜精品福利| 久久久久久久久中文| or卡值多少钱| 人妻制服诱惑在线中文字幕| 欧美黑人巨大hd| 欧美日韩综合久久久久久 | 男人的好看免费观看在线视频| 亚洲中文字幕一区二区三区有码在线看| 给我免费播放毛片高清在线观看| 日韩人妻高清精品专区| 久久99热6这里只有精品| 一级a爱片免费观看的视频| 色尼玛亚洲综合影院| 免费av毛片视频| 国产色婷婷99| 亚洲av日韩精品久久久久久密| 99热精品在线国产| 日韩中字成人| 国产av一区在线观看免费| 亚洲熟妇中文字幕五十中出| 九色国产91popny在线| 久久精品夜夜夜夜夜久久蜜豆| 国产久久久一区二区三区| av中文乱码字幕在线| 听说在线观看完整版免费高清| 免费观看的影片在线观看| 中文字幕人妻熟人妻熟丝袜美| 在线观看一区二区三区| 可以在线观看的亚洲视频| 国产高清不卡午夜福利| 成人特级av手机在线观看| 搡老熟女国产l中国老女人| 成人特级av手机在线观看| 精品久久久久久久久久免费视频| 免费av毛片视频| 国产精品久久久久久久久免| 国内揄拍国产精品人妻在线| 精品99又大又爽又粗少妇毛片 | a级毛片a级免费在线| 搡老熟女国产l中国老女人| 精品乱码久久久久久99久播| 男人狂女人下面高潮的视频| 神马国产精品三级电影在线观看| 亚洲av免费高清在线观看| 非洲黑人性xxxx精品又粗又长| 91在线观看av| 久久精品影院6| 精品一区二区三区av网在线观看| 黄片wwwwww| 久9热在线精品视频| 国产一区二区三区av在线 | 亚洲专区中文字幕在线| 美女高潮的动态| 成人欧美大片| 全区人妻精品视频| 毛片女人毛片| 免费av观看视频| 免费观看人在逋| 免费无遮挡裸体视频| 亚洲狠狠婷婷综合久久图片| 欧美日韩亚洲国产一区二区在线观看| 99久久成人亚洲精品观看| 亚洲精品一区av在线观看| 免费看av在线观看网站| 亚洲在线自拍视频| 亚洲 国产 在线| 日韩 亚洲 欧美在线| 国产黄片美女视频| 国产亚洲精品久久久com| 91在线观看av| 天堂√8在线中文| 偷拍熟女少妇极品色| 高清在线国产一区| 久久精品人妻少妇|