符賢哲,劉勝全,劉艷,郭竹為,趙美玲
(1.新疆大學(xué)軟件學(xué)院,新疆烏魯木齊830046;2.新疆大學(xué)網(wǎng)絡(luò)與信息技術(shù)中心,新疆烏魯木齊830046;3.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,微博、論壇等社交媒體的出現(xiàn)對(duì)人們的工作、生活、學(xué)習(xí)等方面產(chǎn)生了重要的影響.這些社交媒體的出現(xiàn)和發(fā)展使新事物不斷涌現(xiàn),新事物、新現(xiàn)象、新觀念的出現(xiàn),產(chǎn)生了大量的新詞,即人們?cè)谡J(rèn)識(shí)和表達(dá)新事物所代表的社會(huì)事件、流行語(yǔ)等現(xiàn)象時(shí),需要通過(guò)構(gòu)造新的詞語(yǔ)來(lái)滿足交際的需要,這些新詞匯借助網(wǎng)絡(luò)平臺(tái)迅速產(chǎn)生、發(fā)展或消亡[1].由于網(wǎng)絡(luò)新詞常常是對(duì)一件事或者一種社會(huì)現(xiàn)象濃縮概括而得,因此這些詞往往蘊(yùn)含了網(wǎng)絡(luò)的熱點(diǎn)主題,反映著網(wǎng)民對(duì)社會(huì)熱點(diǎn)事件的一些情緒態(tài)度[2],如:金飯碗、然并卵、累覺(jué)不愛(ài)、人艱不拆等.檢測(cè)識(shí)別這些網(wǎng)絡(luò)新詞有助于輿情信息的發(fā)現(xiàn)和檢測(cè).但是,大部分網(wǎng)絡(luò)新詞都是曇花一現(xiàn),只有少部分在語(yǔ)言系統(tǒng)中站穩(wěn)了腳跟[3].因此新詞的識(shí)別也應(yīng)該隨著時(shí)間,不斷地剔除已過(guò)時(shí)或者淘汰的詞語(yǔ),一方面保持網(wǎng)絡(luò)新詞的新穎性和穩(wěn)定性;另一方面,可以更加精準(zhǔn)的把握當(dāng)前的輿情信息.
目前在自然語(yǔ)言處理領(lǐng)域中,對(duì)于網(wǎng)絡(luò)新詞的識(shí)別已經(jīng)有大量的研究.大體分為基于規(guī)則和基于統(tǒng)計(jì)兩種方法.由于網(wǎng)絡(luò)新詞不規(guī)范無(wú)規(guī)則等特征,研究方法主要還是以統(tǒng)計(jì)方法為主,規(guī)則方法為輔.基于統(tǒng)計(jì)的方法主要是在大量的語(yǔ)料中對(duì)出現(xiàn)的詞匯進(jìn)行詞頻統(tǒng)計(jì),然后使用互信息、鄰接類別等統(tǒng)計(jì)量對(duì)候選詞串進(jìn)行過(guò)濾,發(fā)現(xiàn)新詞.近些年,新詞的識(shí)別方法一方面通過(guò)改進(jìn)各種統(tǒng)計(jì)量特征提高新詞的識(shí)別準(zhǔn)確率;另一方面,通過(guò)對(duì)詞語(yǔ)在時(shí)間分布中表現(xiàn)的特征來(lái)識(shí)別網(wǎng)絡(luò)新詞,都取得很好的效果.如杜麗萍[4]等通過(guò)對(duì)互信息統(tǒng)計(jì)量的改進(jìn)算法來(lái)提取新詞,解決了互信息量在低頻共現(xiàn)字符串異常敏感問(wèn)題,更正了該統(tǒng)計(jì)量在新詞識(shí)別中存在的影響;陳飛等[5]歸納了許多區(qū)分新詞邊界的統(tǒng)計(jì)特征,利用條件隨機(jī)場(chǎng)(Conditional random fields,CRFs)方法并綜合這些特征在大規(guī)模語(yǔ)料上進(jìn)行新詞發(fā)現(xiàn)實(shí)驗(yàn),在新詞的準(zhǔn)確率上有很好的效果.Peng等[6]將詞匯特征和領(lǐng)域知識(shí)特征融入到模型中,利用CRF訓(xùn)練,進(jìn)而識(shí)別新詞.鄒剛等[7]通過(guò)時(shí)間點(diǎn)將候選詞串分為前后背景集合,通過(guò)集合的差集進(jìn)行新詞的識(shí)別;吳悅等[8]綜合前、背景語(yǔ)料的二元似然比挑選候選詞,然后利用頻率、剛性等統(tǒng)計(jì)量進(jìn)行擴(kuò)展發(fā)現(xiàn)新詞.林自芳等[9]首先進(jìn)行重復(fù)串查詢,然后結(jié)合詞內(nèi)部模式的特征對(duì)位置成詞概率和首尾單字成詞概率進(jìn)行加權(quán)和改進(jìn),最后統(tǒng)計(jì)互信息、鄰接類別等統(tǒng)計(jì)量識(shí)別新詞.劉哲等[10]通過(guò)詞語(yǔ)頻度變化以及共現(xiàn)詞語(yǔ)分布一致性識(shí)別網(wǎng)絡(luò)新詞,對(duì)舊詞新義詞的提取有很好的效果.黃軒等[11]根據(jù)詞的頻率、上下文特征以及時(shí)空特性進(jìn)行新詞發(fā)現(xiàn),之后用詞性規(guī)則對(duì)候選詞過(guò)濾,提高新詞發(fā)現(xiàn)的準(zhǔn)確率.
但是上述這些方法都未考慮新詞在時(shí)間分布過(guò)程中的穩(wěn)定性特征,未考慮網(wǎng)絡(luò)新詞的時(shí)效性,隨著識(shí)別時(shí)間的增加,不穩(wěn)定的新詞會(huì)逐漸淘汰為垃圾詞,影響新詞的識(shí)別結(jié)果.因此本文通過(guò)詞語(yǔ)在語(yǔ)言環(huán)境中表現(xiàn)的綜合競(jìng)爭(zhēng)力建立自然法則模型,不斷地發(fā)現(xiàn)新詞的同時(shí)去除之前識(shí)別的不穩(wěn)定網(wǎng)絡(luò)新詞,使得識(shí)別的新詞即保持新穎性也保證了穩(wěn)定性.
網(wǎng)絡(luò)新詞的時(shí)頻分布是指新詞隨著時(shí)間的推移出現(xiàn)的頻率變化情況.由于網(wǎng)絡(luò)新詞并未形成標(biāo)準(zhǔn)化定義,不同的人對(duì)于新詞的理解各不相同,存在不同程度的定義問(wèn)題.所以本文中的網(wǎng)絡(luò)新詞是指因某種社會(huì)現(xiàn)象、社會(huì)問(wèn)題在網(wǎng)絡(luò)上出現(xiàn)、流行、被廣泛認(rèn)可并不斷融入人們生活的非正式語(yǔ)言[10].
通過(guò)對(duì)微博中出現(xiàn)的各種網(wǎng)絡(luò)新詞的時(shí)頻分布進(jìn)行分析,將網(wǎng)絡(luò)新詞的特征總結(jié)為如下兩個(gè)特征[10]:一是新詞出現(xiàn)的時(shí)間點(diǎn)之前很少被使用或者從未被使用.二是新詞出現(xiàn)后的一段時(shí)間,詞頻呈現(xiàn)波動(dòng)增長(zhǎng)趨勢(shì),被使用的頻率表現(xiàn)出不穩(wěn)定性.如圖1和圖2所示,新詞在剛出現(xiàn)時(shí)詞頻有明顯的突增,但在一段時(shí)間后會(huì)出現(xiàn)類似股票波動(dòng)的趨勢(shì).但是之后新詞的詞頻使用情況表現(xiàn)為不同的趨勢(shì):一種是新詞的詞頻在一個(gè)時(shí)間點(diǎn)后迅速下降直至消失,本文將這類詞統(tǒng)稱為非穩(wěn)定新詞(偽新詞),具體的詞頻變化情況如圖1所示,如“無(wú)鞋”,“走你”,“藍(lán)瘦”等;另一種情況是新詞的詞頻小范圍的波動(dòng),逐步穩(wěn)定在一個(gè)恒定的區(qū)間,本文將此類詞統(tǒng)稱為穩(wěn)定新詞,具體的詞頻變化情況如圖2所示,如“給力”,“吐槽”等.從以上的表現(xiàn)情況可以發(fā)現(xiàn)新詞的存在具有時(shí)效性,有些網(wǎng)絡(luò)新詞存在一段時(shí)間后會(huì)迅速消亡,而有些新詞可以長(zhǎng)久穩(wěn)定的存在.
圖1 低頻非穩(wěn)定新詞和高頻非穩(wěn)定新詞時(shí)頻分布圖
圖2 低頻穩(wěn)定詞和高頻穩(wěn)定詞時(shí)頻分布圖
莊美英等[12]認(rèn)為新詞的流行和傳播是一種語(yǔ)言模因現(xiàn)象,網(wǎng)絡(luò)新詞的出現(xiàn)是該語(yǔ)言變異進(jìn)化的過(guò)程.新詞存在需要經(jīng)過(guò)競(jìng)爭(zhēng)和選擇,受到“物競(jìng)天擇適者生存”的生存法則約束,主要表現(xiàn)為大量的網(wǎng)絡(luò)新詞為爭(zhēng)奪大腦的注意力資源和在記憶中的保存時(shí)間而進(jìn)行激烈的競(jìng)爭(zhēng),結(jié)果就是優(yōu)勝劣汰[12].而影響新詞的競(jìng)爭(zhēng)力強(qiáng)弱的有內(nèi)在因素和外在環(huán)境因素.內(nèi)在因素主要是指新詞的自身詞語(yǔ)完整性;外在因素是指新詞的新穎性,熟悉度以及顯著度[13],文中使用新詞活力表示.
下面給出本文中使用的概念定義.
定義1新詞的詞語(yǔ)完整性,指的是詞語(yǔ)的內(nèi)部結(jié)合力和靈活性,是詞的基本屬性,不隨時(shí)間變化,在一段較長(zhǎng)時(shí)間內(nèi)基本恒定.
其中內(nèi)部結(jié)合力是指組成新詞的詞元之間的結(jié)合程度,中文中組成詞的詞元為單個(gè)字.互信息(PMI,Pointwise Mutual Information)統(tǒng)計(jì)量能夠很好的反映字串之間的結(jié)合強(qiáng)度[4].因此本文采用詞語(yǔ)的互信息值來(lái)衡量詞結(jié)合力.新詞的靈活度表示使用該詞的上下文環(huán)境的豐富程度,即與該詞相鄰使用的不同字符的不確定性程度.本文使用詞語(yǔ)的加權(quán)鄰接熵(wBE,weighted Branch Entropy)計(jì)算詞語(yǔ)的靈活度[14].詞的內(nèi)部結(jié)合力與靈活度互斥,因此候選詞w的詞語(yǔ)完整性W計(jì)算公式(1):
其中,pmi表示組成新詞w的詞串wx,wy計(jì)算的互信息值,k的值取決于語(yǔ)料的數(shù)量,計(jì)算見(jiàn)公式(2);wBE(w)表示新詞w的加權(quán)鄰接熵[7],計(jì)算見(jiàn)公式(3)如下.
其中p(wx)p(wy)表示字符串wx和wy的概率,p(wx,wy)表示字符串wx和wy的聯(lián)合概率.
其中,c表示與新詞w相鄰的字符;n表示與新詞w相鄰的不同字符數(shù)目;λc表示字符c成為鄰接字符的概率,計(jì)算見(jiàn)公式(4);p(c|w)表示字符c與新詞w相鄰出現(xiàn)的概率.
定義2新詞的活力,指詞語(yǔ)在該語(yǔ)種語(yǔ)言環(huán)境下被大眾使用的或者記憶的狀態(tài),即活躍于大眾的腦海中的情況.
刻畫(huà)這一屬性值,本文借鑒遺忘定律給出如下5個(gè)假設(shè)作為新詞活力計(jì)算的前提約束.
假設(shè)1對(duì)于大量用戶而言,在較長(zhǎng)統(tǒng)計(jì)周期內(nèi)詞語(yǔ)的出現(xiàn)頻率相對(duì)穩(wěn)定.
假設(shè)2在語(yǔ)言環(huán)境中,所有的詞語(yǔ)都按照相同的規(guī)律進(jìn)行遺忘.
假設(shè)3偶爾或隨機(jī)出現(xiàn)的詞語(yǔ),會(huì)隨時(shí)間而逐漸淡忘.
假設(shè)4具有相對(duì)穩(wěn)定重復(fù)再現(xiàn)的詞語(yǔ),雖然也按同樣的規(guī)律遺忘,但由于周期性的得到補(bǔ)充,從而可以動(dòng)態(tài)的保留在記憶中.
假設(shè)5新詞剛出現(xiàn)之后的較短時(shí)間內(nèi)詞頻波動(dòng)較大,出現(xiàn)頻率不穩(wěn)定,但總體上具有增長(zhǎng)趨勢(shì).
新詞的活力表示當(dāng)前該詞存在語(yǔ)言環(huán)境中被記憶的狀態(tài).該狀態(tài)受到上一時(shí)刻該詞存在狀態(tài)的影響,同時(shí)與當(dāng)前時(shí)刻該詞出現(xiàn)狀態(tài)相關(guān).當(dāng)前時(shí)刻該詞的出現(xiàn)狀態(tài)主要考慮詞出現(xiàn)的頻次以及該詞的詞頻變化波動(dòng)情況.詞頻變化波動(dòng)情況表現(xiàn)該詞正在發(fā)生變化,具有成為新詞的新穎性特征.通過(guò)該特征還可以提取一些詞頻較低但是具有較大成詞概率的詞,避免僅僅依靠詞頻高進(jìn)行篩選帶來(lái)的低詞頻新詞遺漏的問(wèn)題.
設(shè)定單位時(shí)間為t,以及考察周期為T,詞語(yǔ)w在單位時(shí)間t的出現(xiàn)頻次為a[t],則從時(shí)間t?T/2到t+T/2為一個(gè)考察區(qū)域.則在一個(gè)考察區(qū)域內(nèi),詞語(yǔ)w出現(xiàn)頻次集合為A=(a[t?T/2],a[t?T/2+1],···,a[t+T/2?1],a[t+T/2]);詞語(yǔ)w在一個(gè)考察區(qū)域中出現(xiàn)頻次的均值P計(jì)算見(jiàn)公式(5);詞語(yǔ)w在一個(gè)考察區(qū)域中出現(xiàn)頻次的方差D計(jì)算見(jiàn)公式(6),在考察區(qū)域中詞語(yǔ)的出現(xiàn)頻次方差越大,表明詞語(yǔ)出現(xiàn)頻率越不穩(wěn)定,成為新詞的特征就越明顯.
詞在時(shí)刻t的活力H計(jì)算見(jiàn)公式(7).
其中,t表示上一時(shí)刻;H(w,t)表示上一時(shí)刻t時(shí)詞w的活力值;α表示記憶衰退系數(shù),取值參考艾賓浩斯曲線中的實(shí)驗(yàn)值;tf(t,w)表示詞語(yǔ)w在單位時(shí)間t時(shí)的使用次數(shù);d(w,t)表示歸一化后的方差;?p(w,t)表示在時(shí)間t時(shí),詞語(yǔ)w的詞頻增長(zhǎng)率,具體計(jì)算見(jiàn)公式(8).
定義3新詞的競(jìng)爭(zhēng)力,表示新詞在語(yǔ)言環(huán)境中存活的能力,即新詞能否轉(zhuǎn)變?yōu)榇蟊娝J(rèn)知接受的普通詞匯.該值的大小是詞語(yǔ)的完整性以及詞語(yǔ)的活力共同作用的結(jié)果.故本文使用詞語(yǔ)的完整性與活力的乘積作為新詞的競(jìng)爭(zhēng)力的大?。略~w在時(shí)刻t時(shí)競(jìng)爭(zhēng)力Z的計(jì)算見(jiàn)公式(9).
其中,Z(w,t)表示新詞w在時(shí)刻t的競(jìng)爭(zhēng)力;W(w)表示新詞w的詞語(yǔ)完整性;H(w,t)表示新詞w在時(shí)刻t的活力值.
基于詞的生存法則模型的網(wǎng)絡(luò)穩(wěn)定新詞識(shí)別總體過(guò)程主要先將分詞工具錯(cuò)誤切分的詞串融合生成候選詞串,然后通過(guò)詞性規(guī)則以及詞語(yǔ)完整性特征過(guò)濾得到候選新詞,再使用詞語(yǔ)在語(yǔ)言環(huán)境中的競(jìng)爭(zhēng)力來(lái)檢測(cè),進(jìn)而識(shí)別判斷是否為穩(wěn)定新詞.具體的網(wǎng)絡(luò)穩(wěn)定新詞識(shí)別流程如圖3所示.
圖3 網(wǎng)絡(luò)穩(wěn)定新詞識(shí)別流程
融合候選詞提取方法是對(duì)分詞方法回顧撿漏,是對(duì)分詞方法的補(bǔ)充.該方法的效果與分詞方法有關(guān),主要提取無(wú)法被正確劃分的詞串.候選詞提取的一個(gè)重要依據(jù)是字符串的結(jié)合緊密程度,表示融合詞串之間的結(jié)合程度,反映了字符串在語(yǔ)言環(huán)境的內(nèi)部結(jié)合力.另一個(gè)重要依據(jù)是融合詞串的靈活性,表示融合詞串的上下文相鄰不同詞語(yǔ)的數(shù)量,反映了融合詞串在語(yǔ)言環(huán)境被使用的靈活程度.因此融合詞串過(guò)濾主要分三層:1)首先通過(guò)停用詞表,過(guò)濾掉包含停用詞的詞串;2)通過(guò)融合詞串的詞性規(guī)則過(guò)濾一些詞串;3)計(jì)算融合詞串內(nèi)部結(jié)合力和靈活度,將兩個(gè)指標(biāo)相乘得到詞語(yǔ)的完整性值,進(jìn)而提取值較大的部分融合詞串,作為候選詞串.具體步驟:
步驟1使用停用詞表將分詞后的文本分割若干個(gè)小單元;然后將各小單元中相鄰散串重新組合為新的詞串,詞串的詞長(zhǎng)應(yīng)小于L(除包含英文字符);之后使用正則表達(dá)式對(duì)組合而成的詞串的詞性進(jìn)行過(guò)濾,去除掉與新詞無(wú)關(guān)的噪聲詞,主要包括虛詞、日期、副詞、助詞、連詞、擬聲詞以及語(yǔ)氣詞開(kāi)頭或者結(jié)尾的組合詞串.
例如:中華人民共和國(guó)史上最牛逼的綜藝一哥,無(wú)產(chǎn)階級(jí)主持人
分詞后:中華人民共和國(guó)/ns史/g上/f最/d牛/g逼/v的/u綜藝/n一/m哥/n,/w無(wú)產(chǎn)階級(jí)/n主持人/n
使用停用詞以及詞性規(guī)則融合過(guò)濾后:
史上,牛逼,綜藝一,綜藝一哥,一哥
步驟2將步驟1過(guò)濾后的融合詞串,按時(shí)間組合排序,然后統(tǒng)計(jì)單位時(shí)間t中新生成的字符串信息的詞頻F,提取當(dāng)日詞頻F大于閾值M的詞串,并將其認(rèn)定為新詞的候選詞串.閾值M的大小與文本數(shù)據(jù)量的大小有關(guān),目的在于提高算法的性能.
步驟3計(jì)算步驟2過(guò)濾后的融合詞串的詞語(yǔ)完整性(內(nèi)部結(jié)合力,靈活度),獲取每天詞的完整性值最大的前N個(gè)融合詞串作為當(dāng)天新詞的候選詞.N的取值與當(dāng)天數(shù)據(jù)量大小有關(guān).
基于競(jìng)爭(zhēng)力檢測(cè)新詞的算法,依據(jù)原始語(yǔ)料計(jì)算候選詞的活力值,結(jié)合詞語(yǔ)完整性計(jì)算每個(gè)候選新詞各個(gè)時(shí)刻的競(jìng)爭(zhēng)力,然后不斷地剔除競(jìng)爭(zhēng)力小于閾值?的候選新詞,將訓(xùn)練時(shí)長(zhǎng)det大于考察周期T的候選詞挑選出來(lái)作為穩(wěn)定新詞.
算法的描述如下:
Input:
D={d1,···,di,···,dn}:D為時(shí)間集合,其中的元素是一些連續(xù)的時(shí)間節(jié)點(diǎn),di表示第i時(shí)刻
C={
DT={
TW:訓(xùn)練新詞集合,存放具有競(jìng)爭(zhēng)力的候選詞和該詞的訓(xùn)練時(shí)長(zhǎng)det
Output:
NW:穩(wěn)定新詞集合
函數(shù)聲明:
ComputeH(cw’.h,cw,STi):通過(guò)公式(7)計(jì)算候選詞cw的在di時(shí)刻的活力值.cw’.h為候選詞cw在上一時(shí)刻的活力值;STi為原始預(yù)料,通過(guò)STi可以統(tǒng)計(jì)得到候選詞cw在di時(shí)刻的詞頻tf,方差d以及詞頻增長(zhǎng)率?p
ComputeZ(cw):依據(jù)公式(9)計(jì)算候選詞cw的競(jìng)爭(zhēng)力
算法:
1:for diin D do//遍歷語(yǔ)料中的所有時(shí)間點(diǎn)
2:for cw in CWido//遍歷時(shí)刻di提出的候選詞
3:If cw∈TW
4:ComputeH(cw’hcw,STi);
5:cw.det++;//訓(xùn)練時(shí)間遞增
6:else
7:ComputeH(0,cw,STi);//如果候選詞不在訓(xùn)練集中,則該詞上一時(shí)刻活力值為
8:cw.det=;//初始訓(xùn)練時(shí)間為
9:put cw into TW;
10:ComputeZ(cw);
11:end for
12:for cw in XW do
13:if cw.z//cw.z表示候選詞cw當(dāng)前的競(jìng)爭(zhēng)力大小
14:delete cw from TW;
15:else if cw.det>T
16:remove cw from TW into NW;
17:end for
18:end for
19:return NW
本實(shí)驗(yàn)中采用的語(yǔ)料來(lái)自于自然語(yǔ)言處理與信息檢索共享平臺(tái)提供的微博語(yǔ)料.語(yǔ)料中的微博數(shù)據(jù)從2009年10月到2014年4月,總共包含了大約500萬(wàn)條微博評(píng)論數(shù)據(jù),實(shí)驗(yàn)中的分詞工具使用的是開(kāi)源的HanPL中的CRFs分詞方法.由于語(yǔ)料比較龐大,難以人工統(tǒng)計(jì)語(yǔ)料中出現(xiàn)的全部網(wǎng)絡(luò)新詞.本文中參考提取的候選詞中的新詞代表全部語(yǔ)料的新詞總量.目前新詞的定義比較模糊,沒(méi)有具體的界定方法.本文借鑒劉哲[3]的新詞定義,人工對(duì)語(yǔ)料中2010年9月、2011年3月、2014年2月份的網(wǎng)絡(luò)新詞進(jìn)行劃分,進(jìn)而對(duì)新詞識(shí)別算法進(jìn)行測(cè)評(píng).具體的準(zhǔn)確率計(jì)算見(jiàn)公式(10).
實(shí)驗(yàn)過(guò)程中各閾值的設(shè)置:由于大部分新詞的詞長(zhǎng)小于5[5],因此將融合候選詞的詞長(zhǎng)閾值L設(shè)置為5.而當(dāng)日詞頻閾值M和詞語(yǔ)完整性過(guò)濾中的閾值N是通過(guò)對(duì)語(yǔ)料中每日融合新詞統(tǒng)計(jì)得到的,在M取值為2,N取值為30時(shí),過(guò)濾效果最好.計(jì)算詞語(yǔ)的活力值時(shí),使用的記憶衰退系數(shù)α則分別選取艾賓浩斯曲線中各個(gè)時(shí)間段的記憶保留比率進(jìn)行實(shí)驗(yàn),其中選用6天的記憶保留比率25.4%時(shí)收斂效果最好.
實(shí)驗(yàn)總共分兩個(gè)部分:
第一部分:驗(yàn)證算法中新詞識(shí)別統(tǒng)計(jì)量的有效性.本文在識(shí)別新詞中總共使用了三個(gè)統(tǒng)計(jì)量,分別為新詞的詞語(yǔ)完整性、新詞活力以及新詞的競(jìng)爭(zhēng)力.其中,新詞的詞語(yǔ)完整性指標(biāo)主要是對(duì)詞語(yǔ)進(jìn)行靜態(tài)化的衡量和過(guò)濾.新詞的活力以及新詞的競(jìng)爭(zhēng)力都是對(duì)新詞在時(shí)間分布上的詞頻變化進(jìn)行新詞的識(shí)別.本文提取語(yǔ)料中2010年9月,2011年3月,2014年2月的數(shù)據(jù)做了新詞識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示.
表1 實(shí)驗(yàn)中統(tǒng)計(jì)量測(cè)試
從實(shí)驗(yàn)數(shù)據(jù)可以得到,通過(guò)融合詞串的方式會(huì)產(chǎn)生大量的垃圾串,通過(guò)當(dāng)日詞頻簡(jiǎn)單的過(guò)濾后可以極大地降低系統(tǒng)的運(yùn)算量,提高識(shí)別的效率.通過(guò)分析每天通過(guò)詞語(yǔ)完整性過(guò)濾之后的候選詞,占前一天通過(guò)的候選詞的50%以上.而通過(guò)詞語(yǔ)競(jìng)爭(zhēng)力檢測(cè)后,識(shí)別的新詞總量大致穩(wěn)定,說(shuō)明雖然每天都有新詞的產(chǎn)生,但是淘汰的新詞大致與新產(chǎn)生的新詞數(shù)量相同.
第二部分:在第一部分實(shí)驗(yàn)的基礎(chǔ)上,增加基礎(chǔ)語(yǔ)料的規(guī)模(2013年1月至2013年7月的微博數(shù)據(jù)).通過(guò)實(shí)驗(yàn)驗(yàn)證算法的準(zhǔn)確性,穩(wěn)定性和連續(xù)性.實(shí)驗(yàn)結(jié)果如圖4所示.同時(shí)與ICTLAS[16]的新詞識(shí)別方法做了對(duì)比,對(duì)比結(jié)果如表2所示.
表2 實(shí)驗(yàn)對(duì)比
實(shí)驗(yàn)結(jié)果表明,本文提出的基于新詞的生存法則模型識(shí)別穩(wěn)定新詞的準(zhǔn)確率在80.21%以上,相比ICTLAS的新詞識(shí)別方法,準(zhǔn)確率提高了3個(gè)百分點(diǎn),而且可以產(chǎn)生最新的新詞詞庫(kù).開(kāi)始的第1個(gè)月份識(shí)別準(zhǔn)確率相對(duì)較低,分析其主要原因?yàn)榭疾熘芷谳^短,識(shí)別的網(wǎng)絡(luò)新詞中包含較多隨事件產(chǎn)生的網(wǎng)絡(luò)詞語(yǔ)或詞組,如“馬航”、“失聯(lián)”、“搶票”、“央視春晚”等詞語(yǔ).這些詞隨著考察期拉長(zhǎng),逐漸被淘汰過(guò)濾,準(zhǔn)確率會(huì)隨著時(shí)間的推移不斷提高,但是在5月份之后準(zhǔn)確率下滑.通過(guò)數(shù)據(jù)結(jié)果的分析,主要原因?yàn)槊刻斓暮蜻x新詞中總會(huì)出現(xiàn)一些高頻固定搭配的詞語(yǔ),比如“工作人員”、“人力資源”、“聯(lián)系電話”等.這些詞語(yǔ)無(wú)法通過(guò)競(jìng)爭(zhēng)力進(jìn)行有效的過(guò)濾影響算法準(zhǔn)確率的提升.
圖4 算法準(zhǔn)確率隨時(shí)間變化情況
圖5 新詞中各成分所占比
新詞成分所占比例如圖5所示.從新詞發(fā)現(xiàn)的成分實(shí)驗(yàn)數(shù)據(jù)中看出,本文使用的方法可以有效的識(shí)別新詞中的穩(wěn)定新詞成分.其中穩(wěn)定新詞可以成為輿情概念的候選詞,提高概念抽取的準(zhǔn)確率和召回率,為之后輿情分析提供支持.從事件詞的成分,本文識(shí)別的事件詞中包含的大多是最近較為熱點(diǎn)的事件詞,相對(duì)于ICTLAS更能反映當(dāng)前的熱點(diǎn)主題事件.
本文方法對(duì)網(wǎng)絡(luò)新詞的識(shí)別算法能夠較好地發(fā)現(xiàn)網(wǎng)絡(luò)短文本中出現(xiàn)詞義完整且穩(wěn)定的網(wǎng)絡(luò)新詞,提供了持久化的穩(wěn)定新詞發(fā)現(xiàn)方法.識(shí)別的新詞可以有助于輿情本體概念的抽取[15],補(bǔ)充完善該語(yǔ)言現(xiàn)存的詞庫(kù),為后續(xù)新詞的語(yǔ)義分析提供支持,而且識(shí)別方法中可以完整地記錄一些事件詞匯的生存時(shí)間,并通過(guò)競(jìng)爭(zhēng)力的變動(dòng)可以側(cè)面地反映該事件變化情況,通過(guò)事件詞與其相關(guān)詞匯的競(jìng)爭(zhēng)關(guān)系也可以發(fā)現(xiàn)一些事件漂移現(xiàn)象的變化規(guī)律.下一步將文中識(shí)別的穩(wěn)定新詞加入輿情本體的概念集,動(dòng)態(tài)化地構(gòu)建輿情本體知識(shí)庫(kù),同時(shí)通過(guò)新詞的競(jìng)爭(zhēng)過(guò)程發(fā)現(xiàn)網(wǎng)絡(luò)事件的發(fā)展情況,對(duì)網(wǎng)絡(luò)輿情做更深入的研究.
參考文獻(xiàn):
[1]王素改.微博中的新詞新語(yǔ)研究[J].雞西大學(xué)學(xué)報(bào),2016,16(9):150-153.
[2]李文坤,張仰森等.基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2015,32(8):2302-2304.
[3]呂屏,楊永紅.網(wǎng)絡(luò)新詞與網(wǎng)絡(luò)輿情研究[J].西華大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2010,02:102-106.
[4]杜麗萍,李曉戈,等.基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,01:35-40.
[5]陳飛,劉奕群,魏超,等.基于條件隨機(jī)場(chǎng)方法的開(kāi)放領(lǐng)域新詞發(fā)現(xiàn).軟件學(xué)報(bào),2013,24(5):1051-1060.
[6]Peng Fuchun,Feng Fangfang,McCallum A.Chinese segmentationand new word detection using conditional random f i elds[C].Proc of the 20th International Conference on Computational Linguistics,2004:221-227.
[7]鄒綱,劉洋,劉群,等.面向Internet的中文新詞語(yǔ)檢測(cè)[J].中文信息學(xué)報(bào),2004,06:1-9.
[8]吳悅,燕鵬舉,翟魯峰.基于二元背景模型的新詞發(fā)現(xiàn)[J].清華大學(xué)學(xué)報(bào),2011,51(9):1317-1320.
[9]林自芳,蔣秀鳳.基于詞內(nèi)部模式的新詞識(shí)別[J].計(jì)算機(jī)與現(xiàn)代化,2010(11):162-164,167.
[10]劉哲,黃永峰,羅芳,等.網(wǎng)絡(luò)新詞識(shí)別算法研究[J].計(jì)算機(jī)工程與科學(xué),2013,09:141-145.
[11]黃軒,李熔烽.博客語(yǔ)料的新詞發(fā)現(xiàn)方法[J].現(xiàn)代電子技術(shù),2013,36(2):144-146.
[12]莊美,何自然.物競(jìng)天擇適者生存–從模因論的緯度看新詞酷語(yǔ)的流行現(xiàn)象[J].湖北社會(huì)科學(xué),2010,07:115-117.
[13]易波.論新詞新語(yǔ)的熟悉度和顯著度[J].四川教育學(xué)院學(xué)報(bào),2009,11:58-60.
[14]蘇其龍.微博新詞發(fā)現(xiàn)研究[D].哈爾濱工業(yè)大學(xué),2013.
[15]張學(xué)芳,劉勝全,劉艷,等.輿情本體概念抽取研究[J].新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,33(3):333-337.
[16]張華平.NLPIR漢語(yǔ)分詞系統(tǒng).http://ictclas.nlpir.org/.