• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于詞頻逆文檔頻統(tǒng)計(jì)的詞匯時(shí)間分布層次

    2019-11-18 02:43:58饒高琦李宇明
    中文信息學(xué)報(bào) 2019年11期
    關(guān)鍵詞:基干詞類歷時(shí)

    饒高琦 ,李宇明

    (1. 北京語言大學(xué) 漢語國際教育研究中心,北京 100083;2. 北京語言大學(xué) 語言資源高精尖創(chuàng)新中心,北京 100083)

    1 時(shí)間分布層次

    在現(xiàn)代漢語演變的歷程中,詞語的使用受時(shí)間影響的程度不一,表現(xiàn)為詞語在時(shí)間維度上的分布不同。饒高琦等[1]稱詞語間的這一差異為詞語的時(shí)間敏感性。以時(shí)間敏感性的高低對詞匯系統(tǒng)進(jìn)行分層,由內(nèi)及外時(shí)間敏感性逐漸增強(qiáng),可以構(gòu)成詞匯時(shí)間敏感性的層次系統(tǒng)。本文稱該層次系統(tǒng)為“時(shí)間分布層次”。

    詞匯系統(tǒng)中很多詞語十分穩(wěn)定,受時(shí)間影響很小。它們構(gòu)筑了現(xiàn)代漢語(詞匯)的底層,也是時(shí)間分布層次的底層。由于受時(shí)間影響很小,這部分詞匯更新和變異十分緩慢,對于一種語言起到基礎(chǔ)和主干的作用。本文將這些詞語組成的詞匯稱作歷時(shí)詞匯系統(tǒng)的“基干層”。與之相對,眾多詞語的使用情況與其所處的時(shí)代較為相關(guān),新陳代謝很快,不構(gòu)成語言生活的基礎(chǔ)和主干。它們分布于時(shí)間分布層次中基干層以外的諸層次。

    目前學(xué)界在詞匯的歷時(shí)研究中,將詞匯一體處理,缺乏分層和分類。語言的每一個(gè)共時(shí)切面中觀察到的詞匯是多個(gè)歷時(shí)層次混合的結(jié)果。對“新詞新語”的眾多研究和對文言成分的研究[2]看似是時(shí)間上的兩極,但實(shí)質(zhì)上都是對漢語詞匯時(shí)間分布層次中較易變化的一層的研究。對穩(wěn)態(tài)詞[1,3-4]則是面對詞匯時(shí)間分布層次中的最穩(wěn)定底層的研究。但目前的研究中并未有意識地從時(shí)間維度上對詞匯進(jìn)行系統(tǒng)的分層或分類。

    本文在饒高琦等人抽取基干層詞匯的基礎(chǔ)上,對基干層外的詞匯進(jìn)行時(shí)間分布層次的劃分,并分析其諸特征。本文使用GPWS通用分詞系統(tǒng)并輔之以人工修正對歷時(shí)語料庫進(jìn)行分詞。

    2 時(shí)間分布層次的劃分

    饒高琦等[1]發(fā)現(xiàn) TF-IDF方法較之其他統(tǒng)計(jì)方法較適合描述詞語的時(shí)間分布情況。TF-IDF方法本質(zhì)上是對純粹詞頻的修正,其修正方式在于通過IDF值引入了詞分布的廣泛程度。顯然頻率相同或相近的兩個(gè)詞中,分布更廣泛的詞所包含的信息量少,反之亦然。而分布更窄的詞對于了解其所在文檔的特征具有更大價(jià)值。但I(xiàn)DF值的大小很大程度上取決于對整個(gè)語料庫劃分的粗細(xì)程度,亦即每份語料的規(guī)模。每年語料的篇幅很大,詞頻波動范圍很大。年顆粒度下的IDF取值(0~70),對中高頻段的調(diào)節(jié)作用非常有限。其實(shí)驗(yàn)表明以月為顆粒度進(jìn)行劃分對IDF值發(fā)揮調(diào)節(jié)作用較為合適,并使用月顆粒度下的TF-IDF方法經(jīng)小幅修正,在1946~2015年的70年時(shí)間跨度語料[5-6]的220萬詞匯上獲得了規(guī)模約3 000詞的基干層詞集?;蓪釉~集的主體基本上是TF-IDF值的倒序前3 011位,基礎(chǔ)詞匯和停用詞等都在這一層中。本文基于其結(jié)果,使用月顆粒度下的TF-IDF值來描述整個(gè)詞匯使用的穩(wěn)定性,使用式(1)~式(3)計(jì)算取對數(shù)后的TF-IDF值。其強(qiáng)弱如圖1所示,基本呈現(xiàn)為一個(gè)漸變的連續(xù)統(tǒng)(橫軸為按照月顆粒度TF-IDF降序排列的詞序號)。

    不同尺度上的TF-IDF曲線變化呈現(xiàn)不同的形態(tài)。在3 011詞到10 000詞段,如果將曲線回歸為二次系數(shù)大于零的多項(xiàng)式方程,可以獲得較高的判定系數(shù)R2,即曲線類似于凹二次曲線,如圖2(a)所示;在10 000詞到5 0000詞段,多項(xiàng)式回歸中的二次項(xiàng)系數(shù)接近于0,其判定系數(shù)R2與線性回歸方程一致,即曲線平直接近于直線,如圖2(b)所示;在50 000詞以上段,多項(xiàng)式回歸的判定系數(shù)R2超過線性回歸,但此時(shí)方程的二次項(xiàng)系數(shù)小于零,即曲線類似于一個(gè)凸二次曲線,如圖2(c)所示。

    根據(jù)曲線回歸方程劃分層次是對拐點(diǎn)觀察法的量化和改進(jìn),以R2判定系數(shù)0值為不同區(qū)域的分界。根據(jù)TF-IDF曲線的變化,本文把3 011詞到10 000詞視作為一層,將10 000詞到50 000詞視作一層,將50 000詞以上視作一層。在第3節(jié)中,本文將以歷時(shí)文本分類的性能、詞類分布、詞長分布、覆蓋率和詞語生命力五個(gè)方面對以上分層進(jìn)行考察,以對基干層/穩(wěn)態(tài)詞之外的諸時(shí)間分布層次進(jìn)行佐證和分析。其中基干層的相關(guān)數(shù)據(jù)均引用自饒高琦等[1]的研究。

    圖1 語料庫中所有詞的月顆粒度TF-IDF值按遞增排序

    (a) 排序3 011~10 000詞區(qū)域

    (b) 排序10 000~50 000詞區(qū)域

    (c) 排序50 000~400 000詞區(qū)(局印)域圖2 IF-IDF值排序

    3 各詞層的性質(zhì)

    3.1 時(shí)間敏感性

    不同分層中詞的時(shí)間敏感性不同,即反映時(shí)間特征的程度不一。本節(jié)使用歷時(shí)文本分類這一任務(wù)來考察不同層次詞匯的時(shí)間敏感性。時(shí)間敏感性較強(qiáng)、反映時(shí)間特征較好的詞語作為特征,對歷時(shí)文本分類應(yīng)有較好的貢獻(xiàn)。如對年顆粒度的時(shí)間變化較敏感的詞語對年顆粒度的歷時(shí)文本分類應(yīng)有較好貢獻(xiàn)。

    在歷時(shí)語料庫中均勻選取五分之一的年份(共14年),每年選取2 000詞的文本20篇,共280篇,56萬詞作為文本分類任務(wù)的測試數(shù)據(jù)集。實(shí)驗(yàn)中去除頻次為1的超低頻詞。按照月顆粒度下TF-IDF值的排序,將前70萬詞按照序號分為6組: 3 011~10 000詞、10 000~20 000詞、20 000~50 000詞、50 000~100 000詞、100 000~300 000詞和300 000~700 000詞??傮w而言,排序較為靠后的詞詞頻較低,出現(xiàn)在測試集中的可能性顯著減小,因而越靠后的分組詞量越大,以平衡越發(fā)嚴(yán)重的數(shù)據(jù)稀疏現(xiàn)象。

    在針對每組詞語進(jìn)行的實(shí)驗(yàn)中,本節(jié)以測試集里出現(xiàn)的該組詞語為特征(各組詞作為特征獨(dú)立進(jìn)行分類實(shí)驗(yàn),并不疊加),其在測試集出現(xiàn)的頻率為特征值,使用樸素貝葉斯分類器(1)使用數(shù)據(jù)挖掘平臺weka構(gòu)建。對測試集中屬于14個(gè)不同年份的280個(gè)文檔(56萬詞)進(jìn)行分類。為控制計(jì)算成本,將頻次為1的超低頻詞去除。實(shí)驗(yàn)采用10%交叉驗(yàn)證。各組詞作為特征的分類精確率如圖3所示。

    圖3 各分組的文本分類精確率(橫坐標(biāo)為該分組中排序最后詞的序號)

    隨著詞序增加,第一、二、三組的精確率小幅上升。從第四組開始,在排序 50 000詞以后的分組精確率出現(xiàn)大幅下降。對此可以做如下解釋: 基干層之外,TF-IDF值在一定范圍之內(nèi)的詞頻率較高,時(shí)間特征較為明顯。序號 50 000之外的詞則由于頻率較低,分布范圍很窄而不容易出現(xiàn)在測試集中。偶有一些出現(xiàn)某一年份的某文檔中,也難以在該年份的其他文檔中復(fù)現(xiàn),無法形成統(tǒng)計(jì)上的顯著性,從而導(dǎo)致分類精度大幅下滑。

    3.2 詞類分布的差異

    本部分統(tǒng)計(jì)了各組詞中的詞類分布。這里對兼類詞的詞類使用各詞類頻次所占比例為加權(quán)進(jìn)行了修正。結(jié)果見表1和圖4。本節(jié)將人名、地名、組織機(jī)構(gòu)名等也歸入了廣義的名詞。隨著序號的增加,名詞和數(shù)詞的比例逐步提升,而形容詞、動詞與其他(主要是虛詞)大幅下降。序號10 000與50 000以后名詞和數(shù)詞的比例大幅增長,而其他詞類大幅下降。這也可以成為支持本文將序號50 000作為層邊界的理據(jù)之一。

    在合并了同一層中各分組之后,得到圖5。其中50 000詞到700 000詞的分組代表50 000詞以外的部分。隨著詞序號的增加,詞層從內(nèi)到外名詞的比例迅速增大,在第三層中達(dá)到最高,數(shù)詞的變化趨勢相仿。而動詞、形容詞和虛詞從內(nèi)到外比例急劇下降。注意到圖5最內(nèi)層次為3k~10k區(qū)間,不包含最穩(wěn)定、最基礎(chǔ)的前3 000詞。大部分形容詞集中于前3 000詞層次,所以這里出現(xiàn)了和動詞相比較大的落差。就各層次而言,形容詞的占比從內(nèi)向外快速下降。動詞相仿,但下降稍慢。

    可以發(fā)現(xiàn)和語言結(jié)構(gòu)的組成和變化關(guān)系密切的詞類時(shí)間敏感性都較差: 多數(shù)動詞是句子組織框架的中心,形容詞在漢語中可以充當(dāng)謂語,虛詞則承載有豐富的語法信息。同時(shí)動詞、形容詞和虛詞是封閉性的詞類,而名詞是開放性的詞類,其主要功能是表達(dá)社會信息,因而在高時(shí)間敏感性的層內(nèi)比重較大。數(shù)詞本身是封閉性的。但是數(shù)詞的組合成為了開放性詞類,并與名詞共同承擔(dān)社會信息,也體現(xiàn)出了較高的時(shí)間敏感性。

    表1 各組詞類分布(分組一欄為該組中排序最后的詞的序號)

    圖4 各組詞類分布變化(橫坐標(biāo)為該組排序最后詞的序號)

    圖5 各層詞類分布變化

    3.3 詞長分析

    對三個(gè)不同層次的詞進(jìn)行詞長對詞次取平均進(jìn)行計(jì)算。如表2、圖6所示,針對詞種計(jì)算的詞長分布可以發(fā)現(xiàn),隨著詞序增長,平均詞長逐步增加。三個(gè)分層邊界上都出現(xiàn)了大幅度的詞長變化。序號3 000到7 000這一段,與饒高琦等[1]的基干層詞集的平均詞長(1.52字)相比也出現(xiàn)了明顯增長。序號10 000以后比之前平均多出約半個(gè)字。序號50 000以后的平均詞長是基干層的兩倍多。其原因主要是名詞比例的大幅上升,歸入名詞部分的命名實(shí)體較長,如組織機(jī)構(gòu)名。在這一層中增加的數(shù)詞對詞均長的增加也有較大貢獻(xiàn)。

    隨著詞序的增加,雙音節(jié)詞比例下降,主體被三音節(jié)詞取代,四音節(jié)和五音節(jié)詞的比例也出現(xiàn)可觀的增長,單音節(jié)詞幾乎消失。如果結(jié)合基干層詞的詞長數(shù)據(jù)進(jìn)行分析,由內(nèi)到外雙音節(jié)詞的占比經(jīng)歷了先增后降的變化。

    3.4 語料覆蓋率

    本節(jié)對各層次所包含的詞匯進(jìn)行了語料庫覆蓋程度的分析,如圖7所示?;蓪釉~雖然只有3 011個(gè),但是對語料庫的覆蓋超過了四分之三。3 000詞到10 000詞一層則覆蓋了剩余部分的一半。序號50 000以后的詞量雖有200余萬,但只能覆蓋整個(gè)語料庫的2.26%。

    表2 各層平均詞長及詞長分布(詞次計(jì)算)

    圖6 各層的平均詞長分布和各長度詞匯的分布(詞次計(jì)算)

    圖7 各層詞匯對全部語料庫的覆蓋率(%)

    3.5 詞語的歷時(shí)生命力曲線考察

    張普[3]曾經(jīng)指出“依據(jù)詞語的曲線特點(diǎn)可以構(gòu)成不同類型的曲線特征,依據(jù)不同特征的曲線類型,對詞匯進(jìn)行分類研究,也許我們會形成一門新的‘詞匯曲線類型學(xué)’”。劉長征[7-9]根據(jù)跨度29年的《深圳特區(qū)報(bào)》語料,將詞匯的歷時(shí)生命曲線按照出現(xiàn)零值點(diǎn)的情況分為“孤點(diǎn)型”“斷續(xù)型”和“連續(xù)型”三類。在考察范圍內(nèi),只在一個(gè)監(jiān)測時(shí)點(diǎn)上出現(xiàn)的詞語為“孤點(diǎn)型”,在某幾個(gè)監(jiān)測時(shí)點(diǎn)上出現(xiàn)零值點(diǎn)的為“斷續(xù)型”,在監(jiān)測的時(shí)間范圍內(nèi)無零值點(diǎn)的則為“連續(xù)型”。本節(jié)借用該分類系統(tǒng),以詞匯在諸年度的頻次對其“生命值”進(jìn)行估計(jì),對詞匯分層系統(tǒng)中各層詞匯進(jìn)行生命力曲線分析。

    由表3可知,諸類型的生命曲線在各分層中的分布差異明顯。“孤點(diǎn)型”詞語只在最外層出現(xiàn),并占有七成比重;“斷續(xù)型”詞語在基干層極少出現(xiàn),僅有兩例,隨著TF-IDF排序增加而迅速增長,在第三層出現(xiàn)高峰(占比91.8%),在第四層回落到占比三成;“連續(xù)型”詞語則從基干層中占比99.9%,迅速下降到第三層的8.2%,在第四層完全消失。在三種類型詞語的分布變化中,第二層起到了基干層和第三層間的過渡作用。在各類型詞語的分布中,四個(gè)層次差異明顯,這從一方面印證了分層的合理性。雖然通過TF-IDF值無法反映劉長征研究中所劃分的“成長型”“衰減型”“凸起型”和“凹陷型”等具體走勢,但TF-IDF值揭示了詞語在歷時(shí)語料中的分布的平均情況,是對詞語在歷時(shí)生命曲線進(jìn)行的再次抽象,即以數(shù)值表征其生命力曲線的類型。因而本文的工作是對張普[3]所構(gòu)想的“詞匯曲線類型學(xué)”在詞匯層面上進(jìn)行的整體研究。

    表3 各層詞匯中諸歷時(shí)生命曲線類型占比(%)

    4 詞匯時(shí)間分布的四分層體系

    圖8 詞匯分層體系的簡要示意

    按照詞在月顆粒度下TF-IDF值增序,將序號3 011到10 000這一層稱作過渡層,序號 10 000到50 000的部分稱作時(shí)敏層,序號50 000之外的部分稱作逸散層,示意如圖8所示。相較于基干層,過渡層體現(xiàn)出一定的時(shí)間敏感性,但弱于時(shí)敏層,因此得名。它是無時(shí)間敏感性的基干層與較高時(shí)間敏感性的時(shí)敏層之間的過渡區(qū)域。這一點(diǎn)也在文本分類實(shí)驗(yàn)的結(jié)果中得以體現(xiàn),即屬于該區(qū)域的分組對不同時(shí)間點(diǎn)文本的分類精確率小于等于時(shí)敏層。詞語歷時(shí)生命力曲線的考察支持其過渡屬性。該層中,詞的平均長度較基干層有大幅增長(1.52字到2.08字)。這兩層中,雙音節(jié)詞占比基本一致。詞長增長的主要原因在于,單音節(jié)詞占比降低了近一倍,這一份額由三、四音節(jié)和更長的詞瓜分,如表4所示。

    表4 基干層與過渡層詞長分布對比(%)

    過渡層的詞類分布與基干層沒有很大的差別。這也說明了過渡層的過渡性質(zhì)。但名詞部分中命名實(shí)體開始大量出現(xiàn),由于命名實(shí)體長度通常較長,因而造成了詞長增加。時(shí)敏層詞匯的時(shí)間敏感性較強(qiáng),這一區(qū)域詞語的使用和分布會隨著時(shí)間發(fā)生較大變化,因此得名。這一區(qū)域的詞兼顧較高的詞頻和較窄的時(shí)間分布區(qū)域,因而在文本分類實(shí)驗(yàn)中能夠取得最好的結(jié)果。同時(shí)在詞語歷時(shí)生命力曲線的考察中,該層大部分詞語為“斷續(xù)型”,即具有明顯的時(shí)期特征。因而“時(shí)間敏感”是該層最大的特點(diǎn),許多時(shí)間敏感的社會語言現(xiàn)象多由這一層中的詞語構(gòu)成,流行語和年度詞亦多出自此層。詞長方面,平均詞長較之過渡層有明顯增長。在表1所展示的詞類分布差異中,名詞、數(shù)詞的占比有可觀增長,形容詞、動詞和其他類大幅下降,因而復(fù)雜的語法現(xiàn)象在這一層出現(xiàn)的可能性較小。序號50 000之后的逸散層,雖然有更高的時(shí)間敏感性,但詞頻普遍很低,出現(xiàn)的時(shí)間段過窄。大部分詞語的歷時(shí)生命曲線為“單點(diǎn)型”,沒有“連續(xù)型”詞語,這直接影響了該層詞匯在文本分類實(shí)驗(yàn)中的表現(xiàn)?!耙萆印边@一命名借用自大氣科學(xué)中對地球大氣最外層的命名(dissipation layer或mesosphere)。它隱喻了這一區(qū)域的詞的特性: 生命周期很短,十分活躍,但稍縱即逝,與地球大氣最外層的處于高度電離狀態(tài)的原子相似,十分活躍,很容易逃逸到外太空中。在這一層中形容詞、動詞和其他詞類幾乎絕跡,僅剩余名詞和數(shù)詞,因而典型的語法現(xiàn)象通常不由這一層的詞構(gòu)成。在這一層出現(xiàn)了大量的命名實(shí)體,它們與其所在的時(shí)間段有關(guān),是因?yàn)轭l次太少而不具有統(tǒng)計(jì)差異性。但這一層詞量巨大且開放,是構(gòu)成具體語言生活所不可缺少的,是基干層、過渡層和時(shí)敏層構(gòu)筑的語言“骨架”上具體的“血肉”。我們將以上三層和基干層的特點(diǎn)總結(jié)在表5中。

    表5 各層次詞語特征對比

    5 結(jié)論

    本文工作在基干層詞語的基礎(chǔ)上,根據(jù) TF-IDF圖線的趨勢對歷時(shí)語料庫詞匯進(jìn)行了時(shí)間分布層次的劃分,并進(jìn)行了時(shí)間區(qū)分度、詞類分布、覆蓋度等指標(biāo)的考察和分析。TF-IDF升序3 000到10 000詞為語法現(xiàn)象明顯的過渡層,10 000到50 000詞為時(shí)間敏感性較強(qiáng)的時(shí)敏層,50 000詞以外是詞頻很低,使用壽命極短的逸散層。從內(nèi)到外諸層,名詞比例逐層提高,平均詞長逐層增長,詞量猛增,時(shí)間敏感性增強(qiáng),但對語料的覆蓋率迅速下降。從基干層到散逸層,本文嘗試基于歷時(shí)語料庫建立漢語詞匯的時(shí)間分布層次的分層體系。時(shí)間分布層次從內(nèi)到外諸層的特點(diǎn)符合語言生活的直觀認(rèn)識和語素與詞匯組合的基本規(guī)律。本文認(rèn)為在其他類型,甚至其他語言的歷時(shí)語料上也存在近似的分層體系。雖然在詞量和覆蓋率上可能有所差別,但層次之間的相對關(guān)系與特征應(yīng)大體一致。

    猜你喜歡
    基干詞類歷時(shí)
    量詞“只”的形成及其歷時(shí)演變
    常用詞“怠”“惰”“懶”的歷時(shí)演變
    霞浦縣沿海基干林帶保護(hù)利用存在的問題與對策探討
    花卉(2020年4期)2020-03-16 08:17:50
    用詞類活用法擴(kuò)充詞匯量
    閩南沿海木麻黃基干林帶下潺槁造林初步研究
    綠色科技(2019年13期)2019-08-31 02:44:12
    基于語料庫“隱秘”的詞類標(biāo)注初步探究
    對《紅樓夢》中“不好死了”與“……好的”的歷時(shí)考察
    從成語中學(xué)習(xí)詞類活用
    古今字“兌”“說”“悅”“?!睔v時(shí)考察
    探尋審判權(quán)與執(zhí)行權(quán)實(shí)質(zhì)分離的現(xiàn)實(shí)路徑——基干S省H市10個(gè)縣區(qū)法院的實(shí)證考察
    定兴县| 阿坝县| 博客| 平山县| 遂溪县| 余姚市| 新田县| 临洮县| 宁蒗| 奈曼旗| 白银市| 七台河市| 含山县| 来安县| 无极县| 桐乡市| 磐石市| 山阴县| 麻江县| 长泰县| 灵石县| 西昌市| 仁寿县| 连城县| 巴东县| 永平县| 湾仔区| 东兰县| 孝义市| 阳谷县| 股票| 洞口县| 施秉县| 崇信县| 乌兰察布市| 乌拉特后旗| 鲁甸县| 阳城县| 昭觉县| 阜宁县| 阿拉善盟|