• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    齊普夫定律在中文字頻測定的推廣①

    2014-06-14 03:37:44
    關(guān)鍵詞:常用字用詞詞頻

    吳 冰

    (黑龍江省圖書館,黑龍江哈爾濱 154000)

    1 齊普夫定律的定義與推論

    齊普夫定律(Zipf’s law)的表述為:當(dāng)文章作者給出的文獻(xiàn)語料庫中的詞匯足夠多時,單詞出現(xiàn)頻率呈現(xiàn)出一定的分布規(guī)律.研究發(fā)現(xiàn):不同的作者的用詞取向和用詞頻度是不同的,這種規(guī)律被稱為“語言指紋”.

    所謂用詞頻度(詞頻)是指每一個詞在一定長?之文件中出現(xiàn)的頻率占總詞數(shù)的比,如對一個由K個詞組成的總長度為L的語料庫中,詞的出現(xiàn)頻率由高到低排序為r的詞頻為Pr.而依詞頻從高到低將詞排序的序號則是計量的另一個最基本的數(shù)量指標(biāo).早在1916年,法國速記學(xué)家艾思杜(J.Estoup)發(fā)現(xiàn)了在較長文章中,詞的出現(xiàn)頻率分布的定量化形式,即:

    (1)式中r詞依詞頻從高到低排列的序號,Pr是第r個詞相應(yīng)的詞頻,c是一個常數(shù).

    1932年,哈佛大學(xué)的語言學(xué)家齊普夫(G K Zipf)在研究英文單詞的出現(xiàn)頻率時,發(fā)現(xiàn)如果把單詞頻率從高到低的次序排列,每個單詞出現(xiàn)頻率和它的符號訪問排名存在簡單反比關(guān)系:

    (2)式對應(yīng)圖像為截距為lgc,斜率為-α(α=tanθ)的直線.

    上式中,r表示詞在詞表中的序號,Pr表示序號為r的詞的頻率,c和γ都是常數(shù),齊普夫由實驗測出,α ≈1,c≈0.1.

    對于一個總詞數(shù)匯容量為L,共有詞K個的語料庫,r=K時:

    顯然:Pk≥1/L

    此后,朱斯(M.Joos)、曼德爾布洛特(B.Mandelbrot)以及齊普夫本人,先后對上述定律進(jìn)行過研究,因而又稱齊普夫定律為齊普夫—朱斯—曼德爾布洛特定律(Zipf-Joos-Mandelbrot law).新定律表述為:如果詞表包含詞足夠多(1×105詞以上),則其中前1000個最常用的詞占該語言的各種文章中全部出現(xiàn)的詞的80%.

    用數(shù)學(xué)算式表現(xiàn)為:

    因為:調(diào)和數(shù)列的和

    上式:C≈0.57722,C為歐拉常數(shù)(歐拉初始)將(5)入(4)式得:

    設(shè)前r1個詞的詞頻和為30%,由上式得:

    即英文語料庫中前15個高頻詞的詞頻和即可達(dá)到30%.

    以上式檢驗齊普夫?qū)rown語料庫前135個單詞的出現(xiàn)詞頻的和:

    計算結(jié)果表明,齊普夫所選的語料庫長度小于朱斯等人的研究對象.

    針對不同的作者的寫作用詞頻率的研究發(fā)現(xiàn),不同的作者對同一詞的用“力”是大小不同的,即同一詞在不同作者的文章中出現(xiàn)的頻率是不同的,而在同一作者的不同文章中出現(xiàn)的頻率是基本相同的,這個現(xiàn)象被稱為“語言指紋”.

    造成不同的作者在寫作中所使用的詞匯及其頻率的不同的原因有很多,如受教育的程度,個人性格、從事研究的領(lǐng)域、年齡、性格、出生地的方言、宗教信仰、對文字的避諱等各種因素的不同或差異都可能造成作者在寫作中無意識的用詞頻率不的同,這種在語言表達(dá)上的特征即“語言指紋”.

    2 齊普夫定律對漢語言文本字頻的測定

    與拼音文字不同,漢語多是以單字作為詞素來組成一個或多個詞素的詞語的,目錄,收錄漢字最多的1994年出版的《中華字?!肥杖肓?7019個漢字,北京國安咨詢設(shè)備公司的漢字字庫,收入漢字91251個,而我國1988年公布的《現(xiàn)代漢語常用字表》選收的常用字為2500個、次常用字為1000個,合計3500字.

    而根據(jù)國家出版局的抽樣統(tǒng)計,漢字中最常用字560個,常用字807個,次常用字1033個.三者合計2400個,占一般書刊用字的99%.國家標(biāo)準(zhǔn)GB2312-80《信息交換用漢字編碼字符集* 基本集》中一級字庫3755個為常用字,二級字庫3008個,為不常用字.一級字庫的3755個字,使用頻率合計達(dá)99%,而二級字庫的3008個字,使用頻率合計為0.3%,余下的80256個漢字的使用頻率之和為 0.7%.

    國家出版局的統(tǒng)計結(jié)果顯示,最高頻的“的一是了我”5個漢字的字頻率之和為10%.次高頻的“不人在他有這個上們來到時”12個漢字的字頻之和為10%.再次高頻的“大地為子中你說生國年著就那和要她出也得里后自以會”25個漢字的字頻之和為10%.即僅42個漢字的字頻之和為30%,可見,漢字字頻的分布與拼音文字存在很大的差異,其圖像中的|α|值更小,即圖像中的直線下降更緩慢.

    將上述結(jié)果用數(shù)學(xué)版式表達(dá)為:

    下面以《紅樓夢》文本為語料庫對上式進(jìn)行驗證:

    統(tǒng)計《紅樓夢》120回本正文部分共872247個字符,除去標(biāo)點符號,共731017漢字,累計使用4462個單字.

    即:L=731017 >1×105,K=4462 >1×103,語料庫滿足研究要求.

    考慮到時代不同對作者用詞的影響,本次選取“的一是了我不人在他有這個上們來到時大地為子中你說生國年著就那和要她出也得里后自以會”42個高頻詞進(jìn)行比對,并將作者時代還沒有的“她”合并為“他”.增補(bǔ)《紅樓夢》中統(tǒng)計所得高頻字“玉兒女又才賈見”共48個漢字,統(tǒng)計其詞頻得出下表:

    的一是了我不人在他有這個14890 12166 10452 21176 9202 15068 10544 3996 7682 6005 7841 5682上們來到時大地為子中你說

    ?

    按字頻從高到低排序,前五個分別是:了(21176),不(15068),的(14890),一(12166),來(11511),列表如下:

    1 2 3 4 5 Pr 0.029 0.022 0.020 0.017 0.015 r

    選取前 17個高頻字:了(21176),……,道(11061),人(10544),是(10452),說(9686),我(9202),這(7841),他(7682),和(6138),生(6123),兒(6059),玉(6063),有(6005)

    列表如下:

    r 1 …… 6 7 8 ……17 Pr0.029 …… 0.015 0.014 …… 0.008

    以上測算,驗證了齊普夫定律對中文文本的適用性的推測,并驗證了c和α的近似值,同時也通過字頻序號的變化證明了清代文本語言特征與當(dāng)代的差異,進(jìn)一步研究詞或詞組的頻度可以找出同一時代不同作者的語言指紋.

    [1]馬費(fèi)城,布拉德福特一齊普夫分布系的概率模型[J].情報科學(xué),1982(2):22-33.

    [2]Malcolm Coulthard.Author Identification,Idiolect and Linguistic Uniqueness[J].Applied Linguistics 25,4,2004:431-447.

    [3]中國百科網(wǎng).常用漢字[EB/OL].http://www.chinabaike.com/article/baike/1056/2008/200811071597607.html.

    猜你喜歡
    常用字用詞詞頻
    需注意的規(guī)范醫(yī)學(xué)用詞
    強(qiáng)化詩詞用詞的時代性
    中華詩詞(2022年2期)2022-12-31 05:57:58
    基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    蒼涼又喧囂:《我與地壇》中的用詞
    關(guān)于常用字覆蓋率統(tǒng)計算法的研究
    寫話妙計之用詞準(zhǔn)確
    根字練習(xí)(十九)
    詞頻,一部隱秘的歷史
    云存儲中支持詞頻和用戶喜好的密文模糊檢索
    以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
    圖書館論壇(2014年8期)2014-03-11 18:47:59
    江陵县| 彩票| 南靖县| 南部县| 贺州市| 晋州市| 泗水县| 周至县| 灵武市| 若尔盖县| 壤塘县| 德昌县| 乐至县| 康马县| 拉萨市| 剑河县| 昭平县| 恩平市| 和田县| 壤塘县| 杭锦后旗| 河北省| 榆林市| 盐津县| 永川市| 凤台县| 花莲县| 衡东县| 长寿区| 北票市| 固原市| 临邑县| 兰溪市| 连山| 桃江县| 甘南县| 吉隆县| 新闻| 镇赉县| 文昌市| 蒙城县|