• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    最大概率分詞方法研究

    2018-08-09 09:08房敏
    科學(xué)與財(cái)富 2018年18期
    關(guān)鍵詞:詞串詞法字符串

    房敏

    摘要:最大分詞方法是一種基于統(tǒng)計(jì)的分詞方法,一個(gè)待分割的字符串有多種分詞結(jié)果,最大概率分詞的原則是將其中可能性的最大的那個(gè)詞語作為該字符串的分詞結(jié)果。本文主要圍繞最大概率分詞法,詳述了最大分詞法的算法思想,并且對算法的性能進(jìn)行分析。

    1 現(xiàn)有分詞方法概述

    漢字的表達(dá)式以字為單位的,但是在自然語言處理中,詞是最小的,有意義的語言成分。中文分詞就是將沒有分割標(biāo)志的字符串轉(zhuǎn)化為具有實(shí)際意義的詞串。由于漢字自動(dòng)分詞在文本分類,信息檢索,信息過濾,文獻(xiàn)自動(dòng)標(biāo)引,摘要自動(dòng)生成等中文信息處理中的關(guān)鍵技術(shù),故對分詞算法的研究是十分有必要性的。

    現(xiàn)有的分詞方法主要可以分為以下四類:基于字符串匹配的分詞方法,基于理解的分詞方法,基于統(tǒng)計(jì)的分詞方法和基于語義的分詞方法。

    2 簡述最大概率分詞方法

    隨著近年來大規(guī)模語料庫的建立,機(jī)器學(xué)習(xí)方法的蓬勃發(fā)展,基于統(tǒng)計(jì)的中文分詞方法逐漸成為了主流分詞方法。最大概率分詞是一種最基本的統(tǒng)計(jì)分詞方法,假設(shè)Z=z1z2…zn是輸入的漢子串,W=w1w2…wn,是與之對應(yīng)的可能的詞串,那么,漢語自動(dòng)分詞可以看作是是概率P(W|Z)的最大的詞串。

    3 最大概率分詞算法

    1)得到一個(gè)待分詞的字符串,按照從左到右的順序取出全部候選詞 w1,w2…wn

    2)在所建立的語料庫中查找每個(gè)候選詞的概率P(wi)

    3)計(jì)算每個(gè)候選詞的累計(jì)概率(累積概率為前一個(gè)節(jié)點(diǎn)的累積概率與該節(jié)點(diǎn)的概率的乘積的最大者),同時(shí)保存得到每個(gè)候選詞的最佳的左鄰詞。

    4)按照動(dòng)態(tài)規(guī)劃的方法依次計(jì)算每個(gè)詞的最大累積概率,直到找到尾詞wn。

    5)從wn開始,依次找尋其最佳左鄰詞,并按照從右到左的順序依次輸出這些詞匯,即S的分詞結(jié)果。

    4 算法示例

    對“結(jié)合成分子時(shí)”從左到右進(jìn)行掃描,統(tǒng)計(jì)每個(gè)候選詞的累計(jì)概率值,并且記錄其最佳左鄰詞。

    5 算法性能

    最大概率法能夠發(fā)現(xiàn)切分歧義,但是很大程度上取決于統(tǒng)計(jì)語言模型的精度和決策算法,而且需要大量的標(biāo)注材料。

    參考文獻(xiàn):

    [1]自然語言處理基本理論和方法[M].哈爾濱工業(yè)大學(xué)出版社,2013.8.

    [2]基于最大概率分詞算法的中文分詞方法研究[J].科技信息,2010

    [3]李家福,張亞非一種基于概率模型的分詞系統(tǒng)[J].系統(tǒng)仿真學(xué)報(bào),2002,14(5):544一550.

    猜你喜歡
    詞串詞法字符串
    基于文本挖掘的語詞典研究
    靈動(dòng)的詞串,寫話的紐帶
    報(bào)紙新聞標(biāo)題中的“熱詞群”和“熱詞串”
    應(yīng)用于詞法分析器的算法分析優(yōu)化
    談對外漢語“詞法詞”教學(xué)
    美語口語詞串You Know What探析
    一種新的基于對稱性的字符串相似性處理算法
    依據(jù)字符串匹配的中文分詞模型研究
    一種針對Java中字符串的內(nèi)存管理方案
    2010年高考英語“相似”考題例析
    阿坝县| 陆良县| 东港市| 萨迦县| 海林市| 石狮市| 黎城县| 乌拉特前旗| 井冈山市| 乳源| 聂拉木县| 类乌齐县| 朝阳区| 呼玛县| 华蓥市| 弥渡县| 伊通| 弋阳县| 莲花县| 雷州市| 年辖:市辖区| 木里| 四平市| 南靖县| 开封市| 泰顺县| 合江县| 和平区| 中山市| 尼玛县| 内乡县| 柘城县| 靖安县| 六枝特区| 恩施市| 丹棱县| 开化县| 特克斯县| 石家庄市| 牡丹江市| 保靖县|