• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于構(gòu)詞模式的未登錄描述詞自動識別的研究

    2014-04-29 00:00:00王玉凡趙占坤韓曉霞

    摘 要:本論文基于要實(shí)現(xiàn)二維圖像空間關(guān)系特征與描述詞對齊這一目的,研究如何將描述句中的“分詞碎片”自動識別為描述詞,增強(qiáng)對齊后語料的豐富性。本文采用模式識別的思想,總結(jié)“分詞碎片”的詞性構(gòu)成描述詞的構(gòu)成模式,對碎片中可能成為的描述詞進(jìn)行識別。

    關(guān)鍵詞:對齊;未登錄詞識別;構(gòu)詞模式;詞性;分詞碎片

    中圖分類號:G353.1

    基于二維圖像上兩個(gè)物體的不同空間位置關(guān)系特征與描述語句中的詞匯進(jìn)行對齊,具體來說是要在描述語句中提取兩個(gè)范疇的詞匯,形狀和方位詞,再把這兩個(gè)范疇的詞與圖像的底層特征進(jìn)行對應(yīng)。人工標(biāo)注語料經(jīng)過切分后會產(chǎn)生許多“分詞碎片”,這是因?yàn)槊枋鲈~的多樣化,如何從“分詞碎片”中將豐富的未登錄方位描述詞和形狀描述詞識別出來,是本文研究的重點(diǎn)。

    1 數(shù)據(jù)準(zhǔn)備

    本文的語料庫是由兩部分組成:人工標(biāo)注語料和圖像語料。

    圖像語料是系統(tǒng)自動生成的1000幅圖片,圖片上有兩個(gè)基本圖形,用不同的灰度值進(jìn)行區(qū)分,兩個(gè)物體的位置不相交,有一定的方位關(guān)系。如圖1所示:

    圖1 圖像語料示例

    標(biāo)注語料是對每幅圖片的人工標(biāo)注,本文采用了開放的不限定維度的語言對圖像進(jìn)行了人工標(biāo)注。對600幅圖像的標(biāo)注經(jīng)過切分、詞性標(biāo)注并去掉表示句式的詞后的結(jié)果如下所示:

    0000/m 三角形/n 正/d 五邊形/n 左邊/f

    2 基于構(gòu)詞模式自動識別未登錄描述詞的方法

    2.1 標(biāo)注預(yù)處理:先將描述語句進(jìn)行一次切分,然后標(biāo)注詞性,因?yàn)楸痉椒▽τ谠~性標(biāo)注的準(zhǔn)確性有很高的要求,所以這里選用了中科院研究的分詞工具ICTCLAS進(jìn)行切分,經(jīng)檢測此切分和詞性標(biāo)注工具準(zhǔn)確率達(dá)到98.5%,然后將表示句式的詞去掉,因?yàn)檫@些詞只是為了表達(dá)句式特點(diǎn)。

    2.2 模式初選:因?yàn)椴煌娜擞胁煌枋隽?xí)慣,為了使模式覆蓋面更廣泛,在600條語句中,從每100條中抽取10條,總結(jié)這60條描述語句中“分詞碎片”的詞性的構(gòu)詞模式,構(gòu)成構(gòu)詞模式的初選集。

    2.3 模式識別[1]:根據(jù)初選集中的模式去識別剩下語料中的“分詞碎片”,在識別的同時(shí),統(tǒng)計(jì)出每種模式可以識別出的詞語數(shù)目。識別時(shí),如果連續(xù)的“分詞碎片”中滿足初選集中的一種或幾種模式,以滿足的最長模式為最后結(jié)果。例如:左方/f偏/d上/f一點(diǎn)/m,既滿足模式fd,又滿足模式fdfm,選擇fdfm即詞語為左方偏上一點(diǎn)為結(jié)果。

    2.4 模式篩選:去掉一些識別出詞語比較少的模式,因?yàn)檫@些模式往往只是某個(gè)分詞碎片組成的特例,不能稱之為一個(gè)模式。

    2.5 用篩選后的模式,對測試集中的“分詞碎片”進(jìn)行識別:篩選后的模式就是可用于對“分詞碎片”進(jìn)行識別的模式。

    3 實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)中從60條語句中總結(jié)出的“分詞碎片”的詞性成詞模式共18種如下所示:

    \"mq\",\"fd\",\"ff\",\"fvf\",\"df\",\"fdfm\",\"dn\",\"dfdfm\",\"fn\",\"ffn\",\"fdam\",\"ffnn\",\"nn\",\"nfv\",\"bnf\",\"fda\",\"vf\",\"mnn\"

    實(shí)驗(yàn)準(zhǔn)備的測試集為200條分詞碎片語料,用這幾種模式去識別這200條測試集中的語料,實(shí)驗(yàn)結(jié)果如表1所示:

    表1 實(shí)驗(yàn)結(jié)果

    構(gòu)詞模式mqfdfffvfdffdfmdndfdfm

    出現(xiàn)頻次31394002591162

    構(gòu)詞模式fnfdamffnnnnfdavfmnn

    出現(xiàn)頻次0900101

    據(jù)統(tǒng)計(jì),該方法識別出的詞語的正確率為97.5%,召回率為94.7%。

    4 結(jié)束語

    本文介紹了一種基于構(gòu)詞模式的自動識別未登錄描述詞的方法,并提出把該方法用于特征-描述詞的對齊中,極大地增強(qiáng)了對齊語料中的詞語豐富性。

    附錄

    計(jì)算所漢語詞性標(biāo)記集

    Version 5.0

    制訂人:劉群 張華平 張浩

    n 名詞;t 時(shí)間詞;s 處所詞;f 方位詞;v 動詞;a 形容詞;b 區(qū)別詞;

    z 狀態(tài)詞;r 代詞;m 數(shù)詞;q 量詞;d 副詞;p 介詞;c 連詞;u 助詞;

    e 嘆詞;y 語氣詞;o 擬聲詞;h 前綴;k 后綴;w 標(biāo)點(diǎn)符號;

    參考文獻(xiàn):

    [1]Richard O.模式分類[M].北京:機(jī)械工業(yè)出版社,2005.

    作者簡介:王玉凡(1972-),女,河北人,碩士,講師,研究方向:信息處理。

    作者單位:河北軟件職業(yè)技術(shù)學(xué)院,河北保定 071003

    基金項(xiàng)目:河北省保定市科學(xué)技術(shù)研究與發(fā)展計(jì)劃(13ZG030)。

    灯塔市| 德庆县| 策勒县| 军事| 武穴市| 东源县| 临沧市| 剑阁县| 孟村| 富川| 石林| 和静县| 永新县| 驻马店市| 崇义县| 兴文县| 彩票| 眉山市| 鹤岗市| 政和县| 西丰县| 黔江区| 洪湖市| 桦南县| 永和县| 区。| 阳东县| 威宁| 桐梓县| 夏邑县| 阳曲县| 泸定县| 长丰县| 黄陵县| 禹城市| 宜川县| 汉沽区| 栾川县| 班戈县| 青冈县| 龙陵县|