• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    標(biāo)準(zhǔn)內(nèi)容抽取方法研究

    2014-08-30 20:21:07劉靜
    無線互聯(lián)科技 2014年8期
    關(guān)鍵詞:國標(biāo)段落正文

    劉靜

    摘 要:標(biāo)準(zhǔn)是為了規(guī)范行業(yè)秩序,經(jīng)協(xié)商一致制定并由公認(rèn)機(jī)構(gòu)批準(zhǔn)的一種文件。由于標(biāo)準(zhǔn)種類繁多,且以電子文檔形式存在,因此標(biāo)準(zhǔn)編制單位在編制新標(biāo)準(zhǔn)時(shí)需要手工查找大量相關(guān)內(nèi)容,費(fèi)時(shí)費(fèi)力。為了提高標(biāo)準(zhǔn)編制效率,本文通過研究國標(biāo)規(guī)定的標(biāo)準(zhǔn)編寫的結(jié)構(gòu)和規(guī)范,提出一種從半結(jié)構(gòu)化標(biāo)準(zhǔn)中抽取信息的方法。

    關(guān)鍵詞:標(biāo)準(zhǔn);信息抽取

    1 引言

    在信息化建設(shè)中,標(biāo)準(zhǔn)的制定和執(zhí)行起到舉足輕重的作用。目前我國已經(jīng)發(fā)布了多項(xiàng)標(biāo)準(zhǔn),未來計(jì)劃和新增的標(biāo)準(zhǔn)也會(huì)越來越多。信息化標(biāo)準(zhǔn)具有較高的復(fù)雜性和相關(guān)性,標(biāo)準(zhǔn)編寫人員需要全面了解現(xiàn)存標(biāo)準(zhǔn)的相關(guān)細(xì)節(jié)才能確保新編寫的標(biāo)準(zhǔn)與現(xiàn)存標(biāo)準(zhǔn)一致。然而現(xiàn)存標(biāo)準(zhǔn)內(nèi)容繁多,且大都以文檔形式存在,標(biāo)準(zhǔn)編寫人員手工查閱新舊標(biāo)準(zhǔn)是否一致是一個(gè)費(fèi)時(shí)費(fèi)力的工作。為了解決這個(gè)問題,本文研究了從一系列多樣化標(biāo)準(zhǔn)中粗略抽取信息的方法,并將抽取結(jié)果存于數(shù)據(jù)庫中,從而為標(biāo)準(zhǔn)編寫人員提供相關(guān)內(nèi)容的查詢和檢索幫助,以提高標(biāo)準(zhǔn)的編制效率。

    2 標(biāo)準(zhǔn)抽取的總體方法

    “標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫”(以下簡稱“國標(biāo)”)是中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局和中國國家標(biāo)準(zhǔn)化管理委員會(huì)發(fā)布的國家標(biāo)準(zhǔn)。國標(biāo)規(guī)定了全國各行各業(yè)的標(biāo)準(zhǔn)應(yīng)該具有的結(jié)構(gòu)以及編寫規(guī)范,是編寫新標(biāo)準(zhǔn)時(shí)應(yīng)遵守的基礎(chǔ)標(biāo)準(zhǔn)。本文研究的標(biāo)準(zhǔn)符合國標(biāo)的規(guī)定。

    國標(biāo)規(guī)定了標(biāo)準(zhǔn)的結(jié)構(gòu):標(biāo)準(zhǔn)必須包含封面、前言和正文,可以包含引言、附錄、參考文獻(xiàn)和索引,附錄可以有多個(gè)。

    國標(biāo)還規(guī)定了標(biāo)準(zhǔn)各部分的編排:標(biāo)準(zhǔn)各部分都要從新的一頁起排,若有多個(gè)附錄,每個(gè)附錄都應(yīng)另起一頁。

    國標(biāo)還規(guī)定了標(biāo)準(zhǔn)各部分的格式:封面是標(biāo)準(zhǔn)的第一頁,封面上各項(xiàng)信息都有確定位置;正文部分首頁首行是標(biāo)準(zhǔn)名稱;每個(gè)附錄部分的首頁首行是該附錄的編號(hào),例如:“附錄A”、“附錄B”等;其余部分的首頁首行與這個(gè)部分的名稱相同,例如目次部分首頁首行是“目次”二字,前言部分首頁首行是“前言”二字。

    由于國標(biāo)規(guī)定的標(biāo)準(zhǔn)各部分各有特點(diǎn),且界限清晰,因此本文抽取時(shí)先對(duì)標(biāo)準(zhǔn)切分得到各部分,再對(duì)各部分分別抽取。

    3 標(biāo)準(zhǔn)分塊

    標(biāo)準(zhǔn)分塊時(shí)需要知道各部分的開始和結(jié)束位置。由于國標(biāo)規(guī)定標(biāo)準(zhǔn)的各部分都要從新一頁起排,因此只要知道各部分的開始和結(jié)束頁碼就能確定各部分的范圍。

    4 標(biāo)準(zhǔn)抽取

    4.1 各部分抽取介紹

    經(jīng)過分塊后就可以對(duì)各部分內(nèi)容分別抽取。對(duì)于封面,國標(biāo)規(guī)定了標(biāo)準(zhǔn)的封面必須包含的內(nèi)容,以及它們的相對(duì)位置,因此利用Word的定位功能和字符串匹配方法就可以得到。前言常常說明了標(biāo)準(zhǔn)的起草單位和起草人,并且常用“本標(biāo)準(zhǔn)起草單位:……”,“本標(biāo)準(zhǔn)主要起草人:……”等句型描述,因此通過模式匹配方法構(gòu)造模式就可以得到前言包含的信息。引言、參考文獻(xiàn)和索引是可選要素,本文將這三部分內(nèi)容直接存儲(chǔ)。正文和附錄是一篇標(biāo)準(zhǔn)的核心部分,也是標(biāo)準(zhǔn)抽取時(shí)重點(diǎn)關(guān)注的部分,本文以正文為例,說明這部分內(nèi)容如何抽取。

    4.2 正文抽取

    國標(biāo)規(guī)定標(biāo)準(zhǔn)的正文具有章、條、段、列項(xiàng)這樣的層次劃分。章是正文內(nèi)容劃分的基本單元,從數(shù)字1開始編號(hào)。條是章的細(xì)分,用點(diǎn)分阿拉伯?dāng)?shù)字編號(hào),第一層次的條(例如4.1)可分為第二層次的條(例如4.1.1、4.1.2等)。段是章或條的細(xì)分,不編號(hào)。列項(xiàng)由一段后跟冒號(hào)的文字引出,且隸屬于該段文字,列項(xiàng)的各項(xiàng)之前有專門的列項(xiàng)符號(hào)(“破折號(hào)”或“圓點(diǎn)”)。由國標(biāo)的規(guī)定可見正文部分具有樹狀結(jié)構(gòu),如圖1所示。

    正文部分具有樹狀層次結(jié)構(gòu),且各層次區(qū)別明顯,因此本文處理正文時(shí)構(gòu)造了一個(gè)樹來存儲(chǔ)相應(yīng)內(nèi)容。本文首先用標(biāo)準(zhǔn)名稱作為根節(jié)點(diǎn),然后遍歷處理正文的每一個(gè)段落。若當(dāng)前段落的開始部分符合正則表達(dá)式“ ”,則表明該部分是章編號(hào),應(yīng)直接作為根的子節(jié)點(diǎn)添加;若當(dāng)前段落的開始部分符合正則表達(dá)式“ ”,則表明這部分是條編號(hào),就要繼續(xù)分析:例如當(dāng)前讀到的是“3.2”,表明當(dāng)前內(nèi)容直接隸屬于章節(jié)3,且是章節(jié)3的第二個(gè)子節(jié)點(diǎn),因此從這個(gè)樹中找到章節(jié)3對(duì)應(yīng)的節(jié)點(diǎn),然后將當(dāng)前內(nèi)容作為子節(jié)點(diǎn)添加;若當(dāng)前段落的開始部分是列項(xiàng)符號(hào),則表明當(dāng)前內(nèi)容是列項(xiàng),隸屬于上一個(gè)讀到的段落中;若當(dāng)前段落的開始部分不符合上面三種情況,則表明該段落是普通段,隸屬于后序遍歷當(dāng)前樹結(jié)構(gòu)時(shí)的最后一個(gè)節(jié)點(diǎn)。正文部分的各個(gè)段落遍歷完以后,與之對(duì)應(yīng)的樹就形成了。從這個(gè)樹的根節(jié)點(diǎn)出發(fā),可以到達(dá)葉子結(jié)點(diǎn)代表的段和列項(xiàng),這樣,即使在正文部分沒有給段和列項(xiàng)明確編號(hào)的情況下,通過樹狀結(jié)構(gòu)也可以知道它們之間的隸屬關(guān)系,這樣以段為單位存儲(chǔ)正文部分的內(nèi)容時(shí)就融入了重要的結(jié)構(gòu)信息。

    5 實(shí)現(xiàn)

    本文描述的標(biāo)準(zhǔn)內(nèi)容抽取方法在Java環(huán)境下開發(fā),用到了Java開源項(xiàng)目Jacob,標(biāo)準(zhǔn)抽取結(jié)果存儲(chǔ)在SQL Server2008中。本文對(duì)30個(gè)Word形式存在的標(biāo)準(zhǔn)進(jìn)行抽取,實(shí)驗(yàn)結(jié)果表明凡是按照國標(biāo)要求編寫的標(biāo)準(zhǔn)都能夠被正確抽取。

    6 總結(jié)

    本文先通過對(duì)國標(biāo)規(guī)定的標(biāo)準(zhǔn)結(jié)構(gòu)進(jìn)行分析,提出了標(biāo)準(zhǔn)抽取的總體方法,即先進(jìn)行切分再分別抽取。接著,對(duì)標(biāo)準(zhǔn)切分過程進(jìn)行了詳細(xì)說明,通過切分得到標(biāo)準(zhǔn)的各個(gè)部分。然后,對(duì)標(biāo)準(zhǔn)各部分的抽取方法進(jìn)行了描述,并重點(diǎn)闡述了正文部分的抽取。最后,在Java環(huán)境下實(shí)現(xiàn)了本文提出的方法。

    [參考文獻(xiàn)]

    [1]Krishnaprasad Thirunarayan,Aaron Berkovich,and Dan Z.Sokol.An information extraction approach to reorganizing and summarizing specifications,Information and Software Technology[J].2005(47):218-232.

    [2]GB/T1.1-2009標(biāo)準(zhǔn)化工作導(dǎo)則,第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫[S].

    [3]李瑩.文本病歷信息抽取方法研究[D].碩士學(xué)位論文.浙江大學(xué),2009.

    [4]劉力.科技文檔信息抽取與格式化技術(shù)研究[D].碩士學(xué)位論文,中南大學(xué),2010.

    猜你喜歡
    國標(biāo)段落正文
    更正聲明
    傳媒論壇(2022年9期)2022-02-17 19:47:54
    更正啟事
    【短文篇】
    心理小測(cè)試
    凝心聚力,共同迎接“新國標(biāo)”時(shí)代
    中國自行車(2018年3期)2018-04-18 07:16:33
    夏天,愛情的第四段落
    散文詩(2017年17期)2018-01-31 02:34:11
    車輛碰撞預(yù)警系統(tǒng)有望進(jìn)入國標(biāo)
    汽車與安全(2016年5期)2016-12-01 05:22:15
    弄清段落關(guān)系 按圖索驥讀文
    讀寫算(下)(2016年11期)2016-05-04 03:44:07
    中小學(xué)塑膠跑道“新國標(biāo)”立項(xiàng)公示
    山西老陳醋有了新國標(biāo) 10月1日實(shí)施
    江口县| 蓬莱市| 双城市| 靖边县| 南皮县| 珠海市| 辽阳市| 陆河县| 张北县| 广灵县| 德保县| 随州市| 德令哈市| 杨浦区| 九江县| 河池市| 芦溪县| 海淀区| 陆川县| 丰城市| 栖霞市| 柳江县| 饶河县| 即墨市| 思南县| 开原市| 卓尼县| 阜新| 四会市| 辽中县| 棋牌| 临武县| 德令哈市| 广元市| 康定县| 武清区| 金川县| 报价| 宜兴市| 板桥市| 大新县|