劉靜
摘 要:標(biāo)準(zhǔn)是為了規(guī)范行業(yè)秩序,經(jīng)協(xié)商一致制定并由公認(rèn)機(jī)構(gòu)批準(zhǔn)的一種文件。由于標(biāo)準(zhǔn)種類繁多,且以電子文檔形式存在,因此標(biāo)準(zhǔn)編制單位在編制新標(biāo)準(zhǔn)時(shí)需要手工查找大量相關(guān)內(nèi)容,費(fèi)時(shí)費(fèi)力。為了提高標(biāo)準(zhǔn)編制效率,本文通過研究國標(biāo)規(guī)定的標(biāo)準(zhǔn)編寫的結(jié)構(gòu)和規(guī)范,提出一種從半結(jié)構(gòu)化標(biāo)準(zhǔn)中抽取信息的方法。
關(guān)鍵詞:標(biāo)準(zhǔn);信息抽取
1 引言
在信息化建設(shè)中,標(biāo)準(zhǔn)的制定和執(zhí)行起到舉足輕重的作用。目前我國已經(jīng)發(fā)布了多項(xiàng)標(biāo)準(zhǔn),未來計(jì)劃和新增的標(biāo)準(zhǔn)也會(huì)越來越多。信息化標(biāo)準(zhǔn)具有較高的復(fù)雜性和相關(guān)性,標(biāo)準(zhǔn)編寫人員需要全面了解現(xiàn)存標(biāo)準(zhǔn)的相關(guān)細(xì)節(jié)才能確保新編寫的標(biāo)準(zhǔn)與現(xiàn)存標(biāo)準(zhǔn)一致。然而現(xiàn)存標(biāo)準(zhǔn)內(nèi)容繁多,且大都以文檔形式存在,標(biāo)準(zhǔn)編寫人員手工查閱新舊標(biāo)準(zhǔn)是否一致是一個(gè)費(fèi)時(shí)費(fèi)力的工作。為了解決這個(gè)問題,本文研究了從一系列多樣化標(biāo)準(zhǔn)中粗略抽取信息的方法,并將抽取結(jié)果存于數(shù)據(jù)庫中,從而為標(biāo)準(zhǔn)編寫人員提供相關(guān)內(nèi)容的查詢和檢索幫助,以提高標(biāo)準(zhǔn)的編制效率。
2 標(biāo)準(zhǔn)抽取的總體方法
“標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫”(以下簡稱“國標(biāo)”)是中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局和中國國家標(biāo)準(zhǔn)化管理委員會(huì)發(fā)布的國家標(biāo)準(zhǔn)。國標(biāo)規(guī)定了全國各行各業(yè)的標(biāo)準(zhǔn)應(yīng)該具有的結(jié)構(gòu)以及編寫規(guī)范,是編寫新標(biāo)準(zhǔn)時(shí)應(yīng)遵守的基礎(chǔ)標(biāo)準(zhǔn)。本文研究的標(biāo)準(zhǔn)符合國標(biāo)的規(guī)定。
國標(biāo)規(guī)定了標(biāo)準(zhǔn)的結(jié)構(gòu):標(biāo)準(zhǔn)必須包含封面、前言和正文,可以包含引言、附錄、參考文獻(xiàn)和索引,附錄可以有多個(gè)。
國標(biāo)還規(guī)定了標(biāo)準(zhǔn)各部分的編排:標(biāo)準(zhǔn)各部分都要從新的一頁起排,若有多個(gè)附錄,每個(gè)附錄都應(yīng)另起一頁。
國標(biāo)還規(guī)定了標(biāo)準(zhǔn)各部分的格式:封面是標(biāo)準(zhǔn)的第一頁,封面上各項(xiàng)信息都有確定位置;正文部分首頁首行是標(biāo)準(zhǔn)名稱;每個(gè)附錄部分的首頁首行是該附錄的編號(hào),例如:“附錄A”、“附錄B”等;其余部分的首頁首行與這個(gè)部分的名稱相同,例如目次部分首頁首行是“目次”二字,前言部分首頁首行是“前言”二字。
由于國標(biāo)規(guī)定的標(biāo)準(zhǔn)各部分各有特點(diǎn),且界限清晰,因此本文抽取時(shí)先對(duì)標(biāo)準(zhǔn)切分得到各部分,再對(duì)各部分分別抽取。
3 標(biāo)準(zhǔn)分塊
標(biāo)準(zhǔn)分塊時(shí)需要知道各部分的開始和結(jié)束位置。由于國標(biāo)規(guī)定標(biāo)準(zhǔn)的各部分都要從新一頁起排,因此只要知道各部分的開始和結(jié)束頁碼就能確定各部分的范圍。
4 標(biāo)準(zhǔn)抽取
4.1 各部分抽取介紹
經(jīng)過分塊后就可以對(duì)各部分內(nèi)容分別抽取。對(duì)于封面,國標(biāo)規(guī)定了標(biāo)準(zhǔn)的封面必須包含的內(nèi)容,以及它們的相對(duì)位置,因此利用Word的定位功能和字符串匹配方法就可以得到。前言常常說明了標(biāo)準(zhǔn)的起草單位和起草人,并且常用“本標(biāo)準(zhǔn)起草單位:……”,“本標(biāo)準(zhǔn)主要起草人:……”等句型描述,因此通過模式匹配方法構(gòu)造模式就可以得到前言包含的信息。引言、參考文獻(xiàn)和索引是可選要素,本文將這三部分內(nèi)容直接存儲(chǔ)。正文和附錄是一篇標(biāo)準(zhǔn)的核心部分,也是標(biāo)準(zhǔn)抽取時(shí)重點(diǎn)關(guān)注的部分,本文以正文為例,說明這部分內(nèi)容如何抽取。
4.2 正文抽取
國標(biāo)規(guī)定標(biāo)準(zhǔn)的正文具有章、條、段、列項(xiàng)這樣的層次劃分。章是正文內(nèi)容劃分的基本單元,從數(shù)字1開始編號(hào)。條是章的細(xì)分,用點(diǎn)分阿拉伯?dāng)?shù)字編號(hào),第一層次的條(例如4.1)可分為第二層次的條(例如4.1.1、4.1.2等)。段是章或條的細(xì)分,不編號(hào)。列項(xiàng)由一段后跟冒號(hào)的文字引出,且隸屬于該段文字,列項(xiàng)的各項(xiàng)之前有專門的列項(xiàng)符號(hào)(“破折號(hào)”或“圓點(diǎn)”)。由國標(biāo)的規(guī)定可見正文部分具有樹狀結(jié)構(gòu),如圖1所示。
正文部分具有樹狀層次結(jié)構(gòu),且各層次區(qū)別明顯,因此本文處理正文時(shí)構(gòu)造了一個(gè)樹來存儲(chǔ)相應(yīng)內(nèi)容。本文首先用標(biāo)準(zhǔn)名稱作為根節(jié)點(diǎn),然后遍歷處理正文的每一個(gè)段落。若當(dāng)前段落的開始部分符合正則表達(dá)式“ ”,則表明該部分是章編號(hào),應(yīng)直接作為根的子節(jié)點(diǎn)添加;若當(dāng)前段落的開始部分符合正則表達(dá)式“ ”,則表明這部分是條編號(hào),就要繼續(xù)分析:例如當(dāng)前讀到的是“3.2”,表明當(dāng)前內(nèi)容直接隸屬于章節(jié)3,且是章節(jié)3的第二個(gè)子節(jié)點(diǎn),因此從這個(gè)樹中找到章節(jié)3對(duì)應(yīng)的節(jié)點(diǎn),然后將當(dāng)前內(nèi)容作為子節(jié)點(diǎn)添加;若當(dāng)前段落的開始部分是列項(xiàng)符號(hào),則表明當(dāng)前內(nèi)容是列項(xiàng),隸屬于上一個(gè)讀到的段落中;若當(dāng)前段落的開始部分不符合上面三種情況,則表明該段落是普通段,隸屬于后序遍歷當(dāng)前樹結(jié)構(gòu)時(shí)的最后一個(gè)節(jié)點(diǎn)。正文部分的各個(gè)段落遍歷完以后,與之對(duì)應(yīng)的樹就形成了。從這個(gè)樹的根節(jié)點(diǎn)出發(fā),可以到達(dá)葉子結(jié)點(diǎn)代表的段和列項(xiàng),這樣,即使在正文部分沒有給段和列項(xiàng)明確編號(hào)的情況下,通過樹狀結(jié)構(gòu)也可以知道它們之間的隸屬關(guān)系,這樣以段為單位存儲(chǔ)正文部分的內(nèi)容時(shí)就融入了重要的結(jié)構(gòu)信息。
5 實(shí)現(xiàn)
本文描述的標(biāo)準(zhǔn)內(nèi)容抽取方法在Java環(huán)境下開發(fā),用到了Java開源項(xiàng)目Jacob,標(biāo)準(zhǔn)抽取結(jié)果存儲(chǔ)在SQL Server2008中。本文對(duì)30個(gè)Word形式存在的標(biāo)準(zhǔn)進(jìn)行抽取,實(shí)驗(yàn)結(jié)果表明凡是按照國標(biāo)要求編寫的標(biāo)準(zhǔn)都能夠被正確抽取。
6 總結(jié)
本文先通過對(duì)國標(biāo)規(guī)定的標(biāo)準(zhǔn)結(jié)構(gòu)進(jìn)行分析,提出了標(biāo)準(zhǔn)抽取的總體方法,即先進(jìn)行切分再分別抽取。接著,對(duì)標(biāo)準(zhǔn)切分過程進(jìn)行了詳細(xì)說明,通過切分得到標(biāo)準(zhǔn)的各個(gè)部分。然后,對(duì)標(biāo)準(zhǔn)各部分的抽取方法進(jìn)行了描述,并重點(diǎn)闡述了正文部分的抽取。最后,在Java環(huán)境下實(shí)現(xiàn)了本文提出的方法。
[參考文獻(xiàn)]
[1]Krishnaprasad Thirunarayan,Aaron Berkovich,and Dan Z.Sokol.An information extraction approach to reorganizing and summarizing specifications,Information and Software Technology[J].2005(47):218-232.
[2]GB/T1.1-2009標(biāo)準(zhǔn)化工作導(dǎo)則,第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫[S].
[3]李瑩.文本病歷信息抽取方法研究[D].碩士學(xué)位論文.浙江大學(xué),2009.
[4]劉力.科技文檔信息抽取與格式化技術(shù)研究[D].碩士學(xué)位論文,中南大學(xué),2010.