(中南大學(xué)地球科學(xué)與信息物理學(xué)院,湖南 長沙 410083)
隨著地質(zhì)調(diào)查工作的發(fā)展,海量的地質(zhì)文檔涌現(xiàn)。從不同角度對(duì)地質(zhì)文檔進(jìn)行處理可獲取不同價(jià)值的地質(zhì)數(shù)據(jù)和信息,以解決地質(zhì)工作中的認(rèn)知、決策等理論與實(shí)際問題(李朝奎等,2015;陳建平等,2017;Qiu et al.,2019;Zhuang et al.,2020;儲(chǔ)德平等,2021;劉文聰?shù)龋?021)。然而地質(zhì)文檔不僅包括文字資料,還包括表格、圖片、圖形等資料,存儲(chǔ)不同形式的地質(zhì)文檔需要不同的軟件,不僅耗時(shí)費(fèi)力,還影響地質(zhì)數(shù)據(jù)信息的挖掘,因此亟需解決以統(tǒng)一的數(shù)據(jù)格式存儲(chǔ)地質(zhì)文檔的問題(劉文毅等,2019)。
Markdown是用簡潔語法代替排版的一種輕量級(jí)標(biāo)記語言,具有文本格式體積小、通用性高、數(shù)據(jù)類型多樣的優(yōu)點(diǎn),能滿足地質(zhì)文檔存儲(chǔ)的需求。以Markdown格式存儲(chǔ)的文本化地質(zhì)資料通常有2種來源:一是直接遵循Markdown格式語法編寫而成,不經(jīng)文本轉(zhuǎn)換;二是由其他格式資料經(jīng)文本化處理后生成。受原始數(shù)據(jù)格式多樣、文本化技術(shù)限制、計(jì)算機(jī)資源有限等影響(Cheng et al.,2013),其他格式資料經(jīng)轉(zhuǎn)換處理后生成的資料出現(xiàn)數(shù)據(jù)格式多樣化、式樣信息多樣、句子不完整等問題,使得數(shù)據(jù)的讀取、管理和重用變得困難(Xiang et al.,2019)。
Markdown格式的地質(zhì)資料規(guī)范對(duì)地質(zhì)數(shù)據(jù)信息的快速、有效、準(zhǔn)確使用具有深刻影響(Munková et al.,2013;Uysal et al.,2014)。地質(zhì)資料信息化與地質(zhì)文本標(biāo)準(zhǔn)化尚處于起步階段,Markdown格式的地質(zhì)資料得到很好規(guī)范效果的研究鮮有報(bào)道。在其他領(lǐng)域,國內(nèi)外數(shù)據(jù)規(guī)范的理論研究和技術(shù)均發(fā)展較好,成果豐富。例如,基于特殊數(shù)據(jù)格式文本信息特點(diǎn)的文本規(guī)范化方法,可針對(duì)特定格式數(shù)據(jù),分析數(shù)據(jù)自身具有的文本特點(diǎn),抽取文本格式特征,根據(jù)規(guī)范目的對(duì)文本的內(nèi)容、格式等進(jìn)行規(guī)范化處理(Bloodgood et al.,2016;顧敏等,2017;張真等,2019;孟鑫淼,2020;沈亮等,2020);基于固定規(guī)范化模板的文本規(guī)范化方法,利用固定規(guī)范化模板,通過語義分析、信息抓取等技術(shù)將文本內(nèi)容整合到規(guī)范模板對(duì)應(yīng)位置,從而達(dá)到規(guī)范化處理的目的(張盈利等,2016);基于相似性數(shù)據(jù)檢測的規(guī)范化方法,針對(duì)特殊用途的文本,通過判斷文本內(nèi)容的相似性,消除重復(fù)記錄,從而生成無重復(fù)記錄的規(guī)范文本(劉一佳等,2013)。
針對(duì)Markdown格式地質(zhì)資料的文檔格式規(guī)范問題,以Markdown格式基本特征及該格式地質(zhì)資料的文檔格式特征為切入點(diǎn),對(duì)Markdown格式地質(zhì)資料的文檔格式問題進(jìn)行分析,以此定義文檔格式規(guī)范,將規(guī)則存儲(chǔ)于Excel表格中以便擴(kuò)充與完善,通過解析規(guī)則構(gòu)建文檔格式規(guī)范模型,對(duì)文檔格式規(guī)范結(jié)果進(jìn)行分析。
與傳統(tǒng)的文本格式資料相比,Markdown格式資料在文本內(nèi)容的基礎(chǔ)上附加了特定的格式標(biāo)記信息(即基本語法),以此體現(xiàn)文本各部分內(nèi)容的不同,同時(shí)也形成了特定的文檔格式信息,主要包括目錄、章節(jié)、表格和以超鏈接表示的圖片等。
Markdown格式地質(zhì)資料的原始格式具有多樣性,包括DOC、DOCX、PDF、HTML、XLS、XLSX等格式。Markdown格式地質(zhì)資料的多源性也決定了其文檔格式特征除包含自身的基本特征外,還包括封面、地質(zhì)剖面介紹等特征。
由于技術(shù)限制、語法標(biāo)準(zhǔn)及數(shù)據(jù)來源多樣、人為因素的影響,Markdown格式地質(zhì)資料存在文檔格式問題,主要表現(xiàn)在表格數(shù)據(jù)表現(xiàn)形式、文本內(nèi)容、圖名與超鏈接、標(biāo)記格式等方面。
表格數(shù)據(jù)在表體和表名的表現(xiàn)形式上具有多樣性。對(duì)比原始數(shù)據(jù)發(fā)現(xiàn):① 原始數(shù)據(jù)表名的加粗形式多樣(圖1),導(dǎo)致Markdown格式地質(zhì)資料的表名加粗形式多樣(圖2);② 由于原始數(shù)據(jù)的特殊性或轉(zhuǎn)換工具的原因,Markdown格式地質(zhì)資料在原有的Markdown標(biāo)準(zhǔn)表格形式基礎(chǔ)上,增加了3種表現(xiàn)形式,分別是單線表、多線表和HTML表格(圖2);③ 表名中序號(hào)之間的符號(hào)為單個(gè)“—”(圖1),經(jīng)文本化處理后的Markdown形式中,符號(hào)出現(xiàn)單個(gè)“—”和3個(gè)“-” 2種表現(xiàn)形式(圖2);④ 部分表名位于表體中(圖3)。
圖2 Markdown格式地質(zhì)資料Fig. 2 Geological texts in Markdown (a) Single-line table; (b) Multi-line table; (c) HTML table
圖3 Markdown格式地質(zhì)資料表名位于表體中Fig. 3 Geological textual data in Markdown format where the table name is contained in the table body(a) Primary data; (b) Data in Markdown format
文本內(nèi)容斷開包括受技術(shù)限制導(dǎo)致的文本內(nèi)容非自然斷開以及人為因素導(dǎo)致的文本內(nèi)容斷開。在Markdown格式地質(zhì)資料中,文本內(nèi)容斷開主要表現(xiàn)為相鄰斷開和非相鄰斷開2類。
2.2.1 相鄰斷開 指一個(gè)自然段落的內(nèi)容斷開為相鄰的兩行內(nèi)容且段落下一行不為單獨(dú)的換行符“ ”。在Markdown格式資料中,段落與段落之間以單獨(dú)的換行符“ ”為分割標(biāo)志,但部分資料出現(xiàn)了相鄰斷開(圖4)。
2.2.2 非相鄰斷開 指一個(gè)自然段落不是自然斷開而是由單獨(dú)的換行符“ ”隔開。相較于文本內(nèi)容的相鄰斷開,非相鄰斷開通常表現(xiàn)為以“,”“:” ““” “[”等符號(hào)結(jié)尾且下一行為單獨(dú)的換行符“ ”,同時(shí),對(duì)于部分符合上述符號(hào)結(jié)尾的文本而言,也不一定是非相鄰斷開,因此識(shí)別難度較大,在計(jì)算機(jī)上需要借助相關(guān)的段落特征標(biāo)志才能發(fā)現(xiàn)。
除上述普通的非相鄰斷開外,還有一類常見于地質(zhì)剖面介紹的特殊情況(圖5)。在地質(zhì)剖面介紹中,以“序號(hào)+具體剖面詳述”為一行,此類數(shù)據(jù)的斷開與原始數(shù)據(jù)的編輯標(biāo)準(zhǔn)密切相關(guān)。
在Markdown格式地質(zhì)資料中,圖名與超鏈接問題主要包括下列3方面。
2.3.1 圖名與超鏈接相鄰 圖片與圖名超鏈接的表現(xiàn)形式為超鏈接在前,圖名在后,且由單獨(dú)一行“ ”隔開,但Markdown格式地質(zhì)資料中出現(xiàn)圖名與超鏈接混在一起且相鄰的情況(圖6a)。
2.3.2 多超鏈接與多圖名 DOC、DOCX、PDF等格式文檔常出現(xiàn)多張圖片與圖名共處一行的情況(圖6b),經(jīng)文本化處理后獲得的Markdown格式數(shù)據(jù)也沿襲原始的數(shù)據(jù)展示形式,2個(gè)圖名與2個(gè)超鏈接共處一行,且為緊鄰行。
2.3.3 圖名符號(hào)多樣 以“圖 序號(hào) 名稱”形式呈現(xiàn)的圖名的序號(hào)為“數(shù)字-數(shù)字”形式,數(shù)字之間應(yīng)為英文狀態(tài)下的“-”,但在Markdown格式地質(zhì)資料中圖名內(nèi)符號(hào)連接呈多樣性(圖6c)。
2.4.1 錯(cuò)誤引用 指在原始數(shù)據(jù)并不存在引用的情況下,Markdown格式地質(zhì)資料中不存在引用的地方出現(xiàn)了引用符號(hào)“>”,產(chǎn)生大量失真文本,影響信息的連貫性與真實(shí)性(圖7a)。
2.4.2 多余空格 運(yùn)用計(jì)算機(jī)處理和獲取文檔信息內(nèi)容時(shí),文字的連貫性與獲取信息的正確性有著密切的聯(lián)系。部分地質(zhì)資料在人員信息部分,由2個(gè)字構(gòu)成的姓名中間添加了空格,影響信息的正確性(圖7b)。
圖4 Markdown格式地質(zhì)資料相鄰斷開Fig. 4 Adjacent disconnection in geological textual data in Markdown format (a) Primary data; (b) Data in Markdown format
圖5 Markdown格式地質(zhì)剖面介紹Fig. 5 Geological section introduction in Markdown format(a) Primary data; (b) Data in Markdown format
2.4.3 標(biāo)記缺失 在文本化地質(zhì)資料中,受原始編輯操作、編寫標(biāo)準(zhǔn)、轉(zhuǎn)換技術(shù)等影響,可能出現(xiàn)各級(jí)標(biāo)題標(biāo)記缺失、遺漏等情況,經(jīng)文本化處理后獲得的Markdown格式也并未對(duì)其進(jìn)行標(biāo)題標(biāo)記(圖7c)。這類標(biāo)題標(biāo)記缺失問題的出現(xiàn),影響了標(biāo)題和文檔結(jié)構(gòu)的規(guī)范程度。
規(guī)范文檔格式是解決Markdown格式地質(zhì)資料文檔格式問題的主要手段。在總結(jié)Markdown格式地質(zhì)資料文檔格式問題特征的基礎(chǔ)上,建立文檔格式規(guī)范特征描述機(jī)制,規(guī)則化文檔格式特征及問題,通過規(guī)則解析,構(gòu)建Markdown格式地質(zhì)資料文檔格式規(guī)范模型(圖8),規(guī)范Markdown格式地質(zhì)資料的文檔格式。
Markdown格式地質(zhì)資料文檔格式特征或問題包含諸多格式控制字符與關(guān)鍵詞,可采用正則表達(dá)式對(duì)其進(jìn)行有效提取,但單一正則表達(dá)式不能通用于所有段落,還需借助段落位置信息以及多個(gè)特征進(jìn)行判別。文檔格式規(guī)范特征不僅需考慮文檔格式問題特征和文檔格式規(guī)范特征,還需考慮規(guī)范的先后順序,例如相鄰斷開的規(guī)范應(yīng)在非相鄰斷開規(guī)范前,否則會(huì)導(dǎo)致文檔混亂?;谏鲜隹紤],定義了由正則表達(dá)式、關(guān)聯(lián)特征描述語言、優(yōu)先級(jí)和規(guī)范化方法構(gòu)成的文檔格式規(guī)范特征描述語言。
3.1.1 正則表達(dá)式 又稱規(guī)則表達(dá)式,通常用于檢索或替換符合某個(gè)模式(規(guī)則)的文本,主要應(yīng)用對(duì)象是文本,在各種文本編輯中廣泛使用,根據(jù)文檔格式問題特征,基于正則表達(dá)式原則,使用普通字符與元字符對(duì)文檔格式問題特征進(jìn)行描述。
3.1.2 優(yōu)先級(jí) 規(guī)定了文檔格式問題識(shí)別的先后順序,以避免在文檔格式規(guī)范過程中出現(xiàn)錯(cuò)誤內(nèi)容。定義優(yōu)先級(jí)描述語言有0~5級(jí),0級(jí)為最優(yōu)級(jí),其次為第1級(jí),以此類推。
3.1.3 關(guān)聯(lián)特征描述語言 正則表達(dá)式能描述文檔格式規(guī)范中關(guān)鍵字、控制字符的特征,1個(gè)正則表達(dá)式可描述1個(gè)文檔格式規(guī)范特征。然而,有的文本化地質(zhì)資料的文檔格式規(guī)范特征是由多個(gè)特征構(gòu)成,例如一級(jí)標(biāo)題的文檔格式規(guī)范特征包含標(biāo)題特征和標(biāo)記特征,而單一的正則表達(dá)式無法描述多個(gè)特征,因此定義了包括多條件描述語言和方法標(biāo)識(shí)符的關(guān)聯(lián)特征描述語言。
圖6 圖名與超鏈接問題Fig. 6 Figure name and hyperlink problems (a) Figure names adjacent to hyperlinks (primary data in the figure above and data in Markdown format in the figure below); (b) Multiple hyperlinks and multiple figure names (primary data in the figure above and data in Markdown format in the figure below); (c) Figure names in various connectives (primary data in the figure above and data in Markdown format in the figure below)
圖7 標(biāo)記格式問題Fig. 7 Markup format problems(a) Misquotation (primary data in the figure above and data in Markdown format in the figure below); (b) Extra spaces; (c) Markup missing (primary data in the figure above and data in Markdown format in the figure below)
圖8 文檔格式規(guī)范模型Fig. 8 Text format specification model
多條件描述語言可描述多個(gè)特征構(gòu)成的文檔格式規(guī)范特征,借助連接詞將多個(gè)特征關(guān)聯(lián)起來,主要包括“和&&”“或||”以及“非NOT”。方法標(biāo)識(shí)符的形式為“/%name%/”,其中的name為方法包括:① until方法,查找符合條件的多行文本,方法前后跟隨開始特征與結(jié)束特征,具體表述為“開始特征 /%until%/結(jié)束特征”;② nextline方法,其后跟隨下一行的特征;nexttwoline方法(即下兩行的方法),其后跟隨下兩行的特征;③ LEN方法,計(jì)算匹配結(jié)果長度的特殊方法,格式為“LEN(正則名)<|>number”。
3.1.4 規(guī)范化方法 基于文檔格式問題特征構(gòu)建規(guī)范化方法,以規(guī)范化方法描述語言對(duì)方法進(jìn)行描述(表1),通過該語言調(diào)用規(guī)范化處理方法,對(duì)存在文檔格式問題的段落進(jìn)行規(guī)范。
表1 規(guī)范化處理方法
3.2.1 規(guī)則存儲(chǔ) 遵循定義的特征描述語言對(duì)文檔格式及問題特征進(jìn)行描述,即形成文檔格式規(guī)范規(guī)則。由于規(guī)則不可能覆蓋所有文檔,故采用Excel存儲(chǔ)文檔格式規(guī)范化規(guī)則(表2),便于在不同文檔應(yīng)用中對(duì)規(guī)則進(jìn)行擴(kuò)充,提高通用性和可遷移性。
3.2.2 規(guī)則解析 將規(guī)則解析為計(jì)算機(jī)能夠直接使用的語言,是文本化地質(zhì)資料文檔格式規(guī)范過程中的重要環(huán)節(jié)。
(1) 規(guī)則遍歷。 獲取文檔格式規(guī)范規(guī)則表Rlist,并根據(jù)優(yōu)先級(jí)級(jí)別按升序的形式獲取優(yōu)先級(jí)列表plist,按優(yōu)先級(jí)順序?qū)σ?guī)則進(jìn)行逐級(jí)遍歷處理。每次遍歷的當(dāng)前優(yōu)先級(jí)為CurPri,設(shè)每次遍歷的當(dāng)前規(guī)則為rule。逐級(jí)遍歷時(shí),若當(dāng)前規(guī)則rule的優(yōu)先級(jí)與當(dāng)前優(yōu)先級(jí)CurPri相等,則直接對(duì)當(dāng)前規(guī)則rule進(jìn)行處理;遍歷一遍所有優(yōu)先級(jí)等于當(dāng)前優(yōu)先級(jí)CurPri的規(guī)則,即遍歷完當(dāng)前優(yōu)先級(jí)CurPri所含的規(guī)則;然后進(jìn)入下一優(yōu)先級(jí)的遍歷,直至遍歷完所有優(yōu)先級(jí)包含的規(guī)則。
表2 文本化地質(zhì)資料文檔格式規(guī)范規(guī)則存儲(chǔ)示意
(2) 多條件規(guī)則處理。指對(duì)包含多條件描述語言(“和&&”“或||”)的規(guī)則進(jìn)行處理。以多條件描述語言為特征,將規(guī)則分割為多個(gè)子規(guī)則,按順序遍歷子規(guī)則,對(duì)規(guī)則逐一進(jìn)行遍歷,直至子規(guī)則遍歷完畢。具體實(shí)現(xiàn)過程見下列算法1:多條件規(guī)則解析算法。
1 獲取多條件規(guī)則R
2 多條件規(guī)則處理
判斷多條件規(guī)則R包含的多條件控制字符是“和&&”、“或||”
以控制字符“和&&”、“或||” 為關(guān)鍵字符,分割多條件規(guī)則R為規(guī)則列表集Rlist
按順序遍歷規(guī)則列表集Rlist,依次讀取并處理各子規(guī)則r,直至結(jié)束
(3) 方法處理。指對(duì)含方法描述語言(如“/%.*%/”)的規(guī)則進(jìn)行處理。筆者定義的方法包含3類用途:多行內(nèi)容獲取、后續(xù)行內(nèi)容獲取和文本長度判斷。以方法描述語言“/%.*%/”為特征獲取具體方法,根據(jù)方法對(duì)規(guī)則進(jìn)行處理。方法包含直到方法(until)、下一行方法(nextline)、下兩行方法(nexttwoline)和LEN方法。
① 直到方法(until)??色@取多行文本以進(jìn)行文檔格式規(guī)范。文本化地質(zhì)資料中的表格、地質(zhì)剖面介紹等由多行文本構(gòu)成,其規(guī)范規(guī)則通常包含直到方法的描述語言(until),需解析后獲取多行文本并依據(jù)規(guī)范方法對(duì)文檔格式進(jìn)行規(guī)范處理。見算法2:直到方法算法。
1 獲取直到方法規(guī)則R,獲取當(dāng)前文本C
2 直到方法規(guī)則處理
以“/%until%/”為關(guān)鍵字符, 獲取關(guān)鍵字符“/%until%/”前后規(guī)則為S_R、E_R
IF當(dāng)前文本C符合規(guī)則S_R
獲取當(dāng)前文本C的位置索引號(hào)為Cinx
從索引號(hào)Cinx加1位置開始按順序遍歷整個(gè)文本資料,查詢符合規(guī)則E_R的行文本,記錄該行文本索引號(hào)為Einx,結(jié)束遍歷
② 后續(xù)行方法(nextline與nexttwoline)。部分文本格式的規(guī)范與其后續(xù)文本的特征相關(guān),依據(jù)定義解析定義的后續(xù)行是規(guī)則解析中的一環(huán)。定義的后續(xù)行方法包括下一行方法(nextline)和下兩行方法(nexttwoline)。處理過程見算法3:后續(xù)行方法處理算法。
1 獲取后續(xù)行方法規(guī)則R,獲取當(dāng)前文本C的位置索引號(hào)Cinx
2 后續(xù)行方法處理
判斷后續(xù)行方法規(guī)則R是下一行方法還是下兩行方法
以“/% nextline%/”或“/% nexttwoline %/” 為關(guān)鍵字符,獲取其后規(guī)則為R
判斷行文本是否符合規(guī)則R(若為/% nextline%/為Cinx加1位置的行文本,否則為Cinx加2位置的行文本)
③ LEN方法。描述定義為用于判斷實(shí)際規(guī)則匹配數(shù)是否符合預(yù)先規(guī)定的規(guī)則匹配數(shù)。具體過程見算法4:LEN方法處理算法。
1 獲取LEN方法規(guī)則R,獲取當(dāng)前文本C
2 LEN方法處理
以關(guān)鍵字符“LEN/((.*)/)”獲取子規(guī)則r
查詢文本C符合子規(guī)則r的個(gè)數(shù)n
判斷LEN方法規(guī)則R是包含的是“>”或“<”,并獲取“>”或“<”后跟的個(gè)數(shù)N
判斷符合子規(guī)則r的個(gè)數(shù)n是否“>”或“<”個(gè)數(shù)N
(4) 文檔格式規(guī)范。文檔格式規(guī)范是文本化地質(zhì)資料文檔格式規(guī)范的最后環(huán)節(jié)。文檔格式是否需要規(guī)范取決于文檔格式是否存在問題,需確定文檔格式是否符合文檔格式規(guī)范規(guī)則。在經(jīng)過多條件處理和方法處理后可獲取需要規(guī)范的文本,再調(diào)用該規(guī)則對(duì)應(yīng)的規(guī)范方法對(duì)文本進(jìn)行規(guī)范,即可完成文檔格式規(guī)范。見算法5:文檔格式規(guī)范算法。
1 獲取需要規(guī)范的文本T,解析規(guī)則R對(duì)應(yīng)的規(guī)范化方法Fun
2 規(guī)范文檔格式
調(diào)用規(guī)范方法Fun,對(duì)文本T進(jìn)行規(guī)范化處理,獲取規(guī)范文本
根據(jù)對(duì)文本化地質(zhì)資料文檔格式特征及文檔格式問題特征的歸納分析,確定了文檔格式規(guī)范方法,受篇幅限制,僅對(duì)單線表(圖4)的規(guī)范方法進(jìn)行詳細(xì)介紹。首先根據(jù)文檔格式規(guī)范識(shí)別規(guī)則獲取完整的單線表,然后對(duì)其進(jìn)行規(guī)范。單線表的規(guī)范方法表示為“sintomd”。規(guī)范過程見算法6:單線表的規(guī)范方法算法。
1 獲取需要規(guī)范文檔格式的單線表List
根據(jù)優(yōu)先級(jí)和文檔格式特征規(guī)則“^(*-+ (?![du4E00-u9FA5])){2,}/%until%/^(*-+ (?![du4E00-u9FA5])){2,}”獲取單線表內(nèi)容,解析規(guī)范化方法“sintomd”
2 單線表規(guī)范
設(shè)空列表resultList存儲(chǔ)最終結(jié)果
去除單線表List每個(gè)元素結(jié)尾的換行符“ ”
按順序遍歷單線表List
當(dāng)前遍歷數(shù)據(jù)為dataItem
IF 數(shù)據(jù)dataItem符合單線表開始特征
以英文空格為標(biāo)志,分割數(shù)據(jù)dataItem結(jié)果存儲(chǔ)于表頭列表handList
ELSE
IF 數(shù)據(jù)dataItem符合表名特征
賦予其表名標(biāo)記并存儲(chǔ)于resultList
ELSE
在dataItem數(shù)據(jù)中文字符后添加英文占位符“-”,根據(jù)表頭列表handList各元素長度,獲取每格數(shù)據(jù)開始與結(jié)束節(jié)點(diǎn),以此為據(jù)分割dataItem,轉(zhuǎn)換dataItem為字符串以“|”為標(biāo)記隔開相鄰的兩個(gè)列表元素,并存儲(chǔ)于resultList中
Markdown格式地質(zhì)資料的表格形式包括單線表、多線表、HTML表、Markdown格式表。其中Markdown格式表格形式的可讀性和標(biāo)準(zhǔn)型較高。選用Markdown格式表格作為Markdown格式地質(zhì)資料表格的規(guī)范形式,對(duì)單線表、多線表和HTML表格進(jìn)行文檔格式規(guī)范(圖9—圖11),同時(shí)對(duì)Markdown格式表格中存在的不規(guī)范格式進(jìn)行規(guī)范。
圖9 單線表格規(guī)范Fig. 9 Single-line table format specification(a) Primary data; (b) Markdown format; (c) Specified in Markdown format
圖10 多線表格規(guī)范Fig. 10 Multiple-line table format specification(a) Primary data; (b) Markdown format; (c) Specified in Markdown format
為便于識(shí)別,采用的所有標(biāo)題皆直接在標(biāo)題前加上與標(biāo)題等級(jí)數(shù)相匹配的“#”進(jìn)行標(biāo)記,對(duì)Markdown格式地質(zhì)資料的標(biāo)題進(jìn)行規(guī)范(圖12)。
對(duì)Markdown格式地質(zhì)資料標(biāo)題標(biāo)記缺失內(nèi)容的規(guī)范化處理(圖13)顯示,在原始數(shù)據(jù)中(圖13a)并未對(duì)具有章節(jié)標(biāo)題特征的“(3)年度資料整理”和“(4)野外驗(yàn)收前資料整理及野外驗(yàn)收”進(jìn)行特殊標(biāo)記,在文本化處理后獲得的Markdown格式地質(zhì)資料(圖13b)也未遵循Markdown格式語法對(duì)標(biāo)題進(jìn)行標(biāo)記,故需應(yīng)用文檔格式規(guī)范方法對(duì)其進(jìn)行規(guī)范標(biāo)記(圖13c)。
相鄰行斷開問題的規(guī)范化(圖14)結(jié)果顯示,Word中地質(zhì)資料的一個(gè)完整段落(圖14a)經(jīng)文本化處理后獲得了Markdown格式地質(zhì)資料(圖14b),但出現(xiàn)了斷開現(xiàn)象,為還原原始信息,調(diào)用文檔格式規(guī)范算法,獲得了完整的Markdown格式段落(圖14c)。
非相鄰行斷開問題的規(guī)范化(圖15)顯示,因地質(zhì)剖面介紹的一條記錄(圖15a)過長,超過了1行所能容納的文字?jǐn)?shù),故而以換行符將其分3行記錄,經(jīng)文本化處理獲得Markdown格式的地質(zhì)資料(圖15b),但不能展現(xiàn)完整的地質(zhì)剖面介紹信息,因此對(duì)其進(jìn)行規(guī)范(圖15c)。
圖11 HTML表格規(guī)范Fig. 11 HTML table format specification(a) Primary data; (b) Markdown format; (c) Specified in Markdown format
圖12 Markdown格式地質(zhì)資料標(biāo)題標(biāo)記規(guī)范Fig. 12 Specification for title markup of geological data in Markdown format(a)Before specification; (b) After specification
圖13 標(biāo)題缺失規(guī)范Fig. 13 Missing title specification(a) Primary data; (b) Markdown format; (c) Specified in Markdown format
最典型且最易解決的錯(cuò)誤是圖名與超鏈接部分的聯(lián)合,文本化地質(zhì)資料文檔格式規(guī)范模型能較好地規(guī)范該類錯(cuò)誤,同時(shí)也能很好地規(guī)范多圖名與多超鏈接位置混亂的情況。規(guī)范結(jié)果見圖16。
(1) 以文本化地質(zhì)資料為研究對(duì)象,分析Markdown格式地質(zhì)資料的文檔格式特征,歸納總結(jié)文檔格式特征和問題。
(2) 定義由描述語言、規(guī)則存儲(chǔ)與解析共同構(gòu)成的文檔格式規(guī)范機(jī)制,構(gòu)建文檔格式規(guī)范模型,生成Markdown格式地質(zhì)資料的文檔格式規(guī)范方法。
(3) 基于文檔格式規(guī)范方法對(duì)Markdown格式地質(zhì)資料進(jìn)行文檔規(guī)范,能夠解決Markdown格式地質(zhì)資料格式不規(guī)范的問題。
圖14 文本內(nèi)容斷開規(guī)范Fig. 14 Text content disconnection specification(a) Primary data; (b) Markdown format; (c) Specification in Markdown format
圖15 非相鄰行斷開規(guī)范Fig. 15 Non-adjacent line disconnection specification (a) Primary data; (b) Markdown format; (c) Specification in Markdown format
圖16 多圖名與超鏈接規(guī)范Fig. 16 Specification for multigraph names and hyperlinks(a) Primary data; (b) Markdown format; (c) Specification in Markdown format