王 宏, 周育忠, 王 昕, 甘克勤, 周 潔(南方電網(wǎng)科學(xué)研究院, 廣州 50080)(中國標(biāo)準(zhǔn)化研究院, 北京 009)
一種適用于電力標(biāo)準(zhǔn)文獻(xiàn)的內(nèi)容揭示方法①
王 宏1, 周育忠1, 王 昕1, 甘克勤2, 周 潔21(南方電網(wǎng)科學(xué)研究院, 廣州 510080)2(中國標(biāo)準(zhǔn)化研究院, 北京 100191)
傳統(tǒng)的電力標(biāo)準(zhǔn)文獻(xiàn)信息揭示方法主要分為外部描述的信息揭示和內(nèi)容特征的信息揭示, 但都難以對電力標(biāo)準(zhǔn)文獻(xiàn)的具體內(nèi)容進(jìn)行全面描述, 更難以適應(yīng)以知識單元為基礎(chǔ)的內(nèi)容指標(biāo)比對需求. 為破解上述難題,本文將語義網(wǎng)理論、傳統(tǒng)信息管理技術(shù)和標(biāo)準(zhǔn)化理論進(jìn)行集成, 提出了電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示, 設(shè)計(jì)了電力行業(yè)標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示系統(tǒng), 并在電力行業(yè)進(jìn)行了實(shí)踐與推廣應(yīng)用, 取得了比傳統(tǒng)檢索更優(yōu)的效果.
電力行業(yè); 標(biāo)準(zhǔn)文獻(xiàn); 內(nèi)容揭示; 揭示系統(tǒng)
電力標(biāo)準(zhǔn)資源作為一種產(chǎn)品, 其價值的實(shí)現(xiàn)依賴于對其利用的程度, 利用越充分, 其價值實(shí)現(xiàn)就越大.本文研究并實(shí)踐一種針對電力行業(yè)標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示的方法, 目的是實(shí)現(xiàn)電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容與用戶需求最大化的匹配, 這主要取決于兩個方面: ①資源中蘊(yùn)含的內(nèi)容能否被準(zhǔn)確的揭示; ②這種揭示與用戶需求的描述是否一致[1].
電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容中的知識是內(nèi)容揭示的對象,鑒于知識結(jié)構(gòu)和演化過程的復(fù)雜性, 內(nèi)容揭示的有效方法一直是本體學(xué)、目錄學(xué)和現(xiàn)代知識信息處理理論研究的中心, 是學(xué)術(shù)界和電網(wǎng)企業(yè)標(biāo)準(zhǔn)應(yīng)用單位長期探討的課題[2]. 本文綜合應(yīng)用信息管理學(xué)、語義互聯(lián)網(wǎng)理論和信息處理技術(shù), 并結(jié)合了標(biāo)準(zhǔn)化原理、標(biāo)準(zhǔn)化體系與體例結(jié)構(gòu)分析, 在電力行業(yè)標(biāo)準(zhǔn)領(lǐng)域構(gòu)建了以體例元數(shù)據(jù)為基礎(chǔ)的標(biāo)準(zhǔn)內(nèi)容揭示體系, 研發(fā)了以本體類與屬性描述為檢索手段的標(biāo)準(zhǔn)內(nèi)容揭示檢索系統(tǒng).
1.1 傳統(tǒng)電力標(biāo)準(zhǔn)文獻(xiàn)信息揭示能力的不足
傳統(tǒng)的電力標(biāo)準(zhǔn)文獻(xiàn)信息揭示方法可歸納為外部描述的信息揭示和內(nèi)容特征的信息揭示兩類. “外部描述的信息揭示”是通過標(biāo)準(zhǔn)文獻(xiàn)外部特征的揭示實(shí)現(xiàn)文獻(xiàn)外部信息有序化并存儲于關(guān)系型數(shù)據(jù)庫中(如Oracle數(shù)據(jù)庫), 以達(dá)到控制文獻(xiàn)的目的, 以電力行業(yè)標(biāo)準(zhǔn)文獻(xiàn)為例, 其外部描述內(nèi)容包括: 標(biāo)準(zhǔn)號、標(biāo)準(zhǔn)題名、分類號、主題詞等; “內(nèi)部特征的信息揭示”主要通過文獻(xiàn)內(nèi)容特征實(shí)現(xiàn)文獻(xiàn)內(nèi)部信息的有序化, 并存儲于Key-Value數(shù)據(jù)庫中(如Redis數(shù)據(jù)庫), 以達(dá)到控制文獻(xiàn)內(nèi)容的目的, 以電力行業(yè)標(biāo)準(zhǔn)文獻(xiàn)為例, 其內(nèi)部描述內(nèi)容包括: 篇章段落信息(包括前言、適用范圍、附錄等)、表格信息、圖片信息、指標(biāo)信息等.
隨著信息化技術(shù)的發(fā)展, 電網(wǎng)企業(yè)對標(biāo)準(zhǔn)文獻(xiàn)資源的揭示質(zhì)量提出越來越高的要求, 標(biāo)準(zhǔn)文獻(xiàn)資源內(nèi)容揭示作為核心環(huán)節(jié), 其傳統(tǒng)的揭示方式正受到來自各方面的挑戰(zhàn), 傳統(tǒng)的分類、主題詞、文摘對內(nèi)容知識揭示的局限性日益凸顯, 主要體現(xiàn)在:
① 難以對電力標(biāo)準(zhǔn)文獻(xiàn)的內(nèi)容進(jìn)行全面描述.作為一種技術(shù)類規(guī)范性文件, 電力標(biāo)準(zhǔn)文獻(xiàn)一般從多個角度對標(biāo)準(zhǔn)化對象進(jìn)行描述, 如設(shè)備產(chǎn)品類標(biāo)準(zhǔn)一般會規(guī)定該產(chǎn)品的原產(chǎn)地范圍、術(shù)語、定義、原材料、產(chǎn)品分類、等級、規(guī)格等要求. 而傳統(tǒng)的分類、主題詞、關(guān)鍵詞等元數(shù)據(jù)描述, 一方面限于標(biāo)引詞有限不能完全覆蓋資源的內(nèi)容; 另一方面, 限于標(biāo)引者或加工人員精力和能力所限、認(rèn)知和理解能力不同, 難以有效、準(zhǔn)確、全面的揭示一些隱含內(nèi)容, 難以滿足電網(wǎng)用戶需求.
② 難以適應(yīng)以知識單元為基礎(chǔ)的內(nèi)容指標(biāo)比對.在實(shí)際電力生產(chǎn)活動中, 電力標(biāo)準(zhǔn)的工具書屬性, 使得電力標(biāo)準(zhǔn)內(nèi)容指標(biāo)比對成為電網(wǎng)企業(yè)標(biāo)準(zhǔn)文獻(xiàn)的重要應(yīng)用場景. 而標(biāo)準(zhǔn)內(nèi)容與指標(biāo)比對的基礎(chǔ)就是基于本體理論和體例歸納對標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容的有效組織; 傳統(tǒng)的揭示組織方式, 包括“外部描述信息揭示”和“內(nèi)部特征信息揭示”都難以支撐電力標(biāo)準(zhǔn)內(nèi)容與指標(biāo)的比對.
③ 難以支撐開展知識演化與知識推理的研究與實(shí)踐. 電力標(biāo)準(zhǔn)文獻(xiàn)中的指標(biāo)是電力行業(yè)應(yīng)用的重要基礎(chǔ)數(shù)據(jù)之一, 針對興起于工業(yè)化大生產(chǎn)的標(biāo)準(zhǔn)開展知識演化與知識推理的研究, 必能為即將到來的工業(yè)4.0提供有效支撐. 而傳統(tǒng)的揭示方式顯然難以支撐這種研究的開展.
1.2 電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示的目標(biāo)
針對傳統(tǒng)電力標(biāo)準(zhǔn)文獻(xiàn)信息揭示能力的不足, 電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容深度揭示旨在實(shí)現(xiàn)以下目標(biāo): ①全面描述電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容, 實(shí)現(xiàn)圍繞設(shè)備產(chǎn)品或標(biāo)準(zhǔn)化對象的技術(shù)指標(biāo)的精確查詢、體系查詢. ②支撐電力標(biāo)準(zhǔn)指標(biāo)多維度比對分析業(yè)務(wù), 實(shí)現(xiàn)針對產(chǎn)品或標(biāo)準(zhǔn)化對象的標(biāo)準(zhǔn)體系比對、體例結(jié)構(gòu)比對、技術(shù)指標(biāo)比對等. ③支撐開展電力標(biāo)準(zhǔn)知識演化與知識推理研究,探索有效的電力行業(yè)應(yīng)用.
“電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示”屬于集成創(chuàng)新的技術(shù),將語義網(wǎng)理論、傳統(tǒng)信息管理技術(shù)和標(biāo)準(zhǔn)化理論進(jìn)行集成, 形成可指導(dǎo)電力標(biāo)準(zhǔn)實(shí)踐的“標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示”理論方法與實(shí)用.
2.1 語義互聯(lián)網(wǎng)理論與實(shí)用
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展, 語義互聯(lián)網(wǎng)(semantic web)正逐漸將Internet變成一個巨大的全球化知識庫.語義環(huán)境下, 信息資源的內(nèi)容描述包括兩點(diǎn): ①對本體概念的規(guī)范化處理; ②顯示概念本體之間的關(guān)系[3].主要技術(shù)方法包括: 可擴(kuò)展標(biāo)記語言(XML)、資源描述模型(RDF/RDF Schema)和知識本體(Ontology)等, 這些適合語義web技術(shù)的知識描述和揭示方法提供了信息內(nèi)容表示的標(biāo)準(zhǔn)化框架[4].
資源描述框架RDF是Resource Description Framework的縮寫, RDF來將元數(shù)據(jù)描述成為數(shù)據(jù)模型: 一個RDF文件包含多個資源描述, 而一個資源描述是由多個語句構(gòu)成, 一個語句是由資源、屬性類型、屬性值構(gòu)成的三元組, 分別對應(yīng)自然語言中的主語、謂語和賓語. 電力行業(yè)標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示方法借鑒RDF三元組的資源描述方法, 建立“產(chǎn)品-體例-揭示內(nèi)容”的資源描述框架, 其中, 產(chǎn)品主要?dú)w納本標(biāo)準(zhǔn)描述的標(biāo)準(zhǔn)化對象, 體例則歸納同類標(biāo)準(zhǔn)(產(chǎn)品、方法、安全、環(huán)保、衛(wèi)生、基礎(chǔ)、管理等)的體例結(jié)構(gòu), 揭示內(nèi)容則為描述該產(chǎn)品對應(yīng)體例的內(nèi)容描述, 分別對應(yīng)標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容的主語、謂語、賓語.
2.2 傳統(tǒng)信息管理技術(shù)與實(shí)用
在電力標(biāo)準(zhǔn)文獻(xiàn)管理中, 傳統(tǒng)信息管理技術(shù)通過分類號[5]、主題詞、關(guān)鍵詞等元數(shù)據(jù)對資源的描述來實(shí)現(xiàn)“外部描述信息揭示”, 電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示的實(shí)操過程中, 應(yīng)用標(biāo)引和分類技術(shù), 開展基于設(shè)備產(chǎn)品和揭示內(nèi)容的標(biāo)引和分類工作, 不僅解決了傳統(tǒng)技術(shù)的局限性(如前文所述), 更解決了“電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示”過程中電網(wǎng)設(shè)備產(chǎn)品和揭示內(nèi)容抽取通用性和準(zhǔn)確性的問題.
2.3 標(biāo)準(zhǔn)化理論與實(shí)用
作為技術(shù)類規(guī)范性文件, 電力行業(yè)的標(biāo)準(zhǔn)化工作者不僅遵循GB/T 1.1-2009《標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分: 標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫》, 按照一定的體例結(jié)構(gòu)編寫標(biāo)準(zhǔn), 更需遵循GB/T 13016-2009《標(biāo)準(zhǔn)體系表編制原則和要求》, 按照一定的原則和要求, 構(gòu)建標(biāo)準(zhǔn)體系. 標(biāo)準(zhǔn)文獻(xiàn)書寫規(guī)范、成體系的特性, 是電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示方法的重要理論基礎(chǔ)和方法依據(jù).
本方法在確定揭示的領(lǐng)域范疇之后, 首先將電力標(biāo)準(zhǔn)按其描述特性劃分為設(shè)備產(chǎn)品、方法、安全、環(huán)保、衛(wèi)生、基礎(chǔ)、管理等各種類型, 然后針對不同類別的標(biāo)準(zhǔn), 分別分析其“產(chǎn)品-體例-揭示內(nèi)容”的標(biāo)引和分類原則.
通過將本文提出的電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示方法應(yīng)用于南方電網(wǎng)企業(yè)實(shí)踐, 完成了100余項(xiàng)變壓器類國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容的揭示加工, 并研發(fā)了電力行業(yè)標(biāo)準(zhǔn)內(nèi)容揭示系統(tǒng). 本章從功能設(shè)計(jì)、系統(tǒng)架構(gòu)和實(shí)現(xiàn)效果角度, 闡述電力行業(yè)標(biāo)準(zhǔn)內(nèi)容揭示系統(tǒng).
3.1 功能設(shè)計(jì)
電力標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容揭示系統(tǒng)的數(shù)據(jù)檢索功能包括:簡單檢索、高級檢索和檢索結(jié)果展示.
① 簡單檢索
針對電網(wǎng)設(shè)備產(chǎn)品(類)和揭示內(nèi)容(技術(shù)指標(biāo))的簡單檢索要求達(dá)到提問式檢索的效果, 選項(xiàng)包括: 含下層標(biāo)準(zhǔn)、含上層標(biāo)準(zhǔn)、全庫. (上、下層標(biāo)準(zhǔn)是通過本體類表實(shí)現(xiàn)了向上和向下兼容)
② 高級檢索
提供逐層引導(dǎo)式檢索功能, 包括:
查類, 逐級展開電網(wǎng)設(shè)備產(chǎn)品分類, 引導(dǎo)用戶逐步精準(zhǔn)定位關(guān)注的產(chǎn)品;
查特性, 展開體例分類, 引導(dǎo)用戶逐步精確定位到關(guān)注的體例;
查指標(biāo), 展開揭示內(nèi)容分類, 引導(dǎo)用戶逐步精確定位到關(guān)注的揭示內(nèi)容.
選項(xiàng)包括: 含下層標(biāo)準(zhǔn)、含上層標(biāo)準(zhǔn)、全庫.
③ 檢索結(jié)果
檢索結(jié)果包括以下項(xiàng)目: 標(biāo)準(zhǔn)種類、檢索對象、屬性類型、技術(shù)指標(biāo)、內(nèi)容、內(nèi)容注釋、來源、相關(guān)標(biāo)準(zhǔn)、標(biāo)準(zhǔn)體系(取值: 體系名稱或者其他).
3.2 系統(tǒng)架構(gòu)
系統(tǒng)架構(gòu)包括硬件與網(wǎng)絡(luò)拓?fù)?、軟件架?gòu).
① 軟件與網(wǎng)絡(luò)拓?fù)?/p>
系統(tǒng)配置如圖1所示, 可根據(jù)實(shí)際硬件、網(wǎng)絡(luò)情況進(jìn)行調(diào)整.
圖1 電力標(biāo)準(zhǔn)內(nèi)容揭示系統(tǒng)硬件與網(wǎng)絡(luò)拓?fù)?/p>
網(wǎng)絡(luò): 可以是內(nèi)部局域網(wǎng)絡(luò), 也可以是公網(wǎng), 根據(jù)需要進(jìn)行配置.
服務(wù)器: 需要2個服務(wù)器, 分別是數(shù)據(jù)庫服務(wù)器,用于安裝SQL Server 2005; 揭示服務(wù)系統(tǒng)服務(wù)器, 用于安裝電力標(biāo)準(zhǔn)內(nèi)容揭示服務(wù)系統(tǒng), 安裝.NET2.0、IIS 6.0, 操作系統(tǒng)使用Windows 2008、Windows 2003.
客戶端: 普通用戶與任務(wù)管理員應(yīng)用客戶端系統(tǒng)的瀏覽器, 比如IE、FireFox來訪問程序, 現(xiàn)在主流配置PC, Windows XP、Windows Vista、Windows 7操作系統(tǒng); 專家使用在客戶端系統(tǒng)的專家加工系統(tǒng)進(jìn)行加工.
② 軟件架構(gòu)
電力標(biāo)準(zhǔn)內(nèi)容揭示系統(tǒng)采用分層的體系結(jié)構(gòu), 詳細(xì)架構(gòu)如圖2所示.
從下向上分別是:
數(shù)據(jù)層: 包含電力標(biāo)準(zhǔn)內(nèi)容揭示數(shù)據(jù)庫、電力標(biāo)準(zhǔn)文獻(xiàn)數(shù)據(jù)庫、電力標(biāo)準(zhǔn)文獻(xiàn)全文, 其中, 內(nèi)容揭示數(shù)據(jù)庫通過關(guān)系型數(shù)據(jù)庫設(shè)計(jì)表達(dá)了“三元組的資源描述方法”, 核心數(shù)據(jù)關(guān)系如圖3所示.
圖2 電力標(biāo)準(zhǔn)內(nèi)容揭示系統(tǒng)軟件架構(gòu)
圖3 內(nèi)容揭示核心數(shù)據(jù)“三元組”關(guān)系圖
通用數(shù)據(jù)訪問層, 包含訪問SQL Server數(shù)據(jù)庫的通用算法;
業(yè)務(wù)邏輯層: 根據(jù)業(yè)務(wù)邏輯, 實(shí)現(xiàn)業(yè)務(wù)流程, 為展現(xiàn)層提供算法調(diào)用, 由于核心數(shù)據(jù)“三元組”邏輯關(guān)系相對復(fù)雜, 本系統(tǒng)采用Lucene的索引技術(shù), 提升核心數(shù)據(jù)表的檢索效率.
應(yīng)用層: 實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容指標(biāo)服務(wù)、加工及其工作管理以及系統(tǒng)管理的功能.
展現(xiàn)層: 應(yīng)用Windows桌面程序與IE等瀏覽器展現(xiàn)給用戶, 包含一系列html、aspx文件. 由于引導(dǎo)檢索逐層展開的特點(diǎn)(詳見3.3), 展現(xiàn)層大量采用AJAX技術(shù), 結(jié)合業(yè)務(wù)邏輯層的索引技術(shù), 提升了引導(dǎo)式檢索的用戶體驗(yàn).
3.3 實(shí)現(xiàn)效果
簡單檢索與高級檢索實(shí)現(xiàn)效果如圖4所示. 高級檢索中, 主題詞的檢索輸入詞為“變壓器”時, 點(diǎn)擊“查類”按鈕, 則展示所有“變壓器”相關(guān)的上位產(chǎn)品和下位產(chǎn)品概念, 同時, 展示了所有變壓器相關(guān)的指標(biāo)及其基本分類.
圖4 電力標(biāo)準(zhǔn)內(nèi)容揭示系統(tǒng)簡單檢索與高級檢索示意
標(biāo)準(zhǔn)內(nèi)容揭示系統(tǒng)與傳統(tǒng)標(biāo)準(zhǔn)題錄信息檢索和標(biāo)準(zhǔn)全文檢索效果對比, 如表1所示.
表1 標(biāo)準(zhǔn)內(nèi)容揭示檢索效果比對
本文描述了一種適用于電力標(biāo)準(zhǔn)文獻(xiàn)的內(nèi)容揭示方法, 從現(xiàn)狀與目標(biāo)、理論技術(shù)實(shí)用以及系統(tǒng)研發(fā)與實(shí)現(xiàn)的角度, 描述了該方法的理論基礎(chǔ)與實(shí)際應(yīng)用,最后展現(xiàn)其應(yīng)用結(jié)果, 并與傳統(tǒng)檢索方式進(jìn)行了對比.
本文的研究成果已經(jīng)在電力行業(yè)內(nèi)部上線使用,取得了良好的效果, 極大提升了標(biāo)準(zhǔn)的使用查詢效率,實(shí)證了電力標(biāo)準(zhǔn)文獻(xiàn)的內(nèi)容揭示方法的有效性.
1 常唯.標(biāo)簽在數(shù)字學(xué)術(shù)資源內(nèi)容揭示中的作用研究.圖書館雜志,2007,26(1):46–52.
2 張敏,鄧勝利.基于內(nèi)容揭示的信息資源控制的演進(jìn).圖書情報工作,2009,53(2):117–120.
3 張帆.信息組織學(xué).北京:科學(xué)出版社,2005.
4 盧巧云.XML:數(shù)字圖書館信息組織的基礎(chǔ)技術(shù).情報科學(xué), 2003,21(9):960–962.
5 胡永明,周潔.國際標(biāo)準(zhǔn)分類法及其在我國的應(yīng)用研究.世界標(biāo)準(zhǔn)信息,1998,(11):26–28.
A Content Revelation Method for Electric Power Standard Literature
WANG Hong1, ZHOU Yu-Zhong1, WANG Xin1, GAN Ke-Qin2, ZHOU Jie212(Electric Power Research Institute, China Southern Power Gird, Guangzhou 510080, China) (China National Institute of Standardization, Beijing 100191, China)
Traditional information revelation methods of electric power standard literature are mainly divided into external description and internal feature. But both ways are difficult to conduct a comprehensive description of electric power standard literature’s details and adapt to the demands of content index comparison based on knowledge unit. In order to solve the above-mentioned problems, semantic web theory, traditional information management technology and standardization theory are integrated creatively in this paper. An electric power standard literature content revelation method is proposed and a system of electric power standard literature content revelation is designed, which is in application and dissemination in the power industry, and got better effect than traditional retrieval.
electric power industry; standard literature; content revelation; revelation system
2016-07-25;收到修改稿時間:2016-09-20
10.15888/j.cnki.csa.005740