關鍵詞:油氣管道;標準;知識圖譜;輔助編寫;數(shù)字化
DOI編碼:10.3969/j.issn.1674-5698.2025.01.006
0 引言
黨的十八大以來,以習近平同志為核心的黨中央高度重視數(shù)字化發(fā)展,明確提出“十四五”時期要加快數(shù)字經(jīng)濟發(fā)展,以數(shù)字化轉型整體驅動生產(chǎn)方式、生活方式和治理方式變革。2021年10月,中共中央、國務院印發(fā)《國家標準化發(fā)展綱要》,將“標準數(shù)字化水平不斷提高”作為戰(zhàn)略目標之一,提出“發(fā)展機器可讀標準、開源標準,推動標準化工作向數(shù)字化、網(wǎng)絡化、智能化轉型”。國家管網(wǎng)集團堅決貫徹黨中央決策部署,把數(shù)字化戰(zhàn)略作為公司發(fā)展的“四大戰(zhàn)略”之一,把數(shù)字化轉型作為事關全局的系統(tǒng)性變革、事關長遠發(fā)展的關鍵舉措、事關員工福祉的重點任務來謀劃和推動,以數(shù)字化轉型支撐國家管網(wǎng)集團建設中國特色世界一流能源基礎設施運營商,陸續(xù)部署開展了油氣管道機器可讀標準相關項目的研究和實踐應用,研究開發(fā)了機器可讀標準輔助工具,以實現(xiàn)機器可讀標準制修訂過程的數(shù)字化支撐和基于標準要素提取的智能化應用服務[1]。同時,油氣管道標準知識圖譜的研究與實踐應用等項目也在同步開展。
國際標準化組織以及英國、美國、德國、俄羅斯等國家,也將實現(xiàn)標準數(shù)字化轉型納入其標準化戰(zhàn)略并開展了相關的研究。ISO于2019年提出了SMA RT 標準的新型標準概念,確定了SMA RT標準的發(fā)展階段及特征,依據(jù)標準內(nèi)容與機器的交互程度將標準的演進劃分為“紙質(zhì)文本”“開放數(shù)據(jù)格式”“機器可讀文檔”“機器可讀內(nèi)容”“機器可交互內(nèi)容”共5個階段,各階段對數(shù)字技術的使用逐步深入,如:文本識別、可擴展標記語言(XML)、本體建模、知識圖譜等[2]。ISO和IEC聯(lián)合開發(fā)的在線標準制定(OSD)平臺將于2025年1月起投入使用,實現(xiàn)了從準備階段至發(fā)布階段的在線協(xié)同標準制定。俄羅斯在《俄羅斯標準化戰(zhàn)略(2019-2027)》中明確提出制定“機器可讀標準”的要求,將國家標準轉換為“機器可讀格式”,通過自動化系統(tǒng)提供標準文本的創(chuàng)建、編輯和應用,以及在不同系統(tǒng)間交換文本的能力[3]。
在對油氣管道領域技術人員進行的機器可讀標準典型需求調(diào)研中,在標準研制階段的需求包括:標準編寫需要滿足嚴格要求,審核工作量大;需要參考大量其他標準,查詢與引用難。在德國標準學會(DIN)和德國電工委員會(DKE)于2022年5月31日發(fā)布的《SMART標準用例白皮書》中,涉及標準創(chuàng)建者的用戶需求包括:希望能夠“掌握所有引用的標準和標準內(nèi)容”,以便“一目了然地查看所有標準內(nèi)容中的必要要求”;希望能夠“知道為什么該標準機構要對標準進行修改”,以便“理解修改的原因”[4]。從這些調(diào)研中可見,參考和引用標準問題是標準研制過程中的共性需求,標準編寫格式要求也是困擾標準制定人員的普遍問題。
針對標準研制過程中的這些問題,本文以研究構建的油氣管道標準知識圖譜知識庫為基礎數(shù)據(jù)支撐,提出標準草案輔助編寫技術方案,并進行系統(tǒng)研發(fā),為標準研制人員提供標準草案的自動生成服務,促進標準研制的效率提高和標準的協(xié)調(diào)一致性,提高標準質(zhì)量,推進油氣管道標準數(shù)字化工作的深入開展。
1 油氣管道標準輔助編寫技術方案
1.1 標準草案自動生成思維導圖
根據(jù)GB/ T 1.1-2020《標準化工作導則 第1部分:標準化文件的結構和起草規(guī)則》[5 ],按照標準內(nèi)容的功能,標準可分為術語標準、符號標準、分類標準、試驗標準、規(guī)范標準、規(guī)程標準、指南標準;標準的結構包括:封面、目次、前言、引言、范圍、規(guī)范性引用文件、術語和定義、符號與縮略語、分類和編碼/系統(tǒng)構成、總體原則和/或總體要求、核心技術要素、其他技術要素、參考文獻和索引。
按照各功能類型標準的要求和結構,歸納各類標準的核心技術要求和結構,作為標準草案內(nèi)容生成的數(shù)據(jù)指導,標準草案內(nèi)容的生成思路,如圖1所示。
首先需要將某形式的標準文檔中的內(nèi)容提取出來并轉化為能夠導入Neo4j的數(shù)據(jù)格式。
其次需要一個統(tǒng)一的模型,檢測到某標準中出現(xiàn)某類標準的核心技術要素時,就生成一個該類標準核心要素類型的節(jié)點,掛載到該標準節(jié)點上去。
在解決上述兩個問題之后,就可以通過數(shù)據(jù)導入流程將數(shù)據(jù)導入進Neo4j,之后再通過合適的算法對數(shù)據(jù)進行應用(根據(jù)關鍵詞查詢標準或是提供關鍵詞來生成標準)。
對于每一個標準,都將成為圖數(shù)據(jù)庫中的一個標準類型節(jié)點,標準中的內(nèi)容,例如:術語條目、范圍、前言、引言、單位、其他文件,將通過包含或是引用的關系掛載到該節(jié)點上,從而表達出,該標準包含/引用/起草了這些術語條目、范圍、其他文件的信息。
1.2 標準草案的XML文件標簽化處理
為了使標準草案直接成為機器可讀標準,在設計時直接使用已經(jīng)研究的油氣管道標準標簽集作為模板。我們在草案編制過程中引入了標簽化、結構化和數(shù)據(jù)格式規(guī)范化的原則。這意味著將每個標準條目、定義和技術規(guī)范都進行標簽化處理,使其符合統(tǒng)一的數(shù)據(jù)模型,以便后續(xù)在數(shù)字化平臺上進行自動解析和應用。
油氣管道標準標簽集分為兩大類,通用標簽集和擴展標簽集。通用標簽集又分為全文結構化標簽集和技術指標標簽集。
(1)全文結構化標簽基于標準結構元素進行標準信息單元劃分,包括單位、術語和定義、封面、引言、前言、范圍、與其他文件的關系等,封面實體中包括文件名稱、文件英文譯名、采用國際文件、采用文件編號、采用文件英文名稱、一致性程度標識、文件編號、等同采用文件編號、被替代文件等屬性。
(2)技術指標標簽在結構化單元基礎上進行更細顆粒度的識別,標準信息單元細化到標準指標對象,包括指標名稱、指標內(nèi)容、指標影響因素、指標性質(zhì)-定量/定性等屬性。
擴展標簽集根據(jù)對油氣管道標準領域主要技術內(nèi)容、標準應用場景等特征,分為對象和業(yè)務兩個維度,對象維度和業(yè)務維度的擴展標簽集示例分別見表1、表2。
2 油氣管道標準輔助編寫系統(tǒng)需求分析
2.1 功能點分析
油氣管道標準輔助編寫系統(tǒng)的具體功能點見表3。
2.2 智能推薦功能
智能推薦用例中,根據(jù)用戶所要生成的標準類別、關鍵詞等信息,智能推薦相關標準,并可選擇性地將推薦的相關標準信息(范圍、術語、實驗步驟等)加入標準草案。表4詳細描述了智能推薦用例。
2.3 標準草案自動生成功能
生成草案用例中,向用戶自動推薦要生成的草案信息,并根據(jù)用戶的選擇生成草案,用戶可導出草案內(nèi)容,生成Word或XML文件保存。表5詳細描述了草案自動生成用例。
3 程序描述
3.1 基于結構的推薦
方法名:recommendStructure
參數(shù):關鍵詞、協(xié)作關系列表
功能描述:該方法根據(jù)業(yè)務人員的關鍵詞查詢或選擇,利用協(xié)作關系列表中的節(jié)點信息,得到知識圖譜中的結構信息,從知識圖譜中推薦出與用戶需求相關的知識,并將結果返回給用戶。
實現(xiàn)思路分析:業(yè)務人員輸入要推薦的源數(shù)據(jù)(如:標題、類別、摘要等),以及要參考引用的標準,然后利用Java去調(diào)用Python實現(xiàn)推薦算法。算法思路是使用Neo4j的GDS庫中的FastRP算法來為每個節(jié)點生成一個低維嵌入向量,用于表示節(jié)點在圖中的位置和鄰居信息,然后使用GDS庫中的K最近鄰居算法(K-Nearest Neighbor,簡稱KNN),來為每個節(jié)點找到最相似的K個節(jié)點,并在它們之間建立相似關系(SIMILAR),從而實現(xiàn)協(xié)作過濾(Collaborative Filtering),為當前關鍵詞推薦最相關的或者最感“興趣”的標準。最后利用Neo4j去查詢這些標準獲得包含此關鍵詞的內(nèi)容或條目,并按相似度降序,從而實現(xiàn)基于結構的top10推薦算法。如圖2所示為基于結構的推薦流程圖。
按照各類標準編寫的規(guī)則[6],基于結構推薦所涵蓋的結構元素示例見表6。
3.2 基于內(nèi)容的推薦
方法名:recommendSemantic
參數(shù):關鍵詞
功能描述:該方法根據(jù)業(yè)務人員的關鍵詞查詢或選擇,結合知識圖譜中的內(nèi)容信息,利用知識圖譜全文索引的特性,從知識圖譜中搜索出與用戶需求相關的知識,并將推薦返回給用戶。
實現(xiàn)思路:使用d b.index. f u l ltext .createNodeIndex( )過程創(chuàng)建一個全文索引,指定要索引的節(jié)點標簽和屬性。然后使用db.index.fulltext.queryNodes()過程查詢?nèi)乃饕?,傳入索引名稱和查詢字符串,返回匹配的節(jié)點及其Lucene查詢分數(shù),并按其相似度降序,從而實現(xiàn)基于內(nèi)容的top10推薦算法。
基于內(nèi)容的推薦時序圖如圖3所示。
3.3 獲取草案模板
方法名:showDraftTemplate
參數(shù):標準類型
功能描述:該方法根據(jù)業(yè)務人員選擇的草案類型,獲取服務端的模板文件,并將文件返回給用戶。
草案生成實現(xiàn)思路:因為標準文件具有類型效應,即每一標準類型的標準核心技術要素是一致的,有共同的框架結構,因此可以基于該框架模板進行草案生成,并結合智能推薦實現(xiàn)對草案內(nèi)容進行不同粒度的推薦,由此輔助生成標準草案。獲取草案模板的時序圖如圖4所示。
4 系統(tǒng)實現(xiàn)
4.1 系統(tǒng)功能概述
基于油氣管道標準知識圖譜,實現(xiàn)油氣管道標準草案的輔助編寫,用戶在進行草案生成工作中,可選擇兩種方式。
(1)用戶可以選擇標準的類型,系統(tǒng)根據(jù)相關標準自動生成標準草案的XML結構。
(2)用戶也可以選擇內(nèi)容推薦,通過輸入關鍵詞、關聯(lián)標準等信息告知系統(tǒng)所需推薦的信息,系統(tǒng)顯示相關推薦結果。推薦結果支持用戶拷貝,系統(tǒng)也支持在加工區(qū)域編輯導出。系統(tǒng)主頁如圖5所示。
4.2 結構推薦
選擇“結構推薦”,輸入關鍵詞,結構推薦處的關鍵詞是左側編輯區(qū)域中提供的XML內(nèi)容的標簽名。(例如:titlePage、foreword、tableOfContent、scope等),點擊生成按鈕,顯示推薦結果列表,選中列表中某一項,可查看具體內(nèi)容,如圖6 所示。輸入關鍵詞“titlePage”,生成4條推薦內(nèi)容,點擊每條推薦內(nèi)容查看具體信息,如推薦1內(nèi)容為“l(fā)t;titlePagegt;lt;ChineseDocumentNamegt;油氣管道計量及交接技術規(guī)范 第1部分:輸氣管道lt; /ChineseDocumentNamegt;…lt;/titlePagegt;”。
4.3內(nèi)容推薦
選擇“內(nèi)容推薦”,輸入關鍵詞,點擊生成按鈕,顯示推薦結果列表,選中列表中某一項,可查看具體內(nèi)容,如圖7所示。輸入關鍵詞“故障”,生成2條推薦內(nèi)容,查看推薦1具體內(nèi)容為“l(fā)t;Pgt;計量回路應設置故障保護,當運行計量回路出現(xiàn)通訊或電力中斷等故障導致不能計量時…線色譜分析儀數(shù)據(jù)時,應根據(jù)相鄰站場天然氣實際組分,修改組分替代值。lt;/ Pgt;”。
4.4 編輯并導出
根據(jù)推薦內(nèi)容,可復制到左側編輯區(qū)域,并進行修改,點擊導出按鈕可將當前編輯區(qū)域的內(nèi)容,以XML格式導出文件,如圖8所示。將生成的內(nèi)容/結構推薦的內(nèi)容粘貼到左側特定位置,如:“目次”結構下。點擊“導出XML文件”按鈕可將編輯好的文本內(nèi)容保存到本地XML文件中。
5 結語
本文提供了一種基于油氣管道標準知識圖譜的標準草案輔助編寫的解決思路、技術方案和實踐應用,目前應用重點在于支持標準立項、標準預研等工作,可直接輔助生成油氣管道標準草案。該系統(tǒng)目前作為油氣管道標準知識圖譜系統(tǒng)的服務功能之一,未來應用將與油氣管道機器可讀標準輔助系統(tǒng)有效結合并融合使用,在標準制定全過程中支持標準制修訂,進一步拓展油氣管道標準知識圖譜的智能化應用,實現(xiàn)油氣管道標準的數(shù)字化轉型。該技術方案也可為其他行業(yè)提供借鑒參考。