摘" 要:在企業(yè)運營過程中,傳統(tǒng)的標準管理方式已不能滿足數(shù)字經(jīng)濟發(fā)展的需要。企業(yè)需要更快速、更高效、更靈活地處理標準信息,以適應市場的變化和客戶的需求。該研究旨在研究一種方案以優(yōu)化企業(yè)標準信息處理方式,實現(xiàn)標準文件管理工作智能化和企業(yè)管理數(shù)字化轉型,提高企業(yè)信息的獲取和共享速度,為企業(yè)提質增效。
關鍵詞:自然語言處理;標準化;數(shù)字化轉型;人工智能;數(shù)字經(jīng)濟
中圖分類號:F270" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2024)26-0117-05
Abstract: In the process of enterprise operation, the traditional standard management mode can no longer meet the needs of the development of digital economy. Enterprises need to deal with standard information more quickly, efficiently and flexibly to adapt to the changes of the market and the needs of customers. The purpose of this study is to study a scheme to optimize the way of enterprise standard information processing, to realize the intelligence of standard document management, to realize the digital transformation of enterprise management, to improve the speed of enterprise information acquisition and sharing, and to improve the quality and efficiency of enterprises.
Keywords: natural language processing; Standardization; Digital Transformation; artificial Intelligence (AI); Digital economy
在當今快速發(fā)展的數(shù)字化時代下,標準作為國際規(guī)則的重要組成部分,大部分國家或地區(qū)均提出要爭奪新興領域標準主權或占據(jù)主導地位?!禝SO戰(zhàn)略2030》[1]強調ISO標準的普及推動了全球經(jīng)濟的發(fā)展,促進了包容和公平的經(jīng)濟增長,有助于保障人們的健康和安全,為實現(xiàn)可持續(xù)發(fā)展的未來奠定基礎,標準數(shù)字化推動工程建設數(shù)字化邁上新臺階[2]。隨著新技術的不斷涌現(xiàn),標準制定的速度也在加快,標準成為國際科技和產(chǎn)業(yè)競爭中的關鍵因素。然而,傳統(tǒng)的標準管理方式大部分仍為人工處理,存在效率低下、出錯率高等問題,如何快速有效地管理數(shù)字化資源仍面臨挑戰(zhàn)。
本研究旨在幫助企業(yè)開發(fā)出一種方案以優(yōu)化標準文件的管理方式,實現(xiàn)企業(yè)更快速、更高效、更靈活地處理數(shù)字化信息,實現(xiàn)標準文件數(shù)據(jù)按照規(guī)則統(tǒng)一地提取、儲存、加工,從而實現(xiàn)智能化地自動、快速、準確的文檔提取工作,實現(xiàn)企業(yè)文檔的數(shù)字化存儲和管理,以適應市場的變化和客戶的需求,提高企業(yè)信息的獲取和共享速度,為企業(yè)發(fā)展提供巨大的競爭優(yōu)勢。
1" 研究背景
1.1" 國內(nèi)外標準數(shù)字化發(fā)展現(xiàn)狀
1.1.1" 國際標準數(shù)字化發(fā)展現(xiàn)狀
ISO和IEC都建立了相應的標準化技術組織,積極推動標準數(shù)字化和機器可讀國際標準研制、白皮書發(fā)布、在線標準編制(OSD)平臺開發(fā)等工作。ISO聯(lián)合IEC共同發(fā)起了“ISO-IEC SMART 標準項目”,即無需人員參與實現(xiàn)標準機器可讀、可用、可理解、可解析,這應該是標準數(shù)字化發(fā)展的工作指南。從過去單純的文字表達方式轉變到現(xiàn)在的機器可讀以及未來的SMART。IEC持續(xù)推進標準數(shù)字化工作。IEC MSB成立智能標準特別工作組SWG 14(市場和行業(yè)視角),該工作組主要任務是評估SMART標準對業(yè)界的價值主張,評估SMART標準可能面臨的行業(yè)挑戰(zhàn),并找出解決方案,分析專家和用戶的技能和能力,評估SMART標準的版權和許可模式。
1.1.2" 國內(nèi)標準化數(shù)字發(fā)展現(xiàn)狀
我國標準數(shù)字化的發(fā)展源于對各領域數(shù)字化探索的不斷深入,以及對傳統(tǒng)標準管理與應用方式不足的深刻認識。近年來,我國各部委在研發(fā)投入和先行領域的探索方面取得了顯著成果。在智能制造、航空、電力和建筑工程等領域,標準數(shù)字化的應用實踐不斷推進。例如基于ISO 19650電力建設項目數(shù)字化[3]就是將數(shù)字化運用于電力領域,同時,依托各標準化技術委員會和工作組的努力,我國制定了一系列國家標準,涵蓋了機器可讀標準路線、機器可讀等級模型、標準標簽集和數(shù)據(jù)字典等多個方向,為標準化工作向數(shù)字化、智能化轉型注入了新的動力。
1.2" 傳統(tǒng)標準管理模式短板
傳統(tǒng)標準管理模式存在諸多短板,特別是在數(shù)字化轉型的背景下更加凸顯。目前大部分管理方式為人工處理,一部分現(xiàn)有的標準化服務平臺存在著入口查找不便、功能不完善、流程不清晰和相互沒有打通等問題[4]。而無論是人工處理的管理方式還是現(xiàn)有的數(shù)字化平臺上都包括有信息孤島、文檔丟失和遺忘、無法快速響應變化的需求、難以實現(xiàn)信息共享與協(xié)作等眾多問題。傳統(tǒng)模式下的文檔管理缺乏統(tǒng)一的規(guī)范和有效的技術支持,導致信息流動受限、效率低下,限制了企業(yè)的創(chuàng)新能力和競爭力。傳統(tǒng)的信息管理服務需求缺乏深化的潛力,需要技術引導,更充分地利用數(shù)字化信息[5]。因此,企業(yè)需要轉向數(shù)字化文檔管理,標準數(shù)字化是企業(yè)數(shù)字化轉型的必由之路[6]以提升信息處理的效率、準確性和安全性,從而適應快速變化的商業(yè)環(huán)境。
2" 研究方法
2.1" 自然語言處理技術
本研究根據(jù)企業(yè)的存量內(nèi)容,結合企業(yè)不同存量特點,運用自然語言處理技術,在企業(yè)存量數(shù)字化過程中,優(yōu)化大量存量資源的堆積,允許企業(yè)以更智能、高效的方式提取與儲存存量資源,實現(xiàn)企業(yè)更快速、更高效、更靈活地處理資源信息,從而使得企業(yè)業(yè)務快速迭代,實現(xiàn)企業(yè)存量的管理智能化。在企業(yè)中人工智能技術的應用可以顯著改進生產(chǎn)效率、產(chǎn)品質量和供應鏈管理[7]。
2.2" 數(shù)據(jù)庫技術
本研究運用數(shù)據(jù)庫技術實現(xiàn)存儲、組織和管理大量存量數(shù)據(jù),實現(xiàn)存量數(shù)據(jù)的快速檢索、版本控制、安全存儲和共享等功能。數(shù)據(jù)庫技術還用于構建知識圖譜,并支持智能存量系統(tǒng)軟件的擴展開發(fā),使數(shù)據(jù)之間的關系可視化,幫助企業(yè)更好地理解和利用存量信息,提高決策效率和資源管理水平。實現(xiàn)存量內(nèi)容的結構化和標準化,促進數(shù)據(jù)的一致性和合規(guī)性,為企業(yè)存量數(shù)字化提供堅實的基礎。
2.3" 軟件開發(fā)技術
本研究使用軟件開發(fā)技術,設計先進的軟件構架,可擴展型的存量文檔系統(tǒng)和處理系統(tǒng)。建立存量數(shù)字化軟件,包括文檔處理引擎、企業(yè)界面和自動化工作流程。企業(yè)通過系統(tǒng)對數(shù)據(jù)化存量信息進行可視化的查看與操作。系統(tǒng)涵蓋用戶友好的文檔編輯工具、協(xié)作平臺和移動應用程序的開發(fā),以提高文檔數(shù)字化的可用性和便捷性,幫助企業(yè)更好地利用其文檔資源,提高工作效率和競爭力。
3" 技術路線
3.1" 企業(yè)標準數(shù)字化平臺
企業(yè)標準數(shù)字化平臺是為了滿足企業(yè)數(shù)字化轉型的需求而設計的一種信息技術解決方案。本平臺旨在幫助企業(yè)管理和應用標準化文檔,實現(xiàn)標準化流程的自動化、智能化和高效化。企業(yè)可以將傳統(tǒng)的紙質或電子文檔數(shù)字化,統(tǒng)一存儲于平臺中,并對文檔進行管理、提取、加工和應用。企業(yè)標準數(shù)字化平臺由兩大平臺組成。
數(shù)據(jù)預處理平臺:數(shù)據(jù)預處理平臺是采用自然語言處理方法對原始數(shù)字化文檔進行預處理操作并進行分析,進而對數(shù)字化的資源及XML文件進行儲存。
標準數(shù)字化系統(tǒng):標準數(shù)字化系統(tǒng)是利用XML解析的數(shù)字化存量或者來源于數(shù)據(jù)庫的信息實現(xiàn)業(yè)務功能,將文檔的零散數(shù)據(jù)進行整合,實現(xiàn)復雜的業(yè)務功能。
企業(yè)標準數(shù)字化平臺邏輯如圖1所示。
本系統(tǒng)邏輯架構主要包含兩大功能模塊。
數(shù)據(jù)預處理平臺:數(shù)據(jù)預處理平臺主要職責是將電子文檔文件進行預處理操作后的未結構化文件轉化為結構化文件的操作。首先,將未處理過的文件導入到數(shù)字化環(huán)境中,使用NLP自然語言技術對文本進行分析,進行數(shù)據(jù)的預處理操作。其次,進行數(shù)據(jù)清洗,規(guī)范化文本數(shù)據(jù),并根據(jù)數(shù)據(jù)的文本特征進行提取,基于大量的文本語料庫,通過類似神經(jīng)網(wǎng)絡模型訓練,得到提取后的內(nèi)容,進一步檢查所提取到的數(shù)據(jù)信息并將數(shù)據(jù)進行結構化包裝后導出,從而得到結構化文件。文檔預處理邏輯如圖2所示。
標準數(shù)字化平臺系統(tǒng):標準數(shù)字化平臺是將結構化文檔與數(shù)據(jù)流進行交互的關鍵角色,平臺將文檔中結構化的數(shù)據(jù)導入成為數(shù)據(jù)流,使數(shù)據(jù)變得更為靈活,更加方便處理,以便于擴展型的業(yè)務開發(fā)。數(shù)據(jù)化平臺處理的具體過程為:先對結構化數(shù)據(jù)內(nèi)容如企業(yè)標準要素中的術語、職責、指標等進行處理,對提取出的數(shù)據(jù)進行標準化、結構化處理,將其轉化為數(shù)據(jù)流。平臺可通過數(shù)據(jù)流實現(xiàn)查詢、數(shù)據(jù)分析、數(shù)據(jù)總結等工作,并將文檔數(shù)據(jù)根據(jù)對應的數(shù)據(jù)結構存入數(shù)據(jù)庫中,從而實現(xiàn)真正的數(shù)字化轉型。不僅如此,系統(tǒng)同樣具備還原原始文檔的能力,將數(shù)據(jù)按照標準的格式進行修飾,然后還原為原始的結構化文檔文件,從而實現(xiàn)對企業(yè)數(shù)據(jù)的便捷式、高效式管理。標準數(shù)字化平臺邏輯圖如圖3所示。
3.2" 基于自然語言處理的存量提取
企業(yè)標準文檔的存量提取是數(shù)據(jù)預處理平臺中的關鍵部分,數(shù)據(jù)預處理將文檔數(shù)據(jù)進行預處理操作,從而維持標準數(shù)字化平臺的運行。而數(shù)據(jù)預處理中,基于自然語言處理的存量提取是承上啟下的關鍵一步,只有將數(shù)據(jù)存量成功提取,才能將信息分類,提煉出核心的數(shù)據(jù)信息及相對應的數(shù)據(jù)結構信息,從而對數(shù)據(jù)進行下一步的處理。
這一過程首先將文檔導入到數(shù)字化環(huán)境中,利用自然語言處理技術(NLP)等計算機技術對文本進行分析,識別文檔中的不同部分,如標題、段落、表格、列表和圖像等,并進行標記與記錄。通過分析訓練集對文本進行預處理,包括清洗和規(guī)范化文本數(shù)據(jù),去除格式錯誤、標點符號、空白字符等。對文檔中的術語和縮寫進行標準化,以確保一致性,并進行人工檢查,保證數(shù)據(jù)的準確性。根據(jù)分析結果構建文檔的結構化表示,通過代碼提取等手段獲取初版的關鍵存量信息,確保標記和結構的準確性。
最后,將結構化的文檔存儲在文檔管理系統(tǒng)或數(shù)據(jù)庫中,并通過數(shù)據(jù)庫中的數(shù)據(jù)擴展業(yè)務功能的開發(fā),為企業(yè)提供更加靈活、高效的文檔管理服務。圖4為文本分析流程圖。
文本分析的核心為對文本特征進行提取,本文使用基于詞向量的特征提取模型,其思想基于大量的文本語料庫,通過類似神經(jīng)網(wǎng)絡模型訓練,將每個詞語映射成一個定維度的向量,維度在幾十到化百維之間,每個向量就代表著這個詞語,詞語的語義和語法的相似性通過向量之間的相似度來判斷?;谖谋痉治龅慕Y果,構建文檔的結構化表示,通常是XML或JSON格式。使用標記語言或數(shù)據(jù)模型對文檔中的各個部分進行結構化描述,例如標題、正文、章節(jié)和子章節(jié)等。然后根據(jù)處理完的文本內(nèi)容進行下一步分析,運用LSA(潛在語義分析)算法進行分析操作,其核心思想是將所擁有的文檔-術語矩陣分解成相互獨立的文檔-主題矩陣和主題-術語矩陣,如主題模型如圖5所示。
圖5為主題模型圖,標準文檔中眾多的關鍵詞與文檔之間沒有直接的聯(lián)系,所以應當需要有一個維度將它們串聯(lián)起來,主題模型將這個維度稱為主題。每個文檔都應該對應著一個或多個主題,而每個主題都會有對應的詞分布,通過主題,就可以得到每個文擋的詞分布。依據(jù)這一原理,就可以得到主題模型的一個核心公式,如公式(1)所示
p(wi|dj)=∑p(wi|tk)×p(tk|dj)。 (1)
在一個已知的數(shù)據(jù)集中,每個詞和文檔對應的p(wi|dj)都是已知的。而主題模型就是根據(jù)這個已知的信息,通過計算p(wi|tk)和p(tk|dj)的值,從而得到主題的詞分布和文檔的主題分布信息。
通過分析得到分布信息及主題詞,從而獲得文本特征內(nèi)容,根據(jù)這些文本特征與文件上下文中的關聯(lián)分析出數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,進而探索出企業(yè)數(shù)據(jù)的知識圖譜或者支持于更深入的研究。
3.3" 基于存量數(shù)據(jù)集特征的數(shù)據(jù)庫構建
數(shù)據(jù)庫的構架是針對存量數(shù)據(jù)內(nèi)容的具體信息設計出適應存量文檔的數(shù)據(jù)庫類型和標準。具體化存量文檔不同部分的區(qū)別,每一部分設計不同的數(shù)據(jù)庫儲存方法,從而標準化、規(guī)范化、系統(tǒng)化數(shù)據(jù)集,促進數(shù)據(jù)的一致性和合規(guī)性;也同時為企業(yè)存量管理軟件系統(tǒng)的開發(fā)提供便利,本研究根據(jù)企業(yè)數(shù)字化文檔特性采用MongoDB數(shù)據(jù)庫。
MongoDB數(shù)據(jù)庫屬于非關系型數(shù)據(jù)庫,根據(jù)本研究的數(shù)據(jù)特點,選擇非關系型數(shù)據(jù)庫更方便與數(shù)據(jù)交互和存儲。非關系型數(shù)據(jù)庫是一類用于存儲和管理非結構化數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)。與傳統(tǒng)的關系型數(shù)據(jù)庫不同,非關系型數(shù)據(jù)庫通常使用不同的數(shù)據(jù)模型和查詢語言來存儲和管理數(shù)據(jù),如鍵值存儲、文檔存儲、列族存儲和圖形存儲等。非關系型數(shù)據(jù)庫通常具有更好的靈活性、可擴展性和高性能等優(yōu)點,適用于大規(guī)模數(shù)據(jù)存儲和處理、實時數(shù)據(jù)流處理、多語言和跨平臺應用程序等場景。
3.4" 存量文檔的標準化還原
標準數(shù)字化文檔的還原是根據(jù)已數(shù)據(jù)化的存量信息,其中不僅包含了文本內(nèi)容,也覆蓋了存量的原始排列信息和樣式信息等。根據(jù)這些信息及原始文檔結構化的規(guī)范標準進行還原存量文檔,最后得到與初始一致的存量信息。
文檔的還原方式分為以下2種。
軟件系統(tǒng)信息還原:用戶使用數(shù)字化平臺系統(tǒng),訪問數(shù)字化平臺系統(tǒng)中新建模板進行還原。用戶需要根據(jù)模板要求輸入關鍵條目信息,包括引言、術語、管理內(nèi)容等標準層級內(nèi)容,從而生成存量文檔信息,并將數(shù)據(jù)還原到文件中生成結構化的標準文檔。
標準數(shù)字化文檔信息還原:標準數(shù)字化文檔信息是利用數(shù)據(jù)庫中存量信息實現(xiàn)標準數(shù)字化文檔的還原。數(shù)據(jù)庫中記載著未結構化文檔轉為結構化文檔的記錄,因此,可以通過訪問來源于原始存量文檔的電子數(shù)據(jù),結合標準要求以及所記錄的數(shù)據(jù)內(nèi)容和數(shù)據(jù)結構,從而再次還原初始的標準文檔。其詳細過程如圖6所示。
軟件系統(tǒng)構架的全部功能內(nèi)容基于業(yè)務內(nèi)容,即業(yè)務構架。數(shù)據(jù)庫構架是軟件系統(tǒng)構架的基礎,軟件系統(tǒng)數(shù)據(jù)來源于數(shù)據(jù)庫,軟件系統(tǒng)通過訪問數(shù)據(jù)庫中信息實現(xiàn)數(shù)據(jù)交互及所有功能的開發(fā)與實現(xiàn)。其次,業(yè)務構架中通過業(yè)務實際數(shù)據(jù)存入數(shù)據(jù)庫中進行軟件功能的實現(xiàn),然后再通過軟件系統(tǒng)接收數(shù)據(jù)后反饋給實際業(yè)務。軟件-業(yè)務-數(shù)據(jù)庫三框架關系如圖7所示。
4" 結束語
新一輪科技革命和產(chǎn)業(yè)變革的深度拓展階段,數(shù)字技術的迅猛發(fā)展加速了標準向數(shù)字化和智慧化方向的轉型。標準數(shù)字化是全社會數(shù)字化轉型的基礎,如何真正釋放標準數(shù)字化的紅利仍值得全行業(yè)長期思考并付諸實踐。在數(shù)字化時代,開放性和互動性使得標準面臨著多重風險疊加的挑戰(zhàn),標準數(shù)字化已經(jīng)成為新的競爭焦點。以標準大數(shù)據(jù)或數(shù)字化為基礎的場景化、個性化、智能化標準服務不斷涌現(xiàn)。本研究為企業(yè)數(shù)字化應用提出方案,以應對數(shù)字時代科技和產(chǎn)業(yè)變革對標準數(shù)據(jù)的需求,進一步發(fā)揮標準數(shù)據(jù)在數(shù)字時代的基礎性和引領性作用。
參考文獻:
[1] ISO戰(zhàn)略2030[J].測繪標準化,2021,37(4):107-109.
[2] 魏來,黃爽,李翔宇,等.標準數(shù)字化推動工程建設數(shù)字化邁上新臺階[J].工程建設標準化,2023(9):73-81.
[3] 周亮,薛茹丹.基于ISO 19650的電力建設項目數(shù)字化交付標準的研究[J].今日制造與升級,2023(11):8-10.
[4] 狄矢聰.標準數(shù)字化平臺建設機制與發(fā)展路徑研究[J].標準科學,2024(1):64-71.
[5] 袁文靜,方洛凡.標準對話:標準數(shù)字化的階段性目標與實踐[J].中國標準化,2024(3):6-29.
[6] 李炳成.標準數(shù)字化是企業(yè)數(shù)字化轉型的必由之路[C]//中國標準化協(xié)會.中國標準化年度優(yōu)秀論文(2023)論文集.《中國學術期刊(光盤版)》電子雜志社有限公司,2023:5.
[7] 楊麗娟.人工智能在數(shù)字化轉型中的技術標準與發(fā)展趨勢研究[C]//中國標準化協(xié)會.中國標準化年度優(yōu)秀論文(2023)論文集.《中國學術期刊(光盤版)》電子雜志社有限公司,2023:5.
第一作者簡介:盧萬(1993-),男,工程師。研究方向為JAVA研發(fā)、項目管理。