標(biāo)準(zhǔn)數(shù)字化概念最早是從德國的工業(yè)4.0引出并 不斷演化延伸而來,在2018年形成了ISO SMART 的概念,這一概念是集成性的概念。從ISO SMART 的5層概念圖可知,從0到3層主要描述標(biāo)準(zhǔn)形態(tài)和處 理,第4層開始轉(zhuǎn)向描述標(biāo)準(zhǔn)內(nèi)容怎么用,面向應(yīng)用 來展開。標(biāo)準(zhǔn)數(shù)字化的目的是讓標(biāo)準(zhǔn)更好地給人和機(jī) 器使用,因此要兼顧人和機(jī)器兩個角度。目前,標(biāo) 準(zhǔn)數(shù)字化還有很多技術(shù)問題需要解決,一方面是自然 語言的復(fù)雜性、內(nèi)容多樣性導(dǎo)致標(biāo)準(zhǔn)處理難;另一方 面是標(biāo)準(zhǔn)應(yīng)用難,應(yīng)用場景復(fù)雜,標(biāo)準(zhǔn)中定性的內(nèi)容 (如原則要求等)也很難自動化應(yīng)用。
目前我國國家標(biāo)準(zhǔn)數(shù)量很多,對企業(yè)、行業(yè)來 講,執(zhí)行的不僅包括國家標(biāo)準(zhǔn),還有大量的行標(biāo)、地 標(biāo)、企標(biāo),也有各級管理機(jī)構(gòu)發(fā)布的規(guī)范、指南等文 件,這些都是標(biāo)準(zhǔn)數(shù)字化所要處理的對象。
標(biāo)準(zhǔn)數(shù)字化技術(shù)總體而言可分為兩個層次:第一 個是共性技術(shù)層面,解決通用、共性問題,并給出一 般性解決方案,如自動解析處理、智能編寫、全過程 管理、結(jié)構(gòu)化表示、智能應(yīng)用等;第二個是個性技術(shù) 層面,要結(jié)合具體領(lǐng)域特點,進(jìn)行改造和優(yōu)化,比如 電力領(lǐng)域標(biāo)準(zhǔn)數(shù)字化就要考慮電力專業(yè)特點、場景和 管理要求,需要具體問題具體分析。
標(biāo)準(zhǔn)解析、編寫、管理方面,主要涉及自然語 言處理、知識圖譜、本體論、機(jī)器學(xué)習(xí)、大語言模 型、數(shù)理邏輯等理論和技術(shù)。目前,這些技術(shù)都有比 較廣泛的研究和應(yīng)用。特別是近兩年,大語言模型 (LLM)發(fā)展迅猛。大語言模型從通用性、處理效率 及智能化程度上,確實有很大的優(yōu)勢,但在應(yīng)用大語 言模型的時候,要特別注意數(shù)據(jù)和算法傾向性、安全 性、可靠性問題。無論是大語言模型還是其他技術(shù), 在標(biāo)準(zhǔn)化領(lǐng)域應(yīng)用時,未必能直接使用,直接使用的效果未必很好,需要再訓(xùn)練、改造、優(yōu)化或者適配。
其次,也要解決結(jié)構(gòu)化表示問題,涉及存儲、 共享、處理、標(biāo)注等一系列技術(shù)問題。對于內(nèi)容的 結(jié)構(gòu)化形式和要求,有一些成果是可以參考。比如 國際標(biāo)準(zhǔn)化組織語言與術(shù)語技術(shù)委員會(ISO/TC 37)下面有兩個分委會,其中術(shù)語資源管理分委會 (ISO/TC 37/SC 3)提出了術(shù)語結(jié)構(gòu)化的標(biāo)準(zhǔn),目 前已經(jīng)納入ISO標(biāo)準(zhǔn)數(shù)字化基本的標(biāo)注框架。標(biāo)準(zhǔn)術(shù) 語部分的結(jié)構(gòu)化標(biāo)注,就采用了ISO/TC 37發(fā)布的 ISO 30042:2019《術(shù)語資源管理 術(shù)語數(shù)據(jù)庫交換 (TBX)》。另外,ISO/TC 37下還設(shè)有語言資源 管理分委會(ISO/TC 37/SC 4),專門制定發(fā)布了 一系列關(guān)于語言標(biāo)注、內(nèi)容標(biāo)注、語義標(biāo)注的國際標(biāo) 準(zhǔn),如針對時間、事件、角色、空間位置關(guān)系、數(shù)量 信息等相關(guān)語義要素的標(biāo)注,給出了標(biāo)注基本要求、 流程、方法、框架等。這些標(biāo)準(zhǔn)可以用來作為標(biāo)準(zhǔn)結(jié) 構(gòu)化的參考。結(jié)合具體的結(jié)構(gòu)化要求,還需要設(shè)計專 用的結(jié)構(gòu)化表示方法。
另外還有標(biāo)準(zhǔn)應(yīng)用相關(guān)的技術(shù)問題。標(biāo)準(zhǔn)數(shù)字 化最終的目的都是為了讓標(biāo)準(zhǔn)更好用。這更好用一方 面是服務(wù)人,一方面是服務(wù)設(shè)備。要分析標(biāo)準(zhǔn)應(yīng)用場 景,將數(shù)字化手段與應(yīng)用場景深度融合。舉一個例 子,醫(yī)院的自動血壓計是一個數(shù)字化的場景,血壓計 對血壓有預(yù)設(shè)的指標(biāo),這些預(yù)設(shè)指標(biāo)在醫(yī)學(xué)里是標(biāo) 準(zhǔn)指標(biāo)。如果超過或者低于這個值都是不健康的。 2022年,《中國高血壓臨床實踐指南》對高血壓判 斷標(biāo)準(zhǔn)進(jìn)行了更新,我們可以把它視為標(biāo)準(zhǔn)的修訂。 修訂之后,怎么讓原有的血壓設(shè)備或者機(jī)器能隨之以 最簡單、人工干預(yù)最少的方式更新指標(biāo)數(shù)據(jù)?例如: 如何自動“通知”所有血壓設(shè)備更新判斷指標(biāo)、設(shè)備 如何自動獲取并使用新的指標(biāo)等。所以對于標(biāo)準(zhǔn)數(shù)字 化應(yīng)用場景已經(jīng)不是簡單的查詢、瀏覽、檢索,而是 要與實際的行業(yè)、產(chǎn)業(yè),甚至具體的設(shè)備進(jìn)行密切的 融合、整合。這也就是為什么第4層(level 4)特別 提出通過自學(xué)習(xí)、分析、驗證改進(jìn)內(nèi)容處理和訪問能 力,實現(xiàn)價值鏈中無干擾數(shù)據(jù)流,實現(xiàn)自動問答或預(yù)測性內(nèi)容服務(wù)。
此外,商業(yè)模式、產(chǎn)業(yè)鏈、價值鏈的創(chuàng)新也是標(biāo) 準(zhǔn)數(shù)字化的一個難點。由技術(shù)的變化、融合的需求, 引發(fā)出商業(yè)模式的變化,同時市場格局、產(chǎn)業(yè)鏈、價 值鏈也發(fā)生了變化。一方面是產(chǎn)業(yè)鏈各方在應(yīng)用標(biāo)準(zhǔn) 時,對自身價值鏈會產(chǎn)生影響,同時相互間在標(biāo)準(zhǔn)理 解、應(yīng)用方面將比較容易達(dá)成一致,提高市場共識和 開放性,減少信息差所導(dǎo)致的糾紛。另一方面,信息 技術(shù)公司將以標(biāo)準(zhǔn)數(shù)字化為切入點更加深度參與各行 業(yè)數(shù)字化轉(zhuǎn)型,這對信息技術(shù)公司的技術(shù)能力有了更 高的要求,如必須要有機(jī)器學(xué)習(xí)、人工智能等相關(guān)積 累,不再是簡單實現(xiàn)查詢檢索和網(wǎng)頁開發(fā),從而提高 了行業(yè)準(zhǔn)入門檻。
針對技術(shù)方案、應(yīng)用和商業(yè)模式的難點,國際 上也是達(dá)成了共識。ISO/IEC SMART項目組也劃分 為三個子項目:技術(shù)方案、商業(yè)模式以及用戶用例。 用戶用例是為技術(shù)方案研究、商業(yè)模式創(chuàng)新提需求。 ISO/IEC最早開展工作的時候,不是做技術(shù)研究,是 先做用戶用例的調(diào)研,在所有的成員國和TC里調(diào)研相 關(guān)的用戶用例,去了解大家在行業(yè)里想怎么用,或者 已經(jīng)用了什么,然后再基于這些去設(shè)計技術(shù)方案,設(shè) 計新的商業(yè)模式??梢?,標(biāo)準(zhǔn)數(shù)字化不是一個簡單的 技術(shù)問題,是和產(chǎn)業(yè)行業(yè)深度融合、實現(xiàn)數(shù)字化轉(zhuǎn)型 的解決方案。
最后需要補(bǔ)充的是,以上這些都離不開基礎(chǔ)性工 作的支撐,如基礎(chǔ)術(shù)語、基礎(chǔ)資源等。例如,德國最 早提出類似的概念叫做機(jī)器可執(zhí)行標(biāo)準(zhǔn),后來演變成 了機(jī)器可用可讀可遷移標(biāo)準(zhǔn),就是SMART標(biāo)準(zhǔn)。在 這個過程中,大家對術(shù)語的內(nèi)涵的理解,其實是不斷 細(xì)化深入的。同時基礎(chǔ)的數(shù)據(jù)資源也是不可或缺的。 基礎(chǔ)數(shù)據(jù)資源(如知識庫、數(shù)據(jù)庫等)是標(biāo)準(zhǔn)數(shù)字化 所有處理、應(yīng)用以及深度融合的重要支撐基礎(chǔ),尤其 是涉及具體行業(yè)和產(chǎn)業(yè)層面的,更離不開專業(yè)領(lǐng)域的 數(shù)據(jù)資源。
點評:于欣麗
王海濤對SMART定義做了一些他的分享。實際上我理解就是標(biāo)準(zhǔn)數(shù)字化既要兼顧人,還要兼顧 機(jī)器,是給人和機(jī)器兩個方面使用的。另外在標(biāo)準(zhǔn)數(shù)字化過程中要兼顧到共性技術(shù)層面和個性技術(shù)層 面的內(nèi)容。他還介紹了ISO/TC 37的工作,關(guān)于語言和術(shù)語,我理解所有的標(biāo)準(zhǔn)都是語言,自然語言 處理做了大概有30多項的國際標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)我們可以借鑒、可以用、可以轉(zhuǎn)化,語言進(jìn)入到了專業(yè)
領(lǐng)域就是術(shù)語。在這方面,也充分發(fā)揮一些作用。 在國內(nèi),多個機(jī)構(gòu)開展標(biāo)準(zhǔn)數(shù)字化研究,不能說哪個機(jī)構(gòu)的路線就是正確的、科學(xué)的,同樣也不 能過于武斷地說哪個機(jī)構(gòu)做的是偏頗的、錯誤的,需要在不斷碰撞中找出共識性的路徑來。