劉帝勇,楊 強(qiáng),岳振興
(1.三門核電有限公司,浙江 臺州 317112;2.江蘇核電有限公司,江蘇 連云港 222000)
核電廠的各類文件是支撐核電廠各項(xiàng)業(yè)務(wù)開展的主要依據(jù),其貫穿于核電廠的項(xiàng)目前期準(zhǔn)備、工程建設(shè)、調(diào)試、生產(chǎn)運(yùn)營及至退役的各個階段。核電廠在建設(shè)、運(yùn)營的數(shù)十年間,積累的數(shù)據(jù)、文件將達(dá)到千萬級。為管理和利用好這些文件,核電廠通常設(shè)置有專門的文件管理部門進(jìn)行文件管理。
文件分發(fā),即文件工程師將收到的文件登記著錄后分發(fā)給文件使用者的過程,是文件管理工作的一個重要環(huán)節(jié),在核電建設(shè)運(yùn)行過程中發(fā)揮著極其重要的作用。由于核電文件類型多、專業(yè)性強(qiáng)、數(shù)量龐大、涉及文件分發(fā)單位和用戶多且合同關(guān)系復(fù)雜等因素,在早期的核電項(xiàng)目中,文件分發(fā)通常要先通過專業(yè)處室負(fù)責(zé)人甚至總工程師憑經(jīng)驗(yàn)擬定分發(fā)范圍后再由文件管理人員進(jìn)行分發(fā)[1]。隨著信息化的發(fā)展,各核電項(xiàng)目大都建設(shè)有文件管理系統(tǒng),實(shí)現(xiàn)了文件的電子化管理,但文件分發(fā)仍未突破人工處理的方式,只是從線下轉(zhuǎn)到線上,依舊需要人工進(jìn)行判斷和處理。即使有電子化流程輔助,文件分發(fā)耗時(shí)仍然較長,且分發(fā)準(zhǔn)確性不高。因此,文件分發(fā)工作成為當(dāng)前文件管理工作中的薄弱環(huán)節(jié)。如何精準(zhǔn)、高效地進(jìn)行文件分發(fā),是文件管理人員面臨的一大難題。
當(dāng)前在進(jìn)行文件分發(fā)時(shí),通常是由文件工程師根據(jù)文件屬性、部門職能、人員崗位等因素結(jié)合自身經(jīng)驗(yàn)按照分發(fā)要求將文件從文件處理中心分發(fā)給特定的部門或人員等文件使用者(統(tǒng)稱“用戶”)。分發(fā)要求可以是程序規(guī)定也可以是職責(zé)分工。
文件分發(fā)主要流程如圖1所示:收文文件工程師在收到文件后,對文件進(jìn)行基本信息登記著錄后提交給文件分發(fā)工程師。分發(fā)文件工程師根據(jù)已有的制度程序、部門職責(zé)分工以及相關(guān)的要求對文件進(jìn)行分發(fā),將文件正確地傳遞給需要的用戶。用戶在收到文件后,如果確認(rèn)是自己需要的文件則直接使用,否則退回給文件分發(fā)工程師。
當(dāng)前的文件分發(fā)關(guān)鍵在于文件分發(fā)工程師的專業(yè)背景、經(jīng)驗(yàn)和熟練程度,尤其是其對制度、程序、組織職責(zé)分工等的理解程度和記憶準(zhǔn)確度。因此,文件分發(fā)的準(zhǔn)確性、處理速度主要取決于文件分發(fā)工程師的個人能力——文件工程師對分發(fā)要求理解透徹、操作熟練那么文件分發(fā)則處理快、準(zhǔn)確性高;反之則處理慢、準(zhǔn)確性低。此外,文件分發(fā)效果還會受到人員變動的影響,新的人員對于文件分發(fā)需要一個較長的學(xué)習(xí)適應(yīng)過程。在這個過程中間,文件分發(fā)的準(zhǔn)確性和處理速度還會存在不穩(wěn)定的情況。
如表1所示,某核電廠在當(dāng)前的文件分發(fā)處理方式下,文件分發(fā)準(zhǔn)確性往往不超過80%。此外,分發(fā)一份文件的平均時(shí)間在8 min以上。以每月按照22個工作日計(jì)算,日均處理時(shí)長在32h左右。因此,該電廠配置了5名分發(fā)文件工程師進(jìn)行文件分發(fā)處理。
表1 某核電廠文件分時(shí)長和發(fā)準(zhǔn)確率統(tǒng)計(jì)Tab.1 Document distribution time and accuracy statistics ina nuclear power plant
當(dāng)前核電文檔管理人員面臨的文件分發(fā)問題主要是如何提升文件分發(fā)的準(zhǔn)確性以及文件分發(fā)的處理速度,同時(shí)避免因人員變動等人為因素導(dǎo)致的文件分發(fā)準(zhǔn)確性以及處理及時(shí)性的不穩(wěn)定。如果能建立一套自動化、智能化的文件分發(fā)系統(tǒng),使得大多數(shù)文件直至所有文件能在沒有人為干預(yù)的情況實(shí)現(xiàn)分發(fā),那么就能解決這上述問題。
由于文件類型繁多,自動化、智能化文件分發(fā)系統(tǒng)不可能滿足每一份文件的自動化分發(fā)要求,因此系統(tǒng)首先要保證的是對于在其處理范圍內(nèi)的文件的分發(fā)準(zhǔn)確性。在此基礎(chǔ)上,系統(tǒng)應(yīng)盡可能覆蓋最大范圍的文件,降低人工處理數(shù)量。所以,文件分發(fā)準(zhǔn)確性和文件分發(fā)覆蓋率是自動化、智能化文件分發(fā)系統(tǒng)主要指標(biāo)。
通過自動化、智能化文件分發(fā)系統(tǒng),能有效提升文檔管理服務(wù)水平,而文件快速、準(zhǔn)確的分發(fā)也能提升用戶滿意度。此外,通過將這種將隱性的分發(fā)規(guī)則內(nèi)化到信息系統(tǒng)中的方式,還避免了因人自身因素帶來的不確定性[2]。
根據(jù)存在的問題和改進(jìn)方向,文章從基于規(guī)則和利用機(jī)器學(xué)習(xí)進(jìn)行文件的自動化和智能化分發(fā)兩個方面進(jìn)行研究[3-7]。
此前的文件分發(fā),是由文件分發(fā)人員根據(jù)相關(guān)要求并結(jié)合個人自身經(jīng)驗(yàn)來進(jìn)行的。但就本質(zhì)而言,分發(fā)人員之所以能開展文件分發(fā),是依據(jù)存在于其頭腦中隱性的“分發(fā)規(guī)則”。對于某個文件而言,它既可能會被要求發(fā)送至所有的用戶,也可能會被要求發(fā)送到某些用戶。分發(fā)規(guī)則是確定分發(fā)對象(object)的分發(fā)目標(biāo)(objective)的依據(jù)。
建立文件分發(fā)規(guī)則就是通過對制度、程序、職責(zé)分工以及相關(guān)管理要求的分析,總結(jié)提煉出顯性的、書面的、并且可被計(jì)算機(jī)系統(tǒng)識別的規(guī)則[8]。此外,為確保分發(fā)的準(zhǔn)確性,分發(fā)規(guī)則不應(yīng)有二義性,也就是一個文件不應(yīng)該適配多條規(guī)則——要么適配其中一條規(guī)則,要么不滿足于任何規(guī)則。基于規(guī)則的文件自動化分發(fā)如圖2所示。
文件工程師在收到文件并登記文件基礎(chǔ)信息后,系統(tǒng)根據(jù)文件關(guān)鍵信息,對照分發(fā)規(guī)則矩陣T,進(jìn)行分發(fā)。當(dāng)tij為1時(shí),表示該文件需要分發(fā);tij為0時(shí),則不需要分發(fā)。文件fi可以是某個具體的文件也可以是某類文件。如公式(1)所示,基于規(guī)則的文件分發(fā)就是文件列向量F與規(guī)則矩陣T相乘,得到行向量C的過程。
(1)
分發(fā)規(guī)則的好壞決定了文件分發(fā)的準(zhǔn)確度,規(guī)則的完整性則決定了覆蓋文件范圍。因此,分發(fā)規(guī)則不是一成不變的,而是需要不斷完善。規(guī)則建立和完善的過程分成如下幾個部分:
2.1.1 文件關(guān)鍵信息的識別和提取
文件的關(guān)鍵信息包括文件標(biāo)題、文件編碼、文件編制單位、文件狀態(tài)等信息。這個過程主要是通過對文件分發(fā)要求以及以往分發(fā)的分析,找出影響文件分發(fā)的關(guān)鍵因素以及影響力度[9]。
2.1.2 建立基于關(guān)鍵信息的規(guī)則矩陣
這是基于規(guī)則的自動化文件分發(fā)系統(tǒng)的關(guān)鍵部分。規(guī)則是文件自動分發(fā)的計(jì)算機(jī)表達(dá)方式,可以采用“IF-THEN”這種形式。IF后面跟前提條件,也就是關(guān)鍵信息;THEN后面跟結(jié)論,也就是分發(fā)目標(biāo)范圍。前提條件和結(jié)論都可能是復(fù)合的,即前提條件可以是關(guān)鍵信息的組合,結(jié)論也可以是分發(fā)目標(biāo)的組合。
2.1.3 規(guī)則執(zhí)行反饋
在運(yùn)用分發(fā)規(guī)則后,對執(zhí)行的情況收集和反饋,掌握規(guī)則的準(zhǔn)確性,然后根據(jù)反饋對規(guī)則進(jìn)行調(diào)整。
基于完整、準(zhǔn)確的文件基礎(chǔ)信息,利用分發(fā)規(guī)則,信息系統(tǒng)可基本取代人工,實(shí)現(xiàn)文件分發(fā)從手工模式向自動分發(fā)模式的邁進(jìn)。
分發(fā)規(guī)則的建立通常首先是由文件管理人員結(jié)合相關(guān)的制度要求以及自身經(jīng)驗(yàn)匯總而來。理論上,規(guī)則制定越細(xì)、數(shù)量越多,更有利于規(guī)則覆蓋的文件類型,以及提升分發(fā)的準(zhǔn)確性。但通過人工制定規(guī)則存在一定的局限性,不可能隨著人工智能的發(fā)展,完全可以借助機(jī)器學(xué)習(xí)的方式,完善分發(fā)規(guī)則甚至直接利用機(jī)器學(xué)習(xí)進(jìn)行文件分發(fā)[10-11]。
2.2.1 數(shù)據(jù)采集與預(yù)處理
數(shù)據(jù)、模型、算法是機(jī)器學(xué)習(xí)的三大基本要素,而數(shù)據(jù)是其中的根本。數(shù)據(jù)的完整性、規(guī)范性、一致性、準(zhǔn)確性以及關(guān)聯(lián)性直接決定了機(jī)器學(xué)習(xí)效果的好壞,因而開展工作的首要任務(wù)就是對數(shù)據(jù)的采集和處理。具體地,首先需要對哪些數(shù)據(jù)可以作為機(jī)器學(xué)習(xí)的來源進(jìn)行識別,其次是對這些數(shù)據(jù)重要性進(jìn)行分級,最后對具體的數(shù)據(jù)進(jìn)行清洗,并加以對數(shù)據(jù)的驗(yàn)證性分析得到最終需要的數(shù)據(jù)。
開展機(jī)器學(xué)習(xí)的數(shù)據(jù)來源包括管理程序、部門職責(zé)、崗位要求等一系列隱藏的信息。這些信息需要經(jīng)過一定的處理才能使用。對于數(shù)據(jù)量大、變化小、對用戶即時(shí)決策影響較小的數(shù)據(jù)可以采用離線計(jì)算技術(shù)進(jìn)行預(yù)處理,后續(xù)只需要直接調(diào)用已訓(xùn)練好的模型即可。此外,數(shù)據(jù)來源還包括人工預(yù)先設(shè)定的數(shù)據(jù)。各類數(shù)據(jù)的詳細(xì)處理策略如表2所示:
通常,根據(jù)處理完成后的數(shù)據(jù)的數(shù)據(jù)量存儲在不同類型的數(shù)據(jù)存儲系統(tǒng)中。對于結(jié)構(gòu)化的數(shù)據(jù)可以存儲在關(guān)系型數(shù)據(jù)庫中,而對于關(guān)聯(lián)型的數(shù)據(jù)則建議采用圖數(shù)據(jù)庫存儲。圖數(shù)據(jù)庫更容易發(fā)現(xiàn)實(shí)體對象之間的關(guān)聯(lián)關(guān)系。同時(shí),利用圖的相關(guān)計(jì)算算法可以快捷地獲取到最近或最新的數(shù)據(jù)節(jié)點(diǎn),因此關(guān)聯(lián)性數(shù)據(jù)非常適合存儲于圖數(shù)據(jù)庫[12-13]。
表2 各類數(shù)據(jù)的處理策略Tab.2 Processing strategy for various types of data
2.2.2 機(jī)器學(xué)習(xí)算法選擇
文件分發(fā)與向用戶推薦商品或者廣告非常類似。結(jié)合機(jī)器學(xué)習(xí)的智能化分發(fā)總體思路是通過對文件特征、部門和崗位職責(zé)等的識別,利用機(jī)器學(xué)習(xí)算法來發(fā)現(xiàn)各個對象之間的相關(guān)性,通過選擇合適的模型來計(jì)算出供分發(fā)使用的分發(fā)對象推薦列表。文件分發(fā)規(guī)則引擎的主要作用是根據(jù)一系列輸入調(diào)用實(shí)時(shí)計(jì)算環(huán)境進(jìn)行計(jì)算,通過自身的多模型選擇,經(jīng)過預(yù)定義的算法計(jì)算得到推薦的分發(fā)對象清單,并按照概率或相關(guān)標(biāo)準(zhǔn)進(jìn)行排序后將結(jié)果組織返回給文件分發(fā)人員[14-16]。
當(dāng)前主要的推薦算法包括余弦相似度[17]、歐氏距離[18]、斯皮爾曼等級相關(guān)系數(shù)[19]、Jaccard 相似度[20]等算法。由于余弦相似度在文本信息的相似度比較中應(yīng)用廣泛,因而在協(xié)同過濾中得到了很好的應(yīng)用。文件分發(fā)正需要對大量文本進(jìn)行分析,因此在綜合分析當(dāng)前主流的算法后,文章選擇余弦相似度算法作為推薦引擎核心的核心算法。
余弦相似度算法主要提取的信息為向量間在角度上的差異,通過計(jì)算兩個向量的余弦值達(dá)到判斷其相似性的目的,該方法對向量之間的距離不敏感,在對角度和距離都關(guān)注的場景中應(yīng)用時(shí),往往先去除一個平均距離,稱為調(diào)整余弦相似度,其主要數(shù)學(xué)模型如式(2)所示[21]。
(2)
通過計(jì)算文件之間的相似度,并根據(jù)文件的相似度和分發(fā)的歷史記錄給生成推薦的分發(fā)用戶列表,最后再根據(jù)崗位、職責(zé)等實(shí)體關(guān)聯(lián)所建立的關(guān)系來對推薦結(jié)果進(jìn)行補(bǔ)充,將明顯不在關(guān)聯(lián)關(guān)系中體現(xiàn)的從推薦分發(fā)用戶中予以移除。
2.3.1 智能化分發(fā)流程
融合自動/智能分發(fā)功能的分發(fā)流程如圖3所示。收文文件工程師還是按照之前的工作方式進(jìn)行文件的登記和著錄。在文件進(jìn)入系統(tǒng)后,將直接由自動/智能分發(fā)功能模塊來接管,通過規(guī)則匹配功能對能夠找到分發(fā)對象的則直接發(fā)送給用戶;如果不能通過規(guī)則找到分發(fā)對象,則由基于機(jī)器學(xué)習(xí)的智能分發(fā)模塊進(jìn)行推薦。為保證準(zhǔn)確性,文件分發(fā)工程師對推薦分發(fā)范圍進(jìn)行確認(rèn)。對于認(rèn)可的直接分發(fā)給用戶,對于需要完善的則進(jìn)行手動分發(fā)。
相比較之前的流程處理方式,這種分發(fā)流程增加了規(guī)則引擎和智能推薦環(huán)節(jié),大大增強(qiáng)了系統(tǒng)的自動化程度,省卻了用戶需要根據(jù)經(jīng)驗(yàn)進(jìn)行多次選擇而帶來的工作量增加,有效提高了工作效率。
2.3.2 規(guī)則完善流程
在3.1章節(jié)中已經(jīng)提到,文件分發(fā)規(guī)則的制定不是一蹴而就的,需要根據(jù)用戶的使用情況進(jìn)行動態(tài)調(diào)整, 從而保證規(guī)則的真實(shí)有效并且符合最新的管理要求。
文件分發(fā)規(guī)則的建立和完善過程如圖4所示:從分發(fā)歷史中通過機(jī)器學(xué)習(xí)算法進(jìn)行自動規(guī)則提取,結(jié)合人工對于管理程序、部門職責(zé)和其他管理要求的信息進(jìn)行梳理,從而形成相應(yīng)的自動分發(fā)規(guī)則。在規(guī)程的執(zhí)行過程中自動收集執(zhí)行反饋:當(dāng)用戶正常使用文件,說明分發(fā)規(guī)則有效,形成正向反饋,從而強(qiáng)化規(guī)則;當(dāng)用戶退回文件,說明分發(fā)規(guī)則存在問題,形成負(fù)向反饋,從而修改規(guī)則。
如表3所示,某核電廠在實(shí)施智能化的文件分發(fā)系統(tǒng)后,已經(jīng)在實(shí)際應(yīng)用中取得顯著成效,文件的分發(fā)準(zhǔn)確率從原來平均的78.75%提升至94.53%。每份文件的平均分發(fā)處理時(shí)間也從8.20 min左右縮短至2.95 min,日均處理時(shí)長降低至13 h以內(nèi)。為此,文件批分人員配置從5人減少為3人。
從實(shí)際應(yīng)用情況來看,自動化、智能化的文件分發(fā)系統(tǒng)能有效的解決文件管理人員面臨的問題,是破解傳統(tǒng)文件分發(fā)存在人力成本高、分發(fā)準(zhǔn)確性和及時(shí)性無法保障等難題的有力手段,實(shí)現(xiàn)了從傳統(tǒng)手工分發(fā)向自動化、智能化分發(fā)的跨越。
表3 某核電廠智能化文件分發(fā)時(shí)長和準(zhǔn)確率統(tǒng)計(jì)Tab.3 Intelligent document distribution time and accuracy statistics ina nuclear power plant
從實(shí)踐來看,由于相似性算法自身存在的缺陷,文件分發(fā)的準(zhǔn)確率效率還存在改進(jìn)的空間,仍有必要通過其他算法來解決。從傳統(tǒng)的機(jī)器學(xué)習(xí)角度來看,文件分發(fā)是一個分類問題,常見的分類算法包括邏輯回歸、決策樹、樸素貝葉斯[22]、隨機(jī)森林、支持向量機(jī)等算法以及以CNN[23]、RNN代表的深度神經(jīng)網(wǎng)絡(luò)。
從工作流程來看,無論何種算法,都需要將待分類的文本轉(zhuǎn)換成機(jī)器能夠識別的數(shù)字向量以便作為開展后續(xù)工作的基礎(chǔ)工作,因此基于自然語言處理技術(shù)的分詞結(jié)果的好壞直接影響到算法的執(zhí)行效率,當(dāng)前主流的分詞工具的效率已無太大提升,想要實(shí)現(xiàn)更為精準(zhǔn)的分詞,就需要開展專業(yè)詞匯識別即命名實(shí)體識別工作,該項(xiàng)工作不僅僅需要通過算法,還需要通過人工標(biāo)注的形式來開展,需要投入比較多的資源。
從算法選擇來看,當(dāng)前以CNN為主的深度神經(jīng)網(wǎng)絡(luò)在處理大部分文本分類問題上的準(zhǔn)確性要比傳統(tǒng)機(jī)器學(xué)習(xí)要高。通常在CNN之前需要開展對文本進(jìn)行詞嵌入,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。詞嵌入跟one-hot編碼或整數(shù)編碼相比有明顯的優(yōu)勢,詞嵌入可以將文本通過一個低維向量來表達(dá),不像one-hot那么長;在詞嵌入方案下語意相似的詞在向量空間上會比較相近。詞嵌入的通用性很強(qiáng),可以用在不同的任務(wù)中。
在模型開發(fā)框架上,Tensorflow包含有完整的數(shù)據(jù)流向與處理機(jī)制,同時(shí)還封裝了大量高效可用的算法及神經(jīng)網(wǎng)絡(luò)搭建方面的函數(shù),可以在此基礎(chǔ)之上進(jìn)行深度學(xué)習(xí)的開發(fā)與研究。TensorFlow將中間節(jié)點(diǎn)及節(jié)點(diǎn)間的運(yùn)算關(guān)系(OPS)定義在自己內(nèi)部的一個“圖”上,通過一個“會話(session)”進(jìn)行圖中OPS的具體運(yùn)算。深度學(xué)習(xí)大概有如下4個步驟:準(zhǔn)備數(shù)據(jù)、搭建模型、迭代訓(xùn)練,使用模型。準(zhǔn)備數(shù)據(jù)階段一般就是把任務(wù)的相關(guān)數(shù)據(jù)收集起來,然后建立網(wǎng)絡(luò)模型,通過一定的迭代訓(xùn)練讓網(wǎng)絡(luò)學(xué)習(xí)到收集來的數(shù)據(jù)特征,形成可用的模型,之后就是使用模型來為我們解決問題。模型搭建分為兩個方向:正向和反向。建立好模型后,通過迭代來訓(xùn)練模型了。TensorFlow中的任務(wù)是通過session來進(jìn)行的。在訓(xùn)練中,通過動態(tài)的會話將圖中的各個節(jié)點(diǎn)按照靜態(tài)的規(guī)則運(yùn)算起來,每一次的迭代都會對圖中的學(xué)習(xí)參數(shù)進(jìn)行更新調(diào)整,通過一定次數(shù)的迭代運(yùn)算之后最終所形成的圖便是所要的“模型”。而在會話中,任何一個節(jié)點(diǎn)都可以通過會話的run函數(shù)進(jìn)行計(jì)算,得到該節(jié)點(diǎn)的真實(shí)數(shù)值。
Tensorflow開發(fā)的模型建立完成后,可以發(fā)布成為服務(wù)供業(yè)務(wù)系統(tǒng)使用。這種情況下,文件系統(tǒng)在產(chǎn)生新的文件需要進(jìn)行分發(fā)時(shí),由程序自動發(fā)送文件信息到Tensorflow的服務(wù)別獲取到服務(wù)返回的分類值,根據(jù)分類值對應(yīng)的分發(fā)結(jié)果來進(jìn)行自動分發(fā)。
機(jī)器學(xué)習(xí)和人工智能研究和應(yīng)用是當(dāng)前信息化領(lǐng)域的熱點(diǎn)方向,核電行業(yè)也在逐步開展相關(guān)工作——基于規(guī)則和機(jī)器學(xué)習(xí)的智能化文件分發(fā)系統(tǒng)的研究和應(yīng)用就是其中的一個有益嘗試。盡管已經(jīng)取得一定實(shí)效,但在現(xiàn)有的自動化、智能化文件分發(fā)系統(tǒng)中,還需要不同程度的人為參與和干預(yù),分發(fā)準(zhǔn)確性也還存在提升空間,因此后續(xù)需進(jìn)一步減少人工參與程度,并通過改進(jìn)和完善推薦算法使得準(zhǔn)確性也得到更大提升。
核電企業(yè)開展基于規(guī)則和機(jī)器學(xué)習(xí)的文件分發(fā)研究及應(yīng)用,不僅可以為將來基于大數(shù)據(jù)、機(jī)器學(xué)習(xí)及人工智能技術(shù)的信息資源開發(fā)利用打下堅(jiān)實(shí)的基礎(chǔ),而且對于核電或者其他企業(yè)在更廣泛的業(yè)務(wù)上開展智能化探索同樣具有重要的借鑒價(jià)值[24-25]。