秦 茜
(水利部海河水利委員會,天津 300170)
習(xí)近平總書記高度重視網(wǎng)絡(luò)強國、數(shù)字中國建設(shè),對數(shù)字化、網(wǎng)絡(luò)化、智能化提出了一系列明確要求。進入新發(fā)展階段,云計算、大數(shù)據(jù)、人工智能技術(shù)快速發(fā)展,推動水利發(fā)展向數(shù)字化、網(wǎng)絡(luò)化、智能化轉(zhuǎn)變的技術(shù)條件已經(jīng)完全具備。實現(xiàn)流域統(tǒng)一規(guī)劃、統(tǒng)一治理、統(tǒng)一調(diào)度、統(tǒng)一管理,必須由數(shù)字孿生流域作為強大技術(shù)支撐。數(shù)字孿生流域建設(shè)是一項復(fù)雜的系統(tǒng)工程,時間緊、任務(wù)重、難度大、要求高,全系統(tǒng)全行業(yè)必須迅速行動起來,有力有序有效推進建設(shè)工作[1]。
如今社會經(jīng)濟體系日益復(fù)雜,水利行業(yè)所要處理的事務(wù)也多樣化。傳統(tǒng)的文本檔案已無法滿足當(dāng)前業(yè)務(wù)存儲需要,因此檔案管理部門開始用聲像檔案來對業(yè)務(wù)進行記錄。盡管聲像檔案的儲存量與記錄效率占顯著優(yōu)勢,但它對檔案管理人員的計算機技能水平有著較高要求,且計算機也難以處理聲像檔案中的一些非結(jié)構(gòu)性數(shù)據(jù),因而在管理難度上遠高于傳統(tǒng)文本檔案。但在云環(huán)境下,這些困擾難題均可以被邊緣計算、云服務(wù)器和人工智能技術(shù)解決。
檔案資料是指人們在各種社會活動中,為了某種記錄需求,對生產(chǎn)、經(jīng)營或經(jīng)驗等方面具有保存價值的原始信息進行記載的一種信息資料,原始記錄是檔案的本質(zhì)屬性。這種用于記錄保存用途的信息資料,最早在我國商朝就出現(xiàn)過,歷代對此有不同的叫法,如冊、簿、案牘、文書、卷宗等,均是屬于檔案性質(zhì)的分支。檔案相比于文物、圖書,區(qū)別就在于它的歷史再現(xiàn)性,由于檔案是直接形成的歷史記錄,是對本體事物真實面貌的還原,因此它相比于其他信息資料來講,具有憑證價值的重要特征。發(fā)展到現(xiàn)代狹義理解的檔案,也就是我們經(jīng)??陬^談?wù)摰臋n案,是指由專門的機構(gòu)形成的生產(chǎn)信息或事件要訊記錄,這種機構(gòu)可以是官方的,也可以是半官方甚至非官方的[2]。無論檔案的形成者具有怎樣的社會屬性,它的價值體現(xiàn)仍然沒有本質(zhì)上的變化,即原始記錄的憑證價值。在現(xiàn)代檔案學(xué)概論中,對檔案一詞給出的定義是:個人或組織在歷史中的社會實踐活動中,以各種方式記錄形成清晰的、確定的、具有完整記錄功能的固化信息。
檔案信息量是會隨著原始事件包涵的信息量增大而增大的,在現(xiàn)代社會中,由于社會實踐活動的內(nèi)容越來越復(fù)雜,產(chǎn)生的有價值記錄量越多。甚至如今許多行業(yè)都出現(xiàn)了必須要通過檔案記錄才能完成的業(yè)務(wù)環(huán)節(jié),比如我們所熟知的水利行業(yè),再比如政府的職能部門。我們除了看到檔案的重要性以外,還應(yīng)該看到當(dāng)前社會的機構(gòu)組織對檔案容量的需求越來越高。對于水利行業(yè)來說,做好聲像檔案的管理工作,與文字檔案的管理工作同樣重要,由于近年來水利工程新增規(guī)劃立項數(shù)量極大,業(yè)務(wù)量驟增,需要處理的業(yè)務(wù)信息也是過去的數(shù)倍,以往文本檔案已經(jīng)完全無法滿足記錄需求。這種問題直至聲像檔案的出現(xiàn)才得以解決,同一時間內(nèi),人們能從圖片、聲音中獲得的信息量是文本文字記錄的數(shù)倍,因此這種以聲音、圖像、視頻等多媒體文件作為記錄方式的檔案資料,能夠?qū)崿F(xiàn)高效率的記錄與傳遞功能。這些直觀表述水利工程信息以及周邊水文水情信息的檔案內(nèi)容,對工程主體責(zé)任單位與質(zhì)量監(jiān)督部門開展后續(xù)工程的質(zhì)量等級評定、工程養(yǎng)護、工程壽命期確認(rèn)以及工程受損修復(fù)方案設(shè)計有著文字記錄無法比擬的信息優(yōu)勢,使水利工程相關(guān)工作開展在全面的信息結(jié)構(gòu)支撐下得以順利開展。
在水利行業(yè)傳統(tǒng)的文本檔案管理制度中,需要專門設(shè)置容納保管的庫室或資料柜,在歸檔和提取流程上往往需要投入大量的時間成本,比如為了能夠快速地在某一時間找到檔案室內(nèi)想提取的檔案資料,檔案管理人員需要花費大量精力將所有的檔案歸類存放,且這種檔案管理模式還需要占據(jù)較大的空間。若是保管不當(dāng),極容易造成原始檔案信息的丟失或損壞,比如檔案受潮使字跡變得難以辨識,會給水利部門帶來不利影響[3]。而聲像檔案往往只需要一臺計算機或者一個小型存儲設(shè)備,就可以輕松解決存放問題,只要有備份存檔,完全不用擔(dān)心資料丟失損壞的問題。
鑒于檔案原始記錄的價值屬性,檔案資料的使用者對檔案的真實性要求是極高的,檔案信息失真會直接導(dǎo)致它失去應(yīng)有的記錄保存價值。傳統(tǒng)的檔案主要以文字記載的形式為主,從檔案的初稿修正到最終封裝,存在多個容易出現(xiàn)錯誤記錄或修改的環(huán)節(jié),很難保證記錄信息的真實可靠性,這樣的問題在水利工程招投標(biāo)文件、工程款項撥付、質(zhì)量驗收記錄或者材料出廠合格證明以及施工資質(zhì)等涉及具體利益的方面更是層出不窮。而聲像檔案不同,它以第一時間發(fā)生的音頻、視頻的同步記錄為主,修改難度極大,在反映事件完整性與真實性上都要明顯優(yōu)于傳統(tǒng)文本檔案。
如今水利行業(yè)使用的聲像檔案記錄的信息容量極大,但這種檔案聲音與視頻中包含的非結(jié)構(gòu)化信息無法利用常規(guī)計算機來進行處理。其中,非結(jié)構(gòu)化信息是指無法完全數(shù)字化處理的信息內(nèi)容,而這些信息資源中卻存在許多有價值的信息。因此,當(dāng)前聲像檔案應(yīng)用還仍然是以人力處理方式為主,在某些特殊情況下管理效率比文本檔案還低。比如,查找某地水文水情相關(guān)的檔案文件時,需要將所有同樣文件格式特征的文件逐一加載識別,這樣龐大的“分揀”式管理工作效率極低,給聲像檔案的全面普及帶來了難度。所以,在云環(huán)境下,就是要通過云計算和人工智能技術(shù)來幫助我們處理各類聲像檔案的歸檔與提取等操作,解決了聲像檔案的“索引”問題,檔案的提取利用效率就會得到明顯提高。
部分檔案的信息資料具有一定的安全保密性質(zhì),以公文性質(zhì)的檔案為例,除了一般保密等級的檔案之外還分為機密檔案與絕密檔案。水利檔案同樣如此,根據(jù)國家發(fā)布的《水利檔案管理規(guī)定》要求,水利單位形成的歸檔文件材料應(yīng)當(dāng)由該部門文書人員或業(yè)務(wù)部門的技術(shù)人員全權(quán)負(fù)責(zé)收集與整理,并按照規(guī)定移交給本單位檔案部門使用,嚴(yán)禁私自傳閱、修改、據(jù)為己有或者拒絕歸檔。然而,當(dāng)前許多水利部門在聲像檔案的管理方面未形成較為嚴(yán)格系統(tǒng)的管理規(guī)章制度。這樣的環(huán)境下檔案管理部門的日常工作往往處于被動狀態(tài),因此聲像檔案的形成與管理環(huán)節(jié)存在的隨機性因素較多。如一些珍貴的聲像檔案資源并沒有被歸入公有檔案資源處理,而是被個人或部門掌握[4]。這樣的管理體系給聲像檔案的數(shù)據(jù)安全性帶來不利影響:人員主觀因素造成的檔案信息泄密,部分從事檔案管理的人員在工作崗位調(diào)動后,會連同這些聲像檔案資源一同帶走,錯誤地認(rèn)為檔案的視頻音頻文件屬于個人物品;網(wǎng)絡(luò)信息安全意識較差,網(wǎng)絡(luò)防護機制不健全,因內(nèi)網(wǎng)外網(wǎng)交叉使用,導(dǎo)致管理存放聲像檔案的計算機經(jīng)常遭受不法網(wǎng)站攻擊,以致檔案信息失竊。所以,當(dāng)前來看,正是因為聲像檔案管理制度不完善,使聲像檔案的管理工作存在一定的安全隱患,不利于聲像檔案的長久保護和開發(fā)利用。
水利行業(yè)在用聲像媒體記錄某些要事時,諸如地區(qū)的水資源合理開發(fā)利用方案擬定、自然水體資源價值與防洪安全論證會議、水利工程建設(shè)工作的制定實施等,往往在聲像檔案形成的過程中,就出現(xiàn)了記錄信息不全或流失的問題。這主要是由于檔案管理人員對會議內(nèi)容、業(yè)務(wù)或技術(shù)本身并不熟絡(luò),導(dǎo)致聲像檔案的重點內(nèi)容記錄存在偏差,無法反映原始事物的實際風(fēng)貌。這樣一來,檔案部門聲像資源的收集渠道不暢,經(jīng)常出現(xiàn)相關(guān)單位形成聲像檔案所需的圖片、文字資料整理不全,甚至違背檔案法的規(guī)定出現(xiàn)不建檔的現(xiàn)象。后期檔案封裝時,檔案管理人員往往需要再獨立收集與記錄事件相關(guān)的聲像資料,并配以文字檔案來補全檔案內(nèi)容,其中不可避免地存在嚴(yán)重的記錄錯誤問題,使聲像檔案的記錄內(nèi)容嚴(yán)重失真。另一方面,這些珍貴的聲像檔案資源在日期、內(nèi)容格式的編排上也沒有具體的規(guī)范,久而久之當(dāng)聲像檔案數(shù)量累積起來后,一些形成時間較早的圖片、視頻、錄音文件就會被忽略。如一些珍貴聲像檔案資源,沒有備份或缺少文字說明,都說明由于記錄專業(yè)性不強的問題,導(dǎo)致檔案的實際可利用價值降低。
虛擬化技術(shù)是指計算機上用于計算處理的核心工作單元(CPU)是由另一個主CPU 虛擬分化出來的,也就是由一個CPU 來模擬多個CPU 運行的工作環(huán)境,同時允許一個平臺搭載多個操作系統(tǒng)的計算機技術(shù)。這些操作系統(tǒng)互相獨立且權(quán)限不同,在此基礎(chǔ)上我們還可以實現(xiàn)2 個虛擬化技術(shù)的延伸拓展應(yīng)用情景,即聲像檔案數(shù)據(jù)存儲介質(zhì)的虛擬化與應(yīng)用虛擬化。這樣做的好處主要有2 個方面:應(yīng)用程序在各自的操作空間內(nèi)獨立運行,互不影響,從而降低了計算機的運行負(fù)載,極大程度提高了計算處理效率;虛擬化的數(shù)據(jù)存儲介質(zhì)或應(yīng)用,可以為數(shù)據(jù)備份、移動與拓展提供較好的便利性和安全性。
云計算技術(shù)是分布計算的一個全新拓展方向,它是通過網(wǎng)絡(luò)“云”技術(shù)將一個或多個巨大的處理運算程序拆分成若干個小程序,當(dāng)用戶通過網(wǎng)絡(luò)上傳需要計算機分析計算的大型任務(wù)時,由網(wǎng)絡(luò)云服務(wù)器根據(jù)計算任務(wù)數(shù)據(jù)“量”的大小來分配相應(yīng)的算力資源,最后由被拆分的計算處理小程序,將數(shù)據(jù)結(jié)果合并回傳給數(shù)據(jù)來源的用戶。這種技術(shù)功能是在分布計算的基礎(chǔ)上,融合了效用計算、負(fù)載均衡、熱備份冗雜等網(wǎng)絡(luò)信息技術(shù)應(yīng)用來實現(xiàn)的,并通過虛擬化技術(shù)來解決服務(wù)器的硬件配置問題。所以,云計算技術(shù)可以看作是由所有云計算業(yè)務(wù)的用戶,共用一組在規(guī)模上遠大于常規(guī)計算機的服務(wù)器,通過閑置算力資源來處理用戶數(shù)據(jù)計算任務(wù)的技術(shù)。因此,它可以在很短的時間內(nèi)提供TB 級甚至是ZB 級的龐大數(shù)據(jù)流計算處理服務(wù)。
智能搜索引擎是融合了人工智能技術(shù)的搜索引擎,與常規(guī)搜索引擎的“關(guān)鍵字”提取檢索的邏輯不同,它在此基礎(chǔ)上實現(xiàn)了相關(guān)度排序、快速檢索等功能,同時還能夠根據(jù)語義識別為用戶提供興趣自動識別、信息過濾與推送功能。這種基于語義識別技術(shù)的工作原理是,在與搜索引擎鏈接的所有網(wǎng)絡(luò)資源中,尋找所有出現(xiàn)過與用戶檢索內(nèi)容類似用法的詞組搭配,再通過云計算從海量資料中找到可被替代的同類詞出處,這樣就實現(xiàn)了模糊推理功能。在人工智能技術(shù)的加持下,搜索引擎似乎越來越智能,即使是計算機難以處理的非結(jié)構(gòu)化數(shù)據(jù),也能夠通過模糊推理和語義識別來輕松處理[5]。但這對服務(wù)器的計算處理能力有著極高的要求,因此智能搜索引擎技術(shù)需要以云計算技術(shù)作為支撐。
云計算技術(shù)需要搭建的服務(wù)器組往往需要極高的成本投入,因此水利單位獨立開發(fā)云計算軟件項目來管理聲像檔案顯然是不可取的。當(dāng)前可以提供云計算服務(wù)的互聯(lián)網(wǎng)軟件公司有很多,水利單位的檔案管理部門可以選擇與這些互聯(lián)網(wǎng)技術(shù)公司達成深度合作,專門定制用于聲像檔案管理的“云檔案”軟件業(yè)務(wù)。在云計算技術(shù)的幫助下,聲像檔案提取和管理編輯將會極為便捷,比如我們需要找的聲像檔案是存儲在互聯(lián)網(wǎng)云端的會議紀(jì)要,若是只搜索“會議”,搜索引擎檢索到的信息均為會議的召開情況;但若改為搜索“會議紀(jì)要”,搜索引擎就能夠根據(jù)互聯(lián)網(wǎng)中所有用戶的信息處理習(xí)慣,來分析用戶的實際調(diào)取需求。在互聯(lián)網(wǎng)中多數(shù)與“會議紀(jì)要”相關(guān)的內(nèi)容,都是記載和傳達會議精神的圖像、聲音視頻資源。這樣引擎就會判斷出,用戶想檢索的是某一個聲像檔案資料,而并非一組資訊。利用云端技術(shù)可以讓聲像檔案的管理流程簡化處理,也減輕了檔案管理工作的勞動強度。如今多數(shù)智能搜索引擎都支持提取文字的功能,我們可以將這些聲像資料利用提取文字的功能,再轉(zhuǎn)化為文檔資料,同聲像資源一起放在云端儲存,作為聲像資料的文字說明與補充。這樣一來,可以顯著提高聲像檔案管理人員歸檔分類工作的效率。
這種“云檔案”軟件在技術(shù)服務(wù)功能不斷完善的同時,主動防御性質(zhì)的網(wǎng)絡(luò)安全技術(shù)方面也極為完善。利用云服務(wù)器的大數(shù)據(jù)庫作為水利單位聲像檔案的虛擬存儲介質(zhì),本身就具有一定的完整、可靠、安全和保密的特點。而為了進一步提高聲像檔案管理的安全系數(shù),一些互聯(lián)網(wǎng)技術(shù)公司研發(fā)的算法加密技術(shù),可以使聲像檔案獲得遠比以往傳統(tǒng)字符驗證式加密技術(shù)優(yōu)秀的安全性能。第一道安全保險程序是動態(tài)密碼,當(dāng)用戶有關(guān)于閱覽、提取、拷貝、修改云端儲存的聲像檔案時,需要首先確認(rèn)用戶的操作權(quán)限,利用短信驗證或者生物識別技術(shù)驗證的方式,來最大程度確保聲像檔案資源的保密安全性。但除了軟件方面的網(wǎng)絡(luò)安全技術(shù)防護之外,水利單位還要重視起“人防”控制體系的建設(shè),避免聲像檔案被人為泄密,應(yīng)當(dāng)結(jié)合各個職能部門的實際工作情況,綜合制定相應(yīng)的網(wǎng)絡(luò)安全保密制度,嚴(yán)禁個人的移動存儲介質(zhì)與公用計算機連接。在存儲檔案的計算機上,做好內(nèi)網(wǎng)與外網(wǎng)隔離防護,避免交叉用網(wǎng)導(dǎo)致聲像檔案失竊。
云技術(shù)解決檔案歸檔提取和安全保密性能等外部因素的管理問題,但在聲像檔案的真實性管理方面就顯得有些乏力。因此,需要水利單位從聲像檔案的形成過程中查找問題,并不斷優(yōu)化完善檔案管理制度,避免出現(xiàn)聲像檔案資源記錄不全或失真的問題。首先,應(yīng)當(dāng)依照現(xiàn)行的檔案法有關(guān)規(guī)定,積極建設(shè)與云環(huán)境下聲像檔案管理工作相適應(yīng)的檔案管理制度。其次,應(yīng)當(dāng)加強各個職能部門與檔案管理部門之間的協(xié)調(diào)能力,委派與檔案記錄工作內(nèi)容相關(guān)的部門人員協(xié)助檔案管理人員開展工作,在聲像檔案采集整理工作的過程中全程指導(dǎo),將記錄要點、視頻文件編碼格式、音頻輸出格式以及歸檔整理要求,詳細地交代給檔案管理人員。此外,對于需要長期保存或永久保存的聲像檔案資源,除了上傳云端以外,還要用公用的移動存儲介質(zhì)做好物理拷貝,并放置在檔案管理部門的資料柜內(nèi)上鎖封存。
綜上所述,聲像檔案作為互聯(lián)網(wǎng)時代的技術(shù)產(chǎn)物,對各行各業(yè)的生產(chǎn)經(jīng)營業(yè)務(wù)或組織活動都起到了重要的記錄參考作用,相比于傳統(tǒng)文本檔案,聲像檔案有豐富的信息量、管理便捷和真實性強等優(yōu)勢。針對當(dāng)前企事業(yè)單位在聲像檔案管理上存在的問題,應(yīng)當(dāng)將云環(huán)境下的計算機網(wǎng)絡(luò)技術(shù),與水利單位的內(nèi)部管理制度進行有機整合。利用云計算技術(shù)的信息化軟件平臺來提高聲像檔案的管理效率,合理運用網(wǎng)絡(luò)安全技術(shù),并建立有效的檔案管理制度,確保聲像檔案真實性與安全性,這樣才能夠使聲像檔案的管理工作更加科學(xué)全面。