楊巍 /浙江財經(jīng)大學 王茂煥/臺州市檔案館
音頻錄像檔案[1]是國家機關(guān)、社會組織或個人在履行法定職責過程中采用不同記錄載體形成的、具有憑證、查考和保存價值并歸檔保存的以聲音或影像為主要呈現(xiàn)方式的信息記錄。人工智能技術(shù)的發(fā)展和應(yīng)用推動了檔案工作數(shù)字化轉(zhuǎn)型,“數(shù)據(jù)化”成為新時代評價智慧檔案館的重要指標,將“檔案數(shù)字化”轉(zhuǎn)型為“檔案數(shù)據(jù)化”是檔案館現(xiàn)代化管理需要首先解決的問題。音頻檔案數(shù)據(jù)化是將傳統(tǒng)音頻檔案中的模擬音頻向數(shù)字音頻轉(zhuǎn)化,并將數(shù)字音頻的文本內(nèi)容進行識別、分類、著錄和標引等整個過程[2]。音頻檔案數(shù)據(jù)化主要包括音頻信息文本化[3]、元數(shù)據(jù)標引和數(shù)據(jù)庫建設(shè)等內(nèi)容[4]?,F(xiàn)階段,紙質(zhì)檔案已經(jīng)能夠通過數(shù)字化掃描和OCR識別完成數(shù)據(jù)化的基礎(chǔ)轉(zhuǎn)化工作,而含有豐富語義的音頻錄像檔案因其非結(jié)構(gòu)化存儲特性,無法像紙質(zhì)檔案一樣批量完成文本識別工作,大量記錄珍貴歷史記憶的音頻檔案在檔案館中得不到充分的數(shù)據(jù)化管理和利用,這成為音頻錄像在檔案大數(shù)據(jù)時代發(fā)揮自身價值的現(xiàn)實屏障。隨著深度學習語音識別技術(shù)在社會生活和工作領(lǐng)域中的運用日漸成熟,將其引入檔案數(shù)據(jù)化工作場景中,推動檔案現(xiàn)代化建設(shè)具有重要的現(xiàn)實意義。
語音識別技術(shù)是電腦自動辨認或驗證發(fā)出語音的說話人,將音頻語音內(nèi)容轉(zhuǎn)換成對應(yīng)的文本的信息技術(shù),包括自動語音識別(automatic speech recognition,ASR)、電腦語音識別(computer speech recognition,CSR)或是語音轉(zhuǎn)文本識別(speech to text,STT)[5]。識別過程如圖1,系統(tǒng)核心是音頻特征提取模塊、聲學模塊和語言模塊。
圖1 語音識別過程
音頻特征提取模塊負責根據(jù)語音信號波形提取有效的聲學特征[6],生成機器可以理解的語言特征向量序列,比如利用梅爾頻率MFCC變換抽取原始語音特征,這類技術(shù)比較成熟;聲學模塊利用聲學模型負責將語音特征映射成音素,其中音素是最小語音單位[7],比如“普通人”,可以分解成“p, u, t, o, ng, r, e, n”八個音素,聲學模型是語音識別技術(shù)的核心;語言模塊利用語言模型負責基于音素序列預(yù)測字符序列的概率,最終選擇概率值最大的字符序列作為解碼的文本結(jié)果,比如以上八個音素可能被預(yù)測為“撲通人”“普通仁”“普通人”等字符序列,但是“普通人”的概率最大,這類技術(shù)主要依托自然語言處理技術(shù)的發(fā)展。基于聲學模型的技術(shù)迭代,其技術(shù)發(fā)展從GMM-HMM(傳統(tǒng)聲學模型)、DNN-HMM(神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)聲學融合模型)發(fā)展到End-to-End(端到端模型)階段,深度學習語音識別技術(shù)日漸成熟,推動現(xiàn)代社會在多場景中落地應(yīng)用。
語音識別技術(shù)在圖書情報與檔案領(lǐng)域中的應(yīng)用最早可追溯到1994年美國啟動的“數(shù)字圖書館”項目中,卡耐基—梅隆大學在該項目中負責研究如何將圖像、語音和語言識別技術(shù)整合起來,使音頻和視頻具備與文字文獻相同的查詢、檢索、分類和摘要功能,從而實現(xiàn)智能搜索和圖像檢索的目標[8]。21世紀初,醫(yī)療和法律檔案系統(tǒng)率先掀起利用語音識別技術(shù)進行檔案數(shù)字化建設(shè)的熱潮[9],隨后,數(shù)碼音頻筆、智能語音錄入軟件等產(chǎn)品先后問世,其便捷的音頻功能和文字轉(zhuǎn)換功能受到了檔案工作者的青睞,語音識別法成為和掃描法、人工著錄法同樣重要的檔案數(shù)字化方法之一。檔案館將語音識別技術(shù)用于口述歷史的記錄和收集工作之中,同時也廣泛用在音視頻檔案數(shù)據(jù)轉(zhuǎn)換和整理上[10],如美國互聯(lián)網(wǎng)檔案館利用語音識別技術(shù)對其前總統(tǒng)特朗普電視演講深度轉(zhuǎn)錄,保證美國公民更加直觀及時了解特朗普政治觀點[11]。
針對傳統(tǒng)的模擬音頻檔案,深度學習語音識別技術(shù)能夠在音頻檔案數(shù)據(jù)化中智能標注,生成的信息比人工標注更加準確、完整和規(guī)范[12]。同時深度學習語音識別技術(shù)為音頻檔案檢索打開了新的檢索思路,音頻檔案檢索從單一的關(guān)鍵詞檢索上升到大詞匯語音識別、字詞單元檢索、關(guān)鍵詞識別和對講話者檢測[13]等基于內(nèi)容的檢索模式。劉濤認為深度學習語音識別技術(shù)所擁有的語音轉(zhuǎn)換文本中精準的識別能力、智能的分析音頻內(nèi)容的能力和全內(nèi)容分析編目能力能解決當前音頻檔案信息著錄有限性和音頻檔案高需求利用之間的矛盾[14]。總體上看,當前檔案領(lǐng)域?qū)φZ音技術(shù)的研究主要集中在音頻錄像檔案收集、編目、檢索等環(huán)節(jié),而對深度學習的語音識別技術(shù)在音頻檔案數(shù)據(jù)化中識別率有多大提升和其在檔案領(lǐng)域具體的應(yīng)用場景鮮有深度探討,本文利用深度學習的語音識別技術(shù)deepspeech2_aishell模型對音頻數(shù)據(jù)集進行了實證測試,驗證了深度學習語音識別技術(shù)識別質(zhì)量好、識別效率高、準確度精準等優(yōu)勢,同時探討了深度學習語音識別技術(shù)在目前檔案領(lǐng)域中的具體應(yīng)用場景,以期檔案領(lǐng)域利用深度學習語音識別技術(shù)進行音頻檔案數(shù)據(jù)化管理。
傳統(tǒng)音頻檔案文本化是音頻檔案數(shù)據(jù)化工作中的首要任務(wù),為了進一步加強驗證,筆者以linux系統(tǒng)為例,進行deepspeech2_aishell模型的部署,命令行可以直接在系統(tǒng)的終端shell上執(zhí)行,開發(fā)python代碼進行最終的語音識別,input.wav為原始音頻文件,text為最終輸出的文本內(nèi)容(如圖2)。選取《中華人民共和國檔案法》總則中的前5條內(nèi)容,利用朗讀工具生成5個音頻文件,然后利用deepspeech2_aishell模型分別進行語音識別,5段音頻內(nèi)容,3條錯誤率為0%,2條錯誤率在3%以下,最終識別準確率如表1所示,通過上述實證測試可知,目前人工智能語音識別模型的識別結(jié)果,已經(jīng)達到了比較高的準確率,在實際應(yīng)用中有很大的可行性。
表1 語音模型識別結(jié)果分析
圖2 deepspeech2_aishell模型的部署程序
當前,國內(nèi)大部分檔案館在傳統(tǒng)音頻數(shù)字化中采用人工轉(zhuǎn)寫方式,效率不高,而利用深度學習語音識別技術(shù),可根據(jù)不同的功能需求,設(shè)置不同的語音指令和文本輸出來進行交互,批量化、高精度、不間斷地、快速完成音頻檔案信息到文本形式的轉(zhuǎn)化,不但方便檢索和編輯,還提高了音頻檔案管理的效率,節(jié)省了人力成本。同時,語音識別技術(shù)還可以對音頻資料進行自動分類和標簽化,進一步提高了音頻檔案的檢索效率和準確性。所以,深度學習語音識別技術(shù)在音頻檔案數(shù)據(jù)化的各方面都有較大的應(yīng)用價值。
4.1音頻檔案數(shù)據(jù)庫建設(shè)
對音頻檔案著錄標引,建成數(shù)據(jù)庫是檔案數(shù)字化工作的基本需求。傳統(tǒng)音頻檔案數(shù)字化參照當前行業(yè)標準或國家標準通過人工聽寫、分類、標識,過程煩瑣、編目簡單粗放[15],難以全面描述錄像檔案所載信息。一方面,利用深度學習語音識別技術(shù)將錄像檔案文本化后,對文本中的所包含的內(nèi)容、場景、人物、事件、地點、結(jié)果等資源屬性進行結(jié)構(gòu)化的描述,構(gòu)建以人物、事件為核心屬性的能被機器全文識別的數(shù)據(jù)庫,并設(shè)定相應(yīng)的語音指令,實現(xiàn)音頻全內(nèi)容檢索。另一方面,語音識別技術(shù)還能對語音中的不同元素(如音色、音調(diào)、節(jié)奏等)的分類和特定詞匯、短語或句子的標注和描述,促使不同模態(tài)的音頻檔案數(shù)據(jù)結(jié)構(gòu)化存儲。利用深度學習語音識別技術(shù)建設(shè)音頻檔案數(shù)據(jù)庫的模式,是在現(xiàn)有錄音檔案數(shù)據(jù)庫系統(tǒng)上進行簡單擴展就能實現(xiàn),是音頻檔案數(shù)據(jù)化發(fā)展的方向。
4.2音頻檔案數(shù)據(jù)知識化加工
語音識別技術(shù)為音頻檔案內(nèi)容知識化加工和二次創(chuàng)作提供了千載難逢的機遇。目前,音頻檔案數(shù)字化處理不足,語義理解深度不夠、音頻檔案信息復(fù)雜多樣等問題導(dǎo)致音頻檔案知識化效率和質(zhì)量受到限制。而利用深度學習語音識別技術(shù)對文本化的信息進行上下文理解和語義分析,然后自動化著錄音頻的主題、概念、事件、觀點等信息,自動生成內(nèi)容摘要,聚合音頻數(shù)據(jù),構(gòu)建知識圖譜,形成知識體系,為音頻檔案內(nèi)容挖掘和知識化加工創(chuàng)造條件。京劇名家檔案故事化手游開發(fā)項目[16],其中一個重要的組成部分就是收集京劇名家檔案史料、音像檔案與口述檔案等音頻檔案進行知識化加工,推進音頻檔案故事化呈現(xiàn),提高音頻檔案內(nèi)容的張力。比如項目選取了一段關(guān)于荀慧生先生的珍貴音頻檔案,為了全方位呈現(xiàn)這位藝術(shù)家的風采,項目團隊將音頻檔案進行了故事化處理。他們根據(jù)音頻內(nèi)容,制作了可視化知識圖譜和一段動畫視頻,再現(xiàn)了荀慧生先生舞臺上的場景,同時,項目團隊注重音頻檔案故事與受眾的交互方式,以互動游戲的形式實現(xiàn)對京劇名家檔案數(shù)據(jù)的故事化呈現(xiàn),通過這種音頻檔案故事化的方式,觀眾不僅能夠聽到珍貴的歷史音頻檔案,還能夠通過視覺和聽覺的雙重呈現(xiàn),更好地理解檔案的背景和意義。
4.3音頻檔案視聽服務(wù)平臺建設(shè)
語音識別技術(shù)可以為音頻檔案視聽服務(wù)平臺的建設(shè)提供有力支持。語音識別技術(shù)可以幫助實現(xiàn)語音與文字的快速轉(zhuǎn)換,通過提高音頻檔案數(shù)字化處理效率,完善音頻檔案數(shù)據(jù)庫建設(shè),構(gòu)建音頻檔案知識化體系、嵌入語音導(dǎo)航等多個步驟,可以建立一個高效、便捷、智能的音頻檔案視聽服務(wù)平臺,為檔案用戶特別是有視聽障礙的特殊群體提供更加人性化的查檔、用檔服務(wù),提升用戶體驗。目前,國家圖書館基于智慧化和新媒體技術(shù)手段研發(fā)和建設(shè)的影音視聽資源知識服務(wù)平臺[17],該平臺創(chuàng)新資源生產(chǎn)、加工、組織與應(yīng)用,運用智慧化和新媒體技術(shù),優(yōu)化音視頻資源管理機制,深入挖掘資源關(guān)聯(lián)和內(nèi)容價值。同時,提供個性化知識服務(wù),適配多終端設(shè)備,提升視聽服務(wù)效益,助力智慧圖書館的進步與發(fā)展。
4.4音頻檔案信息在線擴展泛化
為了盡可能豐富和完善音頻檔案背景信息,深度學習語音識別技術(shù)為傳統(tǒng)音頻檔案的傳播、共享等在線擴展泛化過程創(chuàng)造了條件。第一,利用深度學習語音識別技術(shù)轉(zhuǎn)變了音頻檔案的存在模態(tài),將二進制的符號轉(zhuǎn)變成可標識的結(jié)構(gòu)化信息,以便于音頻檔案信息存儲、傳輸和在線播放。第二,通過數(shù)據(jù)分析和挖掘技術(shù)提升音頻檔案的易讀性,將音頻檔案中的數(shù)據(jù)信息多角度、多層次地被標注出來,提高音頻檔案的被理解力。第三,利用云計算分布存儲技術(shù)保證音頻檔案數(shù)據(jù)的易用性,建成音頻檔案集中管理數(shù)據(jù)庫,設(shè)定開放權(quán)限并連接互聯(lián)網(wǎng),用戶通過身份認證可以即時在線訪問音頻檔案數(shù)據(jù),進而提高音頻檔案的利用價值和音頻檔案信息傳遞效率。第四,利用流媒體傳輸和智能推薦技術(shù),將通過開放審核的音頻檔案及時通過流媒體主動推送到用戶的設(shè)備上,面向社會及時分享音頻檔案內(nèi)容,同時加強和用戶的互動,收集音頻檔案相關(guān)的信息,不斷補充和完善原有音頻檔案信息內(nèi)容,能夠更加真實完整全方位還原音頻檔案所記載的歷史事件。荷蘭國家檔案館在“De ijsberg zichtbaar maken”(“讓冰山可見”)[18]人工智能技術(shù)轉(zhuǎn)錄檔案項目中初步嘗試這種模式,該項目通過館藏檔案數(shù)字化和新媒體信息技術(shù),將荷蘭皇室的檔案、繪畫、手稿、照片、音頻等多模態(tài)檔案數(shù)據(jù)聚合,利用新媒體技術(shù)向公眾推送荷蘭歷史和文化,公眾可以根據(jù)自己的知識背景和掌握的歷史信息在線反饋給圖書館,圖書館工作人員根據(jù)反饋信息及時補充檔案內(nèi)容,在線擴展泛化模式成為館藏補充資源、修正資源、完善資源的新模式,截至2023年約有200萬份資源中部分資源已通過在線擴展模式進行了更正、更新和實體資料的補充和完善。
在人工智能技術(shù)發(fā)展的浪潮中,深度學習語音識別技術(shù)逐漸成熟并廣泛應(yīng)用社會各領(lǐng)域,也推動檔案數(shù)字化建設(shè)進入新的數(shù)據(jù)化階段。目前,我國檔案館內(nèi)館藏大量具有珍貴價值的模擬音頻格式的檔案和部分數(shù)字化設(shè)備生成的音頻檔案,亟需數(shù)字化轉(zhuǎn)錄和數(shù)據(jù)化挖掘,人工智能深度學習語音識別技術(shù)具有智能化、低成本、高識別率和高精準率等特點,能夠解決音頻檔案數(shù)據(jù)化工作中的困境,深度學習語音識別技術(shù)不局限于轉(zhuǎn)存音頻檔案,同時創(chuàng)新了檔案工作方式,確保音頻檔案數(shù)據(jù)化轉(zhuǎn)化的質(zhì)量,有利于更加充分挖掘音頻檔案的價值。