許健 耿海波 陳生 楊璇
習(xí)近平總書記在黨的十八屆三中全會第二次全體會議上提出:“推進國家治理體系和治理能力現(xiàn)代化,就是要適應(yīng)時代變化,既改革不適應(yīng)實踐發(fā)展要求的體制機制、法律法規(guī),又不斷構(gòu)建新的體制機制、法律法規(guī),使各方面制度更加科學(xué)、更加完善,實現(xiàn)黨、國家、社會各項事務(wù)治理制度化、規(guī)范化、程序化。”
近年來,制度建設(shè)和制度執(zhí)行力的提升已成為國家和各行業(yè)高度關(guān)注的焦點。特別是隨著人工智能領(lǐng)域的快速發(fā)展,自然語言處理(Natural Language Processing,NLP)技術(shù)取得了突破性進展,大規(guī)模預(yù)訓(xùn)練模型將NLP技術(shù)能力帶上了新的高度。數(shù)字化轉(zhuǎn)型背景下,銀行制度作為一種典型且重要的文本數(shù)據(jù),亟須通過NLP新興技術(shù)對其進行智能化分析及應(yīng)用。本文立足金融機構(gòu)和監(jiān)管機構(gòu)視角,創(chuàng)新運用一系列NLP新興技術(shù)解決銀行制度管理的實際需求,以期為數(shù)字化轉(zhuǎn)型視角下的銀行制度管理提供新思路。
NLP領(lǐng)域技術(shù)發(fā)展趨勢
作為人工智能的一個核心技術(shù),NLP通過訓(xùn)練讓計算機了解如何運用人類處理方式解讀問題并給出恰當(dāng)反饋。當(dāng)前的人工智能產(chǎn)業(yè)結(jié)構(gòu)已經(jīng)日趨成熟,主要包括三個層面:一是涵蓋軟硬件設(shè)施和數(shù)據(jù)服務(wù)的基礎(chǔ)層;二是囊括了基礎(chǔ)框架、算法模型以及通用技術(shù)的技術(shù)層;三是覆蓋各個行業(yè)中的產(chǎn)品、服務(wù)及解決方案的應(yīng)用層。NLP定位于技術(shù)層,是從感知智能向認(rèn)知智能應(yīng)用升級的核心技術(shù)。NLP技術(shù)的實用價值在于海量非結(jié)構(gòu)化文本數(shù)據(jù)處理,并將數(shù)據(jù)挖掘和機器學(xué)習(xí)在結(jié)構(gòu)化數(shù)據(jù)上的智能化能力帶入非結(jié)構(gòu)化文本數(shù)據(jù)領(lǐng)域,從而創(chuàng)造更高的社會實用價值。典型的NLP技術(shù)包括分詞、關(guān)鍵詞識別、詞性識別、相似詞識別、短語識別、主題提取、摘要提取、文本聚類、文本分類等。
自2001年至今,NLP技術(shù)經(jīng)歷了從神經(jīng)語言模型到神經(jīng)網(wǎng)絡(luò),再到大規(guī)模預(yù)訓(xùn)練模型的過程。2001年,圖靈獎獲得者Yoshua Bengio等人提出了第一個神經(jīng)語言模型,即前饋神經(jīng)網(wǎng)絡(luò)。語言建模的主要任務(wù)是給出文本中前部分詞語去預(yù)測下一個詞語,可用于智能輸入法、電子郵件響應(yīng)建議、拼寫自動更正等多個場景。2008年,NLP神經(jīng)網(wǎng)絡(luò)訓(xùn)練中首次引入多任務(wù)學(xué)習(xí)方法,即在多個任務(wù)上訓(xùn)練的模型之間共享參數(shù)。該方法對于模型訓(xùn)練數(shù)據(jù)有限的情況實用性較高。2014年前后,NLP技術(shù)開始廣泛引入循環(huán)、卷積和遞歸等神經(jīng)網(wǎng)絡(luò)模型。2018年至今,NLP主要應(yīng)用基于深度學(xué)習(xí)的大規(guī)模預(yù)訓(xùn)練模型。
目前,NLP技術(shù)已逐步在助力銀行數(shù)字化轉(zhuǎn)型升級、醫(yī)療行業(yè)智能化發(fā)展等領(lǐng)域發(fā)揮出關(guān)鍵作用。作為重要的大數(shù)據(jù)處理技術(shù),NLP技術(shù)應(yīng)用場景廣泛,主要聚焦于文本分析、人機對話、輿論監(jiān)控等方面,可有效提高企業(yè)運營效率并替代規(guī)律性人力工作。特別是在銀行制度文本數(shù)據(jù)識別、抽取、匹配與處理相關(guān)的海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用場景中,NLP技術(shù)具備人工處理無法達到的效率。
銀行制度管理現(xiàn)狀及改進方向
銀行制度管理業(yè)務(wù)痛點
銀行相關(guān)從業(yè)人員在學(xué)習(xí)制度、編發(fā)文件的過程中,可能經(jīng)常會面對制度文件繁多、關(guān)聯(lián)關(guān)系不清等問題,導(dǎo)致學(xué)習(xí)工作質(zhì)效不高,甚至因為制度內(nèi)容存在語義層面的沖突而影響制度建設(shè)的嚴(yán)肅性。因此,銀行迫切需要依托新興數(shù)字化技術(shù)搭建學(xué)習(xí)和工作平臺,對各項制度進行全面、智能化的梳理,形成科學(xué)、規(guī)范的制度分類,分析制度的貫徹落實情況,輔助銀行查漏補缺完善制度體系、融會貫通厘清制度關(guān)系、科學(xué)統(tǒng)籌提升制度協(xié)調(diào)性,支撐銀行踐行治理體系和治理能力現(xiàn)代化理念,并落實強化金融標(biāo)準(zhǔn)供給、狠抓金融標(biāo)準(zhǔn)實施的工作要求。
當(dāng)前,以NLP技術(shù)應(yīng)用為代表的合規(guī)科技能夠有效助力銀行降低合規(guī)成本、滿足相關(guān)制度合規(guī)要求。本文提出的合規(guī)科技技術(shù)方案以數(shù)字化形式實現(xiàn)對制度數(shù)據(jù)和信息的及時、準(zhǔn)確處理,并支持對新的制度初稿與現(xiàn)行監(jiān)管規(guī)制是否存在語義沖突進行識別,以提高制度編寫效率及合規(guī)性。
銀行制度管理的NLP應(yīng)用
NLP技術(shù)在銀行制度管理場景展現(xiàn)出了廣闊的應(yīng)用前景。本文創(chuàng)新提出“SIGMA”應(yīng)用框架,通過將NLP及相關(guān)知識圖譜、OCR(光學(xué)符號識別)等技術(shù)應(yīng)用于制度文件智能化分析系統(tǒng),基于錄入的監(jiān)管制度、金融標(biāo)準(zhǔn)化等文本信息,為銀行在相關(guān)業(yè)務(wù)場景進行制度管理的數(shù)字化轉(zhuǎn)型和智能化升級提供支持。
一是文件內(nèi)容標(biāo)準(zhǔn)化(Standardization of documents),統(tǒng)一標(biāo)準(zhǔn),提高銀行管理能力。通過構(gòu)建多級文檔分類模型和信息抽取模型,將電子版制度文件系統(tǒng)地進行分類整理,利用信息抽取模型自動提取文檔的重要信息,并按照便于查閱的方式,將文檔內(nèi)容進行標(biāo)準(zhǔn)化管理,從而形成一套完整的、可供實時查詢的制度內(nèi)容庫。通過OCR系統(tǒng)對圖片和PDF格式的文件進行文字識別,將原文件轉(zhuǎn)換為文字版本,以供信息抽取模型做進一步處理。
二是文件分類智能化(Intelligent classification),查漏補缺,完善銀行制度建設(shè)體系。依托中文Roberta-base模型,對導(dǎo)入系統(tǒng)的海量制度和文件進行智能分類,幫助使用人員從制度組成和制度內(nèi)容兩方面健全制度體系。這樣一方面快速建立起了制度體系,能面向使用人員提供可視化展示,直觀反映當(dāng)前制度體系的結(jié)構(gòu)組成,幫助使用人員從制度結(jié)構(gòu)組成上進行查漏補缺;另一方面通過提供對制度文件的語義分析,為每個制度形成摘要信息,可幫助使用人員快速掌握制度核心內(nèi)容,從制度內(nèi)容上進行查漏補缺。
三是文件關(guān)系圖譜化(Graphically presentation),融會貫通,厘清銀行制度關(guān)系。通過運用TF-IDF、Word2Vec、SBert三種基于關(guān)鍵詞和語義的內(nèi)容匹配算法,構(gòu)建智能搜索引擎。智能搜索引擎不僅能夠?qū)崿F(xiàn)快速檢索、相關(guān)度排序等經(jīng)典功能,還能夠通過構(gòu)建語義沖突文本案例的文本特征,提供內(nèi)容沖突性分析、內(nèi)容語義理解、智能信息化過濾等新興功能,并通過文件關(guān)系圖譜化技術(shù)予以可視化展現(xiàn)。
四是考核依據(jù)多面化(Measurement diversity),綜合評價,督導(dǎo)銀行制度執(zhí)行。面向制度執(zhí)行單位開展考核工作時,考核材料的真實性辨別存在盲區(qū)。為幫助基層單位掌握各項制度和文件的落實情況,系統(tǒng)提供制度執(zhí)行評價功能,運用語義分析技術(shù),對制度執(zhí)行單位的工作報告、新聞動態(tài)等多種類型的文字材料進行綜合分析,降低材料造假的可行性,從而識別出執(zhí)行單位對制度的貫徹落實情況,為相關(guān)評價工作提供參考。
五是語義沖突識別精準(zhǔn)化(Accurate detection),科學(xué)統(tǒng)籌,提升銀行制度協(xié)調(diào)性。通過NLP技術(shù),對指定的制度條文進行關(guān)鍵詞譜、文本詞云圖、文本摘要、網(wǎng)絡(luò)關(guān)系圖等方面的分析,盡可能全面、簡潔地展示制度條文的全部內(nèi)容。同時提供語義沖突分析功能,既可以對存量制度的矛盾點進行精確定位,也可以將本地文件上傳到系統(tǒng)中進行智能分析,篩查是否與存量制度存在沖突,為編撰新制度提供參考,從而提升制度之間的協(xié)調(diào)性和一致性,提高制度編撰的質(zhì)量和效率。
基于NLP技術(shù)的銀行制度管理系統(tǒng)
基于NLP技術(shù)的銀行制度管理系統(tǒng)由前端、算法和后端三大模塊組成(見圖1)。
前端模塊包括客戶端(PC瀏覽器展示)和服務(wù)應(yīng)用層(涵蓋內(nèi)容分析、摘要生成、情感分析、關(guān)聯(lián)性分析、圖譜可視化和相似性分析)兩部分。前端基于Vue2+Axios+Element+Vuex +Vue-router的技術(shù)架構(gòu),集成ECharts可視化框架,集成OCR技術(shù),支持多種類型的文件識別。
算法模塊包括引擎層和算法技術(shù)層兩部分。引擎層包括NLP引擎和OCR引擎。算法技術(shù)層涉及實體識別、關(guān)系抽取、知識融合、實體消歧和實體鏈指。算法模塊使用BERT、mDeBERTa-v3、RoBERTa、LSTM、TF-IDF等多種自然語言模型,可實現(xiàn)數(shù)據(jù)的自動標(biāo)簽、自動分片、自動特征,結(jié)合快速排序算法可實現(xiàn)語義級別相關(guān)內(nèi)容匹配、外部法規(guī)和內(nèi)部制度條目級別自動關(guān)聯(lián)。
后端模塊包括數(shù)據(jù)加工層、數(shù)據(jù)庫和數(shù)據(jù)底座三部分。數(shù)據(jù)加工層涉及非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的加工。非結(jié)構(gòu)化數(shù)據(jù)加工部分配置有圖標(biāo)解析引擎、OCR解析引擎、文本解析器和表格解析器,從而能實現(xiàn)實體識別、相似度識別、關(guān)鍵詞和事件抽取。結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)加工部分,在ETL基礎(chǔ)上,通過規(guī)則引擎對規(guī)則進行配置和執(zhí)行。數(shù)據(jù)庫主要涉及MySQL和MongoDB。數(shù)據(jù)底座由海量規(guī)章制度和金融標(biāo)準(zhǔn)等非結(jié)構(gòu)化數(shù)據(jù)組成。后端模塊基于Python+Flask+MySQL+MongoDB的技術(shù)架構(gòu),通過uWSGI服務(wù),將后端計算結(jié)果反向發(fā)送到前端服務(wù),再由前端服務(wù)處理后顯示到客戶端。
結(jié)語
銀行數(shù)字化轉(zhuǎn)型背景下,蓬勃發(fā)展的NLP技術(shù)為銀行制度管理的科學(xué)化提升提供了全新的解決方案。通過完善的文件檢索、待發(fā)制度語義沖突分析、關(guān)鍵條文圖譜化等功能,以NLP為代表的人工智能技術(shù)能夠全面革新銀行制度學(xué)習(xí)、標(biāo)準(zhǔn)宣貫、文件管理的工作模式,顯著提升銀行對業(yè)務(wù)條線專用文件的學(xué)習(xí)與檢索效率,大幅降低海量文本數(shù)據(jù)存儲與管理成本,為銀行系統(tǒng)踐行治理體系和治理能力現(xiàn)代化等理念提供堅實的技術(shù)支撐。
(龍盈智達〔北京〕科技有限公司金雨、關(guān)宇航、王彥博對本文亦有貢獻)
(作者單位:中國人民銀行烏魯木齊中心支行, 龍盈智達〔北京〕科技有限公司)
責(zé)任編輯:孫 爽