引言
在企業(yè)日常運(yùn)營(yíng)產(chǎn)生的數(shù)據(jù)中,非結(jié)構(gòu)化數(shù)據(jù)占企業(yè)數(shù)據(jù)總量的 80% 1。員工日常工作中面臨繁重的非結(jié)構(gòu)化文檔處理任務(wù),由于文檔格式復(fù)雜、行文標(biāo)準(zhǔn)不統(tǒng)一,處理過(guò)程既困難又耗時(shí),產(chǎn)生了高昂的人力成本和時(shí)間成本。
盡管機(jī)器人流程自動(dòng)化(roboticprocessautomation,RPA)、大模型在文本切片處理方面表現(xiàn)出色,但對(duì)于非結(jié)構(gòu)化文檔的數(shù)據(jù)抽取效果卻不盡如人意。例如,文檔中表格出現(xiàn)單元格合并、無(wú)邊框、標(biāo)題行列與內(nèi)容行列不對(duì)應(yīng)等情況時(shí),識(shí)別可能為空或錯(cuò)誤數(shù)據(jù)。
筆者團(tuán)隊(duì)以職業(yè)年金信息披露這一典型應(yīng)用場(chǎng)景為例,詳細(xì)闡述了對(duì)復(fù)雜非結(jié)構(gòu)化文檔的自動(dòng)化和智能化處理的探索研究。
1.職業(yè)年金信息披露應(yīng)用場(chǎng)景介紹
職業(yè)年金是為完善機(jī)關(guān)事業(yè)單位多層次養(yǎng)老保險(xiǎn)體系而建立的補(bǔ)充養(yǎng)老保險(xiǎn)制度2。隨著年金市場(chǎng)化投資運(yùn)營(yíng)穩(wěn)步推進(jìn),年金基金投資規(guī)模不斷增長(zhǎng)。為加強(qiáng)基金監(jiān)管,保障基金安全,要求各基金管理機(jī)構(gòu)加強(qiáng)基金信息報(bào)告和信息披露行為[3-4]。
(以下簡(jiǎn)稱“泰康養(yǎng)老”)作為受托人,須收集來(lái)自投資管理人和托管人等管理機(jī)構(gòu)的信息披露報(bào)告,進(jìn)行數(shù)據(jù)比對(duì)后形成受托人信息披露報(bào)告報(bào)送。各機(jī)構(gòu)信息披露報(bào)告通常以多種非結(jié)構(gòu)化文檔形式傳遞,在行業(yè)內(nèi)沿用多年并得到普遍認(rèn)可。泰康養(yǎng)老雖曾多次嘗試通過(guò)數(shù)字化轉(zhuǎn)型推動(dòng)信息數(shù)字化報(bào)送,但由于行業(yè)慣例根深蒂固,基于非結(jié)構(gòu)化文檔信息交換的方式在短期內(nèi)難以被完全取代。
面對(duì)日益增長(zhǎng)的年金運(yùn)營(yíng)規(guī)模,人工信息披露比對(duì)暴露出效率低下、易出錯(cuò)且難以應(yīng)對(duì)復(fù)雜多樣數(shù)據(jù)情況等問(wèn)題。因此,如何在現(xiàn)有情況下,實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化文檔數(shù)據(jù)的精準(zhǔn)抽取與比對(duì),成為提升年金運(yùn)營(yíng)效率、保障信息披露質(zhì)量的關(guān)鍵挑戰(zhàn)。
2.非結(jié)構(gòu)化文檔處理解決方案探索
基于以上問(wèn)題,筆者團(tuán)隊(duì)進(jìn)行了非結(jié)構(gòu)化文檔智能處理的探索。
2.1RPA+DeepSeek
自動(dòng)化探索初期,筆者團(tuán)隊(duì)采用“RPA[5+DeepSeek[]”方式嘗試解決數(shù)據(jù)抽取和比對(duì)問(wèn)題。包括以下三個(gè)步驟:
(1)表格數(shù)據(jù)抽取。將每個(gè)省份的信息披露報(bào)告的所有表格標(biāo)題分別存儲(chǔ)到對(duì)應(yīng)省份列表中,通過(guò)PDFplumber.getTable方法找到對(duì)應(yīng)標(biāo)題下的表格,最后將表格抽取到Excel中,形成各省份的特征表格。
(2)DeepSeek模型學(xué)習(xí)。將特征表格中抽取的行列標(biāo)題存儲(chǔ)到對(duì)應(yīng)省份字典中,再將字典結(jié)構(gòu)輸入DeepSeek模型,通過(guò)數(shù)據(jù)結(jié)構(gòu)訓(xùn)練,構(gòu)建出包含各省份特征的模型庫(kù)。
(3)特征表格數(shù)據(jù)抽取和比對(duì)。將源文件傳送給特征模型庫(kù)進(jìn)行數(shù)據(jù)抽取,通過(guò)Python編程實(shí)現(xiàn)最終的數(shù)據(jù)比對(duì)和校驗(yàn)。
但此方案仍有以下三個(gè)方面的不足:
(1)表格抽取偏移量計(jì)算不準(zhǔn)確。因無(wú)法保證表格最后的單元格為標(biāo)準(zhǔn)格式,如存在合并單元格、插入公式等情況,導(dǎo)致RPA無(wú)法準(zhǔn)確計(jì)算偏移量值,使數(shù)據(jù)抽取丟失。
(2)須手動(dòng)配置字典庫(kù)。如某個(gè)省份表格字段發(fā)生變化,須手動(dòng)更新對(duì)應(yīng)省份字典庫(kù)。
(3)模型訓(xùn)練效果不理想。因DeepSeek對(duì)表格復(fù)雜格式學(xué)習(xí)效果欠佳,無(wú)法較好理解表格字段邏輯,所以成功率僅 35% 。
2.2預(yù)訓(xùn)練模型
預(yù)訓(xùn)練模型是指在大規(guī)模數(shù)據(jù)集上預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,在自然語(yǔ)言處理(NLP)、圖像識(shí)別等領(lǐng)域應(yīng)用廣泛,常見(jiàn)模型包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、基于Transformer的雙向編碼器表征(bidirectionalencoderrepresentationsfromtransformers,BERT)模型、詞向量(Word2Vec)模型等。在大規(guī)模數(shù)據(jù)集上,通過(guò)某些特定任務(wù)進(jìn)行模型預(yù)先訓(xùn)練。通過(guò)預(yù)訓(xùn)練,讓模型學(xué)習(xí)到數(shù)據(jù)內(nèi)在結(jié)構(gòu)和規(guī)律,以及語(yǔ)言通用表示。經(jīng)筆者團(tuán)隊(duì)反復(fù)實(shí)驗(yàn)及論證,最終采用預(yù)訓(xùn)練模型技術(shù)方案進(jìn)行智能化處理,具體方案及技術(shù)見(jiàn)后文。
3.非結(jié)構(gòu)化文檔智能處理方案設(shè)計(jì)
參照人工信息披露處理流程,基于預(yù)訓(xùn)練模型設(shè)計(jì)了非結(jié)構(gòu)化文檔智能處理方案,具體設(shè)計(jì)如下文所述。
3.1數(shù)據(jù)輸入與預(yù)處理
(1)支持用戶上傳多種格式的年金信息披露報(bào)告文檔。
(2)自動(dòng)進(jìn)行文本清洗和格式標(biāo)準(zhǔn)化。
3.2信息抽取
通過(guò)預(yù)訓(xùn)練模型強(qiáng)大的學(xué)習(xí)能力,自動(dòng)識(shí)別文本中的表格和關(guān)鍵信息。系統(tǒng)能處理多樣化及復(fù)雜化的表格結(jié)構(gòu),確保準(zhǔn)確抽取所需字段信息。
3.3上下文理解與分析
通過(guò)預(yù)訓(xùn)練階段學(xué)習(xí)到的上下文語(yǔ)義關(guān)系,對(duì)抽取到的信息進(jìn)行深人學(xué)習(xí)與分析,掌握語(yǔ)義之間的邏輯關(guān)系。
3.4比對(duì)結(jié)果報(bào)告生成與輸出
將處理后的數(shù)據(jù)比對(duì)結(jié)果生成結(jié)構(gòu)化報(bào)告,支持導(dǎo)出PDF或Excel格式,便于進(jìn)一步分析。
4.預(yù)訓(xùn)練模型關(guān)鍵技術(shù)分析
本方案技術(shù)難點(diǎn)在于預(yù)訓(xùn)練模型訓(xùn)練和訓(xùn)練階段數(shù)據(jù)處理。通過(guò)對(duì)信息披露報(bào)告中表格樣本進(jìn)行特征抽取和訓(xùn)練,建立非結(jié)構(gòu)化文檔智能模型,實(shí)現(xiàn)對(duì)各種復(fù)雜、動(dòng)態(tài)表格數(shù)據(jù)的精準(zhǔn)抽取,完成數(shù)據(jù)比對(duì)(如圖1所示),具體分為三個(gè)步驟。
(1)表格切片。以表格為中心進(jìn)行切割,將表格拆分為“表格標(biāo)題”“列標(biāo)題”“行標(biāo)題”和“數(shù)據(jù)區(qū)域”。
(2)模型訓(xùn)練。根據(jù)拆分后的表格切片確定字段和數(shù)據(jù)抽取的模型和算法,通過(guò)TensorFlow進(jìn)行模型訓(xùn)練,生成對(duì)應(yīng)表格模型。
(3)數(shù)據(jù)提取。將不同表格樣本數(shù)據(jù)輸入對(duì)應(yīng)表格訓(xùn)練模型,抽取所有字段數(shù)據(jù)。
下面分別闡述各環(huán)節(jié)中涉及的相關(guān)技術(shù)。
4.1表格切片
切片時(shí)文本中存在各種特殊情況,會(huì)產(chǎn)生大量噪聲干擾,對(duì)數(shù)據(jù)準(zhǔn)確抽取與比對(duì)有很大影響。實(shí)踐中筆者團(tuán)隊(duì)遇到的情況包括表格標(biāo)題位置差異、表格格式復(fù)雜多樣、相似度文本識(shí)別等。
(1)表格標(biāo)題位置差異。源文件標(biāo)題位置和標(biāo)準(zhǔn)文件中位置不一致,無(wú)法通過(guò)默認(rèn)標(biāo)題位置找到對(duì)應(yīng)數(shù)據(jù)。
(2)表格格式復(fù)雜多樣。第一,表格標(biāo)題、行列分布等特征結(jié)構(gòu)繁多,如表格標(biāo)題在表格內(nèi)層、表格外層等。第二,同一實(shí)體在不同報(bào)告中存在差異,包括標(biāo)題、表格字段、基金名稱等。第三,部分省份接收到的報(bào)告規(guī)范化較差,存在連體表格、隱藏目錄等情況。
(3)相似度文本識(shí)別。實(shí)際樣本數(shù)據(jù)中存在大量相似度文本,如“受托戶凈資產(chǎn)變動(dòng)表、受托財(cái)產(chǎn)資產(chǎn)變動(dòng)表”“占凈資產(chǎn)比例 (% )、占組合凈資產(chǎn)比例(% )”等,極易被解析為同義詞。
為減少文本數(shù)據(jù)干擾,確保表格切片準(zhǔn)確度,筆者團(tuán)隊(duì)進(jìn)行了文本降噪和相似度處理的研究和解決。筆者團(tuán)隊(duì)采用自然語(yǔ)言處理(NLP)工具SpaCy和NLTK雙模型降噪方法,對(duì)兩種模型降噪結(jié)果進(jìn)行比對(duì),取交集,提高可信度,減少因降噪帶來(lái)的誤差。
4.1.1 SpaCy模型
第一,分詞階段。使用分界符(表格中特定的標(biāo)點(diǎn)符號(hào))初始化分詞器,切分原始文本,獲得單獨(dú)token。例如,將“定期存款/協(xié)議存款”進(jìn)行分詞,剔除分隔符,轉(zhuǎn)換成“定期存款”“協(xié)議存款”。
第二,模式匹配階段。將上一步得到的分詞,建立parten(要進(jìn)行匹配的短語(yǔ)模式列表)在文中查找符合各自模式的短語(yǔ)。
第三,將短語(yǔ)中的分詞進(jìn)行詞性標(biāo)注,構(gòu)建具有年金信息披露特征的語(yǔ)料庫(kù),用于模型訓(xùn)練。
第四,將訓(xùn)練好的模型應(yīng)用于全部樣本,最終查找出符合匹配規(guī)則的對(duì)象。
4.1.2NLTK模型
第一,分詞。使用NLTK模型中的函數(shù)work_tokenize將樣本切割成單詞。
第二,降噪。采用停用詞庫(kù)篩選掉分詞后的無(wú)意義詞語(yǔ)。
第三,標(biāo)注詞性。為分詞的每個(gè)單詞標(biāo)注詞性,建立單詞、單詞屬性映射表。
第四,使用正則表達(dá)式定義簡(jiǎn)單的語(yǔ)法規(guī)則來(lái)表示名詞短語(yǔ),NP表示名詞短語(yǔ),NN表示名詞。
第五,使用解析器對(duì)標(biāo)注后的文本進(jìn)行解析,并抽取出符合語(yǔ)法規(guī)則的短語(yǔ)。
NLTK模型是SpaCy模型的有效補(bǔ)充,能有效提高文本分詞精準(zhǔn)度。通過(guò)使用兩種降噪方法,模型能更準(zhǔn)確地理解和處理信息,實(shí)現(xiàn)了 100% 精確匹配。
另外,筆者團(tuán)隊(duì)采用基于NLP文本相似度處理技術(shù),解決相似度文本問(wèn)題。例如,對(duì)于“受托戶凈資產(chǎn)變動(dòng)表、受托財(cái)產(chǎn)資產(chǎn)變動(dòng)表”,通常模型處理時(shí)會(huì)產(chǎn)生幻覺(jué)問(wèn)題,容易把這類相似度文本理解為同義詞,造成數(shù)據(jù)抽取混亂。
為解決這個(gè)問(wèn)題,筆者團(tuán)隊(duì)采用詞嵌入方法,通過(guò)預(yù)訓(xùn)練詞向量(Word2Vec)模型加載詞向量,構(gòu)建高維空間,并將每個(gè)短語(yǔ)映射到高維空間中,通過(guò)余弦相似度方法計(jì)算出兩個(gè)文本的相似度。以“資產(chǎn)”“受托戶”“凈資產(chǎn)”“受托資產(chǎn)”“受托組合”為例,在分詞設(shè)計(jì)中,每個(gè)分詞按照7D維度張量解釋,最后通過(guò)余弦相似度找到分詞間的差異。如圖2所示,可以看出分詞向量點(diǎn)之間的距離差異,從而實(shí)現(xiàn)分詞之間相似度匹配。
4.2模型訓(xùn)練及數(shù)據(jù)提取
筆者團(tuán)隊(duì)在TensorFlow中使用卷積神經(jīng)網(wǎng)絡(luò)[1]實(shí)現(xiàn)表格特征信息抽取,為本方案核心技術(shù)。具體包括以下步驟。
4.2.1特征表格分析
通過(guò)對(duì)各省份樣本數(shù)據(jù)分析,歸結(jié)出不同類型的表格情況,抽取表格特征包括:表格標(biāo)題位置;行、列標(biāo)題位置;列標(biāo)題位置;數(shù)據(jù)起始、終止位置。
4.2.2設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于提取上述表格特征。本模型由兩個(gè)卷積層、兩個(gè)池化層以及兩個(gè)全連接層組成,激活函數(shù)使用常見(jiàn)的ReLU函數(shù)。
(1)模型輸入是一個(gè) 32×32×64 張量,分別為行列標(biāo)題、數(shù)據(jù)區(qū)域。
(2)卷積層。第一層應(yīng)用32個(gè)過(guò)濾器用于提取表格基本特征。隨著網(wǎng)絡(luò)加深,特征圖空間維度逐漸減少,特征數(shù)量逐漸增加;第二層卷積采用64個(gè)過(guò)濾器。
(3)根據(jù)輸入數(shù)據(jù)特征,兩個(gè)池化層均采用最大池化層,可更好地保留顯著特征。
(4)在神經(jīng)網(wǎng)絡(luò)最后放置兩個(gè)全連接層配合ReLU函數(shù)對(duì)結(jié)果進(jìn)行分類并輸出。
4.2.3模型實(shí)現(xiàn)
用Sequential0函數(shù)類定義表格特征模型,并用add(函數(shù)將每層神經(jīng)網(wǎng)絡(luò)添加到模型中,最后通過(guò)summary(函數(shù)得到整體模型架構(gòu),如圖3所示。模型中包含每一層類型、特征形態(tài)、訓(xùn)練參數(shù)總數(shù)的全部信息。
最終經(jīng)過(guò)各省份樣本數(shù)據(jù)的模型訓(xùn)練,通過(guò)show_curve輔助函數(shù)繪制模型訓(xùn)練后的數(shù)據(jù)準(zhǔn)確度、精準(zhǔn)度(如圖4所示)。當(dāng)模型訓(xùn)練樣本數(shù)據(jù)不足5個(gè)時(shí),訓(xùn)練準(zhǔn)確度和精度已達(dá)到68% 。隨著樣本數(shù)據(jù)增加到 80% ,模型準(zhǔn)確率接近 95% ,從而驗(yàn)證了預(yù)訓(xùn)練模型的有效性。
4.2.4數(shù)據(jù)提取
模型訓(xùn)練確定后,對(duì)所有樣本數(shù)據(jù)進(jìn)行切片,逐一輸入模型,根據(jù)模型特征找到對(duì)應(yīng)的解析算法,完成數(shù)據(jù)提取。
最后,筆者團(tuán)隊(duì)將預(yù)訓(xùn)練模型的識(shí)別準(zhǔn)確度與“RPA + DeepSeek”進(jìn)行了效果對(duì)比,如表1所示,預(yù)訓(xùn)練模型對(duì)表格特殊類型的識(shí)別成功率均明顯高于\"RPA+DeepSeek”。
5.進(jìn)化方向
由于當(dāng)前案例場(chǎng)景獲取的樣本數(shù)據(jù)有限,模型訓(xùn)練還有較多需完善和優(yōu)化的空間。筆者團(tuán)隊(duì)下階段主要聚焦預(yù)訓(xùn)練模型降噪能力的提升和改進(jìn)。
5.1增強(qiáng)模型降噪能力
當(dāng)前各省文檔存在較多噪聲干擾,部分嚴(yán)重噪點(diǎn)須通過(guò)手工預(yù)處理才可提交模型解析。
5.2建立定制化預(yù)訓(xùn)練模型
增加更多維度文檔特征,如隱藏?cái)?shù)據(jù)、表格錯(cuò)位、連體表格等特征,按省份建立定制化預(yù)訓(xùn)練模型,進(jìn)一步減少手工干預(yù),提升智能化和效率。
最終,通過(guò)持續(xù)科學(xué)嚴(yán)謹(jǐn)?shù)哪P蛢?yōu)化,實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化文檔數(shù)據(jù)提取和比對(duì)的端到端全流程智能化操作。
結(jié)語(yǔ)
本文選擇采用年金信息披露數(shù)據(jù)比對(duì)這一典型復(fù)雜場(chǎng)景,來(lái)進(jìn)行技術(shù)方案的實(shí)驗(yàn)和研究,結(jié)果表明能大幅提高數(shù)據(jù)提取準(zhǔn)確度。除此之外,該技術(shù)在政府機(jī)構(gòu)、企事業(yè)單位、金融機(jī)構(gòu)等擁有大量非結(jié)構(gòu)化文檔數(shù)據(jù)的組織中也有廣泛應(yīng)用場(chǎng)景,并可與其他技術(shù)結(jié)合,拓展應(yīng)用場(chǎng)景。例如,結(jié)合圖形圖像處理技術(shù)、模型訓(xùn)練和自然語(yǔ)言處理工具,可應(yīng)用于智能問(wèn)答語(yǔ)料的切片處理、標(biāo)書編寫、機(jī)構(gòu)年報(bào)編寫等場(chǎng)景,顯著提高作業(yè)效率、降低人工成本、提升數(shù)據(jù)處理準(zhǔn)確性,也可應(yīng)用于非結(jié)構(gòu)化文檔的數(shù)據(jù)治理,賦能數(shù)據(jù)價(jià)值的挖掘和實(shí)現(xiàn)。
參考文獻(xiàn):
[1]中國(guó)新聞網(wǎng).電子標(biāo)準(zhǔn)院-鴻翼非結(jié)構(gòu)化數(shù)據(jù)管理解決方案聯(lián)合實(shí)驗(yàn)室成立[EB/OL].(2020-09-24)[2025-03-20].https://www.chinanews.com.cn/business/2020/09-24/9298887.shtml.
[2]國(guó)務(wù)院辦公廳.國(guó)務(wù)院辦公廳關(guān) 于印發(fā)機(jī)關(guān)事業(yè)單位職業(yè)年金辦法的 通知(國(guó)辦發(fā)[2015]18號(hào))[EB/OL]. (2015-04-06)[2025-03-20].https://www. gov.cn/zhengce/content/2015-04/06/ content_9581.htm.
[3]人社部財(cái)政部印發(fā)職業(yè)年金基金管理暫行辦法(人社部發(fā)[2016]92號(hào))[EB/OL].(2016-09-28)[2024-12-5].https://www.gov.cn/xinwen/2016-10/12/content_5117950.htm.
[4]工商銀行.《職業(yè)年金基金信息報(bào)告和信息披露暫行辦法》(人社廳發(fā)[2019]120號(hào))[EB/OL].https://icbc.com.cn/page/721852693214953512.html.
[5]廖萬(wàn)里.金融行業(yè)企業(yè)級(jí)RPA案例分析[].金融科技時(shí)代,2021,29(7):32-34.
[6]BiX,Chen DL,Chen GT,et al.DeepSeek LLM:Scaling Open-Source Language Models with Longtermism[EB/ OL].(2024-01-05)[2025-03-20].https:// arxiv.org/abs/2401.02954.
[7]Devlin J,Chang M W,Lee K,et al.BERT: Pre-training ofDeep Bidirectional Transformers for Language Understanding. [EB/OL].(2018-10-11)[2025-03-20]. https://arxiv.org/abs/1810.04805.
[8]Mikolov T,Chen K,Corrado G,etal.EfficientEstimationofWord Representations in Vector Space[EB/OL]. (2013-01-16)[2025-03-20].https://arxiv. org/abs/1301.3781.
[9]AbadiM,AgarwalA,BarhamP,et al.TensorFlow:Large-ScaleMachine Learning on Heterogeneous Distributed Systems[EB/OL].(2016-03-14[2025-03- 20].https://arxiv.org/abs/1603.04467.
[10]Fukushima,K.Neocognitron: Aself-organizing neural network model for a mechanism of pattern recognition unaffectedbyshiftinposition[J].Biological Cybernetics,1980,36:193-202.
作者簡(jiǎn)介:師謙,碩士研究生,277525428@qq.com,研究方向:智能化處理技術(shù)。