柴洪峰
隨著金融科技的蓬勃發(fā)展,金融行業(yè)正經(jīng)歷著一場(chǎng)革命性的變革。金融垂直領(lǐng)域模型構(gòu)建與金融數(shù)據(jù)的結(jié)合成為推動(dòng)金融科技創(chuàng)新和發(fā)展的重要?jiǎng)恿ΑMㄟ^整合跨學(xué)科研究和系統(tǒng)方法,能夠探索金融系統(tǒng)的整體性和復(fù)雜性,超越單點(diǎn)技術(shù)突破,從而推動(dòng)金融科技的突破性進(jìn)展。近日,國(guó)家金融與發(fā)展實(shí)驗(yàn)室副主任楊濤教授邀請(qǐng)我為《生成式AI大模型:賦能金融業(yè)變革》作序,我將從大模型賦能金融科技方面談?wù)勛约旱乃伎己蛯?duì)未來的展望。
大數(shù)據(jù)、人工智能和機(jī)器學(xué)習(xí)等技術(shù)的發(fā)展,使人們能更快速、高效地獲取、分析、存儲(chǔ)、共享和整合各種異構(gòu)數(shù)據(jù)。然而,金融垂直領(lǐng)域的大模型應(yīng)用仍面臨一些挑戰(zhàn)。金融數(shù)據(jù)和知識(shí)的私密性限制了共享和構(gòu)建大規(guī)模數(shù)據(jù)集的能力。此外,金融數(shù)據(jù)的多模態(tài)特性增加了模型處理和建模的復(fù)雜性。為了克服這些難題,加強(qiáng)產(chǎn)學(xué)研的合作勢(shì)在必行,共同構(gòu)建更強(qiáng)大的金融垂直領(lǐng)域基礎(chǔ)模型,提升大模型對(duì)多模態(tài)數(shù)據(jù)的表達(dá)能力至關(guān)重要。
金融科技的崛起正在改變金融行業(yè)的面貌,實(shí)現(xiàn)金融科技突破對(duì)于推動(dòng)金融領(lǐng)域的創(chuàng)新和發(fā)展至關(guān)重要。而整體思維和系統(tǒng)認(rèn)知是實(shí)現(xiàn)金融科技突破的首要前提,金融系統(tǒng)是一個(gè)開放復(fù)雜巨系統(tǒng),已經(jīng)很難依靠“點(diǎn)”上的技術(shù)突破實(shí)現(xiàn)整體提升。所以需要將跨學(xué)科的研究和系統(tǒng)方法作為解決重大關(guān)鍵問題的首選項(xiàng)。
系統(tǒng)認(rèn)知就是要從系統(tǒng)要素構(gòu)成、互作機(jī)理和耦合作用來探索問題的解決途徑。金融與實(shí)體經(jīng)濟(jì)是一個(gè)生命共同體,金融領(lǐng)域的科學(xué)突破必須突破單要素思維,從資源利用、運(yùn)作效力、系統(tǒng)彈性和可持續(xù)性的整體維度進(jìn)行思考。
數(shù)據(jù)科學(xué)和信息技術(shù)是金融領(lǐng)域的戰(zhàn)略性關(guān)鍵技術(shù),數(shù)據(jù)科學(xué)和分析科技的進(jìn)步為金融領(lǐng)域的研究和知識(shí)應(yīng)用提供了重要的突破機(jī)遇。大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)等技術(shù)的發(fā)展提供了更快速的收集、分析、存儲(chǔ)、共享和集成異構(gòu)數(shù)據(jù)的能力和高級(jí)分析方法。數(shù)據(jù)科學(xué)和信息技術(shù)能夠極大提高對(duì)復(fù)雜問題的解決能力,在動(dòng)態(tài)變化條件下,自動(dòng)整合數(shù)據(jù)并進(jìn)行實(shí)時(shí)建模,促進(jìn)形成數(shù)據(jù)驅(qū)動(dòng)的智慧管控。
人機(jī)混合智能技術(shù)將成為推動(dòng)金融領(lǐng)域進(jìn)步的創(chuàng)新驅(qū)動(dòng)技術(shù)。人機(jī)混合智能技術(shù)包括自然語言處理、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、語音識(shí)別和智能推薦等多個(gè)領(lǐng)域。這些技術(shù)的發(fā)展使得人和機(jī)器間的交互變得更加智能化,人機(jī)混合智能在金融領(lǐng)域的應(yīng)用也越來越多,最新的大模型技術(shù),如ChatGPT、MOSS、ChatGLM等,是和目前的金融垂直領(lǐng)域結(jié)合的熱點(diǎn)。
金融數(shù)據(jù)底座的構(gòu)建可以包括各類金融實(shí)時(shí)數(shù)據(jù),各類需解析的文檔數(shù)據(jù)、各類非結(jié)構(gòu)化數(shù)據(jù)以及信息高度濃縮文本。通過龐大的金融垂直類數(shù)據(jù)為金融大模型提供數(shù)據(jù)支撐。
對(duì)于金融垂直領(lǐng)域大模型的構(gòu)造需要解決的關(guān)鍵問題有如下三點(diǎn)。
一是多源、異構(gòu)金融數(shù)據(jù)金融數(shù)字底座構(gòu)建、金融數(shù)據(jù)安全共享使用。
二是金融數(shù)據(jù)底座與大模型的融合技術(shù),解決通用大模型在垂直領(lǐng)域知識(shí)匱乏、知識(shí)關(guān)聯(lián)問題,同時(shí)實(shí)現(xiàn)模型根據(jù)數(shù)據(jù)實(shí)時(shí)更新、不斷迭代。
三是基于金融科技底座的大模型對(duì)于金融科技多領(lǐng)域的應(yīng)用賦能,展現(xiàn)金融垂直領(lǐng)域涌現(xiàn)能力。
然而目前大模型在金融垂直領(lǐng)域仍未挖掘出涌現(xiàn)效應(yīng),一方面是由于金融數(shù)據(jù)及知識(shí)的私密性導(dǎo)致難以共享,無法構(gòu)建一個(gè)龐大的數(shù)據(jù)集,對(duì)此可以增強(qiáng)產(chǎn)學(xué)研的聯(lián)動(dòng)性,共同構(gòu)建更強(qiáng)的金融垂直領(lǐng)域基座模型。另一方面由于金融數(shù)據(jù)模態(tài)更多,難以進(jìn)行統(tǒng)一的處理建模,而如今的大模型對(duì)此種多模態(tài)的表達(dá)能力仍有待加強(qiáng)。
在過去的研究中,我們構(gòu)建金融知識(shí)圖譜系統(tǒng),其過程多為從研報(bào)、財(cái)報(bào)等各類非結(jié)構(gòu)化文本信息中抽取多源異構(gòu)知識(shí),通過實(shí)體對(duì)齊、實(shí)體消歧等知識(shí)融合方法完善龐大復(fù)雜的金融知識(shí)圖譜,并通過分布式圖數(shù)據(jù)庫存儲(chǔ)圖數(shù)據(jù),便于后續(xù)分布式圖算法的開發(fā)與應(yīng)用,這些已構(gòu)建的金融知識(shí)圖譜在大模型時(shí)代仍有其不可替代的應(yīng)用。
知識(shí)圖譜是過去對(duì)顯示知識(shí)的一種符號(hào)化表達(dá),大模型是對(duì)隱性知識(shí)的新興表達(dá)。在大模型時(shí)代,也不能完全摒棄已構(gòu)建的海量知識(shí)圖譜,知識(shí)圖譜能夠指導(dǎo)大模型對(duì)行業(yè)進(jìn)行正確精準(zhǔn)的認(rèn)知,提高其理解、推理決策的能力。知識(shí)圖譜及專家知識(shí)庫解決問題的范式需要與基于與統(tǒng)計(jì)學(xué)習(xí)的大模型范式相融合,才能更好推動(dòng)領(lǐng)域內(nèi)涌現(xiàn)能力的出現(xiàn)。我們需要把以知識(shí)圖譜為代表的知識(shí)驅(qū)動(dòng)方法,基于利用靜態(tài)以及動(dòng)態(tài)的知識(shí)圖譜,與以大模型為代表的數(shù)據(jù)驅(qū)動(dòng)方法進(jìn)行持續(xù)交互,運(yùn)用多種模式,以達(dá)到知識(shí)圖譜與大模型的完美結(jié)合。以人機(jī)結(jié)合方式解決現(xiàn)實(shí)中的復(fù)雜問題,在認(rèn)知的過程中,通過人機(jī)協(xié)同挖掘一些很難由人類或計(jì)算機(jī)單獨(dú)發(fā)現(xiàn)的新知識(shí)。
金融數(shù)據(jù)和垂直領(lǐng)域大模型密切相關(guān),存在數(shù)據(jù)安全、大模型安全可信和技術(shù)倫理等問題,同時(shí)金融領(lǐng)域也涉及敏感信息和決策,因此對(duì)于金融大模型的監(jiān)管必不可少。
一是建立監(jiān)管框架與標(biāo)準(zhǔn),確保大模型在金融領(lǐng)域的應(yīng)用符合法規(guī)與道德要求,通過政產(chǎn)學(xué)研的合作制定相關(guān)的政策和指南。
二是對(duì)于金融大模型的部署與使用,需要協(xié)同共治,提升透明度,保證數(shù)據(jù)質(zhì)量和可解釋性的機(jī)制。這可以幫助用戶與監(jiān)管機(jī)構(gòu)理解模型的決策依據(jù),并確保其不帶有偏見或歧視性。
三是監(jiān)管機(jī)構(gòu)還應(yīng)加強(qiáng)對(duì)于金融大模型的審查和風(fēng)險(xiǎn)評(píng)估,對(duì)于關(guān)鍵人物和系統(tǒng),應(yīng)建立審查和測(cè)試的機(jī)制以確保其安全性。
具體來講可分為數(shù)據(jù)安全與版權(quán)安全兩個(gè)方面。
首先是數(shù)據(jù)安全問題。大模型的復(fù)雜性和規(guī)模增加了攻擊者進(jìn)行攻擊的可能性。同時(shí),大模型的訓(xùn)練過程涉及更多的數(shù)據(jù)和計(jì)算資源,這也給無惡意攻擊者提供了更多的機(jī)會(huì)來入侵和篡改數(shù)據(jù)模型。目前大模型極易因通過對(duì)抗攻擊、后門攻擊、模型竊取等手段而遭受威脅,需要尋找有效的方法規(guī)避風(fēng)險(xiǎn)。大模型在輔助金融場(chǎng)景知識(shí)問答的過程中,由于無法對(duì)用戶身份進(jìn)行識(shí)別,容易產(chǎn)生高等級(jí)或機(jī)密信息泄露等風(fēng)險(xiǎn),需要對(duì)大模型訓(xùn)練過程中的數(shù)據(jù)安全等級(jí)做嚴(yán)格的界定。
其次是版權(quán)安全問題。在金融垂直領(lǐng)域大模型開源的情況下,被惡意竊取并進(jìn)行微調(diào)的現(xiàn)象時(shí)有發(fā)生,可利用特定的數(shù)據(jù)進(jìn)行輸入,模型識(shí)別到這一特定的輸入,就會(huì)給出不同于正常類的輸出,通過這一行為來判斷模型的歸屬問題。
站在新的歷史起點(diǎn)上,在新的歷史方位和發(fā)展格局中,希望學(xué)界與業(yè)界共同努力,針對(duì)金融科技發(fā)展的科學(xué)問題,聚焦國(guó)家重點(diǎn)關(guān)鍵性、基礎(chǔ)性、牽引性戰(zhàn)略需求任務(wù),發(fā)揮產(chǎn)學(xué)研協(xié)同優(yōu)勢(shì),攻關(guān)金融為實(shí)體經(jīng)濟(jì)服務(wù)的關(guān)鍵技術(shù),為做好中央金融工作會(huì)議提到的“五篇大文章”貢獻(xiàn)力量。
(作者為中國(guó)工程院院士,本文為人民日?qǐng)?bào)出版社《生成式AI大模型:賦能金融業(yè)變革》序言)