周樂
大模型技術(shù)要賦能千行百業(yè),其中一個重要領(lǐng)域就是借助大模型范式和技術(shù),投喂優(yōu)質(zhì)行業(yè)數(shù)據(jù)訓(xùn)練行業(yè)大模型。圖/視覺中國
數(shù)據(jù),尤其是電子數(shù)據(jù),是伴隨著處理數(shù)據(jù)的應(yīng)用系統(tǒng)而出現(xiàn)的,因此,數(shù)據(jù)價值會通過應(yīng)用系統(tǒng)在提高決策質(zhì)量、優(yōu)化業(yè)務(wù)流程、推動創(chuàng)新和個性化服務(wù)等方面發(fā)揮出顯性作用,在信息化時代,人們普遍認為這種作用是由開發(fā)應(yīng)用系統(tǒng)帶來的,因此,應(yīng)用系統(tǒng)的研發(fā)費用很早就可以計入企業(yè)的資產(chǎn)負債表。
數(shù)據(jù)要素化,進一步強調(diào)了數(shù)據(jù)的重要性。國際數(shù)據(jù)管理協(xié)會(DAMA)對“數(shù)據(jù)”的定義是,以文字、數(shù)字、圖形、圖像、聲音和視頻等格式對事實進行表現(xiàn)。而“要素”是構(gòu)成事物的必要因素。數(shù)據(jù)要素化,即將數(shù)據(jù)作為生產(chǎn)要素。
農(nóng)業(yè)經(jīng)濟時代,勞動力和土地是生產(chǎn)要素,工業(yè)經(jīng)濟時代,資本和技術(shù)是生產(chǎn)要素。進入數(shù)字經(jīng)濟時代后,數(shù)據(jù)則上升為新的關(guān)鍵生產(chǎn)要素,這意味著,數(shù)據(jù)將成為人類社會進步更加重要的驅(qū)動力。
將數(shù)據(jù)變成一種新型生產(chǎn)要素已是共識。上到國家政策,下到千行百業(yè),數(shù)據(jù)要素化的探索之路已經(jīng)走了很遠。積累了不少經(jīng)驗和教訓(xùn)。
中國具有完整工業(yè)體系,在全球供應(yīng)鏈中占據(jù)重要地位,具有最豐富的產(chǎn)業(yè)“暗數(shù)據(jù)”,這是我國在大模型時代最大的優(yōu)勢,基于這個背景,中國的行業(yè)大數(shù)據(jù)是不折不扣的“石油”,數(shù)據(jù)要素化需要一臺更加有力的“內(nèi)燃機”。行業(yè)大模型可能是當下最適合的“內(nèi)燃機”。
2017年12月8日,習(xí)近平總書記在主持中共中央政治局就實施國家大數(shù)據(jù)戰(zhàn)略進行的第二次集體學(xué)習(xí)時指出:“要構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟。建設(shè)現(xiàn)代化經(jīng)濟體系離不開大數(shù)據(jù)發(fā)展和應(yīng)用?!睌?shù)據(jù)的生產(chǎn)要素地位得到進一步明確。2010年后,全球各主要經(jīng)濟體開始將數(shù)據(jù)相關(guān)發(fā)展問題上升到國家戰(zhàn)略層面。2020年3月30日,中共中央、國務(wù)院發(fā)布《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》,明確提出要加快培育數(shù)據(jù)要素市場。2022年12月19日,為進一步讓數(shù)據(jù)“活起來、動起來、用起來”,中共中央、國務(wù)院發(fā)布《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》。2023年10月25日,國家數(shù)據(jù)局成立,同年12月發(fā)布了“數(shù)據(jù)要素X”三年行動計劃。2024年,在全國數(shù)據(jù)工作會議上,國家數(shù)據(jù)局進一步明確將數(shù)據(jù)要素市場化配置改革作為一條主線推進相關(guān)工作。促進數(shù)據(jù)要素大規(guī)模流動和市場化配置成為改革發(fā)展的重要方向。
這體現(xiàn)了國家層面對數(shù)據(jù)作為戰(zhàn)略性資源的重視程度,另一方面,行業(yè)其實也在積極找尋數(shù)據(jù)要素化的最佳模式。
不過,由于數(shù)據(jù)的無形性、非獨占性、非消耗性、時效性、動態(tài)性等特點,數(shù)據(jù)在成為要素之路上還存在不少問題。
在促進數(shù)據(jù)要素流通方面,政府借鑒了搞活市場經(jīng)濟的成功經(jīng)驗,通過設(shè)立數(shù)據(jù)交易所來激發(fā)數(shù)據(jù)交易。但總體來看,市場反應(yīng)沒有預(yù)期的熱烈,尚未形成可持續(xù)的商業(yè)模式。
出現(xiàn)這種情況,與數(shù)據(jù)交易所的交易方式有很大關(guān)系。交易所成立初期采用了數(shù)據(jù)直接買賣的方式,后期加入了數(shù)據(jù)產(chǎn)品的交易。初期模式下,數(shù)據(jù)脫離了具體使用場景,數(shù)據(jù)價值大部分情況下靠數(shù)據(jù)量大小來度量,這直接導(dǎo)致定價標準和實際價值難以匹配,并對數(shù)據(jù)權(quán)屬和數(shù)據(jù)安全提出了巨大的挑戰(zhàn)。
后期模式一定程度上解決了初期問題,但產(chǎn)品標準化程度低,不少數(shù)據(jù)產(chǎn)品是將數(shù)據(jù)批量交換變成API接口,數(shù)據(jù)的交換邏輯其實沒有本質(zhì)變化。另外,雖然也有成功的數(shù)據(jù)產(chǎn)品,但總體來看,存在供給與需求不匹配問題。
推進數(shù)據(jù)資源入表是數(shù)據(jù)要素化的重要一步。在這方面,財政部發(fā)布的《企業(yè)數(shù)據(jù)資源相關(guān)會計處理暫行規(guī)定》,明確了數(shù)據(jù)資源作為資產(chǎn)進行確認、計量和報告的具體要求。中國資產(chǎn)評估協(xié)會發(fā)布的《數(shù)據(jù)資產(chǎn)評估指導(dǎo)意見》為數(shù)據(jù)資產(chǎn)評估提供指導(dǎo)原則,明確了收益法、成本法和市場法等評估方法。
但在實際操作中仍存在不少挑戰(zhàn)。
一是數(shù)據(jù)資源的取得和處理、權(quán)屬認定方面必須合規(guī)合法,涉及個人信息和重要數(shù)據(jù)的保護更需要謹慎處理。
另外,數(shù)據(jù)是活的,它的活躍度、顆粒度、新鮮度和匹配度決定了數(shù)據(jù)資源成本或價值的可靠計量存在難度,時效性導(dǎo)致數(shù)據(jù)價值經(jīng)常變動,企業(yè)內(nèi)部數(shù)據(jù)雖然在企業(yè)經(jīng)營管理方面作用十分明顯,但入表價值延伸到諸如金融領(lǐng)域時,大家擔(dān)心在出現(xiàn)風(fēng)險的時候,這些抵押數(shù)據(jù)能發(fā)揮多大風(fēng)險緩釋作用?
還有一個規(guī)避不了的挑戰(zhàn)是,企業(yè)需要在會計報表附注中對數(shù)據(jù)資源進行詳細披露,但從另一個層面來說,這也屬于企業(yè)的商業(yè)秘密。
以及,不同行業(yè)的數(shù)據(jù)資源特性和業(yè)務(wù)模式差異較大,導(dǎo)致數(shù)據(jù)入表的方法需要個性化處理。
目前的模式一定程度上讓數(shù)據(jù)“要素化”,但并不徹底。
數(shù)據(jù)是“石油”,數(shù)據(jù)要素化要尋找數(shù)據(jù)時代的“內(nèi)燃機”。
生產(chǎn)要素具有功能性和時代性特點,資源之所以成為生產(chǎn)要素,是因為存在利用這些資源創(chuàng)造經(jīng)濟價值的技術(shù)或載體。正如石油需要內(nèi)燃機來彰顯其能量,土地需要建筑物呈現(xiàn)其價值一樣。當數(shù)據(jù)獨立出來要素化,必須找到數(shù)據(jù)“石油”的“內(nèi)燃機”。這臺“內(nèi)燃機”,應(yīng)該解決一些現(xiàn)實痛點。比如:具備更強的標準化程度;能顯性呈現(xiàn)數(shù)據(jù)的內(nèi)在價值并能倍增單一個體不具備的價值;可以有效規(guī)避數(shù)據(jù)保護、隱私等安全問題;能發(fā)揮出歷史數(shù)據(jù)作用,解決數(shù)據(jù)時效性問題;擁有更簡單、透明的價值計量方式等特點。
大模型可能是當下最適合的數(shù)據(jù)要素時代的“內(nèi)燃機”。
目前的大模型多是以公開數(shù)據(jù)訓(xùn)練出的通用大模型,這些公開數(shù)據(jù)俗稱“明數(shù)據(jù)”,還有大量的數(shù)據(jù)是存在各單位內(nèi)部的“暗數(shù)據(jù)”。大模型技術(shù)要賦能千行百業(yè),其中一個重要領(lǐng)域就是借助大模型范式和技術(shù),投喂優(yōu)質(zhì)行業(yè)數(shù)據(jù)訓(xùn)練行業(yè)大模型。
假以時日,一旦訓(xùn)練出具有行業(yè)特點的行業(yè)大模型,并能在基礎(chǔ)理論、研發(fā)設(shè)計、中試驗證等關(guān)鍵環(huán)節(jié)展現(xiàn)出“多任務(wù)泛化”能力,甚至是超預(yù)期的“智力涌現(xiàn)”能力,將對行業(yè)帶來顛覆式影響,這在生物制藥領(lǐng)域已有成功案例。
需要注意的是,目前大模型落地方案中,利用自有數(shù)據(jù)開展微調(diào)、RAG或智能體應(yīng)用提升自有數(shù)據(jù)檢索和理解能力的大模型還十分初級,距真正賦能行業(yè)的大模型還相距甚遠。最近華裔數(shù)學(xué)家陶哲軒領(lǐng)銜的一份美國總統(tǒng)報告總結(jié)預(yù)測了AI對半導(dǎo)體、超導(dǎo)體、宇宙基礎(chǔ)物理學(xué)、生命科學(xué)等領(lǐng)域帶來的巨大改變。如果這些預(yù)測在幾十年后能夠?qū)崿F(xiàn),美國醞釀的“AI登月計劃”就將成真。
資料來源:作者提供。制圖:顏斌
中國具有最完整的工業(yè)體系,在全球供應(yīng)鏈中占據(jù)重要地位,具有豐富的產(chǎn)業(yè)“暗數(shù)據(jù)”,這是我國在大模型時代的比較優(yōu)勢,以大模型范式做為新科研范式,通過大模型尋求大參數(shù)因果律也許是彌補我們基礎(chǔ)理論和創(chuàng)新研發(fā)短板的一種可能,我們期望帶有“智力涌現(xiàn)”能力的“金融大模型”“煉鋼大模型”“醫(yī)療大模型”“育種大模型”等行業(yè)大模型能早日出現(xiàn)。
筆者將“以大模型為中信的數(shù)據(jù)要素化”流程制作成了一張圖表,如上圖所示,可以有效落實《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》中發(fā)揮數(shù)據(jù)要素作用,賦能實體經(jīng)濟等目標,以及數(shù)據(jù)要素收益分配制度中“誰投入、誰貢獻、誰受益”的原則,有效化解數(shù)據(jù)要素化中的主要問題。
在數(shù)據(jù)匯集環(huán)節(jié),相對于通用大模型訓(xùn)練“無數(shù)不用”,行業(yè)大模型訓(xùn)練具有明確行業(yè)主題,更喜歡長周期歷史數(shù)據(jù),標準相對統(tǒng)一,數(shù)據(jù)質(zhì)量更容易甄別。因此,這個環(huán)節(jié)的數(shù)據(jù)貢獻度具有很好的度量性。
模型訓(xùn)練是個相對封閉過程,訓(xùn)練后的模型呈現(xiàn)的是萃取后的參數(shù),不會暴露任何原始數(shù)據(jù),完美解決了加工和流通中的數(shù)據(jù)安全問題。行業(yè)大模型服務(wù)具有很好的標準化程度,既回避了原始數(shù)據(jù)流通各種不便,還能體現(xiàn)出“智力涌現(xiàn)”的增值,收費會更公平、高效、規(guī)范。這幾個環(huán)節(jié)配合將形成數(shù)據(jù)要素流通的閉環(huán),促進商業(yè)模式的成熟。
上述過程的關(guān)鍵是數(shù)據(jù)匯集這個環(huán)節(jié),該環(huán)節(jié)需要有能力的牽頭單位和合理的匯集機制。能承擔(dān)這個角色的主要有兩類單位:政府或行業(yè)主管部門,以及行業(yè)龍頭企業(yè)。在公共數(shù)據(jù)上,政府更容易發(fā)力。以醫(yī)療大模型為例,可由政府牽頭匯集醫(yī)療機構(gòu)的數(shù)據(jù),同時利用自己的公信力,通過引入保險等金融服務(wù)或以未來的大模型服務(wù)做為回報來獲得患者數(shù)據(jù)的授權(quán),再借助大數(shù)據(jù)局等機構(gòu)做為持有者聯(lián)合外部機構(gòu)開展大模型訓(xùn)練工作。行業(yè)龍頭企業(yè)更聚焦到具體產(chǎn)業(yè)領(lǐng)域,以自有數(shù)據(jù)為基礎(chǔ),再以自身影響力聯(lián)合其他同行共建行業(yè)數(shù)據(jù)集。有些行業(yè)競爭格局比較復(fù)雜,就需要發(fā)揮行業(yè)主管部門的統(tǒng)籌作用了。
上述過程在實際操作中還將面臨各種問題,比如,部門籬笆墻對數(shù)據(jù)匯集的限制,龍頭企業(yè)缺少高質(zhì)量數(shù)據(jù)積累,但時代大勢不可逆,大模型是一種革命性技術(shù),它影響著國家競爭力。
在行業(yè)大模型訓(xùn)練這件事上,需要拋棄內(nèi)部競爭的小格局,思考國際對手如果早于我們訓(xùn)練出行業(yè)大模型,將對我們產(chǎn)生什么影響?我們需要盡最大力量、在最大范圍、以最高效率匯集行業(yè)大數(shù)據(jù),有針對性、有序開展行業(yè)大模型建設(shè)工作,以此為抓手在數(shù)據(jù)要素化上探索出一條中國特色之路。
(作者為中信集團信息技術(shù)部副總經(jīng)理;編輯:謝麗容)