肖立志
(1.中國石油大學(xué)(北京)人工智能學(xué)院,北京102249;2.中國石油大學(xué)(北京)地球物理學(xué)院,北京102249;3.中國石油大學(xué)(北京)非常規(guī)油氣教育部國際合作聯(lián)合實(shí)驗(yàn)室,北京102249)
以大數(shù)據(jù)、機(jī)器學(xué)習(xí)、超強(qiáng)算力為基礎(chǔ)的新一代人工智能是具有全局性變革和顛覆性潛力的技術(shù)體系,正在改變?nèi)祟惿鐣?huì)生產(chǎn)生活的方方面面,也不可逆轉(zhuǎn)地改變著科學(xué)研究的問題域和范式。
石油石化行業(yè)涉及上游領(lǐng)域勘探開發(fā)生產(chǎn)環(huán)節(jié)的離散工業(yè)和中、下游領(lǐng)域儲(chǔ)運(yùn)管網(wǎng)及煉油化工環(huán)節(jié)的流程工業(yè),受到綠色環(huán)保節(jié)能等社會(huì)環(huán)境制約和降本增效提質(zhì)等經(jīng)營目標(biāo)不斷優(yōu)化的強(qiáng)大驅(qū)動(dòng),對(duì)新科技、新理念始終保持高度開放的態(tài)度。同時(shí),石油石化行業(yè)科技含量高、專業(yè)知識(shí)成熟、技術(shù)標(biāo)準(zhǔn)完備、人員素質(zhì)好、有一定的信息化和自動(dòng)化基礎(chǔ)、歷史數(shù)據(jù)豐富且實(shí)時(shí)更新迅速,客觀上為新一代人工智能應(yīng)用提供了良好條件。但是,油氣工業(yè)的慣性發(fā)展模式是基于嚴(yán)格的專業(yè)技術(shù)分工來取得規(guī)模化效率,面對(duì)數(shù)字經(jīng)濟(jì)時(shí)代對(duì)基于信息技術(shù)賦能作用獲取多樣化效率的發(fā)展模式,其長期形成的數(shù)據(jù)壁壘、信息孤島以及小樣本、少標(biāo)簽的數(shù)據(jù)形態(tài)和對(duì)可解釋性及高準(zhǔn)確度的客觀要求,使“試錯(cuò)式”數(shù)據(jù)驅(qū)動(dòng)的人工智能在油氣行業(yè)的規(guī)模化及流程性落地應(yīng)用有其嚴(yán)酷的挑戰(zhàn)和滯后效應(yīng)。
隨著數(shù)字化轉(zhuǎn)型在各行各業(yè)全面展開,基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)在石油石化行業(yè)受到高度重視,近兩年油氣人工智能項(xiàng)目及應(yīng)用成果大幅度增加,油氣物聯(lián)網(wǎng)、數(shù)字孿生、云平臺(tái)、數(shù)據(jù)治理、知識(shí)管理、協(xié)同研究、智能油氣田、智能采油廠、智能管網(wǎng)、智能煉廠等應(yīng)用場(chǎng)景的研究不斷深化,推廣力度也越來越大。總體來看,石油石化行業(yè)成熟度高、業(yè)務(wù)邏輯復(fù)雜、專業(yè)分工細(xì)致、安全運(yùn)行嚴(yán)格,局部智能點(diǎn)的選取和推廣比較容易,但是,如果想要真正按照數(shù)字化轉(zhuǎn)型的目標(biāo)要求,通過開放共享,實(shí)現(xiàn)全流程智能化以及閉環(huán)優(yōu)化控制,行業(yè)轉(zhuǎn)型和智能化發(fā)展之路還很漫長。
本文首先介紹油氣人工智能研究進(jìn)展及面臨的若干關(guān)鍵問題,然后針對(duì)這些問題,提出油氣人工智能分層級(jí)研究體系、機(jī)理模型與數(shù)據(jù)驅(qū)動(dòng)融合的方法與途徑以及對(duì)油氣人工智能模型可解釋性問題的認(rèn)識(shí)與建議。
我們將石油石化領(lǐng)域的人工智能理論、技術(shù)、方法及應(yīng)用統(tǒng)稱為油氣人工智能。2018年,中國石油大學(xué)(北京)成立人工智能學(xué)院,以滿足石油石化對(duì)人工智能人才培養(yǎng)和科學(xué)研究的迫切需求,通過人工智能與石油石化多學(xué)科的交叉融合來布局科學(xué)研究、培養(yǎng)創(chuàng)新人才。將地質(zhì)地球物理、石油工程、管網(wǎng)集輸以及煉制和化工等石油石化領(lǐng)域各個(gè)學(xué)科與人工智能交叉融合來賦能升級(jí),形成油氣人工智能的理論、技術(shù)、方法及應(yīng)用場(chǎng)景,得到行業(yè)內(nèi)外的廣泛關(guān)注。三年來,油氣人工智能方向在讀本科生、碩士生、博士生接近200名,而企業(yè)訂單式委托培養(yǎng)油氣人工智能研究生并深度參與培養(yǎng)方案的制定和實(shí)施,則加快了油氣人工智能復(fù)合型人才培養(yǎng)模式的形成與推廣。
在我們承擔(dān)的中國石油戰(zhàn)略合作項(xiàng)目“物探、測(cè)井、鉆完井人工智能理論與應(yīng)用場(chǎng)景關(guān)鍵技術(shù)研究”實(shí)施過程中,逐步形成油氣人工智能概念及其問題域和研究范式。我們認(rèn)識(shí)到,在油氣人工智能應(yīng)用場(chǎng)景研究中,需要分成兩個(gè)層級(jí)來展開:①學(xué)術(shù)型油氣人工智能應(yīng)用場(chǎng)景研究;②工業(yè)級(jí)油氣人工智能應(yīng)用場(chǎng)景研究。前者是個(gè)體的、離散的、局部的智能點(diǎn)的研究,相對(duì)比較容易選取、推廣并見到效果;后者到了工業(yè)級(jí),涉及到全局、整體、實(shí)時(shí)動(dòng)態(tài)一系列問題,包括數(shù)據(jù)來源、數(shù)據(jù)集、數(shù)據(jù)湖、數(shù)據(jù)治理及數(shù)據(jù)生態(tài)、算法、平臺(tái)及應(yīng)用場(chǎng)景與閉環(huán)優(yōu)化控制等。
學(xué)術(shù)型油氣人工智能應(yīng)用場(chǎng)景研究,可以追溯到建院前許多老師的大量分散性探索。在中國石油項(xiàng)目里,我們整合全校80余位教師參與其中,完成并實(shí)現(xiàn)包括物探、測(cè)井、鉆完井、開采、管道檢測(cè)及設(shè)備維護(hù)等數(shù)十個(gè)具體應(yīng)用場(chǎng)景,涉及到對(duì)智能點(diǎn)問題的理解與定義、數(shù)據(jù)的準(zhǔn)備、神經(jīng)網(wǎng)絡(luò)的構(gòu)建、模型評(píng)價(jià)等一系列基本步驟,這些均收錄在即將出版的《油氣人工智能理論與應(yīng)用場(chǎng)景》中。
工業(yè)級(jí)油氣人工智能應(yīng)用場(chǎng)景則要困難得多,面臨全流程、貫通式的優(yōu)化和閉環(huán)控制,最終希望能夠通過數(shù)字孿生和全流程可視化來實(shí)現(xiàn)智能決策及目標(biāo)管理?;趯?duì)業(yè)務(wù)邏輯的理解提出流程級(jí)頂層設(shè)計(jì),對(duì)未來智能化目標(biāo)的實(shí)施、運(yùn)維及效益將產(chǎn)生巨大影響。而數(shù)據(jù)問題,包括數(shù)據(jù)完備性、數(shù)據(jù)感知、數(shù)據(jù)治理及數(shù)據(jù)生態(tài)建設(shè),則變得尤為重要。石油石化行業(yè)長期以來所遵循的嚴(yán)格專業(yè)技術(shù)分工取得規(guī)?;实陌l(fā)展模式,面對(duì)數(shù)據(jù)驅(qū)動(dòng)人工智能的規(guī)模化和流程級(jí)推廣應(yīng)用獲取多樣性效率的發(fā)展模式時(shí),對(duì)人工智能模型部署不可避免地提出高準(zhǔn)確性和可解釋性的嚴(yán)格要求。
通過對(duì)工業(yè)級(jí)油氣人工智能應(yīng)用場(chǎng)景底層邏輯及關(guān)鍵環(huán)節(jié)的仔細(xì)梳理,我們提出其面臨且必須解決的幾個(gè)關(guān)鍵問題。①數(shù)據(jù)治理及數(shù)據(jù)集構(gòu)建。沒有良好的數(shù)據(jù)治理體系和數(shù)據(jù)標(biāo)準(zhǔn),沒有合理的數(shù)據(jù)集,基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)建立人工智能模型便不可能達(dá)成,這個(gè)問題至今尚未引起足夠重視。②多源多尺度多模態(tài)數(shù)據(jù)建模。來源廣泛、時(shí)空跨度大、多種模態(tài)并存是油氣行業(yè)數(shù)據(jù)的基本特征,在傳統(tǒng)的機(jī)理模型研究范式中,多源多尺度多模態(tài)是難以處理的,缺少必要的工具。而機(jī)器學(xué)習(xí)研究范式則提供了可能。③數(shù)據(jù)驅(qū)動(dòng)與機(jī)理模型的深度融合。實(shí)踐告訴我們,在油氣行業(yè),光靠數(shù)據(jù)驅(qū)動(dòng)是不夠的,換個(gè)角度說,過去長時(shí)間研究積累下來的領(lǐng)域知識(shí)和機(jī)理模型,是我們認(rèn)識(shí)世界的重要成果,也是未來發(fā)展的重要基礎(chǔ)。讓數(shù)據(jù)驅(qū)動(dòng)與機(jī)理模型深度融合,不僅是一個(gè)實(shí)踐問題,也是尚未完全解決的理論問題。④油氣人工智能模型的可解釋性問題。包括可解釋性的定義、可解釋性問題的來源、以及如何解決可解釋性問題等。對(duì)于前兩個(gè)問題,我將另行專門討論,本文主要針對(duì)數(shù)據(jù)驅(qū)動(dòng)與機(jī)理模型深度融合以及可解釋性問題提出一些初步看法和建議。
地球物理及巖石物理科學(xué)研究積累了大量領(lǐng)域知識(shí)和機(jī)理模型,它們以物理模型及其表征參數(shù)之間的數(shù)學(xué)關(guān)系來表示,構(gòu)成地球物理和巖石物理知識(shí)體系,成為解決地球物理和巖石物理問題的基礎(chǔ)?;诖?根據(jù)輸入及相關(guān)約束條件,利用已經(jīng)建立的物理模型和領(lǐng)域知識(shí)或者函數(shù)關(guān)系,即可得到期望的輸出結(jié)果,這是經(jīng)長期積累而建立起來的確定性研究范式。
當(dāng)輸入與輸出之間的映射關(guān)系未知或過于復(fù)雜,上述確定性范式便可能失效。此時(shí),如果有足夠多的數(shù)據(jù)及標(biāo)簽,通過數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)便可以建立起新型映射關(guān)系,形成新的研究范式。這種新型映射關(guān)系即是基于數(shù)據(jù)及其標(biāo)簽體系訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,它涉及到訓(xùn)練集和測(cè)試集的構(gòu)建、神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建、模型評(píng)價(jià)的準(zhǔn)則與方法以及一整套迭代學(xué)習(xí)的過程。利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,作為新的映射關(guān)系,完成輸入到輸出的映射(圖1)。這種網(wǎng)絡(luò)模型的基本規(guī)則其實(shí)很簡單,它是一系列線性運(yùn)算加非線性激活函數(shù)的組合。但隨著神經(jīng)元的增加,其內(nèi)部發(fā)生的過程和量值變化很快就會(huì)超出人的可認(rèn)知范圍,在迭代過程中我們并不知道里面發(fā)生了什么,所以,通常將這樣的模型訓(xùn)練過程及形成的模型叫做黑盒。隨著神經(jīng)網(wǎng)絡(luò)越來越深、越來越大,一個(gè)深度神經(jīng)網(wǎng)絡(luò)可能有幾千萬、幾十億個(gè)參數(shù),這樣的參數(shù)體系遠(yuǎn)遠(yuǎn)超出個(gè)人的認(rèn)知與控制范圍,由此產(chǎn)生一系列包括可解釋性在內(nèi)的后續(xù)復(fù)雜問題。
圖1 機(jī)理模型(a)和數(shù)據(jù)模型(b)的研究范式
數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)的基本流程,從數(shù)據(jù)集開始,利用對(duì)損失函數(shù)的最小化來對(duì)構(gòu)建的深度數(shù)據(jù)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再利用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型,來實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的映射,起到預(yù)知或者認(rèn)知的作用。這樣的學(xué)習(xí)過程,可以應(yīng)用到實(shí)際問題的各個(gè)環(huán)節(jié),它可以是具體的智能點(diǎn),也可以放大到流程中。如果應(yīng)用場(chǎng)景處于動(dòng)態(tài)流程中,可以利用新產(chǎn)生的數(shù)據(jù)及標(biāo)簽,通過不斷迭代、優(yōu)化、升級(jí),形成完整閉環(huán),提高模型的準(zhǔn)確性和適應(yīng)性。
機(jī)理模型與數(shù)據(jù)模型兩種研究范式的對(duì)比如圖1 所示。機(jī)理模型解決問題的過程,包括理論假設(shè)、在理論假設(shè)基礎(chǔ)上得到近似表達(dá)式,繼而得到近似解,然后,在實(shí)踐中檢驗(yàn),得到具體而確切的輸入輸出之間的映射關(guān)系。進(jìn)一步說,由領(lǐng)域知識(shí)確定的機(jī)理模型方法,有明確的物理模型,或者是設(shè)定假設(shè)和理論模型,通過數(shù)學(xué)方法建立物理模型各表征參數(shù)之間的關(guān)系。在實(shí)際應(yīng)用中,比如在地球物理中,可能會(huì)遇到的問題包括但不限于:難以充分考慮真實(shí)地質(zhì)體的復(fù)雜性;研究對(duì)象無法建立物理模型、無法用參數(shù)來描述的情景;難以確定表征參數(shù)之間的關(guān)系。數(shù)據(jù)驅(qū)動(dòng)的研究范式,試圖通過數(shù)據(jù)挖掘來迭代優(yōu)化,得到全優(yōu)解,由基于觀測(cè)數(shù)據(jù)的機(jī)器學(xué)習(xí)來發(fā)現(xiàn)輸入輸出之間的關(guān)聯(lián)關(guān)系,被認(rèn)為可以得到更普遍形式的解決方案。原理上,機(jī)器學(xué)習(xí)方法在一堆貌似沒有關(guān)系或者隱約有關(guān)系的、但很難定量描述的參量之間,通過數(shù)據(jù)驅(qū)動(dòng)來建立比較確切的關(guān)系模型。通常認(rèn)為,它更適用于復(fù)雜地質(zhì)的研究,因?yàn)椴恍枰M(jìn)行任何假設(shè),因而有更強(qiáng)的普適性,而且它可以脫離物理模型,進(jìn)行純數(shù)據(jù)的分析研究。
2019年《Science》上發(fā)表了一篇重要綜述文章,討論固體地球科學(xué)中數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí),其中有領(lǐng)域知識(shí)與機(jī)器學(xué)習(xí)研究范式的對(duì)比,并分析了機(jī)器學(xué)習(xí)在地球科學(xué)數(shù)據(jù)分析的自動(dòng)化、正反演模擬、新發(fā)現(xiàn)的應(yīng)用場(chǎng)景及方向,很有啟發(fā)性[1]。YU等[2]和JIA等[3]對(duì)深度學(xué)習(xí)在地球物理中的應(yīng)用進(jìn)行了系統(tǒng)深入的介紹。
以地球物理測(cè)井為例,有很好的機(jī)理模型和數(shù)學(xué)基礎(chǔ),可以單獨(dú)進(jìn)行數(shù)學(xué)建模,分別發(fā)展了完整的正反演理論和方法[4-6]。但是,當(dāng)將兩種或者多種不同來源、不同尺度、不同模態(tài)的數(shù)據(jù)進(jìn)行結(jié)合時(shí),如前所述,通常會(huì)遇到問題。利用人工智能,多源多尺度多模態(tài)數(shù)據(jù)融合就不再是問題,從這個(gè)角度說,數(shù)據(jù)驅(qū)動(dòng)的研究范式使多源、多尺度、多模態(tài)地球物理數(shù)據(jù)的應(yīng)用方式發(fā)生了根本性變化和突破性進(jìn)展。
YU等[2]歸納了地球物理多個(gè)領(lǐng)域的基本研究范式,即機(jī)理模型和數(shù)據(jù)驅(qū)動(dòng)。2019年《Nature》上發(fā)表了一篇重要綜述,提出物理模型與數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)相結(jié)合,對(duì)人工智能地球物理未來發(fā)展很有啟發(fā)意義[7]。研究過程中,我們同樣認(rèn)識(shí)到,單一路線或者單種范式已經(jīng)很難實(shí)現(xiàn)油氣人工智能研究目標(biāo),更合理的途徑和方向應(yīng)該是數(shù)據(jù)驅(qū)動(dòng)和機(jī)理模型的有機(jī)結(jié)合。很多學(xué)者已經(jīng)開展了單獨(dú)的機(jī)器學(xué)習(xí)及其與機(jī)理模型融合的研究[8-19]。
面對(duì)油氣藏以及油氣井的各種數(shù)據(jù),首先需要分析數(shù)據(jù)的基本特征。在地球物理測(cè)井領(lǐng)域,各種觀測(cè)方法、儀器及獲得的數(shù)據(jù)是經(jīng)過長期發(fā)展完善而沉淀下來的。這些數(shù)據(jù)的來源和物理意義非常明確,而且,利用近似響應(yīng)方程在一定范圍內(nèi)具有比較好的可行性。其次,每一種地球物理測(cè)井?dāng)?shù)據(jù),都有很高的價(jià)值,不可或缺,也無法替代,而且往往數(shù)據(jù)量大、數(shù)據(jù)類型多,數(shù)據(jù)更新速度快。時(shí)間序列和深度序列可以相互轉(zhuǎn)化,其在本質(zhì)上相通。地球物理測(cè)井問題具有復(fù)雜性,且為欠定的。無論欠定或超定,都要面對(duì)多解性問題。另外一個(gè)是模糊性,表現(xiàn)在油氣儲(chǔ)層常常很難用參數(shù)去描述、表征。例如滲透率問題,面對(duì)非均質(zhì)性和各向異性以及尺度效應(yīng),即使是用張量,也難以描述和表征。孔隙結(jié)構(gòu)的表述缺少表征方式和依據(jù)。此外,如噪聲及數(shù)據(jù)采集過程等引起的不確定性問題等,在地球物理測(cè)井領(lǐng)域處處存在,是數(shù)據(jù)的基本特征。模糊性、多解性、不確定性,很容易達(dá)到機(jī)理模型應(yīng)用的邊界,導(dǎo)致有人戲稱“地球物理是科學(xué)的不科學(xué)”,也就是說,盡管我們用嚴(yán)格的機(jī)理模型非??茖W(xué)地研究地球物理問題,但面對(duì)實(shí)際應(yīng)用時(shí),得到的結(jié)論卻未必科學(xué)、有效。
過去研究工作積累了豐富的領(lǐng)域知識(shí)和機(jī)理模型,這些領(lǐng)域知識(shí)和機(jī)理模型,在一定范圍內(nèi)解決了地球物理應(yīng)用中的多數(shù)問題。而當(dāng)前地球物理探測(cè)領(lǐng)域數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí),面臨小樣本、少標(biāo)簽的數(shù)據(jù)問題。少標(biāo)簽的原因,部分是因?yàn)閿?shù)據(jù)昂貴、價(jià)值很高,所以不可能有很多標(biāo)簽。在這種情況下,如何有效應(yīng)用機(jī)器學(xué)習(xí)?很多團(tuán)隊(duì)試圖將機(jī)理模型與數(shù)據(jù)模型結(jié)合起來。然而,如何“結(jié)合”,學(xué)者們?cè)诓煌姆较蛘归_探索。
數(shù)據(jù)驅(qū)動(dòng)建模全流程都可嵌入領(lǐng)域知識(shí)及機(jī)理模型,實(shí)現(xiàn)包括在深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)設(shè)計(jì)上嵌入領(lǐng)域知識(shí)、在模型評(píng)價(jià)環(huán)節(jié)嵌入領(lǐng)域知識(shí)、建立新型損失函數(shù)使正則項(xiàng)的權(quán)重保持動(dòng)態(tài)平衡等方法。以此為基礎(chǔ),提出一些代表性模型,包括硬約束投影(HCP)、理論引導(dǎo)的卷積神經(jīng)網(wǎng)絡(luò)(TgCNN)、理論引導(dǎo)的神經(jīng)網(wǎng)絡(luò)(TgNN)等。這些結(jié)合方式,均旨在快速尋找全局最優(yōu)解[8-11](圖2)。圖2中,純數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)的尋優(yōu)路徑用白色三角符號(hào)表示,顯然,其結(jié)果并未達(dá)到真正的全局最優(yōu)。加入軟約束后的尋優(yōu)路徑用藍(lán)色菱形符號(hào)表示,雖然比純數(shù)據(jù)驅(qū)動(dòng)效果好,但還是沒有收斂到全局最優(yōu)點(diǎn)。加入硬約束的模型尋優(yōu)路徑用黃色五角星符號(hào)表示,最終可以到達(dá)全局最優(yōu)點(diǎn)。該圖較好地表達(dá)了不同結(jié)合方法的尋優(yōu)收斂過程以及添加機(jī)理模型約束的意義和作用。采用該方法進(jìn)行地球物理領(lǐng)域知識(shí)及機(jī)理模型與數(shù)據(jù)驅(qū)動(dòng)的融合,實(shí)際效果好。
圖2 領(lǐng)域知識(shí)機(jī)理模型與數(shù)據(jù)驅(qū)動(dòng)融合改變迭代路徑和最優(yōu)解
我們發(fā)現(xiàn),領(lǐng)域知識(shí)及機(jī)理模型與數(shù)據(jù)驅(qū)動(dòng)融合的另一個(gè)有價(jià)值的方向是通過機(jī)理模型構(gòu)建數(shù)據(jù)集。在研究油氣人工智能應(yīng)用場(chǎng)景過程中,比如物探、測(cè)井、鉆完井的機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景,我們遇到的最大挑戰(zhàn),其實(shí)不是算法,而是數(shù)據(jù)集的構(gòu)建。在地球探測(cè)有監(jiān)督機(jī)器學(xué)習(xí)中,最主要的工作量往往用在數(shù)據(jù)集及標(biāo)簽體系的構(gòu)建上。
建議采用3種方式實(shí)現(xiàn)機(jī)理模型和數(shù)據(jù)驅(qū)動(dòng)的融合:①在構(gòu)建數(shù)據(jù)集時(shí)添加領(lǐng)域知識(shí),對(duì)輸入數(shù)據(jù)進(jìn)行物理約束,搭建模型時(shí)將機(jī)理模型得到的參數(shù)作為輸入,機(jī)理模型生成數(shù)據(jù)添加到數(shù)據(jù)集作為訓(xùn)練集和測(cè)試集;②在深度神經(jīng)網(wǎng)絡(luò)隱層中添加領(lǐng)域知識(shí)約束,例如修改隱藏層結(jié)構(gòu),根據(jù)機(jī)理模型增加一些中間輸出變量,修改損失函數(shù)的構(gòu)建方式等;③在輸出時(shí)添加領(lǐng)域知識(shí)約束,通過對(duì)地球物理或者巖石物理知識(shí)的應(yīng)用,對(duì)輸出參數(shù)作出符合領(lǐng)域知識(shí)的判斷和挑選。我們重點(diǎn)關(guān)注將領(lǐng)域知識(shí)和機(jī)理模型加入數(shù)據(jù)集,使其包括實(shí)測(cè)數(shù)據(jù)和正演數(shù)據(jù),解決實(shí)測(cè)數(shù)據(jù)少和標(biāo)簽少的問題。利用正演模型生成數(shù)據(jù)集,在物探、測(cè)井等各個(gè)方面都有廣闊前景。伍新明等在地震資料反演和成像方面數(shù)據(jù)集構(gòu)建時(shí)采用正演模擬。我們?cè)诘厍蛭锢頊y(cè)井反演方面,充分考慮地質(zhì)和巖石物理約束,綜合井筒、儲(chǔ)層、測(cè)量儀器等正演生成數(shù)據(jù)集,全面利用現(xiàn)有領(lǐng)域知識(shí)和機(jī)理模型,將這種正演數(shù)據(jù)集融合到實(shí)測(cè)數(shù)據(jù)集,在數(shù)據(jù)空間充分考慮其標(biāo)簽體系的平衡和完備等問題,構(gòu)建方向性輔助工具。
以此為基礎(chǔ),嘗試巖石物理領(lǐng)域知識(shí)約束的多尺度多任務(wù)地球物理測(cè)井機(jī)器學(xué)習(xí)應(yīng)用,在數(shù)據(jù)集、標(biāo)簽、模型搭建、模型評(píng)價(jià)、迭代過程等各個(gè)環(huán)節(jié)充分發(fā)揮領(lǐng)域知識(shí)和機(jī)理模型的引導(dǎo)和約束作用。深度神經(jīng)網(wǎng)絡(luò)采用殘差神經(jīng)網(wǎng)絡(luò),在損失函數(shù)的構(gòu)建中加入硬約束,包括響應(yīng)方程約束、儲(chǔ)層參數(shù)間的物理約束、地球物理測(cè)井?dāng)?shù)據(jù)間的物理約束,構(gòu)成總的損失函數(shù)。對(duì)模型的網(wǎng)絡(luò)結(jié)構(gòu)及抗噪性進(jìn)行測(cè)試,結(jié)果表明,在不同環(huán)節(jié)加入機(jī)理模型對(duì)訓(xùn)練過程和結(jié)果模型會(huì)產(chǎn)生不同的影響。在數(shù)據(jù)集中加入領(lǐng)域知識(shí)和機(jī)理模型,會(huì)豐富數(shù)據(jù)類型及其分布形式,從而能夠有效提高數(shù)據(jù)驅(qū)動(dòng)的準(zhǔn)確性和收斂性。
在學(xué)術(shù)型及工業(yè)級(jí)油氣人工智能應(yīng)用場(chǎng)景研究實(shí)踐中,涉及需要做出高可靠決策判斷的石油石化行業(yè),或者要求決策合規(guī)的油氣勘探領(lǐng)域,數(shù)據(jù)驅(qū)動(dòng)的人工智能模型難以規(guī)?;渴鸬脑蛑皇菦Q策的透明度和結(jié)果的可解釋性。所以,使油氣人工智能系統(tǒng)的行為對(duì)行業(yè)專家更透明、更易懂、更可信,對(duì)石油石化行業(yè)人工智能研究及規(guī)?;渴饝?yīng)用非常重要,這觸及到了人工智能理論的邊界和共性核心難題。
機(jī)器學(xué)習(xí)在固體地球科學(xué)中的應(yīng)用主要有3個(gè)方面[1],即自動(dòng)化、正反演模擬、新現(xiàn)象的發(fā)現(xiàn)。相應(yīng)地,我們歸納出可解釋性問題的表現(xiàn)形式有:①作為自動(dòng)化工具,機(jī)器學(xué)習(xí)模型面臨可靠性、準(zhǔn)確性及穩(wěn)定性的要求,可解釋性意味著潛在故障容易被檢測(cè)到,便于查找根本原因并提供修復(fù)方法;②作為正反演模擬工具,機(jī)器學(xué)習(xí)模型面臨行業(yè)規(guī)范及標(biāo)準(zhǔn)的要求,例如定井位,涉及到后續(xù)一系列作業(yè)和投資及審批流程,可解釋性是一項(xiàng)強(qiáng)制性要求;③作為發(fā)現(xiàn)新現(xiàn)象的研究工具,機(jī)器學(xué)習(xí)模型必然面臨人類邏輯關(guān)系的追問,對(duì)于多源多尺度多模態(tài)的地質(zhì)地球物理數(shù)據(jù),可能存在極其復(fù)雜的內(nèi)在模式,當(dāng)深度神經(jīng)網(wǎng)絡(luò)性能超越舊模型時(shí),意味著可能發(fā)現(xiàn)了新的現(xiàn)象或者新的知識(shí),此時(shí),可解釋性則是揭示新知識(shí)新現(xiàn)象的必要方式。
語義上,“解釋”是指“在觀察的基礎(chǔ)上,合理地說明事物變化的原因、事物之間的聯(lián)系或事物發(fā)展的規(guī)律”。而“可解釋性”則是指“用可理解的術(shù)語和方式向人類提供解釋的能力”,可理解的術(shù)語,應(yīng)該來自與任務(wù)相關(guān)的領(lǐng)域知識(shí)或根據(jù)任務(wù)所需要的相關(guān)常識(shí)。谷歌科學(xué)家給出可解釋性的一個(gè)定義:Interpretation is the process of giving explanation to Human??山忉屝允侨藢?duì)人、人對(duì)自然建立信任的最底層和最基本的需求。有了可解釋性,人們才有可能建立安全感和可操控感。
人類理性發(fā)展歷程表明,如果一個(gè)判斷或者決策是可以被解釋的,那么,更容易確定其應(yīng)用邊界,更容易評(píng)估其風(fēng)險(xiǎn),更容易知道在什么場(chǎng)合、在多大程度上可以被信賴,進(jìn)一步來說,更容易增進(jìn)共識(shí)、減少風(fēng)險(xiǎn)、不斷改進(jìn)和完善。這是“以人為中心”的一種基本思維模式,也是人類最成熟、最具共識(shí)、最可信賴的思維模式。通用人工智能成熟以后,這種思維模式是否繼續(xù)有效?未來會(huì)不會(huì)演化出“以機(jī)器為中心”的思維模式?
機(jī)器學(xué)習(xí)可解釋性,Explanatory,或者Interpretability,是人工智能理論最熱門的研究領(lǐng)域之一,但進(jìn)展緩慢。深度神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí),盡管已經(jīng)完勝世界圍棋冠軍,圖像識(shí)別、語音識(shí)別也接近滿分,人們對(duì)這些應(yīng)用場(chǎng)景的震撼之余也抱有極大的戒備之心。原因在于,尚不存在一種可以從人類角度理解人工智能模型的決策機(jī)制和過程,不知道依據(jù)什么,以及什么時(shí)候會(huì)出錯(cuò)。這也是目前數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)模型尚難以部署到一些對(duì)性能要求高的關(guān)鍵領(lǐng)域的主要原因,比如石油石化行業(yè)的關(guān)鍵環(huán)節(jié)以及全流程。
總體來說,基于深度學(xué)習(xí)的人工智能是一個(gè)較新的議題,人類對(duì)其很多理論問題尚缺少深入認(rèn)識(shí)。依靠簡單網(wǎng)絡(luò)規(guī)則和強(qiáng)大算力完成的巨大運(yùn)算量,沉淀為一個(gè)個(gè)嚴(yán)密黑盒,超出了現(xiàn)有邏輯可以掌控和解釋的范圍,不可能用函數(shù)形式或邏輯關(guān)系來表達(dá)或理解。
可解釋性與領(lǐng)域知識(shí)密切相關(guān),應(yīng)該在領(lǐng)域范圍解決。從這個(gè)意義上說,可能難以找到對(duì)人工智能可解釋性問題的自動(dòng)和通用的答案?;蛟S,對(duì)機(jī)器學(xué)習(xí)需要重構(gòu)新的邏輯體系,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的可解釋性;重建人與人工智能模型之間的互信邏輯及規(guī)范標(biāo)準(zhǔn),量化模型的可信任度和信任邊界。一種現(xiàn)實(shí)可行的有限目標(biāo),是對(duì)機(jī)器學(xué)習(xí)過程進(jìn)行分解,從而分階段解決可解釋性問題。比如,建模前的可解釋性,涉及數(shù)據(jù)的預(yù)處理和數(shù)據(jù)展示的方法;建模中的可解釋性,即建立具備可解釋性的機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型;建模后的可解釋性,即利用可解釋性方法,對(duì)具有黑箱性質(zhì)的深度學(xué)習(xí)模型輸出做出符合人類邏輯準(zhǔn)則的解釋。最后一條通道,也許是通過機(jī)理模型與數(shù)據(jù)驅(qū)動(dòng)的深度融合,為機(jī)器學(xué)習(xí)模型提供可解釋性的路徑,判據(jù)即邊界,解決可解釋性問題。而最后一條,則又將陷入“以人為中心”的思維模式和思維邊界。
在對(duì)機(jī)理模型與數(shù)據(jù)驅(qū)動(dòng)融合的討論中,我們已經(jīng)看到,第一,以大數(shù)據(jù)、深度學(xué)習(xí)和超強(qiáng)算力為基礎(chǔ)的新一代人工智能已經(jīng)不可逆轉(zhuǎn)地改變了科研范式。無論是學(xué)術(shù)型應(yīng)用場(chǎng)景,還是工業(yè)級(jí)應(yīng)用場(chǎng)景,包括地球物理探測(cè)及石油石化行業(yè)在內(nèi)的問題域和研究方法已經(jīng)發(fā)生巨大變化。第二,數(shù)據(jù)驅(qū)動(dòng)已經(jīng)成為油氣勘探開發(fā)及地球物理探測(cè)數(shù)據(jù)分析自動(dòng)化、正反演模擬以及發(fā)現(xiàn)隱含在數(shù)據(jù)中的新現(xiàn)象、新規(guī)律的重要工具。第三,油氣人工智能應(yīng)用場(chǎng)景研究和應(yīng)用實(shí)踐表明,數(shù)據(jù)治理、多源多尺度多模態(tài)建模、機(jī)理模型與數(shù)據(jù)驅(qū)動(dòng)融合以及可解釋性是工業(yè)級(jí)油氣人工智能及人工智能地球物理規(guī)?;瘧?yīng)用的4個(gè)關(guān)鍵問題。數(shù)據(jù)治理更多的是實(shí)踐性問題,但多源多尺度多模態(tài)建模、機(jī)理模型與數(shù)據(jù)驅(qū)動(dòng)融合和可解釋性問題,則是實(shí)踐與理論兼而有之的問題。第四,領(lǐng)域知識(shí)機(jī)理模型的范式可以與數(shù)據(jù)驅(qū)動(dòng)范式相融合而產(chǎn)生新范式,尤其在小樣本、少標(biāo)簽的應(yīng)用場(chǎng)景中,將發(fā)揮重要作用。第五,機(jī)理模型與數(shù)據(jù)驅(qū)動(dòng)融合的途徑和技術(shù)措施可以多種多樣,其中涉及到的理論基礎(chǔ),如數(shù)學(xué)本質(zhì)等,仍有待進(jìn)一步深入研究。
《華為數(shù)據(jù)之道》一書中,提出物理世界、數(shù)字世界、人類認(rèn)知世界及機(jī)器認(rèn)知世界的“四個(gè)世界”劃分方法[20]。我們經(jīng)過改進(jìn)提出一個(gè)更加細(xì)化的分類體系,如圖3所示。
圖3左下方是我們面對(duì)的物理世界。按照傳統(tǒng)觀點(diǎn),物理世界是“真實(shí)的”和“唯一的”。但是,面對(duì)不斷發(fā)展和完善的虛擬現(xiàn)實(shí)及增強(qiáng)現(xiàn)實(shí),對(duì)物理世界的“真實(shí)性”和“唯一性”可能需要重新定義。傳統(tǒng)上,我們用分析法或者歸納法認(rèn)識(shí)物理世界,形成確定性認(rèn)知模式,建立了領(lǐng)域知識(shí)和機(jī)理模型體系。具體到個(gè)人對(duì)物理世界的認(rèn)識(shí),是豐富多彩、簡單明了的,它取決于我們自身的知識(shí)、智力、經(jīng)驗(yàn),以及時(shí)代的總體科技水平。
現(xiàn)在,通過數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)來認(rèn)識(shí)并改造物理世界。以大數(shù)據(jù)為基礎(chǔ),采用各種算法,形成新的研究范式和認(rèn)識(shí)論。物理世界的萬事萬物先映射到數(shù)字世界,再進(jìn)行認(rèn)知,形成數(shù)據(jù)驅(qū)動(dòng)的機(jī)器認(rèn)知模型,依此進(jìn)行決策和行動(dòng)。機(jī)器認(rèn)知的物理世界,強(qiáng)烈依賴用于訓(xùn)練的數(shù)據(jù)集。數(shù)據(jù)集的建造,通常都缺失責(zé)任標(biāo)識(shí),由此可能產(chǎn)生一系列不可預(yù)知的后果。如何增強(qiáng)責(zé)任標(biāo)識(shí),基于人類已有的領(lǐng)域知識(shí)和機(jī)理模型,通過正演模擬產(chǎn)生的數(shù)據(jù)集會(huì)有較好的幫助。
圖3右下方是數(shù)字世界,通過對(duì)物理世界的全方位感知來構(gòu)建物理世界的數(shù)字孿生。數(shù)字世界的構(gòu)建不可避免會(huì)涉及到穩(wěn)定性、階段性、完備性、確定性以及可解釋性等需要面對(duì)的一系列重大問題。每一個(gè)點(diǎn)都需要進(jìn)行深入研究,油氣人工智能、人工智能地球物理等領(lǐng)域,面臨著幾乎同樣的深層次問題。而迄今各個(gè)領(lǐng)域的人工智能理論和應(yīng)用場(chǎng)景關(guān)鍵技術(shù)研究,還只是一個(gè)開端。已經(jīng)取得的應(yīng)用成效具有分散性和局部性特點(diǎn),尚未從根本上突破傳統(tǒng)范式。
圖3 在“四個(gè)世界”中探尋人工智能理論和應(yīng)用場(chǎng)景發(fā)展的認(rèn)識(shí)論和方法論
通過上述討論,針對(duì)不同目標(biāo)和挑戰(zhàn),我們將油氣人工智能分成兩個(gè)層級(jí),即學(xué)術(shù)型油氣人工智能應(yīng)用場(chǎng)景研究和工業(yè)級(jí)油氣人工智能應(yīng)用場(chǎng)景研究。對(duì)于學(xué)術(shù)型油氣人工智能,主要關(guān)心算法及其相關(guān)理論基礎(chǔ),著重于解決智能點(diǎn)局部問題;而對(duì)于工業(yè)級(jí)油氣人工智能,更多的是關(guān)心數(shù)據(jù)集、平臺(tái)、多源多尺度數(shù)據(jù)融合建模、數(shù)據(jù)驅(qū)動(dòng)與機(jī)理模型融合建模以及機(jī)器學(xué)習(xí)模型的可解釋性等問題。針對(duì)數(shù)據(jù)驅(qū)動(dòng)與機(jī)理模型融合問題,提出3種途徑,即算法融合、評(píng)價(jià)方法融合、數(shù)據(jù)集融合,并得到實(shí)驗(yàn)驗(yàn)證。針對(duì)油氣人工智能模型的可解釋性問題,作者認(rèn)為,工業(yè)級(jí)人工智能模型必須具有可解釋性,解決方案包括建模前、建模中、建模后的多級(jí)解釋模型。在實(shí)踐中我們逐步認(rèn)識(shí)到,工業(yè)級(jí)人工智能理論和應(yīng)用場(chǎng)景的長足進(jìn)步,必須厘清人工智能時(shí)代“物理世界”、“數(shù)字世界”、“人類認(rèn)知世界”、“機(jī)器認(rèn)知世界”以及“機(jī)器正在改造的世界”之間的互動(dòng)關(guān)系。工業(yè)級(jí)人工智能的變革性和顛覆性賦能,必須要有正確的認(rèn)識(shí)論和方法論。
致謝:2021年11月25日作者應(yīng)邀在江蘇省地球物理學(xué)會(huì)學(xué)術(shù)年會(huì)做主題報(bào)告“探尋數(shù)據(jù)驅(qū)動(dòng)與機(jī)理模型融合之路”,以此為基礎(chǔ)形成本文。中國石油天然氣集團(tuán)公司-中國石油大學(xué)(北京)戰(zhàn)略合作項(xiàng)目“物探、測(cè)井、鉆完井人工智能理論與應(yīng)用場(chǎng)景關(guān)鍵技術(shù)研究”對(duì)相關(guān)研究提供經(jīng)費(fèi)支持,博士生邵蓉波依據(jù)報(bào)告多媒體材料幫助整理文字,在此一并致謝!