數(shù)據(jù)規(guī)模進一步擴大,科學教育需要反映這種變化。
傳統(tǒng)來說,許多物理學家將自己分作兩個相互斗爭的陣營:理論物理學家和實驗物理學家。阿爾伯特 · 愛因斯坦建立廣義相對論,而亞瑟 · 愛丁頓(Arthur Eddington)觀測到廣義相對論“彎曲”星光;默里 · 蓋爾曼(Murray Gell-Mann)和喬治 · 茨威格(George Zweig)構(gòu)思出夸克概念,而亨利 · 肯德爾(Henry Kendall)、理查德 · 泰勒(Richard Taylor)、杰爾姆 · 弗里德曼(Jerome Freidman)及他們的團隊探測到夸克。
在粒子物理學中,這種分歧尤其明顯。想一想希格斯玻色子,1964年被人提出,到2012年被人發(fā)現(xiàn)。從那時起,物理學家一直試圖徹底檢查希格斯玻色子的性質(zhì),但理論物理學家和實驗物理學家不直接分享希格斯玻色子的數(shù)據(jù),他們花費許多年的時間來爭論該分享什么,該如何安排。(現(xiàn)在有了一些共識,但進展舉步維艱。)
然而,這個二元對立的局面中有一位失蹤的玩家。到底是誰在促進理論和實驗之間的數(shù)據(jù)流動?
傳統(tǒng)上,實驗物理學家擔當這個角色,他們運行機器,審視數(shù)據(jù),但在高能物理學和許多其他子領(lǐng)域,數(shù)據(jù)量實在太過龐大,使得這個過程完全不可行。研究者不能光用眼睛看一下加速器中發(fā)生的若干事件就得出結(jié)論。譬如,在大型強子對撞機中,每秒發(fā)生大約10億次粒子對撞,傳感器偵測和處理這些事件,再存儲在大型計算系統(tǒng)中。而且不只是數(shù)量驚人,這些數(shù)據(jù)全都極其復雜,用計算機模擬更是難上加難。
換言之,這些實驗產(chǎn)生海量數(shù)據(jù),超出任何人用傳統(tǒng)工具可能分析的程度。而且那些工具無論怎么看都不算完美,需要研究者把許多復雜事件歸結(jié)成若干屬性,比如某個給定能量下的光子數(shù)。許多科學真相就這樣被遺漏了。
作為對于這個難題的回應,在高能物理學和其他子領(lǐng)域(比如核物理學和天體物理學)中出現(xiàn)一種壯大的態(tài)勢,試圖分析復雜的完整數(shù)據(jù),讓數(shù)據(jù)為自身說話。這個領(lǐng)域的專家使用前沿的數(shù)據(jù)科學工具來決定保留哪些數(shù)據(jù),舍棄哪些數(shù)據(jù),并從中發(fā)現(xiàn)模式。
特別地,機器學習已經(jīng)使得科學家能完成他們以前無法做到的事。譬如,在搜尋新粒子(比如那些可能組成暗物質(zhì)的粒子)時,物理學家不是尋找不可能的單個事件,相反地,他們尋找那些發(fā)生頻率比原本情況更高的事件。這是個困難得多的任務(wù),需要龐大規(guī)模下的數(shù)據(jù)分析能力,而機器學習已經(jīng)給予物理學家優(yōu)勢。
如今,那些管理粒子加速器控制室的實驗物理學家極少是機器學習工具的開發(fā)者。前一類人當然是專家,畢竟,對撞機由他們負責運行。但是,在這些大規(guī)模的項目中,沒人能負責全部工作,大家還是各有所長,專精于某一方面。在粒子加速器運行之后,數(shù)據(jù)專家就進場了。
數(shù)據(jù)專家不是傳統(tǒng)意義上的理論物理學家,也不是傳統(tǒng)的實驗物理學家(雖然許多人自認為是理論物理學家或?qū)嶒炍锢韺W家)。但他們早已出現(xiàn),橫跨不同陣營和領(lǐng)域,給物理學提供無價的東西。
目前,這一群雜湊的人沒有明確的名字。他們是數(shù)據(jù)科學家、專攻某一領(lǐng)域的物理學家或統(tǒng)計學家,他們習慣性地跨越多學科。我們是時候認識到,這群人是獨一無二的,有著一套工作方式、訓練體制和技能。(值得注意的是,數(shù)據(jù)物理學與計算物理學互不相關(guān)。在計算物理學中,科學家運用計算來應對資源限制;在數(shù)據(jù)物理學中,科學家對付數(shù)據(jù)隨機性,使得統(tǒng)計學——你可以稱之為“物理統(tǒng)計學”——成為方程式中一個更加重要的部分。)
正名給予影響力和正統(tǒng)性,也會影響未來的物理學家受到教育和資助的方式。許多學術(shù)領(lǐng)域努力獲得這種認可,譬如生物物理學,它在數(shù)十年里遭受冷落,一直因為兩個科學分支不太可能結(jié)合而尷尬地存在。如今,它已是一個羽翼齊全、充滿活力的分支領(lǐng)域。
現(xiàn)在是數(shù)據(jù)專家們大顯身手的機遇期,而且這些專家需要一個清楚明白的身份——“數(shù)據(jù)物理學家”。不像傳統(tǒng)的實驗物理學家,數(shù)據(jù)物理學家大概不會有多少實際操作儀器的經(jīng)驗。他們大概不會花費時間來將探測器部件焊接成一體(這是受訓中的實驗物理學家的一種典型經(jīng)驗)。他們也不像理論物理學家,也許對于課程作業(yè)之外的基本物理學計算沒有多少經(jīng)驗。但是,數(shù)據(jù)物理學家擁有理解和詢問數(shù)據(jù)的核心技能,在數(shù)據(jù)科學、統(tǒng)計學和機器學習方面有扎實的基礎(chǔ),也熟悉研究的計算背景和理論依據(jù),從而能把數(shù)據(jù)關(guān)聯(lián)上底層的物理學性質(zhì)。
鑒于高能物理學領(lǐng)域內(nèi)外的實驗產(chǎn)出的海量數(shù)據(jù),數(shù)據(jù)物理學家有著為他們量身打造的工作。他們的努力轉(zhuǎn)而會促進新的實驗方法的研發(fā),在現(xiàn)今,這些方法常常得自更簡單的合成數(shù)據(jù)集,它們并不完美地對應于真實世界。但是,缺少一批能夠用新工具(譬如機器學習)來靈巧地處理問題的熟練科學家的話,這些數(shù)據(jù)會得不到充分利用。從這個層面上來說,我不僅僅是在為名稱認可而爭辯。我們需要識別和訓練下一代數(shù)據(jù)物理學家來處理我們眼下?lián)碛械臄?shù)據(jù)。
怎么做?首先我們需要有專業(yè)培養(yǎng)路徑。大學應該在研究生院制定培養(yǎng)數(shù)據(jù)物理學家的計劃。我期望數(shù)據(jù)物理學家有著扎實的物理學背景,在統(tǒng)計學、數(shù)據(jù)科學和機器學習方面接受廣泛的訓練。以我自身的學術(shù)之路為例:我作為一個碩士研究生學習了粒子理論的計算方向,在博士生時修讀了許多門統(tǒng)計學課程,這使得我自然而然地踏入到物理學和統(tǒng)計學/機器學習之間的跨學科研究中,也就身處在理論物理學家和實驗物理學家之間。
專業(yè)的教育是個開始,但研究領(lǐng)域也需要有終身教職的崗位和資助。有一些讓人看到希望的跡象,包括最近幫助學術(shù)機構(gòu)啟動“人工智能研究所”的聯(lián)邦資助將專注于推進這個領(lǐng)域的研究。盡管這樣的投資激勵了跨學科研究,但它們不支持新的院系,至少是不直接支持。假如你不在接受這些資助的大型科研機構(gòu)中,那么你就交不到好運。
這是小規(guī)模資助必須進入的領(lǐng)域,包括資助個別研究團隊而不是資助特定實驗。這件事說起來容易,做起來難,因為典型的團隊撥款(首席研究員利用這筆資金來資助自身、學生或博士后人員)迫使申請者遵守傳統(tǒng)的學科劃分:要么是理論,要么是實驗,沒有第三者存在的空間。美國能源部聲望在外的青年科學家獎(Early Career Award )也是如此,申請表格上沒有一個勾選“跨學科數(shù)據(jù)物理學”的方框。
盡管調(diào)整資助的方式很難,但它實現(xiàn)起來可能比態(tài)度上的改變更加容易。物理學家也許因為許多人類最偉大的發(fā)現(xiàn)而聞名,但他們也因為對于跨學科科學的排斥猜疑態(tài)度(假如不是完全的純粹主義者的話)而臭名昭著。從其他領(lǐng)域借得工具、獲取靈感的物理學——譬如生物物理學中的細胞概念或者數(shù)據(jù)物理學中的機器學習——常常被貶低為“不是真正的物理學”。這當然是錯的,它還是一個糟糕的策略,失去杰出的物理學家的一個方法就是嘲弄他們。
并非所有人都持懷疑態(tài)度,事實上,更多人感到激動。在美國物理學會內(nèi)部,數(shù)據(jù)科學專題組(GDS)正在迅速成長,也許不久就會變成數(shù)據(jù)科學分部,反映出這個領(lǐng)域在物理學中越來越重要的地位。我本人對于與數(shù)據(jù)直接打交道感到激動,這點激勵我變成一位“實驗物理學家”,不過我現(xiàn)在意識到這個標簽的局限性。
在我們可獲得的數(shù)據(jù)增長的同時,我們對于數(shù)據(jù)物理學家的需求也在增長。讓我們從喊出他們真正的名字開始。接著,讓我們做辛苦的工作:教育、訓練和資助全新一代的卓越物理學家。
資料來源 Advancing Physics
本文作者本杰明 · 納赫曼(Benjamin Nachman)是勞倫斯伯克利國家實驗室的一位科學家,他領(lǐng)導了基礎(chǔ)物理學機器學習團隊,同時也是加州大學伯克利分校數(shù)據(jù)科學研究所的兼職科研人員