本刊記者 杜月嬌
劉漢中:大數(shù)據(jù)時(shí)代的“新力量”
本刊記者 杜月嬌
劉漢中
隨著科學(xué)技術(shù)的發(fā)展和大數(shù)據(jù)時(shí)代的到來(lái),人們可以較容易地獲得海量數(shù)據(jù),比如基因芯片數(shù)據(jù)、衛(wèi)星傳感數(shù)據(jù)、文本數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)(百度、谷歌、臉書(shū)、推特等)?!斑@些數(shù)據(jù)的最大特點(diǎn)就是海量、高維?!眲h中說(shuō)道。海量可以理解,高維又是什么概念呢?
“高維數(shù)據(jù)是指數(shù)據(jù)的維度遠(yuǎn)遠(yuǎn)大于樣本量,例如基本芯片數(shù)據(jù)、大腦核磁共振成像數(shù)據(jù)、傳感數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)等。”劉漢中給出了解釋。如何利用統(tǒng)計(jì)學(xué)的模型和方法有效地分析和處理這些高維數(shù)據(jù)并用于指導(dǎo)實(shí)踐活動(dòng),這將是一個(gè)非常有意義的研究問(wèn)題。
對(duì)于作為2016年執(zhí)教于清華大學(xué)的劉漢中來(lái)說(shuō),致力于研究解決高維數(shù)據(jù)和大數(shù)據(jù)問(wèn)題的統(tǒng)計(jì)學(xué)方法和理論,把高維統(tǒng)計(jì)學(xué)和因果推斷發(fā)展成清華大學(xué)的核心課程,并應(yīng)用高維統(tǒng)計(jì)分析的方法解決與大數(shù)據(jù)相關(guān)的實(shí)際問(wèn)題,則是他回國(guó)的最大初衷。
在大數(shù)據(jù)和數(shù)據(jù)科學(xué)時(shí)代,統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家經(jīng)常面臨解決高維數(shù)據(jù)的問(wèn)題。這些問(wèn)題來(lái)源于各種不同的領(lǐng)域,如基因?qū)W、生物信息學(xué)、神經(jīng)科學(xué)、環(huán)境科學(xué)、信息學(xué)和金融學(xué)等。也因此,高維統(tǒng)計(jì)和變量選擇成為最近20年最為熱門(mén)的研究問(wèn)題之一。而目前,劉漢中正致力于高維數(shù)據(jù)相關(guān)的領(lǐng)域的研究,這其中包括高維統(tǒng)計(jì)推斷和大數(shù)據(jù)因果推斷。
2009年,劉漢中從中國(guó)科學(xué)技術(shù)大學(xué)統(tǒng)計(jì)學(xué)專業(yè)畢業(yè),優(yōu)異的學(xué)習(xí)成績(jī)讓他獲得了保送北京大學(xué)研究生的資格,這也讓他遇見(jiàn)了對(duì)自己研究方向有直接影響的導(dǎo)師郁彬教授。2012年,他又獲得了國(guó)家留學(xué)基金委博士生聯(lián)合培養(yǎng)項(xiàng)目的名額,在加州大學(xué)伯克利分校度過(guò)了兩年豐富的時(shí)光。之后,在加州大學(xué)伯克利分校統(tǒng)計(jì)系從事博士后研究,導(dǎo)師為郁彬教授。至今,劉漢中已發(fā)表高水平SCI論文3篇,其中一篇發(fā)表在世界四大名刊之一的美國(guó)科學(xué)院院報(bào)(PNAS)上(劉漢中為共同第一作者)。此外,他還擔(dān)任了多個(gè)SCI國(guó)際學(xué)術(shù)頂級(jí)期刊和重要國(guó)際會(huì)議(包括AoS,AoAS,JASA,JMLR,ICML)的審稿人。在多項(xiàng)成果中,“利用機(jī)器學(xué)習(xí)的方法,解決大數(shù)據(jù)背景下如何更有效地進(jìn)行因果推斷的問(wèn)題”是劉漢中的突出成績(jī)之一。
機(jī)器學(xué)習(xí)和因果推斷是兩個(gè)非常重要的研究領(lǐng)域。機(jī)器學(xué)習(xí)的方法已經(jīng)被廣泛地應(yīng)用于研究相關(guān)性關(guān)系,并以此進(jìn)行分類(lèi)和預(yù)測(cè)等。但是利用機(jī)器學(xué)習(xí)的方法推斷因果性關(guān)系的研究卻很少,這是因?yàn)橐蚬躁P(guān)系的確定比相關(guān)性關(guān)系要復(fù)雜得多。隨機(jī)試驗(yàn)是進(jìn)行因果推斷的重要手段。在現(xiàn)代的大規(guī)模隨機(jī)試驗(yàn)中,研究者們能夠觀察到大量的解釋變量。然而,在大數(shù)據(jù)背景下,解釋變量的個(gè)數(shù)往往大于樣本量,而且并不是所有的解釋變量都對(duì)感興趣的因變量有影響。因此,變量選擇或者一定形式的正則化對(duì)于提高因果效應(yīng)的估計(jì)精度非常重要。傳統(tǒng)的因果推斷方法不能很好地利用大數(shù)據(jù)的信息,這也使得研究者們迫切需要發(fā)展新的理論和方法研究大數(shù)據(jù)因果推斷。
考慮到機(jī)器學(xué)習(xí)在相關(guān)性關(guān)系的研究中獲得的巨大成功,如何把機(jī)器學(xué)習(xí)的方法和大數(shù)據(jù)因果推斷結(jié)合起來(lái),這將是一個(gè)非常重要的研究方向。在郁彬教授的指引下,劉漢中很快就捕捉到了這一點(diǎn)。他和合作者們(Adam Bloniarz博士、Cun-Hui Zhang教授、Jasjeet S.Sekhon教授、郁彬教授)首次提出了利用高維變量選擇的方法(Lasso)進(jìn)行大數(shù)據(jù)因果推斷的理論框架,把Lasso的理論和方法推廣到Neyman-Rubin因果模型中去,為研究者們提供了分析大數(shù)據(jù)因果推斷的重要工具。這項(xiàng)研究給出了Lasso能夠更有效地估計(jì)平均因果效應(yīng)的充分條件,并在此基礎(chǔ)上證明了該估計(jì)方法的漸近正態(tài)性。同時(shí),給出了漸近方差的一個(gè)保守估計(jì),可以用于建立平均因果效應(yīng)的置信區(qū)間。而劉漢中的研究成果也被《美國(guó)科學(xué)院院報(bào)》接受發(fā)表,初步探索了機(jī)器學(xué)習(xí)和因果推斷這兩個(gè)領(lǐng)域的結(jié)合方法。
除讓機(jī)器學(xué)習(xí)和因果推斷兩個(gè)領(lǐng)域完美結(jié)合,劉漢中還有多項(xiàng)非常有意義的創(chuàng)新研究成果。其一就是基于殘差Bootstrap和Lasso+OLS的高維統(tǒng)計(jì)推斷。統(tǒng)計(jì)推斷,即建立參數(shù)估計(jì)的置信區(qū)間、求p值等,是統(tǒng)計(jì)學(xué)研究的核心之一?!霸诟呔S即大數(shù)據(jù)背景下如何進(jìn)行統(tǒng)計(jì)推斷是一個(gè)非常困難的問(wèn)題”劉漢中直言。這是因?yàn)楦呔S的統(tǒng)計(jì)學(xué)估計(jì)方法,例如Lasso、Elastice Net等,他們的極限分布十分復(fù)雜,難于估計(jì)。傳統(tǒng)的殘差Bootstrap的方法也不能給出漸近合理的置信區(qū)間。
迎難而上是科研者的使命。最終劉漢中和導(dǎo)師郁彬教授獨(dú)辟蹊徑,創(chuàng)新性地把傳統(tǒng)的統(tǒng)計(jì)學(xué)思想和方法(Bootstrap和最小二乘法)和現(xiàn)代高維變量選擇的工具(Lasso)結(jié)合起來(lái),提出了基于兩步估計(jì)Lasso+OLS的殘差Bootstrap方法來(lái)建立高維稀疏線性回歸模型中參數(shù)的置信區(qū)間。這項(xiàng)研究從理論上證明了該方法的合理性,并且和已知的方法相比,該方法更加通俗易懂,計(jì)算速度更快,非常適合數(shù)據(jù)科學(xué)家分析大數(shù)據(jù)時(shí)使用,其相應(yīng)的成果也發(fā)表在數(shù)理統(tǒng)計(jì)類(lèi)SCI期刊上。
科學(xué)理論和方法研究的意義之一就是實(shí)際應(yīng)用。研究帶有非負(fù)約束的Lasso估計(jì)的變量選擇和參數(shù)估計(jì)的理論性質(zhì),并把該方法應(yīng)用到中國(guó)股票市場(chǎng)的指數(shù)追蹤問(wèn)題中,正是應(yīng)用意義的體現(xiàn)。指數(shù)追蹤是重要的經(jīng)濟(jì)金融問(wèn)題,據(jù)劉漢中介紹,在當(dāng)時(shí)的中國(guó)股票市場(chǎng),由于無(wú)法賣(mài)空股票,只能依靠買(mǎi)入股票追蹤某種指數(shù),比如滬深300指數(shù)。由于昂貴的交易費(fèi)用和管理費(fèi)用,人們通常不會(huì)選擇持有構(gòu)成指數(shù)的所有股票來(lái)追蹤該種指數(shù)。如何從大量的股票中選擇出能夠最有效地追蹤指數(shù)的那些股票?這個(gè)問(wèn)題就變得非常重要。為了解決這一問(wèn)題,劉漢中和合作者們(楊玥含博士、吳嵐教授)提出了帶有非負(fù)約束(即只能買(mǎi)入股票,不能賣(mài)空股票)的Lasso方法,并且在一定的條件下證明了該方法具有變量選擇相合性和參數(shù)估計(jì)相合性。在追蹤滬深300指數(shù)的實(shí)際應(yīng)用中,發(fā)現(xiàn)只用30只股票就可以實(shí)現(xiàn)年化追蹤誤差在5%左右。該項(xiàng)研究成果發(fā)表在數(shù)據(jù)分析方向重要期刊上。
2016年,學(xué)成歸來(lái),帶著理想和抱負(fù),劉漢中毅然加入清華大學(xué)。在已有研究成果的基礎(chǔ)上,回國(guó)后的他積極開(kāi)展有關(guān)高維統(tǒng)計(jì)分析和大數(shù)據(jù)因果推斷方面的教學(xué)和科研工作。在教學(xué)方面,他立志盡全力把高維統(tǒng)計(jì)學(xué)和因果推斷發(fā)展成清華大學(xué)的核心課程;在科研方面,將致力于應(yīng)用高維統(tǒng)計(jì)分析的方法解決與大數(shù)據(jù)相關(guān)的實(shí)際問(wèn)題,同時(shí)發(fā)展大數(shù)據(jù)背景下進(jìn)行因果推斷的新理論和新方法。
“大數(shù)據(jù)因果推斷將是未來(lái)統(tǒng)計(jì)學(xué)研究的重點(diǎn)方向之一?!备呔S統(tǒng)計(jì)推斷和因果推斷是清華大學(xué)統(tǒng)計(jì)學(xué)研究中心未來(lái)的重點(diǎn)發(fā)展方向之一。回國(guó)后的劉漢中將作為主要研究人員,承擔(dān)高維統(tǒng)計(jì)推斷和大數(shù)據(jù)因果推斷的教學(xué)工作。在國(guó)外的學(xué)習(xí)和研究工作經(jīng)歷,不僅讓劉漢中掌握了大量經(jīng)典的和最新的高維統(tǒng)計(jì)學(xué)理論和方法,更了解了高維統(tǒng)計(jì)學(xué)和大數(shù)據(jù)的學(xué)術(shù)研究前沿動(dòng)態(tài),同時(shí)受到了國(guó)外先進(jìn)的教學(xué)授課方法的熏陶。基于此,劉漢中表示將結(jié)合清華大學(xué)的實(shí)際情況,把國(guó)外所學(xué)傾囊傳授給清華的莘莘學(xué)子,同時(shí)希望能夠發(fā)展具有清華大學(xué)統(tǒng)計(jì)學(xué)中心特色的高維統(tǒng)計(jì)學(xué)核心課程。
科研上,劉漢中表示除了完成現(xiàn)有課題的論文寫(xiě)作工作,還將致力于高維統(tǒng)計(jì)分析理論和應(yīng)用研究、機(jī)器學(xué)習(xí)和因果推斷研究。具體而言,將在因果推斷的Neyman-Rubin框架下,研究各種機(jī)器學(xué)習(xí)方法(例如Elastic Net、Ridge等)的統(tǒng)計(jì)性質(zhì),發(fā)展適合大數(shù)據(jù)因果推斷的統(tǒng)計(jì)學(xué)新方法,并把這些方法應(yīng)用于研究實(shí)際中出現(xiàn)的各種因果推斷問(wèn)題,比如個(gè)人醫(yī)療、A/B檢驗(yàn)(例如互聯(lián)網(wǎng)點(diǎn)擊率影響因素探索)等。
如何利用好大數(shù)據(jù)時(shí)代提供的海量高維數(shù)據(jù)?盡管“還有相當(dāng)長(zhǎng)一段路要走”,但在劉漢中看來(lái),“同時(shí)充滿了各種機(jī)遇和機(jī)會(huì)”。但作為大數(shù)據(jù)時(shí)代的新生力量,他將奮力開(kāi)啟一段新的征程。