[ 作者簡介 ]
柯珍梅,女,廣東茂名人,中國人民大學(xué),本科,研究方向:概率論與數(shù)理統(tǒng)計(jì)。
[ 摘要 ]
在大數(shù)據(jù)時(shí)代,因果推斷的重要性很高,是人工智能的基礎(chǔ),在互聯(lián)網(wǎng)行業(yè)得到深度應(yīng)用。本文對因果推斷相關(guān)研究成果進(jìn)行總結(jié),并對因果推斷在互聯(lián)網(wǎng)行業(yè)的應(yīng)用場景進(jìn)行思考。
[ 關(guān)鍵詞 ]
因果推斷;互聯(lián)網(wǎng)
中圖分類號:G30
文獻(xiàn)標(biāo)識碼:A
DOI:10.3969/j.issn.1672-0407.2022.03.010
1 因果推斷介紹
朱迪亞·珀?duì)栐凇稙槭裁矗宏P(guān)于因果關(guān)系的新科學(xué)》一書中提到,理解因果關(guān)系是理解世界的關(guān)鍵,他認(rèn)為因果關(guān)系有三個(gè)層次:相關(guān)性、干預(yù)、反事實(shí)。干預(yù)指的是若實(shí)施某種行動會有什么影響,反事實(shí)指的是假如之前實(shí)施了某種行動會有什么影響。
在大數(shù)據(jù)時(shí)代,因果推斷顯得非常重要,它是人工智能的基礎(chǔ),在互聯(lián)網(wǎng)行業(yè)得到非常廣泛的應(yīng)用。在互聯(lián)網(wǎng)行業(yè)中我們經(jīng)常會遇到很多需要進(jìn)行因果推斷的案例,例如:
(1)功能迭代之后,體驗(yàn)了某個(gè)新功能的用戶留存更高,那么這些用戶的高留存是因?yàn)檫@個(gè)新功能上線帶來的嗎?這個(gè)新功能究竟對留存的提升有多大作用?
(2)看到了某個(gè)App投放廣告的用戶激活率更高,那么這些用戶的高激活率有多大程度是由廣告帶來的呢?有沒有可能就算不投放廣告,這批用戶的激活率也會明顯高于其他用戶呢?
(3)電商平臺對部分用戶發(fā)放優(yōu)惠券,發(fā)現(xiàn)發(fā)放了優(yōu)惠券的用戶訂單轉(zhuǎn)化率更高,那么這些用戶的高訂單轉(zhuǎn)化率有多少是由優(yōu)惠券帶來的呢?有沒有可能就算不投放廣告,這批用戶的訂單轉(zhuǎn)化率也會明顯高于其他用戶呢?
以上是在互聯(lián)網(wǎng)行業(yè)常見的案例,經(jīng)常需要通過運(yùn)用因果推斷方法來解決。
2 因果推斷的必要性
目前大部分機(jī)器學(xué)習(xí)方法是基于相關(guān)關(guān)系,但基于相關(guān)關(guān)系進(jìn)行數(shù)據(jù)分析可能得到一些荒謬的結(jié)論,可能出現(xiàn)辛普森悖論、伯克森悖論以及互為因果等異常數(shù)據(jù)現(xiàn)象。
第一個(gè)悖論是辛普森悖論。辛普森悖論是英國統(tǒng)計(jì)學(xué)家辛普森于1951年提出的悖論,指的是在某個(gè)條件下的兩組數(shù)據(jù),分別統(tǒng)計(jì)時(shí)都會滿足某種規(guī)律,可是一旦合并統(tǒng)計(jì),卻可能導(dǎo)致相反的結(jié)論。舉一個(gè)例子,某個(gè)學(xué)院只有2個(gè)專業(yè),按專業(yè)分別統(tǒng)計(jì),女生錄取率均比男生要高,但合并計(jì)算時(shí),發(fā)現(xiàn)女生整體錄取率卻比男生要低,這種數(shù)據(jù)現(xiàn)象反映的就是辛普森悖論。
第二個(gè)悖論是伯克森悖論。在現(xiàn)實(shí)中,我們可能會發(fā)現(xiàn)一種數(shù)據(jù)現(xiàn)象,有些變量在數(shù)據(jù)上呈現(xiàn)出較強(qiáng)的相關(guān)性,但事實(shí)上這些變量之間并無關(guān)系,這就是由伯克森在1946年提出的伯克森悖論。這個(gè)悖論產(chǎn)生的根本原因是統(tǒng)計(jì)樣本選擇存在偏差導(dǎo)致兩個(gè)本來無關(guān)的變量在統(tǒng)計(jì)上呈現(xiàn)出貌似較強(qiáng)的相關(guān)關(guān)系。舉一個(gè)案例,在出國留學(xué)的學(xué)生中,家庭條件較差的學(xué)生可能平均成績更好,那么是否可以得出寒門更容易出貴子的結(jié)論呢?顯然不能,這種數(shù)據(jù)現(xiàn)象是由樣本選擇偏差導(dǎo)致的,能夠出國的學(xué)生,要么是家庭條件較差但比較優(yōu)秀可以爭取到獎學(xué)金的學(xué)生,要么是家庭條件較好可以承擔(dān)出國費(fèi)用的學(xué)生,這個(gè)樣本的構(gòu)成導(dǎo)致家庭條件與學(xué)生成績呈現(xiàn)負(fù)相關(guān)的統(tǒng)計(jì)悖論。
第三個(gè)悖論是反向因果。反向因果關(guān)系這個(gè)概念是由Marquis在1997年提出,他在研究兒童期發(fā)育障礙和母乳喂養(yǎng)之間的關(guān)系時(shí),發(fā)現(xiàn)越是虛弱的嬰兒,其需要哺乳的時(shí)間越長,但并非發(fā)育不良導(dǎo)致母乳攝入量增加,而是母乳攝入量不足導(dǎo)致了發(fā)育不良,這就是所謂的反向因果關(guān)系。這個(gè)概念在流行病學(xué)研究中出現(xiàn)得較多。Coresh在1998年提出逆流行病學(xué)現(xiàn)象,是基于透析患者心血管疾病危險(xiǎn)因素的反向因果關(guān)系發(fā)現(xiàn)的。楊慶偉在2009年也對逆流行病學(xué)現(xiàn)象進(jìn)行了探索分析。
3 因果推斷的方法
關(guān)于如何判定因果關(guān)系,J.S.Mill在《邏輯體系》一書中提到變量之間因果關(guān)系的判定需滿足三個(gè)條件:第一,“因”變量發(fā)生時(shí)間應(yīng)該在“果”變量之前;第二,“因”變量和“果”變量存在相關(guān)關(guān)系,如果“因”變量發(fā)生了變化,那么“果”變量也需要呈現(xiàn)相應(yīng)的變化;第三,控制其他可能對“因”變量和“果”變量同時(shí)具有影響的其他變量。基于對過往文獻(xiàn)的閱讀,發(fā)現(xiàn)當(dāng)前做因果推斷的最常用的方法主要有隨機(jī)實(shí)驗(yàn)方法、準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)方法和聯(lián)合模型方法這三類。
3.1 隨機(jī)實(shí)驗(yàn)
隨機(jī)實(shí)驗(yàn)方法是當(dāng)前應(yīng)用最普遍的因果推斷方法,在互聯(lián)網(wǎng)行業(yè),為監(jiān)控不同產(chǎn)品策略的實(shí)際效果,AB測試是業(yè)務(wù)迭代過程中最常用的一種方法。關(guān)于這種方法,有大量學(xué)者做了相關(guān)研究和探索。Aral等人以Facebook用戶為研究對象,使用隨機(jī)實(shí)驗(yàn)方法研究好友關(guān)系對用戶使用行為的影響。
隨機(jī)實(shí)驗(yàn)方法有兩個(gè)關(guān)鍵環(huán)節(jié),分別是控制變量和隨機(jī)分流??刂谱兞渴请S機(jī)實(shí)驗(yàn)的核心,以互聯(lián)網(wǎng)行業(yè)的AB實(shí)驗(yàn)為例,如果我們希望通過隨機(jī)實(shí)驗(yàn)來驗(yàn)證不同產(chǎn)品方案的效果,那么需要確保除方案變量外其他變量一致,方可判斷指標(biāo)差異是方案不同造成的,從而可以選擇優(yōu)勝產(chǎn)品方案上線。除了控制變量,隨機(jī)實(shí)驗(yàn)的另外一個(gè)關(guān)鍵環(huán)節(jié)是隨機(jī)分流,F(xiàn)isher在19世紀(jì)20年代就嘗試將隨機(jī)化的原則應(yīng)用于實(shí)驗(yàn)設(shè)計(jì)中,以上面的互聯(lián)網(wǎng)行業(yè)的AB實(shí)驗(yàn)為例,需要保證各個(gè)產(chǎn)品方案針對的人群特征分布相同,從而避免除產(chǎn)品方案之外的影響因素影響實(shí)驗(yàn)結(jié)果。
3.2 準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)
準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)常用的方法是斷點(diǎn)回歸和傾向得分匹配方法,這在計(jì)量經(jīng)濟(jì)學(xué)領(lǐng)域是比較常用的一種因果推斷方法。
3.2.1 斷點(diǎn)回歸
斷點(diǎn)回歸與隨機(jī)實(shí)驗(yàn)有一定相似性,也是嘗試?yán)脙山M在特征分布上無顯著差異的隨機(jī)樣本進(jìn)行比較,但斷點(diǎn)回歸的對照樣本是基于自然發(fā)生的事件(例如自然災(zāi)害、已實(shí)施的政策等)構(gòu)造,而非人為事先就設(shè)計(jì)好的。在外來因素干預(yù)下,如果干預(yù)因素對觀察對象有因果效應(yīng),觀察對象的相關(guān)變量會在取值上出現(xiàn)一個(gè)斷點(diǎn),以干預(yù)因素出現(xiàn)的時(shí)間點(diǎn)為分割點(diǎn),將觀察對象隨機(jī)分配為控制組和處理組,斷點(diǎn)回歸的目的就是檢測斷點(diǎn)是否存在,也就是檢測干預(yù)手段是否導(dǎo)致觀察對象的相關(guān)變量出現(xiàn)明顯變化。Angrist&Lavy曾使用斷點(diǎn)回歸對小班教學(xué)的效果進(jìn)行研究,證明小班教學(xué)能在一定程度上提升學(xué)生的學(xué)業(yè)成績。
3.2.2 傾向得分匹配
傾向得分匹配,是基于反事實(shí)推斷模型理論框架的一種統(tǒng)計(jì)方法,目的是對干預(yù)效應(yīng)進(jìn)行分析,但所使用的數(shù)據(jù)是觀測數(shù)據(jù)。該方法的原理是將多維協(xié)變量轉(zhuǎn)變?yōu)橐粋€(gè)一維變量(傾向得分),用于解決針對多個(gè)可觀察特征對比匹配問題,從而明顯提升匹配的成功率。例如研究吸煙對于健康的影響,所能得到的數(shù)據(jù)基本是觀察研究數(shù)據(jù),而若不做匹配直接對抽煙人群和不抽煙人群進(jìn)行整體對比分析,容易出現(xiàn)辛普森悖論,通過傾向得分匹配可以構(gòu)造類似隨機(jī)實(shí)驗(yàn)的實(shí)驗(yàn)組和對照組,可以相對準(zhǔn)確地評估吸煙對于健康的影響情況。
胡永遠(yuǎn)和周志鳳提出傾向得分匹配主要包括模型和協(xié)變量選擇、匹配方法選擇、傾向得分計(jì)算、平均處理效應(yīng)估計(jì)、敏感性檢驗(yàn)等幾個(gè)步驟。
3.3 聯(lián)合模型
最常用的因果推斷模型有兩個(gè),分別為潛在結(jié)果模型和因果圖模型。
3.3.1 因果圖模型
因果圖模型由Judea Pearl于 1995 年提出。近些年,關(guān)于因果推斷的圖模型的研究有很多,其中大部分是關(guān)于DAG(有向無環(huán)圖)。因果推斷中常用的DAG是基于貝葉斯網(wǎng)絡(luò),隨機(jī)變量用貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn)來代表,而不同變量之間的因果關(guān)系由節(jié)點(diǎn)間的邊代表,每個(gè)節(jié)點(diǎn)都附有一個(gè)概率分布,根節(jié)點(diǎn)所附的概率分布是邊緣概率分布,而非根節(jié)點(diǎn)所附的概率分布是條件概率分布。
3.3.2 潛在結(jié)果模型
潛在結(jié)果模型由Rubin于 1978 年提出,該模型主要用于對同一個(gè)個(gè)體施加不同干預(yù)導(dǎo)致的產(chǎn)出差異進(jìn)行評估,其核心關(guān)注指標(biāo)為干預(yù)效應(yīng),用于評估給定的干預(yù)措施(例如優(yōu)惠券發(fā)放)與目標(biāo)結(jié)果變量(例如顧客購買)之間的因果關(guān)系。
關(guān)于潛在結(jié)果模型的研究比較多,Varian提出,可通過偏最小二乘、逐步回歸、主成分回歸等方法進(jìn)行變量選擇,并可以通過K近鄰、決策樹、隨機(jī)森林等方法進(jìn)行建模。
4 因果推斷在互聯(lián)網(wǎng)行業(yè)的應(yīng)用
因果推斷在互聯(lián)網(wǎng)行業(yè)主要有兩個(gè)應(yīng)用方向,第一個(gè)是基于A/B測試評估功能/策略迭代效果,第二個(gè)是主要基于Uplift model來預(yù)測營銷手段的增量收益,第二個(gè)方向主要運(yùn)用于智能營銷場景(例如廣告投放、電影票票補(bǔ)、電商購物優(yōu)惠券補(bǔ)貼、打車軟件智能定價(jià)等)。
以優(yōu)惠券的發(fā)放為例,有兩個(gè)用戶群對優(yōu)惠券的使用轉(zhuǎn)化率分別是2 %和4 %,在優(yōu)惠券總金額有限制的情況下,應(yīng)該向哪類用戶發(fā)放優(yōu)惠券呢?基于營銷模型,我們可以將營銷人群劃分為自然轉(zhuǎn)化人群、無動于衷人群、反作用人群、營銷敏感人群,智能營銷的關(guān)鍵是定位到營銷敏感人群,而在分析中我們可能會用到兩類模型,分別是響應(yīng)模型和增益模型,響應(yīng)模型預(yù)測的是用戶收到優(yōu)惠券之后的轉(zhuǎn)化概率,本質(zhì)是預(yù)測相關(guān)性,無法區(qū)分自然轉(zhuǎn)化人群(就算不發(fā)放優(yōu)惠券也會轉(zhuǎn)化的用戶)和營銷敏感人群(因?yàn)榘l(fā)放了優(yōu)惠券才轉(zhuǎn)化的用戶),而增益模型可以預(yù)測用戶因?yàn)槭盏絻?yōu)惠券而轉(zhuǎn)化的概率,可以估計(jì)用戶對優(yōu)惠券的敏感程度,預(yù)測的是增量收益,可以將效益最大化,這是一個(gè)將因果推斷方法應(yīng)用于智能營銷的場景,類似場景還有廣告智能投放、電影票智能票補(bǔ)、電商購物優(yōu)惠券、打車軟件智能補(bǔ)貼等。
增益模型的目的是預(yù)測某種干預(yù)手段給被干預(yù)對象帶來的因果效應(yīng)的大小。主要有兩種建模方式,分別是Meta-Learning Method和Tree-Based Method。Meta-Learning Method是基于Meta-Learner進(jìn)行Uplift預(yù)估,可以運(yùn)用任意的既有的LR、SVM、RF、GBDT等預(yù)測算法,根據(jù)Meta-Learner的組合不同,通??梢苑譃镾-Learner、T-Learner、X-Learner、R-Learner,其中S-Learner和T-Learner可以運(yùn)用既有預(yù)測算法,相對簡單,而X-Learner和R-Learner可以解決更復(fù)雜的問題。Tree-Based Method是基于樹的方法,仿照標(biāo)準(zhǔn)CART樹,根據(jù)信息增益的大小不斷對特征進(jìn)行分割,常用算法包括Uplift-Tree、CausalForest、CTS等。
關(guān)于因果推斷在互聯(lián)網(wǎng)行業(yè)的相應(yīng)用研究不算很多,羅銳嘗試運(yùn)用因果推斷分析方法對推薦算法的平均因果效應(yīng)進(jìn)行計(jì)算。
5 總結(jié)和思考
互聯(lián)網(wǎng)行業(yè)是應(yīng)用大數(shù)據(jù)最為廣泛的行業(yè),在大數(shù)據(jù)場景下,理解因果關(guān)系有助于推動行業(yè)的快速發(fā)展,因果推斷是一個(gè)相對成熟的學(xué)科,已經(jīng)有很多成熟的方法,然而當(dāng)前的研究主要還是集中于經(jīng)濟(jì)學(xué)、醫(yī)學(xué)、公共衛(wèi)生等傳統(tǒng)領(lǐng)域,關(guān)于該方法在互聯(lián)網(wǎng)行業(yè)的應(yīng)用研究相對不多,如何將當(dāng)前在其他領(lǐng)域應(yīng)用得比較成熟的方法更好地應(yīng)用于當(dāng)前發(fā)展快速的互聯(lián)網(wǎng)行業(yè),是值得深入思考的問題。
參考文獻(xiàn)
[1]朱迪亞·珀?duì)? 為什么: 關(guān)于因果關(guān)系的新科學(xué)[M]. 江生,于華,譯. 北京: 中信出版集團(tuán),2019.
[2]章中信. 常見的統(tǒng)計(jì)學(xué)謬誤之一——伯克森悖論[J]. 語數(shù)外學(xué)習(xí)(高中版上旬),2020(11): 58-59.
[3]楊慶偉. 一種常見的逆流行病學(xué)現(xiàn)象分析[J]. 中華流行病學(xué)雜志,2009(12): 1315-1316.
[4]胡永遠(yuǎn),周志鳳. 基于傾向得分匹配法的政策參與效應(yīng)評估[J].中國行政管理,2014(1): 98-101.
[5]托馬斯·科爾曼. 算法導(dǎo)論(原書第3版)[M]. 北京: 機(jī)械工業(yè)出版社,2013.
[6]羅銳. 因果推斷在推薦算法A/B測試分析中的應(yīng)用[J].通信與信息技術(shù),2021(5): 67-70.