邁克爾·盧卡 馬克斯·巴澤曼
假設(shè)你供職于谷歌(Google)的廣告團隊,現(xiàn)在需要就廣告該使用藍色背景還是黃色背景的問題做出決定。你覺得黃色會吸引更多的點擊,你的同事們則認為藍色的效果會更好。那么,你該如何決策?
在早期的谷歌,像這樣意見相左的兩派肯定會爭論不休,直至一方屈服,或者雙方都同意將決定權(quán)交給老板。不過最終,谷歌上上下下的領(lǐng)導(dǎo)者漸漸明白過來,很多類似這樣的爭論和決策都是毫無必要的。
“我們并不想看到高管們討論藍色還是黃色背景能帶來更多廣告點擊?!惫雀璧氖紫?jīng)濟學(xué)家哈爾·瓦里安(Hal Varian)告訴我們說,“為什么要爭論這樣的問題?我們簡單做一個實驗,結(jié)果不就出來了嗎?”
瓦里安和團隊合作,開發(fā)出了谷歌的系統(tǒng)化實驗方案。如今,谷歌開展的實驗數(shù)量達到了驚人的規(guī)?!磕瓿^1萬例。這些實驗結(jié)果為廣告銷售、搜索引擎參數(shù)設(shè)置等各種情境下的管理決策提供了決策依據(jù)。
從更廣泛的層面來看,實驗思維已經(jīng)滲透到了科技行業(yè)的大部分領(lǐng)域,而且正在向更大的范圍傳播。眼下,大多數(shù)主流科技公司,譬如亞馬遜(Amazon)、臉書(Facebook)、優(yōu)步(Uber)和Yelp,在沒有通過實驗驗證的情況下,都不會對自家平臺輕易做出重大改變,因為它們不清楚這樣的改變會對用戶行為構(gòu)成怎樣的影響。一些傳統(tǒng)企業(yè),例如金寶湯公司(Campbell Soup),數(shù)十年來也一直在謹慎地開展實驗。隨著數(shù)字化轉(zhuǎn)型的啟動,更多公司加大了對實驗的投入力度。隨機對照實驗不再只是學(xué)術(shù)研究領(lǐng)域里的玄奧工具,而是成為企業(yè)的主流。初創(chuàng)公司、跨國集團和政府機構(gòu)都運用這一新工具來測試各種想法,了解自家產(chǎn)品和服務(wù)所帶來的影響。
實驗結(jié)論以證據(jù)為基礎(chǔ),對直覺和猜測起到了補充作用。我們曾親眼見證了實驗給組織帶來的巨大回報。例如,eBay就通過實驗警覺地發(fā)現(xiàn),自己每年在廣告上浪費了數(shù)百萬美元。(參見副欄“實驗的回報”)實驗的興起通常是件好事:首先,它有利于公司,公司可以利用實驗結(jié)果來改進人事和運營方式,改善產(chǎn)品;其次,它有利于政府,政府可以利用實驗結(jié)果來更好地設(shè)計和提供基本服務(wù);最后,如果經(jīng)過細心地設(shè)計和監(jiān)控,實驗也會給客戶和公民帶來好處。
與此同時,我們必須具備一定的判斷力,才能有效地將實驗結(jié)果融入決策之中,確定合適的實驗時間和方式。舉例來說,來自賓夕法尼亞大學(xué)(University of Pennsylvania)的行為經(jīng)濟學(xué)家凱蒂·米爾克曼(Katy Milkman)和心理學(xué)家安杰拉·達克沃思(Angela Duckworth),曾經(jīng)為健身連鎖品牌24 Hour Fitness設(shè)計了一系列實驗,旨在確定能夠有效提高健身房出勤率的方法。在實驗過程中,他們通過追蹤每周健身房簽到次數(shù)以及幾個月內(nèi)的鍛煉時長等行為數(shù)據(jù),尋找與健身房長期出勤率密切相關(guān)的策略。米爾克曼和達克沃思的方案凸顯了實驗中核心設(shè)計的價值:如果僅跟蹤幾周以內(nèi)健身房的出勤情況(實驗只持續(xù)幾天是很常見的現(xiàn)象),他們就有可能得出完全不同的結(jié)論,而24 Hour Fitness依此來推行的變革可能在短期內(nèi)有用,幾個月后其功效就會逐漸消失。
另外更重要的是,實驗通常伴隨著一定的風險。實驗加劇了人們對于透明度問題的擔憂,尤其是考慮到全球的實驗結(jié)果多半存儲于企業(yè)的數(shù)據(jù)庫中,它們既不會被公之于眾,還可能會被用于未知用途。有的實驗讓人覺得有侵犯性,粗暴武斷,甚至?xí)兄聭嵟@?,F(xiàn)acebook當年開展實驗來測試悲傷或消極的帖子是否會影響用戶的情緒,招致了大量非議。此外,對于那些需要依賴客戶數(shù)據(jù)來做實驗的公司來說,還會引發(fā)客戶對數(shù)據(jù)隱私和安全性的擔憂。
實驗也有可能導(dǎo)致一輸一贏局面的出現(xiàn)。以StubHub為例,這家公司進行了一項實驗,從而確定了手續(xù)費可以在顧客購票之前的最后階段附加上去,而非在整個購買過程中都予以明示。相關(guān)研究揭示了公司所謂的“費用掩蓋”決策及其給顧客帶來的最終影響。結(jié)果表明,費用掩蓋的短期價值頗為顯著:有更多顧客購票。不過,它給公司帶來的長期價值并不明朗,因為次年重新光顧的顧客更少了。
當前我們正處于商業(yè)實驗的早期階段。設(shè)計和詮釋這些實驗都非常具有挑戰(zhàn)性,它需要將較強的技術(shù)能力、分析技巧和管理判斷力綜合在一起。隨著實驗在企業(yè)內(nèi)的應(yīng)用越來越普遍,管理者更需要制定框架來有效地開展實驗,并以一種對于企業(yè)和客戶而言都同樣富有成效和價值的方式,從結(jié)論過渡到?jīng)Q策。在本文中,我們將會圍繞著四則經(jīng)驗展開探討。這些啟示有的來自我們對幾十家大型公司主持實驗的管理者的訪談,還有的來自實驗領(lǐng)域的諸多專家;既包括我們在為研究生設(shè)計、講授實驗和管理決策課程時得出的洞見,也包含了我們在給公司和政府客戶開發(fā)、測試基于行為經(jīng)濟學(xué)的干預(yù)時收獲的經(jīng)驗。
對于管理者而言,參與實驗的設(shè)計和詮釋是非常重要的,這樣做不但可以保證實驗?zāi)軌虻靡嬗诠芾碚叩囊娊夂徒?jīng)驗,同時也有助于管理者培養(yǎng)“測試”敏感度,他們會變得更傾向于在日常決策過程中,檢驗自己的假設(shè)和尋找證據(jù)。除此之外,公司還應(yīng)當設(shè)立基礎(chǔ)機制,使得實驗之風能夠盛行于整個組織。這樣一來,實驗就不會在各自封閉的狀態(tài)下進行。
我們以數(shù)字旅游平臺繽客網(wǎng)(Booking. com)的方法為例。它之所以同時受到管理者和商業(yè)學(xué)者的關(guān)注,部分原因在于它通過某種方式讓實驗更貼近管理決策。在繽客網(wǎng),所有業(yè)務(wù)領(lǐng)域都開展了實驗,既包括面向顧客的平臺實驗,也包括面向合作伙伴的實驗。公司大約有1,500名員工會參與到實驗中來——其中很多人都擁有管理學(xué)或工程學(xué)背景,但他們對統(tǒng)計學(xué)和實驗學(xué)所知有限。繽客網(wǎng)的產(chǎn)品經(jīng)理可以輕松地開展實驗來測試產(chǎn)品的新功能,然后再全面向顧客推出。事實上,繽客網(wǎng)約80%的產(chǎn)品開發(fā)團隊都在積極地開展各種實驗。
繽客網(wǎng)還實施了各種各樣的管理變革,譬如讓公司內(nèi)部的數(shù)據(jù)科學(xué)家舉辦培訓(xùn)課程,并為單個實驗提供定制性的分析支持,其中就包括實驗主任盧卡斯·弗米爾(Lukas Vermeer),他為我們介紹了當前實驗的大致流程。這些變革使得團隊能夠更輕松地設(shè)計和發(fā)起有效實驗,助力公司決策。
一旦實驗得以開展,相應(yīng)結(jié)果就會被記錄到一個集中式存儲庫中,全公司的員工都可以詳細審閱這些內(nèi)容,以及先前實驗所得到的結(jié)果。每個人都能看到實驗測試了哪些功能,無論這些功能最終是否得到了實現(xiàn)。雖然實驗報告默認采用一套標準的衡量指標,但團隊也可以為特定實驗定制衡量指標。
繽客網(wǎng)的這些做法,使得它可以為團隊決策提供實驗證據(jù),且團隊能夠掌控如何從實驗結(jié)果過渡到?jīng)Q策階段。此外,就結(jié)果分析和權(quán)重分配而言,實驗團隊也具有一定的靈活性。集成化系統(tǒng)亦有助于在整個公司內(nèi)部,推廣對于實驗方法和概念的基本了解。這些方法和概念包括假設(shè)驗證、實際顯著性(即影響程度)和統(tǒng)計學(xué)顯著性,以及不同度量方法的優(yōu)點和局限性(更寬泛地說,實驗的優(yōu)缺點)。
中國的電子商務(wù)巨頭阿里巴巴允許零售合作伙伴在其平臺上自行定價,但對于用戶最終支付的價格,它依然保留了一定的控制權(quán)——這種控制,部分是通過決定賣家能否給顧客提供折扣來實現(xiàn)的。為了充分利用這種控制機制,阿里巴巴決定通過實驗來確認從用戶參與和留存的角度來看,在何種情形下,折扣會給平臺帶來最大價值。
舉例來說,為了提升銷量,阿里巴巴允許賣家向那些將特定“促銷商品”放在購物車中超過24小時的顧客提供較大折扣。但這些優(yōu)惠券的存在,實際上真的改變了顧客的購物行為嗎?這正是阿里巴巴公司領(lǐng)導(dǎo)層希望得到解答的疑惑。
2016年年初,一個管理研究小組聯(lián)合阿里巴巴,在該公司的兩個平臺上開展了一項隨機現(xiàn)場實驗,以衡量購物車促銷方案究竟會產(chǎn)生怎樣的效果。研究人員隨機挑選了100萬名阿里巴巴平臺上的顧客,他們從2016年3月12日到2016年4月11日,至少被平臺上的一項促銷活動觸達過。研究人員將這些顧客分別列入對照組和實驗組。實驗組的顧客會收到特定促銷商品的優(yōu)惠券,通常這些商品在顧客的購物車中保留了一天以上。與此同時,對照組的顧客將不會得到任何優(yōu)惠券。
阿里巴巴和研究小組非常關(guān)注兩類問題的答案:(1)當拿到優(yōu)惠券時,顧客買下購物車中商品的可能性是否會更高?(2)就總體而言,相比那些沒有得到優(yōu)惠券的顧客,拿到優(yōu)惠券的顧客是否會從阿里巴巴的平臺上購買更多的商品?
實驗結(jié)果表明,購物車方案有些雞肋:對某些賣家來說,它是好事,但對另外一些賣家而言,它是壞事。結(jié)果還顯示該方案整體而言似乎并沒有增加阿里巴巴平臺上的購買量。基于這一實驗結(jié)果,公司決定不再推廣購物車優(yōu)惠券方案。
不過,我們需要注意的是此案例中提出的問題。阿里巴巴實驗主要想解開的疑惑是“購物車方案會帶來什么影響”,而不是“這一方案應(yīng)當如何設(shè)計”。這是一個重要的區(qū)別,因為優(yōu)惠券之所以作用不大,可能只是因為設(shè)計不合理,而不是因為這類折扣天生存在缺陷。盡管這項實驗證明了當前的購物車方案促銷效果不是特別好,但我們還是想知道是否有效果更好的替代方案。
具體來說,阿里巴巴可以考慮對購物車方案的若干要點進行測試。首先,促銷活動通常因為較低的曝光度而夭折——三分之一的用戶在優(yōu)惠券到期之前,都沒有再次看過自己的購物車,因此他們根本不知道有折扣。其次,方案允許賣家選擇優(yōu)惠券折扣的幅度,這就阻礙了實驗者探究優(yōu)惠券價值對于購買行為的影響。再者,優(yōu)惠券方案對于用戶滿意度以及阿里巴巴平臺長期參與度的影響依舊不明朗,還需要進一步探索。
阿里巴巴的實驗凸顯了利用實驗來指導(dǎo)管理決策的前景和挑戰(zhàn)。公司用數(shù)據(jù)代替了直覺,研究者則完成了一項有用的實驗。但是,和其他任何實驗一樣,它只是解開了一部分謎團。在組織中要成功地開展實驗,不僅要解答疑問,更重要的是提出正確的問題,而且提出的正確問題要足夠多。管理者不僅應(yīng)該把注意力放在測試現(xiàn)有方案上,還要著重于建立合理的框架,助力未來的潛在方案決策。這就意味著我們要對邊界條件和機制進行梳理——在上述案例中,實驗者要研究的不僅是特定的定價形式能否“生效”,還有它為什么生效、如何生效以及怎樣才能取得更好的效果。
我們需要通過管理判斷來確定實驗可以解答哪些疑惑。諾貝爾獎獲得者阿爾·羅思(Al Roth)在實驗經(jīng)濟學(xué)領(lǐng)域曾做過開創(chuàng)性的研究工作。在一次交談中,他告訴我們,在《實驗經(jīng)濟學(xué)手冊》(The Handbook of Experimental Economics)的開篇,他就有意用“系列實驗”的說法替代了單個實驗。羅思的理由很簡單:他不希望讀者有這樣的錯覺,以為單個實驗就能回答他們所有的疑問。同樣,管理者也需要去思考,如何利用更廣泛的證據(jù)來制定決策。此外,他們還需要認識到實驗自身的局限性,并結(jié)合其他基于數(shù)據(jù)的證據(jù)來思考實驗。
管理者通常比較關(guān)注實驗中過于狹隘或短期的效果,因為這些效果是他們最希望得到的,而且易于衡量。但管理者也應(yīng)當從長遠考慮,去衡量幾個月乃至更長時間內(nèi)的效果。這就意味著他們必須明確哪些是對業(yè)務(wù)最重要的長期效果,然后將其納入對實驗設(shè)計和詮釋的理解。
賓夕法尼亞大學(xué)行為改變計劃(Behavior Change for Good, BCFG)主任米爾克曼和達克沃思,希望與24 Hour Fitness公司合作,共同尋找能夠敦促人們鍛煉的干預(yù)措施。24 Hour Fitness擁有370萬名會員,分布在美國13個州的420座城市中。人們鍛煉得越多,對24 Hour Fitness來說,就意味著越高的收入和利潤機會,所以它自然對這一合作充滿期待。
2017年5月,米爾克曼和達克沃思召集行為改變團隊的科研人員,召開了首次會議。他們向科研人員介紹了StepUp,這是一個干預(yù)鍛煉行為的網(wǎng)絡(luò)平臺??蒲腥藛T可以利用這一實驗平臺,測試和跟蹤特定的干預(yù)措施,往注冊流程里補充內(nèi)容和問題,定制參與者接收的電子郵件和文本信息。
實驗的初步結(jié)果顯示,很多干預(yù)措施,譬如簽署承諾和制訂鍛煉計劃,都可以產(chǎn)生一些短期效果,不過等拉長到幾個月的跨度再看,有些干預(yù)措施的效果就不盡如人意了。用達克沃思的話說:“行為改變真是太××難了?!?/p>
對于實驗主義者來說,這既是十分重要的經(jīng)驗總結(jié),也是一個老大難問題。如果行為改變計劃只跟蹤短期效果,那么結(jié)果看起來或許完全不同。像24 Hour Fitness這樣的公司的領(lǐng)導(dǎo)者,需要同時思考管理決策的短期和長期效果。獲得短期成效一般更容易些(根據(jù)定義來看,也會更快些),但它們通常無法持久。更糟糕的是,它們還會削弱長期效果。
2018年,優(yōu)步公司(Uber)在決定是否要推出名為Express Pool的拼車服務(wù)時,也遭遇了評估方面的難題。在使用Express Pool時,叫車人需要多等一會并且多走幾步,才能到達約定目的地。在等待過程中,候選的搭車人(即可以在指定的“快捷”會合地點搭車的乘客)將會由算法進行匹配。從結(jié)果來看,拼車服務(wù)可能更耗時,但為乘客省了錢。
優(yōu)步拼車定價和市場實驗數(shù)據(jù)科學(xué)團隊的經(jīng)理兼經(jīng)濟學(xué)家鄧肯·吉爾克里斯特(Duncan Gilchrist)博士,承擔了解析Express Pool服務(wù)價值的重任。他很快就點出了該課題的難點。舉例來說,假如優(yōu)步在沒有做前期測試的情況下,就貿(mào)然推出了該服務(wù),即便它廣受歡迎,我們也很難預(yù)料它是否會和優(yōu)步的其他服務(wù)(Uber X、Uber Pool等)形成同室操戈的局面?,F(xiàn)在我們假設(shè),優(yōu)步向波士頓的半數(shù)乘客開放了Express Pool服務(wù),那么另一半乘客就成了本實驗中“可憐”的對照組,因為他們的乘車體驗(包括等待時間)受到了其他乘客(包括實驗組乘客)需求的影響。這類溢出效應(yīng)在實驗中很常見。
為了避免溢出效應(yīng),同時了解Express Pool會對公司整個產(chǎn)品線帶來何種影響,優(yōu)步選擇了一組大型市場,并從中隨機挑選了6座城市推出該項服務(wù)。借助實驗工具,包括一種可以采用其他城市的加權(quán)組合形成“綜合”對照組的辦法,吉爾克里斯特和他的團隊梳理出了新服務(wù)的上線會從哪些方面對公司構(gòu)成影響。
不出所料,Express Pool服務(wù)產(chǎn)生了新型的旅程匹配。不過,上述實驗也解釋了此項服務(wù)對于優(yōu)步其他服務(wù)的影響,而且明確了該服務(wù)的推出有充分的商業(yè)依據(jù)。最終,優(yōu)步信心滿滿地將Express Pool服務(wù)推向了各大市場。如果沒有廣泛的實驗作支撐,這種自信以及激發(fā)信心的新發(fā)現(xiàn),都將是無源之水、無本之末。
各公司每年會開展數(shù)以萬計的實驗,并將實驗結(jié)果與具體的用戶行為掛鉤,同時利用它們來塑造顧客同自家產(chǎn)品和服務(wù)的交互方式。然而,公眾對于這些實驗所知甚少,部分原因在于公司擔心顧客會覺得自己受到了操縱而忿忿不平。
我們以Facebook多年前開展的一項大規(guī)模實驗為例,當時這家公司希望檢驗帖子的情緒基調(diào)是否會影響用戶情緒,這種影響又有多大。為此,F(xiàn)acebook操控了一組隨機選擇用戶所收到的推送。相比其他用戶,平臺呈現(xiàn)給這些用戶的帖子都更消極。隨后,研究人員在一篇論文中公布了實驗結(jié)果,并總結(jié)道:“Facebook上他人的情緒表達會影響我們自己的情緒,這為社交網(wǎng)絡(luò)上的大規(guī)模情緒蔓延提供了實驗證據(jù)?!?/p>
雖然上述實驗揭示的情緒改變效應(yīng)并不明顯,但引發(fā)的最終結(jié)果令人大開眼界。Facebook遭遇了來自用戶頗為強烈的抵制,他們先前可能一直沒有意識到,一旦登錄這個平臺,自己就默認成為實驗對象。此外,這項實驗也引發(fā)了來自媒體的廣泛關(guān)注,而且這些關(guān)注多半是負面的。
現(xiàn)在回顧此次實驗,當時很多批評意見都聚焦于Facebook是本著對情緒影響的理解來改變產(chǎn)品設(shè)計。不過,人們沒有必要對此感到大驚小怪——Facebook的設(shè)計選擇當然會影響用戶情緒。但對于大眾而言,更令人不爽的地方在于,F(xiàn)acebook默不作聲地完成了實驗。這讓人感覺就像是在暗中監(jiān)視。
或許這是意料之中的事情,F(xiàn)acebook并沒有對抵制情緒做出反應(yīng),譬如試圖讓平臺變成更快樂或更中立的網(wǎng)絡(luò)空間,這表明制造積極的情緒影響并非這家公司的主要目標。然而,針對實驗本身的擔憂,F(xiàn)acebook還是通過其他途徑做出了回應(yīng)。風波結(jié)束以后,F(xiàn)acebook很快就叫停了一些對外研究,對于公司內(nèi)部開展的實驗也開始甚少透露。不過值得贊揚的是,F(xiàn)acebook在公司內(nèi)部成立了一個由5名員工組成的研究倫理委員會,由委員會負責審查選定的實驗(盡管該委員會的工作方式亦并非完全透明)。
事實上,F(xiàn)acebook和其他公司會得益于實驗透明度的改善。公司應(yīng)當建立一個透明流程來澄清它們采用的實驗方案,而不是遮掩實驗過程(或者將相關(guān)解釋埋藏在根本沒人會認真閱讀的用戶協(xié)議中)。這些行動必須達成以下目標:
● 大體上承認公司經(jīng)常通過實驗來評估用戶的反應(yīng)(沒錯,我們還會將這些反應(yīng)分享給銀行);
● 向公司、顧客和其他利益相關(guān)者解釋實驗的價值;
● 盡可能鼓勵人們討論公司的實驗?zāi)繕撕蛯嶒灧桨福?/p>
● 在適當?shù)臅r候公開實驗結(jié)果。
實驗不僅對公司有價值,對顧客也同樣有價值。想必顧客也不希望體驗公司拍腦袋決策而提供的低質(zhì)服務(wù),而服務(wù)質(zhì)量本可以通過數(shù)據(jù)就輕松得到改善。這意味著,顧客其實樂于接受實驗,只要他們的隱私和其他利益能得到尊重,而公司則應(yīng)當停止對實驗流程遮遮掩掩的保密做法。
顧客心里其實明白得很,他們知道公司會對產(chǎn)品和服務(wù)做微調(diào),借此揣測自己的反應(yīng)。但公司對于實驗過程中的透明度和倫理問題,應(yīng)該以高標準來要求自己。換句話說,如果公司能夠開誠布公地做研究,它們就可以化解疑慮,獲取支持,甚至可以加強與顧客之間的互動。
我們正處在實驗革命的初期。很多公司都在開展各種實驗,有些實驗的規(guī)模相當大。但對于如何有效實驗,這些公司尚處于學(xué)習(xí)階段。系統(tǒng)地看待實驗和決策過程,仔細斟酌測試方案和希望取得的結(jié)果,多多思考結(jié)果帶來的長期影響,對利益相關(guān)者保持透明……只有做到這些,實驗才能為公司、為顧客創(chuàng)造價值。