章炳捷 式枚 黑屏
2017年11月11日凌晨0點12分,中通物流的快遞員敲響了上海嘉定區(qū)劉先生家的門,請他簽收之前提交的訂單。從零點下單,到收到包裹,短短12分鐘,凝結(jié)的是阿里巴巴的技術(shù)智慧。這是阿里巴巴將人工智能應(yīng)用到實際電商業(yè)務(wù)系統(tǒng)中的一次重要實踐。
人工智能是阿里巴巴從電商企業(yè)逐步走向世界級科技先驅(qū)的關(guān)鍵技術(shù)選擇。阿里巴巴應(yīng)用各種機器學習技術(shù)來實現(xiàn)人工智能,包括高維統(tǒng)計、在線學習、轉(zhuǎn)換學習、深度學習等,并在圖像、視頻、自然語言處理等方面取得創(chuàng)新性突破。
劉先生的包裹是這一年雙11當天產(chǎn)生的8.12億個包裹中的一個,他這筆訂單的金額是當天1682億元成交額的一部分。在他提交訂單的那一秒,同時還有32.5萬筆訂單產(chǎn)生。而他點擊支付后確認成功的那一秒,有25.6萬筆同時支付成功。而在9年前,這兩個數(shù)字還是400和200。
這一切正是依托于開放的云計算平臺——阿里云。阿里云是阿里巴巴的旗下公司,致力于打造公共、開放的云計算服務(wù)平臺,在杭州、北京、硅谷等地設(shè)有研發(fā)中心和運營機構(gòu)。
在計算平臺的構(gòu)建方面,阿里自主研發(fā)了兩個非常高效、能夠勝任海量數(shù)據(jù)處理的強大的分布式數(shù)據(jù)計算平臺:離線計算平臺MaxCompute和實時計算平臺StreamCompute。
MaxCompute承載了阿里巴巴集團所有的離線計算任務(wù),是集團內(nèi)部核心大數(shù)據(jù)平臺。目前,它支撐著每日百萬級規(guī)模的作業(yè),整個系統(tǒng)擁有數(shù)萬臺機器,單集群規(guī)模上萬,存儲已經(jīng)到達了EB級別。每天有數(shù)千位工程師活躍在平臺上做數(shù)據(jù)處理。實時數(shù)據(jù)處理平臺StreamCompute主要進行流式數(shù)據(jù)實時化分析,處理各種線上交易并實時匯總計算GMV。
2011年的雙11,系統(tǒng)要處理3000萬筆交易。到了2017年雙11,有125個國家和地區(qū)超過上億的用戶同時在這一天相互聯(lián)系在一起。人類商業(yè)史上可能還沒有過在同一天,有那么多的人與商家、物流、銀行、海關(guān)等各個環(huán)節(jié)發(fā)生那么多的聯(lián)動。
大數(shù)據(jù)幫助阿里巴巴建造了世界上最大的零售平臺。阿里巴巴之所以定位為大數(shù)據(jù)公司,就是因為它擁有先進的數(shù)據(jù)平臺。阿里的數(shù)據(jù)不但種類豐富,而且含金量特別高。它有三個明顯的特征:首先,阿里的數(shù)據(jù)是用戶通過購買行為產(chǎn)生的,和搜索等場景相比更加真實;其次,相較于社交等數(shù)據(jù),阿里的數(shù)據(jù)高度結(jié)構(gòu)化,例如淘寶上的商品描述就高達一百多個維度;最后,非常密集而且實時,不管在無線還是PC端,阿里日常都有超過1億用戶在訪問。
阿里巴巴每天處理超過100PB的數(shù)據(jù)。基于跨媒體端的大數(shù)據(jù),通過匹配商家的供給和用戶的需求,既可以給用戶提供更符合個性化需求的商品,也能幫助商戶找到潛在的消費者?;诖髷?shù)據(jù)分析的計算廣告業(yè)務(wù),可以為阿里巴巴平臺上的廣告商找到更精準的需求人群。
2017年11月11日1682億巨額交易的背后,阿里巴巴依靠智能推薦系統(tǒng)—電商大腦,做到了基于個性化推薦的千人千面,實現(xiàn)了上億用戶和十余億商品之間的精準匹配,給予消費者購物時的更多選擇和更大便利。其間,除了計算平臺和數(shù)據(jù)平臺外,還有高效的算法平臺也在保駕護航。算法平臺包括機器學習、數(shù)據(jù)挖掘、自然語言處理、圖像和語音處理等。
阿里大規(guī)模機器學習技術(shù)通過分布式部署,在數(shù)十億訓練集上訓練機器學習模型。建造的參數(shù)服務(wù)器能處理十億級的模型參數(shù)?;跀?shù)據(jù)平行化的思維,將數(shù)十億的模型參數(shù)分配到一組參數(shù)服務(wù)器上,并配有失效備援的監(jiān)測點。
阿里的核心算法平臺——PAI機器學習平臺,構(gòu)建于阿里云MaxCompute、圖形處理器(GPU)等計算集群之上,匯集了阿里集團大量優(yōu)質(zhì)分布式算法,包括數(shù)據(jù)處理、特征工程、機器學習算法、文本算法等等,可高效完成海量、億級維度數(shù)據(jù)的復雜計算和挖掘,給業(yè)務(wù)帶來更為精準的洞察力。平臺提供了豐富的組件,包括數(shù)據(jù)預處理、特征工程、算法組件、預測與評估,所有算法都經(jīng)歷了阿里內(nèi)部業(yè)務(wù)大數(shù)據(jù)的錘煉。
自然語言處理(NLP)基于阿里巴巴自然語言處理云平臺(AliNLP),包括阿里分詞、淺層句法分析、依存句法分析、商品分析和情感分析等模塊。其中阿里分詞是最基礎(chǔ)的模塊,支持中文分詞以及日文、英文、法文、希伯來文、印度尼亞文、葡萄牙文、俄文、西班牙文等多國語言,已廣泛應(yīng)用于各業(yè)務(wù)領(lǐng)域,包括淘寶、天貓、阿里媽媽、1688、神馬、聚劃算、高德、阿里云等。淺層句法分析提供對某些結(jié)構(gòu)相對簡單的成分的識別。依存句法分析,采用LTP的數(shù)據(jù)規(guī)范,提供文本的依存句法關(guān)系。
在圖像處理方面,阿里印刷文字識別(OCR)引擎可以將圖片中的文字識別出來,提供的服務(wù)包括身份證文字識別、門店招牌識別、行駛證識別、駕駛證識別、名片識別等證件類文字識別場景。
阿里人臉識別引擎用于提供圖像和視頻幀中人臉分析,提供人臉相關(guān)技術(shù)的在線API服務(wù)給開發(fā)者和企業(yè)使用,包括人臉檢測、人臉特征提取、人臉年齡估計和性別識別、人臉關(guān)鍵點定位等獨立服務(wù)模塊,可應(yīng)用于人臉美化、人臉識別和認證、大規(guī)模人臉檢索、照片管理等各種場景。
超過23萬商家通過客戶運營平臺實現(xiàn)了店鋪的個性化運營和粉絲會員的精準營銷,顯著提升了成交轉(zhuǎn)化。由基于語音識別、語義理解、個性化推薦、客戶模型、圖像識別等人工智能技術(shù)的智能客服,完成了螞蟻金服雙11 當天97%的遠程客戶服務(wù),而另一個阿里虛擬機器人——阿里小蜜提供的客戶服務(wù)占到阿里集團雙11當天客戶服務(wù)總量的95%。從9年前第一個雙11的錯誤叢生,到2017年“12分鐘送達”的用戶購物體驗,凝結(jié)的是阿里9年的技術(shù)進步。
(感謝阿里巴巴集團提供相關(guān)信息)