張寧
[摘 要] 深度學(xué)習(xí)在機(jī)器學(xué)習(xí)中占據(jù)著非常重要的地位,也是近些年來(lái)備受關(guān)注的科學(xué)研究領(lǐng)域。有學(xué)者稱深度學(xué)習(xí)算法是當(dāng)前“人工智能皇冠上的明珠”,通過深層神經(jīng)網(wǎng)絡(luò)(DNN)模型的運(yùn)用,深度學(xué)習(xí)已成為目前最接近人腦的智能學(xué)習(xí)方法,不僅Google、百度等國(guó)內(nèi)外搜索和社交公司為之瘋狂,電商巨頭京東、阿里等也已經(jīng)加入競(jìng)爭(zhēng)。本文介紹了中國(guó)電商對(duì)深度學(xué)習(xí)的理解、應(yīng)用現(xiàn)狀以及未來(lái)的應(yīng)用趨勢(shì)。
[關(guān)鍵詞] 深度學(xué)習(xí);機(jī)器學(xué)習(xí);電商;應(yīng)用
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 01. 083
[中圖分類號(hào)] TP181 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2017)01- 0149- 02
1 大數(shù)據(jù)下的深度學(xué)習(xí)
深度學(xué)習(xí)是模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋和處理各種數(shù)據(jù),包括文本數(shù)據(jù)、圖像數(shù)據(jù)和語(yǔ)音數(shù)據(jù)等。
人工神經(jīng)網(wǎng)絡(luò)具有良好的學(xué)習(xí)能力和解決問題的能力,但傳統(tǒng)神經(jīng)網(wǎng)絡(luò)一般只有兩三層的神經(jīng)網(wǎng)絡(luò),其有限的參數(shù)和計(jì)算單元,對(duì)復(fù)雜函數(shù)的表示能力有限,學(xué)習(xí)能力受到制約,特征的開發(fā)和篩選也極為耗費(fèi)人力。目前深度學(xué)習(xí)推廣的條件已經(jīng)成熟。一方面,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在大數(shù)據(jù)量的學(xué)習(xí)上性能較差,不符合大數(shù)據(jù)所需的時(shí)效性。另一方面,大數(shù)據(jù)的演進(jìn)催生了軟硬件系統(tǒng)的進(jìn)步,分布式架構(gòu)的產(chǎn)生,使得算法的性能已經(jīng)不是瓶頸,并行化框架和訓(xùn)練加速方法,讓深度學(xué)習(xí)的前景變得光明。同時(shí),大數(shù)據(jù)也會(huì)讓深度學(xué)習(xí)的效果越來(lái)越好。所以,從某種意義上說,深度學(xué)習(xí)是大數(shù)據(jù)的最佳拍檔。
2 電商企業(yè)研究深度學(xué)習(xí)的初衷
客服對(duì)電商發(fā)展的重要性毋庸置疑。近幾年發(fā)展迅速的“雙十一”“雙十二”“周年慶”等電商活動(dòng)層出不群,大量的客服團(tuán)隊(duì)也很難應(yīng)付這樣的活動(dòng)。各家電商開始籌劃成立智能客服團(tuán)隊(duì),通過一些機(jī)器算法模擬人的思維,達(dá)到客服和用戶交流的效果。隨著深度學(xué)習(xí)技術(shù)的風(fēng)靡,加深了電商對(duì)智能客服團(tuán)隊(duì)的開發(fā)。近兩年,通過神經(jīng)網(wǎng)絡(luò)、知識(shí)層次、異構(gòu)計(jì)算等新興領(lǐng)域的研究和應(yīng)用來(lái)確保智能客服團(tuán)隊(duì)技術(shù)的領(lǐng)先性,大幅提高了其智能性及其應(yīng)用的廣泛性。
深度學(xué)習(xí)技術(shù)固然有很大的應(yīng)用價(jià)值,但隨著IBM Watson、百度大腦等平臺(tái)的開放,這種能力的獲得并不困難,產(chǎn)品化的好壞才是直接影響客戶服務(wù)能力的因素。而各家電商選擇在這個(gè)領(lǐng)域投入更多的陣容自主研發(fā),深度學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)已經(jīng)被電商企業(yè)視為核心競(jìng)爭(zhēng)力,各家爭(zhēng)取自己掌握核心技術(shù),讓數(shù)據(jù)更好地服務(wù)于自己。
3 電商企業(yè)中深度學(xué)習(xí)的應(yīng)用
深度學(xué)習(xí)的應(yīng)用現(xiàn)狀。電商企業(yè)基于其人工客服和用戶交互產(chǎn)生的上億條數(shù)據(jù)對(duì)智能服務(wù)團(tuán)隊(duì)進(jìn)行訓(xùn)練,模擬每一個(gè)用戶場(chǎng)景。智能服務(wù)團(tuán)隊(duì)的應(yīng)用在“雙十一”等活動(dòng)期間接待客戶,有效緩解了人工客服的壓力。
從實(shí)際效果來(lái)說,智能服務(wù)團(tuán)隊(duì)在一定程度上能夠讓不解內(nèi)情的用戶單從對(duì)話無(wú)法區(qū)分對(duì)方是智能機(jī)器人還是人工客服。不過,電商企業(yè)以用戶滿意度提升、用戶體驗(yàn)的提升、用戶愿意使用、服務(wù)占比提高等指標(biāo)是來(lái)衡量其技術(shù)的好壞或者應(yīng)用的效果,在每個(gè)課題上,都有識(shí)別的準(zhǔn)確性、評(píng)判分類的準(zhǔn)確性的不同標(biāo)準(zhǔn)。在這些標(biāo)準(zhǔn)下,我國(guó)電商企業(yè)內(nèi)部對(duì)智能服務(wù)團(tuán)隊(duì)現(xiàn)階段的服務(wù)效果較為滿意。
4 電商企業(yè)DNN Lab的研發(fā)方向
DNN Lab主要進(jìn)行如下4個(gè)方面的研發(fā)。
(1)意圖識(shí)別。針對(duì)用戶輸入的文本,通過意圖識(shí)別之后對(duì)應(yīng)到訂單、售后、商品、閑聊等不同的類別。意圖識(shí)別對(duì)智能服務(wù)團(tuán)隊(duì)非常重要,用戶的每一句問話,智能服務(wù)團(tuán)隊(duì)首先要判斷他的意圖,到底說的是訂單問題、商品咨詢還是售后問題,抑或單純的閑聊,才會(huì)給出更好的反饋。
(2)命名實(shí)體識(shí)別。先對(duì)用戶輸入的文本進(jìn)行識(shí)別,在對(duì)識(shí)別后的命名實(shí)體進(jìn)行抽取,對(duì)應(yīng)到人名、地名、商品名、機(jī)構(gòu)名等不同類別,更好地理解用戶的語(yǔ)言。所以,命名實(shí)體識(shí)別其實(shí)也是用戶意圖識(shí)別的必須步驟。
(3)自動(dòng)問答。在明確用戶的意圖之后,通過自動(dòng)問答系統(tǒng)匹配答案,抽取和排序候選答案,給用戶反饋?zhàn)罴汛鸢负徒ㄗh。通過深度學(xué)習(xí)的算法,可以提高自動(dòng)問答的準(zhǔn)確率。與此同時(shí),京東還開發(fā)了一個(gè)知識(shí)庫(kù),讓智能服務(wù)團(tuán)隊(duì)能夠通過深度學(xué)習(xí)算法識(shí)別用戶使用不同的詞語(yǔ)背后的各種情緒,從而提供有針對(duì)性的回答。
(4)用戶畫像。通過用戶各個(gè)維度的數(shù)據(jù),比如性別、能力、身高,歷史瀏覽記錄,購(gòu)物記錄,是不是有小孩,最近購(gòu)物傾向是什么,關(guān)注什么商品,對(duì)用戶做很細(xì)的刻度,分成很多維度的畫像,標(biāo)注土豪還是屌絲,用戶價(jià)值維度是高是低還是中等,用戶是什么類別、性質(zhì)的,是理性保守型還是購(gòu)物沖動(dòng)型的,根據(jù)這種細(xì)粒度的畫像提供個(gè)性化的服務(wù)。
電商企業(yè)對(duì)深度學(xué)習(xí)算法的主要預(yù)期,將在產(chǎn)品銷量預(yù)測(cè)、互聯(lián)網(wǎng)金融、智能硬件、商品搜索/推薦/廣告等方面。
主要參考文獻(xiàn)
[1]余凱,賈磊,等.深度學(xué)習(xí)的昨天、今天和明天 [J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.
[2]孫志軍,薛磊,等.深度學(xué)習(xí)研究綜述 [J].計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806-2810.