【內(nèi)容摘要】本文以阿里巴巴公司打造的阿里云梯集群為例,闡述了該集群在購(gòu)物網(wǎng)站運(yùn)營(yíng)和數(shù)字資產(chǎn)管理中的作用。
【關(guān)鍵詞】阿里云梯;購(gòu)物;網(wǎng)站;運(yùn)營(yíng);資產(chǎn)
一、引言
在數(shù)字資產(chǎn)管理這一范疇中,有三個(gè)不可或缺的核心元素:一是網(wǎng)站系統(tǒng)的基礎(chǔ)架構(gòu)。隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,人們有越來(lái)越多的機(jī)會(huì)接觸到種類繁多的數(shù)字資產(chǎn),與此同時(shí),人們也在不斷創(chuàng)造、傳播和存儲(chǔ)不同種類的數(shù)據(jù)與元數(shù)據(jù),這些海量的數(shù)據(jù)與元數(shù)據(jù)在不同領(lǐng)域得到廣泛應(yīng)用。舉例來(lái)說(shuō),在電子商務(wù)領(lǐng)域,阿里巴巴作為全球發(fā)展最快的線上商業(yè)網(wǎng)站巨頭之一,正逐步從電子商務(wù)領(lǐng)域轉(zhuǎn)向了大數(shù)據(jù)分析領(lǐng)域。目前,阿里巴巴公司主要采用MapReduce這一技術(shù)框架作為其技術(shù)基礎(chǔ),以解決大規(guī)模數(shù)據(jù)在處理中遇到的問(wèn)題?!癕apReduce這一技術(shù)框架的基本概念是在多個(gè)節(jié)點(diǎn)間分布數(shù)據(jù),并以并行的方式處理數(shù)據(jù)?!雹俅嘶A(chǔ)結(jié)構(gòu)幫助大量電子商務(wù)公司設(shè)計(jì)其系統(tǒng)的體系結(jié)構(gòu),并處理其海量數(shù)據(jù)和元數(shù)據(jù)。筆者將在下文闡釋并分析MapReduce框架的工作原理及其主要實(shí)現(xiàn)技術(shù)Hadoop。同時(shí)分析MapReduce模型和Hadoop在電子商務(wù)網(wǎng)站淘寶上的實(shí)際應(yīng)用原理和過(guò)程。第二個(gè)核心概念是數(shù)據(jù)存儲(chǔ)。在電子商務(wù)領(lǐng)域中,用戶購(gòu)物行為、產(chǎn)品信息和網(wǎng)站財(cái)務(wù)狀況等方面的數(shù)據(jù)至關(guān)重要,此類數(shù)據(jù)在分析用戶偏好和商品知名度方面極具價(jià)值。筆者將著重分析淘寶的數(shù)據(jù)存儲(chǔ)平臺(tái):數(shù)據(jù)魔方。第三個(gè)核心概念是用戶服務(wù)。目前,用戶服務(wù)的重要性越來(lái)越受到人們的認(rèn)可和重視。用戶體驗(yàn)的改進(jìn)可以滿足不同用戶的需求,同時(shí),它還可以通過(guò)創(chuàng)造用戶對(duì)產(chǎn)品和品牌的認(rèn)同感和親密感來(lái)建立并固化品牌與用戶之間的紐帶。筆者將通過(guò)兩個(gè)方面來(lái)分析淘寶網(wǎng)站的用戶體驗(yàn)服務(wù)質(zhì)量:產(chǎn)品目錄設(shè)計(jì)和針對(duì)不同用戶的產(chǎn)品推薦系統(tǒng)。在最后一節(jié)中,筆者將闡釋上述這三個(gè)核心要素間的相關(guān)性。
二、網(wǎng)站系統(tǒng)的基礎(chǔ)架構(gòu)
隨著數(shù)字技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,越來(lái)越多的數(shù)字資產(chǎn)被不斷地創(chuàng)建、傳播和存儲(chǔ)。相應(yīng)地,人們更加意識(shí)到數(shù)字資產(chǎn)管理的重要性。目前,數(shù)字資產(chǎn)管理系統(tǒng)正被應(yīng)用于不同領(lǐng)域的各種組織和企業(yè)中。例如,在電子商務(wù)領(lǐng)域,數(shù)字資產(chǎn)管理已經(jīng)逐漸成為一項(xiàng)核心業(yè)務(wù)。2015年,一家加拿大鞋類零售商通過(guò)使用MediaValet,即一個(gè)基于云計(jì)算的數(shù)字資產(chǎn)管理系統(tǒng),在圣誕節(jié)后的促銷日(Boxing Day)向用戶推銷網(wǎng)站商品并取得了相當(dāng)大的成功。曾有學(xué)者這樣分析:“日益網(wǎng)絡(luò)化的經(jīng)濟(jì)使商家產(chǎn)生了對(duì)于數(shù)字資產(chǎn)進(jìn)行管理的需要,這些數(shù)字資產(chǎn)不僅包括圖片和文字, 還有培訓(xùn)材料、賬單報(bào)表、財(cái)務(wù)交易記錄、法律文件、保險(xiǎn)表格、音頻和視頻剪輯等等。這些資產(chǎn)需要在內(nèi)部和外部與供應(yīng)商和客戶共享?!雹诟咝У臄?shù)字資產(chǎn)管理體系能使商家充分利用其數(shù)字產(chǎn)品,還可以幫助用戶更好地獲取所需的信息。在數(shù)字資產(chǎn)管理實(shí)操過(guò)程中,相關(guān)公司會(huì)選擇一個(gè)符合其業(yè)務(wù)策略的數(shù)字資產(chǎn)管理系統(tǒng)以滿足其商業(yè)需求。該類系統(tǒng)包含不同的組成部分。正如Tansley,Smith和Walker的理論中所提到的:“(數(shù)字資產(chǎn)管理系統(tǒng))需要通過(guò)管理靈活的協(xié)作基礎(chǔ)架構(gòu)以形成合作性的團(tuán)體并使系統(tǒng)正常運(yùn)作?!雹垡虼耍P者認(rèn)為,在上述提及的數(shù)字資產(chǎn)管理系統(tǒng)的組成部分中,系統(tǒng)的基礎(chǔ)架構(gòu)將起到最為根本的作用。
作為中國(guó)知名在線購(gòu)物網(wǎng)站,淘寶網(wǎng)已經(jīng)成為全球最具競(jìng)爭(zhēng)力的電子商務(wù)網(wǎng)站之一。Statista的統(tǒng)計(jì)數(shù)據(jù)表明,截至2017年第三季度,淘寶網(wǎng)上活躍用戶的數(shù)量約為4.88億人次。這一數(shù)量可觀的用戶不僅為網(wǎng)站帶來(lái)了巨大的收入,同時(shí)對(duì)阿里巴巴公司數(shù)據(jù)處理系統(tǒng)的基礎(chǔ)架構(gòu)提出了挑戰(zhàn)。自2010年以來(lái),淘寶開(kāi)始采用MapReduce框架作為其主要的數(shù)據(jù)處理基礎(chǔ)架構(gòu)。作為一種程序模型,MapReduce在處理大型數(shù)據(jù)集(dataset)的過(guò)程中分為兩個(gè)階段。第一個(gè)階段是“映射”:輸入數(shù)據(jù)被劃分為不同的數(shù)據(jù)塊,這些數(shù)據(jù)塊被分配到一個(gè)個(gè)計(jì)算節(jié)點(diǎn)。每個(gè)映射任務(wù)以并行方式處理該數(shù)據(jù)塊。在此過(guò)程中,原始鍵值對(duì)(鍵值對(duì)存儲(chǔ)是數(shù)據(jù)庫(kù)最簡(jiǎn)單的組織形式)映射到新的鍵值對(duì),與此同時(shí),起到媒介作用的中間鍵值對(duì)生成。在這一過(guò)程中輸出的數(shù)據(jù)成為下一個(gè)過(guò)程中的輸入數(shù)據(jù)。第二個(gè)階段是“縮減”階段。在此過(guò)程中,將具有相同中間鍵值的數(shù)據(jù)收集并重新排列為新的表單,然后在最后階段輸出。實(shí)際上, 當(dāng)某一作業(yè)由 MapReduce 框架處理時(shí),輸入數(shù)據(jù)集將分布到不同的單個(gè)數(shù)據(jù)塊中,并且將以并行邏輯進(jìn)行處理?!坝成洹比蝿?wù)輸出數(shù)據(jù)完畢后,框架將對(duì)數(shù)據(jù)進(jìn)行排序, 然后將結(jié)果傳遞給“縮減”任務(wù)。文件系統(tǒng)記錄輸入和輸出操作。MapReduce框架在管理和監(jiān)視每項(xiàng)任務(wù)的同時(shí)也會(huì)重新處理先前失敗的任務(wù)。
MapReduce框架還根據(jù)數(shù)據(jù)的局部性原則來(lái)處理數(shù)據(jù)集。Denning的理論中曾提出,數(shù)據(jù)的局部性原理有一個(gè)至關(guān)重要的好處:“傾向于同一運(yùn)行位置的對(duì)象可以在存儲(chǔ)系統(tǒng)中進(jìn)行分組,以便它們可以一起(有效地)加載到處理器的緩存中。”④在數(shù)據(jù)處理開(kāi)始之前,MapReduce框架將數(shù)據(jù)集分發(fā)到每個(gè)節(jié)點(diǎn)。在處理過(guò)程中,每個(gè)節(jié)點(diǎn)在接近的本地存儲(chǔ)區(qū)中讀取數(shù)據(jù)塊,然后將處理后的數(shù)據(jù)合并、重組和排序。最后,將數(shù)據(jù)分發(fā)到“縮減”節(jié)點(diǎn)。其優(yōu)點(diǎn)是:框架避免了大型數(shù)據(jù)集的傳輸,同時(shí)也提高了數(shù)據(jù)處理效率。
Hadoop是一種開(kāi)源的分布式并行編程框架。它是MapReduce模型的Java實(shí)現(xiàn)。Hadoop由HDFS (Hadoop分布式文件系統(tǒng))、MapReduce和Apache HBase組成。HDFS采用主從式框架,HDFS系統(tǒng)中包含有一個(gè)Namenode (主節(jié)點(diǎn))和一定數(shù)量的 Datanodes(從節(jié)點(diǎn))。作為中央服務(wù)器,Namenode扮演著最為重要的角色。它管理文件系統(tǒng)的命名空間和來(lái)自客戶端的文件訪問(wèn)。Namenode包含兩種類型的元數(shù)據(jù):文件系統(tǒng)元數(shù)據(jù)和位圖。第一種元數(shù)據(jù)是指文件的名稱、數(shù)據(jù)塊以及訪問(wèn)文件的權(quán)限等。它還包含原始文件系統(tǒng)的快照和文件系統(tǒng)的生命時(shí)間中的每個(gè)編輯行為。第二種類型的元數(shù)據(jù)是位圖。位圖中包含數(shù)據(jù)塊和Datanodes之間的鏈接。Namenode通常被視作文件系統(tǒng)的搜索引擎。當(dāng)客戶端打算訪問(wèn)和修改文件時(shí),Namenode幫助他們跟蹤和定位Datanode服務(wù)器中的正確數(shù)據(jù)。Datanode中包含不同的數(shù)據(jù)塊,其主要功能是管理存儲(chǔ)的數(shù)據(jù)。當(dāng)Namenode提出要求時(shí),Datanode對(duì)操作要求作出響應(yīng)。
作為阿里巴巴旗下的電子商務(wù)網(wǎng)站,淘寶網(wǎng)建立于2003年,經(jīng)過(guò)15年的發(fā)展,它已經(jīng)成為世界上最受歡迎的線上購(gòu)物網(wǎng)站之一。Statista的統(tǒng)計(jì)數(shù)據(jù)表明,截至2017年最后一季度,該網(wǎng)站有大約5億注冊(cè)用戶,每日訪客達(dá)到了6000萬(wàn)人次。每一分鐘大約有5萬(wàn)商品成功售出。在這些引人注目的數(shù)字背后,數(shù)據(jù)處理基礎(chǔ)架構(gòu)的貢獻(xiàn)是不可或缺的。從2009年起,淘寶網(wǎng)的技術(shù)團(tuán)隊(duì)開(kāi)始建立自己的Hadoop集群:即阿里云梯集群(以下簡(jiǎn)稱為云梯集群)。云梯集群是處理PB級(jí)業(yè)務(wù)數(shù)據(jù)的內(nèi)部數(shù)據(jù)平臺(tái),其處理的數(shù)據(jù)內(nèi)容主要來(lái)源于域名為“www.taobao.com”的電子商務(wù)網(wǎng)站。⑤經(jīng)過(guò)4年的發(fā)展,云梯群集包含了2900多個(gè)節(jié)點(diǎn),這使它成為中國(guó)最大的單主節(jié)點(diǎn)Hadoop集群。云梯中存儲(chǔ)的數(shù)據(jù)總量已超過(guò)25PB,這些數(shù)據(jù)還在以30TB/天的速度快速增長(zhǎng)。⑥云梯集群的主要功能是提供大規(guī)模的數(shù)據(jù)處理服務(wù),同時(shí)還可滿足不同的商業(yè)分析需求。作為收集 “系統(tǒng)日志、爬蟲(chóng)頁(yè)面和在線數(shù)據(jù)庫(kù)副本”的平臺(tái),云梯集群能夠?qū)Α傲髁拷y(tǒng)計(jì)、產(chǎn)品銷售趨勢(shì)和推薦系統(tǒng)”進(jìn)行分析。⑦例如,通過(guò)使用云梯群集提供的數(shù)據(jù), 市場(chǎng)營(yíng)銷經(jīng)理和分析人員可以詳細(xì)地將淘寶用戶分成不同的消費(fèi)群體,這通常是基于用戶的物理位置、年齡和性別等。相應(yīng)的算法有助于分析用戶的瀏覽歷史、購(gòu)物習(xí)慣和購(gòu)物反饋,并將各種商品展示給不同的用戶群。這種個(gè)性化的營(yíng)銷策略使每個(gè)用戶都能夠訪問(wèn)他們潛在感興趣的產(chǎn)品。該算法的另一個(gè)優(yōu)點(diǎn)在于:它可以預(yù)測(cè)一段時(shí)間內(nèi)的銷售趨勢(shì)。由于網(wǎng)站的空間有限, 且消費(fèi)者需要時(shí)間和精力來(lái)選擇顯示的商品。因此, 在每5至10分鐘,該算法對(duì)后續(xù)時(shí)間內(nèi)的銷售趨勢(shì)進(jìn)行預(yù)測(cè),然后更新商品。此外,在打折季期間,云梯集群將會(huì)收到大量的MapReduce任務(wù)。云梯集群將根據(jù)任務(wù)的復(fù)雜程度對(duì)其進(jìn)行分類和排序,再進(jìn)行資源分配或是追加額外服務(wù)器以滿足不同的需求。⑧
阿里云梯群集并非市場(chǎng)上其他Hadoop群集的復(fù)制品。淘寶技術(shù)團(tuán)隊(duì)開(kāi)發(fā)了自己獨(dú)特的Hadoop集群與阿里分布式文件系統(tǒng)。這一系統(tǒng)的主要原理是將非熱點(diǎn)數(shù)據(jù)放到數(shù)據(jù)庫(kù)中, 而非放到Namenode中。這一做法首先解決了Hadoop分布式文件系統(tǒng)(HDFS系統(tǒng))中Namenode中的單點(diǎn)故障:即如果機(jī)器中的任何一個(gè)Namenode不可用,則整個(gè)群集將無(wú)法正常工作。其次,這一做法解決了內(nèi)存瓶頸問(wèn)題,使軟件升級(jí)的時(shí)間從一小時(shí)縮短到5分鐘。總的來(lái)說(shuō),系統(tǒng)的穩(wěn)定性和可維護(hù)性都得到了發(fā)展。另一個(gè)改進(jìn)是對(duì)于HDFS Raid的應(yīng)用。過(guò)去,基于安全考慮,HDFS系統(tǒng)將一條數(shù)據(jù)劃分為三條。雖然保證了數(shù)據(jù)安全,但磁盤(pán)存儲(chǔ)的成本很高。隨著HDFS Raid的應(yīng)用,磁盤(pán)存儲(chǔ)空間的需求比以前少了20%。阿里巴巴大數(shù)據(jù)部首席技術(shù)官表示,這一改進(jìn)幫助該公司節(jié)省了上千萬(wàn)元,同時(shí)系統(tǒng)的可靠性并未下降。
三、數(shù)據(jù)存儲(chǔ)
作為中國(guó)最具活力的電子商務(wù)平臺(tái)之一,淘寶網(wǎng)擁有巨大的數(shù)據(jù)存儲(chǔ)系統(tǒng)。Statista的統(tǒng)計(jì)數(shù)據(jù)表明,截至2017年,阿里巴巴集團(tuán)每月活躍用戶人數(shù)達(dá)到5.49億人次,而淘寶網(wǎng)和天貓網(wǎng)站(阿里巴巴集團(tuán)旗下另一家網(wǎng)上購(gòu)物網(wǎng)站)的賣(mài)家總?cè)藬?shù)約為980萬(wàn)。不同類型的數(shù)據(jù)是由消費(fèi)者和賣(mài)家在購(gòu)買(mǎi)、收藏和商品評(píng)價(jià)過(guò)程中創(chuàng)建的,這些數(shù)據(jù)包括交易記錄、搜索和瀏覽歷史等。一個(gè)有效的數(shù)據(jù)存儲(chǔ)方法可以幫助淘寶網(wǎng)挖掘出網(wǎng)站和商品潛在的商業(yè)價(jià)值,還可以幫助賣(mài)家經(jīng)營(yíng)管理線上業(yè)務(wù)。
淘寶的數(shù)據(jù)處理平臺(tái)包含三層:數(shù)據(jù)源層、計(jì)算層和存儲(chǔ)層。數(shù)據(jù)源層包含從用戶行為日志、產(chǎn)品信息和交易行為中收集的信息。相關(guān)數(shù)據(jù)收集完畢后,信息將被傳送到計(jì)算層。此層中的主要基礎(chǔ)結(jié)構(gòu)是云梯群集,主要功能為處理數(shù)據(jù)。每天大約有4萬(wàn)個(gè)工作任務(wù)根據(jù)不同的需求處理1.5 PB的原始數(shù)據(jù)。此外,在線上商品交易的高峰期, 如“雙十一”或情人節(jié),網(wǎng)站對(duì)統(tǒng)計(jì)數(shù)據(jù)的需求相對(duì)較高,此類數(shù)據(jù)包括搜索關(guān)鍵詞、網(wǎng)站流量數(shù)據(jù)和點(diǎn)擊率等。在后端生成和分析數(shù)據(jù)后,平臺(tái)需要將結(jié)果推送到系統(tǒng)的前端。在這種情況下,云梯群集的計(jì)算效率往往不夠快。因此,淘寶的技術(shù)團(tuán)隊(duì)開(kāi)發(fā)了另一個(gè)名為“銀河”的分布式平臺(tái)。銀河文件系統(tǒng)有助于實(shí)時(shí)計(jì)算數(shù)據(jù)流,系統(tǒng)中的實(shí)時(shí)計(jì)算是在其內(nèi)存中進(jìn)行的,這是銀河系統(tǒng)與云梯群集的主要不同。然而,云梯集群和銀河系統(tǒng)都存在缺陷:首先,云梯集群可用于離線計(jì)算。但是,它無(wú)法滿足并發(fā)需求。其次,一個(gè)完整的分布式系統(tǒng)是數(shù)據(jù)接收、實(shí)時(shí)計(jì)算、查詢和存儲(chǔ)的結(jié)合,銀河系統(tǒng)需要通過(guò)分層來(lái)滿足這些要求。因此,技術(shù)團(tuán)隊(duì)為系統(tǒng)開(kāi)發(fā)了一個(gè)專門(mén)的存儲(chǔ)平臺(tái):數(shù)據(jù)魔方。該平臺(tái)包含關(guān)系型數(shù)據(jù)庫(kù)(RDBMS):即MySQL數(shù)據(jù)庫(kù)和普羅米修斯存儲(chǔ)系統(tǒng)。
MyFox是分布式MySQL(結(jié)構(gòu)化查詢語(yǔ)言)系統(tǒng)的代理層。其主要功能是完成在線分析。在 Hadoop平臺(tái)完成大量原始數(shù)據(jù)的計(jì)算后, 這些數(shù)據(jù)將分布到各個(gè)MySQL節(jié)點(diǎn)上。當(dāng)前端應(yīng)用程序需要從這些節(jié)點(diǎn)進(jìn)行查詢時(shí),可通過(guò)MyFox代理層進(jìn)行透明訪問(wèn)。這些SQL節(jié)點(diǎn)并不完全相同,阿里技術(shù)小組將它們分為兩類:即熱節(jié)點(diǎn)和冷節(jié)點(diǎn)。創(chuàng)建時(shí)間較新或是訪問(wèn)頻率較高的數(shù)據(jù)將被存儲(chǔ)在熱節(jié)點(diǎn)中,存儲(chǔ)熱數(shù)據(jù)的硬盤(pán)是帶有15000轉(zhuǎn)/秒的SAS磁盤(pán)。冷數(shù)據(jù)則被存儲(chǔ)在7500轉(zhuǎn)/秒的SATA磁盤(pán)中。對(duì)數(shù)據(jù)進(jìn)行分類的優(yōu)點(diǎn)有兩個(gè):一是提高了用戶的查詢速度,二是降低了存儲(chǔ)成本。
另一個(gè)存儲(chǔ)系統(tǒng)是基于Apache HBase模型的普羅米修斯系統(tǒng)。普羅米修斯系統(tǒng)的實(shí)際應(yīng)用提高了淘寶的產(chǎn)品過(guò)濾功能。例如,在購(gòu)買(mǎi)長(zhǎng)褲時(shí),用戶使用過(guò)濾器功能來(lái)選擇顏色和紋理。通常,在選擇顏色和紋理時(shí),買(mǎi)家會(huì)面對(duì)多個(gè)選項(xiàng)(兩個(gè)以上的選項(xiàng))。然而, 買(mǎi)家在選擇自己的性別時(shí)只有一個(gè)選項(xiàng)(男性或女性)。因此,屬性值的分布是不相等的。為了解決這一問(wèn)題,該系統(tǒng)作為一種定制化存儲(chǔ)提供了現(xiàn)場(chǎng)計(jì)算和查詢服務(wù)。普羅米修斯系統(tǒng)的主要運(yùn)行原理分為兩個(gè)步驟。首先,系統(tǒng)將在前一天收集用戶的詳細(xì)交易信息作為初始數(shù)據(jù)。第二,屬性值對(duì)將存儲(chǔ)在行排列中。相應(yīng)地,交易ID號(hào)的索引字段和原始交易信息的數(shù)據(jù)字段將存儲(chǔ)在列排列中。每個(gè)字段元素的長(zhǎng)度都是不可變的。此操作避免了硬盤(pán)中的大量隨機(jī)訪問(wèn)請(qǐng)求。
四、用戶服務(wù)
隨著電子商務(wù)的發(fā)展,越來(lái)越多的用戶開(kāi)始訪問(wèn)不同類別的線上購(gòu)物網(wǎng)站,如亞馬遜、eBay和淘寶網(wǎng)等。這些電子商務(wù)平臺(tái)的興起不僅為用戶提供了更多選擇空間,同時(shí)也給電商企業(yè)帶來(lái)了競(jìng)爭(zhēng)與挑戰(zhàn):首先,這類網(wǎng)站的功能沒(méi)有顯著的差異。其次,產(chǎn)品多樣性不顯著。因此,越來(lái)越多的電商企業(yè)意識(shí)到了拉近與客戶間的關(guān)系,與用戶建立紐帶,積累客戶忠誠(chéng)度的重要性。要達(dá)成這些目標(biāo),最基本的是提升用戶服務(wù)質(zhì)量,即用戶體驗(yàn)。不同領(lǐng)域的學(xué)者對(duì)用戶體驗(yàn)這一概念有著不同的理解。在業(yè)內(nèi)有數(shù)十年從業(yè)經(jīng)驗(yàn)的Suzanne Chapman表示,“用戶體驗(yàn)(UX)應(yīng)在了解用戶的需求和行為后,將這種理解應(yīng)用于設(shè)計(jì)和提供有用的、可用的、美觀的系統(tǒng)和服務(wù)中?!雹嵩诰W(wǎng)站設(shè)計(jì)和開(kāi)發(fā)方面,有學(xué)者認(rèn)為,用戶體驗(yàn)是“可用性、實(shí)用性和可取性的結(jié)合。”⑩一般來(lái)說(shuō),為了改善用戶體驗(yàn)服務(wù),網(wǎng)站設(shè)計(jì)者應(yīng)該考慮和滿足初學(xué)者和熟練用戶的需要。
下面,筆者將通過(guò)兩個(gè)方面來(lái)分析淘寶的用戶體驗(yàn)設(shè)計(jì):產(chǎn)品目錄設(shè)計(jì)和商品推薦系統(tǒng)設(shè)計(jì)。
淘寶的產(chǎn)品目錄系統(tǒng)系漏斗式結(jié)構(gòu),包含三個(gè)級(jí)別:一個(gè)一級(jí)目錄和兩個(gè)子目錄。該目錄系統(tǒng)的主要功能是將大量的數(shù)據(jù)歸類為不同的類別, 然后將其細(xì)分為信息單元。用戶可以通過(guò)各種主題訪問(wèn)并瀏覽網(wǎng)頁(yè)。在目錄中,用戶也可找到專門(mén)的產(chǎn)品信息。第一級(jí)目錄包含一般產(chǎn)品信息:如服裝、配件、電子產(chǎn)品等。在這個(gè)級(jí)別的目錄中,每個(gè)展示商品名稱的標(biāo)題的字體都很顯眼。當(dāng)用戶將光標(biāo)移動(dòng)到相應(yīng)標(biāo)題上時(shí),字體顏色將從黑色變?yōu)槌壬?。網(wǎng)頁(yè)的設(shè)計(jì)使用戶能夠在短時(shí)間內(nèi)找到目標(biāo)產(chǎn)品,并縮小搜索范圍。第二級(jí)目錄將產(chǎn)品信息細(xì)分為更詳細(xì)、更專業(yè)的主題。在本級(jí)目錄中,信息將根據(jù)用戶的性別、年齡和地理位置等進(jìn)行劃分。例如,在一個(gè)名為“女裝精品店”的一級(jí)目錄下,二級(jí)目錄包含四個(gè)次級(jí)商品種類:裙子、t恤衫、長(zhǎng)褲和婚紗禮服。在第三層目錄中,產(chǎn)品信息根據(jù)其用途、紋理、功能等的不同信息進(jìn)行進(jìn)一步劃分。例如,在女性裙裝的二級(jí)目錄下,三級(jí)目錄包含了棉布裙,花裙和包臀裙等商品種類。交互體驗(yàn)設(shè)計(jì)師Jakob Nielson對(duì)超過(guò)200個(gè)網(wǎng)民的眼球運(yùn)動(dòng)進(jìn)行了記錄,對(duì)這些用戶閱讀網(wǎng)站內(nèi)容的模式進(jìn)行了研究。他注意到,由于大多數(shù)在線購(gòu)物者不會(huì)從頭至尾地閱讀網(wǎng)站中的所有內(nèi)容,而是選擇大略瀏覽網(wǎng)站并跳過(guò)無(wú)關(guān)的信息,因此他們的主要閱讀模式如下圖所示,呈字母F形。
首先,淘寶用戶的視線進(jìn)行垂直移動(dòng),并瀏覽主目錄。在找到感興趣的產(chǎn)品類別后,用戶視線將在次級(jí)目錄中進(jìn)行橫向移動(dòng)。在次級(jí)目錄下,用戶在找到目標(biāo)產(chǎn)品標(biāo)題之前,將進(jìn)行更快、更簡(jiǎn)短的水平移動(dòng)。然而, 淘寶的功能并不局限于直接的產(chǎn)品交易。有時(shí),在瀏覽線上購(gòu)物網(wǎng)站時(shí),用戶的目標(biāo)產(chǎn)品是不明確的。在這種情況下,用戶將對(duì)網(wǎng)站的產(chǎn)品目錄進(jìn)行掃描,并找到能激發(fā)他們興趣的關(guān)鍵詞。然而,用戶的耐心不是無(wú)限的。一旦經(jīng)過(guò)長(zhǎng)期瀏覽和掃描后沒(méi)有得到稱心如意的結(jié)果,用戶將自動(dòng)離開(kāi)網(wǎng)站。為了避免這類情況的發(fā)生,網(wǎng)站設(shè)計(jì)者應(yīng)實(shí)時(shí)更新產(chǎn)品關(guān)鍵字。
淘寶的產(chǎn)品推薦系統(tǒng)主要是基于協(xié)同過(guò)濾算法。該算法包含兩種過(guò)濾模型:基于用戶的模型和基于產(chǎn)品的模型。在基于用戶的模型中,通過(guò)對(duì)兩個(gè)用戶的產(chǎn)品聚合進(jìn)行相似性計(jì)算,可得到用戶的相似度。在基于產(chǎn)品的模型中,通過(guò)分析購(gòu)買(mǎi)同一產(chǎn)品的消費(fèi)者的聚集性,可得到產(chǎn)品之間的相似度。例如,購(gòu)買(mǎi)了電影《指環(huán)王》的用戶也購(gòu)買(mǎi)了電影《霍比特人》。這意味著這兩種產(chǎn)品是相似的。因此,當(dāng)一個(gè)用戶搜索電影《指環(huán)王》時(shí),系統(tǒng)將同時(shí)推薦《霍比特人》給他。這一推薦系統(tǒng)不僅有利于用戶,對(duì)網(wǎng)站經(jīng)營(yíng)管理也有所幫助。對(duì)于用戶來(lái)說(shuō),個(gè)性化的產(chǎn)品推薦可以幫助他們從漫無(wú)目的的瀏覽中節(jié)省時(shí)間。同時(shí),通過(guò)增加用戶的轉(zhuǎn)移成本(即用戶在不同網(wǎng)站選購(gòu)相似產(chǎn)品所花費(fèi)的時(shí)間成本和金錢(qián)成本),也可提高客戶對(duì)網(wǎng)站的忠誠(chéng)度。此外,網(wǎng)站可使用該系統(tǒng)進(jìn)行交叉銷售,通過(guò)向現(xiàn)有客戶銷售產(chǎn)品,降低了吸納新客戶的成本。
總體而言,系統(tǒng)的基礎(chǔ)架構(gòu)和數(shù)據(jù)存儲(chǔ)為整個(gè)系統(tǒng)提供數(shù)據(jù)處理、計(jì)算和存儲(chǔ)功能,提取、比較和分析了不同類型的數(shù)據(jù),并將這些處理后的數(shù)據(jù)轉(zhuǎn)移到系統(tǒng)的前端,可作為輔助功能來(lái)改善用戶體驗(yàn)服務(wù)。同時(shí),這兩者的開(kāi)發(fā)與使用為產(chǎn)品目錄設(shè)計(jì)和商品推薦系統(tǒng)的開(kāi)發(fā)提供了技術(shù)基礎(chǔ),后者的應(yīng)用則提升了消費(fèi)者在使用網(wǎng)站過(guò)程中的用戶體驗(yàn)。
五、小結(jié)
隨著我國(guó)電子商務(wù)市場(chǎng)的迅猛發(fā)展,線上購(gòu)物網(wǎng)站的知名度和使用度顯著提高。隨著時(shí)間的推移,廣大消費(fèi)者們不斷地創(chuàng)造,傳播和使用著不同類型的數(shù)據(jù)和信息。對(duì)于企業(yè)來(lái)說(shuō),如何有效地利用這些數(shù)據(jù)可謂至關(guān)重要。高效的數(shù)字資產(chǎn)管理是提高網(wǎng)站競(jìng)爭(zhēng)力的必要條件。筆者認(rèn)為數(shù)字資產(chǎn)管理中有三個(gè)核心要素: 基礎(chǔ)架構(gòu)建設(shè)、數(shù)據(jù)存儲(chǔ)功能和用戶體驗(yàn)服務(wù)。筆者認(rèn)為,這三個(gè)核心要素之間并非毫不相干,相反,三要素是相互依存的:前兩個(gè)要素是整個(gè)系統(tǒng)的基礎(chǔ),同時(shí)能夠支持第三個(gè)要素的實(shí)現(xiàn)。
注釋:
①Ren, Z. et al. (2012) ‘Workload characterization on a production hadoop cluster: A case study on taobao’, Iiswc, Ieee, pp. 3.
②Frey, F. et al. (2005) ‘Digital Asset Management— A Closer Look at the Literature’, Rochester Institute of Technology, (March), p. 52.
③Tansley, R., Smith, M. and Walker, J. H. (2005) ‘The DSpace Open Source Digital Asset Management System: Challenges and Opportunities’, in. Springer, Berlin, Heidelberg, pp. 247.
④Denning, P. J. (2005) ‘The locality principle’, Communications of the ACM, 48(7), p. 19.
⑤Ren, Z. et al. (2012) ‘Workload characterization on a production hadoop cluster: A case study on taobao’, Iiswc, Ieee, pp. 12.
⑥Ren, Z. et al. (2012) ‘Wax elephant: A realistic hadoop simulator for parameters tuning and scalability analysis’, Proceedings - 7th ChinaGrid Annual Conference, ChinaGrid 2012, pp. 14.
⑦Ren, Z. et al. (2012) ‘Workload characterization on a production hadoop cluster: A case study on taobao’, Iiswc, Ieee, pp. 3.
⑧Ren, Z. et al. (2012) ‘Workload characterization on a production hadoop cluster: A case study on taobao’, pp. 3-5.
⑨Pennington, B. et al. (2016) ‘Strategies to Improve the User Experience’, Serials Review, 42(1), pp. 47.
⑩Stokes, R. (2015) eMarketing The Essential Guide to Marketing in A Digital World. Quirk eMarketing. pp. 202.