• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于高斯過程與批量湯普森抽樣的動態(tài)定價策略

      2022-08-19 08:33:10畢文杰
      計算機工程與應(yīng)用 2022年16期
      關(guān)鍵詞:湯普森批量高斯

      畢文杰,王 榮

      中南大學(xué) 商學(xué)院,長沙 410083

      隨著電子商務(wù)和信息技術(shù)的飛速發(fā)展,用戶和商家可以接觸到的信息發(fā)生了巨大的變化。以酒店住房為例,用戶可以零成本地通過線上平臺(如某團、某程)選擇符合自己需求的酒店及房間,商家則可以通過市場上各房型的特征、銷售情況及用戶行為數(shù)據(jù)進行需求預(yù)測,通過在線學(xué)習(xí)的方式進行價格策略的調(diào)整以更好地實現(xiàn)供需平衡,在提升產(chǎn)品銷量的同時提升顧客的服務(wù)體驗。在產(chǎn)品同質(zhì)化日趨嚴(yán)重且用戶可以接觸到大量產(chǎn)品信息,價格敏感型用戶的需求快速轉(zhuǎn)變的時代,如何靈活地進行產(chǎn)品組合和利用市場信息快速制定價格策略給商家?guī)砹司薮蟮奶魬?zhàn)。Ferreira 等的研究表明,基于分析的價格決策可以帶來顯著的收益[1]。因此,對于如酒店、出行以及快消品(牛奶、面包等食品)等同質(zhì)化嚴(yán)重、可替代性強、可選擇性多的產(chǎn)品,雖然缺乏短期的價格需求函數(shù),商家也必須進行定價優(yōu)化來提升自己的競爭力,這就要求商家提升其對產(chǎn)品和用戶行為數(shù)據(jù)的信息處理能力,在短期內(nèi)利用最多的相關(guān)數(shù)據(jù)最快地制定產(chǎn)品價格策略。

      近年來針對同類型產(chǎn)品的研究主要以模型為主,李麗萍等通過引入競爭因素的Bass 拓展模型研究了雙寡頭競爭結(jié)構(gòu)下同質(zhì)產(chǎn)品的動態(tài)定價問題[2]。畢文杰等構(gòu)建了兩階段動態(tài)定價模型,解決了需求不確定下在線平臺銷售兩種可替代的有限庫存易逝品的問題[3]。Ceryan采用多周期隨機動態(tài)規(guī)劃模型來考慮一家銷售兩種可替代性產(chǎn)品的公司的定價行為,最終得出針對常規(guī)產(chǎn)品的最佳補貨決策以及針對季節(jié)性產(chǎn)品的動態(tài)定價和初始數(shù)量選擇決策[4]。趙天等應(yīng)用Hotelling模型構(gòu)造了兩個銷售商銷售同種具有易逝性可替代產(chǎn)品的雙周期動態(tài)定價模型[5]。

      國內(nèi)外雖然已有不少研究同質(zhì)產(chǎn)品的方法,但仍停留在傳統(tǒng)的定價方法及模型上,并未應(yīng)用數(shù)據(jù)驅(qū)動的方法來進行定價。不同于以往假設(shè)需求函數(shù)的定價研究,Besbes和Zeevi首次針對需求未知的問題提出將銷售期劃分為探索和利用兩個階段,并在此基礎(chǔ)上于2012 年將需求學(xué)習(xí)和定價以優(yōu)化收入之間的權(quán)衡研究擴展到全網(wǎng)絡(luò)的收益管理問題[6-7]。利用-探索權(quán)衡也即在探索階段進行價格實驗來觀察價格和平均需求率之間的基本函數(shù)關(guān)系,在利用階段根據(jù)前期觀察到的需求函數(shù)來制定價格,最終在有限的銷售周期內(nèi)動態(tài)調(diào)整價格以最大化預(yù)期收益。多搖臂算法是近年強化學(xué)習(xí)中的學(xué)術(shù)研究熱點,該算法能在有限時間做出決策,有效解決利用-探索權(quán)衡問題[8]。國內(nèi)近年也有學(xué)者對多搖臂算法在定價上的應(yīng)用進行了研究,畢文杰等考慮在線零售商在需求未知情況下的定價問題,利用消費者的類別信息和需求曲線的單調(diào)性提出了UCB1-PI-M 算法[9]。喬勛雙等研究了需求不確定性情況下的考慮時變獎勵的UCB算法在定價上的應(yīng)用[10]。

      湯普森抽樣是一個基于貝葉斯主義的后驗可信區(qū)間的隨機算法,能有效解決多搖臂問題。Ferreira 等考慮需求函數(shù)未知時基于價格的網(wǎng)絡(luò)收益管理問題,提出了一種基于湯普森抽樣的動態(tài)定價算法以解決庫存約束條件下利用-探索的平衡[11]。Ringbeck 等提出一種基于多搖臂的非參數(shù)需求學(xué)習(xí)方法,即結(jié)合高斯過程回歸和湯普森抽樣以學(xué)習(xí)價格和需求之間的任意函數(shù)關(guān)系,該算法的性能只取決于產(chǎn)品數(shù)量,在規(guī)模與價格向量的數(shù)量上具有更大的伸縮性[12]。湯普森抽樣雖然在后悔上界上較UCB1(upper bound confidence 1)、MOSS(minimax optimal strategy in the stochastic case)等其他多搖臂算法表現(xiàn)得更好、更簡單,但其無法直接拓展到分布式并行運算中,因此有較多學(xué)者探索了該算法結(jié)合并行貝葉斯優(yōu)化以拓展并行測量問題的可能。Hernández-Lobato等為解決貝葉斯優(yōu)化方法不能擴展到大量的并行測量的問題,提出了一個基于湯普森采樣的并行和分布式實現(xiàn)的可擴展解決方案(parallel distributed Thompson sampling,PDTS)[13]。Kandasamy等結(jié)合并行貝葉斯優(yōu)化在給定時段內(nèi)能比順序優(yōu)化策略實現(xiàn)更多次評估的優(yōu)點,在順序TS(Thompson sampling)算法的基礎(chǔ)上提出了并行湯普森抽樣的算法:同步并行湯普森抽樣(synchronous parallel Thompson sampling,Syn TS)、異步并行湯普森抽樣(asynchronous parallel Thompson sampling,Asy TS)[14]。Alessandro等提出了一種基于在隨機流程中采樣多個采集函數(shù)的想法的批處理貝葉斯優(yōu)化技術(shù),采集函數(shù)-湯普森采樣算法(acquisition Thompson sampling algorithm,ATS),與其他批處理貝葉斯優(yōu)化方法不同,它可用于并行化任何順序采集函數(shù)或使現(xiàn)有并行方法進一步擴展[15]。

      總結(jié)上述研究發(fā)現(xiàn),當(dāng)前研究可替代、同質(zhì)產(chǎn)品的文獻(xiàn)中只有極少數(shù)采用數(shù)據(jù)驅(qū)動的方法來進行需求函數(shù)的學(xué)習(xí)和定價的研究,而在當(dāng)前基于湯普森抽樣算法和需求未知情況下的定價問題相關(guān)文獻(xiàn)中,同樣缺乏考慮競爭市場中價格敏感型顧客由于產(chǎn)品同質(zhì)、可替代性強時選擇更符合心理支付意愿產(chǎn)品的行為。例如與本文研究相近的Ringbeck 雖然將高斯過程引入算法中來模擬需求函數(shù),但其只考慮了一個商家僅利用市場中自身產(chǎn)品相關(guān)數(shù)據(jù)來進行定價的情形。產(chǎn)品差異化小時價格彈性較大,尤其是線上平臺(如某團、某程、某寶等)使得消費者獲得的信息比以往更加全面。實際生活中,顧客選購成本低,產(chǎn)品同質(zhì)化嚴(yán)重,且商家可以觀察到市場上同性質(zhì)產(chǎn)品的銷售情況及產(chǎn)品特征,在很短的銷售期內(nèi)商家就能獲得體量極大的商品銷售與用戶行為數(shù)據(jù),商家若無法在短期內(nèi)充分利用相關(guān)數(shù)據(jù)進行定價策略的調(diào)整則會喪失部分潛在用戶。因此,基于實踐的需要和現(xiàn)有理論研究的不足,本文將考慮短期內(nèi)同一性質(zhì)(滿足用戶核心需求,但具體表現(xiàn)形式及產(chǎn)品特征存在差異)的產(chǎn)品的需求函數(shù)的學(xué)習(xí),利用批量湯普森算法建立基于探索-利用的兩階段學(xué)習(xí)和決策過程的定價模型,在利用數(shù)值實驗進行基礎(chǔ)分析后,采用某平臺出行的真實數(shù)據(jù)對算法的泛化與實踐能力進行分析,旨在為企業(yè)定價決策提供良好借鑒。

      1 模型概述

      本文建模時所涉及的變量及參數(shù)如表1 所示。根據(jù)所研究問題提出的模型描述如下:考慮庫存一定情況下,一個零售商在有限銷售期t=1,2,…,T 內(nèi)銷售i=1,2,…,N 種產(chǎn)品的網(wǎng)絡(luò)收益管理問題,在每個銷售初期,商家根據(jù)經(jīng)驗決定每個產(chǎn)品的最優(yōu)價格并進行銷售以實現(xiàn)最優(yōu)收益。N 種產(chǎn)品消耗的資源為j=1,2,…,S種,每單位的產(chǎn)品i ∈N 消耗資源i ∈S 的量為aij,Ij為資源的庫存水平。每個銷售期,零售商都需要為自己的產(chǎn)品選擇一個價格來進行銷售,即每期初從有K 個元素的離散價格集合{p1,p2,…,pk} 中選擇一個價格向量,其中每一個價格向量包括N 種產(chǎn)品的價格,即:

      表1 符號及定義Table 1 Notations and definitions

      算法每期對每個產(chǎn)品經(jīng)過高斯過程預(yù)測得到的后驗分布會進行M 次抽樣,零售商在第t 期的批次中第m 次選擇的價格向量為,記為實施該價格策略實現(xiàn)的需求為方便起見,本文將一個銷售期內(nèi)產(chǎn)品i進行M 次抽樣得到的預(yù)測需求記作所有產(chǎn)品在t 期的預(yù)測需求記為

      本文在建模時做如下假設(shè):每個產(chǎn)品的需求函數(shù)未知,但需求與價格之間存在函數(shù)關(guān)系;商家可觀察到每個價格策略實施后所實現(xiàn)的各產(chǎn)品的總的真實需求,即可觀測;各期需求是獨立的,即顧客是短視的;不考慮各產(chǎn)品的成本及商家更換產(chǎn)品價格時產(chǎn)生的成本;存在價格p∞滿足在該價格下所有產(chǎn)品的需求以1的概率收斂到0。

      2 高斯過程-批量湯普森抽樣算法

      本文首先簡單介紹算法需求函數(shù)非參數(shù)擬合的理論部分——高斯過程和批量湯普森抽樣,然后提出高斯過程-批量湯普森抽樣算法(Gaussian process-parallel Thompson sampling,GP-PTS)。

      2.1 高斯過程

      高斯過程(Gaussian process,GP)是一種已被廣泛用于回歸、分類等領(lǐng)域的非參數(shù)模型,它是多元高斯概率分布的泛化。相比參數(shù)固定的模型,非參數(shù)模型更加靈活,其參數(shù)會隨著數(shù)據(jù)量的增加而增加,可拓展性高,且使用貝葉斯方法不容易過擬合[16-17]。此外,高斯過程能夠同時預(yù)測生成均值和方差的性質(zhì),使其非常適合用來解決多搖臂問題。結(jié)合上述兩點,本文采用高斯過程來對需求函數(shù)進行擬合。

      高斯過程是由均值函數(shù)v(x)=E[f(x)]和半正定的協(xié)方差核函數(shù)g(x,x′)=E[(f(x)-v(x))(f(x′)-v(x′))]所決定的,且任意有限的隨機變量都滿足一個聯(lián)合高斯分布。為簡化計算,本文假定均值函數(shù)v(x)=0,選擇常用的、高靈活性的Matérn協(xié)方差函數(shù)其中l(wèi)為反映樣本曲線的平滑度的尺度參數(shù)[18]。給定一個高斯過程的先驗及部分觀測值集合(x1,x2,…,xn),y=(y1,y2,…,yn),當(dāng)存在觀測噪聲,即y=f(x)+ε,且噪聲服從獨立同分布的高斯分布ε~N(0,σ2)時,測試點x*的聯(lián)合分布為:

      其中,I為單位矩陣,g=g(x,x),g*=g(x*,x),g**=g(x*,x*)。f(x*)的后驗概率分布為:

      通過計算所有測試點的后驗的均值和方差,就能得到對于f(x*)的預(yù)測結(jié)果。

      2.2 批量湯普森抽樣

      湯普森抽樣是一種從后驗分布中采樣一個采集函數(shù)α(d^m;Dt),然后選擇具有最大收益的下一個評估點的隨機策略[19]。由于是根據(jù)后驗分布進行隨機采樣取最優(yōu),湯普森抽樣能有效解決探索-利用、批量或延遲反饋的問題,其抽樣的隨機性能有效地解決批量抽樣中數(shù)據(jù)可能相同的問題,但也正是其隨機性使之不能很好地處理高維度的問題。Hernández-Lobato等提出的PDTS將批量貝葉斯優(yōu)化與順序湯普森抽樣結(jié)合起來,本文將該算法與研究的定價問題相結(jié)合得到如算法1 所示的偽代碼。在批量從后驗分布中抽樣并評估后,將獲得的批量數(shù)據(jù)統(tǒng)一加入歷史數(shù)據(jù)中進行高斯過程的更新。較之順序TS,PDTS在銷售時間有限時能測試更多的數(shù)據(jù)點,且通過實驗證明算法最終能得到和順序TS 一樣的收斂效果。

      2.3 高斯過程-批量湯普森抽樣

      本文在Ringbeck 提出的GP-TS(Gaussian process-Thompson sampling)算法的基礎(chǔ)上,將批量湯普森抽樣能在短期測試更多數(shù)據(jù)點的優(yōu)勢考慮進來,提出了高斯過程-批量湯普森抽樣算法(算法2)及其加入產(chǎn)品特征ζ來估計需求的變體算法(算法3)。首先在每個銷售期對每個產(chǎn)品的高斯過程進行估計,其次對每個產(chǎn)品進行M次需求函數(shù)的抽樣,也即線性規(guī)劃部分參照Ferreira 在2018 年所提出的模型,把需求和價格向量作為輸入來求解當(dāng)前庫存及概率約束下使得期望收益最好的價格。最后一步為觀察線性規(guī)劃求解出的最優(yōu)價格下的真實需求,并對Dt進行更新。

      2.4 基于特征的高斯過程-批量湯普森抽樣算法

      產(chǎn)品需求僅受價格影響的設(shè)定在現(xiàn)實生活中是少見的,為了使算法更貼近實際情況,將除價格之外其他影響產(chǎn)品需求的、商家在每期制定價格之前能觀察到的外生特征ζ(t)(ζ∈Z,其中Z為一個離散的特征空間),如季節(jié)、天氣、競爭對手行動等信息引入算法中,商家將充分利用ζ(t)來制定p(t)。假設(shè)對于任意特征ζ和pk的需求都是根據(jù)一個參數(shù)未知的已知分布隨意分布的,商家可以觀察到同一個特征ζ在每個產(chǎn)品上的表現(xiàn)情況。是第t期第m次抽樣時的特征是商家在此時選擇的價格向量為pmk時產(chǎn)品i所預(yù)測的需求。與算法2 不同,算法3 將特征加入到高斯過程的估計中,即將特征加入需求函數(shù)的估計中,且每批次抽樣需求函數(shù)之前會對當(dāng)期的特征進行觀察,并將其加入到后續(xù)更新歷史數(shù)據(jù)中。關(guān)于考慮產(chǎn)品特征的GP-PTS變體算法的遺憾值上界,Agrawal 和Goya 在情景湯普森抽樣算法上界的證明得到此時的上界與特征的維度相關(guān),即受到特征數(shù)量 ||Z的影響[23]。因此,可以知道本節(jié)構(gòu)建的考慮特征的GP-PTS 算法同樣會收斂至

      3 實驗分析與比較

      3.1 數(shù)值實驗

      本文將用數(shù)值實驗測試算法2、算法3,并在三種不同的問題設(shè)置中將其與相關(guān)的基準(zhǔn)算法進行比較。首先考慮具有高斯分布需求和庫存約束的單產(chǎn)品設(shè)置,然后將算法2的單產(chǎn)品擴展到多產(chǎn)品設(shè)置,最后在特征和多產(chǎn)品的參數(shù)設(shè)置中測試算法3。本文將和GP-TS、BZ(Besbes and Zeevi algorithm)進行比較。GP-TS是本文算法改進的基礎(chǔ),該算法首次將高斯過程和湯普森抽樣與動態(tài)定價相結(jié)合,靈活地實現(xiàn)了需求學(xué)習(xí)的非參數(shù)估計。BZ 算法將銷售季節(jié)劃分為探索和利用階段,該算法前一階段計算出所有價格的收益情況,在銷售剩余時間內(nèi)利用此前獲得的知識進行實施。本文參考原作者建議設(shè)置的參數(shù),將銷售季節(jié)按照τ=T2/3劃分為兩個階段。

      在批次的選擇上,本文將參照Alessandro 設(shè)置的M=5,10 來進行對比實驗,在數(shù)值實驗部分參考GP-TS的數(shù)值實驗的需求函數(shù)的假設(shè),需求依賴于3個外生的參數(shù)(a,b,c),價格(p),當(dāng)前的產(chǎn)品索引(i),參數(shù)γ反映需求函數(shù)中前后期特征之間的關(guān)系。a=3 000,b=10,c=4,γ=100,i為產(chǎn)品的索引。此外,將隨機因素考慮進去,在需求函數(shù)(式(6))上增加一個服從高斯分布的隨機擾動項σ。

      數(shù)值部分展示了500 個銷售期不同設(shè)定下模擬的結(jié)果,其中每個圖顯示了在庫存I和批次M的不同組合情況下三種算法在整個銷售期中的性能。最適合衡量需求學(xué)習(xí)問題績效的方法是每輪產(chǎn)生的收益占最優(yōu)定價下產(chǎn)生的收益的比例,因此圖中縱坐標(biāo)1的表現(xiàn)意味著當(dāng)需求函數(shù)先驗已知時,算法所獲得的收益等于最優(yōu)收益。通過觀察各算法收斂到1的速度,可以了解到各學(xué)習(xí)算法的性能。

      3.1.1 單產(chǎn)品

      當(dāng)商家在有限時間內(nèi)銷售一種產(chǎn)品時,可以把該產(chǎn)品的庫存視為售出單位產(chǎn)品時產(chǎn)生的資源消耗。在這種情況下,假定初始庫存和銷售期之間存在的函數(shù)關(guān)系為I=α×T,考慮α=300,700 兩種情況。零售商評估定價決策對高斯分布的每個時期的銷售數(shù)量的影響,客戶需求是服從高斯分布的,其均值是價格的函數(shù),參照Ringbeck 的實驗結(jié)果,將每個價格的方差σ固定設(shè)為150。設(shè)定價格為1~100 中的5 個可能的取值,為K={1.0,25.75,50.50,75.25,100.00}。

      從圖1結(jié)果可以看出,在批量和庫存約束的多種組合下,考慮了批量的GP-PTS性能表現(xiàn)最好,在短期內(nèi)能迅速獲取價格需求關(guān)系并且收斂到最優(yōu),批量的取值在該情況下無法看出明顯的優(yōu)劣。雖不能和GP-PTS一樣快速收斂到最優(yōu),隨著銷售期的增長,BZ和GP-TS也會慢慢收斂到最優(yōu),二者在探索期表現(xiàn)效果一致,后期由于GP-TS仍在不斷學(xué)習(xí),整體效果較BZ更好。BZ在庫存越小時表現(xiàn)越好,原因在于庫存少時銷售前期的歷史數(shù)據(jù)更具學(xué)習(xí)意義,在銷售后期商家可能出現(xiàn)供不應(yīng)求的情況,此時GP-TS 和GP-PTS 無法再獲得探索得到的新經(jīng)驗來進一步提升性能。

      3.1.2 多產(chǎn)品

      假定商家銷售四種產(chǎn)品,其余設(shè)定和單產(chǎn)品類似,把該產(chǎn)品的庫存視為售出單位產(chǎn)品的資源消耗,對于每一個產(chǎn)品,α=[300,300,300,300],α=[700,700,700,700],價格為1~100 中的5 個可能的取值,每個價格的方差σ固定設(shè)為150,即K={[1.0,1.0,1.0,1.0],[25.75,25.75,25.75,25.75],[50.50,50.50,50.50,50.50],[75.25,75.25,75.25,75.25],[100.00,100.00,100.00,100.00]}。由于設(shè)定簡單且和單產(chǎn)品相似,如圖2所示的多產(chǎn)品的計算結(jié)果表現(xiàn)出和單產(chǎn)品類似的趨勢,整體性能GP-PTS 表現(xiàn)最好,GP-TS次之,BZ第三。由于采用了批量,GP-PTS在短時間內(nèi)吸收的探索經(jīng)驗驟增,能以最快的速度收斂,但隨著銷售期的延長,三種算法最終都會收斂到最優(yōu)。

      圖2 定價算法性能比較(多產(chǎn)品)Fig.2 Performance comparison of pricing algorithms(Multiple products)

      3.1.3 考慮特征的多產(chǎn)品

      在上述兩種設(shè)置中,都沒有考慮除價格之外的可能影響需求的特征,為了測試算法3,本文調(diào)整多產(chǎn)品設(shè)置,加入一個特征向量,需求函數(shù)隨機分配特征向量的變動情況,從而模擬影響需求波動的外生因素。以天氣為例,惡劣天氣會使得顧客對在線零售商提供的產(chǎn)品產(chǎn)生更大的需求。假定一個特征向量ζ,向量長度為N,ζi∈[0,1]。在銷售初期,ζ(t)在0~1 之間隨意取值,為0時不受到γ的影響,為1 時需求函數(shù)受到γ的影響最大,不同的特征取值下定價問題會得出不一樣的解決方案。為了使得數(shù)值實驗更加簡單,假定真實情況下每個產(chǎn)品的特征取值都相等,即ζi=ζj=1。其他的設(shè)置與上述第二種的多產(chǎn)品設(shè)置保持一致。

      如圖3 所示,在考慮產(chǎn)品特征后,各算法在不同的批量和庫存約束組合下表現(xiàn)各異。四種情況下,GP-PTS表現(xiàn)得都更好,GP-TS 次之,BZ 表現(xiàn)相對較差。其中M=10 且?guī)齑孑^小時GP-TS 曾出現(xiàn)短暫的異常值,BZ則由于前期學(xué)習(xí)的不穩(wěn)定且后期不再進行探索性學(xué)習(xí),性能無法完全收斂到最佳。整體看來,隨著銷售期的增長,三種算法都會隨著探索經(jīng)驗的積累慢慢收斂。

      圖3 定價算法性能比較(考慮產(chǎn)品特征的多產(chǎn)品)Fig.3 Performance comparison of pricing algorithms(Multiple products considering product characteristics)

      觀察銷售前期可以發(fā)現(xiàn),若GP-PTS 在前期(t <50)表現(xiàn)出來的性能好,則在整個銷售期的收益表現(xiàn)都較好,否則,GP-PTS需要通過后期成批的學(xué)習(xí)來糾正前期需求探索學(xué)習(xí)中出現(xiàn)的偏差。GP-TS 在每增加一個數(shù)據(jù)時就對產(chǎn)品的高斯過程進行一次擬合,相較于GPPTS,該算法雖然計算高斯過程更繁重,但在某次抽樣的結(jié)果不具代表性時也能使算法更快進行調(diào)整,不會產(chǎn)生批量累計誤差的影響。GP-PTS 由于是批量處理數(shù)據(jù),若在t期由于異常數(shù)據(jù)使得產(chǎn)品高斯過程產(chǎn)生的擬合效果不好,則t+1 期時批量抽樣產(chǎn)生的誤差將正比于批量M累計增加,在短期內(nèi)對收益產(chǎn)生的負(fù)面影響更大,此時,GP-PTS只有在更多代表性數(shù)據(jù)出現(xiàn)時模擬出來的高斯過程才會趨于真實情況做出調(diào)整,糾正后的算法也會逐漸收斂。BZ 由于只在(0,τ)內(nèi)進行探索性學(xué)習(xí),算法的整體性能取決于其在探索期內(nèi)的表現(xiàn),若在探索期表現(xiàn)不好,后期由于無法再更新經(jīng)驗會使得算法無法收斂到最佳性能。綜合來看,在考慮產(chǎn)品特征時,GP-PTS能夠更快更好地收斂,相較于其他兩種算法,在銷售期一定時更新探索的數(shù)據(jù)量更多,在數(shù)據(jù)量一定時高斯過程的計算復(fù)雜度更小,整體性能更好。

      3.2 真實數(shù)據(jù)

      本文使用某平臺2017 年4 月在某社區(qū)上提供的脫敏后的出行產(chǎn)品相關(guān)的歷史數(shù)據(jù),整個數(shù)據(jù)集共計4 000個產(chǎn)品,包括22個產(chǎn)品相關(guān)特征、195萬條成交量和成交價格。本文在數(shù)據(jù)預(yù)處理時主要進行了以下幾個步驟的處理:通過描述性分析,發(fā)現(xiàn)價格、評分等特征存在異常情況,因此,首先對如價格、評分為負(fù)的異常數(shù)據(jù)進行了刪除;另外,地鐵站距離、火車站距離、市級、經(jīng)緯度等特征缺失值較多,考慮到有綜合評分的特征,故對上述缺失值較多的特征進行了刪除;通過對單個產(chǎn)品交易形成的時間進行提取,發(fā)現(xiàn)每個產(chǎn)品在同一天并無重復(fù)交易記錄,故無需去重;考慮到銷售期的問題,本文最終篩選出交易次數(shù)大于500的產(chǎn)品進行討論,將產(chǎn)品的綜合評分選為具備代表性的產(chǎn)品特征來進行實例分析。示例中選擇的是銷售數(shù)據(jù)最多的產(chǎn)品(產(chǎn)品id 為1550,綜合評分為3.5)進行批次為10,銷售期為500 的算法應(yīng)用模擬。

      如圖4 所示,把算法應(yīng)用到真實數(shù)據(jù)時,三種算法計算的結(jié)果都比真實情況下的收益高,其中GP-PTS 表現(xiàn)最好。算法在此處較數(shù)值模擬的結(jié)果呈現(xiàn)出波動的原因在于,本文在處理真實數(shù)據(jù)時僅采用綜合評分這一個特征對價格-需求函數(shù)進行擬合,也即,假設(shè)了需求只受價格和綜合評分的影響,此時高斯過程模擬出的價格-需求函數(shù)與真實需求函數(shù)(受到價格、評分、地理位置、日期活動等多個特征影響)之間存在較大偏差,最終由于需求函數(shù)學(xué)習(xí)的準(zhǔn)確性問題使得結(jié)果呈現(xiàn)出波動。但仍然能夠明顯地看出,若給定一個先驗且只有一個給定特征時,基于算法模擬出來的價格會取得比真實價格更好的收益。

      圖4 某平臺數(shù)據(jù)集模擬Fig.4 Simulation of a platform dataset

      4 結(jié)束語

      本文通過短期內(nèi)同類型產(chǎn)品的需求函數(shù)的學(xué)習(xí),考慮批量貝葉斯優(yōu)化的優(yōu)點,構(gòu)建了基于探索-利用的兩階段學(xué)習(xí)和決策過程的定價模型——高斯過程-批量湯普森抽樣算法(GP-PTS),最終通過數(shù)值模擬和某平臺真實數(shù)據(jù)集的分析得到了如下結(jié)論:若給定一個先驗且產(chǎn)品特征完備時,基于GP-PTS 算法模擬出來的價格會取得比目前平臺價格策略更好的收益,但是實際情況中由于特征無法完備,需求函數(shù)的學(xué)習(xí)往往無法使得算法達(dá)到完全精準(zhǔn)。GP-TS 和GP-PTS 在本質(zhì)上是相同的,二者都可適用于離散價格集的情況,高斯過程的引入可以學(xué)習(xí)價格和需求之間的任何函數(shù)關(guān)系,此外,計算的優(yōu)化模型都應(yīng)用于網(wǎng)絡(luò)收益管理問題。但本文所使用的批量的思想使得GP-PTS 具備了更多優(yōu)點。首先,當(dāng)銷售期T一定時,GP-PTS會使用更多的數(shù)據(jù),使得算法在更短的時間快速達(dá)到最優(yōu)性能。其次,當(dāng)能夠使用的數(shù)據(jù)一定時,GP-PTS 會進行更少次數(shù)的高斯過程的模擬,極大地簡化了模型的計算復(fù)雜度。再次,為預(yù)防批次抽到相同數(shù)據(jù)的情況,本文參考Kandasamy的理論證明使用湯普森抽樣內(nèi)在的隨機性來解決,抽樣的隨機性可以在并行計算時避免冗余函數(shù)評估,相較于UCB 和EI為了防止M次中存在抽中同樣的點而引入額外的超參數(shù),計算流程更加便捷有效。最后,GP-PTS還可拓展至捆綁銷售以及時下熱興的盲盒銷售概念中,也即,將各資源看作是單個產(chǎn)品,產(chǎn)品則為各種不同產(chǎn)品的組合。

      當(dāng)然,本文也有許多不足之處。其一,在用真實數(shù)據(jù)進行擬合時,由于產(chǎn)品特征的缺失值過多,擬合需求函數(shù)時只使用了一個產(chǎn)品特征,該真實應(yīng)用場景的擬合在一定程度上具備很大局限性。其二,雖然本文提出了批量貝葉斯優(yōu)化的方式來減少高斯過程的計算次數(shù),但估計高斯過程這一步驟本身是非常復(fù)雜且耗時的,因此該算法不能拓展至更大的產(chǎn)品數(shù)據(jù)集。其三,本文僅考慮產(chǎn)品特征,實際生活中商家應(yīng)該更多地對用戶特征進行分析,為用戶提供更好的購物體驗。因此,考慮更多產(chǎn)品集以及在不違背社會道德,考慮公平的原則下,針對用戶進行定價是本文后續(xù)研究的重點。

      猜你喜歡
      湯普森批量高斯
      小高斯的大發(fā)現(xiàn)
      批量提交在配置分發(fā)中的應(yīng)用
      會做生意的湯普森
      故事會(2020年15期)2020-08-06 14:51:10
      天才數(shù)學(xué)家——高斯
      淺議高校網(wǎng)銀批量代發(fā)
      有限域上高斯正規(guī)基的一個注記
      基于AUTOIT3和VBA的POWERPOINT操作題自動批量批改
      考慮價差和再制造率的制造/再制造混合系統(tǒng)生產(chǎn)批量研究
      妙方
      更有趣的笑話
      错那县| 延寿县| 黄平县| 临澧县| 鹰潭市| 平果县| 集安市| 始兴县| 静安区| 九龙坡区| 余姚市| 聊城市| 保山市| 福清市| 湾仔区| 神农架林区| 扬中市| 镇赉县| 高密市| 沁源县| 天峨县| 黎川县| 普格县| 利津县| 米泉市| 闽侯县| 中方县| 周口市| 乃东县| 中山市| 塔河县| 文山县| 若羌县| 福州市| 潜江市| 华安县| 新河县| 观塘区| 大化| 尤溪县| 麻江县|