陳彥彬 楊澤華 謝佳
本文引用格式:陳彥彬,楊澤華,謝佳.融合多源特征的電梯廣告推薦系統(tǒng)[J].自動化與信息工程,2023,44(2):27-35.
CHEN Yanbin, YANG Zehua, XIE?Jia. Elevator advertising recommendation system integrating multi-source features[J]. Automation & Information Engineering, 2023,44(2):27-35.
摘要:針對電梯傳媒終端廣告精準(zhǔn)投放面臨的采集廣告受眾個人隱私數(shù)據(jù)難的問題,提出融合電梯交通流量、廣告主行為時空特征、廣告主題特征、廣告主評分行為等多源特征的電梯廣告推薦算法。首先,利用差分函數(shù)算法從電梯運行數(shù)據(jù)中提取電梯交通流量峰值特征;然后,通過廣告主廣告行為數(shù)據(jù)提取廣告主行為時空特征;接著,將電梯交通流量峰值特征與廣告主行為時空特征融合,并利用ReliefF算法進(jìn)行特征篩選;最后,設(shè)計融合多源特征的電梯廣告推薦系統(tǒng),實現(xiàn)電梯廣告節(jié)目的精準(zhǔn)投放。實驗結(jié)果表明:融合多源特征的電梯廣告推薦算法的Precision、Recall和ROC曲線的AUC值等評價指標(biāo)均明顯提高;在一定程度上解決了冷啟動、數(shù)據(jù)稀疏等問題。該系統(tǒng)無需采集廣告受眾的個人隱私數(shù)據(jù),具有較強(qiáng)的實用性。
關(guān)鍵詞:多源特征;電梯廣告;推薦算法;精準(zhǔn)投放
中圖分類號:TP 301?????????????文獻(xiàn)標(biāo)志碼:A??????????文章編號:1674-2605(2023)02-0006-09
DOI:10.3969/j.issn.1674-2605.2023.02.006
Elevator Advertising Recommendation System?Integrating ?????????????Multi-source Features
CHEN Yanbin1,?2??YANG Zehua2??XIE?Jia2
(1. Training and Information Center, Jieyang Polytechnic, Jieyang 522051, China
2. General Manager, Guangdong Bohua Technology Co., Ltd., Jieyang 522000, China)
Abstract:?In response to the difficulty in collecting personal privacy data of advertising audiences for precise advertising placement in elevator media terminals, a elevator advertising recommendation algorithm is proposed that integrates multi-source features such as elevator traffic flow, spatiotemporal characteristics of advertiser behavior, advertising theme characteristics, and advertiser rating behavior. Firstly, the difference function algorithm is used to extract the peak characteristics of elevator traffic flow from elevator operation data; Then, extract the spatiotemporal characteristics of advertisers' behavior through their advertising behavior data; Next, the peak characteristics of elevator traffic flow are fused with the spatiotemporal characteristics of advertiser behavior, and the ReliefF algorithm is used for feature selection; Finally, design an elevator advertising recommendation system that integrates multi-source features to achieve accurate placement of elevator advertising programs. The experimental results show that the evaluation indicators such as Precision, Recall, and AUC value of the ROC curve of the elevator advertising recommendation algorithm that integrates multi-source features are significantly improved; To some extent, it has solved problems such as cold start and data sparsity. This system does not need to collect personal privacy data of advertising audiences, and has strong practicality.
Keywords:multi-source features; elevator advertising; recommendation algorithm; accurate placement
0 ?引言
隨著計算廣告尤其是電梯傳媒終端廣告的快速發(fā)展,精準(zhǔn)投放變得越來越重要。推薦算法是計算廣告精準(zhǔn)投放的關(guān)鍵,對提高流量分發(fā)和廣告效益起到重要作用。傳統(tǒng)的推薦算法主要包括基于內(nèi)容、用戶、物品、標(biāo)簽的推薦等[1-3]。李劍鋒等[4]在協(xié)同過濾的基礎(chǔ)上,提出融合個性化和大眾化認(rèn)同度的近相鄰改進(jìn)算法,在一定程度上改善了推薦算法的效果。王英博等[5]在協(xié)同過濾的基礎(chǔ)上,通過處理3種類型的用戶項目子空間,形成3棵鄰居用戶樹,計算相似用戶,實現(xiàn)協(xié)同過濾推薦。文獻(xiàn)[6-8]在標(biāo)準(zhǔn)協(xié)同過濾框架上整合用戶信任關(guān)系,改善了推薦效果。文獻(xiàn)[4-8]提出的推薦算法均基于傳統(tǒng)的推薦算法進(jìn)行改進(jìn),雖然在一定程度上優(yōu)化了推薦效果,但本質(zhì)仍是協(xié)同過濾思想,需要用戶評分等行為數(shù)據(jù)作為支撐,因此在冷啟動、數(shù)據(jù)稀疏等方面存在瓶頸。
目前,針對計算廣告的研究大都集中于對在線廣告點擊通過率的預(yù)測;戶外廣告的研究則以出租車LED屏[9]、廣告牌等為主,側(cè)重于廣告設(shè)計的美化和提升等策略研究[10],較少涉及計算技術(shù)。當(dāng)前大多數(shù)電梯傳媒終端廣告的投放,由于采集廣告受眾個人隱私數(shù)據(jù)難、缺少互動場景等原因,使廣告受眾的行為分析缺乏數(shù)據(jù)支撐,導(dǎo)致廣告投放精準(zhǔn)度及效益相對較低。
基于此,本文從影響電梯傳媒終端廣告投放精準(zhǔn)度和個性化的角度進(jìn)行特征提取,提出融合電梯交通流量、廣告主行為時空特征、廣告主題特征、廣告主評分行為等多源特征的電梯廣告推薦算法。首先,介紹融合多源特征的電梯廣告推薦系統(tǒng)架構(gòu);然后,對多源數(shù)據(jù)進(jìn)行特征提取和融合;接著,利用ReliefF算法進(jìn)行特征篩選;最后,設(shè)計融合多源特征的電梯廣告推薦系統(tǒng),實現(xiàn)電梯廣告節(jié)目的精準(zhǔn)投放。
1 ?系統(tǒng)架構(gòu)
1.1 ?業(yè)務(wù)架構(gòu)
融合多源特征的電梯廣告推薦系統(tǒng)本質(zhì)就是廣告節(jié)目的推薦系統(tǒng),主要包括電梯、廣告受眾、傳媒終端(客戶端)、廣告主、服務(wù)器(廣告運營商)、數(shù)據(jù)庫等,業(yè)務(wù)架構(gòu)如圖1所示。
融合多源特征的電梯廣告推薦系統(tǒng)主要業(yè)務(wù)流程如下:
1) 廣告主新建廣告主題,并提交廣告節(jié)目推薦列表請求至相應(yīng)的服務(wù)器;
2) 服務(wù)器調(diào)用應(yīng)用程序接口(application program interface, API)進(jìn)行廣告節(jié)目推薦計算;
3) 服務(wù)器將廣告節(jié)目推薦列表分發(fā)到節(jié)目分發(fā)服務(wù)器;
4) 節(jié)目分發(fā)服務(wù)器按照廣告節(jié)目推薦列表順序分發(fā)廣告媒體到電梯傳媒終端;
5) 電梯傳媒終端將廣告媒體播出結(jié)果及電梯運行數(shù)據(jù)采集至服務(wù)器;
6) 廣告主對廣告節(jié)目播放效果進(jìn)行評分。
1.2 ?系統(tǒng)框架
融合多源特征的電梯廣告推薦系統(tǒng)包括多源數(shù)據(jù)集、數(shù)據(jù)預(yù)處理及特征提取、特征篩選、模型訓(xùn)練與預(yù)測,框架如圖2所示。
2??多源數(shù)據(jù)處理
2.1??多源數(shù)據(jù)
本文采用的多源數(shù)據(jù)為某公司廣告推薦系統(tǒng)經(jīng)脫敏處理后的數(shù)據(jù),主要包括廣告主、廣告主題、電梯、評分記錄、傳媒終端(電梯)等信息。電梯運行數(shù)據(jù)表、電梯廣告投放日志、廣告主信息表、廣告主題表、電梯基本信息表、廣告主-廣告主題評分表分別如表1~表6所示。
2.2 ?數(shù)據(jù)預(yù)處理
對多源數(shù)據(jù)中的缺失值、異常值和重復(fù)值進(jìn)行數(shù)據(jù)清洗后,采用歸一化、二值化、離散化、編碼等處理方法,分別對表1~表6中的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,形成多源數(shù)據(jù)集。
2.2.1 ?連續(xù)型特征
多源數(shù)據(jù)中的連續(xù)型特征,如表3中的規(guī)模(enter_scale)、注冊資本(enter_registered_ capital)等,采用歸一化方法進(jìn)行處理,具體如公式(1)所示。
式中:Vmin為特征值的最小值,Vmax為特征值的最大值。
表5中的電梯載重(elevator_load)需折算為電梯乘客數(shù),作為廣告受眾的流量特征。假定電梯載客為75?kg/人,電梯載重折算為電梯乘客數(shù)的計算公式為
利用坐標(biāo)轉(zhuǎn)換將表5中的電梯經(jīng)度(elevator_lon)、電梯緯度(elevator_lat)轉(zhuǎn)換為百度地圖坐標(biāo),與電子地圖匹配。
每個廣告主題根據(jù)播放起止時間進(jìn)行節(jié)目的歸屬劃分處理。
根據(jù)廣告主行為時空特征的分析結(jié)果,利用同類型廣告主評分的均值補(bǔ)齊缺省值,解決評分?jǐn)?shù)據(jù)稀疏的問題。
2.2.2??離散型特征
多源數(shù)據(jù)中的離散型特征,如表3中的行業(yè)類型(industry_type)、級別(enter_level)、性質(zhì)(enter_ property)等,需從非數(shù)值型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù),以方便模型訓(xùn)練。本文采用虛擬編碼的方法,將同個特征中的n個取值轉(zhuǎn)換為n-1個特征值,以解決虛擬編碼的共線問題,提高模型訓(xùn)練精度。如廣告主性質(zhì)(enter_ property)的屬性有國家機(jī)關(guān)、事業(yè)單位、國有企業(yè)、集體企業(yè)、有限公司、股份公司、三資企業(yè)、私營企業(yè)、自然人、個體戶及其他企業(yè)共11個取值,采用虛擬編碼的方法將其轉(zhuǎn)換為10個特征值,如國家機(jī)關(guān)用向量表示為f=?(1,0,0,0,0,0,0,0,0,0),事業(yè)單位用向量表示為f=?(0,1,0,0,0,0,0,0,0,0),其他企業(yè)用向量表示為f=?(0,0,0,0,0,0,0,0,0,0)。表4、表5中的其他離散型特征,采用同樣的虛擬編碼方法進(jìn)行預(yù)處理。
2.2.3 ?文本型特征
多源數(shù)據(jù)中的文本型特征,如表4中的廣告摘要(adver_abstract)、廣告評論(adver_com)等,采用手工、自動提取相結(jié)合的方法選擇關(guān)鍵詞key,并利用詞頻-逆向文件頻率(term frequency-inverse document frequency, TF-IDF)計算其權(quán)重值weight,構(gòu)成新的特征向量(key,weight)。
3??特征提取
3.1 ?電梯交通流量峰值特征
3.2 ?廣告主行為時空特征
廣告主發(fā)布廣告主題會形成一系列行為,包括廣告時長、廣告模式、廣告區(qū)域、廣告評論等。本文分別從時間和空間進(jìn)行特征分析,為廣告節(jié)目推薦提供基礎(chǔ)依據(jù),同時為新用戶提供聚類均值。
3.2.1 ?時序特征
假定由廣告主題數(shù)據(jù)集AT、時間窗口t、所有廣告主的行為序列組成語料庫A,訓(xùn)練得到Skip- gram詞向量模型S(A),則集合相似度計算公式為
3.2.2 ?空間特征
電梯傳媒終端廣告精準(zhǔn)投放時,廣告受眾分布的區(qū)域特點,使廣告主的行為特征也具有明顯的區(qū)域特征。本文采用密度峰值聚類算法對廣告主行為空間特征進(jìn)行提取。
4 ?特征篩選
為進(jìn)一步提高模型訓(xùn)練效率和準(zhǔn)確率,利用ReliefF算法對多源數(shù)據(jù)集的特征進(jìn)行篩選,選取貢獻(xiàn)度大的特征作為最優(yōu)特征集。
ReliefF算法進(jìn)行特征篩選的流程如圖3所示。
本文設(shè)定特征權(quán)重的閾值為0.4?;诖耍疚亩嘣磾?shù)據(jù)集經(jīng)特征提取后共有154個特征,經(jīng)ReliefF算法篩選出122個特征作為本文系統(tǒng)的特征集。
5??系統(tǒng)設(shè)計
5.1??功能模塊設(shè)計
融合多源特征的電梯廣告推薦系統(tǒng)主要包括廣告模塊、受眾模塊、電梯管理模塊、管理員模塊等4個模塊,如圖4所示。
融合多源特征的電梯廣告推薦系統(tǒng)的用戶主要包括廣告商、代理商、操作員、管理員等。該系統(tǒng)可進(jìn)行廣告節(jié)目、廣告主題、廣告交易明細(xì)等信息的實時統(tǒng)計,設(shè)定定向投放準(zhǔn)則,設(shè)置頻次控制等。
5.2 ?系統(tǒng)實現(xiàn)
融合多源特征的電梯廣告推薦系統(tǒng)采使用B/S架構(gòu)設(shè)計開發(fā),系統(tǒng)服務(wù)器端和客戶端的界面如圖5所示。
系統(tǒng)使用時,需要將電梯傳媒終端的設(shè)備號錄入服務(wù)器端,客戶端可在后臺注冊設(shè)備信息。從廣告節(jié)目服務(wù)器獲取廣告媒體并進(jìn)行播放。系統(tǒng)以CatBoost模型為基礎(chǔ),形成基于廣告節(jié)目的時間推薦列表、基于傳媒終端的空間推薦列表、基于終端-節(jié)目的時空推薦列表,經(jīng)過加權(quán)融合后,依據(jù)CatBoost模型計算結(jié)果進(jìn)行TOP-N推薦,即為廣告節(jié)目推薦列表。
6??實驗結(jié)果分析
6.1??實驗數(shù)據(jù)集
為驗證本文提出的融合多源特征的電梯廣告推薦系統(tǒng)的效果,采集某公司廣告推薦系統(tǒng)的2021年3月~8月的平臺數(shù)據(jù),經(jīng)脫敏和預(yù)處理后作為實驗數(shù)據(jù)集,如表7所示。
實驗數(shù)據(jù)集中的每條數(shù)據(jù)包括電梯及廣告主基本信息、電梯交通流量峰值特征、廣告主行為時空特征和廣告主與廣告主題的交互信息等共122個特征信息。
將實驗數(shù)據(jù)集劃分為訓(xùn)練集和測試集,其中訓(xùn)練集包含數(shù)據(jù)224 556條,測試集包含數(shù)據(jù)56 139條。
6.2 ?評價指標(biāo)
除了上述基本評價指標(biāo)外,本文還對推薦列表排序采用P-R曲線和ROC曲線的AUC值等評價指標(biāo)進(jìn)行推薦效果分析。
6.3 ?實驗過程及結(jié)果分析
為驗證融合多源特征的電梯廣告推薦系統(tǒng)(記為方法1)的推薦效果,進(jìn)行4組對比實驗。假定只考慮時間特征的算法記為方法2;只考慮空間特征的算法記為方法3;考慮時空特征但是未使用ReliefF進(jìn)行特征篩選的算法記為方法4。通過以上4種方法對同一數(shù)據(jù)集進(jìn)行五折交叉驗證訓(xùn)練,并進(jìn)行TOP-20推薦,分別計算Precision、Recall、以及ROC曲線的AUC值等評價指標(biāo)數(shù)值,實驗結(jié)果如圖6所示。
由圖6可知:方法1的Precision、Recall、以及ROC曲線的AUC值等評價指標(biāo)明顯優(yōu)于其他方法;方法3的各項評價指標(biāo)優(yōu)于方法2,主要原因是方法2的電梯廣告推薦系統(tǒng)缺少對電梯流量的統(tǒng)計分析,導(dǎo)致廣告主在投放電梯廣告時僅考慮分布區(qū)域;方法4的各項評價指標(biāo)均最低,主要是由于未經(jīng)過特征篩選,原始特征維度較多,通過訓(xùn)練構(gòu)建的模型復(fù)雜度較高,引起過擬合造成了預(yù)測精度不準(zhǔn)。
同時,對上述4種方法分別進(jìn)行P-R曲線分析,如圖7所示。
由圖7可知:方法1的P-R曲線較為平滑,優(yōu)于其他方法,且Precision、Recall在65%左右時,其推薦性能較為穩(wěn)定;方法2和方法4的P-R曲線多處出現(xiàn)曲折、不平滑,在一定程度上存在過擬合現(xiàn)象;方法3的Precision、Recall在55%左右時,推薦性能相對穩(wěn)定。
綜上所述,融合多源特征的電梯廣告推薦系統(tǒng)與其他3種方法相比,其Precision、Recall、和ROC曲線的AUC值等多項評價指標(biāo)均為最優(yōu),達(dá)到較好的推薦性能。
本文選用CatBoost、XGBoost、ligthBGM算法模型進(jìn)行測試,分別計算其AUC值,如表8所示。
由表9可知,?CatBoost推薦算法模型的AUC值為0.812?6,高于XGBoost、ligthBGM兩種推薦算法,因此本文推薦算法選擇CatBoost算法模型。
對于新用戶冷啟動的測試,實驗中隨機(jī)抽取10位用戶對模型進(jìn)行訓(xùn)練;隨后將其數(shù)值型特征用均值代替,刪除行為特征,并利用訓(xùn)練好的推薦算法模型進(jìn)行預(yù)測且與真實值進(jìn)行對比分析,其ROC曲線的AUC值為0.725,說明本文方法對解決冷啟動具有較好的效果。
7??結(jié)論
本文設(shè)計一種融合多源特征的電梯廣告推薦系統(tǒng),通過電梯運行數(shù)據(jù)分析提取電梯交通流量峰值特征;通過廣告主廣告行為數(shù)據(jù)提取時空行為特征;運用ReliefF算法進(jìn)行特征篩選;將特征向量輸入融合多源特征的電梯廣告的推薦系統(tǒng)進(jìn)行學(xué)習(xí)訓(xùn)練,形成基于時間特征、空間特征和時空特征的廣告節(jié)目推薦列表。實驗結(jié)果表明,本文提出的電梯廣告推薦算法的Precision、Recall、和ROC曲線的AUC值等評價指標(biāo)均優(yōu)于其他推薦算法,并且其P-R曲線也較為平滑、穩(wěn)定,具有較好的推薦性能,同時對解決冷啟動、數(shù)據(jù)稀疏等問題也具有較好的效果。
參考文獻(xiàn)
[1] ADOMAVICIUS G,?TUZHILIN A. Toward the next genera- tion of recommender systems:?a survey of the state-of-the-art and possible extensions[J].?IEEE Transactions on Knowledge and Data Engineering,?2005,17(6):734-749.
[2] LI X F,?LI D,?YIM J. An improved collaborative filtering recommendation algorithm and recommendation strategy[J]. Mobile Information Systems,?2019:1-11.
[3] KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009,42(8): 30-37.
[4] 李劍鋒,封林慧,于天一.認(rèn)同度修正下的近相鄰改進(jìn)推薦算法研究[J].計算機(jī)工程與應(yīng)用, 2022,58(7):116-121.
[5] 王英博,韓國淼,王銘澤.基于子空間聚類的協(xié)同過濾推薦算法[J].計算機(jī)工程與應(yīng)用, 2022,58(3):127-134.
[6] MORADI P,?AHMADIAN S.?A reliability-based recommend- dation method to improve trust-aware recommender systems[J].?Expert Systems with Applications: An?International Journal,?2015,42(21):7386-7398.
[7] LI Y M, WU C T,?LAI C Y.?A social recommender mechanism for e-commerce:?combining similarity, trust, and relationship[J].?Decision Support Systems,?2013,55(3):740-752.
[8] ODONOVAN J,?SMYTH B.?Trust in recommender systems?[C]//Proceedings of the 10th International Conference on Intelli-gent User Interfaces,?2005:167-174.
[9]?李科,黨延忠.出租車新運營模式下的LED廣告精準(zhǔn)投放策略[J].中國管理科學(xué),2020,28(10):220-230.
[10]?余光華.商場電動扶梯廣告設(shè)計的互動性研究[D].成都:西南交通大學(xué),2012.
作者簡介:
陳彥彬,男,1987年生,本科學(xué)士,高級工程師,主要研究方向:電子信息系統(tǒng)開發(fā)、終端計算廣告等人工智能教學(xué)與科研。E-mail:?chenyanbin01@126.com
楊澤華,男,1967年生,本科學(xué)歷,總經(jīng)理、技術(shù)員,主要研究方向:計算機(jī)技術(shù)應(yīng)用。
謝佳,男,1990年生,本科學(xué)歷,技術(shù)員,主要研究方向:計算機(jī)技術(shù)應(yīng)用。E-mail:?chenyanbin01@126.com