吳代漾,趙 潔,梁家銘,董振寧,梁周揚(yáng)
(廣東工業(yè)大學(xué)管理學(xué)院,廣東 廣州 510520)
隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、第三方電子支付、物聯(lián)網(wǎng)、大數(shù)據(jù)等新一代信息技術(shù)應(yīng)用涌現(xiàn)普及,共享經(jīng)濟(jì)以其強(qiáng)大的商業(yè)模式,滲透進(jìn)衣食住行等傳統(tǒng)行業(yè)以及各自的細(xì)分領(lǐng)域[1-2]。共享住宿,也稱在線短租,近年來(lái)蓬勃發(fā)展,是共享經(jīng)濟(jì)最具有代表性的行業(yè)之一。2019年,我國(guó)在線短租平臺(tái)交易規(guī)模達(dá)225億元,同比增長(zhǎng)率36.5%,居該年共享經(jīng)濟(jì)各領(lǐng)域增速第一[3]。2020年國(guó)內(nèi)外在線短租交易受突發(fā)疫情嚴(yán)重影響,但全球疫情日趨緩解,平臺(tái)發(fā)展隨即恢復(fù),2020年,我國(guó)在線短租市場(chǎng)交易額恢復(fù)至2019年的約40%,Airbnb上市首日股價(jià)翻倍[4],顯示市場(chǎng)存在長(zhǎng)遠(yuǎn)發(fā)展的潛力與活力。
C2C是當(dāng)前國(guó)內(nèi)外在線短租行業(yè)主導(dǎo)模式,雙邊平臺(tái)不僅依賴于買方黏度,也依賴于賣方進(jìn)駐,以保證房源儲(chǔ)備的數(shù)量與覆蓋度。對(duì)房東屬性、供給動(dòng)機(jī)與行為的相關(guān)工作一直為在線短租領(lǐng)域的研究熱點(diǎn)[5-7]。
以往對(duì)房東的研究大多從單一平臺(tái)展開(kāi)[8],隨著在線短租平臺(tái)的涌現(xiàn),房東為提高交易額,會(huì)進(jìn)駐多個(gè)在線短租平臺(tái),多棲成為普遍現(xiàn)象。用戶多棲又稱為用戶多歸屬,即同一個(gè)用戶在多個(gè)平臺(tái)進(jìn)行交易,這種現(xiàn)象普遍存在于各種互聯(lián)網(wǎng)平臺(tái)中,包括且不限于移動(dòng)社交平臺(tái)、電子商務(wù)平臺(tái)、外賣服務(wù)平臺(tái)與共享住宿平臺(tái)。用戶多歸屬又分為賣家多歸屬與買家多歸屬。
本文研究對(duì)象為前者。賣家多歸屬現(xiàn)象在雙邊市場(chǎng)、定價(jià)策略等研究領(lǐng)域都備受關(guān)注[9-12],不同平臺(tái)下同一房東(以下簡(jiǎn)稱同源房東)產(chǎn)生的行為數(shù)據(jù)可以豐富研究實(shí)驗(yàn)數(shù)據(jù),為部分研究提供新的思路。
如何在不同平臺(tái)識(shí)別同源房東成為首要解決的問(wèn)題。在數(shù)據(jù)較少的情境下可人工識(shí)別,但國(guó)內(nèi)外平臺(tái)中的房源數(shù)量高達(dá)百萬(wàn),人工方法無(wú)法解決。同時(shí),同源房東本質(zhì)上是跨平臺(tái)用戶身份識(shí)別問(wèn)題,但在線短租平臺(tái)所提供信息以房源信息為主,房東個(gè)人身份信息相對(duì)稀疏,這對(duì)同源房東識(shí)別提出了新的挑戰(zhàn)。針對(duì)上述問(wèn)題,本文提出一種跨平臺(tái)大規(guī)模用戶匹配模型,以房源匹配為入口,進(jìn)而識(shí)別同源房東。
目前,用戶多棲現(xiàn)象在多個(gè)領(lǐng)域平臺(tái)中普遍存在,包括在線短租、電子商務(wù)和社交網(wǎng)絡(luò)等領(lǐng)域平臺(tái)??缙脚_(tái)用戶身份匹配具有很高的研究和應(yīng)用價(jià)值,通過(guò)識(shí)別不同平臺(tái)同一用戶,能幫助互聯(lián)網(wǎng)服務(wù)提供方從另一個(gè)角度了解客戶,掌握更多信息從而更好地進(jìn)行用戶畫像刻畫、個(gè)性化推薦以及惡意用戶識(shí)別等業(yè)務(wù)。
國(guó)內(nèi)外學(xué)者針對(duì)該問(wèn)題進(jìn)行了深入研究??缙脚_(tái)用戶身份匹配的關(guān)鍵,首先在于提取匹配特征,其次在于匹配模型設(shè)計(jì),下面分別針對(duì)這2個(gè)部分內(nèi)容進(jìn)行綜述。
現(xiàn)有的跨平臺(tái)用戶身份匹配?;谏缃痪W(wǎng)絡(luò)、電子商務(wù)開(kāi)展研究,結(jié)合平臺(tái)特點(diǎn),其匹配特征主要從用戶的個(gè)人信息屬性、關(guān)系、生成內(nèi)容3個(gè)方面獲取,相關(guān)研究總結(jié)可見(jiàn)表1。
表1 相關(guān)研究匹配特征提取方法總結(jié)
1.1.1 用戶個(gè)人信息
用戶個(gè)人信息是在平臺(tái)上最能直觀展示用戶身份的外在信息,可將其分為以下2種。第1種是用戶基本信息,包括用戶名[13-16]、自我描述[14]、用戶頭像[14];第2種是用戶隱私信息,即用戶個(gè)體真實(shí)信息,如地理位置[14]、興趣愛(ài)好[14,17]等?,F(xiàn)有研究在上述信息上抽取特征,如基于用戶名的長(zhǎng)度、包含的特殊字符與數(shù)字等信息提取出的長(zhǎng)度相似度、數(shù)字差異度等特征[15-16]。基于此類特征,用戶識(shí)別精度較高,但在現(xiàn)實(shí)場(chǎng)景中用戶個(gè)人數(shù)據(jù)存在不可靠、不完整、不可用等問(wèn)題[18],如何在這些問(wèn)題下保持高識(shí)別精度效果仍有待討論。
1.1.2 用戶關(guān)系信息
平臺(tái)間用戶間存在關(guān)聯(lián),此類關(guān)系不容易虛構(gòu),能夠一定程度上反映用戶的興趣與人際關(guān)系。關(guān)系信息較為抽象,需要將其轉(zhuǎn)化為某一種數(shù)據(jù)結(jié)構(gòu),目前主要有2種方式,一種是將用戶關(guān)系轉(zhuǎn)化為拓?fù)浣Y(jié)構(gòu)[19-20],另一種是將拓?fù)浣Y(jié)構(gòu)通過(guò)某種方式降維為特征向量[21-22]。Li等[21]基于用戶朋友關(guān)系、用戶關(guān)系集、網(wǎng)絡(luò)聚類屬性的相似性,提取出40維的特征向量,Man等[22]提出了PALE方法,利用網(wǎng)絡(luò)嵌入表示學(xué)習(xí)將用戶節(jié)點(diǎn)映射為特征向量?;谟脩絷P(guān)系的用戶識(shí)別模型具有較強(qiáng)魯棒性,但現(xiàn)實(shí)場(chǎng)景中,用戶關(guān)系可能非常稀疏,因此難以建模困難。
1.1.3 用戶生成內(nèi)容
用戶生成信息是指用戶在平臺(tái)上產(chǎn)生的各類信息,包括行為痕跡與生成內(nèi)容。行為痕跡指用戶在使用線上平臺(tái)進(jìn)行瀏覽轉(zhuǎn)發(fā)點(diǎn)贊行為時(shí)的位置與時(shí)間信息[18,23];生成內(nèi)容指用戶在平臺(tái)生成或發(fā)布的文字圖片信息[24]等。生成信息可以為用戶打上身份標(biāo)簽,此類標(biāo)簽?zāi)荏w現(xiàn)用戶的興趣與愛(ài)好等個(gè)人信息,但收集用戶生成信息具有較大難度,一般僅能在平臺(tái)內(nèi)部進(jìn)行,且可能涉及用戶隱私侵犯。
1.1.4 本節(jié)小結(jié)
上述討論中主要基于用戶獲取匹配特征,但現(xiàn)實(shí)情況下在線短租平臺(tái)不同于社交領(lǐng)域平臺(tái),在線短租平臺(tái)中的房東用戶屬性、關(guān)系、生成內(nèi)容極少,難以作為特征進(jìn)行精確匹配,因此本文從房源角度出發(fā),以房源信息作為房東匹配特征。
匹配特征提取后,絕大多數(shù)用戶匹配模型會(huì)基于匹配特征特點(diǎn),計(jì)算用戶兩兩之間的相似度,包括字符串、圖片、數(shù)字向量、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)等相似度,常見(jiàn)計(jì)算方法如表2所示。然后為不同特征賦予重要度,最后利用特征相似度與相對(duì)應(yīng)的重要度計(jì)算不同用戶之間的相似度,當(dāng)用戶相似度達(dá)到某個(gè)閾值則認(rèn)為匹配成功。
表2 常見(jiàn)相似度計(jì)算方法
目前,社交網(wǎng)絡(luò)、電子商務(wù)等領(lǐng)域中,跨平臺(tái)用戶身份匹配已取得較多成果,但在線短租同源房東匹配研究較少,平臺(tái)信息與上述研究有所區(qū)別,本文就在線短租平臺(tái)具體情況展開(kāi)研究,從平臺(tái)中提取特征,基于現(xiàn)有研究匹配算法思路設(shè)計(jì)在線短租平臺(tái)同源房東匹配算法。
本章首先概述研究框架,然后介紹房源匹配特征、設(shè)計(jì)相似度計(jì)算方法。最后提出兩階段房東匹配算法,從房源匹配出發(fā)進(jìn)而匹配房東。
現(xiàn)有跨平臺(tái)用戶匹配框架如圖1(a)所示,在該框架基礎(chǔ)上本文提出跨平臺(tái)房東匹配框架,如圖1(b)所示。1)獲取多平臺(tái)房源信息;2)提取特征;3)設(shè)計(jì)房源匹配算法,獲得房源匹配對(duì);4)設(shè)計(jì)兩階段房東匹配算法,基于房源匹配進(jìn)而匹配房東。
(a) 現(xiàn)有跨平臺(tái)用戶匹配框架
不同于社交網(wǎng)絡(luò)與電子商務(wù)平臺(tái),C2C短租平臺(tái)中,房東個(gè)人信息有限,現(xiàn)有研究中的用戶匹配方法無(wú)法直接應(yīng)用于房東匹配,本文基于C2C短租平臺(tái)現(xiàn)實(shí)情況,先進(jìn)行房源匹配,再進(jìn)行房東匹配。房源匹配的基本思想是使用房源地理位置信息進(jìn)行匹配,主要通過(guò)房源經(jīng)緯度、地址與標(biāo)題等位置描述信息獲取,其中經(jīng)緯度較為客觀,但具有一定偏差,而房源地址包含了省市區(qū)及房源小區(qū)等信息,部份房源標(biāo)題還包含其所在街道及附近地理信息。房源匹配除了考慮地理位置外,還需綜合考慮房源價(jià)格、面積等其它特征。
表3 匹配特征
綜上所述,本文抽取上述房源特征,具體見(jiàn)表3。表3中的特征分為2個(gè)部分,第1類為房源所在城市、經(jīng)緯度,第2類包括房源價(jià)格、面積等房源其它特征,記為HFs,根據(jù)特征數(shù)據(jù)類型,分別設(shè)計(jì)相似度計(jì)算方法。對(duì)房源標(biāo)題等字符串類型特征,采用編輯距離(Levenshitein)(LD)計(jì)算相似度[25]:
(1)
經(jīng)緯度相似度計(jì)算過(guò)程見(jiàn)算法1。如當(dāng)2個(gè)房源在經(jīng)度或者緯度上相差0.2時(shí),表示在地理位置上最多可相差20000 m(由于平臺(tái)存在計(jì)量與精度誤差,實(shí)際距離小于該值),是同一房源的可能性很低,因此LatThr和LongThr均設(shè)置為0.2。
算法1 經(jīng)緯度相似度算法Simlong&latAlg
輸入:房源i的經(jīng)緯度H1.Lat,H1.Long,房源j的經(jīng)緯度H2.Lat,H2.Long,經(jīng)緯度閾值LatThr,LongThr
輸出:經(jīng)緯度相似度Simlong&lat
1.DfLat=Hi.Lat-Hj.Lat, DfLong=Hi.Long-Hj.Long //計(jì)算2個(gè)房源的經(jīng)緯度差異
2.if DfLat>LatThr or DfLong>LongThr //若2個(gè)房源在地理位置上相差過(guò)大,不能匹配
3.return 0
5.return
數(shù)字特征采用歐氏距離計(jì)算,具體如公式(2)所示:
(2)
其中,X與Y分別代表2個(gè)房源某數(shù)字特征,xi與yi分別為X與Y中第i個(gè)各分量,基于上述方法,可分別計(jì)算2個(gè)房源在各特征上的相似度。
1)字符串類型的特征包括標(biāo)題、地址、姓名,以標(biāo)題為例,相似度計(jì)算方式如下所示:
Simtitle(housei,housej)=1-resemblance(housei(title),housej(title))
(3)
2)數(shù)字類型的特征包括價(jià)格、面積、床、宜居人數(shù),以價(jià)格為例相似度計(jì)算方式如下所示:
(4)
房源相似度計(jì)算方式如式(5)所示,式中wi表示特征i的重要度。
(5)
基于上述分析,本文先匹配房源繼而匹配房源對(duì)應(yīng)房東。匹配算法中,涉及較多特征,為提高效率,本文提出兩階段匹配方法,思路分階段使用表3中2類特征:地理特征GFs,共4個(gè),房源特征HFs,共5個(gè)。第一階段,先使用GFs特征對(duì)房源進(jìn)行匹配,設(shè)置第一階段匹配閾值thr1,用較少特征獲得地理位置相似度較高的房源匹配對(duì)。第二階段,基于第一階段所得的房源匹配對(duì)匹配房東,并基于GFs+HFs進(jìn)行檢驗(yàn)過(guò)濾。
2.3.1 第一階段
本階段目標(biāo)是快速過(guò)濾無(wú)法匹配的房源,較為直觀地理解,GFs中各特征具有相似的重要性,故對(duì)各GFs特征等值設(shè)置重要度,以保證效率。第一階段匹配如算法2所示。
算法2第一階段匹配算法
輸入:平臺(tái)P1房源列表HL1,平臺(tái)P2房源列表HL2,地理位置特征集合GFs,GFs特征重要度W=[w1,w2,w3],第一階段匹配閾值thr1
輸出:房源匹配對(duì)HPL
1.HL1與HL2中的房源按城市分割為多個(gè)子集,得到各城市ck房源列表ck.HL
2.for houseiin ck.HL1
3.for housejin ck.HL2 (housei和housej位于同一城市c)
4.計(jì)算Simlong&lat,Simtitle,Simloc
5.if Simlong&lat=0 Then跳轉(zhuǎn)到步驟 4 //經(jīng)緯度差異過(guò)大,不為同一房源
6.計(jì)算Sim=Simtitle·w1+Simloc·w2+Simlong&lat·w3
7.if Sim>thr1 Then
8.end-for
9.end-for
10.return HPL
2.3.2 第二階段
由于2個(gè)地理位置非常接近的房源,并不能充分證明它們屬于同一房東,所以第二階段分為2個(gè)部分,第1部分基于算法3獲取的房源匹配對(duì)進(jìn)行房東匹配,第2部分任務(wù)使用GFs+HFs特征對(duì)匹配的房東進(jìn)一步檢驗(yàn)和過(guò)濾。
本階段對(duì)各特征重要度需進(jìn)行較為精確的設(shè)置,以保證房源匹配具有較高準(zhǔn)確度。若人為設(shè)置具有較大主觀性,難以保證匹配精度,如何合理設(shè)置算法參數(shù)對(duì)匹配結(jié)果至關(guān)重要。本文將該問(wèn)題轉(zhuǎn)化為優(yōu)化問(wèn)題,采用群智能算法搜索最優(yōu)參數(shù)。房東匹配算法本質(zhì)上為分類問(wèn)題,即判斷2個(gè)房東是否為同一房東,評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1、AUC等,本文以accuracy作為算法主要評(píng)價(jià)指標(biāo),對(duì)遺傳算法目標(biāo)函數(shù)進(jìn)行設(shè)計(jì),描述見(jiàn)公式(6):
(6)
基于上述分析,本研究采用遺傳算法搜索參數(shù),見(jiàn)算法3。假設(shè)需設(shè)特征重要度參數(shù)wi為n個(gè),則遺傳算法中染色體的基因設(shè)置n位,每一基因?qū)?yīng)一個(gè)參數(shù),基因位對(duì)應(yīng)一個(gè)22位二進(jìn)制編碼(結(jié)果精確至小數(shù)點(diǎn)后6位數(shù)),同時(shí)遵守公式(6)約束。
算法3 基于遺傳算法的參數(shù)搜索算法
輸入:遺傳算法參數(shù)(種群數(shù)NIND,終止代數(shù)MaxGen,個(gè)體數(shù)PN,交叉系數(shù)PC,變異系數(shù)PM)房源匹配對(duì)HPL
輸出:各個(gè)特征的重要度wi與算法4閾值thr
1.根據(jù)參數(shù)PN初始化種群
2.while 未滿足終止條件MaxGen //進(jìn)化
3.根據(jù)公式(6)約束條件篩選新參數(shù)
4.在LPL上基于公式(6)目標(biāo)函數(shù)計(jì)算目標(biāo)值,并進(jìn)行適應(yīng)度計(jì)算
5.根據(jù)適應(yīng)度選擇并保存最優(yōu)值
6.種群根據(jù)參數(shù)PC和PM交叉和變異
7.end-while
8.returnW=[w1,…,wi]與thr
第二階段匹配算法具體流程如算法4所示,其中輸入的房源匹配對(duì)列表HPL與GFs+HFs特征重要度W、第二階段匹配閾值thr2分別為算法2和算法3的輸出結(jié)果。
算法4 第二階段匹配算法
輸入:房源匹配對(duì)列表HPL,算法3搜索到的GFs+HFs特征重要度W、第二階段匹配閾值thr2
輸出:房東匹配對(duì)列表LPL
//基于房源匹配對(duì)列表HPL匹配房東
1.LPL={}
2.for
3.if housei或housej所屬房東
4.將housei與housej所屬房東
5.end for
//基于GFs+HFs特征過(guò)濾LPL中的房東
6.for
7.for any ha in hostm的房源
8.for any hb in hostn的房源
9.若
10.maxSim=Simhouse
11.if maxSim
12.end for
13.return LPL
本章設(shè)計(jì)跨平臺(tái)房東匹配的實(shí)驗(yàn),在大規(guī)模真實(shí)平臺(tái)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。
筆者所在團(tuán)隊(duì)選取了國(guó)內(nèi)2個(gè)知名在線短租平臺(tái)(下述簡(jiǎn)稱A與B),通過(guò)爬蟲(chóng)收集2017年12月—2018年12月間的房源信息,A平臺(tái)約11萬(wàn)房源,對(duì)應(yīng)約3.5萬(wàn)房東,B平臺(tái)約4.2萬(wàn)房源,對(duì)應(yīng)約1.9萬(wàn)房東。
通過(guò)人工標(biāo)注,共得到2000對(duì)匹配對(duì),其中匹配對(duì)正例數(shù)為1072,反例數(shù)為928,為本實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)集1(dataset1)。除dataset1外,本文還標(biāo)注了一份由難例構(gòu)成的數(shù)據(jù)集2(dataset2),數(shù)量總數(shù)為2000,其中正例數(shù)為1072,反例數(shù)為928。難例是指反例在地理位置與部分房源信息上非常接近,只通過(guò)部分特征無(wú)法清楚判斷匹配數(shù)據(jù)類別的數(shù)據(jù)。
算法4的遺傳算法相關(guān)參數(shù)設(shè)置為:種群大小NIND設(shè)為40,個(gè)體數(shù)PN設(shè)為9,交叉系數(shù)PC設(shè)為0.7,變異系數(shù)PM設(shè)為1/PN即0.11,終止代數(shù)MaxGen設(shè)為2000,確保在足夠代數(shù)下獲取近似最優(yōu)解。進(jìn)行5-fold交叉驗(yàn)證,實(shí)驗(yàn)重復(fù)運(yùn)行算法5次,記錄每次結(jié)果。
3.2.1 參數(shù)重要度搜索方法驗(yàn)證
本文整合遺傳算法搜索各匹配特征的重要度,基于公式(6)和算法3,在dataset1上進(jìn)行實(shí)驗(yàn)。參數(shù)分布情況見(jiàn)表4與圖2,以該參數(shù)作為輸入的算法4匹配準(zhǔn)確率見(jiàn)表4 acc行所示。
表4 參數(shù)搜索表
基于算法3搜索特征重要度,搜索到的表3中的8個(gè)特征重要度分布于[0,0.38],閾值thr2分布于[0.30,0.56]之間。5次實(shí)驗(yàn)的平均模型準(zhǔn)確率達(dá)99.69%,說(shuō)明本文使用群智能算法,可有效搜索到接近最優(yōu)參數(shù),獲得較準(zhǔn)確的房東匹配結(jié)果。
在各特征中,平均重要度占比前五的指標(biāo)為房源標(biāo)題、房源經(jīng)緯度、房東姓名與房源地址、房源面積。一般來(lái)說(shuō),參數(shù)重要度越大,說(shuō)明特征對(duì)匹配模型貢獻(xiàn)越高,上述特征中包含了所有GPs特征,重要度均大于0.1,說(shuō)明算法3中通過(guò)地理信息特征GFs,能有效匹配房源,GFs特征在算法中能發(fā)揮較大作用。相對(duì)于GFs,房源價(jià)格、房源床數(shù)、房源宜居人數(shù)等特征作用相對(duì)小,重要度均小于0.1,究其原因,它們隨房東不同平臺(tái)的定價(jià)策略與出租方式動(dòng)態(tài)變化,未能對(duì)分類結(jié)果產(chǎn)生較為穩(wěn)定的影響。
通過(guò)上述分析可知,重要度大于0.1的特征,即GFs,為較重要特征,在匹配第1階段使用,即可快速得到較準(zhǔn)確的房源匹配對(duì)。重要度小于0.1的特征,即HFs,在第2階段使用,可發(fā)揮一定的作用。在實(shí)驗(yàn)2中,將進(jìn)一步驗(yàn)證HFs的有效性。
圖2 參數(shù)分布
3.2.2 特征有效性檢驗(yàn)
為驗(yàn)證2類特征的作用,本文設(shè)計(jì)以下實(shí)驗(yàn):對(duì)于重要度小于0.1的房源特征集合lFs,1)在dataset1上保留和去除lFs,測(cè)試模型準(zhǔn)確率;2)在dataset2進(jìn)行類似實(shí)驗(yàn),獲得去除和保留lFs的模型準(zhǔn)確率,結(jié)果如圖3所示。
圖3 模型準(zhǔn)確率對(duì)比
在dataset1上,保留或去除lFs,測(cè)試模型準(zhǔn)確率差別非常小,說(shuō)明lFs影響較小,但在難例數(shù)據(jù)集dataset2中去除lFs后,模型準(zhǔn)確率由81.97%下降到77.15%,有一定幅度下降。上述結(jié)果說(shuō)明房源價(jià)格、房源床數(shù)、房源宜居人數(shù)特征在處理難例時(shí),可發(fā)揮一定作用,進(jìn)一步說(shuō)明本文抽取特征是有效的,基于此設(shè)計(jì)的兩階段匹配算法,第一階段可利用少量特征GFs快速過(guò)濾無(wú)法匹配的房源,第二階段,可利用HPs較準(zhǔn)確地過(guò)濾和篩選地理位置接近導(dǎo)致難以區(qū)分的房源。
3.2.3 房東匹配算法驗(yàn)證
算法4在dataset1以不同分類閾值thr2運(yùn)行,各指標(biāo)部分結(jié)果如表5所示。通過(guò)該表數(shù)據(jù),可以發(fā)現(xiàn)在閾值thr2為0.5時(shí)模型的綜合性能最優(yōu),準(zhǔn)確率、精確率、召回率、F1分別達(dá)到了0.989、0.995、0.983、0.989。圖4為上述指標(biāo)的曲線圖,其中Y軸為指標(biāo)值,X軸為閾值thr2。
表5 算法指標(biāo)
從圖4可知,各算法分類性能指標(biāo)隨閾值變化,表明閾值設(shè)置對(duì)模型性能有顯著影響,也進(jìn)一步印證本文基于遺傳算法確定參數(shù)的必要性。
圖4 算法指標(biāo)曲線圖
3.2.4 算法效果對(duì)比
房東匹配問(wèn)題本質(zhì)上為分類問(wèn)題,故本節(jié)引入支持向量機(jī)(SVM)與決策樹(shù)(DT)分類器,基于本文提取特征運(yùn)行算法,并通過(guò)預(yù)實(shí)驗(yàn)確定分類器參數(shù)以保證效果。其中參數(shù)如下:SVM設(shè)置懲罰系數(shù)C為20,使用高斯核函數(shù),DT使用基尼系數(shù)。在2個(gè)數(shù)據(jù)集上進(jìn)行5-fold交叉驗(yàn)證,實(shí)驗(yàn)重復(fù)運(yùn)行算法5次,運(yùn)行結(jié)果如圖5所示。圖中效果表明本文提取特征能有效區(qū)分房東是否匹配,并且通過(guò)對(duì)比驗(yàn)證TSHM在房東匹配問(wèn)題上優(yōu)于常用分類模型。
圖5 模型效果對(duì)比
本章設(shè)計(jì)多個(gè)實(shí)驗(yàn),驗(yàn)證所抽取匹配特征和考慮算法中涉及大量參數(shù),通過(guò)遺傳算法可自動(dòng)獲取多個(gè)匹配特征重要度,避免人為設(shè)置參數(shù)的主觀性引起的偏差;基于此給出房東匹配算法。通過(guò)真實(shí)多平臺(tái)數(shù)據(jù)驗(yàn)證,在普通數(shù)據(jù)集中精度高達(dá)99.69%,在難例數(shù)據(jù)集上也獲得81.97%的準(zhǔn)確率,最后引入其它分類模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明TSHM模型在在線短租房東匹配問(wèn)題上優(yōu)于其他模型。實(shí)驗(yàn)從多個(gè)角度驗(yàn)證兩階段算法的正確性和有效性,并兼顧效率和精度2個(gè)方面深度探討各類特征在跨平臺(tái)房東匹配中起到的作用。
隨著在線短租平臺(tái)的涌現(xiàn),房東多歸屬現(xiàn)象持續(xù)受到關(guān)注與研究。在不同平臺(tái)識(shí)別同源房東成為首要解決的問(wèn)題,本文基于社交與電商等領(lǐng)域現(xiàn)有研究,提出了一種基于房源匹配的C2C在線短租跨平臺(tái)房東匹配模型,使用遺傳算法搜索模型參數(shù),并基于2個(gè)國(guó)內(nèi)知名在線短租的大量真實(shí)房源數(shù)據(jù),分別在原數(shù)據(jù)集與難例數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該模型能有效識(shí)別同源房東。但本文實(shí)驗(yàn)僅以國(guó)內(nèi)平臺(tái)數(shù)據(jù)進(jìn)行驗(yàn)證分析,特征未考慮文本和圖片等,有待進(jìn)一步豐富,后續(xù)研究可以引入更多特征,并結(jié)合國(guó)內(nèi)與國(guó)外數(shù)據(jù)在更復(fù)雜情況下討論房東匹配方法。