• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      C2C在線短租跨平臺(tái)房東匹配算法

      2022-06-23 00:43:30吳代漾梁家銘董振寧梁周揚(yáng)
      關(guān)鍵詞:跨平臺(tái)房源房東

      吳代漾,趙 潔,梁家銘,董振寧,梁周揚(yáng)

      (廣東工業(yè)大學(xué)管理學(xué)院,廣東 廣州 510520)

      0 引 言

      隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、第三方電子支付、物聯(lián)網(wǎng)、大數(shù)據(jù)等新一代信息技術(shù)應(yīng)用涌現(xiàn)普及,共享經(jīng)濟(jì)以其強(qiáng)大的商業(yè)模式,滲透進(jìn)衣食住行等傳統(tǒng)行業(yè)以及各自的細(xì)分領(lǐng)域[1-2]。共享住宿,也稱在線短租,近年來(lái)蓬勃發(fā)展,是共享經(jīng)濟(jì)最具有代表性的行業(yè)之一。2019年,我國(guó)在線短租平臺(tái)交易規(guī)模達(dá)225億元,同比增長(zhǎng)率36.5%,居該年共享經(jīng)濟(jì)各領(lǐng)域增速第一[3]。2020年國(guó)內(nèi)外在線短租交易受突發(fā)疫情嚴(yán)重影響,但全球疫情日趨緩解,平臺(tái)發(fā)展隨即恢復(fù),2020年,我國(guó)在線短租市場(chǎng)交易額恢復(fù)至2019年的約40%,Airbnb上市首日股價(jià)翻倍[4],顯示市場(chǎng)存在長(zhǎng)遠(yuǎn)發(fā)展的潛力與活力。

      C2C是當(dāng)前國(guó)內(nèi)外在線短租行業(yè)主導(dǎo)模式,雙邊平臺(tái)不僅依賴于買方黏度,也依賴于賣方進(jìn)駐,以保證房源儲(chǔ)備的數(shù)量與覆蓋度。對(duì)房東屬性、供給動(dòng)機(jī)與行為的相關(guān)工作一直為在線短租領(lǐng)域的研究熱點(diǎn)[5-7]。

      以往對(duì)房東的研究大多從單一平臺(tái)展開(kāi)[8],隨著在線短租平臺(tái)的涌現(xiàn),房東為提高交易額,會(huì)進(jìn)駐多個(gè)在線短租平臺(tái),多棲成為普遍現(xiàn)象。用戶多棲又稱為用戶多歸屬,即同一個(gè)用戶在多個(gè)平臺(tái)進(jìn)行交易,這種現(xiàn)象普遍存在于各種互聯(lián)網(wǎng)平臺(tái)中,包括且不限于移動(dòng)社交平臺(tái)、電子商務(wù)平臺(tái)、外賣服務(wù)平臺(tái)與共享住宿平臺(tái)。用戶多歸屬又分為賣家多歸屬與買家多歸屬。

      本文研究對(duì)象為前者。賣家多歸屬現(xiàn)象在雙邊市場(chǎng)、定價(jià)策略等研究領(lǐng)域都備受關(guān)注[9-12],不同平臺(tái)下同一房東(以下簡(jiǎn)稱同源房東)產(chǎn)生的行為數(shù)據(jù)可以豐富研究實(shí)驗(yàn)數(shù)據(jù),為部分研究提供新的思路。

      如何在不同平臺(tái)識(shí)別同源房東成為首要解決的問(wèn)題。在數(shù)據(jù)較少的情境下可人工識(shí)別,但國(guó)內(nèi)外平臺(tái)中的房源數(shù)量高達(dá)百萬(wàn),人工方法無(wú)法解決。同時(shí),同源房東本質(zhì)上是跨平臺(tái)用戶身份識(shí)別問(wèn)題,但在線短租平臺(tái)所提供信息以房源信息為主,房東個(gè)人身份信息相對(duì)稀疏,這對(duì)同源房東識(shí)別提出了新的挑戰(zhàn)。針對(duì)上述問(wèn)題,本文提出一種跨平臺(tái)大規(guī)模用戶匹配模型,以房源匹配為入口,進(jìn)而識(shí)別同源房東。

      1 研究現(xiàn)狀

      目前,用戶多棲現(xiàn)象在多個(gè)領(lǐng)域平臺(tái)中普遍存在,包括在線短租、電子商務(wù)和社交網(wǎng)絡(luò)等領(lǐng)域平臺(tái)??缙脚_(tái)用戶身份匹配具有很高的研究和應(yīng)用價(jià)值,通過(guò)識(shí)別不同平臺(tái)同一用戶,能幫助互聯(lián)網(wǎng)服務(wù)提供方從另一個(gè)角度了解客戶,掌握更多信息從而更好地進(jìn)行用戶畫像刻畫、個(gè)性化推薦以及惡意用戶識(shí)別等業(yè)務(wù)。

      國(guó)內(nèi)外學(xué)者針對(duì)該問(wèn)題進(jìn)行了深入研究??缙脚_(tái)用戶身份匹配的關(guān)鍵,首先在于提取匹配特征,其次在于匹配模型設(shè)計(jì),下面分別針對(duì)這2個(gè)部分內(nèi)容進(jìn)行綜述。

      1.1 匹配特征提取

      現(xiàn)有的跨平臺(tái)用戶身份匹配?;谏缃痪W(wǎng)絡(luò)、電子商務(wù)開(kāi)展研究,結(jié)合平臺(tái)特點(diǎn),其匹配特征主要從用戶的個(gè)人信息屬性、關(guān)系、生成內(nèi)容3個(gè)方面獲取,相關(guān)研究總結(jié)可見(jiàn)表1。

      表1 相關(guān)研究匹配特征提取方法總結(jié)

      1.1.1 用戶個(gè)人信息

      用戶個(gè)人信息是在平臺(tái)上最能直觀展示用戶身份的外在信息,可將其分為以下2種。第1種是用戶基本信息,包括用戶名[13-16]、自我描述[14]、用戶頭像[14];第2種是用戶隱私信息,即用戶個(gè)體真實(shí)信息,如地理位置[14]、興趣愛(ài)好[14,17]等?,F(xiàn)有研究在上述信息上抽取特征,如基于用戶名的長(zhǎng)度、包含的特殊字符與數(shù)字等信息提取出的長(zhǎng)度相似度、數(shù)字差異度等特征[15-16]。基于此類特征,用戶識(shí)別精度較高,但在現(xiàn)實(shí)場(chǎng)景中用戶個(gè)人數(shù)據(jù)存在不可靠、不完整、不可用等問(wèn)題[18],如何在這些問(wèn)題下保持高識(shí)別精度效果仍有待討論。

      1.1.2 用戶關(guān)系信息

      平臺(tái)間用戶間存在關(guān)聯(lián),此類關(guān)系不容易虛構(gòu),能夠一定程度上反映用戶的興趣與人際關(guān)系。關(guān)系信息較為抽象,需要將其轉(zhuǎn)化為某一種數(shù)據(jù)結(jié)構(gòu),目前主要有2種方式,一種是將用戶關(guān)系轉(zhuǎn)化為拓?fù)浣Y(jié)構(gòu)[19-20],另一種是將拓?fù)浣Y(jié)構(gòu)通過(guò)某種方式降維為特征向量[21-22]。Li等[21]基于用戶朋友關(guān)系、用戶關(guān)系集、網(wǎng)絡(luò)聚類屬性的相似性,提取出40維的特征向量,Man等[22]提出了PALE方法,利用網(wǎng)絡(luò)嵌入表示學(xué)習(xí)將用戶節(jié)點(diǎn)映射為特征向量?;谟脩絷P(guān)系的用戶識(shí)別模型具有較強(qiáng)魯棒性,但現(xiàn)實(shí)場(chǎng)景中,用戶關(guān)系可能非常稀疏,因此難以建模困難。

      1.1.3 用戶生成內(nèi)容

      用戶生成信息是指用戶在平臺(tái)上產(chǎn)生的各類信息,包括行為痕跡與生成內(nèi)容。行為痕跡指用戶在使用線上平臺(tái)進(jìn)行瀏覽轉(zhuǎn)發(fā)點(diǎn)贊行為時(shí)的位置與時(shí)間信息[18,23];生成內(nèi)容指用戶在平臺(tái)生成或發(fā)布的文字圖片信息[24]等。生成信息可以為用戶打上身份標(biāo)簽,此類標(biāo)簽?zāi)荏w現(xiàn)用戶的興趣與愛(ài)好等個(gè)人信息,但收集用戶生成信息具有較大難度,一般僅能在平臺(tái)內(nèi)部進(jìn)行,且可能涉及用戶隱私侵犯。

      1.1.4 本節(jié)小結(jié)

      上述討論中主要基于用戶獲取匹配特征,但現(xiàn)實(shí)情況下在線短租平臺(tái)不同于社交領(lǐng)域平臺(tái),在線短租平臺(tái)中的房東用戶屬性、關(guān)系、生成內(nèi)容極少,難以作為特征進(jìn)行精確匹配,因此本文從房源角度出發(fā),以房源信息作為房東匹配特征。

      1.2 匹配模型設(shè)計(jì)

      匹配特征提取后,絕大多數(shù)用戶匹配模型會(huì)基于匹配特征特點(diǎn),計(jì)算用戶兩兩之間的相似度,包括字符串、圖片、數(shù)字向量、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)等相似度,常見(jiàn)計(jì)算方法如表2所示。然后為不同特征賦予重要度,最后利用特征相似度與相對(duì)應(yīng)的重要度計(jì)算不同用戶之間的相似度,當(dāng)用戶相似度達(dá)到某個(gè)閾值則認(rèn)為匹配成功。

      表2 常見(jiàn)相似度計(jì)算方法

      1.3 本章總結(jié)

      目前,社交網(wǎng)絡(luò)、電子商務(wù)等領(lǐng)域中,跨平臺(tái)用戶身份匹配已取得較多成果,但在線短租同源房東匹配研究較少,平臺(tái)信息與上述研究有所區(qū)別,本文就在線短租平臺(tái)具體情況展開(kāi)研究,從平臺(tái)中提取特征,基于現(xiàn)有研究匹配算法思路設(shè)計(jì)在線短租平臺(tái)同源房東匹配算法。

      2 C2C在線短租跨平臺(tái)匹配方法

      本章首先概述研究框架,然后介紹房源匹配特征、設(shè)計(jì)相似度計(jì)算方法。最后提出兩階段房東匹配算法,從房源匹配出發(fā)進(jìn)而匹配房東。

      2.1 研究思路

      現(xiàn)有跨平臺(tái)用戶匹配框架如圖1(a)所示,在該框架基礎(chǔ)上本文提出跨平臺(tái)房東匹配框架,如圖1(b)所示。1)獲取多平臺(tái)房源信息;2)提取特征;3)設(shè)計(jì)房源匹配算法,獲得房源匹配對(duì);4)設(shè)計(jì)兩階段房東匹配算法,基于房源匹配進(jìn)而匹配房東。

      (a) 現(xiàn)有跨平臺(tái)用戶匹配框架

      2.2 用戶匹配特征提取

      不同于社交網(wǎng)絡(luò)與電子商務(wù)平臺(tái),C2C短租平臺(tái)中,房東個(gè)人信息有限,現(xiàn)有研究中的用戶匹配方法無(wú)法直接應(yīng)用于房東匹配,本文基于C2C短租平臺(tái)現(xiàn)實(shí)情況,先進(jìn)行房源匹配,再進(jìn)行房東匹配。房源匹配的基本思想是使用房源地理位置信息進(jìn)行匹配,主要通過(guò)房源經(jīng)緯度、地址與標(biāo)題等位置描述信息獲取,其中經(jīng)緯度較為客觀,但具有一定偏差,而房源地址包含了省市區(qū)及房源小區(qū)等信息,部份房源標(biāo)題還包含其所在街道及附近地理信息。房源匹配除了考慮地理位置外,還需綜合考慮房源價(jià)格、面積等其它特征。

      表3 匹配特征

      綜上所述,本文抽取上述房源特征,具體見(jiàn)表3。表3中的特征分為2個(gè)部分,第1類為房源所在城市、經(jīng)緯度,第2類包括房源價(jià)格、面積等房源其它特征,記為HFs,根據(jù)特征數(shù)據(jù)類型,分別設(shè)計(jì)相似度計(jì)算方法。對(duì)房源標(biāo)題等字符串類型特征,采用編輯距離(Levenshitein)(LD)計(jì)算相似度[25]:

      (1)

      經(jīng)緯度相似度計(jì)算過(guò)程見(jiàn)算法1。如當(dāng)2個(gè)房源在經(jīng)度或者緯度上相差0.2時(shí),表示在地理位置上最多可相差20000 m(由于平臺(tái)存在計(jì)量與精度誤差,實(shí)際距離小于該值),是同一房源的可能性很低,因此LatThr和LongThr均設(shè)置為0.2。

      算法1 經(jīng)緯度相似度算法Simlong&latAlg

      輸入:房源i的經(jīng)緯度H1.Lat,H1.Long,房源j的經(jīng)緯度H2.Lat,H2.Long,經(jīng)緯度閾值LatThr,LongThr

      輸出:經(jīng)緯度相似度Simlong&lat

      1.DfLat=Hi.Lat-Hj.Lat, DfLong=Hi.Long-Hj.Long //計(jì)算2個(gè)房源的經(jīng)緯度差異

      2.if DfLat>LatThr or DfLong>LongThr //若2個(gè)房源在地理位置上相差過(guò)大,不能匹配

      3.return 0

      5.return

      數(shù)字特征采用歐氏距離計(jì)算,具體如公式(2)所示:

      (2)

      其中,X與Y分別代表2個(gè)房源某數(shù)字特征,xi與yi分別為X與Y中第i個(gè)各分量,基于上述方法,可分別計(jì)算2個(gè)房源在各特征上的相似度。

      1)字符串類型的特征包括標(biāo)題、地址、姓名,以標(biāo)題為例,相似度計(jì)算方式如下所示:

      Simtitle(housei,housej)=1-resemblance(housei(title),housej(title))

      (3)

      2)數(shù)字類型的特征包括價(jià)格、面積、床、宜居人數(shù),以價(jià)格為例相似度計(jì)算方式如下所示:

      (4)

      房源相似度計(jì)算方式如式(5)所示,式中wi表示特征i的重要度。

      (5)

      2.3 兩階段房東匹配算法

      基于上述分析,本文先匹配房源繼而匹配房源對(duì)應(yīng)房東。匹配算法中,涉及較多特征,為提高效率,本文提出兩階段匹配方法,思路分階段使用表3中2類特征:地理特征GFs,共4個(gè),房源特征HFs,共5個(gè)。第一階段,先使用GFs特征對(duì)房源進(jìn)行匹配,設(shè)置第一階段匹配閾值thr1,用較少特征獲得地理位置相似度較高的房源匹配對(duì)。第二階段,基于第一階段所得的房源匹配對(duì)匹配房東,并基于GFs+HFs進(jìn)行檢驗(yàn)過(guò)濾。

      2.3.1 第一階段

      本階段目標(biāo)是快速過(guò)濾無(wú)法匹配的房源,較為直觀地理解,GFs中各特征具有相似的重要性,故對(duì)各GFs特征等值設(shè)置重要度,以保證效率。第一階段匹配如算法2所示。

      算法2第一階段匹配算法

      輸入:平臺(tái)P1房源列表HL1,平臺(tái)P2房源列表HL2,地理位置特征集合GFs,GFs特征重要度W=[w1,w2,w3],第一階段匹配閾值thr1

      輸出:房源匹配對(duì)HPL

      1.HL1與HL2中的房源按城市分割為多個(gè)子集,得到各城市ck房源列表ck.HL

      2.for houseiin ck.HL1

      3.for housejin ck.HL2 (housei和housej位于同一城市c)

      4.計(jì)算Simlong&lat,Simtitle,Simloc

      5.if Simlong&lat=0 Then跳轉(zhuǎn)到步驟 4 //經(jīng)緯度差異過(guò)大,不為同一房源

      6.計(jì)算Sim=Simtitle·w1+Simloc·w2+Simlong&lat·w3

      7.if Sim>thr1 Then加入HPL中

      8.end-for

      9.end-for

      10.return HPL

      2.3.2 第二階段

      由于2個(gè)地理位置非常接近的房源,并不能充分證明它們屬于同一房東,所以第二階段分為2個(gè)部分,第1部分基于算法3獲取的房源匹配對(duì)進(jìn)行房東匹配,第2部分任務(wù)使用GFs+HFs特征對(duì)匹配的房東進(jìn)一步檢驗(yàn)和過(guò)濾。

      本階段對(duì)各特征重要度需進(jìn)行較為精確的設(shè)置,以保證房源匹配具有較高準(zhǔn)確度。若人為設(shè)置具有較大主觀性,難以保證匹配精度,如何合理設(shè)置算法參數(shù)對(duì)匹配結(jié)果至關(guān)重要。本文將該問(wèn)題轉(zhuǎn)化為優(yōu)化問(wèn)題,采用群智能算法搜索最優(yōu)參數(shù)。房東匹配算法本質(zhì)上為分類問(wèn)題,即判斷2個(gè)房東是否為同一房東,評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1、AUC等,本文以accuracy作為算法主要評(píng)價(jià)指標(biāo),對(duì)遺傳算法目標(biāo)函數(shù)進(jìn)行設(shè)計(jì),描述見(jiàn)公式(6):

      (6)

      基于上述分析,本研究采用遺傳算法搜索參數(shù),見(jiàn)算法3。假設(shè)需設(shè)特征重要度參數(shù)wi為n個(gè),則遺傳算法中染色體的基因設(shè)置n位,每一基因?qū)?yīng)一個(gè)參數(shù),基因位對(duì)應(yīng)一個(gè)22位二進(jìn)制編碼(結(jié)果精確至小數(shù)點(diǎn)后6位數(shù)),同時(shí)遵守公式(6)約束。

      算法3 基于遺傳算法的參數(shù)搜索算法

      輸入:遺傳算法參數(shù)(種群數(shù)NIND,終止代數(shù)MaxGen,個(gè)體數(shù)PN,交叉系數(shù)PC,變異系數(shù)PM)房源匹配對(duì)HPL

      輸出:各個(gè)特征的重要度wi與算法4閾值thr

      1.根據(jù)參數(shù)PN初始化種群

      2.while 未滿足終止條件MaxGen //進(jìn)化

      3.根據(jù)公式(6)約束條件篩選新參數(shù)

      4.在LPL上基于公式(6)目標(biāo)函數(shù)計(jì)算目標(biāo)值,并進(jìn)行適應(yīng)度計(jì)算

      5.根據(jù)適應(yīng)度選擇并保存最優(yōu)值

      6.種群根據(jù)參數(shù)PC和PM交叉和變異

      7.end-while

      8.returnW=[w1,…,wi]與thr

      第二階段匹配算法具體流程如算法4所示,其中輸入的房源匹配對(duì)列表HPL與GFs+HFs特征重要度W、第二階段匹配閾值thr2分別為算法2和算法3的輸出結(jié)果。

      算法4 第二階段匹配算法

      輸入:房源匹配對(duì)列表HPL,算法3搜索到的GFs+HFs特征重要度W、第二階段匹配閾值thr2

      輸出:房東匹配對(duì)列表LPL

      //基于房源匹配對(duì)列表HPL匹配房東

      1.LPL={}

      2.forin HPL //遍歷房源匹配對(duì)

      3.if housei或housej所屬房東不在LPL中

      4.將housei與housej所屬房東匹配放入LPL,以作為的bestpair

      5.end for

      //基于GFs+HFs特征過(guò)濾LPL中的房東

      6.forin LPL //

      7.for any ha in hostm的房源

      8.for any hb in hostn的房源

      9.若在HPL中&& Simhouse(ha,hb)>maxSim

      10.maxSim=Simhouse,bestPair=

      11.if maxSim

      12.end for

      13.return LPL

      3 實(shí)驗(yàn)分析

      本章設(shè)計(jì)跨平臺(tái)房東匹配的實(shí)驗(yàn),在大規(guī)模真實(shí)平臺(tái)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

      3.1 實(shí)驗(yàn)數(shù)據(jù)與參數(shù)設(shè)置

      筆者所在團(tuán)隊(duì)選取了國(guó)內(nèi)2個(gè)知名在線短租平臺(tái)(下述簡(jiǎn)稱A與B),通過(guò)爬蟲(chóng)收集2017年12月—2018年12月間的房源信息,A平臺(tái)約11萬(wàn)房源,對(duì)應(yīng)約3.5萬(wàn)房東,B平臺(tái)約4.2萬(wàn)房源,對(duì)應(yīng)約1.9萬(wàn)房東。

      通過(guò)人工標(biāo)注,共得到2000對(duì)匹配對(duì),其中匹配對(duì)正例數(shù)為1072,反例數(shù)為928,為本實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)集1(dataset1)。除dataset1外,本文還標(biāo)注了一份由難例構(gòu)成的數(shù)據(jù)集2(dataset2),數(shù)量總數(shù)為2000,其中正例數(shù)為1072,反例數(shù)為928。難例是指反例在地理位置與部分房源信息上非常接近,只通過(guò)部分特征無(wú)法清楚判斷匹配數(shù)據(jù)類別的數(shù)據(jù)。

      算法4的遺傳算法相關(guān)參數(shù)設(shè)置為:種群大小NIND設(shè)為40,個(gè)體數(shù)PN設(shè)為9,交叉系數(shù)PC設(shè)為0.7,變異系數(shù)PM設(shè)為1/PN即0.11,終止代數(shù)MaxGen設(shè)為2000,確保在足夠代數(shù)下獲取近似最優(yōu)解。進(jìn)行5-fold交叉驗(yàn)證,實(shí)驗(yàn)重復(fù)運(yùn)行算法5次,記錄每次結(jié)果。

      3.2 實(shí)驗(yàn)與結(jié)果分析

      3.2.1 參數(shù)重要度搜索方法驗(yàn)證

      本文整合遺傳算法搜索各匹配特征的重要度,基于公式(6)和算法3,在dataset1上進(jìn)行實(shí)驗(yàn)。參數(shù)分布情況見(jiàn)表4與圖2,以該參數(shù)作為輸入的算法4匹配準(zhǔn)確率見(jiàn)表4 acc行所示。

      表4 參數(shù)搜索表

      基于算法3搜索特征重要度,搜索到的表3中的8個(gè)特征重要度分布于[0,0.38],閾值thr2分布于[0.30,0.56]之間。5次實(shí)驗(yàn)的平均模型準(zhǔn)確率達(dá)99.69%,說(shuō)明本文使用群智能算法,可有效搜索到接近最優(yōu)參數(shù),獲得較準(zhǔn)確的房東匹配結(jié)果。

      在各特征中,平均重要度占比前五的指標(biāo)為房源標(biāo)題、房源經(jīng)緯度、房東姓名與房源地址、房源面積。一般來(lái)說(shuō),參數(shù)重要度越大,說(shuō)明特征對(duì)匹配模型貢獻(xiàn)越高,上述特征中包含了所有GPs特征,重要度均大于0.1,說(shuō)明算法3中通過(guò)地理信息特征GFs,能有效匹配房源,GFs特征在算法中能發(fā)揮較大作用。相對(duì)于GFs,房源價(jià)格、房源床數(shù)、房源宜居人數(shù)等特征作用相對(duì)小,重要度均小于0.1,究其原因,它們隨房東不同平臺(tái)的定價(jià)策略與出租方式動(dòng)態(tài)變化,未能對(duì)分類結(jié)果產(chǎn)生較為穩(wěn)定的影響。

      通過(guò)上述分析可知,重要度大于0.1的特征,即GFs,為較重要特征,在匹配第1階段使用,即可快速得到較準(zhǔn)確的房源匹配對(duì)。重要度小于0.1的特征,即HFs,在第2階段使用,可發(fā)揮一定的作用。在實(shí)驗(yàn)2中,將進(jìn)一步驗(yàn)證HFs的有效性。

      圖2 參數(shù)分布

      3.2.2 特征有效性檢驗(yàn)

      為驗(yàn)證2類特征的作用,本文設(shè)計(jì)以下實(shí)驗(yàn):對(duì)于重要度小于0.1的房源特征集合lFs,1)在dataset1上保留和去除lFs,測(cè)試模型準(zhǔn)確率;2)在dataset2進(jìn)行類似實(shí)驗(yàn),獲得去除和保留lFs的模型準(zhǔn)確率,結(jié)果如圖3所示。

      圖3 模型準(zhǔn)確率對(duì)比

      在dataset1上,保留或去除lFs,測(cè)試模型準(zhǔn)確率差別非常小,說(shuō)明lFs影響較小,但在難例數(shù)據(jù)集dataset2中去除lFs后,模型準(zhǔn)確率由81.97%下降到77.15%,有一定幅度下降。上述結(jié)果說(shuō)明房源價(jià)格、房源床數(shù)、房源宜居人數(shù)特征在處理難例時(shí),可發(fā)揮一定作用,進(jìn)一步說(shuō)明本文抽取特征是有效的,基于此設(shè)計(jì)的兩階段匹配算法,第一階段可利用少量特征GFs快速過(guò)濾無(wú)法匹配的房源,第二階段,可利用HPs較準(zhǔn)確地過(guò)濾和篩選地理位置接近導(dǎo)致難以區(qū)分的房源。

      3.2.3 房東匹配算法驗(yàn)證

      算法4在dataset1以不同分類閾值thr2運(yùn)行,各指標(biāo)部分結(jié)果如表5所示。通過(guò)該表數(shù)據(jù),可以發(fā)現(xiàn)在閾值thr2為0.5時(shí)模型的綜合性能最優(yōu),準(zhǔn)確率、精確率、召回率、F1分別達(dá)到了0.989、0.995、0.983、0.989。圖4為上述指標(biāo)的曲線圖,其中Y軸為指標(biāo)值,X軸為閾值thr2。

      表5 算法指標(biāo)

      從圖4可知,各算法分類性能指標(biāo)隨閾值變化,表明閾值設(shè)置對(duì)模型性能有顯著影響,也進(jìn)一步印證本文基于遺傳算法確定參數(shù)的必要性。

      圖4 算法指標(biāo)曲線圖

      3.2.4 算法效果對(duì)比

      房東匹配問(wèn)題本質(zhì)上為分類問(wèn)題,故本節(jié)引入支持向量機(jī)(SVM)與決策樹(shù)(DT)分類器,基于本文提取特征運(yùn)行算法,并通過(guò)預(yù)實(shí)驗(yàn)確定分類器參數(shù)以保證效果。其中參數(shù)如下:SVM設(shè)置懲罰系數(shù)C為20,使用高斯核函數(shù),DT使用基尼系數(shù)。在2個(gè)數(shù)據(jù)集上進(jìn)行5-fold交叉驗(yàn)證,實(shí)驗(yàn)重復(fù)運(yùn)行算法5次,運(yùn)行結(jié)果如圖5所示。圖中效果表明本文提取特征能有效區(qū)分房東是否匹配,并且通過(guò)對(duì)比驗(yàn)證TSHM在房東匹配問(wèn)題上優(yōu)于常用分類模型。

      圖5 模型效果對(duì)比

      3.3 實(shí)驗(yàn)小結(jié)

      本章設(shè)計(jì)多個(gè)實(shí)驗(yàn),驗(yàn)證所抽取匹配特征和考慮算法中涉及大量參數(shù),通過(guò)遺傳算法可自動(dòng)獲取多個(gè)匹配特征重要度,避免人為設(shè)置參數(shù)的主觀性引起的偏差;基于此給出房東匹配算法。通過(guò)真實(shí)多平臺(tái)數(shù)據(jù)驗(yàn)證,在普通數(shù)據(jù)集中精度高達(dá)99.69%,在難例數(shù)據(jù)集上也獲得81.97%的準(zhǔn)確率,最后引入其它分類模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明TSHM模型在在線短租房東匹配問(wèn)題上優(yōu)于其他模型。實(shí)驗(yàn)從多個(gè)角度驗(yàn)證兩階段算法的正確性和有效性,并兼顧效率和精度2個(gè)方面深度探討各類特征在跨平臺(tái)房東匹配中起到的作用。

      4 結(jié)束語(yǔ)

      隨著在線短租平臺(tái)的涌現(xiàn),房東多歸屬現(xiàn)象持續(xù)受到關(guān)注與研究。在不同平臺(tái)識(shí)別同源房東成為首要解決的問(wèn)題,本文基于社交與電商等領(lǐng)域現(xiàn)有研究,提出了一種基于房源匹配的C2C在線短租跨平臺(tái)房東匹配模型,使用遺傳算法搜索模型參數(shù),并基于2個(gè)國(guó)內(nèi)知名在線短租的大量真實(shí)房源數(shù)據(jù),分別在原數(shù)據(jù)集與難例數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該模型能有效識(shí)別同源房東。但本文實(shí)驗(yàn)僅以國(guó)內(nèi)平臺(tái)數(shù)據(jù)進(jìn)行驗(yàn)證分析,特征未考慮文本和圖片等,有待進(jìn)一步豐富,后續(xù)研究可以引入更多特征,并結(jié)合國(guó)內(nèi)與國(guó)外數(shù)據(jù)在更復(fù)雜情況下討論房東匹配方法。

      猜你喜歡
      跨平臺(tái)房源房東
      如何識(shí)別網(wǎng)上假房源
      給黃鼠狼當(dāng)房東
      袋熊房東煉成記
      從一句廣告詞看房地產(chǎn)經(jīng)紀(jì)的本質(zhì)
      在線民宿首次出租間隔時(shí)長(zhǎng)影響因素研究
      ——基于信號(hào)理論視角
      跨平臺(tái)APEX接口組件的設(shè)計(jì)與實(shí)現(xiàn)
      海鳥(niǎo)遇上惡房東
      基于QT的跨平臺(tái)輸電鐵塔監(jiān)控終端軟件設(shè)計(jì)與實(shí)現(xiàn)
      撒謊的房東
      基于OPC跨平臺(tái)通信的電機(jī)監(jiān)測(cè)與診斷系統(tǒng)
      石首市| 永康市| 阳江市| 正蓝旗| 克什克腾旗| 高雄县| 鲁甸县| 克拉玛依市| 庆阳市| 建瓯市| 泾阳县| 蒙阴县| 丰顺县| 泸西县| 无棣县| 交口县| 青海省| 高尔夫| 沐川县| 兴和县| 读书| 隆回县| 莱西市| 霍林郭勒市| 仙居县| 庄河市| 吐鲁番市| 湛江市| 同德县| 湘乡市| 汉阴县| 达尔| 平南县| 潢川县| 金坛市| 醴陵市| 衡水市| 桦南县| 万全县| 三台县| 江山市|