畢文杰, 扶春娟
(中南大學(xué) 商學(xué)院,湖南 長(zhǎng)沙 410083)
近年來(lái),共享經(jīng)濟(jì)作為一種新的經(jīng)濟(jì)模式,對(duì)住宿行業(yè)產(chǎn)生了巨大的影響,Airbnb率先將這種經(jīng)濟(jì)模式應(yīng)用于民宿在線(xiàn)短租。成立于2008年,Airbnb發(fā)展迅速,現(xiàn)已覆蓋191個(gè)國(guó)家的65000個(gè)城市,擁有700多萬(wàn)套房源,房客數(shù)量已經(jīng)超過(guò)5億,成為全球最大的旅游房屋租賃平臺(tái)之一。Airbnb快速增長(zhǎng)的關(guān)鍵在于其房源的異質(zhì)性,能夠?yàn)榉靠吞峁┆?dú)特的住宿體驗(yàn)[1~3]。
定價(jià)被普遍認(rèn)為是決定住宿行業(yè)能否長(zhǎng)遠(yuǎn)發(fā)展的關(guān)鍵因素之一[4]。Airbnb作為住宿行業(yè)的新星,定價(jià)對(duì)其房東來(lái)說(shuō)無(wú)疑也是非常重要的。而且Airbnb的快速增長(zhǎng),使得房東們面臨的競(jìng)爭(zhēng)日益激烈,定價(jià)更是顯得尤為重要。然而Airbnb所提供的住宿服務(wù)的獨(dú)特性,使得定價(jià)變得困難。雖然目前Airbnb開(kāi)發(fā)了定價(jià)系統(tǒng),為其房東提供價(jià)格推薦服務(wù),但由于定價(jià)系統(tǒng)的復(fù)雜性和不透明性,房東們?cè)跒槠浞吭丛O(shè)置價(jià)格時(shí)依然難免困惑[5]。因此,研究Airbnb房源的定價(jià)問(wèn)題,有利于加強(qiáng)房東對(duì)其房源市場(chǎng)價(jià)值的理解,幫助房東更好地做出價(jià)格決策。
然而,目前只有少數(shù)學(xué)者研究了Airbnb房源的定價(jià)問(wèn)題。Chen和Xie[6]基于美國(guó)奧斯汀市的數(shù)據(jù),依次將房源本身的特征、房東的特征、房源的聲譽(yù)和市場(chǎng)競(jìng)爭(zhēng)這四類(lèi)因素納入到OLS回歸模型中,發(fā)現(xiàn)房源本身的特征是最重要的,而房源的聲譽(yù)對(duì)價(jià)格的影響較小。Wang和Nicolau[7]利用位于北美洲、歐洲和大洋洲的33個(gè)城市的數(shù)據(jù),使用OLS回歸和分位數(shù)回歸方法,對(duì)房源價(jià)格與房東的特征、房源本身的特征和位置、設(shè)施與服務(wù)、房源的租賃規(guī)則和在線(xiàn)評(píng)論這五類(lèi)因素之間的關(guān)系進(jìn)行了探索,他們發(fā)現(xiàn)評(píng)分越高,價(jià)格越高,而評(píng)論數(shù)量越多,價(jià)格反而更低。Teubner等[8]基于特征價(jià)格回歸模型和德國(guó)86個(gè)城市的Airbnb數(shù)據(jù)集,探究了評(píng)論數(shù)量與評(píng)分的交互效應(yīng)對(duì)價(jià)格的影響,發(fā)現(xiàn)評(píng)分越低,評(píng)論數(shù)量對(duì)價(jià)格的負(fù)面影響越大。Zhang等[9]利用地理加權(quán)回歸,基于美國(guó)田納西州納什維爾市的數(shù)據(jù),發(fā)現(xiàn)房源與納什維爾會(huì)展中心的距離和評(píng)論數(shù)量均對(duì)價(jià)格產(chǎn)生負(fù)面影響。Gibbs等[10]將特征價(jià)格模型應(yīng)用于加拿大五個(gè)城市的Airbnb房源數(shù)據(jù),發(fā)現(xiàn)房源本身的特征和位置特征至關(guān)重要。Cai等[11]基于特征價(jià)格模型,探討了房源本身的特征和房東的特征等五組解釋變量對(duì)中國(guó)香港市Airbnb房源價(jià)格的影響,發(fā)現(xiàn)房間類(lèi)型對(duì)房源價(jià)格的影響非常大。吳曉雋和裘佳璐[12]基于中國(guó)36個(gè)城市的數(shù)據(jù),利用OLS回歸和分位數(shù)回歸分析了9類(lèi)變量對(duì)房源價(jià)格的影響。
可以看出,一方面,現(xiàn)有研究大部分針對(duì)歐美市場(chǎng),基于亞洲市場(chǎng)展開(kāi)的研究較缺乏[11,13]。然而,亞洲是Airbnb在全球增長(zhǎng)最快的市場(chǎng),且有基于多個(gè)目標(biāo)市場(chǎng)的研究發(fā)現(xiàn),不同市場(chǎng)的研究結(jié)果存在差異[10]。因此,針對(duì)亞洲市場(chǎng)對(duì)Airbnb房源的定價(jià)問(wèn)題進(jìn)行研究是十分必要的。另一方面,現(xiàn)有研究側(cè)重于探究Airbnb房源價(jià)格的影響因素,缺少對(duì)Airbnb房源定價(jià)方法的研究。而Airbnb房源價(jià)格推薦系統(tǒng)的不透明性和復(fù)雜性,使得這一研究變得有價(jià)值。房東通過(guò)參照已經(jīng)設(shè)置價(jià)格的房源的特征和價(jià)格信息,結(jié)合自己管理的房源的特征信息,來(lái)為自己管理的房源設(shè)置價(jià)格的問(wèn)題,可以轉(zhuǎn)化成一個(gè)預(yù)測(cè)問(wèn)題,而機(jī)器學(xué)習(xí)方法在預(yù)測(cè)中的良好表現(xiàn)已被普遍認(rèn)可。故而,利用機(jī)器學(xué)習(xí)研究亞洲市場(chǎng)Airbnb房源的定價(jià)問(wèn)題,不僅可以彌補(bǔ)現(xiàn)有文獻(xiàn)的缺口,而且有助于房東更好地為房源設(shè)置價(jià)格。
本文選取Airbnb北京市的數(shù)據(jù),先綜合利用OLS和LASSO選擇待研究的解釋變量,并將其分成房源本身的特征、房源的位置等六個(gè)類(lèi)別。然后利用OLS依次探究了六類(lèi)解釋變量對(duì)房源價(jià)格的影響大小。其次,利用OLS、LASSO、隨機(jī)森林和XGBoost對(duì)房源價(jià)格進(jìn)行了預(yù)測(cè),并對(duì)各方法的預(yù)測(cè)準(zhǔn)確性進(jìn)行了對(duì)比分析。最后綜合分析了各變量對(duì)價(jià)格的影響和變量的相對(duì)重要性。
本文將設(shè)置房源價(jià)格的問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)問(wèn)題,利用OLS、LASSO、隨機(jī)森林和XGBoost這四種常用的機(jī)器學(xué)習(xí)方法來(lái)研究Airbnb房源的定價(jià)問(wèn)題,其中前兩種屬于線(xiàn)性方法,后兩種屬于非線(xiàn)性方法,四種方法各有優(yōu)劣。
隨機(jī)森林(詳見(jiàn)Friedman等[14])通過(guò)整合多棵樹(shù)的預(yù)測(cè)結(jié)果以提升預(yù)測(cè)的準(zhǔn)確率。其泛化能力較強(qiáng),且能夠度量解釋變量的重要性,但如果數(shù)據(jù)噪音較大,則可能過(guò)擬合。
XGBoost(詳見(jiàn)Chen和Guestrin[15])是對(duì)梯度提升算法的改進(jìn),旨在最大化地保證可擴(kuò)展性、便捷性以及準(zhǔn)確性。XGBoost能夠降低過(guò)擬合。
本文選擇中國(guó)北京市2019年2月的Airbnb房源作為研究對(duì)象,因?yàn)橹袊?guó)是Airbnb在亞洲關(guān)注的焦點(diǎn)之一。而北京市作為中國(guó)的首都,是中國(guó)最重要的市場(chǎng)。本文所用數(shù)據(jù)來(lái)自網(wǎng)站Insideairbnb.com (n.d.)。由于一些房源沒(méi)有產(chǎn)生實(shí)際交易活動(dòng),本文參照Wang和Nicolau[7]的做法,僅選擇至少有一條評(píng)論的房源,以確保房源價(jià)格具有參考價(jià)值,對(duì)包含缺失值和異常值的樣本進(jìn)行處理后,得到12248個(gè)樣本。
Airbnb房源每晚的價(jià)格分布呈偏態(tài)分布,對(duì)其進(jìn)行對(duì)數(shù)轉(zhuǎn)換后接近正態(tài)分布,因此本文將每晚價(jià)格的對(duì)數(shù)作為被解釋變量。為保證模型的簡(jiǎn)潔實(shí)用性,以及不同機(jī)器學(xué)習(xí)方法所用解釋變量的統(tǒng)一性以便于比較,本文先基于以往研究Airbnb房源價(jià)格影響因素的文獻(xiàn),選擇房間類(lèi)型(整個(gè)房源、獨(dú)立房間和合住房間)、房源容量、浴室數(shù)量、臥室數(shù)量、無(wú)線(xiàn)上網(wǎng)服務(wù)、早餐、烘干機(jī)、實(shí)體床、對(duì)家庭和孩子友好、適合舉辦活動(dòng)、最低住宿晚數(shù)、房源與市中心的距離、房東是超級(jí)房東、房東擁有的房源數(shù)量、房東通過(guò)身份認(rèn)證、房東上傳個(gè)人照片、要求房客提供個(gè)人照片、要求房客提供電話(huà)號(hào)碼、即時(shí)預(yù)訂、評(píng)論數(shù)量、整體評(píng)分共23個(gè)變量作為候選解釋變量,然后綜合利用OLS和LASSO從中選擇最終的解釋變量。
選擇變量的具體過(guò)程為:先將數(shù)據(jù)按照7:3的比例隨機(jī)分為訓(xùn)練集和測(cè)試集,利用訓(xùn)練集來(lái)訓(xùn)練模型,利用測(cè)試集來(lái)評(píng)估模型的預(yù)測(cè)精度,將均方誤差作為模型預(yù)測(cè)精度的評(píng)價(jià)準(zhǔn)則。訓(xùn)練LASSO模型時(shí)利用十折交叉驗(yàn)證和網(wǎng)格搜索方法選擇調(diào)節(jié)參數(shù)λ的值。將訓(xùn)練得到的OLS模型以及最優(yōu)的LASSO模型應(yīng)用于測(cè)試集,發(fā)現(xiàn)OLS得到的均方誤差小于LASSO。接著,將OLS以及最優(yōu)的LASSO模型應(yīng)用于整個(gè)數(shù)據(jù)集,發(fā)現(xiàn)除實(shí)體床、房東通過(guò)身份認(rèn)證、房東上傳個(gè)人照片、要求房客提供個(gè)人照片和要求房客提供電話(huà)號(hào)碼這5個(gè)變量未通過(guò)OLS顯著性檢驗(yàn)外,其他變量均顯著,而LASSO選擇了全部23個(gè)變量。因此,本文選擇通過(guò)OLS顯著性檢驗(yàn)的變量作為最終的解釋變量。
最終解釋變量共18個(gè),將其劃分為房源本身的特征、房源的位置、設(shè)施與服務(wù)、租賃規(guī)則、房東的特征和房源的聲譽(yù)6個(gè)類(lèi)別。變量描述及簡(jiǎn)單的統(tǒng)計(jì)分析見(jiàn)表1。
表1 變量定義和描述性分析
為初步了解各變量間的關(guān)系,進(jìn)行相關(guān)性分析。圖1展示了各解釋變量與房源價(jià)格的關(guān)系,其中條形圖的縱坐標(biāo)表示相應(yīng)解釋變量組的房源價(jià)格平均值,散點(diǎn)圖上的藍(lán)線(xiàn)為帶有95%置信區(qū)間的非參數(shù)光滑曲線(xiàn)??梢钥闯?,三種房間類(lèi)型中整個(gè)房源的價(jià)格最高,合住房間的價(jià)格最低。房源容量、浴室數(shù)量和臥室數(shù)量與房源價(jià)格正相關(guān)。提供無(wú)線(xiàn)上網(wǎng)服務(wù)和烘干機(jī)的房源比不提供這些設(shè)施的房源價(jià)格更高。對(duì)家庭和孩子友好、適合舉辦活動(dòng)和允許即時(shí)預(yù)定對(duì)房源價(jià)格產(chǎn)生積極影響。最低住宿晚數(shù)與房源價(jià)格負(fù)相關(guān)。房源的評(píng)論數(shù)量和房源整體評(píng)分對(duì)房源價(jià)格的影響較弱。提供早餐和房東是超級(jí)房東對(duì)房源價(jià)格產(chǎn)生消極影響,但似乎不顯著。房源與市中心的距離以及房東擁有的房源數(shù)量均與價(jià)格呈非線(xiàn)性關(guān)系,意味著非線(xiàn)性方法的表現(xiàn)可能會(huì)優(yōu)于線(xiàn)性方法。
圖1 各變量與房源價(jià)格的相關(guān)關(guān)系
進(jìn)一步計(jì)算各變量間的皮爾遜相關(guān)系數(shù),并檢驗(yàn)其顯著性,結(jié)果如圖2所示。除對(duì)角線(xiàn)外,圖中空格均表示兩個(gè)變量之間的相關(guān)關(guān)系不顯著。由圖2可知,整體評(píng)分、早餐和房東是超級(jí)房東這三個(gè)變量與房源價(jià)格相關(guān)關(guān)系不顯著,與前面的結(jié)果一致。其他變量均與房源價(jià)格相關(guān)關(guān)系顯著,其中與房源價(jià)格正相關(guān)的變量中,房源容量、臥室數(shù)量、浴室數(shù)量和房東擁有的房源數(shù)量與房源價(jià)格相關(guān)性最強(qiáng);與房源價(jià)格負(fù)相關(guān)的變量中,房間類(lèi)型和距離與房源價(jià)格的相關(guān)性最強(qiáng)。解釋變量間的相關(guān)系數(shù)均小于0.8,因此不存在多重共線(xiàn)性。
圖2 變量相關(guān)性
先利用OLS方法,分析6類(lèi)變量對(duì)房源價(jià)格的影響程度。然后將數(shù)據(jù)按7:3的比例隨機(jī)分為訓(xùn)練集和測(cè)試集,訓(xùn)練模型時(shí)利用十折交叉驗(yàn)證和網(wǎng)格搜索選擇模型的超參數(shù),即選擇網(wǎng)格中使得交叉驗(yàn)證預(yù)測(cè)誤差最小的超參數(shù),得到最優(yōu)模型。其次,將OLS模型與最優(yōu)的LASSO、隨機(jī)森林和XGBoost模型應(yīng)用于測(cè)試集中,計(jì)算均方誤差。再次,將最優(yōu)的LASSO模型應(yīng)用于整個(gè)數(shù)據(jù)集得到模型的系數(shù)估計(jì)值。將最優(yōu)的隨機(jī)森林和XGBoost模型應(yīng)用于整個(gè)數(shù)據(jù)集,得到解釋變量的重要程度圖。最后,為更全面地理解各變量的貢獻(xiàn),并檢驗(yàn)各方法的穩(wěn)健性,利用相對(duì)權(quán)重方法,即計(jì)算對(duì)OLS模型所有可能的子模型添加一個(gè)變量引起的R2平均增加量,得到各變量對(duì)OLS模型R2的貢獻(xiàn)圖。同時(shí),分別計(jì)算從模型中不重復(fù)地剔除一個(gè)變量時(shí)各方法的預(yù)測(cè)均方誤差,并作圖比較。本文利用R3.5.1進(jìn)行編程運(yùn)算,為了保證所得結(jié)果的可重復(fù)性,設(shè)置第一號(hào)隨機(jī)種子。
OLS和LASSO分析的結(jié)果如表2所示。表3列出了四種方法分別得到的均方誤差。圖3為隨機(jī)森林得出的變量重要性圖,變量重要性根據(jù)結(jié)點(diǎn)不純度的總減少量計(jì)算得到。圖4為XGBoost得到的變量重要性圖。圖5為各變量對(duì)OLS模型R2的貢獻(xiàn)圖,圖6為各變量對(duì)預(yù)測(cè)準(zhǔn)確性的貢獻(xiàn)圖。
圖3 隨機(jī)森林變量重要性
圖4 XGBoost變量重要性
圖5 OLS模型中各變量對(duì)R2的貢獻(xiàn)
圖6 各變量對(duì)預(yù)測(cè)準(zhǔn)確性的貢獻(xiàn)
通過(guò)比較表2中各OLS模型的校正后的R2,可得到各類(lèi)解釋變量對(duì)房源價(jià)格差異的解釋程度。模型1的結(jié)果表明房源本身的特征解釋了Airbnb房源價(jià)格差異的64.2%,說(shuō)明房源本身的特征至關(guān)重要。模型2僅在模型1的解釋變量基礎(chǔ)上加入房源與市中心的距離這一變量,解釋力卻增加了3個(gè)百分點(diǎn),說(shuō)明位置對(duì)房源價(jià)格的影響很可觀(guān)。在模型2的基礎(chǔ)上依次加入設(shè)施與服務(wù)、租賃規(guī)則、房東的特征和房源的聲譽(yù)特征,模型的解釋力均增加不大,因此這些特征對(duì)房源價(jià)格的影響較小。
因此,六類(lèi)解釋變量中,房源本身的特征對(duì)房源價(jià)格的影響最大,房源的位置對(duì)價(jià)格的影響居第二。房源本身的特征和位置是最重要的。這一結(jié)果得到了Chen和Xie[6]以及Gibbs等[10]的支持。
從表3可以看出,LASSO得到的均方誤差略大于OLS,與OLS相比不存在優(yōu)勢(shì),這說(shuō)明OLS模型不存在嚴(yán)重過(guò)擬合的問(wèn)題,且各解釋變量間不存在多重共線(xiàn)性。在利用交叉驗(yàn)證和網(wǎng)格搜索選擇模型超參數(shù)時(shí),LASSO選擇的超參數(shù)接近于零,因此得到的模型與OLS得到的模型相近,表2中LASSO得到的系數(shù)與OLS得到的系數(shù)非常接近,也說(shuō)明了這一點(diǎn)。隨機(jī)森林和XGBoost這兩種非線(xiàn)性方法得到的均方誤差明顯低于OLS和LASSO這兩種線(xiàn)性回歸方法得到的誤差,其中隨機(jī)森林的均方誤差最低,說(shuō)明其預(yù)測(cè)更準(zhǔn)確。從圖6可以看出,四種方法剔除任意相同變量后,隨機(jī)森林和XGBoost的均方誤差接近,OLS與LASSO的均方誤差接近,且均大于全變量模型的均方誤差(圖中的黑虛線(xiàn)從左至右依次為隨機(jī)森林、XGBoost、OLS和LASSO全變量情形下的均方誤差,由于OLS和LASSO的誤差非常接近,兩條線(xiàn)基本重合),說(shuō)明各方法的預(yù)測(cè)效果具有穩(wěn)健性。隨機(jī)森林和XGBoost得到的誤差均小于OLS和LASSO得到的誤差,為非線(xiàn)性方法相較于線(xiàn)性方法的優(yōu)越性提供了更有力的證明。
表2 OLS與LASSO模型估計(jì)結(jié)果
表3 機(jī)器學(xué)習(xí)預(yù)測(cè)誤差
OLS的所有系數(shù)估計(jì)值均顯著,具有變量選擇作用的LASSO選擇了包含所有解釋變量的模型,表明所有解釋變量均是影響Airbnb房源價(jià)格的因素。觀(guān)察表2中各解釋變量的系數(shù)可知,各變量與房源價(jià)格的相關(guān)關(guān)系與相關(guān)性分析的結(jié)果大體一致,只是相關(guān)性分析中不顯著的早餐、超級(jí)房東和整體評(píng)分這三個(gè)變量在這里都對(duì)房源價(jià)格產(chǎn)生顯著的積極影響。即時(shí)預(yù)訂對(duì)房源價(jià)格產(chǎn)生積極影響,與Gibbs等[10]結(jié)果相反。這是因?yàn)樵试S即時(shí)預(yù)訂意味著房東將承擔(dān)一定的風(fēng)險(xiǎn),在競(jìng)爭(zhēng)壓力不大的情況下,房東放棄利用低價(jià)格和允許即時(shí)預(yù)訂來(lái)吸引房客,選擇提高房源的價(jià)格以補(bǔ)償允許即時(shí)預(yù)訂帶來(lái)的風(fēng)險(xiǎn)。超級(jí)房東和房源數(shù)量更多的房東,其房源價(jià)格更高,表明Airbnb房客將這兩項(xiàng)看成一種質(zhì)量信號(hào),愿意為其支付更高的價(jià)格。房源的評(píng)論數(shù)量越多的房源,其價(jià)格反而越低。這是因?yàn)楸阋说姆吭幢活A(yù)定的次數(shù)更多,獲得的評(píng)論也更多。
由圖2可知,房源容量、臥室數(shù)量、獨(dú)立房間、合住房間、浴室數(shù)量、房源與市中心的距離和房東擁有的房源數(shù)量是與房源價(jià)格最相關(guān)且相關(guān)系數(shù)顯著的六個(gè)變量。由圖3可知,隨機(jī)森林得到最重要的六個(gè)變量依次為房源容量、獨(dú)立房間、合住房間、房源與市中心的距離、臥室數(shù)量和房東擁有的房源數(shù)量。由圖4可知,XGBoost得到的最重要的六個(gè)變量依次為房源容量、獨(dú)立房間、合住房間、臥室數(shù)量、房源與市中心的距離和房東擁有的房源數(shù)量。由圖5可知,合住房間、獨(dú)立房間、房源容量、臥室數(shù)量、房源與市中心的距離、房東擁有的房源數(shù)量是對(duì)R2貢獻(xiàn)最大的六個(gè)變量。由圖6可知,當(dāng)在全模型中剔除一個(gè)變量時(shí),剔除合住房間、獨(dú)立房間、房源與市中心的距離或者房源容量時(shí),均方誤差顯著增大,說(shuō)明這幾個(gè)變量對(duì)提高預(yù)測(cè)精度的貢獻(xiàn)最大。由于各種方法是從不同的角度判斷各變量的重要性,結(jié)果略有不同,但大體一致。綜合可知,房源容量、獨(dú)立房間、合住房間、房源與市中心的距離是最重要的幾個(gè)變量。
最重要的四個(gè)變量中,有三個(gè)是代表房源本身的特征的變量,再次證明了房源本身的特征非常重要。
本文利用北京市的數(shù)據(jù)和多種機(jī)器學(xué)習(xí)方法,對(duì)Airbnb房源價(jià)格進(jìn)行了預(yù)測(cè),并對(duì)其影響因素進(jìn)行了綜合分析。從理論的角度來(lái)看,為填補(bǔ)現(xiàn)有文獻(xiàn)鮮少對(duì)Airbnb亞洲市場(chǎng)房源定價(jià)問(wèn)題進(jìn)行研究,以及缺少對(duì)Airbnb房源定價(jià)方法的探究等缺口做出了貢獻(xiàn)。從實(shí)踐的角度來(lái)看,本文的研究結(jié)果有助于加深房東們對(duì)Airbnb房源價(jià)格決定機(jī)制的理解,更好地為其房源設(shè)置價(jià)格。
本文首先利用OLS分別探究了六類(lèi)變量對(duì)價(jià)格差異的解釋力,發(fā)現(xiàn)房源本身的特征對(duì)房源價(jià)格的貢獻(xiàn)最大。其次,將數(shù)據(jù)集隨機(jī)分成訓(xùn)練集和測(cè)試集,對(duì)四種常用機(jī)器學(xué)習(xí)模型預(yù)測(cè)精度進(jìn)行比較,發(fā)現(xiàn)非線(xiàn)性方法的表現(xiàn)優(yōu)于線(xiàn)性方法。再次,將訓(xùn)練得到的模型應(yīng)用于整個(gè)數(shù)據(jù)集,得到LASSO的回歸系數(shù),隨機(jī)森林和XGBoost的變量重要性圖。利用回歸系數(shù)分析各個(gè)因素對(duì)房源價(jià)格的影響,結(jié)果在很大程度上證實(shí)了以往關(guān)于A(yíng)irbnb房源價(jià)格影響因素的研究結(jié)果[6,8,10]。與以往研究不同的是,本文發(fā)現(xiàn)價(jià)格與允許即時(shí)預(yù)訂成正相關(guān)關(guān)系。這說(shuō)明北京市的房客有足夠的動(dòng)機(jī)為允許即時(shí)預(yù)訂的房源支付更高的價(jià)格。最后,利用相對(duì)權(quán)重方法,得到各變量對(duì)OLS模型R2的貢獻(xiàn)圖。通過(guò)從模型中不重復(fù)地剔除一個(gè)變量,得到各變量對(duì)預(yù)測(cè)精度的貢獻(xiàn)圖。結(jié)合前面得到的變量相關(guān)性圖、隨機(jī)森林和XGBoost得到的變量重要性圖進(jìn)行綜合分析,全面地衡量各變量的重要程度,發(fā)現(xiàn)房源容量、房間類(lèi)型、房源與市中心的距離是最重要的幾個(gè)變量。
本文的研究也存在一些局限性。一方面,本文僅選取北京市的房源作為研究對(duì)象,雖然具有一定的代表性,但無(wú)法全面反映整個(gè)中國(guó)甚至亞洲的Airbnb房源價(jià)格決定機(jī)制。因此,將來(lái)的研究應(yīng)該全面探索整個(gè)中國(guó)甚至亞洲重要城市的價(jià)格決定機(jī)制。另一方面,本文未考慮季節(jié)效應(yīng),不過(guò)已有文獻(xiàn)考慮到房源價(jià)格隨時(shí)間的有限變化,認(rèn)為一個(gè)價(jià)格點(diǎn)足以進(jìn)行房源定價(jià)問(wèn)題的探究。