文/張菊玲 盧曉婷
2020年新華社正式發(fā)布《中共中央關于制定國民經濟和社會發(fā)展第十四個五年規(guī)劃和二〇三五年遠景目標的建議》,該建議指出,“堅持房子是用來住的、不是用來炒的定位,租購并舉、因城施策,促進房地產市場平穩(wěn)健康發(fā)展”[1]。近年來,由于一線城市及新一線城市大規(guī)模的人口流動和不斷上漲的房價,購房對于在大城市工作的人來說,成為一個遙不可及的目標。房地產市場逐漸從增量房市場過渡至存量房市場,因而住房租賃成為房地產市場關注的一個重點。2017年,北京、上海、廣州外來人口中超過五成選擇租房居住,深圳則將近七成租房居住[2];與一線城市相比,新一線城市競爭壓力相對較小,加以人才引進政策的實施,以成都、杭州、重慶、西安為代表的新一線城市在近幾年成為大學畢業(yè)生的工作首選之地,這也在無形中導致房價不斷上漲。越來越多的人選擇租房來住,“70后”為了孩子的教育問題選擇租房,“80后”由于購房資金不足選擇租房,“90后”為了工作需要選擇租房。根據房天下研究院的調查數據,預計2023年我國住房租賃人口規(guī)模將達到2.48億人[3]。由此可見,一線城市及新一線城市住房租賃市場的規(guī)模正在進一步擴大。
隨著住房租賃市場規(guī)模的擴大,租房平臺上的數據日漸增多。數據挖掘技術可以從海量數據中提取關鍵信息,將其應用于住房租賃市場研究的優(yōu)勢愈發(fā)明顯。目前,針對住房租賃市場的相關研究大多聚焦于租房的價格影響因素[4-7]和價格預測[8-10]。有學者將昆明市呈貢區(qū)的租房數據進行時空聚類和關聯分析,挖掘租房數據信息中的規(guī)律和價值[11],但其只分析了某一個地區(qū)的租房數據,明顯缺乏代表性和普適性。因此,本文選取上海、北京、深圳、廣州、成都、杭州、重慶、西安等八個城市的租房數據信息為樣本,運用數據挖掘技術挖掘租房數據信息的規(guī)律和價值,深入分析住房租賃市場的供給現狀,并對今后住房租賃市場的可持續(xù)健康發(fā)展提出切實可行的建議。
本文依據《2021城市商業(yè)魅力排行榜》[12]選取了一線及新一線代表城市上海、北京、深圳、廣州、成都、杭州、重慶、西安的租房數據作為參考樣本。采用網絡爬蟲軟件后羿采集器抓取了房天下網站上的租房數據,共抓取14895條房屋出租數據,將其保存到Excel表格中,每條數據包含出租標題、房屋地址、租金、建筑面積、裝修、樓層等房屋信息。
數據預處理主要是對數據中異常值和重復值的處理,由于樣本量大,且網上采集下來的數據存在很多不規(guī)范的地方,數據處理顯得尤為重要。本文剔除了以下有問題的數據:第一,重要信息缺失的房源,如面積、地址等信息;第二,信息完全相同的重復房源;第三,明顯偏差過大或者不符合實際的數據,如一些房東或中介為了吸引租客,發(fā)布一些虛假信息,使得數據中存在一些離群值,例如有的房屋面積比較大,但租金較低,明顯不符合實際情況,所以將這些樣本進行刪除;第四,租金過高(>80000元/月)的房源;第五,建筑面積過大(>400平方米)的房源。經過數據預處理后剩余14389條有效數據,八個城市數據占比依次為13.2%、10.3%、14.9%、15.6%、13.7%、14.3%、3.8%、14.2%。
詞云分析是通過調用相應的擴展包,使用分詞工具進行中文分詞后,對結果進行分析,生成對應的圖表,反映數據中高熱度、高使用頻率的詞或短語[13]。房東或者中介在網站上發(fā)布租房信息時,通常會把房子最重要的屬性特征放到出租標題中,以此來吸引租客的瀏覽和點擊。在抓取數據時,這些屬性特征已經出現在標題中,因此本文對出租標題字段統(tǒng)計詞頻,作出詞云圖,以更直觀地展示各城市出租房屋的屬性特征。
采用Python生成詞云圖,其步驟大致為:首先,用import調用相應的擴展包;其次,讀取文本內容進行分詞,加載停用詞詞典;然后用extract_tags()函數去除停用詞并統(tǒng)計詞頻,將其轉化為字典格式word_dict;最后,調用WordCloud().fit_words(word_dict)繪制詞云,調用plt.imshow(word_cloud)將詞云圖顯示出來。本文對上述八大城市租房數據的詞云分析結果如圖1所示。
圖1 八大城市詞云圖
通過八大城市出租房屋特征屬性的詞云圖對比,發(fā)現“地鐵”“精裝修”“拎包入住”是各城市的核心關鍵詞,而“公交”“巴士”等詞幾乎沒有出現,這反映了地鐵是租客的主要出行工具。室內裝修也是出租房屋的核心特征,租客一般很少愿意自己裝修租賃的房屋,他們通常直接租賃可以隨時拎包入住的房子。除北京、上海外,其他各城市均出現關鍵詞“優(yōu)質教育”,可見這些城市房屋租賃市場上學區(qū)房占比較大,優(yōu)質教育也是出租房的核心特征。
一線城市租客年齡主要集中在30-34歲,新一線城市則主要集中在25-29歲,主要是因為新一線城市的人才引進政策吸引了大多數應屆畢業(yè)生。由此可見,一線及新一線城市的租客呈現出年輕化的特征,他們面臨高房價通常會選擇租房過渡,并且對房屋各方面的配置要求較高。各城市租客的關注特征有所不同:北京租客最關心“服務”,上海、廣州、深圳的租客最關心“生活”,杭州、重慶的租客最關心“家電”,成都、西安的租客最關心“交通”[14]。分析圖1可發(fā)現,房天下網站上具有地鐵、裝修和教育等核心價值特征的房源發(fā)布得較多,各城市應根據租客的需求情況對發(fā)布的房源進行調整。
K-means聚類算法是以平均值為聚類中心的一種聚類方法,它應用廣泛,但本身存在著許多問題[15]。由于K-Means聚類算法每一次迭代都需要遍歷全部樣本數據,數據量過大,迭代次數過多,導致計算復雜度高,進行聚類的樣本量超過1萬個時適用性差。因此,本文使用K-Means聚類算法的優(yōu)化算法Mini Batch K-Means聚類算法對房屋租金進行聚類,分析住房租賃市場上租金的分布規(guī)律,為下文進行關聯規(guī)則分析提供依據。
Mini Batch K-Means聚類算法是在保持聚類準確性的條件下大幅提高聚類效率的一種算法,該算法并不是每次都使用數據集中的所有數據,而是從數據集中隨機選擇一個子集,因此大大減少了聚類時間,總體上減少了收斂時間[16]。此外,它使用kmeans++初始化聚類中心,避免算法陷入局部最優(yōu),進一步保證聚類結果的有效性。該算法的運行步驟為:第一步,從數據集中隨機選取小批量數據進行計算,將它們分配給距離其最近的質心;第二步,計算每一個小批量數據的平均值來更新質心,并把小批量里的數據分配給該質心,迭代次數越多,這些質心的變化越小,直至質心穩(wěn)定便停止計算。
進行聚類前需要使用肘部法則確定最佳聚類數。肘部法則是根據所有樣本點間的誤差平方和與聚類數之間的關系來判斷最佳聚類數。誤差平方和隨聚類數的增加而驟減,在達到某個臨界點時降低幅度會減弱,之后逐漸趨于平緩,這個臨界點對應的聚類數就是最佳聚類數。
將八個城市的租金和建筑面積對數化,可以縮小數據的離散程度。根據八個城市的月租金和建筑面積信息運用肘部法則,結果如圖2所示,橫軸為聚類數,縱軸為誤差平方和。
圖2 肘部法則圖
從圖2可以看出,聚類數為3時下降幅度減弱,之后趨于平緩,所以最佳聚類數為3類。將月租金與建筑面積進行二維聚類,聚類效果如圖3所示,橫軸代表建筑面積(平方米),縱軸代表月租金(元)。
圖3 八個城市月租金-建筑面積聚類圖
從圖3可以看出,月租金與建筑面積具有正相關性,建筑面積越大,月租金越高。樣本數據以月租金為聚類區(qū)間被分為A、B、C三類,由聚類結果可得到3個質心,A類質心為(87,4467),B類質心為(169,18757),C類質心為(258,44878)。其中,A類共有11513個樣本,占總樣本約80%,月租金在10000元以下;B類共有2254個樣本,占總樣本的16%,月租金在10000-30000元之間;C類共有622個樣本,占總樣本的4%,月租金高于30000元。由此可見,市場上發(fā)布的各個類簇的樣本數并不平均,月租金10000元以下的房屋數量較多,月租金高于30000元的房屋數量較少,且房屋租金的跨度較大,最低月租金為1000元,最高月租金為80000元。住房租賃市場上租房的人大多為外來務工人員和大學畢業(yè)生,他們收入有限,更偏好租金低的小戶型,以滿足日常生活需求。中戶型的房屋適合合租或者家庭租賃。根據市場調查,僅有27%的租客以家庭形式與老人、小孩同住[17],相比之下,租客更愿意個人整租小戶型房屋。
關聯規(guī)則分析可以尋找數據庫中不同屬性之間的相互關系。關聯規(guī)則的形式是X→Y,X為規(guī)則的前項,Y為規(guī)則的后項。支持度是指X和Y一起出現的概率,置信度是指在X出現的條件下,Y出現的概率[18]。
關聯規(guī)則挖掘過程包括兩步:第一步,從數據集中找出所有的頻繁項集,它們的支持度大于等于設置的最小支持度;第二步,由頻繁項集產生強關聯規(guī)則,計算它們的置信度,保留大于等于設置的最小置信度的關聯規(guī)則。[19]
GRI算法是關聯規(guī)則挖掘中的一種算法,它能處理不同類型的變量。進行關聯分析前,需要對變量進行分類,如樓層可分為低、中、高,裝修可分為毛坯、簡裝修、中裝修、精裝修和豪華裝修等,將分類后的變量進行編碼,并轉換為一個0-1類型的數據集,使用Clementine 12.0軟件進行挖掘分析。該算法的步驟為:首先,通過Var.file節(jié)點讀入數據;然后,在Fidel Ops中選擇一個Type節(jié)點來設置輸入數據的各個屬性;接下來,在Modeling中選擇GRI模型,并與前面的Type節(jié)點連接,最小支持度和最小置信度分別設置為10%和30%;最后,執(zhí)行GRI模型中算法得到關聯規(guī)則,從而發(fā)現租房數據信息屬性特征之間的關聯規(guī)律。
將城市、租金、建筑面積、樓層、裝修、地鐵進行編碼,分為 P1、P2、……,P25,共25個字段,如表1所示。
表1 編碼表
對編碼后各變量之間的關聯規(guī)則進行挖掘后,按照支持度和置信度排序,部分結果如表2、表3所示。
表3 關聯規(guī)則表(置信度排序)
從表2可以看出:租金低于10000元的精裝修房源數量約占總量的78%,租金低于10000元、建筑面積在0-87平方米之間的房源數量約占總量的78%,租金低于10000元、附近有地鐵、建筑面積在0-87平方米之間的房源數量約占總量的60%,租金低于10000元、精裝修、附近有地鐵、高層的房源數量約占總量的48%,建筑面積在87-169平方米之間、精裝修、附近有地鐵、高層的房源數量約占總量的25%,租金在10000-30000元之間、建筑面積在87-169平方米之間的房源數量約占總量的17%。
表2 關聯規(guī)則表(支持度排序)
從表3可以看出:上海的房源中約88%附近有地鐵;西安租金小于10000元的房源中約85%為精裝修;杭州租金小于10000元的房源中約70%附近有地鐵;重慶租金小于10000元的房源中約60%建筑面積小于87平方米;廣州精裝修的房源中將近一半建筑面積在87-169平方米之間;深圳精裝修的房源中約40%建筑面積在87-169平方米之間。
通過分析租房數據中的關聯規(guī)則可以得出房源不同特征屬性之間的關聯性。分析表2和表3可以發(fā)現:一線及新一線城市住房租賃市場上的房源以中小戶型、低租金、精裝修為主;杭州約七成的房源附近有地鐵,這是因為杭州作為高新產業(yè)園區(qū)聚集地,受人才政策的影響,吸引了大學畢業(yè)生就業(yè),他們在入職初期,最看重的因素是“交通”和“價格”;重慶相較于其他城市來說租房最輕松,其房租收入比在一線及新一線城市中相對較低,租房壓力較?。簧虾4蠖鄶档姆吭锤浇械罔F,越來越多的租客為了減少通勤時間,選擇在地鐵站或公交站附近租房,這樣可以提高生活質量。正如前文詞云分析所述,“地鐵”“精裝修”是各城市房源的最大特征屬性。市場上也有一些大戶型、高租金的房源,但數量極少,在寸土寸金的上海,大戶型的房源自然與高租金相匹配;深圳稍大一點的戶型租金較高,深圳作為“壓力大的現代化都市”的代表,房租收入比最高,租房負擔比較重。
通過詞云分析可以更直觀地顯示當前住房租賃市場上的房源大多具有“地鐵”“精裝修”“拎包入住”等關鍵屬性,即向租客提供便利、更加貼近租客需求的熱點特征屬性。通過聚類分析可以發(fā)現,一線及新一線城市的房屋租金與建筑面積成正相關關系,租金大部分集中在10000元以下,建筑面積大多集中在169平方米以內,但租金跨度較大,并且房屋的建筑面積較大。由于當前房源供給主體大多數為居民個人,多居室、大戶型的房源較多,與租客的需求不匹配,容易造成房屋空置,浪費房屋資源。基于詞云分析和聚類分析的結果,進行關聯規(guī)則分析,可以發(fā)現我國住房租賃市場上的房源以中小戶型、低租金、精裝修為主,上海、深圳租金較高,造成租客租房負擔較重。
通過分析我國一線及新一線城市住房租賃市場的供給現狀,結合當前住房租賃市場的需求現狀,可以發(fā)現我國住房租賃市場上存在的一些問題。針對存在的問題,本文提出以下對策建議,以促進房屋租賃市場健康可持續(xù)發(fā)展。
1.加大適租房供應。從需求端看,75%以上的租客需要50平方米以下的中小戶型房屋[17],租客的主體農民工和大學畢業(yè)生的居住訴求較為簡單,對一居室、小戶型的房屋有較大需求;從供給端看,租賃平臺發(fā)布的房源大多數由居民個人供給,主要是多居室、大戶型的房屋,房地產開發(fā)商最初建造住房的目的并不是為了出租而是為了銷售,導致高檔住宅的比例不斷增加,而經濟適用房的比例逐年減少,有些房源為豪華裝修的獨棟別墅,但由于租金太高,不太契合大眾的需求。由此可見,當前住房租賃市場供給端與需求端不平衡,適租房供應不足。因此,政府應加大專項租賃用地的供給,鼓勵房地產開發(fā)商在產業(yè)園或辦公樓附近建造以租賃為主的樓盤,設計契合市場需求的戶型,從而更好地解決適租房短缺的問題。
2.培育和發(fā)展專業(yè)化房屋租賃托管機構。當前市場上大部分房源為個人出租,由于個人房東沒有時間精力向租客提供房屋裝修、家具修理等日常配套服務,這可能導致租金滯納、房屋損壞等各種租賃風險,也有些房產中介機構收取高額的中介費用并導致租金不得不上漲,造成租客不滿。隨意漲房租、二房東、黑中介等各種現象層出不窮,租客的權益未能得到有效保障。政府應培育從房屋建造到房屋裝修再到房屋出租各環(huán)節(jié)一體化的專業(yè)房屋租賃機構,規(guī)范房屋租賃流程,完善租賃行業(yè)的法律法規(guī),保障租客的權益,提高租賃市場的效率。
3.加大住房補貼政策力度。目前租賃市場的主力軍是大學畢業(yè)生,各地為了吸引人才,給予符合條件的高校畢業(yè)生租房補貼,為他們解決住房問題,提升城市的綜合競爭力。由于高房價的壓力,大多數高校畢業(yè)生會長時間地租房,如果政府提供住房補貼的時間太短,大學生工作還沒有穩(wěn)定下來就失去了補貼,更容易造成人才流失。此外,政府補貼的申請條件之一是應屆畢業(yè)生身份,這具有一定的局限性。政府應加大住房補貼力度,如放寬補貼的申請條件、延長補貼時限等,使更多的大學生享受住房補貼政策帶來的優(yōu)惠。
本文運用詞云分析、聚類分析和關聯規(guī)則分析等數據挖掘技術,對我國一線及新一線代表城市住房租賃市場供給現狀進行了深入研究,結合當前住房租賃市場需求狀況,綜合分析住房租賃市場存在的一些問題,并提出可行性建議。網站上發(fā)布的房源數據會定期清理,導致無法和往年數據進行對比,數據不夠全面,具有一定的局限性。后續(xù)研究會考慮獲取時間跨度更大的數據進行分析,挖掘其中重要的規(guī)律和價值,促使住房租賃市場健康可持續(xù)發(fā)展。