• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于大數(shù)據(jù)技術(shù)的房?jī)r(jià)數(shù)據(jù)采集及可視化分析應(yīng)用

    2021-09-05 05:05:01石慧陳培輝
    計(jì)算機(jī)時(shí)代 2021年8期
    關(guān)鍵詞:大數(shù)據(jù)分析可視化

    石慧 陳培輝

    摘 ?要: 在“房住不炒”定位下,住房選購(gòu)成了廣大市民比較關(guān)心的問(wèn)題。把大數(shù)據(jù)分析技術(shù)引入到房?jī)r(jià)分析,利用Scrapy爬蟲(chóng)框架對(duì)廣州房?jī)r(jià)線上數(shù)據(jù)的爬取,經(jīng)清洗和可視化,把影響房?jī)r(jià)的要素以可視化的形式予以呈現(xiàn)。與傳統(tǒng)方法相比,大數(shù)據(jù)分析技術(shù)在數(shù)據(jù)采集及可視化分析應(yīng)用方面優(yōu)勢(shì)明顯。

    關(guān)鍵詞: 大數(shù)據(jù)分析; 可視化; 爬蟲(chóng)框架; 房?jī)r(jià)數(shù)據(jù)

    中圖分類(lèi)號(hào):TP399 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ? 文章編號(hào):1006-8228(2021)08-71-05

    Housing price data collection and visualized analysis with big data technology

    Shi Hui, Chen Peihui

    (Department of Information Engineering, Shanwei Vocational and Technical College, Shanwei, Guangdong 516600, China)

    Abstract: Under the positioning of "housing without speculation", the purchase of housing has become a concern of the general public. This article introduces the big data analysis technology into the housing price analysis, and the online data of Guangzhou housing price is crawled by using the Scrapy crawler framework. After cleaning and visualization of online data, the factors affecting housing price are presented in the form of visualization. Compared with traditional methods, big data analysis technology has obvious advantages in applications of data collection and visualized analysis.

    Key words: big data analysis; visualization; crawler framework; housing price data

    0 引言

    網(wǎng)絡(luò)數(shù)據(jù)采集是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)[1]等技術(shù)從互聯(lián)網(wǎng)采集數(shù)據(jù)的過(guò)程。網(wǎng)絡(luò)數(shù)據(jù)采集和數(shù)據(jù)可視化具有廣泛的應(yīng)用范圍,涉及挖掘數(shù)據(jù)可視化、文本數(shù)據(jù)可視化、交通可視化、生物醫(yī)學(xué)可視化、網(wǎng)絡(luò)數(shù)據(jù)可視化等領(lǐng)域。閆志國(guó)[2]等通過(guò)爬取電商藥品數(shù)據(jù)并對(duì)數(shù)據(jù)可視化處理,為用戶在網(wǎng)上買(mǎi)藥提供參考。曹睿娟[3]等提出基于大數(shù)據(jù)的城市內(nèi)澇網(wǎng)絡(luò)輿情監(jiān)測(cè)及演化機(jī)理,為內(nèi)澇事件輿情應(yīng)對(duì)提供決策支持。于鳳芹[4]等借助動(dòng)態(tài)面板模型和多重中介效應(yīng)模型,研究金融科技與商業(yè)銀行盈利能力的關(guān)系及中介傳導(dǎo)機(jī)制。饒加旺[5]等構(gòu)建了智慧城市文本大數(shù)據(jù)與自動(dòng)分詞模型,指出當(dāng)前智慧城市建設(shè)中的問(wèn)題。

    有效地利用大數(shù)據(jù)技術(shù),深入挖掘互聯(lián)網(wǎng)中的數(shù)據(jù),可以為我們提供許多有趣的信息[6],也能為消費(fèi)者和商家等目標(biāo)用戶提供一定的參考意見(jiàn)和決策支持。

    1 基于大數(shù)據(jù)技術(shù)的房?jī)r(jià)分析方法

    本文主要利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)采集58同城網(wǎng)的廣州房?jī)r(jià)線上數(shù)據(jù),并挖掘和分析網(wǎng)絡(luò)數(shù)據(jù)中的信息。首先利用Xpath Helper獲取返回DOM樹(shù)形結(jié)構(gòu)的根節(jié)點(diǎn),再結(jié)合Python的Scrapy框架對(duì)廣州房?jī)r(jià)的線上網(wǎng)站的數(shù)據(jù)進(jìn)行爬取,之后調(diào)用Sqlalchemy引擎對(duì)所采集的數(shù)據(jù)進(jìn)行存取,接著調(diào)用Pandas庫(kù)和Numpy庫(kù)中的函數(shù),對(duì)數(shù)據(jù)進(jìn)行清洗,最后結(jié)合Matplotlib庫(kù)、Seaborn庫(kù)以及Pyecharts庫(kù)中的函數(shù)對(duì)清洗后的數(shù)據(jù)進(jìn)行直觀的可視化展示。

    1.1 Scrapy框架

    Scrapy爬蟲(chóng)框架是基于Python開(kāi)發(fā)的一個(gè)快速、高層次的屏幕抓取和Web抓取框架,Scrapy框架主要由調(diào)度器(Scheduler)、下載器(Downloader)、爬蟲(chóng)(Spider)和實(shí)體管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)五大組件構(gòu)成[7-8]。調(diào)度器抓取網(wǎng)頁(yè)網(wǎng)址或鏈接的優(yōu)先隊(duì)列,可以去除重復(fù)的網(wǎng)址,用戶根據(jù)自己的需求定制調(diào)度器。建立在Twisted高效異步模型上的下載器用于從網(wǎng)絡(luò)上高速下載資源。用戶通過(guò)定制正則表達(dá)式等語(yǔ)法定制自己的爬蟲(chóng),從特定的網(wǎng)頁(yè)中采集實(shí)體信息,也可以提取鏈接讓Scrapy繼續(xù)抓取下一個(gè)頁(yè)面。實(shí)體管道用于處理爬蟲(chóng)提取的實(shí)體,主要的功能是持久化實(shí)體、驗(yàn)證實(shí)體的有效性、清除不需要的信息[9-10]。

    2 房?jī)r(jià)數(shù)據(jù)采集和預(yù)處理

    2.1 房?jī)r(jià)數(shù)據(jù)采集

    前期調(diào)研階段,通過(guò)分析國(guó)內(nèi)主流房產(chǎn)網(wǎng)站和熱點(diǎn)大城市的網(wǎng)絡(luò)搜索熱度和權(quán)重,結(jié)合區(qū)域特點(diǎn),選擇58同城網(wǎng)的廣州房?jī)r(jià)數(shù)據(jù)為數(shù)據(jù)來(lái)源[11],具體信息包括戶型、面積、朝向、樓層、城區(qū)、小區(qū)名、總價(jià)、單價(jià)等[12]。

    房?jī)r(jià)數(shù)據(jù)采集過(guò)程:查找房?jī)r(jià)具體內(nèi)容、檢驗(yàn)爬取內(nèi)容、查詢(xún)Headers信息、數(shù)據(jù)存儲(chǔ)調(diào)用等。①房?jī)r(jià)具體信息的查找:進(jìn)入網(wǎng)站,通過(guò)頁(yè)面的Html源碼查看特定信息標(biāo)簽,根據(jù)標(biāo)簽信息爬取特定的數(shù)據(jù)。數(shù)據(jù)爬取過(guò)程中需要理清標(biāo)簽之間的嵌套關(guān)系,從首頁(yè)面到二級(jí)子頁(yè)面,依次往下涉及的標(biāo)簽種類(lèi)有整體框架標(biāo)簽、下級(jí)標(biāo)簽、具體內(nèi)容的標(biāo)簽等。②利用XPath Helper插件獲取爬取內(nèi)容的標(biāo)簽層級(jí),檢驗(yàn)所采集的數(shù)據(jù)是否出現(xiàn)錯(cuò)誤。③HTTP請(qǐng)求頭Headers信息的查詢(xún):考慮到很多網(wǎng)站設(shè)置了反爬蟲(chóng)機(jī)制,在合法合規(guī)前提下通過(guò)在Headers信息中添加代理IP以達(dá)到反爬的目的。④利用Sqlalchemy引擎實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)和調(diào)用:數(shù)據(jù)庫(kù)中為了防止字段亂碼,要把表中的字段改成英文的形式,利用字典的形式更換成英文字段,然后把表插入數(shù)據(jù)庫(kù)中。

    2.2 房?jī)r(jià)數(shù)據(jù)清洗

    房?jī)r(jià)數(shù)據(jù)清洗階段主要操作包括:缺失值檢測(cè)、數(shù)據(jù)去重、數(shù)據(jù)格式統(tǒng)一、過(guò)濾模糊數(shù)據(jù)等步驟。

    由于爬取的信息沒(méi)有缺失值,所以只進(jìn)行了全面的檢測(cè),分別查看了含缺失值的列。數(shù)據(jù)去重階段通過(guò)判斷重復(fù)數(shù)據(jù),并統(tǒng)計(jì)重復(fù)數(shù)據(jù)的數(shù)目,查看重復(fù)的數(shù)據(jù)。為了檢驗(yàn)重復(fù)的數(shù)據(jù)是否準(zhǔn)確,可以隨機(jī)選擇一個(gè)標(biāo)題,用query()函數(shù)進(jìn)行選擇行操作,使用count()方法,判斷去除重復(fù)項(xiàng)的數(shù)據(jù)表剩下的數(shù)據(jù)量,通過(guò)調(diào)用pandas庫(kù)的drop_duplicates()函數(shù)執(zhí)行對(duì)數(shù)據(jù)的去重操作。做重復(fù)數(shù)據(jù)的去除時(shí)可以重新使用一張數(shù)據(jù)表,再次進(jìn)行去重操作。

    數(shù)據(jù)格式統(tǒng)一:需要去重單位字段,再把去重后的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中。表1顯示的是去重后存放在數(shù)據(jù)庫(kù)中的部分?jǐn)?shù)據(jù)結(jié)果。

    過(guò)濾模糊數(shù)據(jù)主要是通過(guò)調(diào)用query()函數(shù)選取非模糊的數(shù)據(jù)信息來(lái)實(shí)現(xiàn)模糊信息過(guò)濾。由于數(shù)據(jù)中房子的地址包括了廣州周邊的,對(duì)研究每個(gè)地區(qū)房子的價(jià)格沒(méi)有太大的價(jià)值,需要去除這部分冗余信息。

    3 房?jī)r(jià)數(shù)據(jù)分析和可視化

    3.1 房?jī)r(jià)數(shù)據(jù)的分組和透視

    房?jī)r(jià)數(shù)據(jù)分組是根據(jù)影響房?jī)r(jià)的要素對(duì)房?jī)r(jià)數(shù)據(jù)進(jìn)行聚類(lèi)分組,以便進(jìn)一步分析各要素對(duì)房?jī)r(jià)的影響。不同的購(gòu)房者對(duì)房子具體需求不同,在對(duì)房?jī)r(jià)數(shù)據(jù)分組時(shí)要對(duì)不同要素做具體分析,需要把數(shù)據(jù)重新組合成更直觀的列表形式來(lái)表達(dá)。對(duì)廣州各地區(qū)進(jìn)行分組,查看每個(gè)地區(qū)可售房源的數(shù)量,分析得出,番禺出售的房子數(shù)量比較多,其次分別是天河、花都、黃埔、增城。再對(duì)各地區(qū)的數(shù)據(jù)取均值,最后對(duì)價(jià)格排序。

    房?jī)r(jià)數(shù)據(jù)透視用到pandas庫(kù)的pivot_table函數(shù),以地區(qū)和朝向進(jìn)行分組查看面積和價(jià)格,對(duì)每個(gè)地區(qū)房?jī)r(jià)最高的小區(qū)進(jìn)行數(shù)據(jù)透視,并按房?jī)r(jià)進(jìn)行降序,結(jié)果如表2所示。

    3.2 房?jī)r(jià)數(shù)據(jù)的可視化及分析

    房?jī)r(jià)的數(shù)據(jù)可視化是在房?jī)r(jià)數(shù)據(jù)分組或聚合之后的可視化,對(duì)廣州每個(gè)地區(qū)的房?jī)r(jià)生成箱型圖,分析各地區(qū)價(jià)格情況,如圖2所示。分析得到:廣州各地區(qū)房?jī)r(jià)的差距比較大,在2020年上半年中,因?yàn)橐咔榈脑?,廣州各地區(qū)經(jīng)濟(jì)受到不同程度的影響[13],只有天河、越秀和南沙GDP屬于正增長(zhǎng)狀態(tài),并且平均房?jī)r(jià)比較高的各地區(qū)同比增長(zhǎng)率平均都在-1.0%左右。GDP最高的天河區(qū)房?jī)r(jià)最高,如果單純只是想在廣州買(mǎi)到房,不考慮其他因素,可以選擇花都區(qū)、增城區(qū)、南沙區(qū)、從化區(qū),這幾個(gè)區(qū)的房?jī)r(jià)相對(duì)穩(wěn)定,均價(jià)在1.5萬(wàn)到2.5萬(wàn)之間,其余區(qū)之間的價(jià)格差距明顯比較大,差距幾乎有1萬(wàn)多。

    如果只關(guān)注價(jià)格信息,得到的信息比較片面,需要把朝向、價(jià)格、密集情況結(jié)合起來(lái)。以朝向?yàn)槔?,把注重房子朝向的信息綜合作為參考,圖3、圖4顯示其中朝南和朝東方向受到購(gòu)房者關(guān)注度情況。

    圖中x軸為地區(qū),y軸為價(jià)格,每個(gè)朝向?yàn)橹黝},分析得到:在廣州相對(duì)關(guān)注比較多的朝向是南、南北、東南,而東西、西北受關(guān)注較少,其中東北朝向集中分布在天河、海珠、番禺,根據(jù)散點(diǎn)分布,番禺價(jià)位較低。如果從地區(qū)經(jīng)濟(jì)狀況看,天河、海珠,這兩個(gè)地區(qū)在高價(jià)位上的變動(dòng)不大,但海珠地區(qū)散點(diǎn)密集高于天河,如果想要更多的朝向選擇,可以考慮海珠地區(qū)。朝北的房子分布比較均衡,且經(jīng)濟(jì)比較發(fā)達(dá)的地區(qū)普遍價(jià)位較高,東朝向的房子分布較均勻,經(jīng)濟(jì)力量最強(qiáng)的天河區(qū)依然房?jī)r(jià)最高。

    圖5、圖6分別將廣州總體房?jī)r(jià)以曲線圖和地圖形式展現(xiàn)出來(lái),可以直觀判斷出廣州房?jī)r(jià)的狀況,幫助購(gòu)房者根據(jù)需求在現(xiàn)波動(dòng)范圍內(nèi)合理決策。

    4 結(jié)論

    本文利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)采集58同城網(wǎng)的廣州房?jī)r(jià)數(shù)據(jù),通過(guò)對(duì)數(shù)據(jù)進(jìn)行爬取、存取、清洗和可視化,把影響房?jī)r(jià)的要素以一種合理的可視化的形式加以呈現(xiàn)。相比傳統(tǒng)分析方法,大數(shù)據(jù)分析技術(shù)在數(shù)據(jù)采集、數(shù)據(jù)挖掘和可視化應(yīng)用方面優(yōu)勢(shì)明顯。

    參考文獻(xiàn)(References):

    [1] 潘曉英,陳柳等.主題爬蟲(chóng)技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2020.37(4):961-965

    [2] 閆志國(guó),宛楠等.基于Scrapy爬取電商藥品數(shù)據(jù)及數(shù)據(jù)可視化分析處理[J].輕工科技,2021.37(3):98-100

    [3] 曹睿娟,姜仁貴.基于大數(shù)據(jù)的城市內(nèi)澇網(wǎng)絡(luò)輿情監(jiān)測(cè)及演化機(jī)理[J].西安理工大學(xué)學(xué)報(bào),2020.36(2):151-158

    [4] 于鳳芹,于千惠.金融科技影響商業(yè)銀行盈利能力的機(jī)制分析[J].金融與經(jīng)濟(jì),2021.2:45-62

    [5] 饒加旺,王勇,馬榮華.文本大數(shù)據(jù)的智慧城市研究與分析[J].測(cè)繪科學(xué),2020.45(7):174-184

    [6] 夏秋月,路婕等.大數(shù)據(jù)背景下鄭州市中原區(qū)二手房特征價(jià)格研究,2020.39(1):83-88

    [7] Shemshadi A, Sheng Q Z, Qin Y. ThingSeek: a crawler

    and search engine for the internet of things//Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. New York,2016:1149-1152

    [8] 曾健榮,張仰森,鄭佳等.面向多數(shù)據(jù)源的網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)技術(shù)及應(yīng)用[J].計(jì)算機(jī)科學(xué),2019.46(5):304-309

    [9] 樊宇豪.基于Scrapy的分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2018.

    [10] 李曉煬.Scrapy在氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控系統(tǒng)中獲取第三方數(shù)據(jù)的應(yīng)用[J].無(wú)線互聯(lián)科技,2019.16(21):3-4

    [11] 王康,李含偉.自媒體時(shí)代的企業(yè)網(wǎng)絡(luò)輿情應(yīng)對(duì)策略研究——基于上市公司百度指數(shù)的研究[J].情報(bào)科學(xué),2018.36(1):113-117

    [12] 瞿詩(shī)進(jìn),胡守庚,李全峰,等.城市住宅地價(jià)影響因素的定量識(shí)別與時(shí)空異質(zhì)性——以武漢市為例[J].地理科學(xué)進(jìn)展,2018.37(10):71-80

    [13] 陳憂子.2020年GDP:天河黃埔越秀總量居前,番禺反超白

    云重回第四[N].廣州日?qǐng)?bào),2021.3.24.

    收稿日期:2021-04-06

    基金項(xiàng)目:2020年度廣東普通高校創(chuàng)新團(tuán)隊(duì)項(xiàng)目“人工智能技術(shù)與應(yīng)用創(chuàng)新團(tuán)隊(duì)”(2020KCXTD045); 2020年度廣東省高職院校高水平專(zhuān)業(yè)群建設(shè)項(xiàng)目“計(jì)算機(jī)應(yīng)用技術(shù)專(zhuān)業(yè)群”(GSPZYQ2020076)

    作者簡(jiǎn)介:石慧(1983-),女,湖北咸寧人,碩士研究生,講師,主要研究方向:大數(shù)據(jù)技術(shù)、人工智能技術(shù)。

    猜你喜歡
    大數(shù)據(jù)分析可視化
    自然資源可視化決策系統(tǒng)
    思維可視化
    師道·教研(2022年1期)2022-03-12 05:46:47
    基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
    云南化工(2021年8期)2021-12-21 06:37:54
    自然資源可視化決策系統(tǒng)
    基于CGAL和OpenGL的海底地形三維可視化
    “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
    大數(shù)據(jù)分析對(duì)提高教學(xué)管理質(zhì)量的作用
    亞太教育(2016年36期)2017-01-17 17:26:50
    基于大數(shù)據(jù)分析的電力通信設(shè)備檢修影響業(yè)務(wù)自動(dòng)分析平臺(tái)研究與應(yīng)用
    面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
    面向大數(shù)據(jù)分析的信息管理實(shí)踐教學(xué)體系構(gòu)建
    遵义市| 拜泉县| 新乡县| 十堰市| 奈曼旗| 新绛县| 罗源县| 平乐县| 池州市| 红桥区| 桃源县| 海淀区| 鸡泽县| 东安县| 贵德县| 犍为县| 库车县| 桃园县| 达尔| 静海县| 手游| 清新县| 桑日县| 瑞丽市| 阳朔县| 屏山县| 方城县| 潜江市| 从化市| 洛宁县| 三明市| 勐海县| 公安县| 宜春市| 满城县| 砚山县| 郯城县| 唐河县| 万源市| 深泽县| 小金县|