• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      合肥市房地產(chǎn)輿情數(shù)據(jù)平臺(tái)設(shè)計(jì)與應(yīng)用

      2018-10-19 07:34:42陳靜宇
      關(guān)鍵詞:樓盤(pán)數(shù)據(jù)倉(cāng)庫(kù)分詞

      陳靜宇,劉 濤

      (1.安徽財(cái)經(jīng)大學(xué)文學(xué)院,安徽 蚌埠233030;2.安徽大學(xué)藝術(shù)與傳媒學(xué)院新聞播音系,安徽 合肥 230011)

      互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)高度發(fā)達(dá)催生了大數(shù)據(jù)時(shí)代的到來(lái),目前基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情研究通常是利用開(kāi)源框架工具和開(kāi)源數(shù)據(jù),主要有垂直搜索引擎、網(wǎng)絡(luò)社交媒體以及各類(lèi)專(zhuān)業(yè)數(shù)據(jù)庫(kù),實(shí)時(shí)采集文本和圖像信息,并用搜索框架搭建一套檢索系統(tǒng),實(shí)現(xiàn)信息的檢索和分類(lèi),最后通過(guò)超算服務(wù)器并輔以業(yè)內(nèi)的專(zhuān)家研判,獲得有價(jià)值的信息,以精確描繪現(xiàn)狀,預(yù)測(cè)社會(huì)輿論的趨勢(shì)、預(yù)測(cè)未來(lái),從而指導(dǎo)決策和具體方案的實(shí)施.由此,大數(shù)據(jù)輿情研判潛在的價(jià)值也越來(lái)越受到專(zhuān)業(yè)人士及政府管理部門(mén)的重視.

      劉偉祥和崔林山[1]對(duì)公安交通管理大數(shù)據(jù)研判分析平臺(tái)進(jìn)行研究,更好地整合了行業(yè)信息資源,提高數(shù)據(jù)統(tǒng)計(jì)分析能力和效率.鄒婷[2]提出智能交通卡口數(shù)據(jù)研判分析系統(tǒng),該系統(tǒng)對(duì)卡口過(guò)車(chē)數(shù)據(jù)進(jìn)行分析處理,提煉分析模型,從而提高辦案效率.丁曉蔚等[3]提出大數(shù)據(jù)背景下重大公共危機(jī)事件輿情研判,并以2015年天津大爆炸事件為例分析了輿情研判的意義.馬丁等[4]對(duì)網(wǎng)絡(luò)犯罪原始電子數(shù)據(jù)研判系統(tǒng)開(kāi)展研究,進(jìn)行有效性和真實(shí)性的研判,為偵查人員提供技術(shù)支持.呂平[5]對(duì)農(nóng)信社歷史數(shù)據(jù)及實(shí)際經(jīng)營(yíng)情況進(jìn)行分析,通過(guò)系統(tǒng)平臺(tái)對(duì)業(yè)務(wù)批量處理,完成任務(wù)的監(jiān)控和統(tǒng)計(jì).房地產(chǎn)業(yè)與大數(shù)據(jù)有千絲萬(wàn)縷的聯(lián)系,然而這方面的研究工作亟待加強(qiáng).本文以合肥市房地產(chǎn)業(yè)數(shù)據(jù)、輿情監(jiān)管為例,著重分析當(dāng)前合肥房地產(chǎn)業(yè)大數(shù)據(jù)的平臺(tái)建設(shè)、數(shù)據(jù)儲(chǔ)存、數(shù)據(jù)分析以及研判路徑,以帶動(dòng)更多行業(yè)人士和研究者關(guān)注,推動(dòng)大數(shù)據(jù)在房地產(chǎn)業(yè)方面的應(yīng)用和發(fā)展.

      1 合肥市房地產(chǎn)數(shù)據(jù)平臺(tái)建設(shè)的必要性

      合肥是安徽省省會(huì)城市,2016年房?jī)r(jià)年度漲幅高達(dá)48.4%,位居全球城市房?jī)r(jià)漲幅第一.城市的高速發(fā)展、輻聚效應(yīng)和外來(lái)人口的迅速增加,促進(jìn)了合肥房地產(chǎn)業(yè)的繁榮.據(jù)統(tǒng)計(jì),從2009到2014年合肥增加人口超過(guò) 250 萬(wàn),增加比例約為50% .合肥常住人口從2011年的752萬(wàn)增長(zhǎng)到2015年末的779萬(wàn).合肥市統(tǒng)計(jì)局統(tǒng)計(jì)顯示,2016年末合肥人口786.9萬(wàn),2015年在合肥的購(gòu)房人群中,省外的比例為5.8%,合肥本地戶籍購(gòu)房比例為35.8%,來(lái)自省內(nèi)其他城市的比例為58.4%.隨著合肥市房地產(chǎn)行業(yè)渠道規(guī)模的不斷擴(kuò)大,業(yè)務(wù)量不斷增長(zhǎng),房地產(chǎn)企業(yè)自身的數(shù)據(jù)已很難支撐需求.這就需要通過(guò)建立房地產(chǎn)數(shù)據(jù)平臺(tái)及時(shí)加快對(duì)房產(chǎn)數(shù)據(jù)的存儲(chǔ)、管理和分析,實(shí)現(xiàn)數(shù)據(jù)共享,提高政府相關(guān)部門(mén)對(duì)房地產(chǎn)業(yè)數(shù)據(jù)的利用效率,針對(duì)房地產(chǎn)運(yùn)行情況有效做好政策調(diào)整等措施.因此,合肥房產(chǎn)輿情數(shù)據(jù)平臺(tái)的建設(shè)勢(shì)在必行.

      2 合肥房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立和設(shè)計(jì)

      2.1 房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì)

      合肥市房地產(chǎn)輿情分析系統(tǒng)信息源涵蓋了論壇、微博、新聞網(wǎng)站、博客、微信、手機(jī)客戶端等,系統(tǒng)對(duì)采集到的網(wǎng)絡(luò)房地產(chǎn)信息進(jìn)行數(shù)據(jù)分類(lèi),并利用情感正負(fù)面分析技術(shù),幫助用戶真正的掌握互聯(lián)網(wǎng)精準(zhǔn)的、即時(shí)的、全面的房地產(chǎn)輿情信息,從而實(shí)現(xiàn)輿情的及時(shí)發(fā)現(xiàn)和應(yīng)對(duì)處理.房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì)主要包括六個(gè)部分,分別是數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)存儲(chǔ)、管理層、數(shù)據(jù)服務(wù)層、數(shù)據(jù)應(yīng)用層以及底層數(shù)據(jù)處理工具,系統(tǒng)架構(gòu)圖如圖1所示.

      圖1 數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)圖

      (1)數(shù)據(jù)采集層:由于房地產(chǎn)數(shù)據(jù)源包羅萬(wàn)象,而不同的數(shù)據(jù)源會(huì)存在形式多樣不合法、不統(tǒng)一等,因此需要配置各種不同的規(guī)則模板,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)公開(kāi)的信息進(jìn)行采集.

      圖2 數(shù)據(jù)獲取層結(jié)構(gòu)圖

      (2)數(shù)據(jù)處理層:針對(duì)數(shù)據(jù)采集層抓取到的數(shù)據(jù),利用Jsoup、XPath、正則等網(wǎng)頁(yè)解析工具將源數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的抽取,同時(shí)將源數(shù)據(jù)統(tǒng)一存放于 HDFS(分布式文件系統(tǒng))中,然后再映射到數(shù)據(jù)倉(cāng)庫(kù),如圖2所示:

      (3)數(shù)據(jù)存儲(chǔ)、管理層:由元數(shù)據(jù)和外源數(shù)據(jù)兩個(gè)部分組成.在數(shù)據(jù)存儲(chǔ)、管理層中存儲(chǔ)著房地產(chǎn)行業(yè)的主要內(nèi)容,房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)管理著海量的房地產(chǎn)的元數(shù)據(jù)和外部收集的歷史數(shù)據(jù),并且還具備海量數(shù)據(jù)的檢索、統(tǒng)計(jì)和分析等多種應(yīng)用功能,如圖3所示:

      圖3 數(shù)據(jù)存儲(chǔ)層結(jié)構(gòu)

      元數(shù)據(jù)管理,元數(shù)據(jù)能夠幫助相關(guān)人員便捷快速的找到他們所需要的房地產(chǎn)相關(guān)的數(shù)據(jù).可分為兩類(lèi),分別是業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù),其中業(yè)務(wù)元數(shù)據(jù)描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)業(yè)務(wù)層面,能夠讓無(wú)計(jì)算機(jī)背景的業(yè)務(wù)人員清晰其表述的意義;另外一種技術(shù)元數(shù)據(jù)則是系統(tǒng)中的一些技術(shù)細(xì)節(jié)數(shù)據(jù),便于開(kāi)發(fā)者管理和使用數(shù)據(jù)倉(cāng)庫(kù).

      (4)數(shù)據(jù)服務(wù)層:主要功能是給上層的數(shù)據(jù)應(yīng)用層提供不同數(shù)據(jù)接口.在此利用一系列的自然語(yǔ)言處理技術(shù),如中文分詞、情感分析、文本分類(lèi)等.

      (5)數(shù)據(jù)應(yīng)用層:直接提供和用戶交互的界面層,將系統(tǒng)存儲(chǔ)的海量房地產(chǎn)數(shù)據(jù)清晰歸類(lèi)地呈現(xiàn)在用戶眼前.可以幫助相關(guān)人員便捷、高效地進(jìn)行輿情信息數(shù)據(jù)統(tǒng)計(jì)和分析,從而完成后臺(tái)數(shù)據(jù)到前端數(shù)據(jù)的呈現(xiàn),基于分布式存儲(chǔ)的數(shù)據(jù)應(yīng)用結(jié)構(gòu),如圖4所示:

      圖4 數(shù)據(jù)應(yīng)用層結(jié)構(gòu)圖

      (6)底層數(shù)據(jù)處理工具:底層數(shù)據(jù)處理主要是基于一些信息解析工具,如Jsoup、Xpath、正則等,對(duì)數(shù)據(jù)進(jìn)行精細(xì)化抽取,并將抽取后的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,然后把存儲(chǔ)的數(shù)據(jù)同步遷移到MySQL中,同時(shí)也把處理過(guò)的數(shù)據(jù)的MD5值存儲(chǔ)在 Mongodb中便于信息處理中去重過(guò)濾.

      2.2 功能需求

      針對(duì)上述需求分析以及概述情況,建立合肥市房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)需實(shí)現(xiàn)的功能:

      (1)合肥市房地產(chǎn)分類(lèi)搜索功能,如按地理位置、房產(chǎn)類(lèi)型、房產(chǎn)戶型等分類(lèi)信息進(jìn)行有效檢索;

      (2)合肥市房地產(chǎn)數(shù)據(jù)導(dǎo)入報(bào)表功能;

      (3)合肥市房地產(chǎn)數(shù)據(jù)智能瀏覽和分析功能;

      (4)合肥市房地產(chǎn)數(shù)據(jù)可視化展示平臺(tái)功能.后續(xù)會(huì)進(jìn)行相應(yīng)的功能介紹及數(shù)據(jù)呈現(xiàn)方式.

      3 合肥房產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)多維模型設(shè)計(jì)與建立

      3.1 多維模型的基本概念和特點(diǎn)

      多維模型是一種針對(duì)具有多維結(jié)構(gòu)的數(shù)據(jù)建模技術(shù).在實(shí)際生活中,事物之間的關(guān)聯(lián)通常都是多種的,如房地產(chǎn)樓盤(pán)銷(xiāo)售中相關(guān)聯(lián)的有樓盤(pán)所在地域、樓盤(pán)類(lèi)型、開(kāi)發(fā)商、時(shí)間等.而多維模型就是基于此概念,從多層次、多角度地去呈現(xiàn)出數(shù)據(jù)間的這種聯(lián)系.首先對(duì)相關(guān)數(shù)據(jù)進(jìn)行規(guī)范的整理,抽取出中間的屬性信息并進(jìn)行分類(lèi)和重組,然后對(duì)這些重組后的數(shù)據(jù)進(jìn)行多維模型結(jié)構(gòu)的建立,形成一個(gè)直觀有效的數(shù)據(jù)多維視圖,輔助使用者進(jìn)行決策分析.

      在數(shù)據(jù)倉(cāng)庫(kù)多維模型中,每一個(gè)對(duì)象都是由一系列的屬性來(lái)刻畫(huà):

      事實(shí)(fact):指的是目標(biāo)數(shù)據(jù),一般利用數(shù)據(jù)屬性對(duì)此數(shù)據(jù)進(jìn)行量化的分析描述.

      度量值(measure):事實(shí)的量化屬性,按照標(biāo)準(zhǔn)劃分,一般包含可加的、不可加的和半可加的三種.

      維(dimension):對(duì)事實(shí)進(jìn)行分析的角度,維度性規(guī)定了維的所有具體特征和層次.如時(shí)間維度可劃分為年、季度、月等不同的層次.

      維成員(member):指的是維中的值.對(duì)多層維度而言,則是指在不同層次維上取值的組合.如在地理維上,“某省”、“某市”、“某區(qū)”等都是維成員.

      立方體(cube):數(shù)據(jù)的多維矩陣,將數(shù)據(jù)組織并匯總到一個(gè)由一組維度和度量值所定義的多維結(jié)構(gòu)中.如圖5所示的四維樓盤(pán)銷(xiāo)售模式,呈現(xiàn)出了房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)數(shù)據(jù)立方體和其中的各個(gè)維.這是一個(gè)經(jīng)典的多維模型,形象地表達(dá)出數(shù)據(jù)立方體的目的就是能夠沿著不同維度,如開(kāi)發(fā)商、樓盤(pán)類(lèi)型、所在地域、時(shí)間、維來(lái)對(duì)度量值進(jìn)行分析.

      圖5 四維樓盤(pán)銷(xiāo)售模型

      通常情況,維之間的事實(shí)都是多對(duì)多的關(guān)系,而事實(shí)和具體的維則是多對(duì)一的關(guān)系.如在事實(shí)數(shù)據(jù)中,一個(gè)事實(shí)僅對(duì)應(yīng)一個(gè)開(kāi)發(fā)商在某一個(gè)月某一個(gè)地域銷(xiāo)售樓盤(pán)的數(shù)量,而銷(xiāo)售樓盤(pán)的數(shù)量,也可能僅對(duì)應(yīng)銷(xiāo)售時(shí)間、銷(xiāo)售樓盤(pán)地域等.在一些情況下,事實(shí)與特定維間是有多對(duì)多的關(guān)系,在地域維上,銷(xiāo)售意向事實(shí)和樓盤(pán)類(lèi)型形成了多對(duì)多的關(guān)系,即一個(gè)樓盤(pán)類(lèi)型可被多個(gè)客戶選定,一個(gè)客戶也可以意向多個(gè)樓盤(pán)類(lèi)型.在定義出多維模型結(jié)構(gòu)的基礎(chǔ)上可清晰地定義出用戶需求,基于這些需求數(shù)據(jù),利用OLAP技術(shù),用戶可以進(jìn)行更深入的分析工作.

      3.2 合肥房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)多維模型的設(shè)計(jì)

      目前業(yè)內(nèi)最流行的數(shù)據(jù)倉(cāng)庫(kù)的模型是多維模型,而對(duì)多維數(shù)據(jù)模型進(jìn)行分類(lèi)的,最典型的包括三種,分別是星型模型、雪花模型和星系模型.最常見(jiàn)的模型是星型模型,它的數(shù)據(jù)倉(cāng)庫(kù)包含了一個(gè)海量無(wú)冗余的數(shù)據(jù)事實(shí)表和一組小的附屬維表;星型模型進(jìn)一步延伸后則是雪花模型,是在星型的基礎(chǔ)上將維表中可分解的數(shù)據(jù)再繼續(xù)分解到下一層表中;而針對(duì)由多個(gè)事實(shí)表組成的復(fù)雜數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),上述兩種系統(tǒng)并不能很好地支持,所以有了第三種模型,即星系模型.星系模型是一種適用于復(fù)雜數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),由多個(gè)事實(shí)表組成,描述我們需要的數(shù)據(jù),這些事實(shí)表分為特有維表和共享維表.

      由于房地產(chǎn)數(shù)據(jù)涉及到樓盤(pán)信息、房屋信息、客戶信息等,內(nèi)容紛繁復(fù)雜,這些數(shù)據(jù)結(jié)構(gòu)并不太一致,需要用不同的事實(shí)表來(lái)進(jìn)行描述,并且這些事實(shí)表具有錯(cuò)綜復(fù)雜的關(guān)系,所以選擇星系模型為房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)建模,如圖6.

      首先整個(gè)房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)的模型結(jié)構(gòu)需要設(shè)計(jì)出來(lái),然后適當(dāng)?shù)剡x擇房地產(chǎn)數(shù)據(jù)的一個(gè)子集,如樓盤(pán)信息數(shù)據(jù),作為設(shè)計(jì)案例的數(shù)據(jù)基礎(chǔ),在此基礎(chǔ)上構(gòu)建房地產(chǎn)數(shù)據(jù)的倉(cāng)庫(kù)模型.因?yàn)樵跇潜P(pán)數(shù)據(jù)中提取的維度通常只是多個(gè)維度中的一個(gè),所以整個(gè)樓盤(pán)數(shù)據(jù)倉(cāng)庫(kù)模型是一個(gè)更高維的模型.

      圖6 房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)星系模型

      針對(duì)上述星系模型,定義立方體和維可使用數(shù)據(jù)挖掘查詢語(yǔ)言DMQL來(lái)實(shí)現(xiàn).

      立方體的定義形式如下:

      define cube []:.

      維定義形式如下:

      define dimension as ().

      使用原語(yǔ)來(lái)形式化地描述樓盤(pán)、房屋、客戶數(shù)據(jù)倉(cāng)庫(kù),如圖7、8、9所示.

      圖7 樓盤(pán)數(shù)據(jù)倉(cāng)庫(kù)星型模型

      圖8 房屋數(shù)據(jù)倉(cāng)庫(kù)星型模型

      圖9 客戶數(shù)據(jù)倉(cāng)庫(kù)星型模型

      4 房產(chǎn)數(shù)據(jù)智能瀏覽和分析

      通過(guò)建立房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)以及多維模型的分析,可以讓管理人員輕松地從各種視角智能瀏覽查看和分析房地產(chǎn)歷史數(shù)據(jù),且通過(guò)MySQL庫(kù)可以對(duì)房地產(chǎn)樓盤(pán)數(shù)據(jù)進(jìn)行優(yōu)化存儲(chǔ)、維護(hù)、檢索數(shù)據(jù)等,在最大程度上實(shí)現(xiàn)合肥市房地產(chǎn)輿情信息開(kāi)放數(shù)據(jù)的共享,如圖10所示.

      圖10 房地產(chǎn)數(shù)據(jù)智能瀏覽結(jié)構(gòu)圖

      以建立房地產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ),通過(guò)對(duì)數(shù)據(jù)的搜集、整理、匯總,利用統(tǒng)計(jì)分析手段實(shí)現(xiàn)對(duì)房地產(chǎn)輿情的長(zhǎng)效預(yù)警,方便用戶對(duì)房屋價(jià)格、預(yù)期和區(qū)域偏好等條件進(jìn)行選擇,根據(jù)用戶設(shè)置的偏好系統(tǒng)將自動(dòng)篩選符合的房產(chǎn)輿情信息,并實(shí)現(xiàn)與用戶智能交互,以滿足消費(fèi)者對(duì)房地產(chǎn)輿情信息的需求.

      房地產(chǎn)輿情分析涉及的數(shù)據(jù)分析技術(shù)主要包括文本分類(lèi)與聚類(lèi)、自動(dòng)文摘、話題發(fā)現(xiàn)與跟蹤分析及文本傾向性分析等.

      上述房地產(chǎn)數(shù)據(jù)以及統(tǒng)計(jì)分析工具是基于HanLP自然語(yǔ)言技術(shù)進(jìn)行處理,且由一系列模型與算法組成的,主要包括:中文分詞、CRF分詞、用戶自定義詞典、TextRank關(guān)鍵詞提取等技術(shù),以下主要介紹 CRF分詞模型以及基于隱馬爾可夫模型中的短語(yǔ)提取分詞設(shè)計(jì),后續(xù)會(huì)基于該模型進(jìn)行分析房地產(chǎn)相關(guān)數(shù)據(jù),并在前臺(tái)平臺(tái)展示以及智能瀏覽:

      (1)CRF把分詞當(dāng)作字的詞位分類(lèi)問(wèn)題,通常定義字的詞位信息如下:

      (2)CRF分詞的步驟是先對(duì)詞位進(jìn)行標(biāo)注,然后將標(biāo)記為B和標(biāo)記E之間的字,以及標(biāo)記為S的單字構(gòu)成分詞.

      (3)CRF分詞實(shí)例:

      (4)用戶自定義詞典

      CustomDictionary是一份用戶自定義的全局的通用詞典,可以根據(jù)具體需求進(jìn)行增刪改,可影響所有的分詞器.另外可以在任何分詞器中關(guān)閉它.而且該詞典可通過(guò)代碼進(jìn)行動(dòng)態(tài)增刪改,不會(huì)對(duì)詞典文件產(chǎn)生影響.CustomDictionary主詞典文本默認(rèn)路徑是data/dictionary/custom/CustomDictionary.txt,用戶可以在此增加自己的詞語(yǔ)(不推薦);如有需求用戶也可以單獨(dú)新建立一個(gè)文件,并通過(guò)設(shè)置默認(rèn)詞典的路徑CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt;我的詞典.txt;來(lái)追加詞典,以此來(lái)獲取房地產(chǎn)相關(guān)的信息,供前臺(tái)展示.

      (5)TextRank算法

      其原理就是從文章中自動(dòng)抽取關(guān)鍵句,然后根據(jù)規(guī)定好的一個(gè)權(quán)重評(píng)分標(biāo)準(zhǔn),給每個(gè)關(guān)鍵句進(jìn)行打分,并列出排名靠前的句子,生成短語(yǔ)或關(guān)鍵句云圖,如下算法公式:

      該公式中,左邊WS(Vi)表示單獨(dú)一個(gè)句子的權(quán)重值,Vi表示某個(gè)句子;公式右側(cè)的求和表達(dá)式的意思是每個(gè)相鄰句子對(duì)本句子的貢獻(xiàn)程度,d表示阻尼系數(shù),是用來(lái)克服這個(gè)公式中“d *”后面的部分的固有缺陷用的,Vj表示鏈接到Vi的句子(即Vi的入鏈),In(Vi)表示句子Vi的所有入鏈的集合,Out(Vj)表示句子,Wji是表示兩個(gè)句子間的相似程度大小,而WS(Vj)代表上次迭代j的權(quán)重.此處相鄰句子和提取關(guān)鍵字時(shí)候是完全不同的,在此默認(rèn)所有句子之間都是相鄰關(guān)系,不再提取窗口.

      5 房產(chǎn)數(shù)據(jù)展示前臺(tái)平臺(tái)

      (1)基于設(shè)置合肥市房地產(chǎn)關(guān)鍵詞的媒體分布統(tǒng)計(jì).地域關(guān)鍵詞:“合肥 蜀山區(qū) 瑤海區(qū) 廬陽(yáng)區(qū) 高新區(qū) 濱湖區(qū) 政務(wù)區(qū)”.主題事件關(guān)鍵詞:“限購(gòu) 限貸 購(gòu)房 樓盤(pán) 戶型 房?jī)r(jià) 哄抬 哄搶 不動(dòng)產(chǎn) 房產(chǎn) 房產(chǎn)調(diào)控 過(guò)戶費(fèi) 房產(chǎn)證 房產(chǎn)面積 限價(jià)”. 根據(jù)主題事件關(guān)鍵詞進(jìn)行規(guī)則性匹配分析,某條信息包含地域關(guān)鍵詞和主題事件關(guān)鍵詞,則表示該房地產(chǎn)在媒體中的輿情信息可餅狀圖形式呈現(xiàn)出來(lái),如圖11.

      圖11 2016年至今合肥房地產(chǎn)媒體類(lèi)型圖

      (2)基于用戶自定義字典及短語(yǔ)提取分析的字符云統(tǒng)計(jì)分析圖.如圖12所示,它呈現(xiàn)的是合肥房地產(chǎn)字符云圖分布,字符大小與關(guān)注度呈正相關(guān).從圖中可以清晰看出,在此期間,合肥房?jī)r(jià)、房?jī)r(jià)漲幅等成為一時(shí)熱點(diǎn),媒體對(duì)合肥市房?jī)r(jià)問(wèn)題關(guān)注度最高,房?jī)r(jià)攀升的節(jié)奏也非???,社會(huì)的關(guān)注度也較高,從而體現(xiàn)了房地產(chǎn)行業(yè)在“大數(shù)據(jù)云計(jì)算”的基礎(chǔ)上利用互聯(lián)網(wǎng)在數(shù)據(jù)處理以及自然語(yǔ)言分析、決策模型方面的優(yōu)勢(shì),幫助房地產(chǎn)業(yè)進(jìn)行決策分析.

      圖12 2016.2-2017.4字符云圖統(tǒng)計(jì)[8]

      除此之外,數(shù)據(jù)倉(cāng)庫(kù)模型還可基于中文分詞以及關(guān)鍵詞提取技術(shù),獲取合肥市房地產(chǎn)相關(guān)輿情案例展示的熱點(diǎn)詞頻圖、線型分析圖等形象直觀的可視化圖形.

      6 小結(jié)

      綜上而言,基于大數(shù)據(jù)的合肥市房地產(chǎn)輿情研究平臺(tái)要充分認(rèn)識(shí)到大數(shù)據(jù)的重要性,從數(shù)據(jù)的提取到存儲(chǔ)體系的建設(shè),再到房地產(chǎn)輿情監(jiān)測(cè)方面不斷探索,這樣才能發(fā)揮大數(shù)據(jù)在房地產(chǎn)業(yè)的巨大潛力.引進(jìn)大數(shù)據(jù)處理和運(yùn)用的專(zhuān)業(yè)方法和工具,建設(shè)專(zhuān)業(yè)的大數(shù)據(jù)應(yīng)用人才隊(duì)伍,建立具有前瞻性的業(yè)務(wù)分析模型,具備把握、預(yù)測(cè)市場(chǎng)和用戶行為的能力,才能將數(shù)據(jù)挖掘與分析更有價(jià)值地運(yùn)用到業(yè)務(wù)經(jīng)營(yíng)和管理過(guò)程中.

      猜你喜歡
      樓盤(pán)數(shù)據(jù)倉(cāng)庫(kù)分詞
      番禺:江景“樓王”+全城熱賣(mài) TOP1+“巨無(wú)霸樓盤(pán)”齊登場(chǎng)!
      結(jié)巴分詞在詞云中的應(yīng)用
      基于數(shù)據(jù)倉(cāng)庫(kù)的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
      幸福里(外一首)
      詩(shī)潮(2018年1期)2018-04-25 01:48:20
      分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉(cāng)庫(kù)中的設(shè)計(jì)
      電子制作(2016年15期)2017-01-15 13:39:15
      探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
      值得重視的分詞的特殊用法
      基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析探索與實(shí)踐
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      北京地區(qū)1月打折樓盤(pán)一覽
      龙游县| 临泉县| 六枝特区| 大邑县| 金坛市| 云南省| 枣阳市| 孝感市| 哈密市| 娄烦县| 武冈市| 峨山| 新乡市| 琼海市| 全椒县| 弥渡县| 临清市| 昆山市| 老河口市| 阳谷县| 铜山县| 岱山县| 余江县| 浦江县| 蚌埠市| 海安县| 安顺市| 犍为县| 吉首市| 常德市| 白河县| 荔浦县| 河曲县| 宜兰县| 安仁县| 纳雍县| 天门市| 兴仁县| 东乡县| 中超| 黄龙县|