曾德珩 單艷
摘要:隨著網(wǎng)絡(luò)、手機(jī)等各類新媒體形式的出現(xiàn),大量房地產(chǎn)輿情借助網(wǎng)絡(luò)平臺(tái)傳播,信息的產(chǎn)生與傳播范圍、速度日益提高。然而,一方面由于房地產(chǎn)市場存在區(qū)域異質(zhì)性,另一方面房地產(chǎn)市場在新聞媒體與大眾評(píng)論之間出現(xiàn)明顯的情緒分化,最終導(dǎo)致房地產(chǎn)市場情緒的高漲或低落。挖掘技術(shù)對(duì)輿情語料進(jìn)行情感傾向分析,量化市場情緒,可以為市場預(yù)測、資產(chǎn)定價(jià)研究提供新的思路?;谕诰蚣夹g(shù),收集重慶市2019.07.01-2020.06.30期間的房地產(chǎn)市場相關(guān)輿情,基于機(jī)器學(xué)習(xí)方法構(gòu)建房地產(chǎn)領(lǐng)域?qū)僭~典,以情感詞典和機(jī)器學(xué)習(xí)組合方法對(duì)輿情語料的情感特征進(jìn)行量化,并確定投資者情感指數(shù)編制方法,構(gòu)造出重慶市近一年內(nèi)房地產(chǎn)市場月度情感指數(shù)?;谵o典構(gòu)建和機(jī)器學(xué)習(xí)組合方法對(duì)房地產(chǎn)市場情感指數(shù)進(jìn)行量化分析,可以剖析投資者近一年內(nèi)房地產(chǎn)市場中的情感表達(dá),研究市場情緒對(duì)于房地產(chǎn)價(jià)格走勢(shì)和市場異象的解釋,為房地產(chǎn)領(lǐng)域的市場分析提供一種較為新穎的視角。
關(guān)鍵詞:文本情感分析;情感辭典;市場情緒;房地產(chǎn)市場
中圖分類號(hào):F293.35 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1001-9138-(2021)06-0032-42 收稿日期:2021-05-25
1 引言
由于投資者的決策行為存在個(gè)體差異性,投資者的個(gè)體情緒在市場中通過群體作用而相互影響,逐漸形成共同的市場情緒,并對(duì)市場發(fā)展產(chǎn)生影響。市場情緒既是個(gè)體投資者對(duì)市場信息的認(rèn)知處理結(jié)果,也是市場投資者行為的相互作用結(jié)果,可以反映市場過去及現(xiàn)在的發(fā)展情況,同時(shí)影響未來市場發(fā)展。因此,對(duì)市場情緒進(jìn)行度量,可以幫助解釋市場異象和預(yù)測市場發(fā)展。然而市場情緒是一個(gè)難以度量的概念,傳統(tǒng)的市場情緒測度方法已經(jīng)不再適用。隨著互聯(lián)網(wǎng)的發(fā)展,大量的樓市評(píng)論信息借助網(wǎng)絡(luò)平臺(tái)在投資者之間相互傳播,個(gè)體情緒借助網(wǎng)絡(luò)平臺(tái)形成市場情緒,吸引了大量投資者注意力,并對(duì)投資者的決策行為產(chǎn)生引導(dǎo)作用。對(duì)新聞?wù)Z料進(jìn)行文本情感分析,成為研究市場情緒的一個(gè)重要方向。因此,本文希望通過情感分析技術(shù)衡量房地產(chǎn)市場的情緒表達(dá),并構(gòu)建市場情緒指數(shù)。為精確研究范圍,測度更精準(zhǔn)的情緒指數(shù),本研究以重慶市為例,借助新浪輿情通系統(tǒng),收集重慶市2019.07.01-2020.06.30期間來自各類論壇、網(wǎng)站、自媒體賬號(hào)等渠道的房地產(chǎn)市場輿情信息,利用文本情感分析技術(shù)對(duì)近一年來重慶市房地產(chǎn)輿情進(jìn)行情感特征量化研究,通過量化投資者情感表達(dá),解釋重慶市房地產(chǎn)市場的價(jià)格走勢(shì)及市場異象。
2 研究現(xiàn)狀
市場情緒的研究最早可見于Tetlock的研究,該學(xué)者利用《華爾街日?qǐng)?bào)》專欄的每日內(nèi)容,定量衡量媒體和股票市場之間的互動(dòng),發(fā)現(xiàn)媒體悲觀情緒的高位具備預(yù)測市場價(jià)格下行壓力的能力。此后市場情緒研究在金融領(lǐng)域應(yīng)用較為成熟,并逐漸應(yīng)用于其他領(lǐng)域。對(duì)于市場情緒的測度方法目前主要有兩種,一是利用市場基本面諸如成交量、消費(fèi)者信心指數(shù)等指標(biāo)代理市場情緒,如Statman、Lee等。二是利用問卷調(diào)查的收集投資者關(guān)注度、投資意愿等進(jìn)行情緒量化,如Shiller、Statman等。隨著大數(shù)據(jù)時(shí)代的到來,投資者會(huì)通過網(wǎng)絡(luò)輿情表達(dá)和接收情緒,基于互聯(lián)網(wǎng)大數(shù)據(jù)挖掘的情感傾向分析也逐漸被運(yùn)用于測度投資者情緒,如Antweiler、Bollen、Schumaker等。
關(guān)于房地產(chǎn)市場情緒研究方面,國外學(xué)者Soo對(duì)全美34個(gè)城市的住房市場情緒進(jìn)行了測量,得出結(jié)論房地產(chǎn)媒體情緒對(duì)未來房價(jià)具有顯著的預(yù)測力。I-ChunTsai考察了美國股市和房地產(chǎn)市場的關(guān)系及其對(duì)消費(fèi)財(cái)富效應(yīng)的影響,兩個(gè)市場都對(duì)消費(fèi)產(chǎn)生了財(cái)富效應(yīng),股市情緒指數(shù)可以解釋財(cái)富效應(yīng)的變化。Freybote研究了美國房地產(chǎn)投資信托公司債券投資者情緒,為美國房地產(chǎn)投資信托公司債券投資者的定價(jià)決策提供參考。Ma將樸素貝葉斯算法與分類器算法應(yīng)用于房地產(chǎn)信心指數(shù)構(gòu)建,實(shí)現(xiàn)了基于財(cái)經(jīng)新聞的循環(huán)經(jīng)濟(jì)指數(shù)的構(gòu)建。Dietzel利用房地產(chǎn)相關(guān)谷歌搜索量數(shù)據(jù)作為衡量投資者情緒的指標(biāo),發(fā)現(xiàn)谷歌數(shù)據(jù)可以作為早期市場指標(biāo),預(yù)測美國房地產(chǎn)市場轉(zhuǎn)折點(diǎn)。Heinig和Nanda以倫敦西區(qū)商業(yè)房地產(chǎn)為研究對(duì)象,使用正交化和主成分分析法對(duì)宏觀經(jīng)濟(jì)情緒指標(biāo)和在線搜索量數(shù)據(jù)進(jìn)行分析,得出結(jié)論從更具前瞻性的信息來源(如在線搜索)中提取的情緒可能會(huì)為投資者、貸款人或其他市場參與者帶來重大的信息增益。StephanLang運(yùn)用資產(chǎn)定價(jià)框架,以情緒敏感度為基礎(chǔ),對(duì)歐洲房地產(chǎn)股票的表現(xiàn)進(jìn)行評(píng)估,發(fā)現(xiàn)情緒驅(qū)動(dòng)的回報(bào)行為實(shí)際上只是對(duì)承擔(dān)更高基本風(fēng)險(xiǎn)的補(bǔ)償。Clayton探討了基本面和投資者情緒在商業(yè)地產(chǎn)估價(jià)中的作用,發(fā)現(xiàn)即使在控制了預(yù)期租金增長、股票風(fēng)險(xiǎn)溢價(jià)、國債收益率以及長期均衡滯后調(diào)整之后,投資者情緒仍會(huì)影響定價(jià)。Eddie提出住房需求在一定程度上是由參與者的情緒驅(qū)動(dòng)的,認(rèn)為房地產(chǎn)市場的投資者更容易受到情緒的影響。Jessica對(duì)約12.5萬篇美國報(bào)紙頭條新聞進(jìn)行了調(diào)查,并建立了不同的情緒衡量指標(biāo),探討新聞媒體情緒與證券化房地產(chǎn)市場之間的關(guān)系。國內(nèi)學(xué)者廖娟構(gòu)建了符合中國房地產(chǎn)住宅市場的購房者情緒指數(shù),認(rèn)為房地產(chǎn)市場投資者情緒與羊群行為兩者之間具有聯(lián)動(dòng)關(guān)系。劉林發(fā)現(xiàn)投資者情緒的高漲會(huì)促進(jìn)房地產(chǎn)價(jià)格的上漲,且在房地產(chǎn)市場低迷時(shí)期,投資者情緒推動(dòng)房地產(chǎn)市場上漲的作用更顯著。鄭榮卿試圖研究市場情緒對(duì)商品住房市場運(yùn)行的影響,并基于實(shí)證分析得出市場情緒對(duì)于商品住房市場波動(dòng)的解釋力度達(dá)到25.38%的結(jié)論。李書忞將行為金融與大數(shù)據(jù)進(jìn)行融合,2004-2016年內(nèi)約20萬篇主流媒體房地產(chǎn)業(yè)新聞報(bào)道獲取投資者情感信息,并分析投資者情緒與房地產(chǎn)市場價(jià)格波動(dòng)之間的關(guān)系。黃燕芬基于行為金融建立了房地產(chǎn)情緒指數(shù)影響房價(jià)的模型,實(shí)證研究了市場情緒對(duì)房價(jià)的影響。
通過梳理文獻(xiàn)研究發(fā)現(xiàn),市場情緒測度的研究主要集中在金融領(lǐng)域,如股票、證券市場。房地產(chǎn)產(chǎn)品作為一種特殊商品,存在市場分割程度高、投資者信息不對(duì)稱、地域分化明顯等特征。相較于股票、證券市場,房地產(chǎn)市場更容易受市場情緒影響,然而相關(guān)研究中房地產(chǎn)市場并沒有像股票市場那樣受到關(guān)注。因此,本文希望在這樣的研究背景之下,通過將金融文本分析引入房地產(chǎn)市場領(lǐng)域,對(duì)網(wǎng)絡(luò)媒體信息蘊(yùn)含的投資者情緒進(jìn)行量化研究,構(gòu)建重慶市近一年房地產(chǎn)市場情緒指數(shù),在擴(kuò)展文本分析應(yīng)用范圍的同時(shí)給出一種全新的衡量樓市情緒的方法。
3 研究方法與數(shù)據(jù)處理
本文首先收集大量來自論壇、自媒體、網(wǎng)站等房地產(chǎn)資訊的信息,通過構(gòu)建重慶市房地產(chǎn)領(lǐng)域情感詞典,并將詞典引入文本情感分析模型,提升語料情感分析準(zhǔn)確性。利用文本情感分析計(jì)算文本情感值,最后構(gòu)建房地產(chǎn)市場投資者情感指數(shù)。如圖1所示,研究關(guān)于新聞文本的情感值的計(jì)算主要基于以下步驟:(1)數(shù)據(jù)獲?。菏占?019.07.01-2020.06.30之間重慶市關(guān)于房地產(chǎn)市場有關(guān)資訊的信息數(shù)據(jù),數(shù)據(jù)來源包括論壇、新聞網(wǎng)站、微信公眾號(hào)、微博、博客等;(2)數(shù)據(jù)清洗:將收集的數(shù)據(jù)經(jīng)過文本分詞、詞性標(biāo)注等程序,將原本非結(jié)構(gòu)化的、難以進(jìn)行分析的文本篇章轉(zhuǎn)化為可供文本分析系統(tǒng)分析文章情感值的新聞文本;(3)構(gòu)建領(lǐng)域?qū)偾楦性~典:根據(jù)房地產(chǎn)市場和重慶市區(qū)域特征構(gòu)建重慶市房地產(chǎn)市場專屬情感詞典,對(duì)語料進(jìn)行情感分析并測算其情感值;(4)編制市場情緒指數(shù):按月度計(jì)算重慶市近一年的房地產(chǎn)資訊情感傾向值,并計(jì)算市場月度情緒指數(shù)。
3.1 數(shù)據(jù)獲取
本文主要基于新聞媒體的房地產(chǎn)資訊進(jìn)行文本挖掘,因此需要選擇權(quán)威且廣泛的信息來源保證研究的科學(xué)性。為滿足研究要求,本文基于新浪輿情通系統(tǒng),通過設(shè)置采集關(guān)鍵詞及地域關(guān)鍵詞,以月度為單位,采集2019.07.01-2020.06.30期間重慶市房地產(chǎn)有關(guān)媒體報(bào)道如表1所示。
批量導(dǎo)出房地產(chǎn)相關(guān)輿情共計(jì)67854條,每月的重慶市房地產(chǎn)有關(guān)輿情數(shù)量均在4000條以上,充足的輿情數(shù)量增強(qiáng)了后續(xù)投資者情緒指數(shù)構(gòu)建的準(zhǔn)確性,減少因研究樣本數(shù)量不足造成的情緒偏差。
3.2 數(shù)據(jù)處理
數(shù)據(jù)處理主要指對(duì)導(dǎo)出的輿情語料進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、文本去重、文本分詞等操作,為后續(xù)情感分析奠定基礎(chǔ)。網(wǎng)絡(luò)采集的輿情數(shù)據(jù)中存在大量的無用符號(hào)以及許多網(wǎng)址鏈接,這些無用的信息稱為文本噪聲,存在噪聲的預(yù)料文本由于其符號(hào)的混亂性,是無法進(jìn)行斷句與分詞處理的。需要通過數(shù)據(jù)預(yù)處理,原本完整、非結(jié)構(gòu)化的輿情語料將轉(zhuǎn)化為結(jié)構(gòu)化、能被計(jì)算機(jī)識(shí)別的語料文本。
首先,由于新浪輿情通系統(tǒng)收集的信息量巨大,同一條內(nèi)容全網(wǎng)發(fā)布多次的情況很普遍,為了降低這種重復(fù)文本對(duì)最終情感判斷的影響,需要對(duì)收集的數(shù)據(jù)進(jìn)行文本去重,提高后續(xù)情感分析的準(zhǔn)確性。由于語料文本中還存在大量本身無實(shí)際意義,對(duì)情感判斷無用的詞語,諸如“哦”“的”“了”等,這類詞語統(tǒng)稱為停用詞。停用詞的存在會(huì)占用大量的文本儲(chǔ)存空間,降低后續(xù)情感分析效率,因此需要利用算法將之去除。本研究引入哈工大停用詞詞庫,將文本去重后的語料數(shù)據(jù)進(jìn)行去除停用詞操作。將清洗后的數(shù)據(jù)以txt文件儲(chǔ)存,以便后續(xù)文本分詞操作。
接下來,需要對(duì)清洗后的文本進(jìn)行分詞操作。詞語是組成句子的基本元素,能夠獨(dú)立表示有價(jià)值信息和體現(xiàn)情感傾向,因此詞語對(duì)于句子索要表達(dá)的情感傾向起到?jīng)Q定作用。利用分詞操作將以完整句子呈現(xiàn)的語料按照某種預(yù)定規(guī)則切分成相應(yīng)的詞語片段。本文采用Python版本的jieba分詞器進(jìn)行分詞操作,主要的算法包括:(1)基于前綴詞典實(shí)現(xiàn)此圖掃描,生成句子中漢字所有可能生成詞情況所構(gòu)成的有向無環(huán)圖(DAG);(2)利用動(dòng)態(tài)規(guī)劃查找最大概率路徑,基于詞頻找到最大切分組合;(3)對(duì)于未登錄的詞語,采用基于漢字成詞能力的HMM模型,并采用維特比(Viterbi)算法。例如,利用表1所示的語料文本的摘要結(jié)巴分詞后的結(jié)果如表2所示。
4 重慶市房地產(chǎn)市場專屬情感詞典構(gòu)建
在對(duì)輿情語料進(jìn)行文本分詞之后,需要對(duì)語料包含的情緒信息進(jìn)行文本情感分析。一般而言,情感分析的方法主要有基于情感詞典和基于機(jī)器學(xué)習(xí)語言兩種方法。兩種方法在原理、過程、結(jié)果等方面都存在差異,本文選擇將兩種方法結(jié)合使用,基于機(jī)器學(xué)習(xí)方法構(gòu)建房地產(chǎn)領(lǐng)域?qū)僭~典,以情感詞典和機(jī)器學(xué)習(xí)組合方法對(duì)輿情語料的情感特征進(jìn)行量化。目前的評(píng)論文本情感分析僅使用通用型情感詞典,缺少房地產(chǎn)領(lǐng)域的情感詞典研究,在分析房地產(chǎn)相關(guān)評(píng)論時(shí)的準(zhǔn)確率不高;其次,房地產(chǎn)行業(yè)強(qiáng)地域?qū)傩栽斐闪朔康禺a(chǎn)市場的天然割裂,不同層級(jí)城市發(fā)展的顯著分化決定了“因城施策”的大背景,不同的城市對(duì)于樓市判斷有不同的俗語、哩語,目前的情感辭典缺乏對(duì)這一方面的考量。因此在進(jìn)行房地產(chǎn)信息情感分析時(shí)需要根據(jù)城市屬性及房地產(chǎn)行業(yè)屬性構(gòu)建專屬情感辭典。本研究構(gòu)建的重慶市房地產(chǎn)領(lǐng)域?qū)僭~典由三部分組成:(1)基礎(chǔ)詞典;(2)擴(kuò)充詞典;(3)專屬詞典。
4.1 基礎(chǔ)詞典
4.1.1 基礎(chǔ)情感詞典
知網(wǎng)發(fā)布的 《情感分析用詞語集》 (HOWNET)是我國應(yīng)用最廣泛且地位最權(quán)威的一部情感詞典。該詞典主要分為中文和英文兩部分,共包含如下數(shù)據(jù):中文正面評(píng)價(jià)詞語3730個(gè)、中文負(fù)面評(píng)價(jià)詞語3116個(gè)、中文正面情感詞語836個(gè)、中文負(fù)面情感詞語1254個(gè);英文正面評(píng)價(jià)詞語3594個(gè)、英文正面評(píng)價(jià)詞語3563個(gè)、英文正面情感詞語769個(gè)、英文負(fù)面情感詞語1011個(gè)??芍W(wǎng)情感詞典(HOWNET)收錄的情感詞較為全面,且應(yīng)用較為成熟,因此本文選擇其作為基礎(chǔ)情感詞典。根據(jù)知網(wǎng)情感詞典的規(guī)則與定義,從中總結(jié)出一系列積極以及消極詞匯,構(gòu)成本研究的基礎(chǔ)情感詞典。部分基礎(chǔ)情感詞典的詞匯如表3所示。
4.1.2 程度副詞詞典
僅有情感詞匯還遠(yuǎn)遠(yuǎn)不夠,程度副詞對(duì)情感詞的情緒表達(dá)具有不可忽視的作用。本文引入知網(wǎng)HOWNET程度級(jí)別詞語構(gòu)建程度副詞詞典,分為極度、高度、中度、低度四個(gè)級(jí)別,并分別賦值1.8、1.6、1.2、0.6,用于后續(xù)情感得分計(jì)算。本研究選取程度副詞共計(jì)219個(gè),具體程度副詞詞典展示如表4所示。
4.1.3 否定詞詞典
在中文語句中含有多重否定的句法,當(dāng)否定詞在詞組中出現(xiàn)的次數(shù)是奇數(shù)時(shí),表示否定意思;當(dāng)否定詞在詞組中出現(xiàn)的次數(shù)是偶數(shù)時(shí),表示肯定意思。結(jié)合本文的語料庫和中文表達(dá)習(xí)慣,本文共收集了85個(gè)否定詞,其權(quán)值設(shè)定為-1。具體否定詞匯如表5所示。
4.2 擴(kuò)充詞典
知網(wǎng)情感詞典(HOWNET)雖然已經(jīng)包括較多的情感詞匯,但語言表達(dá)多元且易變,且房地產(chǎn)行業(yè)擁有較多專業(yè)詞匯,因此需要對(duì)基礎(chǔ)詞典進(jìn)行擴(kuò)充。本研究的擴(kuò)充詞典基于機(jī)器學(xué)習(xí)方法,借助2019.01.01-2019.06.30期間重慶市房地產(chǎn)相關(guān)資訊作為擴(kuò)充情感詞典的數(shù)據(jù)集,共計(jì)輿情信息29616條。以同樣的方式對(duì)數(shù)據(jù)集進(jìn)行清洗、文本分詞等工作,隨機(jī)從中抽取5000條輿情作為訓(xùn)練樣本,對(duì)樣本數(shù)據(jù)進(jìn)行人工篩選,應(yīng)用于整個(gè)樣本數(shù)據(jù),最后整理出871個(gè)房地產(chǎn)領(lǐng)域擴(kuò)充情感詞匯。部分?jǐn)U充詞典示例如表6所示。
4.3 專屬詞典
重慶市位于嘉陵江與長江的交匯口,曾為巴國首府所在地,是巴渝文化重要的發(fā)祥地之一。重慶方言蘊(yùn)含巴渝特色,在語音、詞匯、語法等方面都自成一體,尤其是詞匯更具特色。如“乖”“牙刷”“打望”等詞語在重慶方言的特殊語境下,往往蘊(yùn)含不同的情感信息。雖然大部分的情感分析利用上述基礎(chǔ)情感詞典以及擴(kuò)充詞典就可以完成,但是大量自媒體為加強(qiáng)語言渲染力,服務(wù)重慶本地投資者,會(huì)在評(píng)論分析中采用大量重慶方言表達(dá)對(duì)樓市的看法。為了提高情感分析的準(zhǔn)確度,基礎(chǔ)情感詞典的適應(yīng)性以及準(zhǔn)確定性在特定的情感分析任務(wù)中受到挑戰(zhàn)。因此,除了上述情感詞典的擴(kuò)充,構(gòu)建屬于重慶市樓市專屬的情感詞典是非常必要的。本文通過閱讀大量樓市新聞以及自媒體文章,采訪重慶本地土著,通過有效的人工篩選,劃分出重慶市表達(dá)樓市信息的常用情感詞共計(jì)150個(gè),諸如“洗牌”“甩貨”“下叉”等。部分專屬詞典樣例如表7所示。
將基礎(chǔ)詞典、擴(kuò)充詞典以及專屬詞典組合,最終得到本次研究所應(yīng)用的重慶市房地產(chǎn)專屬情感詞典。其中積極詞匯5089個(gè),消極詞匯4942個(gè),程度副詞219個(gè),否定詞85個(gè)。最終的情感詞典規(guī)模及樣例如表8所示。
5 重慶市房地產(chǎn)市場輿情語料情感分析
5.1 情感值計(jì)算
在構(gòu)建完成重慶市房地產(chǎn)領(lǐng)域?qū)偾楦性~典之后,便可以對(duì)預(yù)處理后的輿情語料數(shù)據(jù)進(jìn)行情感分析,同時(shí)為后續(xù)投資者情緒指數(shù)編制及分析做準(zhǔn)備。本研究采用情感極性累加法計(jì)算文本情感值?;谇楦性~典的文本情感分析工作框架如圖2所示。
輿情語料的情感值算法具體步驟如下所示:
(1)導(dǎo)入輿情語料庫,對(duì)語料進(jìn)行刪除停用詞、分詞、詞性標(biāo)注等預(yù)處理工作;
(2)引入重慶市房地產(chǎn)領(lǐng)域?qū)僭~典,將詞典中的情感詞匯與語料進(jìn)行匹配,設(shè)定積極詞分值為1,消極詞分值為-1,分別表示為P_W和N_W。
(3)引入程度副詞詞典和修飾詞典。如上文所述,將程度副詞按程度級(jí)別分為四個(gè)權(quán)重值,分別為1.8、1.6、1.2、0.6,分別表示為D1、D2、D3、D4,否定副詞表示為N1,其修飾權(quán)重設(shè)置為-1。
(4)從語料的第一個(gè)詞開始,如果詞語屬于情感詞典,則判斷該詞前是否有程度副詞,如果沒有,則按照情感詞分值,如果有,則用程度副詞權(quán)重與詞語分值相乘,如果程度副詞前還包含否定詞,則用否定詞權(quán)重、程度副詞權(quán)重與詞語分值相乘。遍歷進(jìn)行至整條語句沒有情感詞為止,將每次遍歷過程的得分進(jìn)行加和,得到語料基于情感詞典的情感評(píng)分。
(5)最終,每條語料的情感值計(jì)算的公式如下:
(1)
其中,Pos和Neg分別表示積極詞匯和消極詞匯,i表示整個(gè)句子中的第i個(gè)情感詞,D表示距離情感詞i最近的程度副詞,分為4個(gè)等級(jí),設(shè)定值分別為1.8、1.6、1.2、0.6;N表示距離情感詞i最近的否定副詞,值設(shè)定為-1。將情感詞分值進(jìn)行加和得到整個(gè)句子的情感值。
5.2 實(shí)驗(yàn)結(jié)果評(píng)測
本實(shí)驗(yàn)的情感分析評(píng)測指標(biāo)使用情感分析領(lǐng)域常用的幾個(gè)指標(biāo):精度(precision)、召回率(recall)、F1值。精度是對(duì)精確度的度量,即預(yù)測結(jié)果正確占預(yù)測結(jié)果的比重;而召回率是完全性的度量,即預(yù)測為正類(負(fù)類)且實(shí)際也為正類(負(fù)類)占數(shù)據(jù)集中正類(負(fù)類)的比例;F1值是精度和召回率的調(diào)和均值,它將精度和召回率賦予相同的權(quán)重。與精度和召回率一樣,F(xiàn)1值也需要求出正類、負(fù)類及總體的值。精度(precision)、召回率(recall)的計(jì)算公式如下所示:
precision = TP / (TP + FP) ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
recall = TP / (TP + FN) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
其中,TP表示的是分類器正確分類的正元組的個(gè)數(shù),F(xiàn)P表示的是分類器錯(cuò)誤分類正元組為負(fù)元組的個(gè)數(shù),F(xiàn)N表示的是分類器錯(cuò)誤的分類負(fù)元組為正元組的個(gè)數(shù),P表示的是數(shù)據(jù)集中實(shí)際正元組的個(gè)數(shù),N表示數(shù)據(jù)集中實(shí)際負(fù)元組的個(gè)數(shù),TN表示的是分類器正確分類負(fù)元組的個(gè)數(shù),P表示分類器分類的正元組的個(gè)數(shù),N表示分類器分類的負(fù)元組的個(gè)數(shù)。它們之間的關(guān)系可以如下的混淆矩陣如表9所示。
將這兩個(gè)值組合到一個(gè)度量里,這個(gè)就是F值。F值計(jì)算公式如下所示:
F_ β = ((1+β^2) × precision×recall) / (β^2 × precision + recall) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (4)
其中β為非負(fù)實(shí)數(shù),當(dāng)β為1時(shí)就是F1值,F(xiàn)1值是精度和召回率的調(diào)和均值,它將精度和召回率賦予相同的權(quán)重。與精度和召回率一樣,F(xiàn)1值也需要求出正類、負(fù)類及總體的值。
本研究基于前文構(gòu)建的重慶市房地產(chǎn)領(lǐng)域?qū)偾楦性~典,以近一年重慶市房地產(chǎn)輿情為研究對(duì)象,利用詞典對(duì)輿情語料進(jìn)行情感傾向判斷實(shí)驗(yàn),得出語料情感值?;谠~典情感特征的情感傾向判斷實(shí)驗(yàn)評(píng)價(jià)指標(biāo)數(shù)據(jù)如表10所示。由表10知,實(shí)驗(yàn)的精度達(dá)0.61,情感詞典召回率為0.62,F(xiàn)1值為0.66。說明本次情感判斷實(shí)驗(yàn)與實(shí)際情況相差不大,較為合理。
5.3 實(shí)驗(yàn)結(jié)果分析
根據(jù)情感判斷實(shí)驗(yàn),將每一條輿情語料的情感程度表示為相應(yīng)的情感分值。本文將重慶市近一年房地產(chǎn)輿情的情感分析結(jié)果采用二分法分類,即積極和消極。根據(jù)文本情感判斷實(shí)驗(yàn)得出的情感分值與臨界值0進(jìn)行比較,分值高于0即判斷為積極,分值低于0即為消極。根據(jù)實(shí)驗(yàn),本次情感判斷的部分結(jié)果如表11所示。
通過對(duì)輿情語料的情感傾向判斷統(tǒng)計(jì)如表12所示,2019.07.01-2020.06.30期間重慶市房地產(chǎn)輿情的情感多為積極類型。其中積極輿情25239條,占比0.64,消極輿情大概14504條,占比0.36。反映出近一年,重慶市房地產(chǎn)市場熱度趨穩(wěn),投資者對(duì)于重慶市房地產(chǎn)市場看多者較多,市場購房信心較足。
6 重慶市房地產(chǎn)市場情緒指數(shù)構(gòu)建
6.1 市場情緒指數(shù)計(jì)算
為了編制出準(zhǔn)確代表市場變化的情緒指數(shù),需要選擇合理的指數(shù)編制方法。本文參考同類別金融文本分析研究中所采用的情感量化方法,通過情感傾向判斷實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行匯總處理得到重慶市房地產(chǎn)市場近一年的情緒指數(shù)。首先,需要統(tǒng)計(jì)近一年各月重慶市房地產(chǎn)的積極輿情數(shù)量和消極輿情數(shù)量,然后將同一月份的積極輿情數(shù)量與消極輿情數(shù)量相減,并除以當(dāng)月內(nèi)所發(fā)布的輿情總數(shù)Nt,計(jì)算得出月度房地產(chǎn)投資情感指數(shù)。
具體編制公式如下所示:
Sentiment_t = (Npos-Nneg) / Nt * 100+100
(5)
其中,Sentiment_t表示重慶市t月份的投資者情感指數(shù),該月份的積極輿情數(shù)量與消極輿情數(shù)量分別表示為Npos、Nneg,Nt表示重慶市t月份的輿情總數(shù)量。最終計(jì)算2019.07-2020.06期間重慶市房地產(chǎn)市場的月度情緒指數(shù)如表13所示。
6.2 市場情緒指數(shù)檢驗(yàn)分析
為了檢驗(yàn)構(gòu)建指標(biāo)的合理性,則需要選取能夠代表重慶市房地產(chǎn)市場發(fā)展?fàn)顩r以及市場態(tài)度的指標(biāo)對(duì)指數(shù)進(jìn)行檢驗(yàn)。百度指數(shù)是由搜索引擎百度提出,基于互聯(lián)網(wǎng)大數(shù)據(jù)統(tǒng)計(jì)搜索量的一個(gè)指標(biāo)。搜索量的多少可以體現(xiàn)投資者的關(guān)注度,從而反映市場情緒。因此選取百度指數(shù)作為檢驗(yàn)指標(biāo),由于百度指數(shù)與本文構(gòu)建的市場情緒指數(shù)存在量綱不一的問題,首先利用SPSS軟件對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,并繪制兩個(gè)變量的趨勢(shì)圖。
2019.07-2020.06期間市場情緒與百度指數(shù)呈現(xiàn)較好的擬合性,走勢(shì)一致,說明本文構(gòu)建市場情緒合理,能夠反映市場態(tài)度及發(fā)展?fàn)顩r如圖3所示。根據(jù)市場情緒指數(shù),2019年下半年重慶市投資者情緒較高,樓市熱度重現(xiàn)。其中2020年1月和2月市場情緒指數(shù)與百度指數(shù)出現(xiàn)反常情況,這與上半年重慶市房地產(chǎn)市場受大環(huán)境降溫以及疫情影響整體趨冷有關(guān)。2020年年初,中央首提“雙城經(jīng)濟(jì)圈”,高質(zhì)量謀劃推動(dòng)成渝地區(qū)建設(shè),城市價(jià)值不斷凸顯導(dǎo)致市場情緒高漲,然而接近年關(guān)市場關(guān)注度卻有所下降。由于全球新冠肺炎疫情蔓延,2月份的情緒指數(shù)延續(xù)了1月的悲觀趨勢(shì),反映出投資者對(duì)房地產(chǎn)市場的擔(dān)憂。隨著國內(nèi)疫情整體得到控制,房企接連發(fā)出各種促銷活動(dòng),引發(fā)投資者對(duì)房地產(chǎn)的討論,投資關(guān)注度有所上升。
7 結(jié)語
互聯(lián)網(wǎng)為廣大投資者提供了一個(gè)交流、協(xié)作、共享的平臺(tái),豐富多彩的輿情數(shù)據(jù)成為了衡量市場情緒的主要載體??茖W(xué)分析輿情的情感傾向,合理構(gòu)建市場情緒指數(shù),有助于了解市場與投資者的關(guān)注重點(diǎn),反映投資者投資意愿和對(duì)市場走勢(shì)的預(yù)期。本文通過文本情感分析重慶市房地產(chǎn)輿情的情感傾向,評(píng)價(jià)投資者情感指數(shù),近一年重慶市房地產(chǎn)市場的走勢(shì)。以2019.07-2020.06期間重慶市房地產(chǎn)輿情為例的文本情感分析表明,基于文本情感分析的情感傾向判斷和情感指數(shù)建立在房地產(chǎn)市場分析中有著較好的應(yīng)用,能夠建立新的市場走勢(shì)評(píng)價(jià)方式,動(dòng)態(tài)監(jiān)測投資者情感變化,及時(shí)把握投資者對(duì)于房地產(chǎn)市場的情感趨勢(shì)。
雖然得出如上結(jié)論,但本文研究仍存在一定的局限性。比如,情感詞典的構(gòu)建。在文本情感分析的研究中,情感詞典的構(gòu)建最為重要。然而,隨著網(wǎng)絡(luò)用詞的更新,情感詞典不僅需要準(zhǔn)確,而且還要不斷更新,情感指數(shù)的構(gòu)建方法及有效性也還要進(jìn)一步確認(rèn),從而提高分析的準(zhǔn)確性。
參考文獻(xiàn):
1.PAUL C.TETLOCK.Giving Content to Investor Sentiment: The Role of Media in the Stock Market.2007.62(3)
2.Statman F M.Investor Sentiment and Stock Returns.Financial Analysts Journal.2000.56(2)
3.Lee A.Smales.Asymmetric volatility response to news sentiment in gold futures.2015.34
4.Robert J.Shiller.Measuring Bubble Expectations and Investor Confidence.2000.1(1)
5.Statman F M.Investor Sentiment and Stock Returns.Financial Analysts Journal.2000.56(2)
6.Werner Antweiler, Murray Z. Frank. Is All That Talk Just Noise? The Information Content of Internet Stock Message Boards.2004.59(3)
7.Johan Bollen,Huina Mao, Xiaojun Zeng.Twitter mood predicts the stock market.2011.2(1)
8.Robert P.Schumaker,Hsinchun Chen.Textual analysis of stock market prediction using breaking financial news.2009.27(2)
9.Soo,CindyK.Quantifying Sentiment with News Media across Local Housing Markets.Review of Financial Studies.2018
10.I-Chun Tsai.Wealth effect and investor sentiment.2016.38
11.Julia Freybote.Real estate sentiment as information for REIT bond pricing.2016.33(1)
12.Ma,Xu,Xu.Real Estate Confidence Index Based on Real Estate News.2018.54(4)
13.Marian Alexander Dietzel.Sentiment-based predictions of housing market turning points with Google trends.2016.9(1)
14.Heinig S,Nanda A.Measuring sentiment in real estate–a comparison study.Journal of Property Investment & Finance.2017.36(3)
15.Stephan Lang,Wolfgang Schaefers.Examining the sentiment-return relationship in European real estate stock markets.2015.8(1)
16.Jim Clayton,David C.Ling,Andy Naranjo.Commercial Real Estate Valuation: Fundamentals Versus Investor Sentiment.2009.38(1)
17.Jessica Roxanne Ruscheinsky,Marcel Lang, Wolfgang Sch?fers.Real estate media sentiment through textual analysis.2018.36(5)
18.Eddie Chi-man Hui,Ziyou Wang.Market sentiment in private housing market.2014.44
19.廖娟.房地產(chǎn)住宅市場投資者情緒對(duì)羊群行為的影響研究.湖南大學(xué).2018
20.劉林 陳寧.市場投資者情緒與我國房價(jià)波動(dòng)——基于Markov區(qū)制轉(zhuǎn)換VAR模型的實(shí)證檢驗(yàn).數(shù)學(xué)的實(shí)踐與認(rèn)識(shí).2017.47(22)
21.鄭榮卿.市場情緒對(duì)商品住房市場交易的影響.中南財(cái)經(jīng)政法大學(xué).2017
22.李書忞.基于文本挖掘技術(shù)的我國房地產(chǎn)市場投資者情緒指數(shù)及對(duì)房價(jià)的影響研究.上海交通大學(xué).2018
23.黃燕芬 洪文斌 余華義.市場情緒如何影響城市房價(jià).經(jīng)濟(jì)理論與經(jīng)濟(jì)管理.2019.07
24.傅建球 張瑜.房地產(chǎn)商品的特殊性與市場調(diào)查方法研究.商業(yè)時(shí)代.2008.29
25.楊英.基于新聞媒體文本挖掘和百度指數(shù)的投資者情緒指數(shù)研究.哈爾濱工業(yè)大學(xué).2017
作者簡介:曾德珩,通訊作者,重慶大學(xué)管理科學(xué)與房地產(chǎn)學(xué)院教授,博士。
單艷,重慶大學(xué)管理科學(xué)與房地產(chǎn)學(xué)院碩士研究生。