趙藝然
摘 要:《國家新型城鎮(zhèn)化規(guī)劃(2014—2020)》、中央城市工作會議、十三五規(guī)劃綱要等均明確指出要提高城市發(fā)展宜居性,并把建設(shè)和諧宜居城市作為城市發(fā)展的主要目標。本文從社交網(wǎng)絡(luò)上收集到的北京市2015年到2018年與和諧宜居相關(guān)的評論為基礎(chǔ),構(gòu)建情感分析模型和主成分分析模型,得出影響居民對“和諧宜居”主觀感受的主要因素,進一步了解北京市在建設(shè)中需要加以改進或修正的方面。
關(guān)鍵詞:情感分析;主成分分析;和諧宜居城市建設(shè)
一、引言
十八大以來,我國政府高層決策相繼把建設(shè)和諧宜居城市提升到前所未有的戰(zhàn)略高度,《國家新型城鎮(zhèn)化規(guī)劃(2014—2020)》、中央城市工作會議、十三五規(guī)劃綱要等均對建設(shè)和諧宜居城市作出專門論述,明確指出要提高城市發(fā)展宜居性,并把建設(shè)和諧宜居城市作為城市發(fā)展的主要目標。
本文確定了與和諧宜居城市建設(shè)有關(guān)的44類關(guān)鍵詞,再從社交網(wǎng)絡(luò)上收集北京市2015年到2018年帶有這些關(guān)鍵詞的評論,構(gòu)建情感分析模型和主成分分析模型,分析影響居民對“和諧宜居”主觀感受的主要因素,進一步了解在建設(shè)中需要加以改進或修正的方面。
二、基于情感分析模型的居民評價模型構(gòu)建
(一)數(shù)據(jù)清洗預處理
中文分詞是中文類型的自然語言處理的第一個階段,也是必不可少的階段。中文的句意是由詞語組成的,分詞的意義在于將中文詞語分成一個個有效的,符合句意的詞語,本文采用pkuseg模塊進行分詞。由于居民評論中經(jīng)常含有一些助詞、語氣詞、表情符號或者“回復”等詞,這些詞語沒有具體的含義,也沒有明確的感情傾向,所以將這些詞作為停用詞。如果分詞結(jié)果中含有停用詞,則刪除該停用詞。同時為了衡量評論內(nèi)容與評論目標之間的關(guān)聯(lián)程度,去除無意義的評論,本文計算了評論內(nèi)容與關(guān)鍵詞之間的余弦相似度,去除相似度為0的評論。
(二)評論文本情感分析建模
通過預訓練TextCNN情感分類模型,對清洗完畢的數(shù)據(jù)進行情感分類,同時為了能夠表達評論語句的強烈程度,使用情感詞典對文本的情感極度進行標記。本文通過對微博情感200萬條數(shù)據(jù)集進行情感分類訓練模型,使用該模型對數(shù)據(jù)預處理后的評論文本進行分類,其數(shù)據(jù)輸入為評論文本,輸出為積極/消極的概率以及情感極度。選擇CBOW模型作為詞向量模型,采用FastText工具對該詞向量進行復現(xiàn)。CBOW模型是一個兩層結(jié)構(gòu), CBOW模型沒有隱含層, 通過上下文來預測中心詞, 并且拋棄了詞序信息。
輸入層: n個節(jié)點,上下文共2m個詞的詞向量的平均值;
輸入層到輸出層的連接邊:輸出詞矩陣;
輸出層: 個節(jié)點。第i個節(jié)點代表中心詞是詞的概率
首先, 將中心詞wt的上下文ct:wt-m, ..., wt-1, wt+1, ...wt+m轉(zhuǎn)成輸入詞向量xt+j:
進而將上下文的輸入詞向量wt-m, ..., wt-1, wt+1, ...wt+m求平均值, 作為模型輸入:
(1)
輸出層采用softmax作為激活函數(shù), 用logloss作為損失函數(shù), 利用梯度下降帶入訓練數(shù)據(jù)訓練詞向量, 文本中所有詞向量存在于矩陣中。其訓練網(wǎng)絡(luò)圖如下:
TextCNN 是利用卷積神經(jīng)網(wǎng)絡(luò)對文本進行分類的算法,2014年由 Yoon Kim在 《Convolutional Neural Networks for Sentence Classification》一文中提出。TextCNN的核心點在于可以捕獲信息的局部相關(guān)性,具體到文本分類任務(wù)中可以利用CNN來提取句子中類似N-Gram的關(guān)鍵信息,使用不同尺寸的kernel_size來模擬語言模型中的N-Gram,提取句子中的信息。
三、基于主成分分析模型確定影響居民主觀感受的主要因素
主成分分析法(PCA)是模式識別中的一個線性監(jiān)督分析法,主要是基于變量協(xié)方差矩陣對原始信息進行壓縮和提取處理。PCA 是將多元的信息線性變換(降維、簡化、重排)為少數(shù)的幾個綜合信息(主成分),不僅保留了原始數(shù)據(jù)中的主要信息,而且可以將降維轉(zhuǎn)換后的特征向量線性分類。
首先,將上文確定出的44類關(guān)鍵詞作為指標,由于這44類指標都具有三個屬性,分別為表現(xiàn)為積極情感的概率,表現(xiàn)為消極情感的概率,情感的極性,為了處理成單屬性格式,本文通過下面公式進行數(shù)據(jù)聚合,將三列屬性合并為單特征,公式如下:
(2)
其中和表示準確率,表示關(guān)鍵詞聚合特征,表示評論為消極的概率,表示評論為積極的概率,表示情感極性。
接著使用SPSS進行主成分分析。
求出的 KMO 值為0.915,說明可以采用主成分因子分析法。同時Bartlett 的球形度檢驗的顯著性值為 0,說明數(shù)據(jù)的統(tǒng)計顯著性非常強。
將44個特征輸入,得到主成分分析的解釋總方差,
根據(jù)圖3以及表2主成分提取分析表,特征值在第10個主成分開始收斂,而在第10個主成分的累計貢獻率定為 85%,因此選取10個主成分作為特征模型。
初始因子載荷矩陣中的數(shù)據(jù)除以主成分相對應(yīng)的特征值開平方根便得到每個主成分中每個指標所對應(yīng)的系數(shù),即特征向量。以每個主成分所對應(yīng)的特征值占所提取主成分總的特征值之和的比例作為權(quán)重,可得到主成分綜合模型,根據(jù)主成分綜合模型系數(shù)排序最終可以得到因子重要性排序如表3所示:
根據(jù)表3可以發(fā)現(xiàn),在居民的主觀感受中,空氣質(zhì)量、收入水平與高精尖這三個成為重要性最為突出,是最為影響居民對“和諧宜居”主觀感受的關(guān)鍵因素,在因子重要性排名前20的指標可以看出,居民的主觀感受更多是切實關(guān)系到衣食住行一些指標,例如水質(zhì),房價等指標。因此,影響居民對“和諧宜居”主觀感受的關(guān)鍵因素更多是切實關(guān)系到居民的生活的因素。
要將北京建設(shè)成為和諧宜居之都需要結(jié)合民眾切實的主觀感受。為有效提高民眾對和諧宜居的主觀感受,合理規(guī)劃北京市城市建設(shè),需要做到以下幾個方面:第一,注重城市的生態(tài)環(huán)境建設(shè),使城市生態(tài)環(huán)境均衡、和諧發(fā)展,實現(xiàn)低耗能、低污染;第二,在居民意識方面,糾正居民的發(fā)展觀念,充分宣傳宏觀指標的重要性,在照顧到民眾的切實利益方面也要考慮到展示城市軟實力的一些指標。
參考文獻
[1] Xu Sun,Houfeng Wang,Wenjie Li.Fast Online Trainingwith Frequency-Adaptive Learning Rates for Chinese WordSegmentation and New Word Detection. Proceedings ofACL.253-262. 2012.
[2] 微博情感200萬條公開數(shù)據(jù)集https://download.csdn.net/download/turkan/9181661
[3] Li J,Jing L, Fu X, et al.Learning distributed wordrepresentation with multi-contextual mixed embedding[J].Knowledge-Based Systems,2016(106):220-230.
[4] 劉春磊,武佳琪,檀亞寧.基于TextCNN的用戶評論情感極性判別[J].電子世界,2019(3):48,50.
[5] 米碩,孫瑞彬,李欣,明曉.基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)對電子郵件的作者識別[J].科技創(chuàng)新與應(yīng)用,2018(10):24-25.
[6] Kim Y.Convolutional Neural Networks for SentenceClassification[J]. Eprint Arxiv,2014.
[7] 孟令爽,唐德善,史毅超.基于主成分分析法的城市人水和諧度評價[J].水資源與水工程學報,2018,29(1):93-98.
[8] 孟令爽,唐德善,史毅超.基于主成分分析法的用水效率評價[J].人民長江,2018,49(5):36-40.
[9] 周洋,侯淑婧,宗科.基于主成分分析方法的生態(tài)經(jīng)濟效益評價[J].統(tǒng)計與決策,2018,34(1):66-69.