畢崇武 葉光輝 胡婧嵐 李明倩
摘?要:[目的/意義]旨在識別某段時間內(nèi)公眾高度關(guān)注的熱點城市特征,便于分析公眾對城市的整體印象及其動態(tài)變化。[方法/過程]首先分析了熱點城市特征的評價指標及其數(shù)據(jù)來源和計算方法;然后利用min-max標準化方法將評價指標歸一化處理,進而采用線性加權(quán)和法構(gòu)造綜合指標評價模型;最后基于“知乎”平臺中的用戶問答數(shù)據(jù),識別出不同時期我國中部六省省會城市的熱點城市特征。[結(jié)果/結(jié)論]文中方法能夠從海量用戶問答數(shù)據(jù)中獲取不同城市在不同時間內(nèi)的熱點城市特征,具有實際的可操作性。
關(guān)鍵詞:城市畫像;城市特征;輿情熱點;特征識別; 知乎;武漢;長沙;鄭州;南昌;太原;合肥
DOI:10.3969/j.issn.1008-0821.2020.04.002
〔中圖分類號〕G254.91?〔文獻標識碼〕A?〔文章編號〕1008-0821(2020)04-0013-10
Research on Discovery of the Focus of City Identity from the
Perspective of City Profile
Bi Chongwu?Ye Guanghui*?Hu Jinglan?Li Mingqian
(School of Information Management,Central China Normal University,Wuhan 430079,China)
Abstract:[Purpose/Significance]The research aimed to discover the focus of city identity in a period of time,and to analyze the publics overall impression of city and its dynamic changes.[Method/Process]Firstly,this paper proposed evaluation index,data source and calculation method for discovery of the focus of city identity.Secondly,it normalized the evaluation index by min-max normalization,and established evaluation model to calculate different cities identities by linear weighted sum method.Finally,it discovered the focus of city identity of the six central China provincial capitals in different periods,based on the Q&A data from“Zhihu”platform.[Result/Conclusion]It was operable to use the method in this paper to discover the focus of city identity in a period of time from the massive Q&A data.
Key words:city profile;city identity;public opinion hotspots;feature recognition;Zhihu platform;Wuhan;Changsha;Zhengzhou;Nanchang;Taiyuan;Hefei
智慧城市建設(shè)中的網(wǎng)絡(luò)輿情監(jiān)測一直受到社會各界關(guān)注。充分發(fā)揮現(xiàn)代信息技術(shù)的優(yōu)勢,感測、分析、整合城市的各項關(guān)鍵信息,真實、客觀、完整、及時地獲取城市網(wǎng)絡(luò)輿情是政府部門做出合理決策的基礎(chǔ)。城市畫像是公眾對城市特征的認知、評價和情感的綜合體現(xiàn)。早在20世紀60年代,Lynch K就依據(jù)市民的心理形象衡量城市的視覺質(zhì)量,并由此引出了城市畫像的概念[1]。這種由公眾依據(jù)自我認知形成的共同記憶,就像城市的一張名片,能夠在一定程度上反映城市的個性與特征,展現(xiàn)城市形象與內(nèi)涵,對城市規(guī)劃管理、城市特色塑造、城市文化傳承等方面具有重要意義。隨著數(shù)據(jù)科學(xué)的發(fā)展,學(xué)者們逐步意識到網(wǎng)絡(luò)數(shù)據(jù)為實現(xiàn)洞見城市運行情況的目標提供了可行途徑,并圍繞以數(shù)據(jù)為中心的城市畫像研究展開了多層次、多視角、多方位的理論與技術(shù)探索[2-4]。而社交網(wǎng)絡(luò)中的用戶問答數(shù)據(jù)作為新媒體時代孕育的載體,承載了公眾心中最直觀且感性的城市畫像,蘊含了公眾視角下某段時期內(nèi)城市發(fā)展的主要特征,體現(xiàn)了公眾對城市特征的綜合印象。由此,本文從城市畫像視角出發(fā),借鑒突發(fā)主題識別技術(shù)中的爆發(fā)詞檢測方法,定義標簽關(guān)注度、標簽新穎度和標簽創(chuàng)新度3個指標構(gòu)建綜合指標評價模型,以求從社交網(wǎng)絡(luò)中的用戶問答數(shù)據(jù)中識別某段時間內(nèi)被社會各界廣泛關(guān)注、具有較大影響力且近期未被重點關(guān)注的熱點城市特征。文中方法的實施有利于提高城市全面感知、分析和利用城市畫像的能力,診斷城市當(dāng)前面臨的突出問題和主要矛盾,輔助政府部門智能響應(yīng)公共安全、城市服務(wù)和商業(yè)活動等各方面的社會需求。
1?研究現(xiàn)狀
城市作為一個相對獨立的社會系統(tǒng),包含成千上萬個變量。城市的政治、經(jīng)濟、文化和生態(tài)等因素均會對城市特征產(chǎn)生影響。目前城市特征研究側(cè)重于關(guān)注城市空間特征,重視空間結(jié)構(gòu)對城市特征造成的影響,通常構(gòu)建研究體系探索熱點空間特征的內(nèi)在形成機理及其與居民活動間的互動關(guān)系;并在理論性闡述熱點空間特征起源和延續(xù)原因的同時,通過實證研究分析政治、經(jīng)濟和文化等非物質(zhì)因素對城市特征造成的影響[5]。在數(shù)據(jù)獲取方面,現(xiàn)有研究大多采用主觀性較強的問卷調(diào)查[6]、深度訪談[7]和意向草圖[8-9]等社會學(xué)調(diào)查方法;在數(shù)據(jù)分析方面,現(xiàn)有研究也多沿襲數(shù)理統(tǒng)計、認知地圖[10-11]和空間分析[12]等旅游學(xué)研究方法。事實上在收集、處理和分析主觀性數(shù)據(jù)的過程中,傳統(tǒng)旅游學(xué)研究方法的不足和局限逐漸顯現(xiàn)。難以回收大量有效數(shù)據(jù)、收集數(shù)據(jù)包含大量噪聲(調(diào)查對象理解偏差或填寫虛假信息)、處理非線性數(shù)據(jù)困難等諸多問題均會給實證分析結(jié)果帶來偏差甚至錯誤,并最終影響實證研究所獲結(jié)論的可靠性[13]。
社交網(wǎng)絡(luò)中描述城市特征的用戶問答數(shù)據(jù)蘊含著公眾的態(tài)度和認知。它們不僅相對客觀,能夠在一定程度上避免上述問題;而且可以利用突發(fā)主題識別技術(shù)直接獲取不同城市的熱點城市特征。事實上,突發(fā)主題識別在眾多基于文本挖掘的社交網(wǎng)絡(luò)研究中具有重要應(yīng)用。學(xué)術(shù)界對突發(fā)主題識別研究起源于熱點話題的檢測與追蹤(Topic Detection and Tracking,TDT)技術(shù)。該技術(shù)與數(shù)據(jù)挖掘、信息檢索等自然語言處理技術(shù)間有很多共性,最初應(yīng)用于監(jiān)控具有突發(fā)和延續(xù)性規(guī)律的新聞?wù)Z料,后來逐漸成為信息處理領(lǐng)域的研究熱點。目前主要研究方法包括:1)在語義相似度計算和聚類分析的基礎(chǔ)上,通過自動分類話題文本發(fā)現(xiàn)熱點話題的向量空間方法[14-15];2)在詞頻統(tǒng)計和權(quán)重計算的基礎(chǔ)上,挖掘熱點話題的統(tǒng)計語言模型[16-18];3)在構(gòu)建網(wǎng)絡(luò)鏈接及分析的基礎(chǔ)上,通過轉(zhuǎn)移概率和轉(zhuǎn)移矩陣探究話題演變的圖論方法[19-20];4)混合使用以上方法,通過歸納、總結(jié)熱點話題的主要特征,實現(xiàn)組織處理這些特征的突發(fā)檢測方法[21-23]。
在眾多研究之中,正確識別并處理文本中的爆發(fā)詞是所有關(guān)于突發(fā)主題識別研究的基礎(chǔ)性工作,對突發(fā)主題探測及其趨勢監(jiān)測具有重大影響。目前關(guān)于爆發(fā)詞識別的相關(guān)研究主要是基于詞語的科技監(jiān)測方法,可將其總結(jié)、歸納為基于數(shù)理統(tǒng)計的詞頻分析方法、基于詞組網(wǎng)絡(luò)關(guān)系的共詞分析方法、基于詞頻變化率的突發(fā)監(jiān)測方法和基于語義相似度的內(nèi)容分析方法[24]。其中,在詞語集合中區(qū)分爆發(fā)詞與非爆發(fā)詞的研究重點并非僅僅停留在統(tǒng)計層面的詞語聚類和分類技術(shù)上,而是逐漸向詞語間的語義關(guān)系和上下文語境延伸。此外,隨著通用本體與領(lǐng)域本體的日漸成熟,文本語義相似度研究也日臻完善,由此產(chǎn)生了一系列比較有代表性的理論、技術(shù)和方法,其研究成果集中在概念、語句和文檔3種不同文本粒度的語義相似度計算上。與此同時,諸多學(xué)者將語義相似度研究應(yīng)用于信息提取、詞義消歧、語義計算、文本聚類和文本分類等自然語言處理領(lǐng)域,并進一步將其引入到爆發(fā)詞的特征識別、時段識別、語義合并和關(guān)聯(lián)映射等方面研究,從而使關(guān)于爆發(fā)詞識別的相關(guān)研究更加成熟和完善[25]。
2?熱點城市特征識別方法
2.1?熱點城市特征特點分析
本文經(jīng)過梳理現(xiàn)有爆發(fā)詞檢測方法后,對描述熱點城市特征的載體——標簽的特點歸納、總結(jié)為:在標注頻次上具有較高的關(guān)注度、在標注時間上具有一定的新穎性、在標注內(nèi)容上具有潛在的創(chuàng)新性。具體而言,本文認為城市畫像視角下的熱點城市特征應(yīng)該同時滿足如下條件:
1)描述某座城市熱點城市特征的標簽是公眾廣泛認可的,具有較高的標注頻次,即公眾對標簽描述的城市特征具有較高的社會關(guān)注度;
2)描述某座城市熱點城市特征的標簽出現(xiàn)時間較晚,在當(dāng)前或某段時間內(nèi)受到公眾廣泛關(guān)注,即標簽描述的城市特征具有一定的時間新穎性;
3)描述某座城市熱點城市特征的標簽與描述該座城市已有標簽在內(nèi)容層面上有所差異,現(xiàn)有標簽和已有標簽間的文本語義相似程度較小,即現(xiàn)有標簽描述的城市特征具有潛在的語義創(chuàng)新性。
基于以上分析,本文從標簽的標注熱度、標注時間和標注內(nèi)容3個維度刻畫城市畫像視角下的熱點城市特征。其中,標注熱度和標注時間分別對應(yīng)熱點評價指標中的標簽關(guān)注度和標簽新穎度,可以看作是從數(shù)理統(tǒng)計層面刻畫的熱點城市特征;而標注內(nèi)容對應(yīng)評價指標中的標簽創(chuàng)新度,可以看作是從文本語義層面刻畫的熱點城市特征。由此,本文依據(jù)熱點城市特征這3個主要特點定義熱點城市特征的評價指標,并采用線性加權(quán)和法構(gòu)造綜合指標評價模型,以此獲取不同段時間內(nèi)不同城市的熱點城市特征。
2.2?熱點城市特征評價指標
本文根據(jù)熱點城市特征評價指標的數(shù)據(jù)來源范圍,將其劃分為外部屬性評價指標和內(nèi)部屬性評價指標。外部屬性評價指標是指可以直接采用數(shù)理統(tǒng)計方法獲取實證數(shù)據(jù)的標簽關(guān)注度和標簽新穎度,其實證數(shù)據(jù)從標簽的標注頻次、標注時間等數(shù)據(jù)中獲得。內(nèi)部屬性評價指標是指需要通過挖掘標簽文本內(nèi)容獲取實證數(shù)據(jù)的標簽創(chuàng)新度,其實證數(shù)據(jù)從標簽間文本語義相似度的計算結(jié)果中獲得。由此,本文在考慮城市畫像的刻畫方式其現(xiàn)實意義的基礎(chǔ)上,將熱點城市特征評價指標的特征屬性、數(shù)據(jù)來源及其計算方法總結(jié)如表1所示。
2.2.1?標簽關(guān)注度
標簽的標注頻次蘊含了公眾對其描述城市特征的認可程度。熱點城市特征具有較高公眾關(guān)注度這一特點可以通過描述該城市特征的標簽的標注頻次反映出來。由于不同標簽解釋城市特征的能力有所差異,因此衡量某一城市特征是否具有較高公眾關(guān)注度時,若僅對描述該城市特征的標簽進行簡單的詞頻統(tǒng)計,會導(dǎo)致大量標注頻次較高但解釋城市特征能力較弱的標簽獲得較高的標簽關(guān)注度。本文在依據(jù)標簽標注頻次的基礎(chǔ)上,融入TF-IDF算法衡量不同標簽對城市特征的解釋能力,將TF理解為標簽對某座城市的標注次數(shù),將IDF理解為標簽對不同城市的區(qū)別程度,其計算步驟如下:
首先,采用中文分詞技術(shù)將每個標簽Ta切分為n個相互獨立的詞組,并對這些詞組進行數(shù)據(jù)預(yù)處理,以Ta=(t1,t2,…,tn)表示;
然后,采用空間向量模型將Ta表示為:VTa=(t1·wt1,t2·wt2,…,tn·wtn),并依據(jù)TF-IDF算法計算詞組ti在不同向量空間VTa中的權(quán)重wti;
最后,將權(quán)重wti作為衡量標簽Ta在解釋城市特征能力方面的重要指標,并定義標簽關(guān)注度TATa,Citya的計算方法為:
TATa,Citya=1n∑ni=1wti=1n∑ni=1logfti·log(N/nti+1)(1)
其中,fti表示詞組ti標注城市Citya的頻率;N表示標簽集合中所有詞組的總數(shù);n表示標簽Ta中詞組ti的數(shù)量;nti表示詞組在標簽集合中出現(xiàn)的次數(shù)。由此可見,城市Citya中某城市特征的關(guān)注程度既和標簽Ta標注城市Citya的次數(shù)成正比,又和標簽Ta解釋城市Citya的能力成正比。若描述某城市特征的標簽Ta具有較高的標注頻次,并且能夠較好地區(qū)分不同城市間的城市特征,則說明這個城市特征具有較高的關(guān)注程度,即TATa,Citya值較高。
2.2.2?標簽新穎度
熱點城市特征會隨著時間推移發(fā)生變化。公眾會逐漸遺忘城市過去的歷史特征,反復(fù)記憶城市持續(xù)的核心特征,不斷注入城市突發(fā)的實時特征。事實上,描述城市特征的標簽既可將其看作是網(wǎng)絡(luò)信息資源的一種索引或元數(shù)據(jù),又可將其看作是一種特殊的網(wǎng)絡(luò)信息資源。從網(wǎng)絡(luò)信息資源老化的角度來說,公眾會逐漸減少對以往標簽的標注行為,并逐漸增加對新興標簽的標注行為。因此,標簽的標注時間應(yīng)作為判斷其描述的城市特征是否是熱點城市特征的一項重要依據(jù)。
本文通過定義標簽新穎度來揭示熱點城市特征在時間維度上的重要特性。由于標簽由若干個相互獨立的詞組組成,因此標簽的新穎程度可以依據(jù)它包含詞組的平均標引時間來衡量。在某段時間內(nèi),平均標引時間越晚的標簽其新穎程度值越大,說明這些標簽描述的城市特征出現(xiàn)時間較晚,比較可能成為其描述城市在這段時間內(nèi)的熱點城市特征。反之,說明這些標簽描述的城市特征不太可能成為其描述城市在這段時間內(nèi)的熱點城市特征。由此,本文定義標簽新穎度TNTa,Citya的計算方法為:
TNTa,Citya=DTan=1n∑ni=1Dtinti(2)
其中,DTa表示標簽Ta中所有詞組的總標引時間;Dti表示標簽Ta中詞組ti在標簽集合中的總標引時間;n表示標簽Ta中所有詞組的數(shù)量;nti表示詞組ti在標簽集合中的出現(xiàn)次數(shù)。
2.2.3?標簽創(chuàng)新度
從城市畫像視角看,熱點城市特征是公眾在某段時間內(nèi)對城市當(dāng)前擁有的某些特征標注了大量標簽的結(jié)果,即這段時間內(nèi)描述城市特征的社會化標注系統(tǒng)中出現(xiàn)了一些新興的標簽主題。本團隊在以往的研究中發(fā)現(xiàn):社會化標注系統(tǒng)中形成新主題的標簽可能是新標簽,也可能是舊標簽[26]。因此,描述熱點城市特征的標簽既可以是被公眾高頻次標注的舊標簽,即標簽關(guān)注度較高;又可以是與舊標簽相比在文本內(nèi)容和語義層面上有所差異的新標簽,即標簽創(chuàng)新度較高。舊標簽揭示了以往出現(xiàn)過,但在過去一段時間內(nèi)未成為公眾關(guān)注熱點的城市特征;新標簽揭示了僅在近期出現(xiàn),且短時間內(nèi)迅速被公眾廣泛關(guān)注的新興城市特征。由此可見,熱點城市特征識別不僅需要考慮標簽標注頻次,還需要依據(jù)文本語義相似度計算方法,測算當(dāng)前標簽與已有城市特征間的語義相似度,以此補充并完善熱點城市特征測度方法。
本文利用文本語義相似度計算方法計算標簽的創(chuàng)新程度。首先,運用分詞技術(shù)提取標簽中包含的概念詞,并采用空間向量模型表示其描述的城市特征。若標簽Ta中包含XTa個概念詞,則用Ta∈{Sa1,Sa2,…,Sax}表示;若城市Citya的城市特征Cb中包含YCb個概念詞,則用Cb∈{Sb1,Sb2,…,Sby}表示。然后,通過計算空間向量間的余弦相似度cos(Ta,Cb)獲得每個標簽Ta和M個城市特征Cb間的文本語義相似度Sim(Ta,Cb),并定義標簽創(chuàng)新度HITa,Citya的計算方法為:
TITa,Citya=1M∑Mb=1Sim(Ta,Cb)=1M∑Mb=1cos(Ta,Cb)(3)
由此,如果某座城市當(dāng)前被標記的標簽與以往城市特征間的文本語義相似度較小,則說明該城市當(dāng)前擁有的城市特征與先前擁有的城市特征在語義含義方面差距較大,從而揭示出當(dāng)前城市特征與以往城市特征相比在文本內(nèi)容和語義層面上具有創(chuàng)新性。
2.3?熱點城市特征識別過程
本文首先采用min-max標準化(Min-max Normalization)方法,將具有不同量級和不同方向的評價指標進行數(shù)據(jù)標準化處理;然后根據(jù)上文所述的熱點城市特征評價指標,采用線性加權(quán)和法(Linear Weighted Sum Method)構(gòu)造綜合指標評價模型;最后依次計算各個城市特征的綜合評價指數(shù),以獲取不同城市在某段時間內(nèi)的熱點城市特征。
2.3.1?指標數(shù)據(jù)標準化
標簽關(guān)注度和新穎度是正向指標,其計算值越大表示標簽所描述的城市特征越有可能成為熱點特征;然而標簽創(chuàng)新度是逆向指標,其計算值越小表示標簽所描述的城市特征越有可能成為熱點特征。因此,本文需要采用不同的數(shù)據(jù)標準化處理方法使這兩種指標在因變量方向上保持一致。
2.3.2?綜合指標評價模型構(gòu)建
本文通過對標簽關(guān)注度、標簽新穎度和標簽創(chuàng)新度3個評價指標進行線性加權(quán)求和,構(gòu)造出識別熱點城市特征的綜合指標評價模型,如式(4)所示,依據(jù)其計算結(jié)果可以判別各標簽描述的城市特征是否是對應(yīng)城市的熱點城市特征。
WTa,Citya=aTATa,Citya+bTNTa,Citya+cTITa,Citya(4)
其中,TATa,Citya、TNTa,Citya和TITa,Citya分別表示描述城市Citya的標簽Ta在標簽關(guān)注度、標簽新穎度和標簽創(chuàng)新度的計算結(jié)果;WTa,Citya表示標簽Ta描述的城市特征的綜合指標評價數(shù)值;a、b和c均表示指標權(quán)重,且a+b+c=1。
2.3.3?評價指標權(quán)重計算
為確保綜合指標評價模型的可推廣性,本文選取不同指標權(quán)重對上述模型進行多次計算,依據(jù)計算結(jié)果確定各評價指標的最終權(quán)重,其具體步驟如下:
首先,平均賦予標簽關(guān)注度、標簽新穎度和標簽創(chuàng)新度這3個評價指標初始權(quán)重,即將每個評價指標的初始權(quán)重均設(shè)定為1/3;
然后,不斷改變各評價指標的計算權(quán)重,以人工遴選出的最優(yōu)計算結(jié)果為目標,通過對比實際計算結(jié)果進行調(diào)整與驗證,以此確定各指標最終權(quán)重,達到最優(yōu)的熱點城市特征識別效果。
2.3.4?熱點城市特征獲取
熱點城市特征識別過程實際上是從描述城市特征的標簽中挖掘不同城市在某段時間內(nèi)的主要特征,并進一步判斷這些城市特征是否是在該段時間內(nèi)被公眾廣泛關(guān)注。本文依據(jù)綜合指標評價模型可以計算某段時間內(nèi)城市Citya擁有的所有標簽Ta對應(yīng)的綜合指標評價數(shù)值WTa,Citya,進而采用降序排列和設(shè)置閾值區(qū)間等數(shù)據(jù)處理、分析步驟篩選出獲得較高數(shù)WTa,Citya值的標簽。這些標簽描述的城市Citya特征就是城市在這段時間內(nèi)擁有的熱點城市特征。
3?實證研究
本文利用網(wǎng)絡(luò)爬蟲技術(shù)抓取“知乎”平臺中關(guān)于我國中部六省省會城市(武漢、長沙、鄭州、南昌、太原、合肥)主要特征的用戶問答數(shù)據(jù),具體包括“××是一個怎樣的城市?”、“關(guān)于××,你印象最深的是什么?”、“××有什么好玩的地方?”等問題。原始數(shù)據(jù)中包括了用戶回答內(nèi)容、用戶昵稱、評論內(nèi)容、創(chuàng)立時間、點贊數(shù)、評論數(shù)、所屬問題等字段,共計21 247條記錄,時間范圍為2011年6月10日至2019年1月4日。本團隊選取5名碩士研究生從原始數(shù)據(jù)中人工抽取用戶描述城市畫像的標簽,為規(guī)范標簽標注格式及質(zhì)量,滿足熱點城市特征識別過程中的數(shù)據(jù)處理要求,將標簽結(jié)構(gòu)定義為“屬性詞+特征詞”。在人工抽取標簽前,本團隊以“武漢”數(shù)據(jù)為例,對5名同學(xué)進行培訓(xùn),確保其可以按照相關(guān)流程,以相對規(guī)范的操作流程從城市描述文本中抽取結(jié)構(gòu)化標簽。此外,本團隊為排除個人因素,將所有城市的用戶問答數(shù)據(jù)匯總并隨機分配給每位同學(xué),以此確保每座城市的城市畫像均被5名同學(xué)標記。
3.1?數(shù)據(jù)準備
3.1.1?數(shù)據(jù)預(yù)處理
人工抽取標簽依然具有模糊性(如同義詞、多義詞等)、多樣性(縮寫、簡寫、詞形多樣等)等問題。本文通過定義標簽清洗規(guī)則清洗標簽,獲得具有更高數(shù)據(jù)質(zhì)量的標簽集合,具體包括:1)刪除與目標城市特征無關(guān)的標簽數(shù)據(jù);2)刪除重復(fù)評論產(chǎn)生的標簽,只存取其中一條標簽數(shù)據(jù);3)改正標簽中的錯別字,將相同標簽數(shù)據(jù)進行匯總。
此外,為滿足熱點城市特征識別過程中的數(shù)據(jù)處理要求,本文將數(shù)據(jù)清洗后的標簽按時間先后順序排序,并設(shè)置“序號”字段作為主鍵,使之成為標簽的唯一標識字段;定義“時間軸”字段簡化時間方面的相關(guān)計算,以2011年6月10日作為起始時間,將其取值設(shè)置為0,并按時間天數(shù)遞增獲得所有標簽在“時間軸”字段下的數(shù)值。為獲取不同城市在各時間段內(nèi)熱點城市特征的變化情況,本文最終將所有數(shù)據(jù)分割為8個時間段,詳見表2。
3.1.2?分詞詞庫獲取
在搜狗細胞詞庫(https://pinyin.sogou.com/dict/)——“××市城市信息精選”詞庫中獲取搜狗官方網(wǎng)站推薦的我國中部六省省會城市的細分化詞庫。這些詞庫包含了我國中部六省省會城市關(guān)于地名、公交、購物、餐飲等各種信息,有助于提升標簽的自動分詞效果。
3.1.3?停用詞表創(chuàng)建
根據(jù)分詞詞庫對標簽進行分詞,并統(tǒng)計分詞結(jié)果中各詞組詞頻,通過對比標簽記錄表與詞頻統(tǒng)計表更新常用停用詞表,以此獲得自建停用詞表。
3.2?評價指標計算
3.2.1?標簽關(guān)注度計算
首先,利用分詞詞庫和自建停用詞表對標簽進行自動分詞,并刪除去停用詞后為空的記錄。然后,依據(jù)自動分詞結(jié)果統(tǒng)計各詞組詞頻,獲得詞頻表,詞頻合計為N。針對某時間段下的標簽Ta,可按詞組ti查詢詞頻表獲得nti;nti除以該時間段下的標簽總數(shù)可得該詞組的fti。最后,依據(jù)公式計算TATa,Citya,詳見表3。
3.2.2?標簽新穎度計算
首先,依據(jù)“時間軸”字段和自動分詞結(jié)果抽取每個詞組的所有出現(xiàn)時間,并計算詞組平均標記時間。然后,針對某時間段下的標簽Ta,按詞組ti查詢平均標記時間表計算標簽Ta的平均標記時間獲得Dti/nti;最后,從自動分詞后獲得的數(shù)據(jù)表中抽取標簽Ta含有詞組ti的數(shù)量n,按公式計算TATa,Citya,詳見表4。
3.2.3?標簽創(chuàng)新度計算
計算標簽創(chuàng)新度時需要比較兩個相鄰時間段的標簽,即某時間段下標簽Ta與前一時間段下標簽Cb間的文本語義相似度。因此,TIME1時間段下所有標簽的創(chuàng)新度均無法計算(設(shè)置為0)。獲得標簽Ta與前一時間段下所有標簽的文本語義相似度后,通過求和并除以前一時間段下標簽總數(shù)的方式,可求得各時間段下標簽的標簽創(chuàng)新度,詳見表5。
3.3?熱點城市特征識別
3.3.1?指標數(shù)據(jù)標準化
本文采用min-max標準化方法將具有不同量級和不同方向的評價指標歸一化處理。正向指標的數(shù)據(jù)處理方法為Y=(X-X_min)/(X_max-X_min),逆向指標的數(shù)據(jù)處理方法為Y=(X_max-X)/(X_max-X_min)。其中,Y表示指標的標準化值,X表示指標的原始值,X_max與X_min分別表示指標原始值中的最大值和最小值,詳見表6。
3.3.2?評價指標權(quán)重確定
本文以不同時間段內(nèi)網(wǎng)絡(luò)用戶對不同城市的整體評價為參照對象,通過對比分析確定綜合指標評價模型是否獲得了符合實際情況的熱點城市特征。在實證研究過程中,標簽關(guān)注度指標和標簽新穎度指標對識別熱點城市特征的作用程度更為突出,因此在綜合指標評價模型中可以設(shè)定較大權(quán)重。其中,標簽新穎度指標由于受標簽集合所處的時間階段影響,其作用程度次于標簽關(guān)注度指標。標簽創(chuàng)新度指標雖然對識別熱點城市特征具有一定作用,但不是最重要的考慮因素,且實際操作過程中受標簽的自然語言處理結(jié)果(人工標記結(jié)果和自動分詞結(jié)果)影響較大,因此在綜合指標評價模型中可以適當(dāng)調(diào)低權(quán)重。本文最終將評價指標權(quán)重設(shè)定為標簽關(guān)注度權(quán)重0.45,標簽新穎度權(quán)重0.35,標簽創(chuàng)新度權(quán)重0.2,并由此獲得完整的綜合指標評價模型:
WTa,Citya=0.45TATa,Citya+0.35TNTa,Citya+0.2TITa,Citya(5)
3.3.3?結(jié)果分析與解讀
本文依據(jù)式(5)計算武漢各時間段下所有標簽的WTa,Citya,并按WTa,Citya值降序排列選出其在各時間段下的熱點城市特征Top5,詳見表7。重復(fù)上述流程,本文得到我國中部六省省會城市在各時間段下的熱點城市特征,詳見表8。
以武漢熱點城市特征為例,在8個時間段內(nèi)主要分布著“城市文化”、“城市交通”、“城市發(fā)展”、“城市環(huán)境”4個方面的城市特征描述。其中,公眾對城市交通和城市環(huán)境的描述在所有時間段內(nèi)基本沒有太大變化,“司機脾氣急躁”、“交通擁堵”、“暈車”等描述反映了公眾對城市交通的整體印象;“九省通衢”、“便利”等描述也反映武漢重要的交通樞紐地位,以及城市內(nèi)多元化的交通工具給公眾出行帶來的便利。在TIME 6時間段內(nèi)(2015.07-2015.12)首次出現(xiàn)了“光谷特別擁堵”的城市交通描述,這可能與光谷地區(qū)開始大力修建地鐵線路引起的交通擁堵有關(guān);在2014-2015年間,公眾對城市環(huán)境的描述主要集中在“冬冷夏熱”,尤其是“熱”、“火爐”成為武漢氣候的代表性描述。自2016年起,武漢熱點城市特征中出現(xiàn)了“霧霾”、“暴雨”、“潮濕”等新描述,究其原因是霧霾導(dǎo)致空氣質(zhì)量變差,天空呈現(xiàn)灰蒙蒙現(xiàn)象,而潮濕環(huán)境和炎熱天氣組合成“濕熱”氣候使得整個城市環(huán)境變得更加復(fù)雜。
此外,公眾對武漢城市文化和城市發(fā)展的描述也隨著時間推進呈現(xiàn)出一定變化。例如在城市文化方面,2014-2015年間公眾對武漢城市文化的描述主要體現(xiàn)在“黃鶴樓”、“戶部巷”等歷史文化,“涂鴉”、“VOX LiveHouse”等朋克文化,“熱干面”、“小龍蝦”等美食文化;但2017-2018年間則更傾向于旅游文化,“東湖”、“櫻花”、“輪渡”、“夜景”、“長江大橋”等城市特征也均成為新晉熱點城市特征。在城市發(fā)展方面,“滿城挖”和“修路”一直是公眾對武漢城市發(fā)展的主要描述,但武漢也在教育和經(jīng)濟方面出現(xiàn)了較為嚴重的人才流失問題。自2016年起,“武漢每天不一樣”成為武漢新的城市宣傳語,并由此帶來了“經(jīng)濟改善”、“人口增多”、“商圈擴大”、“大學(xué)生留漢”等積極的社會影響。通過以上分析可知,盡管一座城市在不同時期內(nèi)的熱點城市特征具有部分相似性,但會隨著時代背景變化而呈現(xiàn)出一定差異。這些差異會在文中方法的計算結(jié)果中展現(xiàn)出來,這也在一定程度上說明了本文爆發(fā)詞檢測方法的必要性。
4?結(jié)?語
本文在考慮城市畫像刻畫方式其現(xiàn)實意義的基礎(chǔ)上,首先詳細分析了熱點城市特征的主要特點,并依據(jù)這些特點設(shè)計了熱點城市特征的評價指標及其數(shù)據(jù)來源和計算方法;然后對不同量級、不同方向的評價指標進行標準化處理,并采用線性加權(quán)和法構(gòu)造綜合指標評價模型,計算不同時間內(nèi)城市的熱點城市特征;最后利用爬蟲技術(shù)采集知乎平臺中描述中部六省省會城市特征的用戶問答數(shù)據(jù),并以此為原始數(shù)據(jù)展開實證研究。然而本文使用城市標簽數(shù)據(jù)的并不是傳統(tǒng)意義上的標簽,而是從用戶問答數(shù)據(jù)中人工抽取的。雖然該方法能夠從海量網(wǎng)絡(luò)數(shù)據(jù)中獲取城市在不同時間段內(nèi)的熱點城市特征,但標簽標注質(zhì)量和自動分詞結(jié)果將直接影響著熱點城市特征的識別效果。因此,如何結(jié)構(gòu)化處理用戶原始評論提高標簽抽取質(zhì)量,以及如何選用最優(yōu)的分詞技術(shù)提升分詞效果將會是本項目團隊今后的研究方向。
參考文獻
[1]Lynch K.The Image of the City[M].Cambridge,Massachusetts:The MIT Press,1960.
[2]馬亞雪,李綱,謝輝,等.數(shù)字空間視角下的城市數(shù)據(jù)畫像理論思考[J].情報學(xué)報,2019,38(1):62-71.
[3]馬超,李綱.基于城市大數(shù)據(jù)的城市數(shù)據(jù)畫像構(gòu)建[J].現(xiàn)代情報,2019,39(8):3-9.
[4]杜智濤,李綱.面向精細化治理的城市畫像:構(gòu)成要素與應(yīng)用體系[J].圖書情報知識,2019,(4):43-51.
[5]田逢軍,汪忠列.城市空間意象研究述評與展望[J].世界地理研究,2014,(1):84-92.
[6]王德,張昀,崔昆侖.基于SD法的城市感知研究——以浙江臺州地區(qū)為例[J].地理研究,2009,28(6):1528-1536.
[7]張夢琦.北京市城市意象調(diào)查及解析[D].保定:河北農(nóng)業(yè)大學(xué),2013.
[8]田逢軍,沙潤.城市旅游地意象空間分析——以南昌市為例[J].旅游學(xué)刊,2008,23(7):67-71.
[9]宋偉軒,呂陳,徐旳.城市社區(qū)微觀空間意象研究——基于南京居民250份手繪草圖的比較[J].地理研究,2011,30(4):709-722.
[10]張新紅,蘇建寧,魏書威.蘭州城市居民意象空間及其結(jié)構(gòu)研究[J].人文地理,2010,(2):54-60.
[11]宋偉軒,呂陳,徐旳.城市社區(qū)微觀空間意象研究——基于南京居民250份手繪草圖的比較[J].地理研究,2011,30(4):709-722.
[12]蔣志杰,吳國清,白光潤.旅游地意象空間分析——以江南水鄉(xiāng)古鎮(zhèn)為例[J].旅游學(xué)刊,2004,19(2):32-36.
[13]陳夢遠,徐建剛.城市意象熱點空間特征分析——以南京為例[J].地理研究,2014,33(12):2286-2298.
[14]Kumaran G,Allan J.Text Classification and Named Entities for New Event Detection[J].2004,20(17):297-304.
[15]Nallapati R,F(xiàn)eng A,Peng F,et al.Event Threading Within News Topics[C]//Thirteenth ACM International Conference on Information and Knowledge Management.ACM,2004:446-453.
[16]Blei D M,Lafferty J D.Dynamic Topic Models[C]//Proc.International Conference on Machine Learning.2006:113-120.
[17]Li Z,Wang B,Li M,et al.A Probabilistic Model for Retrospective News Event Detection[J].2005:106-113.
[18]Mei Q,Liu C,Su H,et al.A Probabilistic Approach to Spatiotemporal Theme Pattern Mining on Weblogs[C]//International Conference on World Wide Web.ACM,2006:533-542.
[19]Kumar R,Mahadevan U,Sivakumar D.A Graph-theoretic Approach to Extract Storylines from Search Results[C]//Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Seattle,Washington,Usa,August.DBLP,2004:216-225.
[20]Zhao Q,Liu T Y,Bhowmick S S,et al.Event Detection from Evolution of Click-through Data[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2006:484-493.
[21]Fung G P C,Yu J X,Yu P S,et al.Parameter Free Bursty Events Detection in Text Streams[C]//International Conference on Very Large Data Bases.2005:181-192.
[22]He Q,Chang K,Lim E P.Analyzing Feature Trajectories for Event Detection[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2007:207-214.
[23]Lappas T,Arai B,Platakis M,et al.On Burstiness-aware Search for Document Sequences[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Paris,F(xiàn)rance,June 28-July.DBLP,2009:477-486.
[24]逯萬輝,馬建霞,趙迎光.爆發(fā)詞識別與主題探測技術(shù)研究綜述[J].情報理論與實踐,2012,35(6):125-128.
[25]劉宏哲,須德.基于本體的語義相似度和相關(guān)度計算研究綜述[J].計算機科學(xué),2012,39(2):8-13.
[26]葉光輝,胡婧嵐,徐健,等.社交博客標簽增長態(tài)勢與連接模式分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(6):74-82.
(責(zé)任編輯:郭沫含)