李冠 趙毅
(山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,青島 266590)
政府?dāng)?shù)據(jù)開放是數(shù)字化政府和社會(huì)發(fā)展到一定時(shí)期的產(chǎn)物[1]。政府向公眾開放和共享數(shù)據(jù)資源,充分發(fā)揮了數(shù)據(jù)資源的價(jià)值,提高了政府綜合管理服務(wù)能力。隨著智慧城市、智慧鄉(xiāng)村等城鄉(xiāng)數(shù)字化建設(shè),公眾對(duì)數(shù)據(jù)資源的開放共享需求日益增長(zhǎng)。因此,我國(guó)在推進(jìn)數(shù)字化進(jìn)程中正在加快政府?dāng)?shù)據(jù)開放平臺(tái)建設(shè)。2015年8月,國(guó)務(wù)院頒布的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》指出,到2018年,中央層面構(gòu)建統(tǒng)一的互聯(lián)網(wǎng)政務(wù)數(shù)據(jù)服務(wù)平臺(tái)[2]。根據(jù)復(fù)旦大學(xué)數(shù)字與移動(dòng)治理實(shí)驗(yàn)室統(tǒng)計(jì),截至2021年10月,我國(guó)已有193個(gè)政府?dāng)?shù)據(jù)開放平臺(tái),基本實(shí)現(xiàn)了公共數(shù)據(jù)的平臺(tái)化服務(wù)[3]。為了更加精準(zhǔn)、有效地為用戶提供數(shù)據(jù)服務(wù),讓開放數(shù)據(jù)創(chuàng)造更大的經(jīng)濟(jì)和社會(huì)價(jià)值,深入研究平臺(tái)用戶的增量需求具有重要意義。
近年來,國(guó)內(nèi)外學(xué)術(shù)界非常關(guān)注政府?dāng)?shù)據(jù)開放平臺(tái)在用戶需求方面的研究。本文對(duì)相關(guān)文獻(xiàn)進(jìn)行梳理,總結(jié)歸納為以下三個(gè)方面的研究?jī)?nèi)容。①對(duì)用戶需求影響指標(biāo)的相關(guān)研究。Aguilera等[4]提出政府?dāng)?shù)據(jù)開放的關(guān)鍵主體是社會(huì)群眾,用戶既是數(shù)據(jù)的提供者也是數(shù)據(jù)的使用者,通過數(shù)據(jù)分析提出了用戶的不同需求類型,為研究用戶需求提供了一種路徑。Zuiderwijk等[5]提出影響用戶的需求指標(biāo),運(yùn)用實(shí)證方法研究了用戶對(duì)平臺(tái)的接受度和使用意愿,并對(duì)用戶的接納度進(jìn)行量化分析。Danneels等[6]使用3種認(rèn)識(shí)論定義了3種不同類型的數(shù)據(jù)開放平臺(tái),指出盡管用戶對(duì)政府開放數(shù)據(jù)寄予厚望,但是目前政府?dāng)?shù)據(jù)開放平臺(tái)仍未達(dá)到公眾預(yù)期。Susha等[7]使用解釋性薈萃分析的方法,分析了用戶需求的主要影響指標(biāo),結(jié)合具體實(shí)證研究了公眾對(duì)政府?dāng)?shù)據(jù)開放平臺(tái)的接受程度和推廣意愿。莫祖英等[8]從用戶視角出發(fā),構(gòu)建了政府?dāng)?shù)據(jù)開放質(zhì)量的模糊評(píng)價(jià)模型,為我國(guó)政府?dāng)?shù)據(jù)開放質(zhì)量的用戶評(píng)價(jià)提供了評(píng)判標(biāo)準(zhǔn)。劉迪[9]結(jié)合文獻(xiàn)分析法、問卷調(diào)查法和觀察法等分析了平臺(tái)對(duì)用戶需求的滿意情況,對(duì)用戶的需求類型做出分類,提出了通過定期評(píng)估數(shù)據(jù)開放成果健全政府?dāng)?shù)據(jù)開放平臺(tái)功能。用戶需求指標(biāo)的相關(guān)研究為本文劃分用戶需求類型以及衡量用戶滿意度等提供了參考。②結(jié)合開放數(shù)據(jù)政策對(duì)平臺(tái)用戶需求進(jìn)行分析。陳玲等[10]運(yùn)用TF-IDF算法和LDA模型對(duì)我國(guó)數(shù)據(jù)開放政策進(jìn)行了實(shí)證分析,揭示了我國(guó)政府開放數(shù)據(jù)政策的供給和需求存在不平衡的現(xiàn)象,未來要以滿足用戶需求為中心,做好數(shù)字服務(wù)型政府的工作。朱曉峰等[11]通過挖掘政府?dāng)?shù)據(jù)開放相關(guān)政策與實(shí)施成效間潛在因果關(guān)系,得出良好成效的政策前因條件組合,提出了政策支持是國(guó)家開放數(shù)據(jù)戰(zhàn)略的重要組成部分。相關(guān)研究闡明了開放數(shù)據(jù)政策與用戶需求的關(guān)聯(lián)因果,為本文對(duì)用戶需求的研究提供了新視角。③以某一平臺(tái)為例分析用戶需求特征。陸敬筠等[12]統(tǒng)計(jì)了上海市政府?dāng)?shù)據(jù)開放平臺(tái)用戶的訪問次數(shù),通過分析平臺(tái)用戶的行為特征構(gòu)建用戶畫像,有助于平臺(tái)了解用戶需求,提升平臺(tái)的服務(wù)水平。劉桂琴[13]以武漢市政府?dāng)?shù)據(jù)開放平臺(tái)的用戶評(píng)論為研究對(duì)象,提出從用戶情感視角研究用戶需求,發(fā)現(xiàn)有7個(gè)主題的情感趨向消極,2個(gè)主題的情感趨向積極,平臺(tái)服務(wù)在一些領(lǐng)域沒有較好地滿足用戶需求。楊洋[14]深度挖掘政府?dāng)?shù)據(jù)開放平臺(tái)中的城市交通數(shù)據(jù),從用戶的興趣點(diǎn)和興趣面角度預(yù)測(cè)了開放數(shù)據(jù)在用地功能識(shí)別、職住人口分布和交通出行方面的需求,為交通規(guī)劃拓展了數(shù)據(jù)獲取渠道。
綜上所述,學(xué)者們已經(jīng)取得了較為豐富的研究成果,相關(guān)研究結(jié)論對(duì)政府?dāng)?shù)據(jù)開放平臺(tái)的發(fā)展具有重要的參考價(jià)值。但經(jīng)過分析發(fā)現(xiàn),平臺(tái)用戶需求研究方面的樣本多來源于某一省或市級(jí)平臺(tái),而以多個(gè)省或市級(jí)平臺(tái)為研究樣本,并將需求主題聚類和情感分析相結(jié)合的研究較少,該領(lǐng)域仍存在進(jìn)一步改進(jìn)空間。因此,本文以9個(gè)?。ㄊ?、自治區(qū))級(jí)政府?dāng)?shù)據(jù)開放平臺(tái)為研究樣本,采集平臺(tái)用戶在線評(píng)論數(shù)據(jù),挖掘用戶需求主題特征,選取樸素貝葉斯算法研究用戶需求主題的情感傾向,通過對(duì)初建期和發(fā)展期的平臺(tái)用戶需求主題相似度計(jì)算研究平臺(tái)用戶需求主題演進(jìn)路徑,分析用戶需求的動(dòng)態(tài)變化,從而深入研究政府?dāng)?shù)據(jù)開放平臺(tái)用戶需求主題、情感訴求以及增量需求變化,為政府?dāng)?shù)據(jù)開放平臺(tái)的發(fā)展提供借鑒。
本文以復(fù)旦大學(xué)數(shù)字與移動(dòng)治理實(shí)驗(yàn)室于2021年10月發(fā)布的《中國(guó)地方政府?dāng)?shù)據(jù)開放報(bào)告指標(biāo)體系與省域標(biāo)桿》中的18個(gè)省級(jí)政府?dāng)?shù)據(jù)開放平臺(tái)為初始樣本,以平臺(tái)用戶瀏覽量大于30萬且用戶評(píng)論大于500條為篩選依據(jù),選取上海市、廣東省、山東省、湖北省、江蘇省、浙江省、貴州省、廣西壯族自治區(qū)、內(nèi)蒙古自治區(qū)(排名不分先后)9個(gè)?。ㄊ?、自治區(qū))的政府?dāng)?shù)據(jù)開放平臺(tái)為研究樣本。
本文采用八爪魚采集器爬取2017年1月1日—2022年6月30日9個(gè)?。ㄊ?、自治區(qū))政府?dāng)?shù)據(jù)開放平臺(tái)的用戶評(píng)論數(shù)據(jù)19 908條,數(shù)據(jù)字段包括用戶名稱、評(píng)論內(nèi)容、評(píng)論時(shí)間,整理得到的初始平臺(tái)用戶評(píng)論數(shù)據(jù)如表1所示。
表1 初始平臺(tái)用戶評(píng)論數(shù)據(jù)表(部分)
由于評(píng)論文本包含許多無效的干擾信息,主題挖掘的結(jié)果受數(shù)據(jù)質(zhì)量影響較大,因此需要對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理。首先,通過Jieba分詞對(duì)已爬取的文本進(jìn)行分詞,去除無關(guān)的字符。其次,去除用戶評(píng)論中的停用詞。經(jīng)過數(shù)據(jù)預(yù)處理后,最終得到17 871條用戶評(píng)論數(shù)據(jù),如表2所示。
表2 預(yù)處理后的平臺(tái)用戶評(píng)論數(shù)據(jù)表(部分)
復(fù)旦大學(xué)聯(lián)合國(guó)家信息中心數(shù)字經(jīng)濟(jì)研究所共同發(fā)布的《2020中國(guó)地方政府?dāng)?shù)據(jù)開放報(bào)告》顯示,全國(guó)有130多家政府?dāng)?shù)據(jù)開放平臺(tái),政務(wù)數(shù)據(jù)開放共享已成為政府公開信息治理和建設(shè)數(shù)字型政府的新標(biāo)準(zhǔn),“開放數(shù)據(jù),蔚然成林”的目標(biāo)也基本實(shí)現(xiàn)[15]。2020年12月發(fā)布的《關(guān)于加快構(gòu)建全國(guó)一體化大數(shù)據(jù)中心協(xié)同體系的指導(dǎo)意見》指出,我國(guó)已實(shí)現(xiàn)政府?dāng)?shù)據(jù)開放平臺(tái)的初步建設(shè)目標(biāo),下一階段將在各省數(shù)據(jù)開放平臺(tái)的基礎(chǔ)上形成分配優(yōu)化、綠色集約的一體化格局[16]。鑒于此,本文以2020年為時(shí)間節(jié)點(diǎn),將政府?dāng)?shù)據(jù)開放平臺(tái)的建設(shè)分為初建期(2017年1月—2020年12月)和發(fā)展期(2021年1月—2022年6月)兩個(gè)時(shí)期,進(jìn)行用戶需求主題研究。
主題模型是一種對(duì)文本隱含主題進(jìn)行建模的方法,通過將高維度的詞的集合映射到低維度的主題空間,實(shí)現(xiàn)對(duì)目標(biāo)數(shù)據(jù)的降維。在現(xiàn)有的研究中,根據(jù)適用對(duì)象的不同可將主題模型分為兩種:第一種是適用于長(zhǎng)文本處理的主題模型;第二種主要面向的是不超過10個(gè)詞的短文本,隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)[17]是其中的一種經(jīng)典模型,具有分類準(zhǔn)確性高、可解釋性強(qiáng)、應(yīng)用廣泛等特點(diǎn)??紤]到研究數(shù)據(jù)中用戶評(píng)論的篇幅較短,運(yùn)用LDA可以有效地識(shí)別語料庫(kù)中潛藏的主題信息,因此,本文選擇LDA主題模型實(shí)現(xiàn)對(duì)用戶需求的主題聚類。
基于2.2中已清洗的用戶評(píng)論數(shù)據(jù)構(gòu)建詞頻矩陣,并建立LDA主題模型。利用LDA模型對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練可以得到不同主題的分類情況。訓(xùn)練參數(shù)設(shè)置為:選定主題范圍1~20;設(shè)置超參數(shù)α=20/K,β=0.01,其中K為主題個(gè)數(shù);同時(shí)設(shè)置訓(xùn)練次數(shù)為500次。通過調(diào)用LDA主題模型中的Log_Perplexity,分別計(jì)算平臺(tái)初建期和發(fā)展期的困惑度數(shù)值,并依據(jù)其數(shù)值確定LDA最優(yōu)主題數(shù)。
Azzopardi等[18]認(rèn)為,困惑度數(shù)值越低,文檔歸屬某一潛在主題的概率越高,表明模型的聚類效果越好,由此可以確定出最優(yōu)主題數(shù)。因此本文得出,當(dāng)平臺(tái)初建期的困惑度數(shù)值為63時(shí)達(dá)到最小值,當(dāng)前語料的最優(yōu)主題數(shù)目為8;當(dāng)平臺(tái)發(fā)展期的困惑度數(shù)值為121時(shí)達(dá)到最小值,平臺(tái)發(fā)展期的最優(yōu)主題數(shù)為11。
結(jié)合LDA模型主題詞的自動(dòng)提取和現(xiàn)有研究的領(lǐng)域分布?xì)w類[19]以及人工判讀,對(duì)初建期和發(fā)展期各主題下的高頻詞內(nèi)容進(jìn)行總結(jié)歸類得到主題描述,分別如表3、表4所示。
表3 初建期的主題列表
表4 發(fā)展期的主題列表
本文依據(jù)上述平臺(tái)用戶需求LDA主題聚類,分別從平臺(tái)初建期和發(fā)展期兩個(gè)時(shí)期進(jìn)一步分析政府?dāng)?shù)據(jù)開放平臺(tái)的用戶需求熱點(diǎn),為相關(guān)部門精準(zhǔn)分析用戶的需求特征以及平臺(tái)的優(yōu)化與發(fā)展提供參考。
3.3.1 初建期(2017年1月—2020年12月)
①數(shù)據(jù)質(zhì)量主題下的高頻詞主要包括“全面”“數(shù)據(jù)集”“更新周期”“開放授權(quán)”等,可以看出這些詞語都是圍繞開放數(shù)據(jù)服務(wù)需求所展開的,通過這些詞可以分析出,用戶對(duì)數(shù)據(jù)的分類、數(shù)據(jù)的格式和數(shù)據(jù)可視化等方面的需求意愿比較強(qiáng)烈。
②基本服務(wù)主題下的高頻詞主要包括“養(yǎng)老保險(xiǎn)”“衛(wèi)生醫(yī)療”“社??ā钡?,該主題所反映的高頻詞與群眾的日常活動(dòng)息息相關(guān),這是平臺(tái)所提供最基礎(chǔ)、也是非常重要的服務(wù),因此將其歸納為“基本服務(wù)”。
③安全保障主題下的高頻詞主要包括“隱私”“平臺(tái)”“隱私泄露”等,不難看出,這些內(nèi)容都是與開放數(shù)據(jù)的安全相關(guān)的。用戶在使用政府所提供開放數(shù)據(jù)的同時(shí),意識(shí)到了數(shù)據(jù)安全的重要性。數(shù)據(jù)隱私的保護(hù)、部分信息存在泄露、登錄身份無效等是用戶所關(guān)心和亟待解決的問題。
④公共服務(wù)主題下的高頻詞主要有“證書”“地理空間”“考試”“研究”“企業(yè)”等。這些詞語都與政府職能部門所提供的公共服務(wù)關(guān)聯(lián)性較強(qiáng)。用戶在政府?dāng)?shù)據(jù)開放平臺(tái)上查詢與生活相關(guān)聯(lián)的內(nèi)容;查詢一些資格等級(jí)證書或評(píng)定證書等;此外,用戶或者企業(yè)做研究調(diào)查,相關(guān)的數(shù)據(jù)來源需要在數(shù)據(jù)開放平臺(tái)下載??梢娫撝黝}是用戶對(duì)數(shù)據(jù)開放平臺(tái)所提供服務(wù)的描述,因此將其歸納為“公共服務(wù)”。
⑤數(shù)據(jù)獲取主題下的高頻詞有“接口”“可機(jī)讀”“權(quán)限”等,這些詞語都是跟數(shù)據(jù)獲取相關(guān),由此可見,用戶對(duì)數(shù)據(jù)的獲取方式、處理加工等也是極為關(guān)注的。
⑥分類導(dǎo)航主題下的高頻主要包括“主題分類”“部門檢索”“可視化”等。在浩如煙海的數(shù)據(jù)中,如何快速、準(zhǔn)確地檢索到自己想要的數(shù)據(jù)是用戶所關(guān)心的問題之一。該主題主要是對(duì)數(shù)據(jù)資源分類的描述,因此將該主題歸納為“分類導(dǎo)航”。
⑦平臺(tái)建設(shè)主題下的高頻詞有“推廣”“訂閱”“平臺(tái)界面”等。政府?dāng)?shù)據(jù)開放平臺(tái)為用戶提供了最基礎(chǔ)的功能服務(wù),但平臺(tái)處于起步期,基礎(chǔ)建設(shè)存在一定的改進(jìn)空間,用戶對(duì)平臺(tái)的界面設(shè)計(jì)、訂閱等功能存在著優(yōu)化需求。由此可以看出,該主題主要是用戶對(duì)于平臺(tái)建設(shè)需求的描述,因此將該主題歸納為“平臺(tái)建設(shè)”。
⑧互動(dòng)交流主題下的高頻詞主要有“反饋”“開放生態(tài)”“問卷調(diào)查”。政府?dāng)?shù)據(jù)開放平臺(tái)設(shè)立了互動(dòng)交流板塊,用戶可以向平臺(tái)提出自己的數(shù)據(jù)需求,該板塊還有需求列表、內(nèi)容建議等功能,展示用戶需求的熱門數(shù)據(jù)以及平臺(tái)建設(shè)過程中哪里存在的不足、改進(jìn)方案等意見。
3.3.2 發(fā)展期(2021年1月—2022年6月)
①民生服務(wù)是政府?dāng)?shù)據(jù)開放平臺(tái)所提供的基礎(chǔ)服務(wù),查詢資格等級(jí)考試、醫(yī)療衛(wèi)生健康、氣象服務(wù)、財(cái)稅金融等功能與用戶的日常息息相關(guān),避免不了用戶對(duì)該主題數(shù)據(jù)的大量需求。
②信息化建設(shè)主題下的高頻詞主要包括“信息”“協(xié)同”“集約化”。2020年12月國(guó)家發(fā)改委發(fā)布的《關(guān)于加快構(gòu)建全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見》提出,進(jìn)一步打破政府與部門間、政府與企業(yè)間的數(shù)據(jù)壁壘,大大提高數(shù)據(jù)資源的流通性。用戶積極響應(yīng)國(guó)家號(hào)召,對(duì)通信、計(jì)算機(jī)、數(shù)據(jù)庫(kù)技術(shù)等現(xiàn)代信息化相關(guān)的數(shù)據(jù)需求增多,信息化建設(shè)逐漸成為熱門主題。
③功能優(yōu)化主題下的高頻詞主要有“定期更新”“訂閱”等,所反映的主題詞與平臺(tái)功能迭代升級(jí)相關(guān),因此將該主題歸納為“功能優(yōu)化”。
④創(chuàng)新平臺(tái)主題下的高頻詞有“海量數(shù)據(jù)”“預(yù)覽”“在線查看”。政府?dāng)?shù)據(jù)開放平臺(tái)不僅要在開放的數(shù)據(jù)量上做文章,還要對(duì)平臺(tái)的前端展示上下功夫,通過對(duì)平臺(tái)功能的迭代升級(jí)為用戶提供獨(dú)特服務(wù)。
⑤效能主題下的高頻詞主要包括“參與度”“覆蓋面”“復(fù)雜度”,用戶根據(jù)平臺(tái)所提供的數(shù)據(jù)衡量平臺(tái)的效能,可以看出,該主題主要是對(duì)平臺(tái)效能的描述。
⑥智慧服務(wù)主題下的高頻詞有“區(qū)域鏈”“共享體系”。根據(jù)2018年發(fā)布的《智慧城市頂層設(shè)計(jì)指南》,國(guó)家給出了智慧城市頂層的總體構(gòu)架方案。在2020年召開的全國(guó)兩會(huì)上,政府報(bào)告將“新基建”首次納入其中,并提出“城市大腦”是智慧城市建設(shè)突破的關(guān)鍵。智慧城市的發(fā)展日趨成熟,一方面帶動(dòng)著智慧數(shù)字政務(wù)的發(fā)展,要求政府?dāng)?shù)據(jù)開放的服務(wù)更加智慧化;另一方面用戶對(duì)互聯(lián)網(wǎng)、區(qū)塊鏈、人工智能、大數(shù)據(jù)等技術(shù)瀏覽需求量越來越高。
⑦數(shù)據(jù)應(yīng)用主題下的高頻詞主要有“可視化”“地理空間”“工具”等。所反映的主題詞與數(shù)據(jù)的實(shí)際應(yīng)用有關(guān),因此將該主題歸納為“數(shù)據(jù)應(yīng)用”。
⑧公共安全主題下的高頻詞主要有“隱私”“生產(chǎn)安全”“信息泄露”。不僅在生活中存在安全問題,用戶在使用數(shù)據(jù)的同時(shí)也充斥著安全隱患,這些是用戶所關(guān)心的問題。因此,將該主題歸納為“公共安全”。
⑨數(shù)據(jù)改進(jìn)主題下的高頻詞有“格式”“更新周期”“數(shù)據(jù)開發(fā)”。隨著近幾年的發(fā)展,政府?dāng)?shù)據(jù)開放平臺(tái)的建設(shè)日趨成熟,用戶對(duì)平臺(tái)的功能以及開放的數(shù)據(jù)提出了更高的要求,例如優(yōu)化平臺(tái)的網(wǎng)頁鏈接、加快數(shù)據(jù)的更新周期等。
⑩評(píng)價(jià)反饋主題下的高頻詞有“客服”“反饋機(jī)制”“申請(qǐng)”等,政府?dāng)?shù)據(jù)開放平臺(tái)的建設(shè)離不開對(duì)其評(píng)估和用戶反饋,對(duì)平臺(tái)數(shù)據(jù)的開放程度、覆蓋面等效能進(jìn)行有效評(píng)估并做出改進(jìn),認(rèn)真接受用戶提出的評(píng)價(jià)反饋。
本文利用各個(gè)主題下的用戶評(píng)論數(shù)據(jù)進(jìn)行情感分析,得到用戶評(píng)論中各個(gè)主題的情感傾向,可以從情感訴求層面了解平臺(tái)用戶滿意度,有助于有關(guān)部門做出相應(yīng)的改進(jìn)措施。
用戶評(píng)論通常由一句話或多句話組成,對(duì)于一些比較短的評(píng)論,用戶通常只表達(dá)一個(gè)主題,但對(duì)于一些較長(zhǎng)的評(píng)論,用戶可能表達(dá)對(duì)多個(gè)主題的評(píng)價(jià)。為了提高評(píng)論主題識(shí)別的準(zhǔn)確性,將評(píng)論中的長(zhǎng)句切割成短句,再對(duì)評(píng)論短句進(jìn)行主題識(shí)別[20]。
通常情況下,以標(biāo)點(diǎn)符號(hào)分割的每個(gè)短句僅包含一個(gè)主題。因此,可以根據(jù)標(biāo)點(diǎn)符號(hào)作為界限對(duì)評(píng)論進(jìn)行分割。首先對(duì)每條評(píng)論設(shè)置一個(gè)id值,然后根據(jù)標(biāo)點(diǎn)符號(hào)將評(píng)論切割成多個(gè)短句,切割后的評(píng)論短句與切割前的原評(píng)論id一致。本文將17 871條用戶評(píng)論切割,并去除無關(guān)短句,最終得到28 476條評(píng)論短句,分句后的評(píng)論格式如表5所示。
表5 用戶評(píng)論分句示例
本文基于機(jī)器學(xué)習(xí)對(duì)用戶需求主題進(jìn)行情感分析[21],將4.1中已處理的28 476條評(píng)論短句作為語料數(shù)據(jù)集。篩選出用戶正面情感傾向的評(píng)論,用標(biāo)簽“1”標(biāo)記;篩選出用戶負(fù)面情感傾向的評(píng)論,用標(biāo)簽“0”標(biāo)記。根據(jù)相關(guān)研究結(jié)論,中立性的評(píng)論不納入情感處理中。經(jīng)過人工篩選和標(biāo)記后,得到正面評(píng)論6 854條,負(fù)面評(píng)論7 356條。將人工標(biāo)注好的樣本按照訓(xùn)練集80%,測(cè)試集20%的比例隨機(jī)采樣。
在本次的文本二分類任務(wù)中,使用sklearn庫(kù)中常見的5種文本分類器[22],包括邏輯回歸分類器、支持向量機(jī)分類器、K鄰近分類器、決策樹分類器以及樸素貝葉斯分類器等。本文以準(zhǔn)確率、F1分?jǐn)?shù)(F1-score)和召回率為模型有效性的評(píng)估標(biāo)準(zhǔn),用5種文本分類器進(jìn)行測(cè)試,最終得到各個(gè)分類器的性能測(cè)試結(jié)果。由表6可見,樸素貝葉斯在此次情感分析任務(wù)中表現(xiàn)最好,因此選用樸素貝葉斯分類器對(duì)各用戶需求主題進(jìn)行情感分析。
表6 分類器性能測(cè)試結(jié)果
首先,使用訓(xùn)練好的樸素貝葉斯分類器計(jì)算評(píng)論短句的情感傾向概率。樸素貝葉斯分類器計(jì)算出的情感傾向?yàn)檎蚋怕?,小?.5的情感傾向?yàn)樨?fù)面情感傾向,大于0.5的為正面情感傾向[23]。其計(jì)算結(jié)果如表7所示。
表7 各用戶需求主題的情感傾向概率計(jì)算結(jié)果(部分)
然后,使用樸素貝葉斯分類器對(duì)各個(gè)需求主題的情感傾向概率進(jìn)行可視化分析,其結(jié)果如圖1所示,X軸表示需求主題,Y軸表示需求主題的情感傾向概率。
圖1中“社會(huì)保障”“民生服務(wù)”“數(shù)據(jù)應(yīng)用”“創(chuàng)新平臺(tái)”需求主題的情感傾向偏向積極,而“數(shù)據(jù)改進(jìn)”“評(píng)價(jià)反饋”“智慧服務(wù)”“功能優(yōu)化”“效能”“信息化建設(shè)”和“公共安全”需求主題的情感傾向偏向消極。
圖1 用戶需求主題情感傾向
基于上述分析結(jié)果,建議相關(guān)部門可以根據(jù)“數(shù)據(jù)改進(jìn)”“信息化建設(shè)”等負(fù)面情感主題數(shù)據(jù),研究和解決平臺(tái)存在的問題,進(jìn)一步滿足用戶在數(shù)據(jù)質(zhì)量、平臺(tái)服務(wù)等方面的需求。針對(duì)“社會(huì)保障”“民生服務(wù)”等正面情感主題數(shù)據(jù),繼續(xù)擴(kuò)大該領(lǐng)域的數(shù)據(jù)開放量,提高公共數(shù)據(jù)的利用價(jià)值。
在主題演進(jìn)過程中,主題詞出現(xiàn)頻次、新增詞匯、詞間關(guān)系等方面的變化在一定程度上能夠反映主題內(nèi)容的變遷。通過對(duì)平臺(tái)初建期和發(fā)展期的用戶需求主題相似度計(jì)算,揭示用戶的增量需求變化,為平臺(tái)的建設(shè)提供借鑒。
相似度可以應(yīng)用于不同的研究領(lǐng)域,研究領(lǐng)域不同其含義也不同。余弦相似度量法是計(jì)算文本相似性中最常用的算法之一[24],用向量空間中的兩個(gè)向量夾角間的余弦值作為度量?jī)烧唛g差別大小的尺度。若余弦值愈接近1,表示夾角的角度愈趨近0°,則說明兩個(gè)向量越相似;若余弦值趨于0,且夾角趨近90°,則表明兩個(gè)向量越不相似。
Kong等[25]從信息論的視角入手,闡明了主題間是否存在演化關(guān)系可以根據(jù)相似度大小確定。劉自強(qiáng)等[26]提出,將0.3確定為相似度閾值,假如相鄰階段的主題相似度數(shù)值大于0.3,那么可以確定主題間具有演進(jìn)關(guān)系,并且屬于同一條演進(jìn)路徑。
本文依據(jù)3.2中已得到的主題聚類,并計(jì)算兩個(gè)主題關(guān)鍵詞的余弦相似度,每個(gè)主題由一組關(guān)鍵詞確定,通過主題聚類將語義特征相符的關(guān)鍵詞聚類為同一主題,不同主題間的相似度不同。利用Python中Gensim庫(kù)BOW模型和TF-IDF模型對(duì)平臺(tái)初建期和發(fā)展期的用戶需求主題進(jìn)行相似度計(jì)算,計(jì)算得到相似度大于0.3的主題演進(jìn)路徑5條,包括:初建期主題1—發(fā)展期主題9,相似度為0.61;初建期主題2—發(fā)展期主題11,相似度為0.52;初建期主題3—發(fā)展期主題8,相似度為0.47;初建期主題4—發(fā)展期主題6,相似度為0.43;初建期主題1—發(fā)展期主題2,相似度為0.33。相似度小于0.3的主題演進(jìn)路徑有31條。
對(duì)不同階段用戶需求主題相似度計(jì)算可以揭示其相似性和差異性,本文篩選出5條相似度大于0.3的主題演進(jìn)路徑,下面對(duì)其進(jìn)行具體分析。
①初建期主題1—發(fā)展期主題9:這條路徑對(duì)數(shù)據(jù)質(zhì)量、數(shù)據(jù)改進(jìn)主題較為關(guān)注,該演進(jìn)路徑體現(xiàn)了用戶對(duì)開放數(shù)據(jù)需求在數(shù)據(jù)質(zhì)量領(lǐng)域關(guān)注的延續(xù)性。隨著大數(shù)據(jù)時(shí)代的發(fā)展,用戶對(duì)數(shù)據(jù)的需求與日俱增,不僅表現(xiàn)在對(duì)數(shù)據(jù)集的寬度,而且對(duì)數(shù)據(jù)集的深度提出了更高的要求。
②初建期主題2—發(fā)展期主題11:主要關(guān)注基本服務(wù)、社會(huì)保障服務(wù),這條演進(jìn)路徑體現(xiàn)了用戶對(duì)社會(huì)保障服務(wù)領(lǐng)域的持續(xù)關(guān)注。社會(huì)民生相關(guān)主題的數(shù)據(jù)與用戶的日常生活息息相關(guān),公眾的衣食住行都離不開社會(huì)保障,所以用戶對(duì)社會(huì)保障服務(wù)領(lǐng)域相關(guān)的數(shù)據(jù)需求與日俱增。
③初建期主題3—發(fā)展期主題8:該路徑主要關(guān)注安全保障、公共安全,這一主題演進(jìn)體現(xiàn)了用戶對(duì)安全保障的持續(xù)關(guān)注,表明用戶有著安全防范和自我保護(hù)意識(shí),相關(guān)部門在對(duì)數(shù)據(jù)開放利用時(shí)理應(yīng)進(jìn)行風(fēng)險(xiǎn)管控,定時(shí)定期對(duì)開放數(shù)據(jù)進(jìn)行動(dòng)態(tài)監(jiān)管和風(fēng)險(xiǎn)評(píng)估,以防止數(shù)據(jù)泄露和濫用。
④初建期主題4—發(fā)展期主題6:該路徑主要關(guān)注公共服務(wù)、智慧服務(wù),這條演進(jìn)路徑體現(xiàn)了用戶對(duì)智慧服務(wù)的新需求。與傳統(tǒng)服務(wù)不同,智慧服務(wù)基于平臺(tái)與用戶的隱性交互過程感知用戶需求,可以更加準(zhǔn)確地挖掘用戶內(nèi)在需求。
⑤初建期主題1—發(fā)展期主題2:數(shù)據(jù)質(zhì)量和信息化建設(shè)是該路徑下較為關(guān)注的主題,信息化建設(shè)是發(fā)展期新興的需求主題之一,在大數(shù)據(jù)背景下,信息化建設(shè)不僅能夠符合時(shí)代的發(fā)展趨勢(shì),還能提高政府?dāng)?shù)據(jù)開放平臺(tái)服務(wù)水平。
本文基于上述用戶需求主題演進(jìn)路徑分析,為政府?dāng)?shù)據(jù)開放平臺(tái)提出以下建議,以供參考。
(1)滿足用戶的數(shù)據(jù)改進(jìn)需求。數(shù)據(jù)質(zhì)量的高低決定了政府?dāng)?shù)據(jù)開放平臺(tái)建設(shè)的好壞以及是否能夠滿足用戶的使用需求,隨著大數(shù)據(jù)時(shí)代的發(fā)展,用戶對(duì)數(shù)據(jù)的需求與日俱增,不僅表現(xiàn)在對(duì)數(shù)據(jù)集的寬度,而且對(duì)數(shù)據(jù)集的深度提出了更高的要求[27]。政府相關(guān)部門在進(jìn)行管理時(shí),一方面,要及時(shí)更新數(shù)據(jù)目錄清單;另一方面,還應(yīng)注意備份和清理“過時(shí)”數(shù)據(jù),減少系統(tǒng)內(nèi)部存儲(chǔ)壓力,提高平臺(tái)操作的使用效率。開放的數(shù)據(jù)集往往以相應(yīng)的格式進(jìn)行存儲(chǔ),格式種類越豐富,在一定程度上表示政府?dāng)?shù)據(jù)開放平臺(tái)開放程度越高,但是對(duì)格式規(guī)劃分類時(shí),盡可能避免類似格式都被采用,例如“XLS”和“XLSX”、“DOC”和“DOCX”等,避免給存儲(chǔ)系統(tǒng)帶來不必要的壓力。
(2)完善社會(huì)保障相關(guān)的數(shù)據(jù)供應(yīng)。社會(huì)民生相關(guān)主題的數(shù)據(jù)與用戶的日常生活息息相關(guān),公眾的衣食住行都離不開社會(huì)保障,因此,針對(duì)社會(huì)民生主題數(shù)據(jù)應(yīng)當(dāng)繼續(xù)加大開放力度[28]。首先,提高數(shù)據(jù)集的覆蓋面,相關(guān)部門制定總體戰(zhàn)略,提升大數(shù)據(jù)資源的儲(chǔ)備容量和運(yùn)營(yíng)水平;其次,減少二次數(shù)據(jù)等處理過的數(shù)據(jù),開放更多的原始數(shù)據(jù)從多角度滿足用戶的不同需求,在提高數(shù)據(jù)量的基礎(chǔ)上保證數(shù)據(jù)質(zhì)量;最后,重點(diǎn)關(guān)注API接口的開放性,開放式API接口在提高數(shù)據(jù)價(jià)值方面發(fā)揮著重要作用。
(3)推進(jìn)智慧服務(wù)的發(fā)展。與傳統(tǒng)服務(wù)不同,智慧服務(wù)基于平臺(tái)與用戶的隱性交互過程來準(zhǔn)確感知用戶的需求。通過對(duì)用戶信息與檢索查閱行為的分析,可以充分挖掘數(shù)據(jù)信息的內(nèi)在價(jià)值,為用戶精準(zhǔn)推送所需數(shù)據(jù)集。政府?dāng)?shù)據(jù)開放平臺(tái)應(yīng)借助大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)與云計(jì)算技術(shù)構(gòu)建強(qiáng)大的數(shù)據(jù)挖掘與分析系統(tǒng)[29],提升數(shù)據(jù)分析效能,通過收集數(shù)據(jù)構(gòu)建用戶畫像,在充分尊重和保護(hù)用戶隱私的前提下構(gòu)建用戶知識(shí)體系,開展精準(zhǔn)推送。
(4)重視用戶需求反饋。用戶所提供的反饋意見,一方面有利于用戶之間互相交流,另一方面更有利于政府?dāng)?shù)據(jù)開放平臺(tái)更好地滿足用戶的需求以及優(yōu)化后續(xù)的建設(shè)。政府相關(guān)部門不僅要收集用戶的需求反饋,更要對(duì)用戶的反饋進(jìn)行解答[30],把切實(shí)解決用戶的問題作為目標(biāo),盡量避免空話、套話,因?yàn)檫@樣會(huì)使用戶的體驗(yàn)感較差,從而對(duì)用戶與開放數(shù)據(jù)平臺(tái)之間的互動(dòng)交流產(chǎn)生不利影響。
(5)加快數(shù)字化建設(shè)。為提高數(shù)據(jù)開放平臺(tái)的數(shù)字化建設(shè)效果,在實(shí)際工作中需要完善信息管理模式,引進(jìn)先進(jìn)的技術(shù)平臺(tái),實(shí)現(xiàn)管轄數(shù)據(jù)資源的數(shù)字化發(fā)展[31],可以在內(nèi)部設(shè)立數(shù)字化信息平臺(tái),對(duì)已有的數(shù)據(jù)資源進(jìn)行有效儲(chǔ)存,再配合檢索平臺(tái),多方位滿足用戶的檢索需求。
近年來,隨著服務(wù)型數(shù)字政府的建設(shè),政府?dāng)?shù)據(jù)開放平臺(tái)的服務(wù)理念不斷增強(qiáng),深入研究用戶需求,不斷提高平臺(tái)服務(wù)能力具有重要意義。本文通過LDA模型對(duì)平臺(tái)用戶評(píng)論主題聚類,挖掘出用戶的增量需求熱點(diǎn),在此基礎(chǔ)上選取樸素貝葉斯算法計(jì)算用戶需求主題的情感傾向,發(fā)現(xiàn)社會(huì)保障主題是用戶持續(xù)關(guān)注的領(lǐng)域且用戶情感趨向積極,而用戶對(duì)數(shù)據(jù)改進(jìn)主題的情感趨向消極;最后通過文本相似度計(jì)算出用戶需求的演進(jìn)路徑,結(jié)果表明平臺(tái)不僅要滿足社會(huì)保障等基礎(chǔ)的主題服務(wù),還要完善信息化建設(shè)、智慧服務(wù)等主題數(shù)據(jù),以滿足用戶增量需求的發(fā)展。
本文從平臺(tái)用戶需求的整體架構(gòu)出發(fā)研究并挖掘用戶的需求主題,為當(dāng)前處于建設(shè)發(fā)展期的政府?dāng)?shù)據(jù)開放平臺(tái)更好滿足用戶需求提供有效借鑒。在后續(xù)的研究中,將通過研究平臺(tái)用戶的信息行為特征構(gòu)建用戶畫像,希望有助于提升政府?dāng)?shù)據(jù)開放平臺(tái)個(gè)性化、智慧化服務(wù)水平。