摘" 要:研究旨在通過分析湖南省政府數(shù)據(jù)開放平臺的用戶反饋評論數(shù)據(jù),識別公眾在教育、職業(yè)資格認證、農(nóng)村發(fā)展、養(yǎng)老保險、基礎設施建設等領域的關注點與需求,并提出相應的政策改進建議。采用文本挖掘技術,使用Python對評論數(shù)據(jù)進行采集和預處理,并通過BERTopic模型提取主題,揭示公眾主要關注的領域。研究結(jié)果顯示,公眾在教育、農(nóng)村發(fā)展、醫(yī)療、退役軍人就業(yè)等方面有較高關注。基于此,提出了提升就業(yè)服務、加強政府溝通、完善養(yǎng)老保險制度、提供退役軍人就業(yè)支持四項改進建議,以提高政府公共服務質(zhì)量。
關鍵詞:政府數(shù)據(jù)開放;BERTopic模型;主題分析
中圖分類號:TP391 文獻標識碼:A 文章編號:2096-4706(2025)04-0087-06
Identification and Analysis of User Demand Themes for Government Open Platforms Based on BERtopic Model
—A Case of the Hunan Provincial Government Open Platform
ZHENG Ang, PENG Jiyang
(Tourism College of Jishou University, Zhangjiajie" 427000, China)
Abstract: By analyzing the user feedback comment data from the Hunan provincial government open data platform, this research aims to identify the public's concerns and needs in education, professional qualification certification, rural development, pension insurance, infrastructure construction and other fields, and propose corresponding policy improvement suggestions. It uses text mining techniques, employs Python to collect and preprocess the comment data, and extracts topics through the BERTopic model, revealing the main fields of public concern. The research results indicate that the public shows significant attention to education, rural development, healthcare, and employment for veterans. Based on these findings, four recommendations for improvement are proposed, including enhancing employment services, improving government communication, refining the pension insurance system, and providing employment support for veterans, so as to improve the quality of government public services.
Keywords: government open data; BERTopic model; topic analysis
0" 引" 言
推動數(shù)據(jù)資源開放共享是建設網(wǎng)絡強國和推進國家治理體系現(xiàn)代化的必要條件。這不僅是政府推進數(shù)字化轉(zhuǎn)型和信息公開的重要抓手,也是實現(xiàn)政府職能轉(zhuǎn)變和便民服務提升的關鍵路徑。我國高度重視政府數(shù)據(jù)開放,積極推進相關平臺的建設進程。2020年4月,國務院發(fā)布《關于建立更加完善的要素市場配置機制的意見》,要求完善政府數(shù)據(jù)管理,安全有序開放公共數(shù)據(jù),推動建立國家數(shù)據(jù)平臺,提升數(shù)據(jù)資源共享與利用效率,服務社會。
截至2023年8月,我國已建成了226個地級及以上的政府數(shù)據(jù)開放平臺,公共數(shù)據(jù)的平臺化服務取得了顯著進展。湖南省在2020年上線了政府數(shù)據(jù)開放平臺,上線時間相較于其他省市處于滯后狀態(tài)。根據(jù)中國數(shù)林指數(shù)網(wǎng)的數(shù)據(jù),湖南省的數(shù)林指數(shù)較低,在全國22個已建設政府數(shù)據(jù)開放平臺的省份中排名第15位。隨著社會的快速發(fā)展,公眾尤其是潛在數(shù)據(jù)使用者,對政府開放數(shù)據(jù)的需求不斷增加,且對數(shù)據(jù)的質(zhì)量和數(shù)量提出了更高的要求。
為進一步提升數(shù)據(jù)開放水平,湖南省需要著力加強數(shù)據(jù)資源的質(zhì)量控制和更新機制,保障數(shù)據(jù)的時效性、準確性和完整性,對平臺用戶的反饋進行深入研究尤為重要。通過對湖南省政府數(shù)據(jù)開放平臺的用戶反饋數(shù)據(jù)進行挖掘,并結(jié)合詞云圖進行可視化分析,不僅為提升政府數(shù)據(jù)開放平臺的用戶滿意度提供了有益參考,也為提升政府數(shù)據(jù)開放平臺的建設與服務水平提供了有力支持。
1" 相關研究綜述
現(xiàn)有研究表明,我國學者從多重維度對不同國家和地區(qū)的開放數(shù)據(jù)平臺進行深入分析,旨在揭示其實施效果與優(yōu)化路徑。王今等[1]基于數(shù)據(jù)開放和數(shù)據(jù)質(zhì)量的特征,運用層次分析法構建了政府數(shù)據(jù)開放用戶滿意度評價體系,為政府數(shù)據(jù)開放數(shù)據(jù)的質(zhì)量評價提供了用戶視角的評價。黃如花等 [2]采用循證政策研究方法,從基礎設施層、數(shù)據(jù)管理層和政府治理層三個維度構建了政府數(shù)據(jù)開放共享標準體系。
馬仁杰等[3]學者著眼于開放水平、社會滿意度和應用程度三個維度,構建了基于價值的政府數(shù)據(jù)利用狀態(tài)模型。顧嘉琪等[4]基于公眾需求建立了“質(zhì)量屋”模型,并按照需求優(yōu)先級進行排序,提出了提升政府數(shù)據(jù)開放服務質(zhì)量的對策。范晨雪[5]通過梳理政府及交通類開放數(shù)據(jù)的發(fā)展現(xiàn)狀,分析我國7個省級政府門戶交通類數(shù)據(jù)的不足,借鑒英國經(jīng)驗,提出從機構、政策、數(shù)據(jù)質(zhì)量和公眾參與五方面改進的建議。鄧勝利等[6]通過對中美8個城市政府開放數(shù)據(jù)平臺的現(xiàn)狀進行定量與定性結(jié)合的對比分析,提出了加強數(shù)據(jù)管理、優(yōu)化用戶體驗、完善標準和立法保障等提升我國城市政府開放數(shù)據(jù)平臺的對策。
盡管國內(nèi)相關領域的學者對政府數(shù)據(jù)開放平臺建設現(xiàn)狀進行了廣泛而深入的比較分析,并提出了多項針對性的建議和對策,但專注于提升政府開放數(shù)據(jù)平臺服務質(zhì)量以滿足公眾需求的研究仍較為不足。針對湖南省政府數(shù)據(jù)開放的現(xiàn)狀,本文將在上述學者研究的基礎上,從用戶角度出發(fā),采用網(wǎng)絡爬蟲收集用戶的政務反饋數(shù)據(jù),對采集到的非結(jié)構化文本數(shù)據(jù)進行處理,通過構建BERTopic主題模型探析用戶所關注的熱點主題,針對主題模型的結(jié)果識別問題并提出相應改進措施,以提升政府數(shù)據(jù)開放平臺的服務質(zhì)量。
2" 研究設計
2.1" BERTopic模型
BERTopic是基于BERT預訓練模型的主題建模方法,通過結(jié)合BERT嵌入和c-TF-IDF創(chuàng)建密集的集群,易于解釋主題的同時,也可在主題描述中保留關鍵詞語[7]。與傳統(tǒng)的主題建模方法相比[8],BERTopic利用了預訓練的BERT模型的語義信息,能夠更好地捕捉詞語間的語義關系,自動識別潛在主題以便對文本進行有意義的分組和分類,并能夠?qū)崟r更新主題模型以反映新數(shù)據(jù)。該方法能夠根據(jù)聚類結(jié)果生成可解釋的主題標簽,方便理解和分析聚類結(jié)果。
目前BERTopic已在文本主題提取領域得到廣泛使用,部分學者將其應用于結(jié)構化文本文獻的主題提取[9],用于識別學科領域的研究主題熱點與演變的過程。因此,本文基于BERTopic模型對政府政務平臺的用戶評論進行研究,以便進行用戶需求主題提取,并識別出各個需求主題下更細粒度的用戶需求。
2.2" 研究思路
通過設置網(wǎng)絡爬蟲對湖南省政府數(shù)據(jù)開放平臺用戶反饋的文本數(shù)據(jù)進行采集,利用Python的Pandas、Jieba等庫對非結(jié)構化文本數(shù)據(jù)進行清洗,包括過濾高頻無意義詞語、符號等;基于分詞后的文本數(shù)據(jù)進行詞頻分析并制作詞云圖;最后利用BERTopic模型對數(shù)據(jù)進行主題可視化分析,生成詞頻數(shù)據(jù)和主題可視化圖像。具體流程如圖1所示。
2.3" 數(shù)據(jù)獲取及處理
2.3.1" 數(shù)據(jù)采集
本研究以湖南省政府數(shù)據(jù)開放平臺作為數(shù)據(jù)采集對象,選取其用戶反饋的文本數(shù)據(jù)進行挖掘分析。首先,對該平臺“陽光服務”子欄目中的公眾反饋的文本數(shù)據(jù)進行整理,然后設置Python爬蟲對湖南省政府數(shù)據(jù)開放平臺用戶反饋的文本數(shù)據(jù)進行采集。數(shù)據(jù)收集時間為2024年6月1日,共采集到500條用戶需求信息,部分評論數(shù)據(jù)如表1所示。
2.3.2" 數(shù)據(jù)預處理
為便于文本數(shù)據(jù)分析,首要要對原始評論數(shù)據(jù)進行必要的預處理。具體操作包括刪除空值或重復、無關的評論,以減少對后續(xù)處理結(jié)果所帶來的干擾。最終,將處理后的500條文本數(shù)據(jù)作為樣本以.csv文件格式進行存儲。
在文本分類中,頻繁出現(xiàn)但沒有實際意義的詞被稱為“虛詞”或停用詞。刪除這些停用詞可以更準確地傳達文本的主旨,避免不必要的詞匯影響分析[10]。對于爬取到的500條用戶反饋文本,首先使用中文停用詞表過濾掉高頻無意義詞語和符號,然后對文本信息進行分詞處理,提取出已分詞的摘要文本信息。
接下來,應用HDBSCAN算法對文本進行聚類,并通過UMAP方法對文本數(shù)據(jù)進行降維處理,將文本信息嵌入到低維空間中。接著,使用c-TF-IDF方法提取文本的主題,并展示主題結(jié)果。最后,通過BERTopic模型進一步分析和處理文本主題,對整個分析過程進行總結(jié)歸納并得出結(jié)論。
3" 實例分析
3.1" 基于詞云圖的高頻詞分析
為更清晰地呈現(xiàn)用戶關注的問題和需求,本研究采用TF-IDF算法對文本進行特征提取,TF-IDF算法算法依據(jù)單詞在文本中的出現(xiàn)頻率和在整個語料庫中的使用頻率來衡量其重要性。通過“詞云圖”對特征進行可視化展示,詞云圖中單詞的大小反映了其在評論中的重要性,從而幫助揭示文本的主要含義。對數(shù)據(jù)進行預處理工作,將非結(jié)構化文本結(jié)構化。生成的詞云圖如圖2、圖3所示。
圖2展示了湖南省政府數(shù)據(jù)開放平臺用戶反饋評論中的高頻關鍵詞。詞云中“政策”“辦理”“醫(yī)?!薄翱荚嚒薄把a貼”“標準”等詞匯占據(jù)了顯著位置,表明用戶在評論中頻繁討論與政策、醫(yī)保、考試、補貼、標準等相關的話題。這些關鍵詞的大小和顏色直觀反映它們在評論中出現(xiàn)的頻率,字體較大的詞匯代表更高的頻率,體現(xiàn)了用戶關注的熱點問題。
圖3展示了用戶評論中頻繁提到的湖南省各政府部門和機構名稱。詞云中,像“省人力資源社會保障廳”“省發(fā)展改革委”“省醫(yī)保局”“省教育廳”等詞匯占據(jù)了顯著位置,表明這些部門在用戶評論中提到的頻率較高。較大的字體表示該部門被提及的次數(shù)較多,反映了公眾對這些部門工作的關注和討論熱點。
3.2" BERTopic模型
運行BERTopic模型后,文檔被劃分為不同的主題集合,每個集合代表一個特定的主題。最終獲得了公眾需求的7個主題。每個主題集合中包含若干主題詞,這些詞語最能代表該主題的內(nèi)容,如表2所示。
3.3" 主題分析
圖4展示了七個主題(Topic)的關鍵詞和對應的詞頻得分,每個主題都有一組關鍵字,反映了該主題的主要內(nèi)容,清晰地展示了各主題的主要內(nèi)容和關注點。
主題0為關鍵詞為教師、資格證、考試、事業(yè)單位、畢業(yè)生,主要涉及教育相關的話題,如教師資格證考試和畢業(yè)生的就業(yè)問題;主題1關鍵詞為農(nóng)村、標準、養(yǎng)老保險、政策、農(nóng)民,集中于農(nóng)村發(fā)展和養(yǎng)老保險等政策相關內(nèi)容;主題2關鍵詞為高速公路、高速、規(guī)劃、建設、湖南,與基礎設施建設相關,特別是高速公路的規(guī)劃和建設。主題3關鍵詞為生育、產(chǎn)假、獨生子女證、人口、計劃生育,圍繞生育政策和產(chǎn)假等內(nèi)容展開,涉及人口和計劃生育政策;主題4關鍵詞為2019、藥師、執(zhí)業(yè)、醫(yī)師、年度,主要討論藥師和醫(yī)師的執(zhí)業(yè)資格及相關年度評估。主題5關鍵詞為退役軍人、退伍軍人、高職、院校、軍人,與退役軍人和高等職業(yè)教育相關的主題。主題6關鍵詞為醫(yī)保、門診、報銷、社??ā⒎窝?,聚焦于醫(yī)療保險和門診報銷等醫(yī)療保障話題。
圖5展示了不同主題的概率分布,每個條形代表一個主題及其相應的概率值。概率值越高,表示該主題在數(shù)據(jù)集中出現(xiàn)的頻率越高,反映出該主題在用戶反饋中的重要性和關注度。其中主題0:教師、資格證、考試、事業(yè)單位、畢業(yè)生以及主題6:醫(yī)保、門診、報銷、社???、肺炎概率接近1,表示這兩類主題在數(shù)據(jù)集中占據(jù)非常高的比例。
通過文本特征提取和詞云圖分析,能夠直觀地了解用戶對政府數(shù)據(jù)開放平臺所關注和重視的各類要素,但這些要素之間的關聯(lián)性尚未顯現(xiàn)。為此,需要采用可視化方法進一步直觀分析特征詞之間的聯(lián)系,進一步探究用戶反饋評論數(shù)據(jù)中存在的其他特征。
如圖6所示,主題分布圖譜展示了文檔與主題的關系,不同聚類的點代表不同的主題。圖中顯示,教師資格證考試相關的文檔集中在右下方,農(nóng)村標準和養(yǎng)老保險相關的文檔在左上方,高速公路和規(guī)劃相關的文檔在左下方,生育和產(chǎn)假相關的文檔在右上方,藥師執(zhí)業(yè)相關的文檔在右下方,退役軍人和高職相關的文檔在右上中位置,而醫(yī)保和門診報銷相關的文檔則集中在圖的中間靠右。此圖直觀地展示了各主題的聚類情況及其在文檔中的分布。
圖7展示了層次聚類的結(jié)果,通過樹狀圖顯示了不同主題之間的相似性和層次結(jié)構。橫軸表示相似度度量。數(shù)值越小,表示主題之間的相似度越高,距離越近;數(shù)值越大,表示主題之間的相似度越低,距離越遠??v軸列出了不同的主題及其關鍵詞。圖中上下兩部分代表不同的聚類分支。每個分支連接的主題表示這些主題在一定相似度下被聚類在一起。
“主題4:2019、藥師、執(zhí)業(yè)”和“主題6:醫(yī)保、門診、報銷”在較高的相似度下被聚類在一起,說明它們之間的內(nèi)容相關性較高;主題3(生育、產(chǎn)假、獨生子女證)與前兩個主題有較高的相似度,說明這些主題在某些方面有共同點;主題5(退役軍人、退伍軍人、高職)與上述三個主題在較高相似度下聚類,說明它們之間也有一定的內(nèi)容關聯(lián)。
主題0(教師、資格證、考試)和主題1(農(nóng)村、標準、養(yǎng)老保險)在較低相似度下聚類,表示它們之間的內(nèi)容相關性較低;主題2(高速公路、高速、規(guī)劃)與前兩個主題在更低相似度下聚類,進一步表明其內(nèi)容差異較大。
橫軸上的數(shù)值表示主題之間的相似度(或距離)。數(shù)值越小,表示主題之間的相似度越高;數(shù)值越大,表示相似度越低。主題4和主題6之間的相似度最高,而主題0和主題2之間的相似度最低
通過這張層次聚類圖,可以直觀地觀察各個主題之間的相似關系以及它們?nèi)绾沃鸩骄垲愒谝黄?。這種可視化方法有助于理解不同主題的關聯(lián)性和層次結(jié)構。
4" 相關建議
本研究通過對湖南省政府數(shù)據(jù)開放平臺用戶反饋評論數(shù)據(jù)的文本挖掘和分析,揭示了公眾在教育與職業(yè)資格認證、農(nóng)村發(fā)展與養(yǎng)老保險、基礎設施建設、生育政策、醫(yī)療與藥師執(zhí)業(yè)、退役軍人就業(yè)與職業(yè)培訓以及醫(yī)保與門診報銷等多個領域的關注和需求?;谶@些發(fā)現(xiàn),本文針對提升畢業(yè)生就業(yè)指導服務、加強政府部門協(xié)調(diào)與公眾溝通、完善農(nóng)村養(yǎng)老保險制度以及提供退役軍人就業(yè)支持,提出了一系列具體的改進措施。以下是各個重點領域的結(jié)論與建議。
4.1" 提升畢業(yè)生就業(yè)指導服務
研究結(jié)果顯示,公眾對畢業(yè)生就業(yè)問題高度關注,尤其是職業(yè)規(guī)劃和就業(yè)培訓的需求較為迫切。政府應加強職業(yè)規(guī)劃指導,通過高校與政府部門聯(lián)合開展職業(yè)規(guī)劃講座和工作坊,幫助畢業(yè)生明確職業(yè)目標,提升就業(yè)能力。同時,提供多樣化就業(yè)培訓,政府應與企業(yè)合作,提供實習機會和技能培訓課程,確保畢業(yè)生具備市場所需的技能。建立就業(yè)信息平臺,開發(fā)并推廣便捷的就業(yè)信息平臺,實時發(fā)布招聘信息和就業(yè)政策,為畢業(yè)生提供全面的就業(yè)支持。此外,加強校企合作,推動高校與企業(yè)建立長期合作關系,開展定向培訓和校園招聘活動,提高畢業(yè)生的就業(yè)率和就業(yè)質(zhì)量。
4.2" 政府部門協(xié)調(diào)與公眾溝通
為了提高政府工作效率和公眾滿意度,必須加強各部門間的協(xié)調(diào)與公眾溝通。政府應建立跨部門協(xié)作機制,定期召開跨部門會議,協(xié)調(diào)政策制定與實施,確保各項工作無縫銜接。提升信息公開透明度,及時在政府官方網(wǎng)站和社交媒體平臺上發(fā)布政策信息和工作進展,增強政府工作的透明度和公信力。多渠道聽取公眾意見,通過熱線電話、在線咨詢、意見箱等多種渠道,廣泛收集公眾反饋,及時回應公眾關切。加強宣傳和教育,通過宣傳手冊、公開課和社區(qū)活動等形式,向公眾普及政府政策和服務,提升公眾對政府工作的理解和支持。
4.3" 完善農(nóng)村養(yǎng)老保險制度
農(nóng)村養(yǎng)老保險制度的完善對于保障老年農(nóng)民的基本生活具有重要意義。政府應簡化參保手續(xù),減少辦理流程和所需材料,方便老年人參保和享受養(yǎng)老保險待遇。增加財政補貼,政府應加大對農(nóng)村養(yǎng)老保險的財政投入,確保養(yǎng)老金能夠滿足老年人的基本生活需求。定期開展政策宣傳,通過村委會、廣播、張貼公告等方式,向農(nóng)村居民宣傳養(yǎng)老保險政策,提高政策知曉率和參與率。提供多元化服務,在養(yǎng)老保險的基礎上,開展老年人健康檢查、心理疏導和文化娛樂活動,提高老年人的生活質(zhì)量和幸福感。
4.4" 提供退役軍人就業(yè)支持
退役軍人的就業(yè)支持對其順利融入社會至關重要。政府應建立專門的就業(yè)服務機構,在各地設立退役軍人就業(yè)服務中心,提供職業(yè)咨詢、技能培訓和就業(yè)推薦等服務。加強職業(yè)技能培訓,根據(jù)市場需求,為退役軍人提供免費的職業(yè)技能培訓課程,提升其就業(yè)競爭力。拓展就業(yè)渠道,政府應與企業(yè)、事業(yè)單位和社會組織合作,提供更多適合退役軍人的就業(yè)崗位。保障退役軍人權益,完善退役軍人就業(yè)保障政策,確保其在就業(yè)過程中享有公平待遇和合法權益。
5" 結(jié)" 論
綜上所述,通過系統(tǒng)的文本挖掘和分析,本研究不僅揭示了湖南省公眾關注的熱點問題,還為政府在提升公共服務質(zhì)量和回應公眾需求方面提供了具體的改進措施。未來,政府應繼續(xù)加強數(shù)據(jù)分析和公眾反饋的收集,不斷優(yōu)化政策和服務,提高行政效率,促進社會和諧發(fā)展。
參考文獻:
[1] 王今,馬海群.政府開放數(shù)據(jù)質(zhì)量的用戶滿意度評價研究 [J].現(xiàn)代情報,2016,36(9):4-9.
[2] 黃如花,溫芳芳,黃雯.我國政府數(shù)據(jù)開放共享政策體系構建 [J].圖書情報工作,2018,62(9):5-13.
[3] 馬仁杰,金一鼎.價值實現(xiàn)視角下政府數(shù)據(jù)利用路徑研究 [J].圖書館學研究,2018(13):39-44+18.
[4] 顧嘉琪,袁莉.基于公眾需求的政府數(shù)據(jù)開放服務質(zhì)量提升研究 [J].情報雜志,2020,39(6):196-202.
[5] 范晨雪.基于交通類數(shù)據(jù)集的我國政府開放數(shù)據(jù)分析 [D].太原:山西大學,2019.
[6] 鄧勝利,夏蘇迪.中美城市政府開放數(shù)據(jù)平臺對比研究 [J].圖書館雜志,2019,38(6):57-68+75.
[7] 左昊.基于技術創(chuàng)新政策的上海市技術創(chuàng)新路徑選擇研究 [D].上海:上海師范大學,2022.
[8] 徐振國,張琳,謝萬里,等.融合BERTopic和KANO模型的在線課程用戶需求挖掘研究——以Python在線課程為例 [J/OL].情報科學,2024:1-18(2024-05-07).http://kns.cnki.net/kcms/detail/22.1264.G2.20240506.1704.016.html.
[9] 胡凱茜,李欣,王龍騰.基于BERTopic模型的網(wǎng)絡暴力事件衍生輿情探測 [J].情報雜志,2024,43(7):146-153.
[10] 王麗雅,龐曉楠.基于文本挖掘的政府數(shù)據(jù)開放平臺在線評論內(nèi)容特征分析 [J].圖書館研究與工作,2023(9):40-45.
作者簡介:鄭昂(2001—),女,漢族,湖南長沙人,碩士在讀,研究方向:公共管理與圖書館智庫建設;彭紀揚(2000—),男,漢族,湖南長沙人,碩士在讀,研究方向:自然語言處理與文本挖掘。
收稿日期:2024-09-29
基金項目:吉首大學研究生校級科研項目(Jdy23214)