羊勇全,孔德輝,徐瑜清,曹 敏
(南京師范大學地理科學學院,江蘇 南京 210023)
聯(lián)合國《2030年可持續(xù)發(fā)展議程》提出了17項可持續(xù)發(fā)展目標(Sustainable Development Goals,SDGs)、169項具體目標和超過232個具體指標[1]。SDGs協(xié)同作用是指一個目標的發(fā)展有助于另一個目標的進展;SDGs權衡作用是指一個目標的發(fā)展將阻礙另一個目標的發(fā)展[2],充分了解地區(qū)SDGs協(xié)同權衡關系,有助于部門指定對應措施,規(guī)避權衡效用和提高協(xié)同效用,促進全部目標的共同發(fā)展有重要意義。目前有大量公開的科技論文或報告對SDGs間交互作用進行闡述,這些內容蘊含豐富的專家知識,從中抽取交互關系能夠清晰展示不同目標間的協(xié)同和權衡關系,通過網(wǎng)絡圖形式對交互作用關系進行可視化可以明確反映交互作用鏈路,對于協(xié)調區(qū)域政策規(guī)劃制定、促進可持續(xù)發(fā)展目標共同實現(xiàn)具有重要指導意義。
文本可視化是通過數(shù)據(jù)挖掘、文本分析以及數(shù)據(jù)可視化等技術,將文本中隱含且難以表達的信息通過圖形化的形式表示[3]。目前已有SDGs文本挖掘相關研究,如SDG Detector[4]通過模板匹配方式獲取文本中與SDG直接或間接相關的術語生成圖表;LinkedSDG(https://linkedsdg.officialstatistics.org/)可自動從文本中提取與可持續(xù)發(fā)展相關的關鍵概念,并將其鏈接到最相關的可持續(xù)發(fā)展目標、具體目標或指標上,但鮮有從中文文本中挖掘SDG交互關系的相關研究。本文設計了基于中文文本的SDGs交互作用關系可視化系統(tǒng),構建SDG領域詞典,設計SDGs間交互關系抽取規(guī)則,抽取SDGs交互關系的頭尾SDG目標與交互關系三元組,使用網(wǎng)絡圖進行展示,同時對地理研究區(qū)域標進行抽取與空間可視化,使用詞頻統(tǒng)計的方法SDGs關鍵詞進行抽取與可視化。
中文文本中SDG交互關系抽取與可視化系統(tǒng)后端使用Python語言Sanic框架,前端使用Vue框架以及Echarts與AntVG6組件實現(xiàn)。系統(tǒng)框架如圖1所示,系統(tǒng)共分為數(shù)據(jù)層、控制層和視圖層3部分。數(shù)據(jù)層包括用戶上傳的PDF文檔、HTML網(wǎng)頁以及人工構建的SDGs專業(yè)領域語料庫;控制層對數(shù)據(jù)層中文檔進行解析,提取出文本,使用分詞工具進行分詞,探測出文檔中包含的地理區(qū)域;構建SDGs領域詞典,探測SDGs領域專業(yè)詞匯,統(tǒng)計詞匯出現(xiàn)頻數(shù);依據(jù)SDGs交互作用描述語句特征,設計交互關系抽取方法,獲得交互關系三元組;通過Sanic框架將抽取結果封裝為交互接口;表現(xiàn)層通過Vue框架以及Echarts與AntVG6組件實現(xiàn),將控制層計算與抽取的結果以詞云、柱狀圖、地圖、表格以及網(wǎng)絡圖的形式展現(xiàn)。
圖1 系統(tǒng)框架圖
系統(tǒng)適用的數(shù)據(jù)源主要為政府發(fā)布的SDGs相關報告、公開出版的科技論文和SDGs相關網(wǎng)頁,需要對文檔進行解析,提取相應的文本。對于PDF文檔,使用PyPDF2解析庫讀取文檔信息,進行文本提取,并定義文檔讀取范圍,屏蔽頁眉頁腳等不相關內容;對于HTML文檔,使用BeautifulSoup文檔解析庫進行文本提取。
系統(tǒng)采用Jieba中文分詞器對地理區(qū)域進行探測,挖掘出SDGs文獻和報告描述的地理區(qū)域,Jieba是目前應用較為廣泛的中文分詞器,采用Python語言進行編碼,能自動對語句中的詞性進行標注,如名詞,動詞,形容詞等,具有較高的分詞準確性[5]。使用Echarts前端模塊對文檔中描述的地理區(qū)域進行空間可視化。
為提升分詞準確性,保證文本分詞時SDGs領域相關詞匯不被拆分,依據(jù)聯(lián)合國可持續(xù)發(fā)展目標框架體系并結合已有相關研究,構建了SDGs領域的中英文詞典,該詞典涵蓋17個可持續(xù)發(fā)展目標,169項具體目標和對應的具體指標,同時加入目標內容的中英文翻譯作為補充,最終構建448個領域詞匯,部分詞匯如表1所示。將所構建的SDGs專業(yè)領域詞典加入分詞工具詞庫,保證了專業(yè)名詞在分詞時的完整性,進一步抽取SDGs專業(yè)詞匯,統(tǒng)計SDG目標在文檔中出現(xiàn)頻數(shù),并使用Echarts前端模塊進行可視化。
表1 SDGs領域詞典
在SDG文檔中,通過如“協(xié)同”“權衡”“權衡互動”“協(xié)同互動”以及“交互作用”等觸發(fā)詞定位潛在描述SDGs交互作用的句子,結合所構建的SDGs專業(yè)領域詞典,抽取SDGs交互作用的主體和客體,依據(jù)交互作用觸發(fā)詞抽取SDGs目標間交互關系。以文獻[6]為例,SDGs交互關系描述語句具有如下特征:
(1)2個或以上的SDG目標加交互作用詞,如表2中句子(1)。
表2 交互關系抽取示例
(2)交互作用詞后接SDG目標,如表2中句子(2)。
結合SDGs交互關系描述語句特征,抽取句子中SDGs交互作用的主體、客體及其交互關系,生成SDGs交互關系三元組(表2),并通過AntV G6組件在前端頁面進行展示。
中文文本中SDG交互關系抽取與可視化系統(tǒng)如圖2所示,系統(tǒng)中,用戶可上傳PDF格式與SDGs相關文檔或輸入SDGs相關網(wǎng)址,也可以使用系統(tǒng)提供的示例文檔進行測試,上傳后點擊解析,執(zhí)行詞頻統(tǒng)計,SDG目標抽取,地理區(qū)域空間可視化和交互關系網(wǎng)絡圖可視化。
圖2 系統(tǒng)界面
以文獻[6]為例,系統(tǒng)運行結果如圖3和圖4所示。詞云展示通過分詞統(tǒng)計得到全篇出現(xiàn)詞語,通過文本大小反映頻數(shù),能清晰地顯示文檔或網(wǎng)頁的關鍵主題,可視化結果如圖3(a)所示;詞頻展示是統(tǒng)計SDG目標的頻數(shù),通過柱狀圖的形式展現(xiàn),能反映文檔或網(wǎng)頁中對SDG目標的關注程度,可視化結果如圖3(b)所示。
圖3 詞云與詞頻展示
圖4 SDGs交互關系三元組和網(wǎng)絡圖
地圖展示通過地理研究區(qū)域挖掘獲取文檔中所出現(xiàn)的地理區(qū)域,將其高亮顯示,能清晰地顯示文檔或網(wǎng)頁所針對的地理區(qū)域;地理區(qū)域統(tǒng)計圖則將文章中所包含的地理區(qū)域出現(xiàn)的頻數(shù)通過環(huán)狀圖形式展現(xiàn),可清晰對比文檔中對地理區(qū)域的關注程度,可視化結果如圖2所示。交互關系的表格展示則將所有抽取的知識三元組通過表格列舉,抽取結果如圖4(a)所示;網(wǎng)絡圖展示根據(jù)基于規(guī)則的交互關系抽取獲取知識三元組,通過網(wǎng)絡圖的形式展示,能生動地反映SDG目標間協(xié)同權衡互動關系,可視化結果如圖4(b)。
針對大量公開的科技論文或報告對SDGs間交互作用進行闡述,內容中蘊含豐富的專家知識,而目前鮮有研究針對文本中SDGs交互關系抽取進行展開,本文基于Vue、Echarts、AntVG6前端可視化開源組件和Sanic后端開發(fā)框架,使用Jieba分詞工具,設計實現(xiàn)了SDG目標與地理區(qū)域的挖掘及SDG交互作用關系的抽取,并對抽取結果進行可視化,該系統(tǒng)界面簡潔美觀,具有兼容性和可移植性,通過網(wǎng)絡圖形式對交互作用關系進行可視化可以明確反映交互作用鏈路,對于協(xié)調區(qū)域政策規(guī)劃制定、促進可持續(xù)發(fā)展目標共同實現(xiàn)有指導作用,同時能為后期構建大規(guī)模知識圖譜提供基礎。