劉爽 陳鵬 孟佳娜
摘? 要: 構(gòu)建社會(huì)主義核心價(jià)值觀垂直領(lǐng)域知識(shí)圖譜,鑄牢網(wǎng)絡(luò)空間的中華民族共同意識(shí),實(shí)現(xiàn)思想政治教育、計(jì)算機(jī)學(xué)科、新興交叉學(xué)科多學(xué)科融合。知識(shí)圖譜構(gòu)建包括知識(shí)建模,知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)四部分。。構(gòu)建完成的知識(shí)圖譜有助于增強(qiáng)網(wǎng)絡(luò)空間中華民族共同體意識(shí)傳播的智力支持,豐富網(wǎng)絡(luò)傳播內(nèi)涵,提升中華民族的凝聚力和向心力。
關(guān)鍵詞: 網(wǎng)絡(luò)空間; 中華民族共同體意識(shí); 知識(shí)圖譜; 社會(huì)主義核心價(jià)值觀
中圖分類號(hào):G642? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2021)02-105-04
Abstract: Constructing the vertical domain knowledge graph of the socialist core values, forges a strong sense of Chinese national community in cyberspace to realize the multi-discipline integration of ideological and political education, computer discipline and emerging interdisciplinary. The construction of knowledge graph includes knowledge modeling, knowledge extraction, knowledge fusion and knowledge storage. The knowledge graph is helpful to enhance the intellectual support of the spread of the sense of Chinese national community in cyberspace, enrich the connotation of network communication, and enhance the cohesion and centripetal force of the Chinese nation.
Key words: cyberspace; the sense of Chinese national community; knowledge graph; socialist core values
0 引言
黨的十八大在總結(jié)改革開放四十年的成功經(jīng)驗(yàn)和豐碩成果,以及展望未來社會(huì)主義建設(shè)宏圖的基礎(chǔ)上,高瞻遠(yuǎn)矚地運(yùn)用馬克思主義的歷史唯物觀提出了社會(huì)主義核心價(jià)值觀[1]。社會(huì)主義核心價(jià)值觀以“富強(qiáng)、民主、文明、和諧”為價(jià)值目標(biāo),以“自由、平等、公正、法治”為價(jià)值取向,以“愛國(guó)、敬業(yè)、誠(chéng)信、友善”為價(jià)值準(zhǔn)則,這三者相互聯(lián)系、相互貫通,將政治理想、社會(huì)導(dǎo)向、個(gè)人行為有機(jī)地統(tǒng)一在一起,實(shí)現(xiàn)了國(guó)家、社會(huì)、個(gè)人三方主體在價(jià)值目標(biāo)上的統(tǒng)一,集中體現(xiàn)了國(guó)家、社會(huì)、個(gè)人三個(gè)不同層次的愿望與訴求[2]。
社會(huì)主義核心價(jià)值觀是對(duì)中華優(yōu)秀傳統(tǒng)文化的繼承和升華,它把涉及國(guó)家、社會(huì)、公民的價(jià)值要求融為一體,賦予中華優(yōu)秀傳統(tǒng)文化以新的時(shí)代內(nèi)涵。
中華民族作為具有數(shù)千年歷史的文明古國(guó),雖然歷經(jīng)千百年的滄桑卻生機(jī)勃勃,一個(gè)不可忽視的重要因素就是中華文化的世代傳承、源遠(yuǎn)流長(zhǎng)。作為一個(gè)多民族國(guó)家,各民族能共享福祉、榮辱與共,一個(gè)不可忽視的重要因素是我們擁有中華文化帶給我們的精神歸根的家園,以及由此而來的強(qiáng)烈文化認(rèn)同感和價(jià)值觀認(rèn)同[3]。正如習(xí)近平總書記所指出:“我們生而為中國(guó)人,最根本的是我們有中國(guó)人的獨(dú)特精神世界,有百姓日用而不覺的價(jià)值觀。我們提倡的社會(huì)主義核心價(jià)值觀,就充分體現(xiàn)了對(duì)中華優(yōu)秀傳統(tǒng)文化的傳承和升華”[4]。
隨著國(guó)家政策的導(dǎo)向和信息的傳播,人們?cè)絹碓揭庾R(shí)到社會(huì)主義核心價(jià)值觀的重要性。截至2019年6月,我國(guó)網(wǎng)民規(guī)模達(dá)8.54億,較2018年底增長(zhǎng)2598萬,互聯(lián)網(wǎng)普及率達(dá)61.2%,較2018年底提升1.6個(gè)百分點(diǎn);我國(guó)手機(jī)網(wǎng)民規(guī)模達(dá)8.47億,較2018年底增長(zhǎng)2984萬,網(wǎng)民使用手機(jī)上網(wǎng)的比例達(dá)99.1%,較2018年底提升0.5個(gè)百分點(diǎn)[5]。移動(dòng)互聯(lián)網(wǎng)接入流量消費(fèi)達(dá)553.9億GB,同比增長(zhǎng)107.3%。由上述數(shù)據(jù)可知,互聯(lián)網(wǎng)正以爆炸式的方式迅猛發(fā)展?;ヂ?lián)網(wǎng)上的社會(huì)主義核心價(jià)值觀數(shù)據(jù)大部分以網(wǎng)頁或文檔形式存在。用戶在預(yù)覽和搜索相關(guān)知識(shí)時(shí),會(huì)比較耗時(shí)耗力,而且搜索結(jié)果不具有直觀性。針對(duì)這一需求,開發(fā)實(shí)現(xiàn)了一款社會(huì)主義核心價(jià)值觀知識(shí)圖譜可視化系統(tǒng),借助自然語言處理技術(shù)和深度學(xué)習(xí)前沿技術(shù)對(duì)這些海量數(shù)據(jù)進(jìn)行分析處理和結(jié)構(gòu)化整理,利用知識(shí)圖譜技術(shù)得到科學(xué)可視化結(jié)果和智能搜索功能,實(shí)現(xiàn)網(wǎng)絡(luò)空間的社會(huì)主義核心價(jià)值觀培育的引領(lǐng)作用,鑄牢網(wǎng)絡(luò)空間的中華民族共同體意識(shí)建設(shè)。
1 社會(huì)主義核心價(jià)值觀知識(shí)圖譜構(gòu)建流程
本文開發(fā)實(shí)現(xiàn)的社會(huì)主義核心價(jià)值觀知識(shí)圖譜可視化系統(tǒng)構(gòu)建流程如圖1所示。該系統(tǒng)可以滿足如下兩種需求:一是能夠以知識(shí)圖譜的形式存儲(chǔ)和表現(xiàn)社會(huì)主義核心價(jià)值觀的相關(guān)知識(shí),將數(shù)據(jù)與數(shù)據(jù)之間建立起聯(lián)系,提高檢索效率;二是能夠以直觀,簡(jiǎn)潔的形式將知識(shí)圖譜進(jìn)行可視化展示,并實(shí)現(xiàn)智能搜索,為用戶獲取知識(shí)提供了便利,提高了用戶體驗(yàn)。
2 技術(shù)實(shí)現(xiàn)細(xì)節(jié)
社會(huì)主義核心價(jià)值觀知識(shí)圖譜可視化系統(tǒng),以構(gòu)建社會(huì)主義核心價(jià)值觀知識(shí)體系為目的,主要實(shí)現(xiàn)知識(shí)圖譜的構(gòu)建、知識(shí)可視化展示功能。利用了知識(shí)圖譜的結(jié)構(gòu)化存儲(chǔ)特點(diǎn),將一些分布在各個(gè)網(wǎng)站中的社會(huì)主義核心價(jià)值觀相關(guān)知識(shí)進(jìn)行整理和融合,方便用戶進(jìn)行查找和使用。
知識(shí)圖譜的結(jié)構(gòu)以三元組的形式為主,即(實(shí)體,關(guān)系,實(shí)體)和(實(shí)體,屬性,值)。知識(shí)圖譜構(gòu)建方式包括自頂向下與自底向上兩種流程[6]。自頂向下的構(gòu)建方式是基于對(duì)構(gòu)建領(lǐng)域相關(guān)知識(shí)的深入了解,借助于百科類網(wǎng)站等結(jié)構(gòu)化資源信息,劃分知識(shí)的類別與范疇,以知識(shí)之間的邏輯關(guān)系與層級(jí)結(jié)構(gòu)為框架,從點(diǎn)到面、從中心到外圍,將實(shí)體進(jìn)行手動(dòng)鏈接;而自底向上的構(gòu)建方式是借助相關(guān)的知識(shí)抽取技術(shù),從公開規(guī)范或?qū)I(yè)領(lǐng)域的數(shù)據(jù)集中提取信息資源,挖掘其中蘊(yùn)含的實(shí)體與關(guān)系,選擇可靠性強(qiáng)、相關(guān)度高的填充到知識(shí)庫(kù),從而實(shí)現(xiàn)圖譜構(gòu)建。本系統(tǒng)最終采用自底向上的構(gòu)建方式。知識(shí)圖譜構(gòu)建流程涉及知識(shí)建模,知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)四部分。
1.1 知識(shí)建模
知識(shí)建模又叫業(yè)務(wù)建模,是根據(jù)社會(huì)主義核心價(jià)值觀的一些規(guī)則和定義,對(duì)要構(gòu)建的知識(shí)圖譜進(jìn)行設(shè)計(jì),主要包括實(shí)體定義、關(guān)系定義、屬性定義及事件定義等。設(shè)計(jì)社會(huì)主義核心價(jià)值觀知識(shí)圖譜是構(gòu)建應(yīng)用過程中最重要的一步。根據(jù)其相關(guān)知識(shí)的特點(diǎn),從百科類網(wǎng)站、人民網(wǎng)、中國(guó)文明網(wǎng)等相關(guān)網(wǎng)站經(jīng)過信息對(duì)比,分析后,確定社會(huì)主義核心價(jià)值觀知識(shí)涉及的領(lǐng)域,將其規(guī)劃統(tǒng)一,確定知識(shí)圖譜中的實(shí)體類別,實(shí)體屬性和實(shí)體關(guān)系。初步設(shè)定該圖譜以“社會(huì)主義核心價(jià)值觀”為中心實(shí)體節(jié)點(diǎn),“富強(qiáng)”、“民主”、“文明”、“和諧”、“自由”、“平等”、“公正”、“法治”、“愛國(guó)”、“敬業(yè)”、“誠(chéng)信”、“友善”為一級(jí)實(shí)體節(jié)點(diǎn)。
圖譜中其余包含的實(shí)體類別如表1所示。
每個(gè)實(shí)體類別包含多個(gè)實(shí)體,部分實(shí)體包含一些特定屬性,如富強(qiáng)的簡(jiǎn)介會(huì)當(dāng)作富強(qiáng)這一實(shí)體節(jié)點(diǎn)的屬性。根據(jù)實(shí)體類別之間的聯(lián)系創(chuàng)建關(guān)系,如“愛國(guó)”和政策之間可創(chuàng)建三元組(愛國(guó),相關(guān)政策,《新時(shí)代愛國(guó)主義教育實(shí)施綱要》)。
1.2 知識(shí)建模
原始數(shù)據(jù)主要來源為百度百科、某些相關(guān)新聞網(wǎng)站。其數(shù)據(jù)類型主要包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)。對(duì)于半結(jié)構(gòu)化數(shù)據(jù)大都采用爬蟲技術(shù)+包裝器+正則表達(dá)式。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)主要采用命名實(shí)體識(shí)別技術(shù),關(guān)系抽取方法以及相關(guān)自然語言處理工具。對(duì)于部分非結(jié)構(gòu)化數(shù)據(jù),本系統(tǒng)使用命名實(shí)體識(shí)別技術(shù)進(jìn)行實(shí)體抽取。命名實(shí)體識(shí)別本質(zhì)上可以看作是一種序列標(biāo)注問題,其實(shí)現(xiàn)的中心思想是根據(jù)輸入的句子,預(yù)測(cè)出其標(biāo)注序列的過程。經(jīng)過調(diào)查后,本系統(tǒng)選擇了采用BIO標(biāo)注和基于字符嵌入的Bi-LSTM+CRF神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別模型。BIO標(biāo)注又稱為三位標(biāo)注。它的基本形式為B-begin,I-inside,O-outside。B-begin 代表一個(gè)實(shí)體的開頭,I-inside代表這個(gè)實(shí)體的結(jié)尾,O則代表不屬于任何類型。
Bi-LSTM+CRF神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別模型主要包括Bi-LSTM模塊和CRF模塊。主要實(shí)現(xiàn)過程為使用預(yù)訓(xùn)練字向量,作為embedding層輸入,然后經(jīng)過雙向LSTM層進(jìn)行編碼,編碼后加入dense層,最后送入CRF層進(jìn)行序列標(biāo)注。
Bi-LSTM是Bi-directional Long Short-Term Memory的縮寫,是由前向LSTM與后向LSTM組合而成[7]。長(zhǎng)短時(shí)記憶模型的優(yōu)勢(shì)在于保留了RNN處理序列模型的特點(diǎn),其特有的門結(jié)構(gòu)也在一定程度解決了梯度爆炸和梯度消失的問題。前向的LSTM與后向的LSTM結(jié)合成Bi-LSTM。Bi-LSTM模型在保留其優(yōu)點(diǎn)的同時(shí),通過分別訓(xùn)練前后向序列兼顧了上下文信息,可以更好的提取深層次的語義信息。
1.3 知識(shí)融合
知識(shí)融合又分為模式層的融合以及數(shù)據(jù)層的融合,模式層的融合主要包括概念、概念的上下位、概念的屬性這些統(tǒng)一;數(shù)據(jù)層的融合主要是將不同數(shù)據(jù)來源的數(shù)據(jù)的相同實(shí)體的不同表達(dá)形式進(jìn)行融合,包括實(shí)體的合并、實(shí)體屬性與關(guān)系的合并等。這一步工作涉及的技術(shù)有實(shí)體對(duì)齊、指代消解等。
1.4 知識(shí)存儲(chǔ)
根據(jù)業(yè)務(wù)的特點(diǎn)和需求,以及數(shù)據(jù)的規(guī)模選擇合適的存儲(chǔ)方式。目前市面上的知識(shí)圖譜,按存儲(chǔ)形式劃分可以分為兩類。一種是使用以RDF為存儲(chǔ)結(jié)構(gòu)的知識(shí)圖譜;另一種是使用圖數(shù)據(jù)庫(kù)的知識(shí)圖譜。這里選擇使用Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ)。
將經(jīng)過數(shù)據(jù)預(yù)處理和知識(shí)融合后的數(shù)據(jù),導(dǎo)入到圖數(shù)據(jù)庫(kù)Neo4j中,根據(jù)知識(shí)建模中的設(shè)計(jì)原則創(chuàng)建實(shí)體節(jié)點(diǎn)和節(jié)點(diǎn)關(guān)系。本文選擇 Cypher語句構(gòu)建初始的知識(shí)庫(kù)。
1.5 智能搜索
智能搜索是從海量的信息源中通過約束條件和額外信息運(yùn)用算法找到問題所對(duì)應(yīng)的答案。在本系統(tǒng)中,實(shí)現(xiàn)智能搜索的主要步驟為:首先使用自然語言處理技術(shù)對(duì)用戶輸入的句子進(jìn)行解析,根據(jù)分詞,詞性標(biāo)注等方法識(shí)別出句子中的實(shí)體;然后使用關(guān)系抽取模型Attention+Bi-LSTM,進(jìn)行句子中的關(guān)系檢測(cè)操作;最后將前兩步獲取到的結(jié)果即實(shí)體和關(guān)系相結(jié)合,使用cypher語言到知識(shí)圖譜中進(jìn)行檢索,并將檢索到的結(jié)果返回給用戶。
2 可視化設(shè)計(jì)及結(jié)果
系統(tǒng)通過Django框架來連接前后端。Django框架[8]的核心包括一個(gè)輕量級(jí)的Web服務(wù)器,用于接受HTTP請(qǐng)求,一個(gè)基于正則表達(dá)式的URL分發(fā)器,一個(gè)數(shù)據(jù)庫(kù)模型用于建立數(shù)據(jù)模型與數(shù)據(jù)庫(kù)相映射,一個(gè)視圖系統(tǒng)用于處理請(qǐng)求,以及一個(gè)模版系統(tǒng)。本系統(tǒng)使用Django框架實(shí)現(xiàn)前后端的交互頁面。對(duì)于知識(shí)查詢功能主要采用實(shí)體查詢,即通過對(duì)用戶輸入的實(shí)體名稱在圖數(shù)據(jù)庫(kù)Neo4j 中檢索,返回結(jié)果為相應(yīng)節(jié)點(diǎn)以及其一級(jí)關(guān)系節(jié)點(diǎn)圖,并通過 D3.js 將數(shù)據(jù)渲染成導(dǎo)向圖進(jìn)行可視化展示。除單個(gè)實(shí)體查詢功能外,本系統(tǒng)提供知識(shí)圖譜全局顯示的功能,即可展示所構(gòu)建的社會(huì)主義核心價(jià)值觀知識(shí)圖譜全貌。圖2是部分圖譜可視化效果,圖中每個(gè)節(jié)點(diǎn)代表一個(gè)對(duì)象,節(jié)點(diǎn)之間的連線代表對(duì)象之間的關(guān)系。
3 結(jié)束語
本文從網(wǎng)絡(luò)空間的中華民族共同體意識(shí)多模態(tài)數(shù)據(jù)出發(fā),構(gòu)建社會(huì)主義核心價(jià)值觀垂直領(lǐng)域知識(shí)圖譜。這有助于占領(lǐng)和鞏固意識(shí)形態(tài)斗爭(zhēng)的網(wǎng)絡(luò)陣地,強(qiáng)化網(wǎng)絡(luò)空間的中華民族共同體意識(shí),強(qiáng)化文化認(rèn)同感、政治認(rèn)同感、共筑網(wǎng)絡(luò)智慧家園,為網(wǎng)絡(luò)空間的中華民族共同體意識(shí)鑄牢提供智力支持。
參考文獻(xiàn)(References):
[1] 中國(guó)共產(chǎn)黨新聞網(wǎng).http://theory.people.com.cn/n1/2017/0906/c413700-29519535.html[EB/OL].last accessed 2020/07/10.
[2] 魏波.論社會(huì)主義核心價(jià)值觀三個(gè)層面之間的關(guān)系[J].理論探討,2015.3:26-30
[3] 中國(guó)共產(chǎn)黨新聞網(wǎng).http://theory.people.com.cn/n/2014/1007/c40531-25782571.html[EB/OL].last accessed 2020/07/10.
[4] 中國(guó)共產(chǎn)黨新聞網(wǎng).http://theory.people.com.cn/n1/2017/0609/c40531-29328920.html[EB/OL].last accessed 2020/07/10.
[5] 第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》發(fā)布, http://www.cac.gov.cn/gzzt/ztzl/yjzt/wlcbzz/jiuy/ts/webinfo/2020/05/1590838527373652.htm[EB/OL].訪問時(shí)間2020/05/20.
[6] 知識(shí)圖譜的構(gòu)建方法.https://www.cnblogs.com/coodream2009/p/10213819.html,訪問時(shí)間2020/05/20.
[7] Wang Y, Chen Q, Ding M, et al.: High Precision Dimensional Measurement with Convolutional Neural Network and Bi-Directional Long Short-Term Memory (LSTM)[J].Sensors, 2019.19(23):5302
[8] 白相辰.基于Django框架的Web在線教育平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京交通大學(xué),2019.