關(guān)鍵詞: 數(shù)據(jù)安全政策; 數(shù)據(jù)治理; 數(shù)據(jù)開(kāi)放; 數(shù)據(jù)安全; NMF; Word2Vec; 主題挖掘; 主題演化
DOI:10.3969 / j.issn.1008-0821.2024.08.003
〔中圖分類(lèi)號(hào)〕G259.20 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 08-0028-11
隨著我國(guó)數(shù)字經(jīng)濟(jì)發(fā)展、數(shù)字中國(guó)建設(shè)、充分發(fā)揮數(shù)據(jù)要素乘數(shù)效應(yīng)等戰(zhàn)略的實(shí)施, 對(duì)數(shù)據(jù)安全的需求逐漸增加[1] 。2021 年11 月, 中共中央政治局會(huì)議上, 習(xí)近平總書(shū)記主持審議了《國(guó)家安全戰(zhàn)略(2021—2025 年)》, 強(qiáng)調(diào)加快提升數(shù)據(jù)安全的治理能力; 2022 年12 月, 中共中央、國(guó)務(wù)院發(fā)布《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》, 指出要建立安全可控、彈性包容的數(shù)據(jù)要素治理制度。數(shù)據(jù)安全政策作為保障數(shù)據(jù)安全的基礎(chǔ),數(shù)據(jù)安全政策能夠?yàn)榧せ顢?shù)據(jù)要素潛能, 使數(shù)據(jù)要素更好地服務(wù)和融入新發(fā)展格局提供法律和制度層面的保障[2] 。2016 年起, 我國(guó)陸續(xù)頒布了《中華人民共和國(guó)網(wǎng)絡(luò)安全法》《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》和《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》(以下簡(jiǎn)稱(chēng)“三法一條例”), 逐漸形成以“三法一條例” 為中心的數(shù)據(jù)安全治理制度頂層設(shè)計(jì), 并且國(guó)家或地方逐步通過(guò)發(fā)布數(shù)據(jù)安全相關(guān)制度來(lái)細(xì)化“三法一條例”的配套規(guī)章[3] 。但從整體上看, 目前我國(guó)仍存在數(shù)據(jù)安全政策供給需求不平衡、結(jié)構(gòu)不合理等問(wèn)題[4] 。因此, 有必要借助文本挖掘技術(shù), 客觀地對(duì)數(shù)據(jù)安全政策進(jìn)行深度挖掘和演化分析, 對(duì)數(shù)據(jù)安全政策進(jìn)行整合與重構(gòu)[5] , 厘清數(shù)據(jù)安全政策主題分布、演變規(guī)律以及存在的問(wèn)題, 進(jìn)而幫助政府及時(shí)根據(jù)數(shù)據(jù)安全治理情況完善政策體系。
1文獻(xiàn)綜述
數(shù)據(jù)安全政策反映了政府對(duì)于保護(hù)數(shù)據(jù)資產(chǎn)和防范數(shù)據(jù)安全風(fēng)險(xiǎn)的重視程度, 以及為此采取的措施和規(guī)定。目前關(guān)于數(shù)據(jù)安全政策研究較為廣泛,涉及法學(xué)、公共管理、信息資源管理等多個(gè)領(lǐng)域,主要研究集中在以下幾個(gè)方面。
1.1數(shù)據(jù)安全政策比較研究
劉春年等[6] 通過(guò)對(duì)比中美歐國(guó)家和地區(qū)的數(shù)據(jù)安全主題的政策文本, 發(fā)現(xiàn)我國(guó)大數(shù)據(jù)安全政策文本還存在覆蓋領(lǐng)域不全面等問(wèn)題。宋筱璇等[7] 通過(guò)對(duì)國(guó)內(nèi)外科研數(shù)據(jù)安全管理政策比較研究, 發(fā)現(xiàn)國(guó)內(nèi)在數(shù)據(jù)識(shí)別、評(píng)估監(jiān)管及數(shù)據(jù)處理等存在一定的政策空白。王蕊等[8] 基于政策文本和案例文本的質(zhì)性比較, 發(fā)現(xiàn)我國(guó)數(shù)據(jù)安全政策中, 存在政策工具結(jié)構(gòu)不均衡等問(wèn)題。
1.2 開(kāi)放數(shù)據(jù)政策與數(shù)據(jù)安全政策協(xié)同研究
閆倩等[9] 分析了開(kāi)放數(shù)據(jù)政策、數(shù)據(jù)安全政策的現(xiàn)狀及由開(kāi)放數(shù)據(jù)政策引發(fā)的數(shù)據(jù)安全問(wèn)題, 提出開(kāi)放數(shù)據(jù)與數(shù)據(jù)安全政策協(xié)同的必要性。張濤等[10] 從主題協(xié)同度的視角, 對(duì)現(xiàn)有數(shù)據(jù)政策中開(kāi)放數(shù)據(jù)和數(shù)據(jù)安全主題關(guān)系進(jìn)行分析, 為政府制定政策提供理論支撐和決策參考。華蕊[11] 以省級(jí)行政區(qū)及其省會(huì)城市101 份涉及數(shù)據(jù)開(kāi)放和安全管理的法定機(jī)構(gòu)職責(zé)、法規(guī)政策為樣本, 對(duì)比分析數(shù)據(jù)開(kāi)放與數(shù)據(jù)安全在管理主體、職能角色、職責(zé)內(nèi)容上的現(xiàn)狀與特點(diǎn), 同時(shí)針對(duì)兩者間的協(xié)同情況進(jìn)行探究。
1.3 數(shù)據(jù)安全政策內(nèi)容挖掘研究
馬海群等[12] 從《中華人民共和國(guó)數(shù)據(jù)安全法(草案)》解讀我國(guó)數(shù)據(jù)安全保護(hù)體系建設(shè)。毛子駿等[13] 從政策外部屬性、政策工具兩個(gè)維度, 研究我國(guó)大陸31 個(gè)省域的71 份與政務(wù)數(shù)據(jù)安全相關(guān)的政策文本。程慧平等[14] 采用NVivo 11 Plus 軟件分析54 份國(guó)家層面政務(wù)數(shù)據(jù)安全共享政策文本,發(fā)現(xiàn)存在對(duì)政務(wù)數(shù)據(jù)共享生命周期各階段的安全重視不平衡等問(wèn)題。冉連等[15] 運(yùn)用內(nèi)容分析法對(duì)我國(guó)33 個(gè)地級(jí)市政府?dāng)?shù)據(jù)安全保護(hù)政策內(nèi)容進(jìn)行編碼分析與信息挖掘。
綜上所述, 數(shù)據(jù)安全政策從研究?jī)?nèi)容上主要圍繞大數(shù)據(jù)安全、科研數(shù)據(jù)安全、開(kāi)放數(shù)據(jù)安全、政務(wù)數(shù)據(jù)開(kāi)放安全等問(wèn)題進(jìn)行探討; 在研究方法上,數(shù)據(jù)安全政策研究主要以政策工具和軟件輔助分析進(jìn)行專(zhuān)家解讀為主[16] , 較少有文獻(xiàn)從主題挖掘和主題演化視角針對(duì)我國(guó)政府?dāng)?shù)據(jù)安全政策進(jìn)行系統(tǒng)性分析。而隨著文本挖掘技術(shù)的不斷發(fā)展和數(shù)據(jù)安全政策的增加, 使得以客觀的方式挖掘大樣本、細(xì)粒度的文本內(nèi)涵成為可能[17-19] ?;诖耍?本文從系統(tǒng)性、客觀性視角出發(fā), 采用主題挖掘和主題演化的方法揭示我國(guó)數(shù)據(jù)安全政策的發(fā)展全貌、演化脈絡(luò)及研究重點(diǎn)趨勢(shì), 并基于發(fā)現(xiàn)的問(wèn)題, 提出完善我國(guó)數(shù)據(jù)安全政策的建議。
2模型設(shè)計(jì)
本文所設(shè)計(jì)的研究框架如圖1 所示。具體步驟主要包括: 一是獲取自建語(yǔ)料庫(kù)中“數(shù)據(jù)安全” 相關(guān)政策文本; 二是對(duì)所獲取的政策文本進(jìn)行預(yù)處理;三是通過(guò)NMF進(jìn)行主題建模, 運(yùn)用主題一致性指標(biāo)確定模型最優(yōu)主題數(shù)目; 四是根據(jù)主題模型聚類(lèi)出各階段主題—主題詞的分布, 并進(jìn)行主題過(guò)濾;五是通過(guò)計(jì)算主題相似度的方式判定階段主題間的相關(guān)關(guān)系、構(gòu)建和識(shí)別主題演化路徑, 并對(duì)主題內(nèi)容演化進(jìn)行可視化分析; 六是根據(jù)模型聚類(lèi)結(jié)果進(jìn)行共現(xiàn)分析、提取核心主題, 并對(duì)主題強(qiáng)度演化進(jìn)行可視化分析, 旨在揭示數(shù)據(jù)安全政策的發(fā)展全貌、演化脈絡(luò)及研究重點(diǎn)趨勢(shì)。
2.1主題建模
本文采用NMF(Nonnegative Matrix Factorization)主題模型進(jìn)行政策文本內(nèi)容的主題挖掘。NMF 是一種用于降低非負(fù)矩陣維數(shù)的無(wú)監(jiān)督方法, 可以生成易于解釋的文本數(shù)據(jù)聚類(lèi)。NMF 通常被視為參數(shù)固定且可以獲得稀疏解的LDA 模型。雖然NMF的靈活性不如LDA 模型, 但是該模型可以很好地處理短文本數(shù)據(jù)集[20] , 而本文正是按照數(shù)據(jù)安全政策語(yǔ)句進(jìn)行拆分, 屬于短文本, 因此選用NMF主題模型。NMF 在處理文本時(shí), 它將主題識(shí)別問(wèn)題轉(zhuǎn)化為約束最優(yōu)化問(wèn)題來(lái)解決, 通過(guò)矩陣分解的計(jì)算實(shí)現(xiàn)主題識(shí)別, 其中將聚類(lèi)解釋為主題, 每個(gè)文檔被視為多個(gè)重疊主題的累加組合[21-22] 。核心思想為: 將一個(gè)文檔—詞項(xiàng)的非負(fù)矩陣V(由n 行(詞項(xiàng))和m 列(文檔)組成)分解成兩個(gè)非負(fù)矩陣W 和H 的乘積, 表示為式(1):
Vn×m≈Wn×k ×Hk×m (1)
其中, k 是可能取到的最優(yōu)主題數(shù)目。W 為文檔—主題矩陣, 其大小與k 有關(guān); H 是n?k, H 為主題—詞項(xiàng)矩陣, 其中主題詞是通過(guò)語(yǔ)義矩陣計(jì)算單詞與單詞之間的距離得到。NMF 度量V 和U 是通過(guò)簡(jiǎn)單迭代獲得, 且矩陣W 和H 均為非負(fù)。
NMF 建模過(guò)程中需要設(shè)立主題數(shù)目, 本文借鑒已有研究文獻(xiàn)基于Word2Vec 提出通過(guò)主題語(yǔ)義一致性輔助確定最優(yōu)主題數(shù)目, 即描述由高度相似主題詞組成的主題, 通過(guò)向量之間的相似性定義,使其在語(yǔ)義上更加連貫[23] , 一致性最大時(shí)確定最優(yōu)主題數(shù)目, 如式(2) 所示:
3實(shí)證研究
3.1數(shù)據(jù)采集
為了更多地獲取數(shù)據(jù)安全政策內(nèi)容, 同時(shí)避免不相干政策內(nèi)容聚類(lèi)會(huì)導(dǎo)致主題過(guò)于分散, 本文在選取樣本時(shí)精確查找自建數(shù)據(jù)政策語(yǔ)料庫(kù)[27] 中內(nèi)容帶有“數(shù)據(jù)”“安全” 字樣的政策文本547 部,政策發(fā)布時(shí)間范圍為2013—2022年, 本文所選擇的政策文本主要由兩部分組成, 一是數(shù)據(jù)安全專(zhuān)項(xiàng)政策; 二是嵌套于政府發(fā)布的各類(lèi)數(shù)據(jù)條例、管理辦法、發(fā)展綱要等具有單獨(dú)數(shù)據(jù)安全章節(jié)的政策,在此基礎(chǔ)上以“安全” 字樣進(jìn)行人工篩查, 提取帶有“安全” 的政策文本語(yǔ)句片段10 636條, 共885515個(gè)字符數(shù)作為研究樣本, 利用自建語(yǔ)料庫(kù)中政策詞表并結(jié)合CNKI中核心期刊“數(shù)據(jù)安全”相關(guān)文獻(xiàn)的關(guān)鍵詞, 共形成11461個(gè)政策詞語(yǔ), 并對(duì)語(yǔ)料庫(kù)進(jìn)行數(shù)據(jù)清洗、分詞、去除停用詞等數(shù)據(jù)預(yù)處理工作。此外, 根據(jù)政策文本數(shù)據(jù)量分布情況,以兩年作為一個(gè)時(shí)間窗口劃分階段, 共劃分5 個(gè)階段[28] , 如表2 所示。從政策數(shù)量和語(yǔ)句數(shù)量可以看出, 數(shù)據(jù)安全一直是數(shù)據(jù)類(lèi)政策關(guān)注的重點(diǎn)內(nèi)容。2015年8月31日,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》后, 國(guó)家和地方政府對(duì)數(shù)據(jù)安全問(wèn)題就尤為重視, 政策發(fā)布數(shù)量呈現(xiàn)出逐年上升趨勢(shì)。截至2017—2018 年, 與數(shù)據(jù)安全相關(guān)政策數(shù)量達(dá)到285篇,語(yǔ)句達(dá)到5176句, 此后政策數(shù)量逐步下降。
3.2主題聚類(lèi)
3.2.1確定最優(yōu)主題數(shù)目
本文使用主題一致性大小來(lái)驗(yàn)證不同階段最優(yōu)主題數(shù)目。圖2 依次展示了5 個(gè)階段及全局?jǐn)?shù)據(jù)安全政策不同主題數(shù)目下的主題一致性變化情況, 結(jié)果表明, 不同時(shí)間窗口下主題一致性大小與主題數(shù)目的整體變化呈現(xiàn)先上升后下降趨勢(shì), 依次選取各階段主題數(shù)目K為14、15、12、15、16、17 時(shí)其主題一致性數(shù)值最大。
3.2.2NMF模型訓(xùn)練
在確定各階段最優(yōu)主題數(shù)的基礎(chǔ)上, 借助Py?thon 的Sklearn 庫(kù)對(duì)預(yù)處理的政策文本進(jìn)行NMF 模型訓(xùn)練, 參數(shù)設(shè)置NMF(n_components=topics,max_iter=200), 其余參數(shù)選擇默認(rèn)值, 分別進(jìn)行階段和全局主題聚類(lèi), 然后判斷階段與全局主題的一致性, 過(guò)濾掉無(wú)效主題, 并可視化呈現(xiàn)描述每個(gè)主題含義權(quán)重較高的前10 個(gè)主題詞, 各主題詞按權(quán)重從大到小排序。其中, 無(wú)效主題過(guò)濾是通過(guò)余弦相似度來(lái)輔助判斷階段主題與全局主題間的一致性程度, 將相似度閾值設(shè)置為0 25, 以實(shí)現(xiàn)過(guò)濾各時(shí)間窗口的主題與全局主題相似度數(shù)值低于閾值的主題, 從而更精確地挖掘出各階段主題之間的關(guān)系,如表3 所示。
3.3 主題內(nèi)容演化
主題相似度計(jì)算是主題內(nèi)容演化的前提和基礎(chǔ)。如圖3 所示, 將相鄰階段主題做相似度計(jì)算, 形成主題相似度熱力圖, 并在此基礎(chǔ)上設(shè)定閾值判定階段主題間的演化類(lèi)型。其中, 閾值選取是基于實(shí)驗(yàn)中不斷迭代測(cè)試獲得, 當(dāng)閾值為σ =0.39 時(shí), 主題可解釋性較強(qiáng), 能夠清晰地展現(xiàn)主題演化類(lèi)型。
根據(jù)階段主題間的相似度繪制數(shù)據(jù)安全政策主題演化桑基圖, 如圖4 所示, 直觀展示了數(shù)據(jù)安全政策5 個(gè)階段政策主題的分布情況、演化路徑及其主題演化類(lèi)型[29] ?;诖?, 本文從縱橫兩個(gè)維度對(duì)數(shù)據(jù)安全政策主題變化情況展開(kāi)分析。其中, 通過(guò)縱向維度能夠了解每個(gè)階段內(nèi)主題演化類(lèi)型和主題演化能力, 并為橫向維度選擇和分析重要演化路徑提供支持。
3.3.1縱向維度分析
縱向維度主要是分析每個(gè)階段內(nèi)主題演化類(lèi)型和主題演化能力。通常分布占比較高的主題融合性或分化性越強(qiáng), 則主題演化能力越高, 主題影響力越大。從圖4 可知, 數(shù)據(jù)安全政策在不同階段主題分布情況和演化能力具有明顯差異。階段1: 2013—2014 年, 屬于數(shù)據(jù)安全政策的萌芽階段, 以分化、繼承和消亡類(lèi)型主題為主。S1-T1、S1-T9、S1-T12屬于分化型主題, 這類(lèi)主題如網(wǎng)絡(luò)信息安全、應(yīng)急、安全保障等是數(shù)據(jù)安全綜合性較強(qiáng)的主題, 具有較高的演化能力; S1-T2、S1-T5、S1-T6、S1-T7、S1-T10 屬于繼承型主題, 這類(lèi)主題如個(gè)人隱私、物聯(lián)網(wǎng)、謠言傳播等聚焦性較強(qiáng), 不易分化; 其余主題屬于消亡型主題, 與階段2 主題關(guān)聯(lián)性不高, 時(shí)效性強(qiáng), 演化能力相對(duì)較低。階段2: 2015—2016年和階段3: 2017—2018 年, 屬于數(shù)據(jù)安全政策的生長(zhǎng)階段, 國(guó)家對(duì)于數(shù)據(jù)安全問(wèn)題重視程度提高,數(shù)據(jù)安全政策相繼出臺(tái), 以新生型主題較為突出。此外, S3-T5 具有較強(qiáng)的分化能力, 對(duì)相鄰階段的其他主題具有較大的影響力, 主要關(guān)注數(shù)據(jù)開(kāi)放和數(shù)據(jù)處理過(guò)程中的安全問(wèn)題。階段4: 2019—2020年和階段5: 2021—2022年, 屬于數(shù)據(jù)安全政策的發(fā)展階段, 以分化、融合型主題為主, 除S4-T4 是消亡型主題, 演化能力較弱外, 其余主題演化能力均較強(qiáng)。其中, S5-T9 是由階段4 中多個(gè)主題融合而來(lái), 反映出政府對(duì)于政務(wù)數(shù)據(jù)安全問(wèn)題的重視;S5-T15 是新生的熱點(diǎn)主題, 主要圍繞多元主體參與數(shù)據(jù)安全治理。
3.3.2橫向維度分析
橫向維度主要是根據(jù)主題演化類(lèi)型抽取出重要的數(shù)據(jù)安全政策主題演化路徑進(jìn)行分析, 以主題演化能力為主要參考依據(jù), 選擇以下3條重要的演化路徑進(jìn)行分析:
路徑一, 繼承型: S1-T5→S2-T5→S3-T11→S4-T5→S5-T8, 該路徑為數(shù)據(jù)安全技術(shù)相關(guān)主題。隨著新興技術(shù)的不斷推動(dòng), 數(shù)據(jù)服務(wù)產(chǎn)業(yè)快速發(fā)展,以國(guó)家大數(shù)據(jù)(貴州)綜合試驗(yàn)區(qū)展示中心為代表,國(guó)家對(duì)數(shù)據(jù)安全技術(shù)尤為重視, 但同時(shí)技術(shù)的深度應(yīng)用也加劇了數(shù)據(jù)安全風(fēng)險(xiǎn)的程度和復(fù)雜化。為應(yīng)對(duì)物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等技術(shù)應(yīng)用產(chǎn)生的海量非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn), 政府一直將平衡技術(shù)發(fā)展與安全作為政策重點(diǎn)關(guān)注內(nèi)容, 尤其是數(shù)據(jù)安全領(lǐng)域中的“三法一條例” 規(guī)定通過(guò)數(shù)據(jù)安全檢測(cè)評(píng)估與認(rèn)證、責(zé)任落實(shí)、采取相應(yīng)的加密、去標(biāo)識(shí)化等安全技術(shù)措施等治理手段來(lái)防范數(shù)據(jù)安全風(fēng)險(xiǎn), 為數(shù)據(jù)產(chǎn)業(yè)發(fā)展提供了支撐和保障, 使得數(shù)據(jù)安全技術(shù)主題呈繼承性持續(xù)演進(jìn)。
路徑二, 融合型: 通過(guò)縱向階段主題演化類(lèi)型可知, 融合型主題較多且多集中在第五階段, 鑒于此, 本文選擇主題影響力較大的S5-T9 主題進(jìn)行分析。(S4-T1、S4-T3、S4-T9、S4-T10、S4-T11、S4-T12)→S5-T9, 該路徑主要為政務(wù)數(shù)據(jù)相關(guān)主題, 主要由數(shù)據(jù)全生命周期風(fēng)險(xiǎn)防范與治理相關(guān)主題演化而來(lái)。隨著《中華人民共和國(guó)數(shù)據(jù)安全法》第五章明確規(guī)定了政務(wù)數(shù)據(jù)安全與開(kāi)放相關(guān)制度,使得數(shù)據(jù)安全治理在政務(wù)數(shù)據(jù)領(lǐng)域更加聚焦, 同時(shí)也反映出在《中華人民共和國(guó)數(shù)據(jù)安全法》頂層設(shè)計(jì)下, 數(shù)據(jù)安全治理內(nèi)容呈現(xiàn)出融合發(fā)展趨勢(shì)。
路徑三, 分化型: 通過(guò)縱向階段主題演化類(lèi)型可知, 分化型主題較多, 鑒于此, 本文選擇主題影響力較大的S3-T5 主題進(jìn)行分析。S3-T5→(S4-T1、S4-T2、S4-T3、S4-T10、S4-T11、S4-T14),該路徑為數(shù)據(jù)開(kāi)放主題演化成數(shù)據(jù)開(kāi)放與安全問(wèn)題相關(guān)主題。隨著我國(guó)數(shù)字經(jīng)濟(jì)的發(fā)展, 數(shù)據(jù)作為國(guó)家基礎(chǔ)戰(zhàn)略性資源和重要生產(chǎn)要素, 數(shù)據(jù)開(kāi)放是挖掘數(shù)據(jù)價(jià)值、發(fā)展數(shù)字經(jīng)濟(jì)的必然選擇, 因此, 數(shù)據(jù)開(kāi)放中的安全問(wèn)題成為政府關(guān)注的焦點(diǎn)。主要包括開(kāi)放原則、開(kāi)放領(lǐng)域和治理手段3 個(gè)方面。開(kāi)放原則是指在數(shù)據(jù)開(kāi)放過(guò)程中需確保個(gè)人隱私、個(gè)人信息、商業(yè)秘密等安全; 開(kāi)放領(lǐng)域主要聚焦在政務(wù)數(shù)據(jù)、公共數(shù)據(jù), 但進(jìn)入2022 年后, 部分地區(qū)發(fā)布數(shù)據(jù)條例, 數(shù)據(jù)開(kāi)放范圍逐漸向?qū)捒趶竭^(guò)渡, 也體現(xiàn)了國(guó)家數(shù)據(jù)開(kāi)放的決心, 但在數(shù)據(jù)開(kāi)放過(guò)程中,數(shù)據(jù)安全問(wèn)題同時(shí)要關(guān)注; 數(shù)據(jù)安全治理手段主要包括完善數(shù)據(jù)開(kāi)放制度與協(xié)議及提高數(shù)據(jù)開(kāi)放中突發(fā)事件的應(yīng)急處置能力。
3.4主題強(qiáng)度演化
主題強(qiáng)度演化能夠反映數(shù)據(jù)安全政策主題隨時(shí)間變化其強(qiáng)度差異, 通過(guò)對(duì)各階段主題聚類(lèi)結(jié)果進(jìn)行共現(xiàn)分析, 選取核心主題進(jìn)行主題強(qiáng)度演化分析。具體通過(guò)Python 對(duì)聚類(lèi)結(jié)果進(jìn)行共現(xiàn), 然后使用Ucinet 將共現(xiàn)矩陣轉(zhuǎn)成Pajek 格式, 導(dǎo)入VOSview?er 可視化分析軟件, 生成共現(xiàn)圖譜, 如圖5 所示,顏色代表類(lèi)別, 圓圈大小代表主題的影響程度, 圓圈越大, 主題詞影響力越大。本文基于每個(gè)類(lèi)別,選擇一個(gè)或兩個(gè)影響程度較大的主題詞表征主題,主要包括: 網(wǎng)絡(luò)安全、應(yīng)急處置、安全保障、個(gè)人隱私、主管部門(mén)、服務(wù)、技術(shù)、數(shù)據(jù)開(kāi)放、風(fēng)險(xiǎn)評(píng)估、安全可控、監(jiān)測(cè)預(yù)警等主題。這些主題代表了在單個(gè)時(shí)間窗口或多個(gè)時(shí)間窗口我國(guó)數(shù)據(jù)安全政策關(guān)注的重點(diǎn), 是我國(guó)數(shù)據(jù)安全政策內(nèi)容的整體映射。因此是數(shù)據(jù)安全政策的核心主題。
根據(jù)主題共現(xiàn)圖譜確定上述核心主題后, 根據(jù)式(5) 計(jì)算出各時(shí)間階段內(nèi)核心主題共現(xiàn)的政策語(yǔ)句數(shù)量, 然后根據(jù)式(6) 計(jì)算各個(gè)核心主題在不同時(shí)間窗口下的主題強(qiáng)度, 繪制主題強(qiáng)度趨勢(shì)圖,如圖6 所示, 根據(jù)主題強(qiáng)度趨勢(shì)可以劃分為3類(lèi)。
一是主題強(qiáng)度先上升后下降, 但主題強(qiáng)度總體上維持在較高的水平, 主要包括: 網(wǎng)絡(luò)安全、安全保障、服務(wù)、技術(shù)主題。主題強(qiáng)度趨勢(shì)表明這類(lèi)主題雖然呈下降趨勢(shì), 但仍是數(shù)據(jù)安全的重要組成部分, 具體表現(xiàn)為, 明確網(wǎng)絡(luò)安全審查要求、完善數(shù)據(jù)安全保障措施、發(fā)展數(shù)據(jù)安全服務(wù)與技術(shù)等受政策持續(xù)關(guān)注, 但內(nèi)容更為明確、細(xì)化。其中, 網(wǎng)絡(luò)安全主題強(qiáng)度在2019—2020年出現(xiàn)較大波動(dòng), 表明網(wǎng)絡(luò)安全作為數(shù)據(jù)安全的環(huán)境支撐, 隨著2016年《中華人民共和國(guó)網(wǎng)絡(luò)安全法》的出臺(tái), 數(shù)據(jù)安全政策中其主題強(qiáng)度一直處于較高水平, 同時(shí)數(shù)據(jù)安全治理也是體系化的網(wǎng)絡(luò)安全建設(shè)中的重點(diǎn)之一[30] 。反映出政府對(duì)網(wǎng)絡(luò)安全在數(shù)據(jù)安全治理中的重視程度。但隨著《中華人民共和國(guó)數(shù)據(jù)安全法》的出臺(tái), 逐漸細(xì)化數(shù)據(jù)安全與網(wǎng)絡(luò)安全的關(guān)系, 網(wǎng)絡(luò)安全審查要求更加明確, 導(dǎo)致在2021—2022 年出現(xiàn)其主題強(qiáng)度急速下降的情況。
二是主題強(qiáng)度總體上呈現(xiàn)上升趨勢(shì)。主要包括: 數(shù)據(jù)開(kāi)放、公共數(shù)據(jù)、風(fēng)險(xiǎn)評(píng)估、主管部門(mén)、應(yīng)急處置。主題強(qiáng)度趨勢(shì)表明這類(lèi)主題演化能力強(qiáng), 是政府持續(xù)關(guān)注的主題, 預(yù)計(jì)未來(lái)幾年將逐步上升, 具體表現(xiàn)為, 將持續(xù)推動(dòng)數(shù)據(jù)開(kāi)放、擴(kuò)展數(shù)據(jù)安全范圍、開(kāi)展數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估、明確主管部門(mén)的安全職責(zé)、提高應(yīng)急處置能力。其中, 數(shù)據(jù)開(kāi)放和公共數(shù)據(jù)主題強(qiáng)度尤為突出, 數(shù)據(jù)開(kāi)放涉及個(gè)人、企業(yè)甚至是國(guó)家安全問(wèn)題, 表明隨著數(shù)字經(jīng)濟(jì)的發(fā)展, 政府在制定政策時(shí)逐漸加強(qiáng)數(shù)據(jù)開(kāi)放或數(shù)據(jù)流通中對(duì)數(shù)據(jù)安全問(wèn)題的重視; 公共數(shù)據(jù)主題強(qiáng)度在2019—2020 年出現(xiàn)較大波動(dòng), 反映出自2019年起重視公共數(shù)據(jù), 數(shù)據(jù)安全的演進(jìn)趨勢(shì)呈現(xiàn)出由早期政府?dāng)?shù)據(jù)安全→公共數(shù)據(jù)安全→廣義上的數(shù)據(jù)安全, 同時(shí)該演進(jìn)趨勢(shì)體現(xiàn)了政府?dāng)?shù)據(jù)開(kāi)放的決心, 且數(shù)據(jù)安全范圍也不斷增加。
三是主題強(qiáng)度整體呈現(xiàn)平穩(wěn)趨勢(shì), 波動(dòng)較小,且維持在較低的水平。主要包括: 個(gè)人隱私、安全可控、監(jiān)測(cè)預(yù)警。主題強(qiáng)度趨勢(shì)表明這類(lèi)主題演化能力低, 主題在數(shù)據(jù)安全政策內(nèi)容中占比較低, 具體表現(xiàn)為, 政府在制定政策時(shí)對(duì)這類(lèi)主題關(guān)注程度也較低。但“三法一條例” 對(duì)這類(lèi)主題從法律層面給出了清晰的定義和明確的要求, 且個(gè)人隱私、安全可控主題是數(shù)據(jù)安全的目標(biāo)和原則, 貫穿數(shù)據(jù)安全的始終; 監(jiān)測(cè)預(yù)警是對(duì)可能引發(fā)或?qū)е峦话l(fā)數(shù)據(jù)安全事件的各種危險(xiǎn)要素進(jìn)行持續(xù)地監(jiān)測(cè)并客觀分析, 它不但是數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估的基礎(chǔ), 還是數(shù)據(jù)安全風(fēng)險(xiǎn)防范的重要手段。因此, 該現(xiàn)象說(shuō)明政府對(duì)這類(lèi)主題演進(jìn)過(guò)程政策注意力占比失衡。
4 結(jié)論與建議
本文選?。担矗?部數(shù)據(jù)安全政策作為樣本, 采用NMF 主題模型和Word2Vec 詞向量模型從主題內(nèi)容演化和主題強(qiáng)度演化兩個(gè)視角進(jìn)行可視化處理與分析, 結(jié)果表明: 整體上數(shù)據(jù)安全主題內(nèi)容演化圍繞全流程控制呈現(xiàn)聚集性, 同時(shí)數(shù)據(jù)安全作為制度的核心要素嵌入到各個(gè)領(lǐng)域使得演化領(lǐng)域呈現(xiàn)擴(kuò)散性。在主題內(nèi)容演化方面: 階段1 和階段2 除了基礎(chǔ)性主題外, 大部分主題受關(guān)注程度較低, 消亡型主題整體占比較多, 主題間演化能力適中。隨著數(shù)據(jù)安全政策不斷增多及《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》等政策發(fā)布, 階段3 主題逐漸廣泛, 新生型主題整體占比較多, 主題間演化能力和主題影響力逐漸增強(qiáng)。階段4 和階段5 隨著“三法一條例” 出臺(tái), 數(shù)據(jù)安全頂層設(shè)計(jì)逐漸完善, 分化和融合型主題整體占比較多, 主題間演化能力和主題影響力較強(qiáng), 主題演化更加聚焦, 演化路徑更為豐富。在主題強(qiáng)度演化方面: 提取核心主題進(jìn)行主題強(qiáng)度分析和趨勢(shì)預(yù)測(cè), 其中, 網(wǎng)絡(luò)安全、安全保障、服務(wù)、技術(shù)等主題的強(qiáng)度呈現(xiàn)下降趨勢(shì), 但整體較高, 主題發(fā)展逐漸清晰、細(xì)化; 數(shù)據(jù)開(kāi)放、公共數(shù)據(jù)、風(fēng)險(xiǎn)評(píng)估、主管部門(mén)、應(yīng)急處置相關(guān)主題的強(qiáng)度呈現(xiàn)上升趨勢(shì), 主題發(fā)展逐漸受到重視; 個(gè)人隱私、安全可控、監(jiān)測(cè)預(yù)警相關(guān)主題的強(qiáng)度呈現(xiàn)平穩(wěn)趨勢(shì), 且整體較低, 主題發(fā)展較為緩慢。
經(jīng)過(guò)主題內(nèi)容和主題強(qiáng)度的結(jié)果分析, 從以下4 個(gè)方面提出建議:
一是持續(xù)加強(qiáng)數(shù)據(jù)開(kāi)放與安全的協(xié)同。當(dāng)前數(shù)據(jù)開(kāi)放范圍逐漸擴(kuò)大, 由政府?dāng)?shù)據(jù)到公共數(shù)據(jù)再到廣義上的數(shù)據(jù), 因此數(shù)據(jù)在開(kāi)放過(guò)程中, 安全問(wèn)題成為數(shù)據(jù)開(kāi)放的重點(diǎn), 從主題內(nèi)容和主題強(qiáng)度演化可知, 政府對(duì)數(shù)據(jù)開(kāi)放中的安全問(wèn)題等相關(guān)主題較為重視, 但隨著覆蓋領(lǐng)域的范圍逐漸擴(kuò)大, 為了確保開(kāi)放的數(shù)據(jù)處于有效保護(hù)和合法利用的狀態(tài), 需要進(jìn)一步細(xì)化多元場(chǎng)景下的數(shù)據(jù)開(kāi)放, 持續(xù)加強(qiáng)數(shù)據(jù)開(kāi)放與安全的協(xié)同。
二是加強(qiáng)全流程的數(shù)據(jù)安全治理。從風(fēng)險(xiǎn)評(píng)估, 到監(jiān)測(cè)預(yù)警和應(yīng)急處置, 體現(xiàn)出將安全可控作為總體目標(biāo), 事前、事中、事后的數(shù)據(jù)安全全流程治理思路[31] 。事前風(fēng)險(xiǎn)評(píng)估和事后應(yīng)急處置主題強(qiáng)度不斷加強(qiáng), 表明政策中該主題部分內(nèi)容較多和政府對(duì)于風(fēng)險(xiǎn)預(yù)防與應(yīng)急處置的重視。但縱觀全流程的數(shù)據(jù)安全治理, 監(jiān)測(cè)預(yù)警主題強(qiáng)度不斷下降說(shuō)明持續(xù)關(guān)注不足, 政府應(yīng)當(dāng)持續(xù)加強(qiáng)事中監(jiān)管。
三是完善技術(shù)與政策融合的數(shù)據(jù)安全治理機(jī)制。數(shù)據(jù)安全治理離不開(kāi)技術(shù), 全流程治理過(guò)程中均體現(xiàn)了技術(shù), 并且需要政策使技術(shù)發(fā)揮最大運(yùn)用,開(kāi)發(fā)數(shù)據(jù)安全技術(shù)產(chǎn)品如隱私計(jì)算等, 使得數(shù)據(jù)安全政策與技術(shù)項(xiàng)目呼應(yīng)、協(xié)同, 以提高數(shù)據(jù)安全治理的效率和效力。技術(shù)的主題強(qiáng)度不斷增加實(shí)際反映出政府對(duì)于技術(shù)治理的重視, 但要將技術(shù)與政策融合, 需要考慮以數(shù)據(jù)為中心, 以數(shù)據(jù)安全技術(shù)為依托, 在數(shù)據(jù)分級(jí)分類(lèi)的基礎(chǔ)上為數(shù)據(jù)場(chǎng)景化使用保持安全狀態(tài)提供保障。
四是平衡政策主題演化注意力分配。通過(guò)主題強(qiáng)度分析可知, 個(gè)人隱私、安全可控、監(jiān)測(cè)預(yù)警政策主題內(nèi)容占比較低, 應(yīng)加強(qiáng)此類(lèi)主題的重視, 充分銜接“三法一條例” 頂層設(shè)計(jì), 形成聯(lián)動(dòng), 發(fā)布專(zhuān)項(xiàng)細(xì)化政策, 完善監(jiān)測(cè)預(yù)警機(jī)制, 夯實(shí)數(shù)據(jù)安全治理基礎(chǔ), 促進(jìn)數(shù)據(jù)安全與發(fā)展協(xié)同。