饒安琪,宋 斌、2,*,張晨光,趙展鵬,王楷文
(1.河南科技大學(xué) 信息工程學(xué)院,河南 洛陽(yáng) 471023;2.河南科技大學(xué) 河南省網(wǎng)絡(luò)空間安全應(yīng)用國(guó)際聯(lián)合實(shí)驗(yàn)室,河南 洛陽(yáng) 471023)
根據(jù)調(diào)研國(guó)內(nèi)外對(duì)社交網(wǎng)絡(luò)安全問題的研究,目前基于社交網(wǎng)絡(luò)平臺(tái)獨(dú)特應(yīng)用特質(zhì),人們面臨的網(wǎng)絡(luò)風(fēng)險(xiǎn)隱患除傳統(tǒng)安全威脅外主要包括四類:敏感信息檢測(cè)、虛假信息傳播、惡意用戶識(shí)別以及云存儲(chǔ)的數(shù)據(jù)安全性。本文創(chuàng)新性地提出基于細(xì)粒度情感的文本敏感分類檢測(cè)方法、多模態(tài)融合敏感分類檢測(cè)方法、動(dòng)態(tài)數(shù)組多分支樹的云數(shù)據(jù)完整性驗(yàn)證方案、多用戶下的云數(shù)據(jù)完整性驗(yàn)證方案,構(gòu)建云數(shù)據(jù)護(hù)盾下的社交網(wǎng)絡(luò)安全衛(wèi)士平臺(tái)。
該平臺(tái)可適用于政府互聯(lián)網(wǎng)安全監(jiān)管機(jī)構(gòu)和網(wǎng)絡(luò)信息安全行業(yè)企業(yè),政府機(jī)構(gòu)和企業(yè)與本團(tuán)隊(duì)達(dá)成合作后,需提供社交平臺(tái)的數(shù)據(jù)接口,通過調(diào)用接口實(shí)現(xiàn)其平臺(tái)的安全檢測(cè)及控制功能,為社交平臺(tái)安全以及用戶使用體驗(yàn)提供更優(yōu)質(zhì)的服務(wù)以及更舒適的用戶體驗(yàn)。云數(shù)據(jù)護(hù)盾下的社交網(wǎng)絡(luò)安全衛(wèi)士平臺(tái)功能流程圖如圖1 所示。
圖1 社交網(wǎng)絡(luò)安全衛(wèi)士平臺(tái)功能流程圖
隨著社交網(wǎng)絡(luò)的極速發(fā)展和網(wǎng)絡(luò)用戶的增長(zhǎng),信息呈指數(shù)級(jí)增長(zhǎng),并呈現(xiàn)方式多樣化、內(nèi)容海量化等特點(diǎn),大量含有涉黃、涉政、涉恐、辱罵言論、賭博等類型的敏感信息充斥在互聯(lián)網(wǎng)環(huán)境中,對(duì)社會(huì)和諧安定造成了極大危害。因此,及時(shí)檢測(cè)互聯(lián)網(wǎng)中的敏感信息是保障互聯(lián)網(wǎng)健康發(fā)展的迫切需要。
社交網(wǎng)絡(luò)中的信息以多種形態(tài)呈現(xiàn),其中敏感信息主要存在于文本和圖片中,所以對(duì)敏感類文本和圖片的檢測(cè)是網(wǎng)絡(luò)不良信息檢測(cè)的重要組成部分。現(xiàn)有對(duì)敏感信息檢測(cè)的研究大都是采用單模態(tài)特征進(jìn)行敏感識(shí)別,即所謂的單模態(tài)數(shù)據(jù)分析,很少考慮多模態(tài)在敏感信息檢測(cè)中的應(yīng)用,如文本、圖片、表情、音視頻等多模態(tài)敏感信息的融合判斷,不能從整體上判斷推文的全局敏感性,識(shí)別效果和準(zhǔn)確率還有待提高,所以加強(qiáng)社交網(wǎng)絡(luò)敏感信息檢測(cè)對(duì)凈化網(wǎng)絡(luò)、防止惡意傳播極其重要。
針對(duì)現(xiàn)有的基于圖片或文本的單模態(tài)敏感信息檢測(cè)方法存在檢測(cè)結(jié)果無法充分反映推文整體敏感性的問題,本技術(shù)提出基于深度學(xué)習(xí)的多模態(tài)融合敏感信息分類檢測(cè)方法[1]。
該方法首先使用FastText作為文本敏感分類模型,通過引入文本情感極性,提高文本敏感信息分類檢測(cè)準(zhǔn)確率。然后將在大規(guī)模圖片數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練好的InceptionV3模型參數(shù)進(jìn)行遷移,然后對(duì)其進(jìn)行參數(shù)微調(diào),使用敏感圖像數(shù)據(jù)集訓(xùn)練敏感圖片分類模型,本技術(shù)主要將圖片檢測(cè)結(jié)果分為四類:涉黃類、涉政類、涉恐(暴)類和其他類。最后在決策層進(jìn)行數(shù)據(jù)融合,設(shè)計(jì)了模型融合公式,將文本敏感分類模型的結(jié)果和圖片敏感分類模型的結(jié)果根據(jù)融合公式進(jìn)行計(jì)算。本技術(shù)提出的多模態(tài)敏感信息分類檢測(cè)方法大致可分為三個(gè)階段:圖文敏感特征提取階段、圖文特征融合階段和敏感檢測(cè)分類階段。完整架構(gòu)如圖2 所示。
圖2 多模態(tài)融合的敏感信息分類檢測(cè)框架
針對(duì)在線社交網(wǎng)絡(luò)用戶發(fā)布的信息呈現(xiàn)內(nèi)容多樣化、多模態(tài)等特點(diǎn),擬研究提出基于深度學(xué)習(xí)的多模態(tài)融合敏感信息檢測(cè)方法,從而有效控制社交網(wǎng)絡(luò)敏感信息的發(fā)布和傳播,以實(shí)現(xiàn)社交平臺(tái)敏感信息監(jiān)督和治理。
1) 基于細(xì)粒度情感的文本敏感分類檢測(cè)方法
我們針對(duì)傳統(tǒng)的關(guān)鍵字匹配方法準(zhǔn)確率低、檢測(cè)速度慢等問題,設(shè)計(jì)了結(jié)合語(yǔ)義分析的快速敏感信息識(shí)別方法。該方法中敏感詞庫(kù)包含大量敏感詞,在使用過程中,用戶也可根據(jù)需要進(jìn)行敏感詞的增刪改查等操作[2]。利用FastText快速文本處理方法,結(jié)合敏感詞庫(kù)和語(yǔ)義分析對(duì)文本進(jìn)行敏感性檢測(cè),在進(jìn)行文本敏感性判定的同時(shí),引入情感極性因子,提出一種基于情感詞和敏感詞共現(xiàn)分析的敏感信息識(shí)別方法。
2) 多模態(tài)融合敏感分類檢測(cè)方法
針對(duì)傳統(tǒng)敏感圖像檢測(cè)的二分類問題,設(shè)計(jì)敏感圖像分類檢測(cè)模型,將圖像分為四類:涉黃、涉政、涉恐和其他類圖像。為解決單模態(tài)文本或圖片的敏感信息檢測(cè)方法不能充分挖掘社交網(wǎng)絡(luò)敏感信息內(nèi)容的問題,擬提出一種圖文融合多模態(tài)敏感信息檢測(cè)方法,采用決策層融合策略,根據(jù)概率分配和相關(guān)閾值的設(shè)定,進(jìn)行圖片和文本的融合分類[3]。
近年來,在線社交網(wǎng)絡(luò)中的虛假信息傳播給政治、經(jīng)濟(jì)和生活等多個(gè)領(lǐng)域帶來嚴(yán)重的負(fù)面影響,引發(fā)了學(xué)術(shù)界與產(chǎn)業(yè)界對(duì)這一科學(xué)問題的持續(xù)關(guān)注。通過對(duì)國(guó)內(nèi)外虛假信息傳播研究成果調(diào)研發(fā)現(xiàn),虛假信息傳播研究可以追溯到早期復(fù)雜網(wǎng)絡(luò)和小世界網(wǎng)絡(luò)中的謠言傳播動(dòng)力學(xué)模型研究[4],且持續(xù)到近幾年來關(guān)于社交自然人和社交機(jī)器人的混合型、交互式傳播模式研究。虛假信息傳播模型的研究主要針對(duì)傳播動(dòng)力學(xué)模型、獨(dú)立級(jí)聯(lián)模型和線性閾值模型等。虛假信息傳播行為模式的研究主要是通過發(fā)布、轉(zhuǎn)發(fā)、提及、評(píng)論等多種混合式行為方式進(jìn)行虛假信息傳播。如何綜合應(yīng)用社交情境安全分析和新一代人工智能技術(shù),挖掘社交用戶群體在傳播過程中的內(nèi)在特征、產(chǎn)生機(jī)理與傳播規(guī)律成為目前亟需解決的重要問題。
面向社會(huì)化媒體平臺(tái)虛假信息傳播控制,重點(diǎn)圍繞社交用戶虛假信息傳播意圖檢測(cè)與傳播趨勢(shì)識(shí)別,通過利用社會(huì)情境分析和人工智能技術(shù),擬提出傳播行為和潛在意圖的計(jì)算分析方法,實(shí)現(xiàn)社交用戶傳播前和傳播中及時(shí)有效的控制。虛假信息傳播控制主要用于定時(shí)預(yù)測(cè)社交平臺(tái)中用戶傳播虛假信息的潛在風(fēng)險(xiǎn)等級(jí),根據(jù)社交平臺(tái)中用戶發(fā)布動(dòng)態(tài)、發(fā)起話題的數(shù)量,預(yù)測(cè)用戶傳播虛假信息的潛在風(fēng)險(xiǎn)等級(jí)(用戶傳播虛假信息的意愿強(qiáng)度等級(jí)分為強(qiáng)、中、弱三類),以實(shí)現(xiàn)社交平臺(tái)對(duì)虛假信息傳播的事前和事中控制。
虛假信息檢測(cè)分為特征提取和模型構(gòu)建兩個(gè)階段。特征提取階段是以形式化的數(shù)學(xué)結(jié)構(gòu)來表示信息內(nèi)容和社交上下文相關(guān)輔助信息。模型構(gòu)建階段是進(jìn)一步構(gòu)建基于特征表示的信息內(nèi)容模型、社交上下文模型和混合模型,來更好地檢測(cè)虛假信息和真實(shí)信息。虛假信息傳播訪問控制體系結(jié)構(gòu)如圖3 所示。
圖3 虛假信息傳播訪問控制體系結(jié)構(gòu)
訪問控制模型主要分為基于角色的訪問控制模型、基于屬性的訪問控制模型和基于關(guān)系的訪問控制模型[5]。這些模型分別將角色、屬性和關(guān)系作為主要元素來控制對(duì)信息的訪問。在 OSNs 信息分享過程中,基于角色的訪問控制通常利用多重關(guān)系、關(guān)系強(qiáng)度、方向關(guān)系、用戶到用戶的關(guān)系和用戶到資源的關(guān)系等來控制信息的傳播[5]?;陉P(guān)系的訪問控制根據(jù)社交用戶之間的各種關(guān)系進(jìn)行授權(quán)訪問,來實(shí)現(xiàn)社交用戶對(duì)資源的傳播控制,提高了信息共享的安全性。虛假信息傳播使用控制模型如圖4 所示。
圖4 虛假信息傳播使用控制模型
傳統(tǒng)惡意用戶檢測(cè)算法的成功應(yīng)用都是建立在社交大數(shù)據(jù)基礎(chǔ)上的,而在實(shí)際應(yīng)用場(chǎng)景中,惡意用戶呈現(xiàn)分散性、潛伏性、復(fù)雜性等特征,單方的社交用戶數(shù)據(jù)無法滿足檢測(cè)要求,需要雙方乃至多方的用戶數(shù)據(jù)。因此,怎樣在保護(hù)普通用戶信息安全的情況下結(jié)合多方信息進(jìn)行建模計(jì)算、進(jìn)行惡意流量的精準(zhǔn)監(jiān)測(cè),是在線社交互聯(lián)網(wǎng)技術(shù)中亟待解決的難題。
針對(duì)在線社交網(wǎng)絡(luò)中惡意用戶檢測(cè),擬提出一種基于縱向聯(lián)邦學(xué)習(xí)的社交網(wǎng)絡(luò)跨平臺(tái)惡意用戶檢測(cè)方案和面向多方隱私保護(hù)的惡意用戶檢測(cè)算法,該方案對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行預(yù)處理,采用加密樣本對(duì)齊和加密模型訓(xùn)練方法[6],構(gòu)建如圖5 所示的數(shù)據(jù)預(yù)處理層、樣本對(duì)齊層、聯(lián)邦學(xué)習(xí)層、數(shù)據(jù)應(yīng)用層等層次化社交網(wǎng)絡(luò)跨平臺(tái)惡意用戶檢測(cè)架構(gòu),可在保障用戶隱私的前提下,實(shí)現(xiàn)對(duì)惡意用戶的精確檢測(cè)。
圖5 社交網(wǎng)絡(luò)跨平臺(tái)惡意用戶檢測(cè)架構(gòu)
云存儲(chǔ)是通過虛擬化的技術(shù)以較低的成本擴(kuò)充用戶的存儲(chǔ)空間,以此來減輕用戶管理和存儲(chǔ)數(shù)據(jù)的成本,并且可使用戶隨時(shí)隨地訪問云端的數(shù)據(jù)。但是,當(dāng)用戶把數(shù)據(jù)存儲(chǔ)到云端的同時(shí)也失去了對(duì)云數(shù)據(jù)的物理控制能力[7],云端數(shù)據(jù)可能會(huì)因?yàn)槭艿接布蛘呷藶榈炔淮_定因素的影響而有所缺失,云服務(wù)提供商也可能會(huì)為了利益而丟棄一些用戶不常訪問的數(shù)據(jù)以節(jié)約存儲(chǔ)成本[7]。然而,出于維護(hù)自己聲譽(yù)或者避免賠償?shù)膯栴},云服務(wù)提供商可能會(huì)隱瞞這些事故。這些數(shù)據(jù)安全問題極大地降低了人們對(duì)云存儲(chǔ)服務(wù)的信任度,嚴(yán)重地影響了云存儲(chǔ)服務(wù)的推廣和應(yīng)用。所以,云端數(shù)據(jù)完整性驗(yàn)證成為了亟待研究的問題。
擬將葉子節(jié)點(diǎn)設(shè)置為數(shù)組結(jié)構(gòu),降低樹的高度,提高節(jié)點(diǎn)的利用率,簡(jiǎn)化動(dòng)態(tài)更新的過程,縮短數(shù)據(jù)塊的查詢時(shí)間,從而有效減少驗(yàn)證過程中的通信開銷和計(jì)算開銷,提高驗(yàn)證效率。
擬將多個(gè)用戶考慮進(jìn)來,設(shè)計(jì)一種多用戶下的數(shù)據(jù)完整性驗(yàn)證算法,方案利用聚合簽名的性質(zhì),將多個(gè)用戶的多個(gè)標(biāo)簽聚合成一個(gè)短標(biāo)簽來進(jìn)行完整性驗(yàn)證,從而提高驗(yàn)證效率。
為驗(yàn)證和保持云計(jì)算環(huán)境數(shù)據(jù)完整性,如圖6所示,擬提出一種動(dòng)態(tài)數(shù)組多分支樹的云數(shù)據(jù)完整性驗(yàn)證方案和多用戶下的云數(shù)據(jù)完整性驗(yàn)證方案,以提高人們對(duì)云存儲(chǔ)服務(wù)的信任度。
圖6 數(shù)據(jù)完整性驗(yàn)證系統(tǒng)模型圖
現(xiàn)如今社交網(wǎng)絡(luò)在人們的生活中扮演著重要的角色,它已成為網(wǎng)絡(luò)時(shí)代人們生活的重要部分,在為人們提供便利和歡樂的同時(shí),其安全和隱私等問題日益凸顯。侵犯?jìng)€(gè)人隱私、竊取個(gè)人信息等違法犯罪行為時(shí)有發(fā)生,網(wǎng)上黃賭毒、網(wǎng)絡(luò)謠言等屢見不鮮,已經(jīng)成為影響國(guó)家公共安全的突出問題。檢測(cè)敏感信息、控制虛假信息、分析惡意行為、云數(shù)據(jù)安全技術(shù)已經(jīng)是當(dāng)前研究亟需解決的重要問題,關(guān)于社交網(wǎng)絡(luò)安全的研究具有非常廣闊的前景,也需要更多的技術(shù)迭代達(dá)到最佳的效果。因此,構(gòu)建云數(shù)據(jù)護(hù)盾下的社交網(wǎng)絡(luò)安全衛(wèi)士平臺(tái)既是時(shí)代的選擇,也是人們的需求。