• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于信息DNA的互聯(lián)網(wǎng)信息內(nèi)容傳播及演化追溯方法

      2022-12-08 07:46:22李攀攀謝正霞王贈凱靳銳
      電信科學(xué) 2022年11期
      關(guān)鍵詞:信息內(nèi)容變異實體

      李攀攀,謝正霞,王贈凱,靳銳

      一種基于信息DNA的互聯(lián)網(wǎng)信息內(nèi)容傳播及演化追溯方法

      李攀攀1,謝正霞1,王贈凱1,靳銳2

      (1.嘉興學(xué)院,浙江 嘉興 314001;2.哈爾濱工業(yè)大學(xué),黑龍江 哈爾濱 150001)

      針對如何解決互聯(lián)網(wǎng)上信息內(nèi)容傳播及演化過程追溯的問題,提出了一種基于信息DNA的互聯(lián)網(wǎng)信息傳播及演化追溯方法。首先,根據(jù)領(lǐng)域知識對互聯(lián)網(wǎng)信息內(nèi)容進(jìn)行語義抽取,形成信息內(nèi)容關(guān)鍵特征集;然后,使用信息內(nèi)容關(guān)鍵特征集,提出基于局部敏感哈希的信息DNA構(gòu)建方法;最后,通過公開數(shù)據(jù)集驗證了所提方法的可用性及有效性。以信息DNA為核心標(biāo)識符解決了互聯(lián)網(wǎng)同源信息傳播及演化過程可追溯的問題,對研究互聯(lián)網(wǎng)信息內(nèi)容傳播、演化追溯及網(wǎng)絡(luò)輿情事件的治理與引導(dǎo)等有重要的現(xiàn)實意義。

      信息DNA;信息演化;信息傳播;計算傳播學(xué)

      0 引言

      以互聯(lián)網(wǎng)為代表的信息技術(shù)改變了信息的傳播模式,相較于傳統(tǒng)媒體,信息傳播渠道呈現(xiàn)開放性和虛擬化的典型特點。信息在互聯(lián)網(wǎng)中的傳播速度更快、影響范圍更廣,傳播渠道也更加多樣[1-2]。但是,在開放的互聯(lián)網(wǎng)中,網(wǎng)絡(luò)謠言傳播、數(shù)字知識產(chǎn)權(quán)剽竊、信息的不當(dāng)引用等問題導(dǎo)致虛假和不實信息的蔓延和泛濫[3],給互聯(lián)網(wǎng)上信息內(nèi)容的監(jiān)管帶來嚴(yán)峻挑戰(zhàn),因此,研究面向信息內(nèi)容的傳播及演化溯源具有重要的現(xiàn)實意義[4]。

      在互聯(lián)網(wǎng)信息傳播溯源的研究領(lǐng)域中,傳統(tǒng)方法主要使用信息發(fā)布時間、發(fā)布地址、引用(轉(zhuǎn)載或轉(zhuǎn)述)時間等關(guān)鍵特征構(gòu)建信息傳播鏈,但是,這種方式通常忽略對信息內(nèi)容的理解,導(dǎo)致對信息內(nèi)容的不當(dāng)引用或剽竊難以被溯源[5]。開放的互聯(lián)網(wǎng)中,信息的傳播往往不是獨立的個體行為[6],傳播環(huán)境的開放性、復(fù)雜性,特別是信息傳播過程中受其他相關(guān)信息(如融合、引用、評述等因素)的影響,都給信息內(nèi)容的傳播及演化過程追溯帶來困難[7]??偟膩碚f,在開放的互聯(lián)網(wǎng)中研究信息的傳播和演化過程的追溯面臨如下3個方面的挑戰(zhàn)。

      ? 互聯(lián)網(wǎng)上信息的傳播渠道多樣,信息在復(fù)雜多樣的傳播渠道流轉(zhuǎn)過程中,元數(shù)據(jù)變化或信息內(nèi)容發(fā)生演化使得同源信息的追溯變得困難。

      ? 信息在融合傳播過程中不僅受多個前置信息內(nèi)容的影響,還受與這些前置信息之間傳播渠道多樣性的影響,這都給信息傳播及演化過程追溯帶來挑戰(zhàn)。

      ? 信息在傳播過程中發(fā)生“變異”后,傳統(tǒng)使用串匹配、距離向量法等同源信息相似度檢測方法精確率低,難以適用。

      為解決上述問題,本文提出了信息DNA的概念,作為信息內(nèi)容的標(biāo)識符,信息DNA是識別信息傳播及其演化過程的可辨識標(biāo)識,主要采用關(guān)鍵信息特征抽取以及局部敏感哈希算法的思路構(gòu)建描述信息內(nèi)容特征的信息DNA,使用信息DNA有效地解決在開放互聯(lián)網(wǎng)中的信息內(nèi)容傳播和演化追溯問題,實現(xiàn)了信息在開放互聯(lián)網(wǎng)上傳播過程中內(nèi)容的可追溯。本文的主要貢獻(xiàn)有如下3個方面。

      ? 提出了面向互聯(lián)網(wǎng)信息內(nèi)容DNA的概念,將其作為信息傳播及其演化追溯的標(biāo)識符。

      ? 提出了信息在互聯(lián)網(wǎng)傳播過程中面向內(nèi)容的可追溯方法,實現(xiàn)了對信息直接傳播和間接傳播的可追溯性。

      ? 提出了互聯(lián)網(wǎng)上信息變異傳播可追溯的方法,能追溯同源信息的傳播路徑及其內(nèi)容的演化,并能在一定程度上容忍信息傳播過程中內(nèi)容的變異。

      網(wǎng)絡(luò)空間作為陸、海、空、天之外的第五空間,泛在網(wǎng)絡(luò)空間打破了信息傳播的時空束縛,信息的傳播內(nèi)容、傳播范圍、傳播方式、傳播載體、傳播時效、傳播效果及傳播渠道等均呈現(xiàn)新的特點,研究互聯(lián)網(wǎng)上信息內(nèi)容的傳播是對其進(jìn)行風(fēng)險管控及延伸控制的主要手段之一,具有重要的現(xiàn)實意義,期望本文方法能為在開放互聯(lián)網(wǎng)中研究信息的傳播及演化追溯提供一定的參考和借鑒。

      1 面向信息DNA的多維特征抽取方法

      1.1 互聯(lián)網(wǎng)信息傳播模型

      理論上,互聯(lián)網(wǎng)中信息之間的引用、轉(zhuǎn)述、評論、轉(zhuǎn)發(fā)等均會產(chǎn)生傳播影響力,信息的傳播模式主要有直接傳播和間接傳播兩種方式[8],互聯(lián)網(wǎng)上信息的傳播模型如圖1所示。

      圖1 互聯(lián)網(wǎng)上信息的傳播模型

      在圖1中,信息實體A到信息實體D的傳播是直接傳播,信息實體A到信息實體G的傳播是間接傳播。

      信息傳播模型用=(,)表示,其中,表示信息的集合,×表示邊的集合,v∈表示信息實體,e∈表示信息實體v與信息實體v之間的關(guān)系,信息在互聯(lián)網(wǎng)上的傳播以e為表現(xiàn)形式。

      信息變異是指信息實體v通過e影響信息實體v時,信息實體v受傳播渠道或傳播形式的影響出現(xiàn)損失或附加的情況,這種影響因素包括信息因素、人為因素或網(wǎng)絡(luò)環(huán)境因素。

      信息變異率指v通過e影響到v的信息傳播過程中,v信息的內(nèi)容、意義或形式發(fā)生變化的程度。

      隨著信息技術(shù)向生產(chǎn)生活領(lǐng)域的全面滲透,特別是移動互聯(lián)網(wǎng)及移動社交媒體的普及,受眾獲取及傳播渠道的多元化和碎片化,信息在互聯(lián)網(wǎng)傳播過程中更容易發(fā)生變異,如信息形式或內(nèi)容上的變化,或未保留全部原信息實體的內(nèi)容,如新聞的部分轉(zhuǎn)載。

      1.2 信息DNA元素多維特征抽取與平行擴(kuò)展

      信息DNA的定義:信息DNA是指互聯(lián)網(wǎng)上所傳播信息內(nèi)容的標(biāo)識,是衡量信息傳播及演化過程中是否為同源信息的標(biāo)識符。

      設(shè)信息實體的特征集記作,其內(nèi)容記作c、元數(shù)據(jù)集記作m,顯然,信息特征集由其內(nèi)容和元數(shù)據(jù)兩部分組成,其中內(nèi)容是指信息要傳遞的內(nèi)容,元數(shù)據(jù)是標(biāo)識信息本身的屬性,如信息長度、信息產(chǎn)生者、信息發(fā)布時間等。因此,則有=m∪c,那么構(gòu)建信息DNA是從其特征集中抽取關(guān)鍵特征變量,處理后使其成為信息傳播及演化過程的標(biāo)志。那么,提取信息特征集也即轉(zhuǎn)化成如何使用語料庫描述信息內(nèi)容及其元數(shù)據(jù),但是,傳統(tǒng)以“詞”為最小單位構(gòu)建語料庫的方法中,很多高頻詞(如虛詞)對信息內(nèi)容沒有實際意義,且需要較高維度的張量才能完整表達(dá)出信息實體特征集的內(nèi)容,這將導(dǎo)致嚴(yán)重的維度災(zāi)難[9],繼而給信息傳播路徑識別與追溯帶來技術(shù)上的挑戰(zhàn)。

      為了解決維度災(zāi)難的問題,本文采用詞頻—逆向文檔頻率(term frequency-inverse document frequency,TF-IDF)方法,該方法注重衡量每個“特征詞”對信息內(nèi)容的貢獻(xiàn)程度[10]。通過對信息實體中詞語出現(xiàn)的次數(shù)進(jìn)行“全局”歸一化處理后,再使用TF-IDF方法能有效地避免維度災(zāi)難[11]。信息實體特征集多維特征的抽取過程如 式(1)所示。

      根據(jù)前文所述,信息DNA具備對信息實體內(nèi)容理解及形式變異后的追蹤和識別能力,因此,信息DNA從信息中抽取的多維特征關(guān)鍵詞集包含兩個方面。

      (1)信息元數(shù)據(jù)的標(biāo)識符,是信息實體全體屬性的集合。

      (2)對信息內(nèi)容的理解,即采用自然語言理解技術(shù)對信息的內(nèi)容進(jìn)行分析處理。

      因此,面向信息DNA的多維特征抽取過程示意圖如圖2所示。

      圖2 面向信息DNA的多維特征抽取過程示意圖

      從圖2可以看出,經(jīng)過特征抽取之后,由于剔除了對信息特征無貢獻(xiàn)的特征,||<<。信息DNA具備了信息變異后的理解能力,這為追溯信息演化及變異傳播提供了基礎(chǔ)依據(jù)。

      但是,由于信息在互聯(lián)網(wǎng)上傳播過程的不確定性,如元數(shù)據(jù)的缺失、表示方法或格式不一等,單純抽取的信息多維特征關(guān)鍵詞集僅僅是對當(dāng)前信息實體的描述。信息在傳播過程中可能發(fā)生變化,如時間元數(shù)據(jù)可能由“2021年1月3日”變成“2021/1/3”,地理元數(shù)據(jù)可能由“上?!弊兂伞爸袊虾!被颉皽钡?。為解決上述問題,需要對′進(jìn)行規(guī)則化,即數(shù)據(jù)抽取轉(zhuǎn)換和加載(extract-transform-load,ETL),針對特定的信息實體通過一系列規(guī)則模型將′進(jìn)行規(guī)格化處理并將其更新,信息ETL的更新過程如式(2)所示。

      =(, RULE) (2)

      其中,RULE為規(guī)則化集,由領(lǐng)域?qū)<掖_定。

      開放互聯(lián)網(wǎng)實現(xiàn)了信息跨地域、跨語種的傳播、交流與共享,如不同語種新聞之間的轉(zhuǎn)載評論、學(xué)術(shù)論文的跨語種引用等。為了提升本文方法的適用性,基于信息DNA的溯源方法應(yīng)支持信息實體的跨語種傳播。因此,需使用多語言模型庫對規(guī)則化的進(jìn)行多語言系統(tǒng)擴(kuò)展,本文使用平行語料庫對信息多維特征關(guān)鍵詞集進(jìn)行平行擴(kuò)充,這就實現(xiàn)了對信息內(nèi)容的平行語料信息增強(qiáng),面向信息內(nèi)容的平行語料信息增強(qiáng)示意圖如圖3所示。

      圖3 面向信息內(nèi)容的平行語料信息增強(qiáng)示意圖

      在圖3中,平行語料庫采用支持多語種語言的平行語料庫,將多維關(guān)鍵特征集′擴(kuò)充到平行語料增強(qiáng)特征集D,實現(xiàn)從詞、語句乃至篇章級語料中自動抽取平行語句對的功能[12-13]。在平行語料的選擇上,采用余弦相似度計算′與文本語料庫的相似性,余弦相似度通過兩個向量之間夾角的余弦值評估語料之間的相似度,兩個向量的夾角越小,余弦值越接近于1,語料相似度也就越高[14]。另一方面,為了解決′與向量長度不一致的問題,采用傳統(tǒng)的向量填充法[15],使得經(jīng)過填充后的或長度相同,填充的長度為?,那么相似度計算方法如式(3)所示。

      2 基于信息DNA的信息內(nèi)容傳播追溯方法

      信息在互聯(lián)網(wǎng)傳播的過程中,信息實體元數(shù)據(jù)及其內(nèi)容的變化具有隨機(jī)性和不確定性,因此,信息DNA要能容忍并追溯信息傳播的變化,本文引入了局部敏感哈希的方法,構(gòu)建信息內(nèi)容傳播及演化過程中的“遺傳物質(zhì)”,即信息DNA。

      2.1 信息傳播“遺傳物質(zhì)”與局部敏感哈希算法

      構(gòu)建信息DNA的思路是,使用信息的平行語料增強(qiáng)關(guān)鍵詞集D構(gòu)建出描述信息內(nèi)容的唯一標(biāo)志,信息DNA要能容忍信息實體的元數(shù)據(jù)及其內(nèi)容在一定范圍內(nèi)的變異,是追溯互聯(lián)網(wǎng)上信息傳播的線索。傳統(tǒng)的哈希算法不具備這種“容忍”信息內(nèi)容或形式變化的能力,信息元數(shù)據(jù)或內(nèi)容在形式上的任何微小變化都會導(dǎo)致其哈希值的巨大變化[16-17]。因此,無法將信息元數(shù)據(jù)或內(nèi)容的哈希值作為其傳播過程中的“遺傳物質(zhì)”用于追溯傳播及演化路徑。

      為了應(yīng)對上述問題,本文引入局部敏感哈希(locality sensitive hashing,LSH)方法,LSH方法常用于近似最近鄰查詢,不僅在高維空間中有優(yōu)異的性能表現(xiàn),而且在克服維度災(zāi)難的同時,還能保持可接受的時間和空間復(fù)雜度,在圖形圖像、音視頻、海量文本等領(lǐng)域的相似性查詢算法中有廣泛的應(yīng)用[18]。根據(jù)LSH方法的思想,在原空間中很近(相似)的兩個點,經(jīng)過LSH方法中哈希函數(shù)的映射后,哈希值有很大的概率是相同的,而兩個距離很遠(yuǎn)的點(相似性弱)映射后,哈希值相等的概率很小,即LSH方法的哈希函數(shù)lsh滿足如下性質(zhì)。

      對于在lsh高維空間的任意兩點和,則滿足:

      (1)如果(,)≤,則(()=())≥1;

      (2)如果(,)≥,則(()=())≤2。

      其中,>1,1>2

      基于LSH方法的數(shù)據(jù)距離與沖突概率示意圖如圖4所示。

      圖4 基于LSH方法的數(shù)據(jù)距離與沖突概率示意圖

      通過上述對LSH方法的分析,根據(jù)一定的策略或方法從信息實體中選擇適當(dāng)?shù)膮?shù),再采用LSH方法構(gòu)建信息內(nèi)容傳播的“遺傳物質(zhì)”,能在一定程度范圍內(nèi)容忍信息元數(shù)據(jù)或內(nèi)容的變化。信息實體A和信息實體B的信息DNA分別表示為DNAA和DNAB,在信息A向信息B的傳播過程中,當(dāng)相似度發(fā)生變化時,(DNAA, DNAB) <,則(DNAA)等于(DNAA)的概率大于1,這樣可以將1作為判斷同源信息的閾值。

      2.2 信息實體語義抽取

      根據(jù)前文討論,信息DNA要同時具備追溯信息傳播過程中元數(shù)據(jù)和及其內(nèi)容雙重變化的能力,因此,信息DNA還要包含信息實體的語義,需要提取信息實體的語義信息。

      信息實體語義的理解通常有分布式語義表示、模型論語義表示和框架語義表示3種基本方法[19-20],前兩種方法通常將信息實體的詞或句子用高維向量表示,這導(dǎo)致在技術(shù)上信息特征集提取變得困難,特別是互聯(lián)網(wǎng)上信息傳播的碎片化,使得上述前兩種方法難以適用于碎片化的互聯(lián)網(wǎng)信息實體語義理解。由于采用分層的思路,框架語義方法對信息實體的語義碎片化有較強(qiáng)的表示能力,因此,本文使用框架語義表示方法分析信息實體的語義,把整個信息實體分成3個層次:信息領(lǐng)域(domain)、信息意圖(intent)和語義槽(slot),其中,信息領(lǐng)域指信息所處的上下文環(huán)境,信息意圖指信息實體隱式表達(dá)的潛在內(nèi)容,語義槽指使用預(yù)定義關(guān)鍵詞集合增強(qiáng)信息語法的擴(kuò)展能力。針對信息實體的具體領(lǐng)域,可由領(lǐng)域?qū)<覍⑿畔嶓w劃分成其他表示形式,通過框架語義表示方法抽取信息實體的語義信息用表示。

      2.3 基于LSH的信息DNA構(gòu)建方法

      設(shè)信息實體= {d}(∈||),信息實體經(jīng)過LSH方法計算后得到其對應(yīng)的信息DNA,信息實體的DNA信息DNA定義為式(4)。

      DNA:= {ID,ID,DDNA} (4)

      其中,ID表示信息實體的標(biāo)識符,ID表示信息ID的語義信息,DDNA表示信息集中每個信息的信息DNA。根據(jù)前文信息DNA的定義,信息DNA是信息內(nèi)容演化傳播過程中的“遺傳物質(zhì)”,是研究信息傳播路徑及其內(nèi)容演化規(guī)律的重要指標(biāo),因此信息DNA構(gòu)建的流程及其所選取的參數(shù)至關(guān)重要。信息DNA必須具有信息元數(shù)據(jù)及其內(nèi)容的強(qiáng)關(guān)聯(lián)性,這是評估信息內(nèi)容傳播的基礎(chǔ),顯然這與信息元數(shù)據(jù)及其內(nèi)容的表達(dá)形式弱關(guān)聯(lián),基于LSH方法的信息DNA計算流程如圖5所示。

      圖5 基于LSH方法的信息DNA計算流

      此外,為了加深對信息內(nèi)容的理解,在采用框架語義表示各信息實體D之后,再分析出所屬領(lǐng)域,用于領(lǐng)域?qū)<医o出信息意圖和語義槽,這就在語義層面實現(xiàn)了對D的擴(kuò)充,之后再使用LSH方法計算出每個信息實體的信息DNA,具體來講,信息DNA的構(gòu)建算法如下。

      算法1 信息DNA構(gòu)建算法

      輸入:信息實體、ID標(biāo)志ID及其內(nèi)容c和元數(shù)據(jù)集m,文本語料庫,′=NULL,平行語料庫,相識度判斷閾值;

      輸出:信息DNA{ID、DNA};

      使用LSH方法計算D,得到信息實體的DNA信息DNA;

      return {ID、DNA}

      綜合前文所述本文采用LSH方法構(gòu)建信息DNA,能有效地解決信息在互聯(lián)網(wǎng)傳播過程中元數(shù)據(jù)缺失、差異化表述、內(nèi)容剽竊、不恰當(dāng)引用等情況下的追溯問題。

      2.4 基于信息DNA的信息傳播鏈構(gòu)建及溯源方法

      此外,除構(gòu)建信息DNA外,構(gòu)建信息DNA“遺傳物質(zhì)”的傳播鏈,用于信息傳播內(nèi)容及演化追溯,需要兩個主要階段,即建立信息DNA傳播鏈階段、信息DNA驗證階段。

      (1)建立信息DNA傳播鏈階段

      步驟1 提取信息實體的平行語料增強(qiáng)關(guān)鍵詞集D。

      步驟2 使用LSH方法計算信息實體的平行語料增強(qiáng)關(guān)鍵詞集,對D中每個關(guān)鍵詞進(jìn)行投影映射,并將映射的桶號作為該信息實體對象的編號來建立哈希索引表,并將哈希索引表向量存儲到對應(yīng)的哈希桶中。

      (2)信息DNA驗證階段

      在信息內(nèi)容傳播及演化追溯研究領(lǐng)域,傳統(tǒng)方法采用信息內(nèi)容相似性分析與度量為主要手段,本文使用的信息DNA突破了這種相對“剛硬”的思路。通過引入LSH方法,本文有效地解決了信息在互聯(lián)網(wǎng)傳播過程中各種不確定性的問題,并能支持信息內(nèi)容的傳播演化追溯。對于信息實體A和B,若存在AB,那么同源信息的判斷方法如下。

      ? 若(DNA,DNA)≤DNA,則可判斷信息實體AB為同源信息,即信息實體B受信息實體A的影響。

      ? 若(DNA,DNA)DNA,則可判斷信息實體AB不是同源信息,即信息實體B不受信息實體A的影響。

      其中,DNA為同源信息的判斷閾值,其具體值由領(lǐng)域?qū)<腋鶕?jù)不同的應(yīng)用環(huán)境、應(yīng)用場合等綜合分析后指定。

      3 信息傳播及演化過程中可追溯性理論證明

      信息在互聯(lián)網(wǎng)傳播過程中,其內(nèi)容被轉(zhuǎn)述、轉(zhuǎn)載等,信息傳播主要面臨如下3個風(fēng)險。

      (1)信息元數(shù)據(jù)丟失或形式發(fā)生變化。

      (2)內(nèi)容被不當(dāng)引用、評述或轉(zhuǎn)載乃至歪曲。

      (3)信息雜交融合傳播后引起的追溯困難。

      下面從理論上證明信息DNA用于信息傳播及演化過程中可追溯的有效性。

      (1)對于同源信息在傳播過程中形式的變化,如元數(shù)據(jù)形式的變化(丟失、格式變化等)以及信息內(nèi)容的變化,如何驗證信息實體A和信息實體B為同源信息?

      證明1:信息實體A到信息實體B的變異傳播過程中,在信息元數(shù)據(jù)或內(nèi)容變化后,因為有平行語料庫的作用,信息實體B在信息實體A基礎(chǔ)上進(jìn)行擴(kuò)充,會使得||<||,根據(jù)LSH方法的性質(zhì),可判定(DNA,DNA)

      (2)信息傳播過程中,若信息實體A被信息實體B全文轉(zhuǎn)載或引用,通過本文方法可分析出信息實體B受信息實體A的影響。

      證明2:根據(jù)前文描述,信息實體A的擴(kuò)展集真包含于信息實體B的擴(kuò)展集,即DNA?DNA,根據(jù)LSH方法的性質(zhì),則有(DNA,DNA) = 0,根據(jù)同源信息遺傳物質(zhì)驗證方法,可判斷A和B為同源信息,證畢。

      (3)對于信息雜交變異后傳播的可追溯問題,設(shè)信息實體A和信息實體B相融合后共同影響信息實體C,通過本文方法可通過信息實體C的信息DNA判斷其受信息實體A或信息實體B的影響

      證明3:顯然由證明2,可以確定信息實體C受影響于信息實體A,則有(DNA,DNA)

      因此,通過上述證明,從理論上驗證了本文方法具有追溯互聯(lián)網(wǎng)中信息內(nèi)容傳播及演化的能力。

      4 實驗分析

      下面進(jìn)一步采用公開數(shù)據(jù)集及仿真實驗驗證本文方法的有效性和可用性。

      4.1 實驗數(shù)據(jù)

      使用MATLAB仿真本文方法,實驗數(shù)據(jù)采用來自互聯(lián)網(wǎng)的公開數(shù)據(jù)集SogouT互聯(lián)網(wǎng)信息語料庫[21],其包含互聯(lián)網(wǎng)原始網(wǎng)頁、引用和評論等,信息實體A、B和C隨機(jī)選自SogouT的網(wǎng)頁信息,平行語料庫使用聯(lián)合國平行語料庫[22],同源信息的判斷閾值DNA=0.6。

      4.2 信息直接演化傳播的可追溯性

      網(wǎng)絡(luò)環(huán)境的開放性及傳播路徑的復(fù)雜性導(dǎo)致信息在網(wǎng)絡(luò)上的變異傳播,首先驗證信息傳播過程中不同變異程度下的可追溯性,選取100組信息A影響信息B的傳播過程,其中,|A|≥300,|B|≤400,0<≤100,為了更加體現(xiàn)實驗結(jié)果的有效性,將本文方法與使用關(guān)鍵詞方法對信息傳播內(nèi)容追溯準(zhǔn)確性進(jìn)行對比分析,關(guān)鍵詞方法即通過傳統(tǒng)的對信息傳播過程中信息主體和受影響信息客體的關(guān)鍵詞做余弦相似度分析,本實驗中關(guān)鍵詞余弦相似度=0.6。

      在信息A到信息B的傳播過程中,信息的元數(shù)據(jù)和內(nèi)容上的變異范圍為10%~70%的情況下,量化評估本文方法及關(guān)鍵詞法的可追溯性,即通過信息實體B的DNA信息分析出其受信息實體A影響的概率,信息直接演化傳播過程中追溯的準(zhǔn)確性如圖6所示。

      圖6 信息直接演化傳播過程中追溯的準(zhǔn)確性

      從圖6可以看出,隨著信息變異程度的增大,本文方法追溯的準(zhǔn)確性逐漸降低,但是當(dāng)變異程度增大到一定程度時,追溯的準(zhǔn)確性保持在相對穩(wěn)定的區(qū)間,這驗證了本文方法的可用性。較比關(guān)鍵詞方法,本文方法對信息內(nèi)容可追溯性識別率更高,主要原因是本文方法使用了同義詞語料庫和平行語料庫對信息實體的特征集進(jìn)行了擴(kuò)充,使得本文方法能夠在一定程度上容忍信息內(nèi)容的變異化傳播。另外,還可以看出,相較于信息內(nèi)容變異傳播,本文方法對元數(shù)據(jù)變異傳播的容忍程度更大,主要是元數(shù)據(jù)變異后對其進(jìn)行同義詞擴(kuò)充相對容易,擴(kuò)充的程度更加全面,這也驗證了使用平行語料增強(qiáng)關(guān)鍵詞集能提升對原始信息實體內(nèi)容的表達(dá)能力。

      下面進(jìn)一步分析本文方法追溯的誤報率,即假陽性和假陰性,其中假陽性指當(dāng)信息實體A未影響信息B時,而本文方法推斷出信息實體B受信息實體A影響的概率,假陰性則指當(dāng)信息實體A影響信息實體B時,而本文方法未能推斷出信息實體B受信息實體A影響的概率,在元數(shù)據(jù)和內(nèi)容傳播過程中不同變異程度的情況下,信息直接演化傳播過程中追溯的誤報率如圖7所示。

      圖7 信息直接演化傳播過程中追溯的誤報率

      從圖7中可以看出,本文方法的誤報率與信息的變異程度密切相關(guān),隨著變異程度的增大,誤報率呈現(xiàn)上升的趨勢,同時也可以看出,相較于元數(shù)據(jù)的變異,內(nèi)容變異所帶來的誤報率更高,這與圖6的結(jié)論相吻合,驗證了本文方法對信息傳播中內(nèi)容變異的追溯能力稍遜于對元數(shù)據(jù)變異的追溯能力。

      4.3 信息間接演化傳播的可追溯性

      進(jìn)一步地,通過實驗分析間接傳播內(nèi)容的可追溯性,即對傳播鏈上信息實體A,經(jīng)過信息實體B影響信息實體C,其中||=530,即信息實體C的個數(shù)為530,驗證本文方法檢測到信息實體C受影響于信息實體A的概率,為了充分驗證本文方法的有效性,在信息實體A到信息實體B的傳播過程中分別有10%、30%和50%的信息變異情況下,信息B到信息C傳播變異為10%~70%的情況下,通過信息實體C的信息DNA分析出其受信息實體A影響的概率,信息間接演化傳播過程中追溯的準(zhǔn)確性如圖8所示。

      信息在傳播鏈上的變異程度,直接影響著信息追溯的準(zhǔn)確性,對比圖7中的實驗結(jié)果,驗證了本文方法的有效性,但是隨著信息變異程度的增加,追溯準(zhǔn)確性受到一定程度的挑戰(zhàn),主要由于實驗中采用了相對單薄的同義詞語料擴(kuò)展庫,影響了對信息內(nèi)容的擴(kuò)展,繼而給信息內(nèi)容變異傳播的分析帶來消極影響。在實際環(huán)境中,隨著同義詞預(yù)料庫的豐富,本文方法在信息間接傳播的追溯準(zhǔn)確性上會隨之提升。通過對圖8進(jìn)一步分析還可以發(fā)現(xiàn),在不同變異傳播的情況下,本文方法的追溯準(zhǔn)確性高于關(guān)鍵詞法,其原因也與圖7的分析結(jié)論類似。

      圖8 信息間接演化傳播過程中追溯的準(zhǔn)確性

      下面進(jìn)一步分析在不同信息變異程度下間接傳播過程中追溯的誤報率,信息間接演化傳播追溯的誤報率如圖9所示。

      圖9 信息間接演化傳播追溯的誤報率

      從圖9中可以看出,在元數(shù)據(jù)變異和內(nèi)容變異范圍內(nèi),誤報率均在可接受的范圍內(nèi)。進(jìn)一步地,結(jié)合圖7和圖9,可以看出本文方法對直接演化傳播和間接演化傳播在一定變異范圍內(nèi)追溯的有效性。

      4.4 信息融合傳播的可追溯性

      相較于信息在某一傳播鏈上的影響,信息融合后對受影響信息的追溯性判斷更具有挑戰(zhàn)性。假設(shè)信息實體A和信息實體B相融合后共同影響信息實體C,驗證信息實體C與信息實體A和信息實體B均為同源信息,其中,融合率指信息實體A和信息實體B分別到信息實體C傳播變異率(或變異程度)的最小值。在實驗過程中,信息實體A和信息實體B融合率分別為10%、30%、50%以及融合后信息在對信息實體C的傳播過程中變異程度為10%~70%的情況下,對信息融合傳播過程中進(jìn)行可追溯性分析,即通過信息DNA檢測出信息實體C受信息實體A和信息實體B共同影響的概率,信息融合演化傳播過程中追溯的準(zhǔn)確性如圖10所示。

      圖10 信息融合演化傳播過程中追溯的準(zhǔn)確性

      信息融合傳播受限于前序信息實體對后續(xù)信息的影響程度,進(jìn)一步地,從圖10可以看出,本文方法在低變異融合傳播過程中,能以較大概率識別得到同源信息。與前文類似,同源信息識別的精度與信息傳播過程的變異程度相關(guān),識別的精度隨著變異程度的增大而降低,但當(dāng)變異程度大于30%后,識別精度的下降趨勢變得相對平緩,這樣驗證了當(dāng)信息變異足夠大時,本文方法仍能以一定的概率驗證同源信息。與圖6和圖8的實驗結(jié)果類似,在不同的融合率傳播情況下,本文方法比關(guān)鍵詞法的追溯精度要高,其原因也與圖6的分析類似。

      下面進(jìn)一步分析信息融合傳播過程下追溯的誤報率,信息融合演化傳播過程中追溯的誤報率如圖11所示。

      圖11 信息融合演化傳播過程中追溯的誤報率

      從圖11中可以看出,信息融合傳播情況下追溯的誤報率保持在10%~35%。需要指出的是,隨著變異程度的增加,誤報率也始終保持了相對緩和增長的趨勢,這也驗證了本文方法在信息融合傳播環(huán)境下的可用性。進(jìn)一步地,結(jié)合圖7、圖9和圖11可以看出,各種信息傳播模式下,本文方法均能在一定范圍內(nèi)實現(xiàn)信息內(nèi)容傳播的可追溯性,即驗證了本文方法的可用性和有效性。

      5 結(jié)束語

      當(dāng)前,互聯(lián)網(wǎng)以其開放性、時效性、共享性等特點改變了信息知曉、交流與共享的模式,網(wǎng)絡(luò)空間承載了海量的信息,研究互聯(lián)網(wǎng)上信息內(nèi)容傳播及演化過程的可追溯性在網(wǎng)絡(luò)輿情治理、數(shù)字內(nèi)容版權(quán)管理等領(lǐng)域具有重要的現(xiàn)實意義。針對互聯(lián)網(wǎng)上信息內(nèi)容的傳播及演化過程,本文提出了信息DNA的概念,在對信息內(nèi)容多維特征抽取和語料平行擴(kuò)展的基礎(chǔ)上,引入了基于LSH的信息DNA構(gòu)建方法,解決了互聯(lián)網(wǎng)上信息內(nèi)容傳播及其演化過程可追溯的重要問題。期待本文的研究思路為本領(lǐng)域的研究人員提供一定的參考,共同促進(jìn)本領(lǐng)域的發(fā)展。

      [1] 曹玖新, 高慶清, 夏蓉清, 等. 社交網(wǎng)絡(luò)信息傳播預(yù)測與特定信息抑制[J]. 計算機(jī)研究與發(fā)展, 2021, 58(7): 1490-1503.

      CAO J X, GAO Q Q, XIA R Q, et al. Information propagation prediction and specific information suppression in social networks[J]. Journal of Computer Research and Development, 2021, 58(7): 1490-1503.

      [2] 李晉, 楊子龍. 微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的節(jié)點特征和傳播模型[J]. 電信科學(xué), 2016, 32(1): 40-45.

      LI J, YANG Z L. Node characteristic and propagation model in microblog forwarding network[J]. Telecommunications Science, 2016, 32(1): 40-45.

      [3] 徐銘達(dá), 張子柯, 許小可. 基于模體度的社交網(wǎng)絡(luò)虛假信息傳播機(jī)制研究[J]. 計算機(jī)研究與發(fā)展, 2021, 58(7): 1425-1435.

      XU M D, ZHANG Z K, XU X K. Research on spreading mechanism of false information in social networks by motif degree[J]. Journal of Computer Research and Development, 2021, 58(7): 1425-1435.

      [4] 劉小洋, 何道兵. 基于突發(fā)公共事件的信息傳播動力學(xué)模型與輿情演化研究[J]. 計算機(jī)科學(xué), 2019, 46(5): 320-326.

      LIU X Y, HE D B. Study on information propagation dynamics model and opinion evolution based on public emergencies[J]. Computer Science, 2019, 46(5): 320-326.

      [5] 曹峰, 張真繼, 關(guān)曉蘭. 基于系統(tǒng)動力學(xué)的網(wǎng)絡(luò)輿情驅(qū)動力模型研究[J]. 電信科學(xué), 2020, 36(12): 49-58.

      CAO F, ZHANG Z J, GUAN X L. Research on the driving force model of Internet public opinion based on system dynamics[J]. Telecommunications Science, 2020, 36(12): 49-58.

      [6] ZHANG H J, DONG Y C, XIAO J, et al. Consensus and opinion evolution-based failure mode and effect analysis approach for reliability management in social network and uncertainty contexts[J]. Reliability Engineering & System Safety, 2021(208): 107425.

      [7] FANI H, JIANG E, BAGHERI E, et al. User community detection via embedding of social network structure and temporal content[J]. Information Processing & Management, 2020, 57(2): 102056.

      [8] 李攀攀, 謝正霞, 王贈凱, 等. 開放互聯(lián)網(wǎng)環(huán)境基于信息熵的信息傳播影響力計算方法[J]. 電信科學(xué), 2022, 38(4): 90-100.

      LI P P, XIE Z X, WANG Z K, et al. Calculation method of information dissemination based on information entropy in public Internet[J]. Telecommunications Science, 2022, 38(4): 90-100.

      [9] 王乃鈺, 葉育鑫, 劉露, 等. 基于深度學(xué)習(xí)的語言模型研究進(jìn)展[J]. 軟件學(xué)報, 2021, 32(4): 1082-1115.

      WANG N Y, YE Y X, LIU L, et al. Language models based on deep learning: a review[J]. Journal of Software, 2021, 32(4): 1082-1115.

      [10] 丁曉陽, 王蘭成. 網(wǎng)絡(luò)論壇文本特征詞權(quán)重計算優(yōu)化方法研究[J]. 情報理論與實踐, 2021, 44(5): 187-192.

      DING X Y, WANG L C. Research on optimized calculation method for weight of terms in BBS text[J]. Information Studies: Theory & Application, 2021, 44(5): 187-192.

      [11] 孟青, 劉波, 張恒遠(yuǎn), 等. 在線社交網(wǎng)絡(luò)中群體影響力的建模與分析[J]. 計算機(jī)學(xué)報, 2021, 44(6): 1064-1079.

      MENG Q, LIU B, ZHANG H Y, et al. Multi-relational group influence modeling and analysis in online social networks[J]. Chinese Journal of Computers, 2021, 44(6): 1064-1079.

      [12] 賈承勛, 賴華, 余正濤, 等. 融合單語語言模型的漢越偽平行語料生成[J]. 計算機(jī)應(yīng)用, 2021, 41(6): 1652-1658.

      JIA C X, LAI H, YU Z T, et al. Chinese-Vietnamese pseudo-parallel corpus generation based on monolingual language model[J]. Journal of Computer Applications, 2021, 41(6): 1652-1658.

      [13] 黃水清, 王東波. 國內(nèi)語料庫研究綜述[J]. 信息資源管理學(xué)報, 2021, 11(3): 4-17, 87.

      HUANG S Q, WANG D B. Review of corpus research in China[J]. Journal of Information Resources Management, 2021, 11(3): 4-17, 87.

      [14] BA?óN M, CHEN P Z, HADDOW B, et al. ParaCrawl: web-scale acquisition of parallel corpora[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2020: 4555-4567.

      [15] 孫留倩, 魏玉良, 王佰玲. 基于圖卷積網(wǎng)絡(luò)的多源本體相似度計算方法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報, 2021, 7(5): 149-155.

      SUN L Q, WEI Y L, WANG B L. Novel similarity calculation method of multisource ontology based on graph convolution network[J]. Chinese Journal of Network and Information Security, 2021, 7(5): 149-155.

      [16] 郭一村, 陳華輝. 在線哈希算法研究綜述[J]. 計算機(jī)應(yīng)用, 2021, 41(4): 1106-1112.

      GUO Y C, CHEN H H. Survey on online hashing algorithm[J]. Journal of Computer Applications, 2021, 41(4): 1106-1112.

      [17] WANG J, ZHANG T, SONG J, et al. A survey on learning to hash[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 769-790.

      [18] JAFARI O, MAURYA P, NAGARKAR P, et al. A survey on locality sensitive hashing algorithms and their applications[J]. arXiv preprint, 2021, arXiv: 2102.08942.

      [19] 徐戈, 楊曉燕, 汪濤. 單詞語義相似性計算綜述[J]. 計算機(jī)工程與應(yīng)用, 2020, 56(4): 9-15.

      XU G, YANG X Y, WANG T. Survey on semantic similarity calculation of words[J]. Computer Engineering and Applications, 2020, 56(4): 9-15.

      [20] 由麗萍, 劉薈, 劉燾. 基于框架的情感語義表示模型設(shè)計與標(biāo)注實驗[J]. 情報科學(xué), 2014, 32(6): 143-147. YOU L P, LIU H, LIU T. Frame-based sentiment semantic representation model design and annotating experiments[J]. Information Science, 2014, 32(6): 143-147.

      [21] LUO C, ZHANG Y K, LIU Y Q, et al. SogouT-16: a new web corpus to embrace IR research[C]//Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2017: 1233-1236.

      [22] 聯(lián)合國大會和會議管理部. 聯(lián)合國平行語料庫[EB]. 2021. Department for General Assembly and Conference Management of United Nations. A six-language Parallel Corpus [EB]. 2021.

      An information-DNA based method of information dissemination and evolution on Internet

      LI Panpan1, XIE Zhengxia1, WANG Zengkai1, JIN Rui2

      1. Jiaxing University, Jiaxing 314001, China 2. Harbin Institute of Technology, Harbin 150001, China

      To solve the problem of how to trace the information content dissemination and evolution process on the Internet, an information DNA-based method of information dissemination and evolution on Internet was proposed. Firstly, semantic extraction of Internet information content was performed based on domain knowledge to form a key feature set of information content. Then, using the key feature set of information content, an information DNA construction method based on locally sensitive hashing was proposed. Finally, the usability and effectiveness of the proposed method were verified by public dataset. The problem of traceability of Internet homologous information dissemination and evolution process was solved by using information DNA as the core identifier, which was of great practical significance for the study of Internet information content dissemination, evolution tracing and the governance and guidance of Internet public opinion events.

      information DNA, information evolution, information dissemination, computational communication

      G206

      A

      10.11959/j.issn.1000–0801.2022280

      2022–05–11;

      2022–10–20

      國家自然科學(xué)基金資助項目(No.61902226);浙江省自然科學(xué)基金資助項目(No.LY18F020021)

      The National Natural Science Foundation of China (No.61902226), Zhejiang Provincial Natural Science Foundation of China (No.LY18F020021)

      李攀攀(1983– ),男,博士,嘉興學(xué)院講師,主要研究方向為社會計算、開源情報、網(wǎng)絡(luò)空間安全等。

      謝正霞(1982– ),女,嘉興學(xué)院工程師,主要研究方向為社會計算、網(wǎng)絡(luò)輿情等。

      王贈凱(1980– ),男,博士,嘉興學(xué)院講師,主要研究方向為社會計算、人工智能等。

      靳銳(1976– ),男,哈爾濱工業(yè)大學(xué)博士生,主要研究方向為信息安全、社交網(wǎng)絡(luò)分析、機(jī)器學(xué)習(xí)等。

      猜你喜歡
      信息內(nèi)容變異實體
      淺析知識倉庫及其在企業(yè)管理中的應(yīng)用
      信源、信息內(nèi)容、情緒特征對微博轉(zhuǎn)發(fā)的影響探究
      變異危機(jī)
      論《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》的創(chuàng)新與完善
      法制博覽(2020年6期)2020-07-16 03:49:06
      變異
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
      振興實體經(jīng)濟(jì)地方如何“釘釘子”
      微信公眾平臺推送信息內(nèi)容對顧客品牌忠誠的影響
      集贤县| 三门峡市| 大港区| 蒙城县| 出国| 雅江县| 泰兴市| 民丰县| 慈利县| 信丰县| 毕节市| 西丰县| 宣恩县| 遂川县| 行唐县| 曲阳县| 湟中县| 会泽县| 永年县| 孙吴县| 曲阜市| 子长县| 赞皇县| 德令哈市| 龙南县| 锡林郭勒盟| 兴国县| 惠安县| 关岭| 侯马市| 安溪县| 邢台市| 左贡县| 略阳县| 祁东县| 西充县| 保山市| 无极县| 泸水县| 大英县| 会同县|