李龔亮,敬思遠(yuǎn),文澤鵬,梁 燕
(1.中國工程物理研究院 計(jì)算機(jī)應(yīng)用研究所,四川 綿陽 621000;2.樂山師范學(xué)院 計(jì)算機(jī)科學(xué)學(xué)院,四川 樂山 614000)
信息流轉(zhuǎn)管控主要有基于標(biāo)簽的方法和基于內(nèi)容的方法?;跇?biāo)簽的方法主要用于涉密網(wǎng)或單位內(nèi)網(wǎng)環(huán)境,當(dāng)前主流文檔防擴(kuò)散系統(tǒng)均采用此方法,僅在標(biāo)簽設(shè)計(jì)和算法上略有區(qū)別。此類方法存在兩個(gè)明顯缺陷:一是無法管控非文件形式的信息流,例如用戶訪問服務(wù)器時(shí)的http請求;二是必須信賴信息標(biāo)識(shí)者是完全可靠的,無法防止惡意標(biāo)識(shí)而導(dǎo)致的管控漏洞[1]。基于內(nèi)容的方法主要用于互聯(lián)網(wǎng)輿情監(jiān)控[2]、文本安全審計(jì)[3]等領(lǐng)域,此類方法的不足之處在于,難以適應(yīng)多對多復(fù)雜訪問控制要求下的信息管控需求。本文以涉密網(wǎng)或單位內(nèi)網(wǎng)的信息流轉(zhuǎn)管控為目標(biāo),綜合以上兩類方法,提出一種基于多維標(biāo)簽的信息流轉(zhuǎn)雙重管控模型與算法。
圖1 基于多維管控標(biāo)簽的信息流轉(zhuǎn)雙重管控模型
信息流轉(zhuǎn)雙重管控的核心思路在于,以多維標(biāo)簽為核心,將基于標(biāo)簽的信息流轉(zhuǎn)實(shí)時(shí)判別與基于內(nèi)容的信息審計(jì)與預(yù)警結(jié)合起來,實(shí)現(xiàn)兩種方法的優(yōu)勢互補(bǔ)。其總體模型結(jié)構(gòu)如圖1所示。
在信息流轉(zhuǎn)的過程中,首先由發(fā)送方進(jìn)行信息標(biāo)識(shí)。數(shù)據(jù)流經(jīng)管控環(huán)節(jié)時(shí)進(jìn)行標(biāo)簽提取,同時(shí)將內(nèi)容保存到本地用于信息審計(jì)。管控程序按照發(fā)送方、接收方和信息三者的標(biāo)簽,依據(jù)實(shí)時(shí)判別算法判斷是否進(jìn)行流轉(zhuǎn);若通過判別則將信息流轉(zhuǎn)到接收方。與此同時(shí),管控程序以異步的方式,采用自然語言處理和機(jī)器學(xué)習(xí)方法對信息進(jìn)行自動(dòng)標(biāo)簽標(biāo)識(shí),并將算法標(biāo)識(shí)的標(biāo)簽與用戶標(biāo)識(shí)的標(biāo)簽進(jìn)行一致性對比,若不一致則將進(jìn)行系統(tǒng)預(yù)警。
按照該模型的設(shè)計(jì),將有效杜絕用戶惡意錯(cuò)誤標(biāo)識(shí)的問題。因?yàn)殄e(cuò)誤的標(biāo)識(shí)有較大的概率被發(fā)現(xiàn),且發(fā)現(xiàn)一次用戶就將面臨高懲罰的風(fēng)險(xiǎn),從而形成威懾。另一方面,由于信息審計(jì)預(yù)警是異步的,系統(tǒng)仍然可以基于標(biāo)簽的機(jī)制進(jìn)行高速、細(xì)粒度的流轉(zhuǎn)權(quán)限判定。
要實(shí)現(xiàn)這個(gè)模型,有3個(gè)問題需要解決。一是如何對數(shù)據(jù)流和文件進(jìn)行統(tǒng)一標(biāo)識(shí),這種標(biāo)識(shí)模型要具有多個(gè)維度描述信息的流轉(zhuǎn)控制權(quán)限,同時(shí)也能支撐快速的權(quán)限判別。二是采取何種方法來對信息標(biāo)簽進(jìn)行自動(dòng)標(biāo)識(shí)。三是如何對標(biāo)簽進(jìn)行一致性對比,并實(shí)現(xiàn)正確預(yù)警。下面三節(jié)將分別討論這幾個(gè)問題。
信息通常以文件與流的形式進(jìn)行存儲(chǔ)和流轉(zhuǎn)處理[4]。現(xiàn)有的數(shù)字簽名技術(shù)很容易對文件進(jìn)行簽名標(biāo)識(shí),而對于數(shù)據(jù)流如何處理卻成為難題。從信息流轉(zhuǎn)管控需求分析出發(fā),可以發(fā)現(xiàn)最易于導(dǎo)致信息擴(kuò)散的數(shù)據(jù)流是用戶訪問應(yīng)用服務(wù)器所產(chǎn)生的。在企業(yè)應(yīng)用環(huán)境中,這種流的主要形式是http(含web service)的response和request。不失一般性,本文重點(diǎn)分析如何針對http流進(jìn)行標(biāo)識(shí)。
http流信息的核心部分是業(yè)務(wù)數(shù)據(jù),而非http標(biāo)簽,而業(yè)務(wù)數(shù)據(jù)的來源主是數(shù)據(jù)庫記錄,因此對http流的標(biāo)識(shí)應(yīng)以數(shù)據(jù)庫為源頭。在重要業(yè)務(wù)系統(tǒng)設(shè)計(jì)時(shí)對需要管控的業(yè)務(wù)對象均會(huì)明確標(biāo)識(shí),那么在業(yè)務(wù)對象轉(zhuǎn)化為http流時(shí),可以以統(tǒng)一的方式將標(biāo)識(shí)注入請求或響應(yīng)流的頭部,如圖2所示。
圖2 數(shù)據(jù)流與文檔文件統(tǒng)一標(biāo)示模型
為統(tǒng)一模型并兼顧http流處理的需求,將所有標(biāo)識(shí)標(biāo)簽都放置在文件前的“
”部分,以XML格式存儲(chǔ)?!?head>”中至少包含3部分內(nèi)容,信息摘要標(biāo)識(shí)、信息流轉(zhuǎn)管控標(biāo)識(shí)、信息封裝算法標(biāo)識(shí)。其中信息摘要標(biāo)識(shí)用于標(biāo)識(shí)信息的唯一性,可以是通過哈希算法求得的信息摘要,也可以是信息承載主對象的ID;信息封裝算法標(biāo)識(shí)用于對文件進(jìn)行加密時(shí)封裝所采用的算法,由于http文件具有時(shí)效性且在傳輸過程中可通過SSL技術(shù)進(jìn)行加密,可不使用任何信息封裝算法。需要特別注意的是http文件與普通文件的存在轉(zhuǎn)換關(guān)系,即當(dāng)以http格式上傳下載普通文件時(shí),不同的應(yīng)用程序?qū)⒉捎貌煌臄帱c(diǎn)續(xù)傳和分片方法將文件切分為多個(gè)數(shù)據(jù)段并封裝為http格式多線程傳輸,從而導(dǎo)致監(jiān)控單一的http流難以獲得信息內(nèi)容。針對此類問題,考慮到傳輸中的數(shù)據(jù)片段難以識(shí)別管控,需將管控位置前移到文件上傳下載之前;若在企業(yè)內(nèi)部網(wǎng)絡(luò)中文件上傳下載的算法是統(tǒng)一或可數(shù)的,也可開發(fā)針對性的http多線程數(shù)據(jù)片段歸并程序在傳輸時(shí)實(shí)現(xiàn)http流到原始文件的歸回。
傳統(tǒng)的管控標(biāo)簽通常是一維的,例如BLP(Bell_Lapa-dula)模型的絕密、機(jī)密、秘密、非密四分法[5],并規(guī)定低密人員不能訪問高密信息,這樣的分類方法相當(dāng)粗略。例如,對某位機(jī)密級(jí)授權(quán)用戶,他是不能訪問所有機(jī)密級(jí)數(shù)據(jù)的。
為了建立信息系統(tǒng)訪問控制的基礎(chǔ),本文綜合業(yè)務(wù)實(shí)際提出了包含多個(gè)維度的管控標(biāo)簽?zāi)P?,文中統(tǒng)稱為多維標(biāo)簽,形式化表示為Tag=(L,P,A,B,D)。 其中,L表示密級(jí),P表示保密期限,A表示定密依據(jù),B表示知悉范圍,D表示業(yè)務(wù)領(lǐng)域。多維標(biāo)簽?zāi)P腿鐖D3所示。
圖3 多維標(biāo)簽?zāi)P驮O(shè)計(jì)
上述多維標(biāo)簽?zāi)P椭?,密?jí)和保密期限相對容易理解。密級(jí)是一個(gè)0-n的整數(shù),標(biāo)定了該信息受保護(hù)程度的強(qiáng)弱;保密期限是兩個(gè)時(shí)間戳標(biāo)定的受控時(shí)間范圍。而定密依據(jù)、知悉范圍和業(yè)務(wù)領(lǐng)域相對比較復(fù)雜。定密依據(jù)指出了信息受控的原因,知悉范圍指出了信息應(yīng)在何種范圍內(nèi)傳播,業(yè)務(wù)領(lǐng)域標(biāo)識(shí)了信息內(nèi)容的業(yè)務(wù)屬性。
本文中,多維標(biāo)簽中的定密依據(jù)、知悉范圍、業(yè)務(wù)領(lǐng)域均設(shè)計(jì)為包含有4個(gè)節(jié)點(diǎn)的樹形結(jié)構(gòu),每一節(jié)點(diǎn)長度為1字節(jié),用以存儲(chǔ)真實(shí)標(biāo)簽對應(yīng)的代碼。以定密依據(jù)為例,該結(jié)構(gòu)可以支持最多255種不同的定密依據(jù)標(biāo)簽(0表示未標(biāo)識(shí))。而用戶最多可以選擇4個(gè)標(biāo)簽進(jìn)行標(biāo)識(shí)。模型從標(biāo)識(shí)空間規(guī)模上已能夠支撐真實(shí)需求,通過增加字段長度也能夠易于擴(kuò)展。在工程實(shí)現(xiàn)時(shí),網(wǎng)絡(luò)環(huán)境中應(yīng)存在統(tǒng)一的狀態(tài)代碼服務(wù)來負(fù)責(zé)管理代碼與真實(shí)定密依據(jù)、知悉范圍、業(yè)務(wù)領(lǐng)域的映射關(guān)系。
信息流轉(zhuǎn)過程可以形式化描述為一個(gè)三元組IT=〈S,R,I〉, 其中S表示發(fā)送方,R表示接收方,I表示流轉(zhuǎn)的信息。S,R,I均采用上節(jié)介紹的多維標(biāo)簽。換句話說,S與R的標(biāo)簽與信息I的標(biāo)簽是一致的。無論S和R是真實(shí)的用戶還是信息系統(tǒng),其都應(yīng)該具有定密依據(jù)A、密級(jí)L、保密期限P、知悉范圍B、業(yè)務(wù)領(lǐng)域D這5種屬性。在實(shí)際業(yè)務(wù)中,信息流轉(zhuǎn)并非剛性的禁止高密低流,而是允許一定程度上的超越權(quán)限訪問。本文提出的在信息流轉(zhuǎn)實(shí)時(shí)判別算法如下所示。在該判別算法中,如果發(fā)送方、信息和接收方三者的密級(jí)和期限不符合高密不低流原則,則禁止流轉(zhuǎn);否則,算法根據(jù)發(fā)送方、信息和接收方在其余3個(gè)標(biāo)簽維度上的標(biāo)簽包含情況進(jìn)行打分,若最終分值低于給定閾值,則禁止流轉(zhuǎn)。由于每個(gè)單位實(shí)際應(yīng)用環(huán)境不同,如文獻(xiàn)[4]中提出信息常出現(xiàn)從高安全級(jí)別流向低安全級(jí)別情況,因此本文提出算法可根據(jù)實(shí)際業(yè)務(wù)進(jìn)行調(diào)整。
基于多維標(biāo)簽的信息流轉(zhuǎn)實(shí)時(shí)判別算法
輸入:IT=〈S,R,I〉
輸出: pass // 0≤pass≤1,若pass低于設(shè)定閾值,則禁止流轉(zhuǎn)
(1)if(S.Tag.L (2) pass=0; //若密級(jí)和期限不符合高密不低流原則,則禁止流轉(zhuǎn) (3)else (4) pass=λ1×Φ(S.Tag.A,I.Tag.A,R.Tag.A); (5) pass+=λ2×Φ(S.Tag.B,I.Tag.B,R.Tag.B); (6) pass+=λ3×Φ(S.Tag.D,I.Tag.D,R.Tag.D); (7)end (8) return pass; 說明: (1)?運(yùn)算符:計(jì)算兩個(gè)保密期限是否存在包含關(guān)系,存在則返回1,否則返回0; (2)Φ(·)函數(shù):計(jì)算參數(shù)(即標(biāo)簽集合)之間的包含程度,計(jì)算公式如下 (3)card(·)運(yùn)算符:計(jì)算集合中元素的個(gè)數(shù)。 上述方法不能防止用戶惡意標(biāo)識(shí)而導(dǎo)致的管控漏洞,例如發(fā)送方故意降低信息密級(jí)。因此,本文引入一種“事后審計(jì)”方法對其進(jìn)行補(bǔ)充。傳統(tǒng)基于內(nèi)容的安全審計(jì)一般采用的是字符串匹配方法[3,6]。但是這種方法難以適應(yīng)當(dāng)前的安全需求。本文采用基于機(jī)器學(xué)習(xí)的方法,該方法基于多標(biāo)簽學(xué)習(xí)理論,結(jié)合領(lǐng)域知識(shí),對信息進(jìn)行多維標(biāo)簽自動(dòng)標(biāo)識(shí)。進(jìn)一步,將算法自動(dòng)標(biāo)識(shí)的標(biāo)簽和用戶標(biāo)識(shí)的標(biāo)簽進(jìn)行一致性對比,若經(jīng)過模型判斷后不匹配,則進(jìn)行預(yù)警以及時(shí)防止信息擴(kuò)散。圖4為多維標(biāo)簽自動(dòng)標(biāo)識(shí)過程。 圖4 多維標(biāo)簽自動(dòng)識(shí)別過程 接下來,本文將介紹多維標(biāo)簽自動(dòng)標(biāo)識(shí)過程中的文本預(yù)處理、特征表示和提取、標(biāo)簽標(biāo)識(shí)器的訓(xùn)練以及最后的標(biāo)簽對比模型。 本文方法中的文本預(yù)處理主要是中文分詞。中文分詞是將輸入的文字序列,切分成一個(gè)一個(gè)單獨(dú)的詞,目前比較常用的方法有基于詞典的最大匹配法、全切分路徑選擇方法、基于字序列標(biāo)注的方法以及基于轉(zhuǎn)移的分詞方法[7]。 本文研究問題中需要重點(diǎn)考慮一些具有敏感信息的詞。本研究依據(jù)已經(jīng)有的業(yè)務(wù)經(jīng)驗(yàn)由業(yè)務(wù)部門整理形成一個(gè)敏感詞列表,作為本文的領(lǐng)域詞典,下文中表示為SW={sw1,sw2,…,swm}。 為了防止用戶在信息流中惡意嵌入涉密內(nèi)容,本文采用一種二階段的中文分詞策略。其基本思路為,首先采用基于詞典的最大匹配法篩選出信息中的敏感詞,然后再以這些敏感詞為邊界,采用全切分路徑選擇方法,對剩余內(nèi)容進(jìn)行分詞處理。這樣處理的好處在于:①首先保證了敏感詞的正確切分,這對最終標(biāo)簽判別結(jié)果是否準(zhǔn)確非常重要;②其次,該策略無需構(gòu)造大規(guī)模的詞典;③能夠?qū)ξ吹卿浽~進(jìn)行處理。 文本特征表示一般采用詞袋模型(Bag-of-Word,BOW模型),即將信息文本表示為一個(gè)一維的特征向量V=[w1,w2,…,wn]。 其中n是文本特征的大小,wi是文本特征fi在文本中出現(xiàn)的頻次,其中fi是本文特征集合F中的第i個(gè)元素。一般來說,文本特征可以采用統(tǒng)計(jì)的方法進(jìn)行選擇。常用的方法有TF-IDF、信息增益法、χ2統(tǒng)計(jì)量法、互信息法等[8,9]。 遺憾的是,傳統(tǒng)的BOW模型表達(dá)能力非常有限。本文采用了領(lǐng)域詞典來增強(qiáng)文本特征的表達(dá)能力,即文本特征集合F=SW∪W。 其中SW是領(lǐng)域詞典中敏感詞的集合,W是一般詞的集合。本文采用χ2統(tǒng)計(jì)量法對W進(jìn)行選擇。 標(biāo)簽標(biāo)識(shí)器訓(xùn)練是系統(tǒng)的核心模塊,是實(shí)現(xiàn)多維標(biāo)簽自動(dòng)標(biāo)識(shí)的關(guān)鍵環(huán)節(jié)。本文需對密級(jí)、定密依據(jù)、知悉范圍、業(yè)務(wù)領(lǐng)域4個(gè)維度進(jìn)行自動(dòng)標(biāo)簽標(biāo)識(shí)。其中,密級(jí)標(biāo)簽僅需要標(biāo)識(shí)1次,需要的標(biāo)簽標(biāo)識(shí)器實(shí)際上是一種多分類器。另外3個(gè)維度可能會(huì)進(jìn)行多次標(biāo)簽標(biāo)識(shí),因此需要一個(gè)多標(biāo)簽標(biāo)識(shí)器(即多標(biāo)簽分類器)。本文重點(diǎn)介紹多標(biāo)簽標(biāo)識(shí)器的學(xué)習(xí)問題。 本文采用M.R.Boutell等提出的Binary Relevance多標(biāo)簽學(xué)習(xí)算法(簡稱BR方法)[10]來訓(xùn)練多標(biāo)簽標(biāo)識(shí)器。BR方法基本思想是,將多標(biāo)簽識(shí)別器的學(xué)習(xí)問題分解為若干個(gè)二分類器(即單標(biāo)簽標(biāo)識(shí)器)的學(xué)習(xí)問題。換句話說,即是學(xué)習(xí)一個(gè)單標(biāo)簽標(biāo)識(shí)器的集合,集合中每一個(gè)單標(biāo)簽標(biāo)識(shí)器都對應(yīng)一個(gè)標(biāo)簽。在訓(xùn)練過程中,BR方法采用交叉訓(xùn)練的方式,即對每一個(gè)訓(xùn)練樣本,如果該樣本帶有該單標(biāo)簽標(biāo)識(shí)器對應(yīng)的標(biāo)簽,則該樣本對于該單標(biāo)簽標(biāo)識(shí)器為正樣本,否則為負(fù)樣本。選擇BR方法的原因在于,首先該方法能夠取得較好的實(shí)驗(yàn)結(jié)果;其次,該方法是一種one-to-rest方法,需要訓(xùn)練的單標(biāo)簽標(biāo)識(shí)器較少,在時(shí)間上更能滿足實(shí)際業(yè)務(wù)需要。 本文中的多維標(biāo)簽標(biāo)識(shí)問題可以形式化表示為式(1)。該公式并運(yùn)算符∪左邊表示通過標(biāo)簽標(biāo)識(shí)器得到第j維的標(biāo)簽集合,j的取值范圍為1-3,分別對應(yīng)于定密依據(jù)、知悉范圍和業(yè)務(wù)領(lǐng)域(此處多維標(biāo)簽的表示符號(hào)與前文中略有差異);gj,k(x) 是第j維第k個(gè)標(biāo)簽的標(biāo)識(shí)器,標(biāo)識(shí)器返回值大于0,則將該標(biāo)簽加入到標(biāo)簽集合;Nj為第j維的標(biāo)簽總數(shù)。右邊是文獻(xiàn)[11]中采用的T-Criterion策略,它的作用是避免得到的標(biāo)簽集合為空集 Tagj(x)={tagj,k|gj,k(x)>0,1≤j≤3,1≤k≤Nj} (1) 本文采用4.3節(jié)中得到的多維標(biāo)簽標(biāo)識(shí)器對消息文本x進(jìn)行自動(dòng)標(biāo)識(shí)。其中,對于“密級(jí)”維度,本文通過標(biāo)簽標(biāo)識(shí)器得到唯一的標(biāo)識(shí)結(jié)果,形式化表示為L(x)。對于另外3個(gè)維度,得到的則是3個(gè)標(biāo)簽的集合,表示為Tagj(x)?;诘玫降淖詣?dòng)標(biāo)識(shí)結(jié)果,本文提出一種標(biāo)簽一致性判定模型,如式(2)所示。 (2) 本文研制了系統(tǒng)原型對本文提出的管控模型進(jìn)行了驗(yàn)證。原型的硬件平臺(tái)為3 GHZ處理器+32 GB內(nèi)存。實(shí)驗(yàn)數(shù)據(jù)采用的是10萬條本單位的歷史消息數(shù)據(jù),并且經(jīng)過嚴(yán)格的標(biāo)簽標(biāo)識(shí)。多維標(biāo)簽中的密級(jí)為0~9之間的整數(shù),數(shù)字越高,密級(jí)越高。涉密依據(jù)、知悉范圍、業(yè)務(wù)領(lǐng)域3個(gè)維度標(biāo)簽則是通過專家知識(shí)進(jìn)行定制。領(lǐng)域詞典同樣是由專家知識(shí)進(jìn)行定制,其中包含了278個(gè)敏感詞(例如本單位涉及的特有實(shí)體名詞)。原型系統(tǒng)中的標(biāo)簽識(shí)別器(包括密級(jí)標(biāo)簽識(shí)別器和多標(biāo)簽識(shí)別器)均采用SVM(support vector machine)[11,12]。SVM采用線性核。 實(shí)驗(yàn)分為3個(gè)部分。第一部分是對基于多維標(biāo)簽的信息流轉(zhuǎn)實(shí)時(shí)判別算法進(jìn)行測試。第二部分是對多維標(biāo)簽自動(dòng)標(biāo)識(shí)算法進(jìn)行測試。第三部分是對系統(tǒng)預(yù)警能力進(jìn)行測試。 第一部分實(shí)驗(yàn)的目的是驗(yàn)證信息流轉(zhuǎn)判別算法的效率。信息流轉(zhuǎn)存在時(shí)限要求。本文將10萬條數(shù)據(jù)同時(shí)輸入到原型系統(tǒng),并記錄每一時(shí)刻系統(tǒng)吞吐量。實(shí)驗(yàn)結(jié)果如圖5所示。從圖中可以看到,系統(tǒng)吞吐量隨時(shí)間呈線性增長,其性能可以達(dá)到約2000條數(shù)據(jù)/s。該性能可以滿足大多數(shù)單位內(nèi)部信息流轉(zhuǎn)要求。 圖5 信息流轉(zhuǎn)吞吐量 第二部分實(shí)驗(yàn)的目的是驗(yàn)證結(jié)合領(lǐng)域知識(shí)的多維標(biāo)簽自動(dòng)標(biāo)識(shí)算法的有效性。本文將基于傳統(tǒng)文本特征表示方法的多維標(biāo)簽標(biāo)識(shí)器作為實(shí)驗(yàn)基線。實(shí)驗(yàn)指標(biāo)采用的是多維標(biāo)簽自動(dòng)標(biāo)識(shí)召回率,如式(3)所示,其中p表示測試樣本空間的大小。本實(shí)驗(yàn)采用十折交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果見表1。從實(shí)驗(yàn)結(jié)果來看,本文提出方法的平均召回率指標(biāo)為88.1%,說明該方法是有效的 (3) 表1 多維標(biāo)簽自動(dòng)標(biāo)識(shí)實(shí)驗(yàn)結(jié)果比較/% 第三部分實(shí)驗(yàn)的目的是驗(yàn)證系統(tǒng)預(yù)警能力。本文構(gòu)建了120個(gè)測試樣本進(jìn)行測試。測試樣本中包含80個(gè)錯(cuò)誤標(biāo)識(shí)的樣本和40個(gè)正確標(biāo)識(shí)的樣本。實(shí)驗(yàn)指標(biāo)采用的是準(zhǔn)確率和召回率,如式(4)、式(5)所示。其中TP表示正確預(yù)警的錯(cuò)誤樣本數(shù),F(xiàn)N表示未進(jìn)行預(yù)警的錯(cuò)誤樣本數(shù),F(xiàn)P表示錯(cuò)誤預(yù)警的正確樣本數(shù)。從實(shí)驗(yàn)結(jié)果來看,召回率指標(biāo)為93.75%,準(zhǔn)確率指標(biāo)為89.3% (4) (5) 本文提出了一種基于多維標(biāo)簽的信息流轉(zhuǎn)雙重管控模型和算法。設(shè)計(jì)的多維標(biāo)簽?zāi)軌驅(qū)崿F(xiàn)細(xì)粒度的信息流轉(zhuǎn)管控需求。基于該多維標(biāo)簽,提出了一種信息流轉(zhuǎn)實(shí)時(shí)判別算法,經(jīng)測試算法平均吞吐量能達(dá)到約2000條/s,能夠滿足大多數(shù)單位內(nèi)部的信息流轉(zhuǎn)要求。提出了一種結(jié)合領(lǐng)域知識(shí)的多維標(biāo)簽自動(dòng)標(biāo)識(shí)算法,該算法在實(shí)驗(yàn)中達(dá)到了88.1%的平均召回率,說明算法是有效的。進(jìn)一步將算法自動(dòng)標(biāo)識(shí)標(biāo)簽與用戶標(biāo)識(shí)標(biāo)簽進(jìn)行一致性對比,并通過決策模型進(jìn)行預(yù)警。經(jīng)測試,系統(tǒng)預(yù)警的召回率指標(biāo)和準(zhǔn)確率指標(biāo)均達(dá)到了較高水平。4 結(jié)合領(lǐng)域知識(shí)的多維標(biāo)簽標(biāo)識(shí)算法
4.1 文本預(yù)處理與領(lǐng)域詞典
4.2 特征表示與特征知識(shí)庫
4.3 多標(biāo)簽標(biāo)識(shí)器訓(xùn)練
∪{tagj,k*|k*=arg max1≤k≤Nigj,k(x)}4.4 多維標(biāo)簽一致性判定模型
5 實(shí) 驗(yàn)
6 結(jié)束語