• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別技術(shù)

      2018-04-12 03:20:39林華生錢嶺周瑩楊希李婧
      大數(shù)據(jù) 2018年2期
      關(guān)鍵詞:漢明自動(dòng)識(shí)別短信

      林華生,錢嶺,周瑩,楊希,李婧

      1. 中國(guó)移動(dòng)通信集團(tuán)公司信息安全管理與運(yùn)行中心,北京 1000312. 中移(蘇州)軟件技術(shù)有限公司,江蘇 蘇州 215163

      1 引言

      手機(jī)用戶的不斷增加,特別是智能手機(jī)使用量的增長(zhǎng),使得人們獲得信息的效率大大提高。但是手機(jī)滲透率的快速增長(zhǎng)卻伴隨著垃圾短信的快速擴(kuò)散,不僅對(duì)人們的日常工作和生活產(chǎn)生影響,而且存在著極大的安全隱患(利用短信進(jìn)行詐騙、勒索等犯罪活動(dòng))。治理垃圾短信不僅需要工業(yè)和信息化部的監(jiān)督和手機(jī)安全廠商的屏蔽,更需要運(yùn)營(yíng)商主動(dòng)出擊,利用先進(jìn)的技術(shù)從源頭上拒絕垃圾短信的發(fā)送。

      2 面臨的挑戰(zhàn)

      2.1 垃圾短信發(fā)送成本低,社會(huì)影響大

      中獎(jiǎng)詐騙類、政治違法類、涉黃涉黑類、病毒誘導(dǎo)類、商業(yè)廣告類等違規(guī)短信層出不窮,垃圾短信數(shù)量居高不下,中國(guó)移動(dòng)通信集團(tuán)有限公司(以下簡(jiǎn)稱中國(guó)移動(dòng))年均處理疑似垃圾短信高達(dá)3億余條。

      垃圾短信不僅給手機(jī)用戶造成了不可避免的騷擾,更對(duì)社會(huì)造成了不良的影響,主要體現(xiàn)在以下幾個(gè)方面。

      ● 利用短信進(jìn)行勒索、詐騙的違法犯罪活動(dòng)日漸猖獗(如以中獎(jiǎng)、敲詐等方式出現(xiàn))。

      ● 少數(shù)不法分子利用短信傳播黃色信息,毒化社會(huì)風(fēng)氣。

      ● 短信營(yíng)銷泛濫,某些商家企圖通過短信傳銷商品,給用戶帶來一定的騷擾。

      ● 不法分子通過短信中嵌入的惡意鏈接,誘導(dǎo)用戶點(diǎn)擊,遠(yuǎn)程操控用戶手機(jī),竊取用戶隱私。

      2.2 現(xiàn)有治理平臺(tái)識(shí)別效率不足

      2012年以來,中國(guó)移動(dòng)持續(xù)開展不良信息集中治理工作,依托不良信息集中管控平臺(tái),對(duì)監(jiān)測(cè)發(fā)現(xiàn)的不良信息進(jìn)行處理。但是監(jiān)測(cè)策略準(zhǔn)確率存在瓶頸,導(dǎo)致整個(gè)系統(tǒng)的有效識(shí)別率仍然存在不足。另外,傳統(tǒng)的分類模式不能及時(shí)、準(zhǔn)確地對(duì)垃圾短信進(jìn)行分類,影響后續(xù)關(guān)鍵詞的生產(chǎn)以及策略的精細(xì)化管理工作。隨著垃圾短信的日益增長(zhǎng),管控平臺(tái)存在較長(zhǎng)的處理時(shí)延。

      要解決上述問題,就必須考慮在現(xiàn)有平臺(tái)中接入新的自動(dòng)識(shí)別系統(tǒng),對(duì)管控平臺(tái)監(jiān)測(cè)發(fā)現(xiàn)的疑似垃圾短信進(jìn)行自動(dòng)識(shí)別,提高垃圾短信治理效率。同時(shí)不斷訓(xùn)練擴(kuò)充新的關(guān)鍵詞庫(kù),提高識(shí)別的有效性。

      3 存在的問題及解決思路

      隨著大數(shù)據(jù)技術(shù)和人工智能技術(shù)的日趨成熟,短文本識(shí)別技術(shù)在機(jī)器翻譯、網(wǎng)頁(yè)查重等方面均有廣泛的應(yīng)用。一些互聯(lián)網(wǎng)安全公司也開發(fā)了“手機(jī)安全衛(wèi)士”等產(chǎn)品,應(yīng)用貝葉斯學(xué)習(xí)(Bayesian learning)、支持向量機(jī)(support vector machine,SVM))[1,2]等機(jī)器學(xué)習(xí)算法識(shí)別垃圾短信,并在用戶終端側(cè)進(jìn)行攔截和提醒。此外,Google公司提出的指紋算法①[3]將長(zhǎng)文本轉(zhuǎn)化為64位的散列碼進(jìn)行計(jì)算、比對(duì)。但由于短信的特殊性,仍存在以下問題。

      ● 表示稀疏問題:?jiǎn)螚l短信內(nèi)容短小,傳統(tǒng)的詞袋(bag of words,BOW)模型[4]無法獲取足夠的特征信息用來區(qū)分垃圾短信和非垃圾短信。

      ● 數(shù)據(jù)噪音問題:存在大量的非正規(guī)語言的使用現(xiàn)象,傳統(tǒng)的基于詞匯的文檔表示模型無法處理該問題。

      ● 動(dòng)態(tài)演化問題:短信內(nèi)容和語言使用隨時(shí)間高速演化,固定的特征集合和分類模型無法應(yīng)對(duì)該問題。

      針對(duì)算法識(shí)別的問題,中國(guó)移動(dòng)創(chuàng)新提出“指紋+語義”交叉融合算法模型。Simhash算法是一種經(jīng)典的模糊匹配算法,通過匹配指紋編碼實(shí)現(xiàn)分類,適合識(shí)別常見的群發(fā)類垃圾短信,精準(zhǔn)性強(qiáng);語義識(shí)別算法通過學(xué)習(xí)語料特征,能夠“舉一反三”,適合發(fā)現(xiàn)、識(shí)別新的樣本,擴(kuò)展性強(qiáng)。兩種大數(shù)據(jù)識(shí)別技術(shù)互補(bǔ),交叉融合可實(shí)現(xiàn)自動(dòng)識(shí)別率的提升,具體如下。

      (1)準(zhǔn)確率的提升

      引入大數(shù)據(jù)技術(shù)后,需實(shí)時(shí)對(duì)違規(guī)號(hào)碼進(jìn)行關(guān)停,這對(duì)大數(shù)據(jù)識(shí)別算法來說,準(zhǔn)確率要求極高。通過對(duì)指紋庫(kù)進(jìn)行多庫(kù)分解、引入動(dòng)態(tài)數(shù)據(jù)庫(kù)等機(jī)制,識(shí)別準(zhǔn)確率高達(dá)99.8%,實(shí)現(xiàn)技術(shù)應(yīng)用。

      (2)大數(shù)據(jù)的實(shí)時(shí)處理

      由于大數(shù)據(jù)識(shí)別算法需要存儲(chǔ)大量的歷史知識(shí),為實(shí)現(xiàn)對(duì)疑似垃圾短信的實(shí)時(shí)處理,系統(tǒng)采用分布式多機(jī)多核系統(tǒng)架構(gòu),通過Kafka技術(shù),有效打破了固有指紋算法的性能瓶頸。

      4 系統(tǒng)解決方案

      4.1 整體架構(gòu)

      基于Simhash算法,結(jié)合應(yīng)用場(chǎng)景和線上持續(xù)運(yùn)營(yíng)要求,完善系統(tǒng)功能設(shè)計(jì),滿足以指紋識(shí)別算法為核心算法的線上識(shí)別功能和運(yùn)營(yíng)功能。系統(tǒng)整體架構(gòu)如圖1所示。

      圖1 系統(tǒng)整體架構(gòu)

      該系統(tǒng)具有以下幾個(gè)特點(diǎn)。

      ● 應(yīng)用創(chuàng)新指紋算法對(duì)待識(shí)別短信進(jìn)行處理;核心算法可擴(kuò)展,支持引入新算法交叉融合識(shí)別。

      ● 在基礎(chǔ)運(yùn)營(yíng)功能的基礎(chǔ)上,打造稽核質(zhì)檢、投訴回溯核查等針對(duì)指紋算法特點(diǎn)研發(fā)出的持續(xù)運(yùn)營(yíng)功能。

      ● 采用金庫(kù)管理模式,對(duì)數(shù)據(jù)安全進(jìn)行雙重保障。

      ● 采用分布式多機(jī)多核系統(tǒng)架構(gòu),通過Kafka實(shí)現(xiàn)內(nèi)部服務(wù)之間的通信,有效保障了現(xiàn)網(wǎng)的實(shí)時(shí)運(yùn)行需求。

      系統(tǒng)架構(gòu)主要采用分布式多機(jī)多核的方案,通過將系統(tǒng)模塊服務(wù)化,完成系統(tǒng)模塊間的解耦,進(jìn)一步提高了系統(tǒng)算法的擴(kuò)展能力。分布式多機(jī)多核具有速率高、性能穩(wěn)定的優(yōu)點(diǎn)。

      4.2 工作流程

      在垃圾短信集中管控平臺(tái)中,引入垃圾短信大數(shù)據(jù)自動(dòng)化識(shí)別系統(tǒng),用以提升垃圾短信識(shí)別率。具體的垃圾短信大數(shù)據(jù)識(shí)別應(yīng)用方案如圖2所示。

      圖2 垃圾短信大數(shù)據(jù)識(shí)別應(yīng)用方案

      大數(shù)據(jù)自動(dòng)化識(shí)別系統(tǒng)工作流程如下。

      ● 建立垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別系統(tǒng),利用前期積累的海量短信樣本對(duì)數(shù)據(jù)庫(kù)進(jìn)行初始化。

      ● 將系統(tǒng)與現(xiàn)有垃圾短信治理模塊對(duì)接,接收監(jiān)測(cè)模塊發(fā)來的全量疑似垃圾短信,并進(jìn)行自動(dòng)識(shí)別。

      ● 得到識(shí)別結(jié)果的垃圾短信,直接送至處置模塊實(shí)時(shí)處置;未識(shí)別的短信按照原有流程進(jìn)行處理。

      4.3 關(guān)鍵技術(shù)

      結(jié)合技術(shù)應(yīng)用場(chǎng)景和短信文本短的特點(diǎn),考慮到中國(guó)移動(dòng)線上治理的極高準(zhǔn)確性要求,團(tuán)隊(duì)研發(fā)出具有自主知識(shí)產(chǎn)權(quán)的指紋識(shí)別算法。

      短信文本通過文本預(yù)處理完成噪聲的處理。文本預(yù)處理主要包括簡(jiǎn)繁轉(zhuǎn)換、大小寫歸一化、半角全角歸一化以及拼音轉(zhuǎn)文本等;利用自研的分詞算法對(duì)文本進(jìn)行切分,然后使用CityHash算法實(shí)現(xiàn)分詞文本到指紋的轉(zhuǎn)換,最后再利用FNV-1算法對(duì)散列指紋進(jìn)行再散列,以減少指紋沖突。基于生成的指紋,創(chuàng)新提出針對(duì)指紋的動(dòng)態(tài)數(shù)據(jù)庫(kù)、基于多指紋庫(kù)識(shí)別、漢明距離動(dòng)態(tài)調(diào)優(yōu)等技術(shù)。

      (1)動(dòng)態(tài)數(shù)據(jù)庫(kù)機(jī)制

      如圖3所示,在入庫(kù)方面,為指紋算法設(shè)計(jì)二次入庫(kù)技術(shù),降低訓(xùn)練數(shù)據(jù)中誤判造成的影響;在出庫(kù)方面,動(dòng)態(tài)剔除入庫(kù)早、不常使用的指紋,解決指紋庫(kù)膨脹的問題,保障指紋庫(kù)的容量可持續(xù)高效運(yùn)營(yíng),并進(jìn)一步提升算法識(shí)別準(zhǔn)確率。

      圖3 指紋庫(kù)動(dòng)態(tài)維護(hù)機(jī)制

      (2)多數(shù)據(jù)庫(kù)指紋存儲(chǔ)機(jī)制

      系統(tǒng)搭建多指紋庫(kù),根據(jù)處置方式不同,分為正常短信指紋庫(kù)、違法詐騙短信指紋庫(kù)、商業(yè)廣告指紋庫(kù),并對(duì)后兩者采用更為嚴(yán)格的校驗(yàn)入庫(kù)機(jī)制和優(yōu)先級(jí)更高的識(shí)別反饋機(jī)制。同時(shí),根據(jù)考察各指紋庫(kù)相互沖突的指紋,實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的進(jìn)一步去噪,降低算法誤識(shí)別比例。

      (3)漢明距離動(dòng)態(tài)調(diào)優(yōu)

      作為算法的核心參數(shù),漢明距離表征不同文本之間的相似程度,即漢明距離越大,文本相似程度越低;反之,該距離越小,文本內(nèi)容則越接近。算法前期通過調(diào)優(yōu)測(cè)試明確初始漢明距離,在后續(xù)持續(xù)運(yùn)營(yíng)時(shí),根據(jù)實(shí)時(shí)的自動(dòng)識(shí)別率和識(shí)別準(zhǔn)確率,動(dòng)態(tài)實(shí)現(xiàn)漢明距離的調(diào)優(yōu)。

      5 應(yīng)用效果

      垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別系統(tǒng)于2017年1月在中國(guó)移動(dòng)全網(wǎng)上線,覆蓋31省。截至目前,累計(jì)接收垃圾短信系統(tǒng)全量疑似垃圾短信1.1億余條,自動(dòng)識(shí)別處理4300萬條,自動(dòng)識(shí)別率達(dá)40.1%,識(shí)別準(zhǔn)確率達(dá)99.8%。系統(tǒng)處理速率達(dá)14000條/s,垃圾短信自動(dòng)判定平均處理時(shí)長(zhǎng)僅為0.07 ms。上線以來,系統(tǒng)運(yùn)行情況良好。

      由于垃圾短信自動(dòng)判定平均處理時(shí)長(zhǎng)僅為0.07 ms,違規(guī)號(hào)碼的關(guān)停及時(shí)性大大提高,月均可減少不法分子發(fā)送的垃圾短信約8500萬條,有效地保障了廣大用戶的通信權(quán)益。

      上線以來,垃圾短信治理效率大幅提升,通過系統(tǒng)的應(yīng)用,垃圾短信治理團(tuán)隊(duì)有效降低133人,每年可節(jié)約人力成本1452萬元。

      參考文獻(xiàn):

      [1]王斌, 潘文鋒. 基于內(nèi)容的垃圾郵件過濾技術(shù)綜述[J]. 中文信息學(xué)報(bào), 2005, 19(5): 1-10.WANG B, PAN W F. A survey of contentbased anti-spam Email filtering[J]. Journal of Chinese Information Processing, 2005,19(5): 1-10.

      [2]ANDROUTSOPOULOS I, KOUTSIAS J,CHANDRINOS K V, et al. An evaluation of naive Bayesian anti-spam filtering[J].Tetsu-to-Hagane, 2000(2): 9-17.

      [3]HO P T, KIM H S, KIM S R. Application of sim-hash algorithm and big data analysis in spam email detection system[C]//The 2014 Conference on Research in Adaptive and Convergent Systems, October 5-8,2014, Towson, USA. New York: ACM Press, 2014: 242-246.

      [4]SRIRAM B, FUHRY D, DEMIR E, et al. Short text classification in twitter to improve information filtering[C]// The 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval, July 19-23, 2010,Geneva, Switzerland. New York: ACM Press,2010: 841-842.

      猜你喜歡
      漢明自動(dòng)識(shí)別短信
      道歉短信
      自動(dòng)識(shí)別系統(tǒng)
      特別健康(2018年3期)2018-07-04 00:40:18
      代發(fā)短信
      金屬垃圾自動(dòng)識(shí)別回收箱
      媳婦管錢
      基于IEC61850的配網(wǎng)終端自動(dòng)識(shí)別技術(shù)
      中年研究
      漢明距離矩陣的研究
      蘭姆凹陷穩(wěn)頻工作點(diǎn)自動(dòng)識(shí)別技術(shù)
      “八一”節(jié)日短信之一
      铜川市| 中卫市| 亳州市| 万年县| 蓬溪县| 西城区| 祁连县| 太谷县| 姜堰市| 海宁市| 武夷山市| 密山市| 福安市| 崇左市| 临桂县| 镇沅| 宝坻区| 澎湖县| 广灵县| 阿克苏市| 青海省| 永福县| 梁河县| 恩平市| 怀化市| 始兴县| 阿勒泰市| 凤翔县| 普格县| 夏津县| 吉水县| 开原市| 南充市| 芜湖县| 玉龙| 泸溪县| 眉山市| 绥中县| 江津市| 手机| 塔河县|