李 峰
(山西省廣播電視局監(jiān)管中心,山西 太原 030001)
互聯(lián)網(wǎng)輿情音視聽節(jié)目監(jiān)測(cè)系統(tǒng)是面向全國(guó)主流網(wǎng)站,利用互聯(lián)網(wǎng)搜索引擎技術(shù)、挖掘技術(shù)、語音識(shí)別和視頻分析技術(shù)等,針對(duì)互聯(lián)網(wǎng)海量信息,采取自動(dòng)獲取、自動(dòng)聚類、專題聚焦,敏感詞匯過濾、主題檢測(cè)、關(guān)鍵幀智能分析[1]等,進(jìn)而能夠主動(dòng)發(fā)現(xiàn)與推送互聯(lián)網(wǎng)輿情熱點(diǎn),全面掌握輿情動(dòng)態(tài),提供充分詳實(shí)的分析依據(jù),進(jìn)而作出正確的輿論引導(dǎo)。
知識(shí)庫的建立,必須對(duì)原來的信息進(jìn)行一次大規(guī)模的收集和重整,需要提取一些重要的特征,但是這些特征往往隱藏于眾多雜亂無章的信息中,因此需要借助信息過濾、文本處理以及人物組織抽取等技術(shù)從眾多的信息中找到有用的、有特征的信息,從而建立所需的知識(shí)庫。
垃圾數(shù)據(jù)清理屬于信息過濾的范疇之一,綜合了知識(shí)論、人工智能、自然語言理解等領(lǐng)域的原理和技術(shù),在信息服務(wù)與管理中起著很大的作用,指依據(jù)用戶的需求,利用一定的工具從巨量的動(dòng)態(tài)信息流中屏蔽無用信息的過程。垃圾信息過濾實(shí)質(zhì)是對(duì)信息進(jìn)行垃圾信息(Spam)或者合法信息(Ham)進(jìn)行二值判別,并依據(jù)判別結(jié)果去掉垃圾信息。它所面臨的難題是二值分類問題,傳統(tǒng)的二值分類問題目前有兩種解決辦法:第一種基于規(guī)則,這個(gè)方法要求相關(guān)專家制定分類規(guī)則;第二種基于統(tǒng)計(jì),不要求專家制定分類規(guī)則,但是要求一定數(shù)量樣本(標(biāo)注類別),用機(jī)器學(xué)習(xí)算法從標(biāo)注了類別的領(lǐng)域樣本中自動(dòng)學(xué)習(xí)出分類知識(shí)。
本項(xiàng)目所應(yīng)用的多源垃圾信息遷移過濾,它的原理是建立一個(gè)多源垃圾信息過濾的整體框架,應(yīng)用統(tǒng)一的表示模型以及統(tǒng)一的過濾模型實(shí)現(xiàn)對(duì)多源問題的抽象建模。該框架中的統(tǒng)一模型有統(tǒng)一表示模型、統(tǒng)一過濾模型,這些都是在多源信息的共同特性之上構(gòu)建的。該框架中包含了文本分析模塊、遷移過濾模塊、模型學(xué)習(xí)模塊。文本分析抽取多源文本信息,依據(jù)統(tǒng)一的表示模型針對(duì)文本進(jìn)行抽象表示;模型學(xué)習(xí)針對(duì)已標(biāo)注語料采取機(jī)器學(xué)習(xí),生成過濾模型;遷移過濾主要負(fù)責(zé)在不同的信息來源間執(zhí)行模型和文本的匹配。
在輿情分析中,重復(fù)信息及其背后隱含的內(nèi)容是被關(guān)注的重點(diǎn)。利用好這些信息,對(duì)于輿情的分析研判,以及最終的決策都能夠提供很大幫助。因此,如何能夠準(zhǔn)確地發(fā)現(xiàn)重復(fù)信息,挖掘出其中的豐富語義,并用盡可能少的資源儲(chǔ)存這些信息,盡可能直觀地表達(dá)這些信息,是面向輿情分析的數(shù)據(jù)預(yù)處理的關(guān)鍵步驟。
本項(xiàng)目考慮文本巨量性、簡(jiǎn)短性的基礎(chǔ)上,同時(shí)兼顧中英文間的差別,以特征碼提取為基本算法,用BloomFilterz和改良的Trie樹開展中文短文本查重的算法設(shè)計(jì),同時(shí)在時(shí)間復(fù)雜度、精確度,還有內(nèi)存分配取得了最優(yōu)解。同時(shí),引入了SimHash算法,解決了數(shù)據(jù)集中仍然存在少部分的相似文本去重的問題??傮w思路為:一是建立中文短文本數(shù)據(jù)集,進(jìn)行數(shù)據(jù)預(yù)處理。二是采用BloomFilter或者Trie樹對(duì)數(shù)據(jù)集進(jìn)行完全重復(fù)查重。三是使用SimHash算法進(jìn)行相似重復(fù)查重。四是得到查重后結(jié)果集。
實(shí)體提取是識(shí)別語料中地名、人名以及組織機(jī)構(gòu)名等命名實(shí)體。命名實(shí)體數(shù)量會(huì)持續(xù)增加,所以,很難在詞典中窮盡列出,依據(jù)構(gòu)成方法的規(guī)律,可以把對(duì)這些詞的識(shí)別從詞匯形態(tài)處理任務(wù)單列出來,叫做實(shí)體提取。命名實(shí)體為未登錄詞里數(shù)量最多、對(duì)分詞效果影響最大、識(shí)別難度最大的問題。
漢語實(shí)體提取作為漢語切分任務(wù)的延續(xù),是中文信息處理領(lǐng)域的一個(gè)基礎(chǔ)任務(wù),被廣泛運(yùn)用于信息抽取、信息推薦、信息檢索和機(jī)器翻譯等。
本項(xiàng)目應(yīng)用最廣泛的是基于條件隨機(jī)場(chǎng)(CRF)的命名實(shí)體識(shí)別方法。該方法簡(jiǎn)單易執(zhí)行,能夠獲得不錯(cuò)的性能,所以被廣泛地應(yīng)用于地名、人名以及組織機(jī)構(gòu)等各類型命名實(shí)體識(shí)別中,加上后期具體應(yīng)用中不斷改進(jìn),能算得上命名實(shí)體識(shí)別中最成功的方法。
系統(tǒng)能夠根據(jù)業(yè)務(wù)工作的需求,構(gòu)建業(yè)務(wù)關(guān)注的重點(diǎn)網(wǎng)站、意見領(lǐng)袖、重點(diǎn)網(wǎng)絡(luò)虛擬身份、重點(diǎn)組織等領(lǐng)域知識(shí)庫[2],支持?jǐn)?shù)據(jù)采集,并構(gòu)建人物網(wǎng)絡(luò)行為言論庫支持特定用戶數(shù)據(jù)分析。領(lǐng)域知識(shí)的主要來源是領(lǐng)域?qū)<?、有關(guān)的專業(yè)技術(shù)文獻(xiàn)和豐富的互聯(lián)網(wǎng)領(lǐng)域資源。領(lǐng)域知識(shí)庫的構(gòu)建,依賴于專家知識(shí)和領(lǐng)域資源的獲取?;贏SKE(面向應(yīng)用領(lǐng)域的知識(shí)庫構(gòu)建與應(yīng)用的有效機(jī)制)機(jī)制,通過配置網(wǎng)絡(luò)領(lǐng)域知識(shí)文件將領(lǐng)域?qū)<液突ヂ?lián)網(wǎng)領(lǐng)域資源有機(jī)結(jié)合,準(zhǔn)確獲取領(lǐng)域資源,應(yīng)用機(jī)器學(xué)習(xí)、文本挖掘和模式識(shí)別技術(shù),抽取領(lǐng)域知識(shí)概念,學(xué)習(xí)概念關(guān)聯(lián)關(guān)系,構(gòu)建領(lǐng)域知識(shí)的層次結(jié)構(gòu)和基于本體建模方法的概念網(wǎng)絡(luò),形成領(lǐng)域知識(shí)庫。
首先在有監(jiān)督學(xué)習(xí)機(jī)制下,從大量的多媒體文本文件中提取語義特征知識(shí)向量;應(yīng)用自動(dòng)向量識(shí)別技術(shù)進(jìn)行語義特征向量分類,在人機(jī)結(jié)合的少量干預(yù)下形成分類的語義特征向量列表;然后應(yīng)用機(jī)器學(xué)習(xí)和有監(jiān)督的統(tǒng)計(jì)學(xué)習(xí)方法學(xué)習(xí)語義特征向量之間的關(guān)聯(lián)關(guān)系,經(jīng)過自動(dòng)的語義特征向量的語義總結(jié),形成以加權(quán)有向?qū)傩詧D表示的語義特征知識(shí)庫。垃圾文本信息過濾技術(shù)、大規(guī)模文本排重技術(shù)、人物組織抽取技術(shù)以及領(lǐng)域知識(shí)庫自動(dòng)構(gòu)建等,只是互聯(lián)網(wǎng)音視聽節(jié)目監(jiān)測(cè)的前期準(zhǔn)備,還需要借助云計(jì)算、大數(shù)據(jù)、人工智能等新一代高新技術(shù)的深度融合應(yīng)用,才能實(shí)現(xiàn)更快、更準(zhǔn)確找到輿論的焦點(diǎn),進(jìn)而能夠?qū)浾撨M(jìn)行正確的引導(dǎo)。
大數(shù)據(jù)技術(shù)的使用,為鍵入信息的記錄技術(shù)實(shí)現(xiàn)和創(chuàng)造提供了可能,在該項(xiàng)技術(shù)的使用過程,可以對(duì)于一些重點(diǎn)監(jiān)測(cè)的賬號(hào),在信息的輸入方面進(jìn)行全面性的記錄,從而分析該賬號(hào)在一段時(shí)間之內(nèi),對(duì)已經(jīng)發(fā)布的信息內(nèi)容進(jìn)行全面的分析。另外,在當(dāng)前自媒體大行其道的情況下,其發(fā)布的各類信息雖然從表面上來看可以覆蓋多個(gè)領(lǐng)域,但是其實(shí)質(zhì)的內(nèi)容性上,基本上都會(huì)呈現(xiàn)一定的套路化特點(diǎn),則在鍵入信息的監(jiān)管過程,要通過對(duì)這類信息的全面調(diào)查和分析,為后續(xù)的監(jiān)管賬號(hào)確定過程和信息的收集過程提供幫助。在該方法的具體使用過程中,對(duì)原有的垃圾文本監(jiān)管技術(shù)、關(guān)鍵詞的提取和識(shí)別技術(shù)來說,由于這類文章通常情況下具有一定的可閱讀性,所以只單純采用這兩種方法,實(shí)際上難以全面分析這類文章中所涵蓋的信息內(nèi)容,所以可以采用人工排除方法,當(dāng)發(fā)現(xiàn)某一篇文章中含有惡意引導(dǎo)網(wǎng)民思維的信息時(shí),要對(duì)其進(jìn)行處理,同時(shí)將該賬號(hào)納入到輿論監(jiān)管范圍內(nèi),而之后,將該賬號(hào)所發(fā)布的各類信息,都需要經(jīng)過專門人員的管理和審查,并對(duì)相關(guān)結(jié)果進(jìn)行處理。
在轉(zhuǎn)發(fā)信息的排查技術(shù)中,可以使用的方法是通過對(duì)當(dāng)前各類傳媒渠道相關(guān)全部節(jié)點(diǎn)的分析,了解在目前的網(wǎng)絡(luò)平臺(tái)運(yùn)行過程中,相關(guān)信息的實(shí)際轉(zhuǎn)發(fā)情況,尤其是對(duì)于一些具有較大影響范圍的賬號(hào)。該過程中要合理使用相關(guān)的軟件,對(duì)關(guān)鍵詞進(jìn)行提取,但是在關(guān)鍵詞的數(shù)量方面不可采用原有的詞匯收集方式,而是要使用其中的某一個(gè)特定語句,或者整篇文章為分析對(duì)象,研究當(dāng)前相關(guān)不實(shí)信息或者具有煽動(dòng)性言論的實(shí)際轉(zhuǎn)發(fā)量。同時(shí)在信息的取得過程,要做好證據(jù)的收集工作,可以直接以形成檔案或者固定格式文檔的方式,對(duì)所有取得的信息都記錄到相關(guān)的表格內(nèi),尤其是對(duì)于轉(zhuǎn)發(fā)量信息以及實(shí)際造成的影響信息。
信息渠道的優(yōu)化技術(shù)是指,要能夠加強(qiáng)對(duì)于各類信息的審查質(zhì)量,同時(shí)在其后續(xù)的轉(zhuǎn)發(fā)、評(píng)論以及傳遞過程進(jìn)行全面性的分析,從而讓最終建立的信息傳遞渠道,具有主動(dòng)刪除不實(shí)信息的甄別能力和消除能力。在具體使用過程中,可以根據(jù)對(duì)于評(píng)論關(guān)鍵詞的設(shè)置,分析這類關(guān)鍵詞的出現(xiàn)頻率,當(dāng)發(fā)現(xiàn)認(rèn)為該信息中關(guān)于不實(shí)類的評(píng)論占比超過70%到80%時(shí),則可確定該信息基本屬于不實(shí)信息,則平臺(tái)方可以對(duì)其進(jìn)行刪除處理。需要注意的是,該過程要能夠防范大批量惡意評(píng)論現(xiàn)象,這就要求在渠道的建筑中,要能夠分析所有賬號(hào)的活躍狀態(tài)、賬號(hào)日常的信息發(fā)布情況、該賬號(hào)的來源等,從而提高對(duì)信息的處理科學(xué)程度。
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)媒體已經(jīng)是普遍存在的信息傳播形式,網(wǎng)友言論非?;钴S,國(guó)內(nèi)外重大事件,都能夠在網(wǎng)上迅速傳播,形成網(wǎng)上熱點(diǎn),進(jìn)而對(duì)相關(guān)單位和部門產(chǎn)生較大的輿論壓力。作為高度重視意識(shí)形態(tài)責(zé)任制的單位,對(duì)于作為思想文化信息的集散地和社會(huì)輿論放大器的互聯(lián)網(wǎng),要加大人工智能[3]、大數(shù)據(jù)的深入融合,從而加強(qiáng)監(jiān)測(cè)監(jiān)管。