郭逸彪,馬 壘,陳 忻
(1.中國人民解放軍信息工程大學(xué),河南 鄭州 450001;2.91917部隊(duì),北京 102100)
在當(dāng)前的信息化時(shí)代下,公開情報(bào)的重要性日益凸顯,而人工智能技術(shù)的快速發(fā)展為公開情報(bào)的獲取、分析和應(yīng)用提供了全新的機(jī)遇和挑戰(zhàn)。本文展示了人工智能技術(shù)在開源情報(bào)生產(chǎn)中的實(shí)際應(yīng)用效果,證明了其對(duì)開源情報(bào)生產(chǎn)提質(zhì)和重塑問題研究的潛力。在實(shí)證研究中,文章旨在探索如何充分運(yùn)用人工智能技術(shù)提升公開情報(bào)的獲取速度和準(zhǔn)確度。
開源情報(bào)的不斷發(fā)展是在理論指引和技術(shù)驅(qū)動(dòng)的基礎(chǔ)上進(jìn)行的,實(shí)踐效果成為驗(yàn)證和反饋其發(fā)展的關(guān)鍵因素。實(shí)踐驗(yàn)證不僅有助于推動(dòng)開源情報(bào)理論的提升,還能夠揭示其所面臨的問題和挑戰(zhàn),為技術(shù)發(fā)展與革新指明新的方向。數(shù)據(jù)智能爬取是獲取并處理這些數(shù)據(jù)以支持情報(bào)分析的重要環(huán)節(jié)之一[1-4],需要從多個(gè)來源搜集數(shù)據(jù),涉及對(duì)數(shù)據(jù)進(jìn)行初步處理的方法和工具。網(wǎng)絡(luò)爬蟲是數(shù)據(jù)智能爬取的主要工具之一,通過模擬人的瀏覽行為,自動(dòng)爬取網(wǎng)頁信息,并將其保存下來供后續(xù)分析使用。另外,自動(dòng)化數(shù)據(jù)收集系統(tǒng),如數(shù)據(jù)應(yīng)用程序編程接口(Application Programming Interface,API)、網(wǎng)絡(luò)監(jiān)聽器等,也是數(shù)據(jù)智能爬取的重要手段,可實(shí)現(xiàn)對(duì)于各類網(wǎng)絡(luò)數(shù)據(jù)資源的自動(dòng)化搜集和整合。
在數(shù)據(jù)智能爬取過程中會(huì)面臨諸多挑戰(zhàn),其中之一是數(shù)據(jù)質(zhì)量問題,即數(shù)據(jù)可能存在不完整、不準(zhǔn)確、冗余、不一致等情況,這將影響后續(xù)的分析和應(yīng)用。還有是數(shù)據(jù)量與多樣性,不同數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)量可能巨大,同時(shí)數(shù)據(jù)類型和格式的多樣性也增加了數(shù)據(jù)整合和處理的復(fù)雜性。為了解決這些挑戰(zhàn),研究人員可通過建立數(shù)據(jù)質(zhì)量控制機(jī)制,引入數(shù)據(jù)清洗和預(yù)處理技術(shù)以及開發(fā)適應(yīng)多種數(shù)據(jù)格式的數(shù)據(jù)處理工具。
語言智能處理技術(shù)涵蓋了自然語言處理、文本挖掘等技術(shù)。自然語言處理技術(shù)可以幫助識(shí)別和理解文本中的語義和語法結(jié)構(gòu),進(jìn)行詞法分析、句法分析等,從而使計(jì)算機(jī)能夠更好地理解和處理人類語言。深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等技術(shù)在語言智能技術(shù)處理中得到廣泛應(yīng)用。例如:情感分析能夠識(shí)別文本背后的情感色彩,情感分類技術(shù)可以將文本按照情感極性分類,幫助情報(bào)分析人員更好地理解文本內(nèi)容;實(shí)體識(shí)別技術(shù)能夠從文本中自動(dòng)識(shí)別出人物、組織、地點(diǎn)等實(shí)體,并對(duì)其進(jìn)行分類和關(guān)聯(lián)。語言智能處理技術(shù)在公開情報(bào)獲取中發(fā)揮著重要作用,它們幫助處理和理解海量文本信息,從而為情報(bào)分析提供了更準(zhǔn)確、更深入的信息。同時(shí),面對(duì)不同文本類型和語言風(fēng)格的挑戰(zhàn),語言智能處理也在不斷進(jìn)步和優(yōu)化,為情報(bào)獲取提供了更高效的技術(shù)支持。
在當(dāng)前的互聯(lián)網(wǎng)時(shí)代,文本成為存儲(chǔ)和表達(dá)信息最常見的形式之一。在面對(duì)如此龐大的文本信息時(shí),文本挖掘技術(shù)能夠快速高效地提取所需知識(shí),從而有效提升信息獲取的效率。文本自動(dòng)摘要技術(shù)是基于文本挖掘技術(shù)的應(yīng)用技術(shù),是指利用計(jì)算機(jī)自動(dòng)地從長文本或文本集合中提取出能反映源文中心內(nèi)容的簡潔連貫的短文。
文本自動(dòng)摘要技術(shù)可以幫助人們快速獲取大量信息的核心內(nèi)容,從而提高閱讀效率和信息利用率,其按照深度學(xué)習(xí)方法可以分為抽取式摘要和生成式摘要。抽取式摘要是從原文中選擇一定比例的句子拼湊成一個(gè)摘要,其優(yōu)點(diǎn)是可以保證摘要的準(zhǔn)確性和可信度,但缺點(diǎn)是可能導(dǎo)致摘要的冗余和不連貫;生成式摘要是通過對(duì)原文進(jìn)行解析、理解、推理等方式生成摘要,其優(yōu)點(diǎn)是可以生成更加簡潔和連貫的摘要,但缺點(diǎn)是可能導(dǎo)致摘要的不準(zhǔn)確和不可信。
文本自動(dòng)摘要技術(shù)按照摘要的目標(biāo)讀者,可以分為通用摘要和領(lǐng)域摘要。通用摘要是針對(duì)一般讀者的摘要,不涉及特定的領(lǐng)域知識(shí)和術(shù)語;而領(lǐng)域摘要是針對(duì)特定領(lǐng)域的專業(yè)讀者的摘要,需要包含領(lǐng)域相關(guān)的知識(shí)和術(shù)語。通用摘要的優(yōu)點(diǎn)是適用范圍廣,缺點(diǎn)是信息量有限;而領(lǐng)域摘要的優(yōu)點(diǎn)是信息量豐富,缺點(diǎn)是適用范圍窄。
文本自動(dòng)摘要技術(shù)按照摘要的源文數(shù)量,可以分為單文檔摘要和多文檔摘要。單文檔摘要是針對(duì)單個(gè)文檔的摘要;而多文檔摘要是針對(duì)多個(gè)相關(guān)文檔的摘要。單文檔摘要的優(yōu)點(diǎn)是簡單直觀,缺點(diǎn)是信息來源有限;而多文檔摘要的優(yōu)點(diǎn)是信息來源豐富,缺點(diǎn)是需要處理文檔之間的沖突和重復(fù)問題。
智能關(guān)聯(lián)分析技術(shù)是一種利用人工智能技術(shù)來探索數(shù)據(jù)之間關(guān)系的方法。通過智能算法和模型,智能關(guān)聯(lián)分析技術(shù)可以深入分析數(shù)據(jù)集中的關(guān)聯(lián)性,找出其中隱藏的模式和相關(guān)性,從而提供更深層次的見解。在開源情報(bào)生產(chǎn)中,智能關(guān)聯(lián)分析技術(shù)可以被用于各種領(lǐng)域,如情報(bào)收集、情報(bào)分析等。智能關(guān)聯(lián)分析技術(shù)在情報(bào)收集方面可以幫助研究者從海量信息中快速篩選出關(guān)鍵信息,通過識(shí)別相關(guān)數(shù)據(jù)點(diǎn)和模式,找出不同數(shù)據(jù)間的聯(lián)系和關(guān)聯(lián)。
專家數(shù)據(jù)問答技術(shù)是指利用專業(yè)人員的知識(shí)和經(jīng)驗(yàn),結(jié)合數(shù)據(jù)問答系統(tǒng),以便用戶可以直接向?qū)<蚁到y(tǒng)提出問題并獲取準(zhǔn)確的回答或解決方案。在開源情報(bào)中,專家數(shù)據(jù)問答系統(tǒng)可以用于快速獲取專家級(jí)別的解決方案或建議。這種方法通過整合專家知識(shí)和大量的數(shù)據(jù)來回答用戶提出的問題。例如,在情報(bào)分析中,用戶可以通過該系統(tǒng)提出與特定情報(bào)事件相關(guān)的問題,系統(tǒng)通過檢索已有數(shù)據(jù)、模型和專家知識(shí)來給出有價(jià)值的答案或指導(dǎo)。這有助于加速情報(bào)分析流程,使決策者能夠更及時(shí)地獲取關(guān)鍵信息和建議。
技術(shù)挑戰(zhàn)是開源情報(bào)領(lǐng)域持續(xù)發(fā)展的一個(gè)關(guān)鍵方面,需要應(yīng)對(duì)多樣化的問題和需求。在實(shí)踐中,技術(shù)挑戰(zhàn)不斷涌現(xiàn),但同時(shí)也催生了各種解決方案和應(yīng)對(duì)策略。個(gè)性化需求的多樣化是當(dāng)前亟待解決的首要問題。不同用戶群體對(duì)開源情報(bào)系統(tǒng)的需求差異很大,可能需要系統(tǒng)擁有高度定制化的功能和性能,這為系統(tǒng)設(shè)計(jì)和開發(fā)帶來了更高的復(fù)雜性。解決這個(gè)問題需要建立靈活的架構(gòu),以使系統(tǒng)適應(yīng)不同用戶群體的需求,并為用戶提供多樣化的定制服務(wù)。
快速響應(yīng)能力問題源自于需要在新任務(wù)出現(xiàn)或緊急情況下,迅速、準(zhǔn)確地獲取、處理和分析大量信息的壓力。時(shí)間的迫切性意味著在短時(shí)間內(nèi)進(jìn)行信息搜集、分析和報(bào)告。然而,在這種情況下信息的有效性和準(zhǔn)確性往往面臨挑戰(zhàn)。一方面,處理大規(guī)模數(shù)據(jù)首先需要高效的技術(shù)支持,系統(tǒng)必須具備高度的智能和靈活性,能夠在較短的時(shí)間內(nèi)從海量信息中提取核心內(nèi)容,并迅速轉(zhuǎn)化為有用的情報(bào)。另一方面,信息必須被迅速分析和匯總,以支持制定應(yīng)對(duì)新問題的決策。然而,這種快速處理可能會(huì)影響信息質(zhì)量,因?yàn)樵诙虝r(shí)間內(nèi)收集的信息可能不夠完整或準(zhǔn)確,并且需要合理規(guī)劃和利用有限的人力、技術(shù)和其他資源來應(yīng)對(duì)緊急任務(wù)。
解決這些挑戰(zhàn)的關(guān)鍵在于建立更為高效、智能和靈活的系統(tǒng),以應(yīng)對(duì)信息快速處理和分析的需求[5]。這可能包括采用更先進(jìn)的數(shù)據(jù)處理技術(shù),建立更有效的信息過濾和匯總機(jī)制以及制定更為精準(zhǔn)的決策支持系統(tǒng)。同時(shí),需要加強(qiáng)對(duì)人力資源的培訓(xùn)和管理,以確保團(tuán)隊(duì)在緊急情況下能夠高效協(xié)作。在技術(shù)和管理層面采取這些措施,可以有效提高開源情報(bào)技術(shù)的快速響應(yīng)能力,從而更好地應(yīng)對(duì)緊急情況和新任務(wù)的挑戰(zhàn)。
不同語種之間存在語言障礙,導(dǎo)致信息處理和分析變得更加復(fù)雜。這包括語言的語法結(jié)構(gòu)、詞匯差異、語境和表達(dá)方式等方面的不同,使得對(duì)多語種信息的準(zhǔn)確理解和處理變得困難,不同語種背后的文化背景和社會(huì)環(huán)境也會(huì)影響信息的理解和解讀。并且一些語種的信息資源可能豐富,而另一些則可能稀缺,這可能導(dǎo)致在處理多語種信息時(shí),某些語種的數(shù)據(jù)無法被充分利用,影響整體信息的完整性和準(zhǔn)確性。因此,在對(duì)多語種信息進(jìn)行處理時(shí),首先,研究者需要不斷改進(jìn)和創(chuàng)新技術(shù)手段,以提升多語種處理技術(shù)的精確度和效率,開發(fā)更智能、更適應(yīng)多語種的處理工具,提高自然語言處理和機(jī)器翻譯技術(shù)的準(zhǔn)確性和涵蓋范圍。其次,研究者需要加強(qiáng)多語種語料庫和資源的積累和共享,為語言數(shù)據(jù)提供更多支持。此外,研究者進(jìn)行跨文化和跨語種的專業(yè)培訓(xùn),提高情報(bào)分析人員對(duì)不同語種信息的理解和解讀能力。最后,研究者需要建立一個(gè)更系統(tǒng)、更智能的信息處理系統(tǒng),以應(yīng)對(duì)多語種信息處理中的挑戰(zhàn),提高開源情報(bào)技術(shù)在多語種環(huán)境下的應(yīng)用效能和效率。
例如,面對(duì)多語種信息處理的挑戰(zhàn),谷歌翻譯作為機(jī)器翻譯領(lǐng)域的代表性工具,一直在不斷提升其多語種翻譯技術(shù)水平。其采用了神經(jīng)網(wǎng)絡(luò)技術(shù),提高了翻譯的準(zhǔn)確性和流暢度,涵蓋了多種語言的翻譯服務(wù),為用戶提供更加便捷的多語言溝通方式,有助于解決多語種信息處理中的語言障礙,并為開源情報(bào)的國際化應(yīng)用提供了強(qiáng)大的技術(shù)支持[6]。
信息真實(shí)性和可信度驗(yàn)證在開源情報(bào)處理中扮演著至關(guān)重要的角色。信息的真實(shí)性涉及信息的準(zhǔn)確性、來源可靠性以及信息是否遭到篡改等方面,這在情報(bào)工作中具有重大意義。而信息的可信度驗(yàn)證則需要可靠的驗(yàn)證手段和技術(shù),以確保信息來源的真實(shí)性和信息傳遞的可信度。
例如,社交媒體平臺(tái)在信息傳播中扮演著重要角色。然而,這些平臺(tái)上的信息可能受到不同程度的操控和篡改,使得真?zhèn)坞y以辨別。以2016年美國大選期間的俄羅斯干預(yù)活動(dòng)為例,俄羅斯利用社交媒體平臺(tái)散播虛假信息,混淆視聽并影響選民的決策。這種情況暴露了信息真實(shí)性驗(yàn)證的困難以及在信息傳播過程中可能出現(xiàn)的不確定性和誤導(dǎo)性。
為了解決信息真實(shí)性和可信度驗(yàn)證的挑戰(zhàn),研究者需要運(yùn)用先進(jìn)的技術(shù)手段。通過區(qū)塊鏈技術(shù),信息的傳輸和修改過程都能得到這一特性,使得信息的追蹤和真實(shí)性驗(yàn)證更加可靠。例如,某些平臺(tái)已經(jīng)開始探索在新聞?lì)I(lǐng)域應(yīng)用區(qū)塊鏈技術(shù),以確保信息的來源和傳播路徑可追溯、不可篡改,提升信息的可信度。在信息真實(shí)性和可信度驗(yàn)證方面,也需要加強(qiáng)人工智能技術(shù)的運(yùn)用。利用人工智能技術(shù)進(jìn)行信息源頭的分析和驗(yàn)證,結(jié)合大數(shù)據(jù)分析,可以更準(zhǔn)確地評(píng)估信息的真實(shí)性。同時(shí),提升信息驗(yàn)證的技術(shù)手段和能力,加強(qiáng)數(shù)據(jù)的質(zhì)量控制和信息溯源能力,有助于提高開源情報(bào)信息的可信度和準(zhǔn)確性,從而更好地服務(wù)于情報(bào)工作的決策和行動(dòng)。此外,利用人工智能技術(shù)進(jìn)行信息源頭的分析和驗(yàn)證,結(jié)合大數(shù)據(jù)分析,可以更準(zhǔn)確地評(píng)估信息的真實(shí)性。
總體而言,針對(duì)開源情報(bào)技術(shù)所面臨的多種挑戰(zhàn),我們需要結(jié)合先進(jìn)技術(shù)手段和系統(tǒng)改造,不斷完善技術(shù)體系,以適應(yīng)不斷變化的需求。在技術(shù)發(fā)展的基礎(chǔ)上,應(yīng)加強(qiáng)理論探索和學(xué)術(shù)研究,不斷提升開源情報(bào)系統(tǒng)的智能化和專業(yè)化水平,為情報(bào)領(lǐng)域的高效運(yùn)作提供更加堅(jiān)實(shí)的支撐。