臧勁松
摘 要: 人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門技術(shù)科學(xué),在許多科學(xué)領(lǐng)域都獲得了廣泛應(yīng)用,網(wǎng)絡(luò)信息檢索就是其中一個(gè)非常重要的應(yīng)用。文章介紹了信息檢索的基本概念和人工智能的常用方法,指出跨語言檢索已越來越成為信息檢索的一個(gè)重要方向;對(duì)跨語言檢索的實(shí)現(xiàn)模式、語言學(xué)資源、實(shí)現(xiàn)的關(guān)鍵技術(shù)問題進(jìn)行了闡述;并展望了人工智能領(lǐng)域的發(fā)展前景。
關(guān)鍵詞: 人工智能; 跨語言信息檢索; 語言學(xué)資源; 實(shí)現(xiàn)模式
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2016)10-29-04
Application of artificial intelligence in cross language information retrieval
Zang Jinsong
(University of Shanghai for Science and Technology School of Optical-Electrical and Computer Engineering, Shanghai 200093, China)
Abstract: Artificial intelligence is a branch of computer science, is the science and technology to research and develop the theory, methods, techniques and applications of simulation, extension and expansion of human intelligence, has been widely used in many fields of science, network information retrieval is one of the important applications. This paper introduces the basic concepts of information retrieval and the common methods of artificial intelligence, pointed out that cross language retrieval has increasingly become an important direction of information retrieval; describes the implementation mode, linguistic resources and the key technologies to realize the cross language retrieval; and prospects the development prospect of artificial intelligence.
Key words: artificial intelligence; cross-language information retrieval; linguistic resources; realization mode
0 引言
人工智能(Artificial Intelligence)是當(dāng)前科學(xué)技術(shù)發(fā)展中的一門前沿學(xué)科,是在計(jì)算機(jī)科學(xué)、控制論、信息論、神經(jīng)心理學(xué)、語言學(xué)等多種學(xué)科基礎(chǔ)上發(fā)展起來的一門綜合性很強(qiáng)的邊緣學(xué)科。它是研究機(jī)器模擬人的大腦所從事的感覺、認(rèn)知、記憶、學(xué)習(xí)、聯(lián)想等思維活動(dòng),解決人類才能處理的復(fù)雜問題,實(shí)質(zhì)上是模仿人的大腦而展開思考[1]。目前,人工智能技術(shù)已經(jīng)應(yīng)用在許多方面,而信息檢索(Information Retrieval)就是其中的一個(gè)重要應(yīng)用。
1 信息檢索系統(tǒng)概述
人類解決問題的方法之一就是不斷地嘗試,即逐個(gè)地檢驗(yàn)可能解決問題的每個(gè)方法,直至找到一個(gè)可行的方法為止。但是這種盲目的搜索法,隨著問題規(guī)模擴(kuò)大,可能組合的數(shù)量也就增長(zhǎng)的越大,“組合爆炸”效應(yīng)使得這種方法并不能解決大而復(fù)雜的問題。
完整的信息檢索應(yīng)包括信息的存儲(chǔ)和檢索兩個(gè)過程,主要針對(duì)的是單一語種的文檔集,其查詢語言通常為單一語種。而如今的趨勢(shì)是人們所面對(duì)的信息資源不再是單一語種,而是用不同語言表達(dá)的信息匯聚在一個(gè)集合中。因而多語言問題日益成為信息共享的一個(gè)主要障礙,基于此,跨語言檢索則成為解決這一問題的一個(gè)最佳方案[2]。
2 人工智能的基本方法
人工智能就是為了幫助人們更快的解決問題,它包括兩方面:對(duì)于確定性事物的判斷和對(duì)于不確定性事物的判斷,它的主要方法包括以下幾種。
2.1 啟發(fā)式搜索
不斷地嘗試各種方案的準(zhǔn)確性,對(duì)各種可能性進(jìn)行反復(fù)測(cè)試,直到找到合適的解決方案,是人們常用的方法。常用的搜索策略有盲目搜索和啟發(fā)式搜索。盲目搜索是按順序測(cè)試各種方案的可行性;而啟發(fā)式搜索則可以根據(jù)經(jīng)驗(yàn)和啟發(fā)式信息進(jìn)行搜索,對(duì)希望不大的搜索方向就直接摒棄掉。
啟發(fā)式搜索可以利用問題本身的定義,還可以利用與問題有關(guān)的一些特定的知識(shí)進(jìn)行搜索,因而可以找到更有效的解決方案,大大縮短了搜索過程。
2.2 智能規(guī)劃
智能規(guī)劃主要是面向?qū)嶋H問題,基本思想是:對(duì)周圍環(huán)境進(jìn)行認(rèn)識(shí)與分析,根據(jù)要實(shí)現(xiàn)的目標(biāo),對(duì)若干可供選擇的動(dòng)作及所提供的資源限制施行推理,綜合制定出實(shí)現(xiàn)目標(biāo)的規(guī)劃。規(guī)劃要依靠啟發(fā)式信息,成功與否,很大程度上決定于啟發(fā)信息的可靠程度。而智能規(guī)劃問題的操作的前提之間也存在著很強(qiáng)的依賴與沖突關(guān)系,即一個(gè)操作的使用常常使另一個(gè)操作無法執(zhí)行,甚至導(dǎo)致最終目標(biāo)無法實(shí)現(xiàn)。因此,在智能規(guī)劃中也要考慮如何避免操作間的沖突。
智能規(guī)劃目的是建立起高效實(shí)用的智能規(guī)劃系統(tǒng)。該系統(tǒng)的主要功能可以描述為:給定問題的狀態(tài)描述、對(duì)狀態(tài)描述進(jìn)行變換的一組操作、初始狀態(tài)和目標(biāo)狀態(tài)。智能規(guī)劃系統(tǒng)能夠給出從初始狀態(tài)變到目標(biāo)狀態(tài)的一個(gè)操作序列,其復(fù)雜性和所處的環(huán)境以及Agent的功能有關(guān)。
2.3 知識(shí)的表達(dá)技術(shù)
知識(shí)及其表達(dá)是計(jì)算機(jī)科學(xué)中智能程序設(shè)計(jì)研究的主要領(lǐng)域,也是人工智能領(lǐng)域關(guān)心的基礎(chǔ)性問題。知識(shí)表達(dá)(Knowledge Representation),即知識(shí)表示或知識(shí)描述,也就是知識(shí)的形式化或模型化,是研究在機(jī)器中表示知識(shí)的方法、可行性、有效性及一些通用的原則。而智能程序,就是把現(xiàn)實(shí)世界的知識(shí)有機(jī)地結(jié)合到計(jì)算機(jī)程序中,使程序具有識(shí)別、學(xué)習(xí)、推理和適應(yīng)環(huán)境等能力。主要技術(shù)包括:如何把各類知識(shí)進(jìn)行編碼、存儲(chǔ);如何快速尋找需要的知識(shí);如何對(duì)知識(shí)進(jìn)行運(yùn)算、推理;如何對(duì)知識(shí)進(jìn)行更新、修改等[3]。
3 跨語言信息檢索
跨語言信息檢索(Cross-language Information Retrieval,CLIR),是指用戶以一種語言提問,檢出另一種或幾種語言描述的信息資源的信息檢索技術(shù)和方法。跨語言信息檢索中,用戶用以表達(dá)自己的信息需求,構(gòu)造檢索提問式的語言稱為源語言(Source Language),被檢索的信息資源所使用的語言稱為目標(biāo)語言(Target Language)。而要實(shí)現(xiàn)語言之間的轉(zhuǎn)換,首先要使計(jì)算機(jī)能理解自然語言文本的意義,然后能以自然語言文本來表達(dá)給定的意圖、思想等。例如自動(dòng)識(shí)別一份文檔中所有被提及的人與地點(diǎn);識(shí)別文檔的核心議題;在一堆僅人類可讀的合同中,將各種條款與條件提取出來并制作成表;或者通過精心選定的某些特征和文本中的某些元素結(jié)合來識(shí)別一段文字,通過識(shí)別這些元素可以把某類文字同其他文字區(qū)別開來,比如垃圾郵件同正常郵件等等。
跨語言信息檢索是在對(duì)自然語言理解的基礎(chǔ)之上,其關(guān)鍵問題是要使查詢語言與文檔語言在檢索之前達(dá)成一致。使用戶以一種語言提問,可以檢索出另一種語言或多種語言描述的相關(guān)信息。例如,輸入中文檢索式,跨語言檢索系統(tǒng)會(huì)返回英文、日文等語言描述的信息,而且這些信息不僅僅是文本信息,還可以是其他形式的信息。
3.1 智能技術(shù)在跨語言檢索的實(shí)現(xiàn)模式
人工智能技術(shù)在信息檢索系統(tǒng)的廣泛應(yīng)用,是人工智能技術(shù)與信息技術(shù)的成功結(jié)合的結(jié)果。在跨語言檢索中,提問式所用的源語言一般是用戶的母語,而被檢索的文檔所使用的目標(biāo)語言,一般是用戶不熟悉甚至完全陌生的語言。目前跨語言檢索的主要實(shí)現(xiàn)方法有提問式翻譯方法、文獻(xiàn)翻譯方法、提問式-文獻(xiàn)翻譯方法、中間翻譯方法、專有名詞音譯方法、基于本體的轉(zhuǎn)換方法等。而最常用的就是提問式翻譯方法。
3.2 跨語言檢索中的語言學(xué)資源
在跨語言檢索中,兩種或多種語言之間的翻譯對(duì)于跨語言檢索的性能有重要影響,翻譯必須以一定的語言資源工具作基礎(chǔ),主要解決的問題是語言障礙,在跨語言檢索中,常用的語言學(xué)資源有手工編制雙語詞典、機(jī)器可讀詞典、語料庫等。
手工編制雙語詞典是翻譯人員進(jìn)行翻譯必備的工具,具有準(zhǔn)確、全面地優(yōu)點(diǎn),但在跨語言檢索中難以實(shí)現(xiàn)計(jì)算機(jī)的自動(dòng)識(shí)別處理。
機(jī)器可讀詞典是把手工詞典以機(jī)器可讀的編碼形式進(jìn)行組織,便于實(shí)現(xiàn)兩種語言在詞匯層次上的對(duì)譯,但機(jī)器可讀詞典如不借助人工干預(yù),則難以解決翻譯的歧義性問題。
語料庫,尤其是平行語料庫的應(yīng)用,不僅改善了詞翻譯的不確定性,而且對(duì)于專有名詞的翻譯有著重要的意義,因?yàn)樵谄叫姓Z料庫中,詞與詞之間的對(duì)應(yīng)是惟一的,很多在手工編制雙語詞典和機(jī)器可讀詞典中不能獲取的詞都可以在平行語料庫中得到。
各種語言資源在跨語言檢索中使用不是孤立的,同時(shí)使用兩種或多種語言資源會(huì)達(dá)到更好的效果。
3.3 跨語言檢索的關(guān)鍵技術(shù)
在跨語言檢索中主要涉及的關(guān)鍵技術(shù)有計(jì)算機(jī)信息檢索技術(shù)、機(jī)器翻譯技術(shù)和歧義消解技術(shù)。信息檢索技術(shù)完成提問式與文檔之間的匹配,機(jī)器翻譯技術(shù)完成不同語言之間的語義對(duì)等,歧義消解技術(shù)則解決翻譯過程中的多義和歧義問題[4]。
3.3.1 計(jì)算機(jī)信息檢索技術(shù)
計(jì)算機(jī)信息檢索技術(shù)主要是自動(dòng)搜索技術(shù)、自動(dòng)標(biāo)引技術(shù)、語言處理技術(shù)和自動(dòng)匹配技術(shù)。檢索系統(tǒng)利用網(wǎng)絡(luò)爬蟲進(jìn)行網(wǎng)絡(luò)信息的收集,然后利用自動(dòng)標(biāo)引技術(shù)對(duì)搜集的信息進(jìn)行標(biāo)引,使用相應(yīng)的語言處理技術(shù),實(shí)現(xiàn)2種語言的相對(duì)應(yīng),形成索引數(shù)據(jù)庫。用戶輸入檢索式,計(jì)算機(jī)把檢索式與數(shù)據(jù)庫中的索引項(xiàng)進(jìn)行匹配,按檢索式與標(biāo)引項(xiàng)相關(guān)度的大小排序輸出檢索結(jié)果。其實(shí)現(xiàn)過程如圖1所示。
3.3.2 機(jī)器翻譯技術(shù)
在跨語言檢索中,所要解決的問題實(shí)際上是一個(gè)語言處理問題。不同于單一語種的語言信息檢索和機(jī)器翻譯,也不是兩種技術(shù)的簡(jiǎn)單疊加,而是一種有機(jī)的融合,有著自身的特點(diǎn)和專門的研究?jī)?nèi)容。機(jī)器翻譯技術(shù)實(shí)質(zhì)上是一種能夠?qū)⒁环N語言的文本自動(dòng)翻譯成另一種語言文本的計(jì)算機(jī)程序,核心是保持兩種文本(源語言文本和目標(biāo)語言文本)的語義對(duì)等[5]。由于在翻譯過程中,源語言文本中的詞往往對(duì)應(yīng)目標(biāo)語言描述的幾個(gè)詞,所以要選擇最合適的詞或相關(guān)處理以達(dá)到意義上的一致。在跨語言檢索中,翻譯的準(zhǔn)確性直接決定了檢索的準(zhǔn)確性,準(zhǔn)確性的提高需要利用自然語言處理與機(jī)器翻譯相結(jié)合的技術(shù),而由于這涉及復(fù)雜的計(jì)算機(jī)語義分析技術(shù),因此機(jī)器翻譯的效果還遠(yuǎn)未達(dá)到人們所期望的水平。
3.3.3 歧義消解技術(shù)
跨語言信息檢索涉及到兩種語言之間的相互轉(zhuǎn)換,在此過程中主要會(huì)出現(xiàn)的問題是歧義問題,需要解決自然語言文本和對(duì)話的各個(gè)層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。在自然語言中,一詞多義和一義多詞的現(xiàn)象是非常普遍的,對(duì)查詢進(jìn)行處理時(shí),確定檢索詞的確切含義是非常重要的,即要把帶有潛在歧義的自然語言輸入轉(zhuǎn)換成某種無歧義的計(jì)算機(jī)內(nèi)部表示,這需要大量的知識(shí)和推理。而對(duì)被檢索文獻(xiàn)而言,要提高查準(zhǔn)率,就需要明確文獻(xiàn)中出現(xiàn)的檢索詞的含義,以判斷其相關(guān)性。
跨語言信息檢索中的歧義來自源語言和目標(biāo)語言兩個(gè)方面,解決方法可以分為兩類。
一類是在一定程度上模仿人類解決歧異性的方法,結(jié)合人工構(gòu)造的語法學(xué)、詞法學(xué)、句法學(xué)、語義學(xué)等方面的知識(shí),力求給出文本非歧義的解析表達(dá)。但是機(jī)器要在這種全文本層次上實(shí)現(xiàn)正確有效的分析是相當(dāng)困難的,其性能水平無法與高昂的語言分析成本相對(duì)應(yīng)。因此,這類方法大都局限在語言的特定子集或較小的論域中。
另一類是采用一些比較實(shí)用的方法,力圖以較低的成本達(dá)到較合理的性能水平。例如:通過對(duì)查詢翻譯中根據(jù)上下文信息確定詞性的詞性標(biāo)注技術(shù);利用兩個(gè)有一定關(guān)聯(lián)的詞共同出現(xiàn)在某一篇文獻(xiàn),或者文獻(xiàn)的某一個(gè)部分的這種關(guān)聯(lián),來確定詞含義的詞的共現(xiàn)技術(shù);用來解決用戶查詢表達(dá)式比較簡(jiǎn)短,且缺少充足的語境信息對(duì)其進(jìn)行準(zhǔn)確翻譯問題的相關(guān)反饋技術(shù)等。這些都在跨語言信息檢索中扮演著重要角色。
4 結(jié)束語
互聯(lián)網(wǎng)的飛速發(fā)展,對(duì)我們的生活、工作將帶來巨大的影響,掌握信息檢索已成為每個(gè)人須具備的基本能力,因而信息獲取和精化技術(shù)也就成為當(dāng)代計(jì)算機(jī)科學(xué)與技術(shù)中迫切需要研究的課題。如何更好地將人工智能技術(shù)應(yīng)用于這一領(lǐng)域,是人工智能走向廣泛實(shí)際應(yīng)用的契機(jī)與突破口。本文探討了人工智能在信息檢索中的基本方法,并對(duì)跨信息檢索的關(guān)鍵技術(shù)作了初步的探討。雖然目前該領(lǐng)域還存在著諸多的問題,如:非文字資源,包括音頻資源和視頻資源的搜索,準(zhǔn)確率還有待提高;搜索中涉及到的用戶隱私、安全性還有待完善,與用戶真正需要的高效、智能服務(wù)還存在一定的差距等。未來其發(fā)展的潛力將是十分巨大的。
參考文獻(xiàn)(References):
[1] 賁可榮,張彥鐸.人工智能(第2版)[M].清華大學(xué)出版社,2013.
[2] 汪楠,成鷹.信息檢索技術(shù)(第2版)[M].清華大學(xué)出版社,2015.
[3] 付存君.智能信息檢索發(fā)展現(xiàn)狀的研究[J].信息與電腦,
2015.12.
[4] 王曉輝.智能信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[C].中南民族大學(xué),
2013.
[5] 王知津.信息檢索與處理[M].機(jī)械工業(yè)出版社,2015.