摘要:闡述了人工智能的原理及智能信息檢索系統(tǒng)的基本概念,分析了智能信息檢索系統(tǒng)的結(jié)構(gòu)及其研究中遇到的難題,并從人工智能的研究成果來(lái)探討解決問(wèn)題的思路。
關(guān)鍵詞:人工智能;智能信息檢索系統(tǒng);信息檢索
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)14-3777-02
Artificial Intelligence Technology in the Information Retrieval System
ZHANG Ling-ling
(Xingzhi Academy, NanJing Xiaozhuang College, Nanjing 210012, China)
Abstract: Expounded the principle of artificial intelligence and intelligent information retrieval system of the basic concepts, analysis of the intelligent information retrieval system structure and the problems encountered during the study, and research results from artificial intelligence to explore ideas to solve the problem.
Key words: Artificial Intelligence; Intelligent Information Retrieval System; Information Retrieval
1 引言
人工智能是當(dāng)前科學(xué)技術(shù)發(fā)展中的一門(mén)前沿學(xué)科,是在計(jì)算機(jī)科學(xué)、控制論、信息論、神經(jīng)心理學(xué)、哲學(xué)、語(yǔ)言學(xué)等多種學(xué)科研究的基礎(chǔ)上發(fā)展起來(lái)的,是一門(mén)綜合性很強(qiáng)的邊緣學(xué)科。總的來(lái)說(shuō),人工智能是一門(mén)研究如何構(gòu)造智能機(jī)器或智能系統(tǒng),使它能模擬、延伸擴(kuò)展人類智能的學(xué)科。
目前,人工智能的研究更多的是結(jié)合具體領(lǐng)域進(jìn)行的,主要研究領(lǐng)域有專家系統(tǒng)、機(jī)器學(xué)習(xí)、模式識(shí)別和自然語(yǔ)言理解等。自從人工智能技術(shù)問(wèn)世以來(lái),它的研究已經(jīng)有了顯著的成果。人工智能應(yīng)用于信息檢索系統(tǒng)的成果——智能信息檢索系統(tǒng)給信息檢索領(lǐng)域帶來(lái)了革命性的變化。
2 智能信息檢索系統(tǒng)概述
智能信息檢索系統(tǒng)是一種智能化的計(jì)算機(jī)信息檢索系統(tǒng),它模擬人類關(guān)于信息處理的思維過(guò)程和智能活動(dòng),實(shí)現(xiàn)信息知識(shí)的存儲(chǔ),檢索和推理,并向用戶提供智能輔助。由于人工智能的引入,智能信息檢索系統(tǒng)的優(yōu)勢(shì)明顯:強(qiáng)大的自然語(yǔ)言理解能力,使用戶可以用自然語(yǔ)言更確切地表達(dá)自己的信息需求;模擬專家的檢索方法,把用戶所表達(dá)的信息需求,制定解決策略以及分析結(jié)果的工作轉(zhuǎn)移到智能信息檢索系統(tǒng)來(lái)處理;具有強(qiáng)大的學(xué)習(xí)能力,能自動(dòng)地獲取知識(shí),能直接向書(shū)本學(xué)習(xí),并在實(shí)踐中實(shí)現(xiàn)自我完善。智能信息檢索系統(tǒng)的結(jié)構(gòu):
1)人機(jī)接口部分。人機(jī)接口是信息檢索系統(tǒng)和用戶交流界面,它能理解、分析用戶的自然語(yǔ)言提問(wèn),并產(chǎn)生適合用戶的結(jié)果,還具有解釋功能。它由一組程序相應(yīng)的硬件組成,用于完成輸入輸出工作。系統(tǒng)通過(guò)它輸入知識(shí)更新完善知識(shí)庫(kù),一般用戶通過(guò)它輸入信息需求。
2)知識(shí)庫(kù)及其管理系統(tǒng)。知識(shí)庫(kù)是知識(shí)存儲(chǔ)機(jī)構(gòu),用于存儲(chǔ)解決用戶信息需求所需的原理性知識(shí)、專家的經(jīng)驗(yàn)性知識(shí)以及有關(guān)的事實(shí)等。知識(shí)庫(kù)中的知識(shí)來(lái)源于知識(shí)獲取機(jī)構(gòu),同時(shí)它又為推理機(jī)提供求解問(wèn)題所需的知識(shí),與兩者都有密切關(guān)系。
3)數(shù)據(jù)庫(kù)及其管理系統(tǒng)。它存放用戶提供的初始事實(shí)、問(wèn)題描述以及系統(tǒng)運(yùn)行過(guò)程中得到的中間結(jié)果、最終結(jié)果、運(yùn)行信息(如推出結(jié)果的知識(shí)鏈)等。
4)檢索推理機(jī)構(gòu)。它綜合應(yīng)用各種信息檢索策略與推理技術(shù),利用知識(shí)庫(kù)中的知識(shí),按一定的推理策略解決用戶的問(wèn)題。
5)知識(shí)獲取。這是獲取知識(shí)的機(jī)構(gòu),由一組程序組成。其基本任務(wù)是把知識(shí)輸入到知識(shí)庫(kù)中,并負(fù)責(zé)維護(hù)知識(shí)的完整性與一致性,建立起性能良好的知識(shí)庫(kù)。
6)解釋機(jī)構(gòu)。它能夠?qū)ψ约旱男袨樽鞒鼋忉?,回答用戶提出的“為什?”、“結(jié)論是怎么出來(lái)的?”等問(wèn)題,是信息檢索系統(tǒng)取信于用戶的一個(gè)重要措施。
3 智能信息檢索面臨的問(wèn)題
智能信息檢索系統(tǒng)的研究經(jīng)歷了幾十年的發(fā)展,到目前為止,已經(jīng)研究出了一些實(shí)用性的智能信息檢索系統(tǒng)。但是,人工智能信息檢索在下列領(lǐng)域依然無(wú)法得到根本性的突破。
1)自然語(yǔ)言理解。自然語(yǔ)言理解是智能信息檢索系統(tǒng)的基礎(chǔ)。自然語(yǔ)言是極其復(fù)雜的。對(duì)我們每個(gè)人來(lái)說(shuō),是以我們的全部知識(shí)來(lái)理解語(yǔ)言的。機(jī)器理解自然語(yǔ)言需要把每個(gè)人腦都擁有的高度相似的、有關(guān)的“背景知識(shí)”存入計(jì)算機(jī)中,利用這種上下文相關(guān)知識(shí)進(jìn)行推理,但這是難以做到的。
2)知識(shí)的表示。人類的智能活動(dòng)主要是一個(gè)獲得并運(yùn)用知識(shí)的過(guò)程,知識(shí)是智能的基礎(chǔ)。為了讓計(jì)算機(jī)具有智能,就必須使它具有知識(shí)。但知識(shí)是需要用適當(dāng)?shù)哪J奖硎境鰜?lái)才能存儲(chǔ)到計(jì)算機(jī)中去的,因此知識(shí)表示是長(zhǎng)期以來(lái)人工智能研究的一個(gè)重要問(wèn)題,在智能信息檢索系統(tǒng)設(shè)計(jì)中,知識(shí)表示則成為一個(gè)核心部分。
在人工智能中,知識(shí)表示就是要把問(wèn)題求解中所需要的對(duì)象、前提條件、算法等知識(shí)構(gòu)造為計(jì)算機(jī)可處理的數(shù)據(jù)結(jié)構(gòu)以及解釋這種結(jié)構(gòu)的某些過(guò)程。在信息檢索中,同一條知識(shí)對(duì)不同的用戶有著不同的重要性。因此,在信息檢索中,知識(shí)的表示與利用是一個(gè)很大的難題。例如,如何從詢問(wèn)中獲得領(lǐng)域知識(shí),信息表示要達(dá)到怎樣的深度等。
3)知識(shí)的獲取。擁有知識(shí)是智能信息檢索系統(tǒng)區(qū)別于一般信息檢索系統(tǒng)的重要標(biāo)志,而知識(shí)的質(zhì)量與數(shù)量又是決定其性能的關(guān)鍵因素。如何使智能信息檢索系統(tǒng)獲得高質(zhì)量的知識(shí),這正是知識(shí)獲取要解決的問(wèn)題。
由于各方面的原因,知識(shí)獲取至今仍是一件相當(dāng)困難的工作,雖然已有許多人工智能學(xué)者在開(kāi)展這方面的研究工作,希望實(shí)現(xiàn)知識(shí)的自動(dòng)獲取,即由信息檢索系統(tǒng)自動(dòng)完成對(duì)知識(shí)的獲取,并且也取得了一些成果,但離知識(shí)的完全自動(dòng)獲取這一目標(biāo)相距甚遠(yuǎn),還需要走一段漫長(zhǎng)的道路,解決許多理論及技術(shù)上的問(wèn)題。
4 從人工智能研究的成果來(lái)探討解決問(wèn)題的思路
1)自然語(yǔ)言理解。在人工智能領(lǐng)域,自然語(yǔ)言理解就是研究如何讓計(jì)算機(jī)理解人類自然語(yǔ)言的一個(gè)研究領(lǐng)域。具體的說(shuō)他要達(dá)到如下三個(gè)目標(biāo):計(jì)算機(jī)能理解人們用自然語(yǔ)言輸入的信息,并能正確回答輸入信息中的有關(guān)問(wèn)題;對(duì)輸入信息,計(jì)算機(jī)能產(chǎn)生相應(yīng)的摘要,能用不同詞語(yǔ)復(fù)述輸入的內(nèi)容;計(jì)算機(jī)能把某一種自然語(yǔ)言表示的信息自動(dòng)的翻譯為另一種自然語(yǔ)言。對(duì)于智能信息檢索系統(tǒng)來(lái)說(shuō),主要是要達(dá)到前面兩個(gè)目標(biāo)。關(guān)于自然語(yǔ)言理解的研究可以追溯到20世紀(jì)50年代。但大多集中在將一種自然語(yǔ)言翻譯成另一種自然語(yǔ)言的研究上。進(jìn)入20世紀(jì)70年代,一批采用句法—一語(yǔ)義分析技術(shù)的自然語(yǔ)言理解系統(tǒng)脫穎而出,在語(yǔ)言分析的深度和難度方面都比早期的系統(tǒng)有了長(zhǎng)足的進(jìn)步。進(jìn)入20世紀(jì)80年代后,更強(qiáng)調(diào)知識(shí)在自然語(yǔ)言理解中的重要作用。近十年來(lái)在自然語(yǔ)言理解的研究中一個(gè)值得注意的是語(yǔ)料庫(kù)語(yǔ)言學(xué)的崛起,它認(rèn)為語(yǔ)言學(xué)知識(shí)來(lái)自語(yǔ)料,人們只有從大規(guī)模語(yǔ)料庫(kù)中獲取理解語(yǔ)言的知識(shí),才能真正實(shí)現(xiàn)對(duì)語(yǔ)言的理解。目前,雖然基于語(yǔ)料庫(kù)的自然語(yǔ)言理解方法還不成熟,正處于研究之中,但它是一個(gè)值得注意的研究方向。而且我們可以將已經(jīng)取得的成果用于智能信息檢索系統(tǒng)的自然語(yǔ)言處理上。
2)知識(shí)的表示。在人工智能中,知識(shí)表示實(shí)際上就是對(duì)知識(shí)的一種描述,或者說(shuō)是一組約定,一種計(jì)算機(jī)可以接受的用于描述知識(shí)的數(shù)據(jù)結(jié)構(gòu)。對(duì)知識(shí)進(jìn)行表示的過(guò)程就是把知識(shí)編碼成某種數(shù)據(jù)結(jié)構(gòu)的過(guò)程。
對(duì)于知識(shí)表示方法的研究,離不開(kāi)對(duì)知識(shí)的研究與認(rèn)識(shí)。由于目前對(duì)人類知識(shí)的結(jié)構(gòu)及機(jī)制還沒(méi)完全搞清楚,因此關(guān)于知識(shí)表示的理論及規(guī)范尚未建立起來(lái)。盡管如此,人們?cè)趯?duì)智能信息系統(tǒng)的研究及建立過(guò)程中,還是結(jié)合具體研究提出了一些知識(shí)表示方法。概括起來(lái),這些表示方法可分為兩大類:符號(hào)表示法,連接機(jī)制表示法。
對(duì)同一知識(shí),一般都可以用多種方法進(jìn)行表示,但其效果卻不相同。因?yàn)椴煌I(lǐng)域中的知識(shí)一般都有不同的特點(diǎn),而每一種表示方法也各有自己的長(zhǎng)處與不足。因而,有些領(lǐng)域的知識(shí)可能采用這種表示模式比較合適,而有些領(lǐng)域的知識(shí)可能采用另一種表示模式更好。有時(shí)還可能把幾種表示模式結(jié)合起來(lái),作為一個(gè)整體來(lái)表示領(lǐng)域知識(shí),以取得取長(zhǎng)補(bǔ)短的效果。另外,上述各種知識(shí)表示方法大都是在進(jìn)行某項(xiàng)具體研究或者建立某個(gè)智能系統(tǒng)時(shí)提出來(lái)的,有一定的針對(duì)性和局限性,應(yīng)用時(shí)需根據(jù)實(shí)際情況作適當(dāng)?shù)母淖儭?/p>
3)知識(shí)的獲取。目前,知識(shí)獲取通常是由知識(shí)工程師與系統(tǒng)中的知識(shí)獲取機(jī)構(gòu)共同完成的。知識(shí)工程師負(fù)責(zé)從領(lǐng)域?qū)<夷抢锍槿≈R(shí),并用適當(dāng)?shù)哪J桨阎R(shí)表示出來(lái),而系統(tǒng)中的知識(shí)獲取機(jī)構(gòu)負(fù)責(zé)把知識(shí)轉(zhuǎn)換為計(jì)算機(jī)可存儲(chǔ)的內(nèi)部形式,然后把他們存入知識(shí)庫(kù)。在存儲(chǔ)的過(guò)程中,要對(duì)知識(shí)進(jìn)行一致性、完整性的檢測(cè)。
4)知識(shí)獲取的任務(wù)是為信息系統(tǒng)或者專家系統(tǒng)獲取知識(shí),建立起健全、完善、有效的知識(shí)庫(kù),以滿足求解領(lǐng)域的問(wèn)題的需要。對(duì)智能信息檢索系統(tǒng)來(lái)說(shuō),就是要滿足信息檢索這一具體領(lǐng)域的需要。為了完成這個(gè)任務(wù),知識(shí)獲取必須做到:a、抽取知識(shí):即把蘊(yùn)含于知識(shí)源(領(lǐng)域?qū)<?,?shū)本,相關(guān)論文及系統(tǒng)的運(yùn)行實(shí)踐等)中的知識(shí)經(jīng)識(shí)別,理解,篩選,歸納等抽取出來(lái),以便建立知識(shí)庫(kù)。b、知識(shí)轉(zhuǎn)換:即把知識(shí)由一種表示形式變換為另一種表示形式。c、知識(shí)的輸入:即把用適當(dāng)模式表示的知識(shí)經(jīng)編輯、編譯送入知識(shí)庫(kù)的過(guò)程;d、知識(shí)的檢測(cè):知識(shí)庫(kù)的建立是通過(guò)對(duì)知識(shí)進(jìn)行抽取、轉(zhuǎn)換和輸入等環(huán)節(jié)實(shí)現(xiàn)的,這一過(guò)程中的任何環(huán)節(jié)上的失誤都會(huì)造成知識(shí)的錯(cuò)誤,直接影響系統(tǒng)的性能,因此必須對(duì)知識(shí)進(jìn)行檢測(cè),以便盡早發(fā)現(xiàn)并糾正可能出現(xiàn)的錯(cuò)誤。
按知識(shí)獲取的自動(dòng)化程度劃分,可分為非自動(dòng)知識(shí)獲取和自動(dòng)知識(shí)獲取兩種方式。自動(dòng)知識(shí)獲取是知識(shí)獲取最終的目標(biāo),它是一種理想的知識(shí)獲取方式,但它卻涉及到人工智能的多個(gè)領(lǐng)域。例如模式識(shí)別、自然語(yǔ)言理解、機(jī)器學(xué)習(xí)等。而這一理論目前尚處在研究階段,由許多技術(shù)上的問(wèn)題需要作進(jìn)一步的研究,就目前已經(jīng)取得的研究成果而言,尚不足于真正實(shí)現(xiàn)自動(dòng)知識(shí)獲取。因此,知識(shí)的完全自動(dòng)獲取目前還只能作為人們?yōu)橹畩^斗的目標(biāo)。
但是,人工智能的研究畢竟已經(jīng)取得了很大的進(jìn)步,自然語(yǔ)言理解,機(jī)器學(xué)習(xí)等的研究也已取得了較大的進(jìn)展,特別是近年來(lái)關(guān)于人工神經(jīng)網(wǎng)絡(luò)的研究提出了多種學(xué)習(xí)算法,這都為知識(shí)獲取提供了有利條件。因此,在建造智能信息檢索系統(tǒng)時(shí),應(yīng)充分利用這些成果,逐漸向知識(shí)的自動(dòng)獲取過(guò)渡,提高其智能程度。事實(shí)上,在近年來(lái)建造的智能信息系統(tǒng)中,也都不同程度的做了這方面的嘗試,在非自動(dòng)知識(shí)獲取的基礎(chǔ)上增加了部分學(xué)習(xí)功能,使系統(tǒng)能從大量事例中歸納出某些知識(shí)。
參考文獻(xiàn):
[1] 王永慶.人工智能原理與方法[M].西安交通大學(xué)出版社,1998.
[2] 張玉峰.智能情報(bào)系統(tǒng)[M].武漢大學(xué)出版社,1991.
[3] 張倚.關(guān)于人工智能技術(shù)在情報(bào)檢索中的應(yīng)用[J].山西大學(xué)學(xué)報(bào),1995(3).
[4] 李明,沈紅君.情報(bào)檢索智能化[J].情報(bào)理論與實(shí)踐,1996(6).