林遠(yuǎn)紅
(重慶圖書館,重慶 400037)
在過(guò)去的50年中,圖書編目已由手工編目完全過(guò)度到了以機(jī)讀目錄為格式的文獻(xiàn)編目自動(dòng)化和網(wǎng)絡(luò)化階段。書目數(shù)據(jù)共建共享極大提高了圖書館的編目效率,但是一條書目數(shù)據(jù)的創(chuàng)建仍然是一項(xiàng)耗時(shí)、耗力、低產(chǎn)出的工作,鑒于此,越來(lái)越多的圖書館選擇書目數(shù)據(jù)外包。但是館配商向圖書館提供的書目數(shù)據(jù)質(zhì)量不高,除了編目描述錯(cuò)誤外,主要的問題是主題分析不準(zhǔn)確,分類標(biāo)引錯(cuò)誤等,完全達(dá)不到行業(yè)要求。最終,編目人員仍然要對(duì)書目數(shù)據(jù)進(jìn)行逐項(xiàng)審校。編目員反復(fù)翻閱分類法、查閱主題詞,繁重、機(jī)械、低效率的工作與高速的網(wǎng)絡(luò)化時(shí)代似乎顯得格格不入。于是筆者寄希望于人工智能技術(shù),通過(guò)萬(wàn)方數(shù)據(jù)庫(kù)查看相關(guān)論文和書籍,梳理人工智能的起源、編目專家系統(tǒng)的研究、智能標(biāo)引技術(shù)、智能分類技術(shù)等這些與智能編目相關(guān)的信息,同時(shí)對(duì)人工智能的技術(shù)與應(yīng)用前景也進(jìn)行了解,希望能從中找到二者的融合點(diǎn),真正把圖書編目帶進(jìn)智能時(shí)代。
人工智能(Artificial Intelligence)技術(shù),從1956年首次被提出,已經(jīng)有六十多年發(fā)展歷程。它先后經(jīng)歷了3次“熱潮”與“寒冬”交替的發(fā)展階段。第一階段:20世紀(jì)50年代到60年代時(shí)期。1956年美國(guó)達(dá)特茅斯會(huì)議首次提出“人工智能”術(shù)語(yǔ),并將像人類那樣思考的機(jī)器稱為“人工智能”。隨后人們以“推理”和“搜索”為規(guī)則,模仿人類思維方式總結(jié)思維規(guī)則,開展了數(shù)學(xué)證明系統(tǒng)、知識(shí)推理系統(tǒng)技術(shù)與應(yīng)用的研究計(jì)劃。對(duì)于規(guī)則性強(qiáng)的領(lǐng)域,由于受限于計(jì)算機(jī)的運(yùn)算能力,對(duì)于解決現(xiàn)實(shí)生活中的復(fù)雜問題,比如翻譯、醫(yī)療很難如意。因此到了20世紀(jì)70年代初人工智能變得蕭條冷寂。第二階段:20世紀(jì)80年代到90年代,以LIPS語(yǔ)言為基礎(chǔ),以日本CYC項(xiàng)目為代表的知識(shí)庫(kù)。它依靠“有規(guī)則的知識(shí)”的支撐,導(dǎo)入各領(lǐng)域“知識(shí)”使計(jì)算機(jī)變得更聰明,并稱之為“專家系統(tǒng)”。例如,斯坦福大學(xué)開發(fā)的MYCIN系統(tǒng),它能對(duì)血液病患者進(jìn)行診斷,并開出抗生素處方。在這一時(shí)期,知識(shí)表示,本體研究、機(jī)器翻譯都得到相應(yīng)的發(fā)展。知識(shí)導(dǎo)入型專家系統(tǒng)確實(shí)具有一定的產(chǎn)業(yè)實(shí)用性,但是,知識(shí)描述之復(fù)雜與機(jī)器理解的困難讓人工智能又一次望而卻步。最終,專家系統(tǒng)被淘汰。第三階段: 20世紀(jì)90年代后半期,搜索引擎的誕生與普及,產(chǎn)生了大量的可用數(shù)據(jù),以大數(shù)據(jù)為導(dǎo)向的機(jī)器學(xué)習(xí)為人工智能的發(fā)展帶來(lái)了新的契機(jī)。在技術(shù)領(lǐng)域,以DeepMind公司為首的深度學(xué)習(xí)也進(jìn)入了更深層次的研究階段,深度學(xué)習(xí)+大規(guī)模計(jì)算+大數(shù)據(jù)把人工智能推向一個(gè)新的時(shí)代。人工智能在語(yǔ)音識(shí)別、機(jī)器視覺、數(shù)據(jù)挖掘、智慧醫(yī)療等多個(gè)領(lǐng)域得到實(shí)現(xiàn)。同往常以理論學(xué)術(shù)研究為主導(dǎo)不一樣,這次是以資本為推手,著力解決實(shí)際問題為目的的人工智能。技術(shù)的進(jìn)步為智能編目提供了可能性。
回顧歷史,從20世紀(jì)70年代以來(lái),AI就逐漸應(yīng)用到圖書館管理和服務(wù)的各個(gè)環(huán)節(jié),出現(xiàn)了各類專家系統(tǒng),例如圖書館咨詢專家系統(tǒng)、圖書分類專家系統(tǒng)、信息檢索專家系統(tǒng)、編目專家系統(tǒng)。文獻(xiàn)的編目包括描述文獻(xiàn)的物理形態(tài),選取檢索點(diǎn);分類、主題標(biāo)引;規(guī)范控制3個(gè)方面。筆者以編目的3個(gè)方面為檢索內(nèi)容,時(shí)間區(qū)間為1980年~2020年,分別用編目and(專家系統(tǒng)or自動(dòng)化);分類and(專家系統(tǒng)or自動(dòng)化);標(biāo)引and(專家系統(tǒng)or自動(dòng)化)等詞在萬(wàn)方數(shù)據(jù)庫(kù)中進(jìn)行組配檢索,通過(guò)認(rèn)真篩選,詳細(xì)閱讀,得出了近年來(lái)編目領(lǐng)域?qū)<蚁到y(tǒng)的研究概況。編目專家系統(tǒng)領(lǐng)域的研究范圍涉及以下5個(gè)主題,研究文獻(xiàn)主題及年代分布見表1。
表1 40年以來(lái)發(fā)表論文的主題及年代分布
圖書編目經(jīng)過(guò)了幾十年的發(fā)展,在自動(dòng)標(biāo)引、自動(dòng)分類、自動(dòng)編目等領(lǐng)域,在理論上都取得了長(zhǎng)足的發(fā)展。其中,在編目描述領(lǐng)域,編目的智能主要體現(xiàn)在編目專家系統(tǒng)的研究。早期的編目專家系統(tǒng)功能相對(duì)比較簡(jiǎn)單,能進(jìn)行一些簡(jiǎn)單的規(guī)則使用和著錄項(xiàng)目識(shí)別,例如:倫敦工業(yè)學(xué)院的Black W. J.等人設(shè)計(jì)的HEADS系統(tǒng),它能完成簡(jiǎn)單的編目過(guò)程,但是對(duì)一些特殊的規(guī)則和字符串無(wú)法處理;同在倫敦工業(yè)學(xué)院的Eyre 用Prolog語(yǔ)言設(shè)計(jì)了專門用于責(zé)任者名稱的系統(tǒng)。這兩個(gè)系統(tǒng)優(yōu)勢(shì)各不相同,但都無(wú)法獨(dú)立完成編目工作。同時(shí)期的還有Ercegovac設(shè)計(jì)了一個(gè)包含編目規(guī)則和專家知識(shí)庫(kù)的編目專家系統(tǒng);匹茲堡大學(xué)的Katz等人設(shè)計(jì)了Maccat等原型編目專家系統(tǒng) 。前期的研究成果雖然沒有真正實(shí)現(xiàn)編目自動(dòng)化,但是為圖書編目各個(gè)模塊實(shí)現(xiàn)智能識(shí)別和編目提供了思路。
隨著計(jì)算機(jī)、光學(xué)識(shí)別和軟件技術(shù)的不斷發(fā)展,編目專家系統(tǒng)的研究進(jìn)入一個(gè)新的活躍期。20世紀(jì)70年代,OCLC研制了Automated litlepage cataloguing系統(tǒng),該系統(tǒng)主要應(yīng)用OCR光學(xué)識(shí)別技術(shù)對(duì)題名頁(yè)進(jìn)行識(shí)別,再通過(guò)編目規(guī)則和其他要素來(lái)進(jìn)行編目。最終正確識(shí)別率可達(dá)到89%。同時(shí)用于對(duì)責(zé)任者進(jìn)行識(shí)別的UCLA的Motto與Svenomius的系統(tǒng)研制出來(lái)了,它主要應(yīng)用OCR技術(shù),以O(shè)CLC的規(guī)范文檔和出版商名錄、姓氏人名大字典等工具對(duì)題名頁(yè)的人名、團(tuán)體名稱進(jìn)行識(shí)別,團(tuán)體名稱正確率可達(dá)85.8%,個(gè)人名稱成功率可達(dá)84.5%。
1984年英國(guó)Exeter大學(xué)的Davies和James采用Prolog語(yǔ)言研制出第一個(gè)編目專家系統(tǒng)。隨后,Hjerppe在瑞典Linkkoping大學(xué)研制了以選取款目檢索點(diǎn)核心的Esscape系統(tǒng)。1986年,威斯康星大學(xué)開發(fā)了MITI/MARC編目專家系統(tǒng),并實(shí)現(xiàn)了現(xiàn)實(shí)編目工作中的應(yīng)用。國(guó)內(nèi)編目專家系統(tǒng)方面的研究除了理論上的一些介紹和想法外,基于實(shí)踐的編目專家系統(tǒng)幾乎為零。成績(jī)最為突出的以國(guó)家圖書館編制的《中國(guó)圖書館分類法》(第五版)Web版和《中國(guó)分類主題詞表》Web版,雖然它僅僅是一種工具,但是同樣是編目自動(dòng)化的一部分。幾十年的發(fā)展研究,編目專家系統(tǒng)在理論和實(shí)證方面都得到了很大的進(jìn)步,雖然最終沒有哪一個(gè)系統(tǒng)正式投入使用,但是對(duì)于編目的智能化進(jìn)行了探索。
在自動(dòng)標(biāo)引理論方面,分別開創(chuàng)了基于本體、決策樹、小世界網(wǎng)絡(luò)、條件隨機(jī)場(chǎng)、粗集理論、遺傳算法等理論,例如:以南京農(nóng)業(yè)大學(xué)侯漢清為中心設(shè)計(jì)構(gòu)建的以創(chuàng)新知識(shí)庫(kù)開始的文獻(xiàn)主題詞自動(dòng)標(biāo)引和自動(dòng)分類方法體系。在文獻(xiàn)分類理論方面,提出了使用TF-IDF算法和樸素貝葉斯算法、KNN、決策樹法、中心向量法、支持向量機(jī),以及基于卷積神經(jīng)網(wǎng)絡(luò)的文獻(xiàn)自動(dòng)分類法。
綜上所述,人工智能從1956年被提出,到最終應(yīng)用于各大圖書館,已有六十多年的歷程?,F(xiàn)階段雖然還沒有實(shí)現(xiàn)編目智能化,但是在編目描述、分類、主題標(biāo)引方面的智能化研究已取得了進(jìn)步。相信先進(jìn)的算法、理論和人工智能技術(shù)相結(jié)合,編目智能化實(shí)現(xiàn)也是指日可待。
人工智能技術(shù)在經(jīng)歷了幾十年潮起潮落的漫長(zhǎng)發(fā)展歷程之后,在知識(shí)表示、自動(dòng)推理和搜索方法、機(jī)器學(xué)習(xí)和知識(shí)獲取、知識(shí)處理系統(tǒng)、自然語(yǔ)言理解、計(jì)算機(jī)視覺、智能機(jī)器人、自動(dòng)程序設(shè)計(jì)等領(lǐng)域有了新的進(jìn)展。技術(shù)上的突破為圖書編目智能化實(shí)現(xiàn)增加了可能性。同時(shí),圖書編目理論從AACR2發(fā)展到了RDA,編目理論的發(fā)展也非常成熟和完備。實(shí)現(xiàn)編目的智能化,必需聚集技術(shù)前沿的融合:人工智能技術(shù)+大數(shù)據(jù)+圖書編目理論框架。圖書編目理論是其中主導(dǎo)部分,結(jié)合自然語(yǔ)言理解、深度學(xué)習(xí)等技術(shù),借用大數(shù)據(jù)使得編目規(guī)則更容易被機(jī)器理解。人工智能新技術(shù)、規(guī)范數(shù)據(jù)和算法是人工智能與圖書編目應(yīng)用發(fā)展的3個(gè)關(guān)鍵要素。新的技術(shù)為智能編目提供技術(shù)基礎(chǔ),大規(guī)模規(guī)范的數(shù)據(jù)為計(jì)算機(jī)深度學(xué)習(xí)提供內(nèi)容基礎(chǔ),合適的算法模型為智能編目的實(shí)現(xiàn)提供有效的途徑。
圖書編目發(fā)展到今天,已經(jīng)形成了相當(dāng)完整的可操作的規(guī)則庫(kù)。以中文圖書為例在編目描述階段,有《中文書目數(shù)據(jù)標(biāo)準(zhǔn)》《中文書目數(shù)據(jù)制作》等以規(guī)則和實(shí)例為一體的操作手冊(cè)。在圖書分類標(biāo)引方面,有Web版的《中國(guó)圖書館分類法》;在主題標(biāo)引方面有Web版的《中國(guó)分類主題詞表》,在對(duì)著者、題名進(jìn)行規(guī)范方面,有國(guó)家圖書館的規(guī)范庫(kù)。這些基礎(chǔ)數(shù)據(jù)經(jīng)過(guò)長(zhǎng)時(shí)期的發(fā)展都形成了比較完整的、穩(wěn)定的系統(tǒng)。
從根本上來(lái)說(shuō),深度學(xué)習(xí)就是一種用數(shù)學(xué)模型對(duì)真實(shí)世界中的特定問題進(jìn)行建模,以解決領(lǐng)域內(nèi)相似問題的過(guò)程。它把計(jì)算機(jī)要學(xué)習(xí)的東西看成一大堆數(shù)據(jù),把這些數(shù)據(jù)丟進(jìn)一個(gè)復(fù)雜的、包含多個(gè)層級(jí)的數(shù)據(jù)處理網(wǎng)絡(luò),然后檢查經(jīng)過(guò)這個(gè)網(wǎng)絡(luò)處理得到的結(jié)果數(shù)據(jù)。深度學(xué)習(xí)不僅僅是“全盤記憶”來(lái)解決問題,它已經(jīng)轉(zhuǎn)向特征記憶的學(xué)習(xí)。深度學(xué)習(xí)的算法使用了大量來(lái)自特定領(lǐng)域的數(shù)據(jù),讓系統(tǒng)使用這些輸入的數(shù)據(jù),訓(xùn)練自己識(shí)別數(shù)據(jù)和期望結(jié)果之間的關(guān)聯(lián)性。大量的相關(guān)數(shù)據(jù)、強(qiáng)大的算法、足夠細(xì)化的領(lǐng)域以及明確的目標(biāo),使得人工智能得以實(shí)現(xiàn)。就編目而言,要實(shí)現(xiàn)機(jī)器像人一樣,自動(dòng)著錄一條完整、準(zhǔn)確的數(shù)據(jù),是不可想象的。但是,可以通過(guò)多路徑協(xié)作的模式來(lái)實(shí)現(xiàn)智能編目。從編目的流程來(lái)看,一本圖書要完成編目,需要經(jīng)過(guò)圖書物理特征的描述、圖書主題內(nèi)容揭示、規(guī)范控制3個(gè)模塊。讓這3個(gè)模塊單獨(dú)進(jìn)行深度學(xué)習(xí)訓(xùn)練,等到各個(gè)深度學(xué)習(xí)的模塊調(diào)整到最優(yōu)狀態(tài),再讓他們相互作用,相互影響。通過(guò)將無(wú)數(shù)個(gè)不同目標(biāo)的深度學(xué)習(xí)相互連接協(xié)調(diào),使其真正實(shí)現(xiàn)編目智能化。智能編目所需的大數(shù)據(jù)來(lái)源于:系統(tǒng)已有的規(guī)范書目數(shù)據(jù)、讀者檢索用關(guān)鍵詞、網(wǎng)絡(luò)書目數(shù)據(jù)、網(wǎng)絡(luò)書評(píng)、出版社數(shù)據(jù)等。除了初始的數(shù)據(jù)外,國(guó)家圖書館開發(fā)的Web版《中國(guó)分類主題詞表》、Web版《中國(guó)圖書館分類法》、規(guī)范數(shù)據(jù)庫(kù)等,這些規(guī)范的數(shù)據(jù),都為深度學(xué)習(xí)提供了數(shù)據(jù)支撐。
回想起人工智能兩次熱潮的來(lái)、去均遭遇了相同的命運(yùn)。研究人員紛紛轉(zhuǎn)行、經(jīng)濟(jì)支撐不足的一幕還歷歷在目。面對(duì)第三次人工智能熱潮,雖然理論和技術(shù)都有了很大的提升,但還是處于探索階段。人工智能應(yīng)用圖書編目前景目標(biāo)遙遠(yuǎn),仍需極力去探尋實(shí)現(xiàn)的途徑。人工智能與圖書編目融合發(fā)展也面臨著技術(shù)上的突破、經(jīng)濟(jì)支撐不足、專業(yè)人才缺乏的現(xiàn)實(shí)困境。未來(lái)人工智能與圖書編目應(yīng)用的前景,需要在技術(shù)、數(shù)據(jù)、算法和人才4個(gè)層面協(xié)同推進(jìn),即要加強(qiáng)人工智能與出版界融合發(fā)展的技術(shù)研究,也要深入與互聯(lián)網(wǎng)圖書網(wǎng)站的數(shù)據(jù)共建共享。聯(lián)合人工智能與出版界、互聯(lián)網(wǎng)圖書行業(yè)的數(shù)據(jù)內(nèi)容生產(chǎn),創(chuàng)新人工智能與各方發(fā)展的有效合作模式,搭建和完善整個(gè)人才培養(yǎng)體系,最終讓編目智能化走向工作實(shí)踐。
隨著人工智能、大數(shù)據(jù)等信息技術(shù)的發(fā)展,探索人工智能應(yīng)用于圖書編目已經(jīng)可行。應(yīng)用人工智能技術(shù)將圖書數(shù)據(jù)進(jìn)行智能化處理,可以最大限度發(fā)揮人機(jī)結(jié)合優(yōu)勢(shì)。因此,以新的編目條例為核心、以機(jī)讀目錄為支持,借助人工智能技術(shù),通過(guò)智能化新算法的研究,最終建立具有智能編目的高效運(yùn)行系統(tǒng),從而進(jìn)一步提升編目的效率。