高群
摘 要? 本文首先簡述了機器學(xué)習(xí)的概念以及在人工智能中所處的地位,然后簡介了常見的機器學(xué)習(xí)的模型和方法,包括目前熱門的深度學(xué)習(xí)方法。最后,以輕工信息資源數(shù)據(jù)庫建設(shè)與服務(wù)的重構(gòu)為例,從資源庫的重構(gòu)、購置與建設(shè)以及服務(wù)這三個角度,探討了機器學(xué)習(xí)技術(shù)在其中的作用與應(yīng)用。
關(guān)鍵詞? 人工智能 機器學(xué)習(xí) 深度學(xué)習(xí) 信息資源數(shù)據(jù)庫 重構(gòu)
中圖分類號 G250.74 文獻(xiàn)標(biāo)識碼 A 收稿日期 2019-12-03
Abstract In this paper, the basic concept and key role of machine learning is firstly stated, and the commonly used machine learning models and methods are introduced, including the prevalent deep learning techniques. Then, taking the reconstruction of building and service of light industry information resources database as an example, the paper discusses the function and application of machine learning technique from the aspects of reconstruction, design, building and service of database.
Keyword artificial intelligence; machine learning; deep learning; information resources database; reconstruction
一、引言
由于智能算法、大數(shù)據(jù)、計算機算力的迅猛發(fā)展,也由于自2010年來,人工智能特別是AlphaGo的出現(xiàn),以及深度學(xué)習(xí)在圖像視頻處理、語音識別、自然語言處理、機器人等應(yīng)用領(lǐng)域所取得了突破性進展,人工智能在國內(nèi)乃至國際上形成了熱潮,正深刻改變和引領(lǐng)著社會向智能化發(fā)展??梢赃@么說,人工智能的這次熱潮是由機器學(xué)習(xí)技術(shù)催生的。近年來,我們圖書館以我校輕紡特色為面向,自建了輕工信息資源數(shù)據(jù)庫、輕紡研究生論文資源數(shù)據(jù)庫等數(shù)種數(shù)據(jù)庫。人工智能將助推智能圖書館的建設(shè)與發(fā)展,而機器學(xué)習(xí)技術(shù)將成為信息資源數(shù)據(jù)庫建設(shè)與服務(wù)重構(gòu)的抓手和核心技術(shù),未來人工智能必將發(fā)揮越來越重要的作用。
二、機器學(xué)習(xí):模型和方法
眾所周知,機器學(xué)習(xí)是人工智能的重要分支,其目的是依據(jù)現(xiàn)有數(shù)據(jù),參照和模擬人腦的智能行為或數(shù)學(xué)手段建立或設(shè)計出數(shù)學(xué)模型,從而實現(xiàn)對未來新數(shù)據(jù)進行有效預(yù)測的過程。經(jīng)過數(shù)十年的發(fā)展,目前已出現(xiàn)了數(shù)百種以上的機器學(xué)習(xí)方法。但真正引起社會大眾注意的則是圍棋機器人AlphaGo。本質(zhì)上,AlphaGo是運用最新的深度學(xué)習(xí)和強化學(xué)習(xí)技術(shù)[1]。它從數(shù)以萬計的圍棋訓(xùn)練數(shù)據(jù)中學(xué)習(xí)、訓(xùn)練了如何下圍棋,故它是最典型的機器學(xué)習(xí)技術(shù)的成功應(yīng)用。
機器學(xué)習(xí)的研究目前呈現(xiàn)出統(tǒng)計學(xué)、數(shù)學(xué)、信息論、生物神經(jīng)網(wǎng)絡(luò)等多種學(xué)科領(lǐng)域相融合的特點,其廣為人知的應(yīng)用領(lǐng)域包括人臉識別以及生物智能識別、自然語言處理、數(shù)據(jù)挖掘、智能推薦系統(tǒng)等。圖書信息資源數(shù)據(jù)庫建設(shè)是現(xiàn)代圖書館應(yīng)有的建設(shè)內(nèi)容,它涉及對現(xiàn)有信息資源的整理、挖掘與再利用[2,3,4,5],從而為讀者提供更為智能便利的服務(wù)。因而,機器學(xué)習(xí)在圖書信息資源數(shù)據(jù)庫建設(shè)中有著不可替代的應(yīng)用,將助推其向智能化強力發(fā)展。為了觀察和研究機器學(xué)習(xí)在圖書信息資源數(shù)據(jù)庫建設(shè)中的作用,我們首先簡要地總結(jié)機器學(xué)習(xí)的模型和方法。
1.監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。按照不同的任務(wù)需求,機器學(xué)習(xí)模型可大致分為兩大類,即監(jiān)督學(xué)習(xí)模型和無監(jiān)督學(xué)習(xí)模型,監(jiān)督學(xué)習(xí)模型要求訓(xùn)練集聚有類標(biāo)信息,即給定樣本本身及其他的輸出信息(稱為監(jiān)督信息),然后從樣本集及其輸出信息之間學(xué)習(xí)/訓(xùn)練出相應(yīng)的決策模型,用以對未來測試樣本的輸出信息預(yù)測,典型監(jiān)督學(xué)習(xí)模型主要用于分類和回歸,無監(jiān)督學(xué)習(xí)模型僅依據(jù)樣本集本身而挖掘出所需要的結(jié)果,典型的無監(jiān)督學(xué)習(xí)模型主要用于聚類。經(jīng)常地,人們將這兩種模型綜合起來以解決更復(fù)雜的問題。
2.Bayes分類器。該學(xué)習(xí)模型以經(jīng)典的概率論中的Bayes公式為基礎(chǔ),根據(jù)某類別條件下每個特征的條件概率和每個類別的先驗概率,來求得某些特征條件下每個類別的條件概率,條件概率最大的類別就是其要預(yù)測的類別。近年來,以Bayes概率理論為基礎(chǔ)的Bayes網(wǎng)絡(luò)正受到越來越多的重視和應(yīng)用,一般地,隱馬爾柯夫模型、極大似然熵原理、EM優(yōu)化算法[6]是其模型求介的基礎(chǔ),并由此拓展出各種新技術(shù)。
3.決策樹和隨機森林模型。作為最典型的機器學(xué)習(xí)模型之一,決策樹模型[7]是一種利用樹形結(jié)構(gòu)依據(jù)熵計算的分類模型,一個決策樹由樹的節(jié)點和有向邊構(gòu)成。分類時在決策樹上的每個內(nèi)節(jié)點上依據(jù)熵的值進行判斷,其結(jié)果得到一個子節(jié)點,直到到達(dá)一個葉子節(jié)點,最著名的算法是Quialan教授的ID3算法。當(dāng)用若干個決策樹隨機組合在一起時,則形成了隨機森林模型。目前,隨機森林已得到了廣泛應(yīng)用,典型的算法是Random Forest,簡稱RF方法。
4.支撐向量機與統(tǒng)計學(xué)習(xí)。自20世紀(jì)90年代以來,以統(tǒng)計學(xué)習(xí)技術(shù)為代表的機器學(xué)習(xí)技術(shù)一直是機器學(xué)習(xí)的主流研究方向。支撐向量機[6,7]是統(tǒng)計學(xué)習(xí)的典型代表,它依據(jù)統(tǒng)計學(xué)習(xí)中最小風(fēng)險化原理,將原數(shù)據(jù)空間映射到高維特征空間,運用核技巧,構(gòu)造一個超平面,將不同類別的數(shù)據(jù)分割開來,以實現(xiàn)具有泛化能力的分類效果。支撐向量機在文本圖像處理,數(shù)據(jù)挖掘,智能檢索中取得顯著應(yīng)用,支撐向量機常稱為淺度學(xué)習(xí)方法。
5.多任務(wù)、多視角學(xué)習(xí)與遷移學(xué)習(xí)。由于客觀世界中,存在著大量的同時完成多個相關(guān)聯(lián)任務(wù),或從多個視角觀察或收集數(shù)據(jù)應(yīng)用場景,故近年來發(fā)展出了多種任務(wù)、多視角學(xué)習(xí)模型。這些模型充分關(guān)聯(lián)共享信息的利用,以提高每個任務(wù)的機器學(xué)習(xí)效果。遷移學(xué)習(xí)目的是利用歷史數(shù)據(jù)或知識來幫助提高當(dāng)前相似應(yīng)用場景的分類效果。遷移學(xué)習(xí)很好地模擬了人類模仿和利用經(jīng)驗知識解決新問題的能力,是近年來非常熱的研究方向,并被譽為下一代機器學(xué)習(xí)的前沿技術(shù)。
6.連接主義學(xué)習(xí)與深度學(xué)習(xí)。人工神經(jīng)網(wǎng)絡(luò)一直是機器學(xué)習(xí)的一個重要方向,其基本思想是模擬人腦神經(jīng)元行為,構(gòu)造出人工神經(jīng)網(wǎng)絡(luò)模型,以用來完成對未知樣本的預(yù)測。以人工神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、遺傳優(yōu)化[6,7]為基礎(chǔ),甚至形成了計算智能子學(xué)科。自2010年以來,人們通過將數(shù)據(jù)的多層表達(dá)與分類決策過程分離,依據(jù)快速的多層數(shù)據(jù)表達(dá)學(xué)習(xí),形成了高達(dá)成千上萬層的神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法。深度學(xué)習(xí)[1,7]在圖像分類、文本分類、語音識別的高效應(yīng)用中獲得了工業(yè)界的廣泛青睞。典型的工作包括深度置信神經(jīng)網(wǎng)絡(luò)和深度卷積神經(jīng)網(wǎng)絡(luò)及其學(xué)習(xí)方法。
三、基于機器學(xué)習(xí)的圖書信息資源數(shù)據(jù)庫建設(shè)與重構(gòu)
人工智能,特別是深度學(xué)習(xí)為圖書情報學(xué)帶來了新的機遇和挑戰(zhàn)。無疑,也為圖書信息資源數(shù)據(jù)庫的建設(shè)與重構(gòu)智能注入了新思路、新理念、新功能。我校作為輕工行業(yè)的明珠,數(shù)十年來的發(fā)展已積累了大量的輕工信息資源。近年來,我們學(xué)校圖書館圍繞輕工信息資源建設(shè),已自建了不少輕工信息資源數(shù)據(jù)庫,在一定程度上為師生提供了教學(xué)與研究上的便利。但我們也認(rèn)為,有必要運用機器學(xué)習(xí)技術(shù)對其進行智能化的建設(shè)和重構(gòu)。
1.基于機器學(xué)習(xí)的自有輕工信息資源數(shù)據(jù)庫的重構(gòu)。近年來,我們陸續(xù)自建了輕工信息資源數(shù)據(jù)庫、輕紡研究生論文資源等數(shù)種數(shù)據(jù)庫。應(yīng)該說,我們目前的輕工信息資源數(shù)據(jù)庫建設(shè)是圍繞原有輕工信息資源而進行的二次梳理和利用。在這個過程中,我們認(rèn)為,下一步可以依據(jù)機器學(xué)習(xí)技術(shù)幫助對現(xiàn)有信息資源數(shù)據(jù)庫進行智能化建設(shè)。
一方面,首先針對現(xiàn)有的自建數(shù)據(jù)庫以及購買的電子和紙質(zhì)的輕工信息資源進行充分整理,基于輕工領(lǐng)域化的文本數(shù)據(jù),首先構(gòu)造輕工領(lǐng)域的詞匯、術(shù)語和實體資源,結(jié)合現(xiàn)有各種機器學(xué)習(xí)模型,特別是支撐向量和深度學(xué)習(xí)方法,實現(xiàn)對輕工信息文本的分詞、詞性標(biāo)記、識別、實體關(guān)系表達(dá),從而實現(xiàn)對輕工信息資源的有效組織、整合與挖掘。然后,通過淺層句法關(guān)系、深層句法及語義關(guān)系、語義自動分析、篇章結(jié)構(gòu)的計算,從而從現(xiàn)有輕工信息資源的文本中智能地挖掘出詞匯層面、實體層面、篇章層面等多個層面(側(cè)面)的知識,以構(gòu)建知識庫。最后,利用可視化和虛擬現(xiàn)實技術(shù),對我校現(xiàn)有輕工信息資源進行活靈活現(xiàn)的展現(xiàn),以輕工信息資源的價值吸引讀者使用,提高自建輕工信息資源數(shù)據(jù)庫的服務(wù)水平。
另一方面,我們可以運用機器學(xué)習(xí)技術(shù)對先有自建輕工信息資源數(shù)據(jù)庫本身的內(nèi)容進行不斷的智能化調(diào)整和優(yōu)化。我們可以運用于大數(shù)據(jù)的深度學(xué)習(xí)技術(shù),精準(zhǔn)分析我校輕工學(xué)科的用戶要求;可以依據(jù)圖像識別、語音識別、自然語言處理與智能檢索等技術(shù)對當(dāng)前輕工文獻(xiàn)中的知識內(nèi)容進行不間斷的基于語義的智能標(biāo)引、智能摘要、學(xué)科導(dǎo)航、知識構(gòu)建等知識組織,從而對先有自建數(shù)據(jù)庫內(nèi)容進行動態(tài)的綜合評價,然后根據(jù)評價結(jié)果,對自建數(shù)據(jù)庫內(nèi)容安排與格式進行動態(tài)優(yōu)化調(diào)整,以便當(dāng)前這些數(shù)據(jù)庫能更好地面向我校輕工一流學(xué)科建設(shè)。
2.基于機器學(xué)習(xí)的輕工信息資源庫的購置與建設(shè)。應(yīng)該說,我們圖書館已有的紙質(zhì)信息資源和電子信息資源是自建輕工信息資源數(shù)據(jù)庫的物質(zhì)基礎(chǔ)。自建的輕工信息資源數(shù)據(jù)庫是在其基礎(chǔ)上的再組織和開發(fā)。當(dāng)前,圖書館按照信息資源的采購、組織和書庫管理,與用戶、出版社、書商、資源商、電商、物流進行業(yè)務(wù)對接或數(shù)據(jù)共享。我們可以基于大數(shù)據(jù)的深度學(xué)習(xí)技術(shù)精準(zhǔn)分析我校輕工學(xué)科的用戶要求,從而協(xié)助館員在選購各種有效的輕工信息資源,并自動完成訂購業(yè)務(wù)管理、驗收登記、經(jīng)費管理等相關(guān)的統(tǒng)計分析。還可以基于大數(shù)據(jù)的深度學(xué)習(xí)分析技術(shù),探討輕工信息資源的分析和館藏的合理布局。
3.基于機器學(xué)習(xí)的輕工信息資源數(shù)據(jù)庫的服務(wù)。一方面,基于我們學(xué)校圖書館館藏的輕工信息資源以及自建的輕工信息資源數(shù)據(jù)庫和輕工學(xué)科用戶大數(shù)據(jù)分析及機器學(xué)習(xí)的知識挖掘,精準(zhǔn)策劃和舉辦閱讀推廣、閱讀交流等,提高為師生服務(wù)的質(zhì)量。以讀者為中心,構(gòu)建智能問答系統(tǒng),即運用機器學(xué)習(xí)特別是深度學(xué)習(xí)技術(shù),實現(xiàn)對提問的精準(zhǔn)分類和多層面的子句分析,并能根據(jù)現(xiàn)有輕工信息資源以及讀者行為記錄,回答問題和智能推介信息資源,從而推動面向師生的輕工信息資源服務(wù)向智能化邁進。另一方面,自建的輕工信息資源數(shù)據(jù)庫服務(wù)也要以學(xué)科帶頭人為面向,基于輕工學(xué)科老師的服務(wù)數(shù)據(jù)和個人需求及行為偏好,有針對性地建設(shè)和豐富現(xiàn)有信息資源數(shù)據(jù)庫;結(jié)合館藏信息資源,開展信息資源整合與集成等個性化檢索和智能定制與推送等服務(wù),為學(xué)科帶頭人提供特色服務(wù),節(jié)約他們寶貴的時間,提升服務(wù)的準(zhǔn)確性。
四、結(jié)論
本文初步探討了機器學(xué)習(xí)在輕工信息資源數(shù)據(jù)庫建設(shè)與服務(wù)中的應(yīng)用。事實上,兩者的結(jié)合點還有很多。對圖書館工作者來說,研究此方面的課題是一項機遇,也是挑戰(zhàn)。隨著人工智能熱潮的演進,我們相信機器學(xué)習(xí)成果在圖書館學(xué)中的應(yīng)用,將助推圖書信息資源數(shù)據(jù)庫的建設(shè)與服務(wù)迅速地向智能化邁進。
參考文獻(xiàn)
[1]Lecun Y, Bengio Y, Hinton G, Deep learning. Nature,2015,521 (7553):436-444.
[2]李莘.國內(nèi)高校圖書館資源發(fā)現(xiàn)服務(wù)系統(tǒng)的應(yīng)用現(xiàn)狀及比較研究[J].河南圖書館學(xué)刊,2018,38(6):79-81.
[3]曹樹金,王志紅.高校圖書館資源發(fā)現(xiàn)系統(tǒng)創(chuàng)新擴散機制研究[J].圖書情報研究,2016(1):23-29.
[4]劉洋.我國高校圖書館資源發(fā)現(xiàn)系統(tǒng)現(xiàn)狀調(diào)查:以“985工程”院校為例[J].河北科技圖苑,2016(4):86 -90.
[5]王浩然.面向?qū)W科服務(wù)的高校圖書館資源發(fā)現(xiàn)系統(tǒng)應(yīng)用研究[J].圖書館學(xué)刊,2016(8):49-52.
[6]李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[7]周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.