原小玲,王 紅
(1.太原科技大學(xué) 圖書館,山西 太原 030024;2.山西財(cái)經(jīng)大學(xué) 圖書館,山西 太原 030006)
圖書采訪是在機(jī)構(gòu)文獻(xiàn)資源建設(shè)政策指導(dǎo)下進(jìn)行的,它的重要特征是遵循館藏發(fā)展政策框架,保證館藏結(jié)構(gòu)的科學(xué)性、連續(xù)性、穩(wěn)定性和實(shí)用性。科學(xué)性表現(xiàn)為館藏結(jié)構(gòu)的合理性,連續(xù)性表現(xiàn)為機(jī)構(gòu)的館藏建設(shè)在縱向時(shí)間維度上的一貫性,穩(wěn)定性表現(xiàn)為對(duì)同一學(xué)科館藏資源收藏的連貫性,實(shí)用性表現(xiàn)為機(jī)構(gòu)館藏在廣度上對(duì)用戶的滿足程度。圖書采訪的質(zhì)量決定圖書館文獻(xiàn)資源建設(shè)質(zhì)量,關(guān)系到圖書館服務(wù)用戶的能力。圖書采訪決策有歷史繼承性,即館藏歷史數(shù)據(jù)與用戶歷史數(shù)據(jù)對(duì)圖書采訪決策的影響是穩(wěn)定的?,F(xiàn)有的圖書采訪系統(tǒng)只能滿足采訪工作的流程性需要,而缺少采訪決策所需的歷史繼承性參考功能,不能用歷史館藏?cái)?shù)據(jù)與用戶數(shù)據(jù)智能指導(dǎo)采訪決策,導(dǎo)致圖書采訪主觀性高,及時(shí)矯正性差等缺點(diǎn)并未因信息化辦公而改善。
人工智能圖書采訪決策模型是在采訪原則規(guī)定下,使用人工智能技術(shù),對(duì)符合館藏建設(shè)的書目數(shù)據(jù)進(jìn)行篩選,完成圖書采訪任務(wù)。
文獻(xiàn)顯示:2004年,秦建寧等就重點(diǎn)學(xué)科建設(shè)的文獻(xiàn)保障和文獻(xiàn)采購(gòu)智能控制系統(tǒng)的開(kāi)發(fā)進(jìn)行了探討[1];馬啟華于2009年對(duì)圖書館智能采訪的論文中構(gòu)建了采訪智能決策支持系統(tǒng),這個(gè)系統(tǒng)主要是由問(wèn)題處理與人機(jī)交互系統(tǒng)、模型庫(kù)系統(tǒng)、方法庫(kù)系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)、專家系統(tǒng)構(gòu)成,基本具備了一個(gè)決策系統(tǒng)的框架[2]。2017-2018年,大數(shù)據(jù)技術(shù)與人工智能開(kāi)始進(jìn)入圖書館采訪智能系統(tǒng)建構(gòu)研究中[3-5]。
在人工智能輔助圖書采訪模型中,學(xué)習(xí)訓(xùn)練數(shù)據(jù)集是人工智能決策的核心依據(jù)。它通過(guò)對(duì)學(xué)習(xí)數(shù)據(jù)集中的各類數(shù)據(jù)分析與計(jì)算,得出采訪規(guī)則,再依這些規(guī)則對(duì)備選采訪數(shù)據(jù)進(jìn)行分析與篩選,生成符合采訪規(guī)則的訂單。在這個(gè)輔助采訪系統(tǒng)中,通過(guò)對(duì)學(xué)習(xí)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行分析與整理,得出的采訪規(guī)則自動(dòng)與備選采訪數(shù)據(jù)進(jìn)行匹配運(yùn)算,最終生成訂單。這種通過(guò)人工智能進(jìn)行的采訪工作,減少了采訪人員的人為判斷失誤與錯(cuò)漏,極大地保證了采訪規(guī)則應(yīng)用的穩(wěn)定性,從而保證了采訪工作的穩(wěn)定性。
人工智能輔助圖書采訪模型采用人工智能技術(shù),模仿人類思維方式,在分析每個(gè)讀者內(nèi)在的知識(shí)需求特征基礎(chǔ)上,根據(jù)讀者與圖書館互動(dòng)數(shù)據(jù),對(duì)讀者需求做出更加準(zhǔn)確的預(yù)測(cè);同時(shí),用館藏?cái)?shù)據(jù)、用戶數(shù)據(jù)、借閱數(shù)據(jù)以及其他相關(guān)數(shù)據(jù)對(duì)人工智能不斷訓(xùn)練和學(xué)習(xí),逐漸形成與人類認(rèn)知接近的館藏特色、采訪偏好、圖書評(píng)價(jià)的數(shù)據(jù)。最后通過(guò)科學(xué)決策工具,取得最優(yōu)化的圖書采訪效果[6]。
人工智能輔助圖書采訪決策,深入到數(shù)據(jù)內(nèi)部,對(duì)大量的數(shù)據(jù)及其關(guān)系進(jìn)行運(yùn)算,從而得出比人類個(gè)體作業(yè)穩(wěn)定性更高的采訪結(jié)論。人工智能采訪模型有利用其他統(tǒng)計(jì)與數(shù)學(xué)方法進(jìn)行輔助采訪不可比擬的優(yōu)勢(shì)。
人工智能能通過(guò)對(duì)大量數(shù)據(jù)的學(xué)習(xí)訓(xùn)練模仿人類思維。通過(guò)歷史數(shù)據(jù)分析及其關(guān)系運(yùn)算,人工智能可擁有超越人類大腦的綜合分析能力。這種能力更穩(wěn)定,更可靠。而且通過(guò)不斷更新學(xué)習(xí)數(shù)據(jù),人工智能還能及時(shí)進(jìn)行糾偏,自主調(diào)整模型參數(shù),保障結(jié)果的科學(xué)性。
人工智能優(yōu)于其他方法的一個(gè)重要表現(xiàn)是在數(shù)據(jù)輸入層與數(shù)據(jù)輸出層之間,利用神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行數(shù)據(jù)特征處理,在處理差異性較大、維度較高的數(shù)據(jù)方面具有優(yōu)異表現(xiàn)。
人工智能圖書采訪模型以上兩種能力的獲得依靠的是強(qiáng)大的數(shù)據(jù)支撐。學(xué)習(xí)訓(xùn)練集就是這些數(shù)據(jù)的存儲(chǔ)所在。在人工智能輔助采訪決策中,這些數(shù)據(jù)主要是在人工智能進(jìn)行學(xué)習(xí)訓(xùn)練中的歷史數(shù)據(jù)與其他相關(guān)數(shù)據(jù)。人工智能圖書采訪模型構(gòu)建中,學(xué)習(xí)訓(xùn)練集中的數(shù)據(jù)包括歷史數(shù)據(jù)與其他數(shù)據(jù)兩大類。歷史數(shù)據(jù)包括館藏?cái)?shù)據(jù)、用戶數(shù)據(jù),其他數(shù)據(jù)包括主題詞庫(kù)數(shù)據(jù)、出版社數(shù)據(jù)、館藏政策數(shù)據(jù)、專業(yè)作者數(shù)據(jù)等。
歷史數(shù)據(jù)包括館藏?cái)?shù)據(jù)和用戶數(shù)據(jù)。對(duì)這些數(shù)據(jù)以及它們之間的關(guān)系進(jìn)行分析,是構(gòu)建人工智能采訪決策模型前期重要的基礎(chǔ)數(shù)據(jù)工作。模型的學(xué)習(xí)訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)需要持續(xù)更新。
2.1.1 館藏?cái)?shù)據(jù)
館藏?cái)?shù)據(jù)主要指館藏書目數(shù)據(jù)。館藏?cái)?shù)據(jù)是館藏圖書的描述數(shù)據(jù),即館藏的 MARC 數(shù)據(jù)。它由兩部分組成,一部分是書目數(shù)據(jù)信息,主要包括題名信息、責(zé)任者信息、分類主題信息、ISBN號(hào)、叢編、出版社及出版時(shí)間等出版信息;一部分是館藏?cái)?shù)據(jù)信息,主要包括入藏?cái)?shù)量、入庫(kù)時(shí)間、流通次數(shù)、流通時(shí)間等基本信息。
2.1.2 用戶數(shù)據(jù)
用戶數(shù)據(jù)主要指用戶信息與用戶借閱信息,即用戶的個(gè)人職業(yè)與專業(yè)信息、借閱圖書與時(shí)間信息等。廣義的用戶資源的信息,主要有查詢數(shù)據(jù)、借還數(shù)據(jù)、薦購(gòu)數(shù)據(jù)、開(kāi)架閱覽數(shù)據(jù)等。但實(shí)際在人工智能設(shè)計(jì)中,由于數(shù)據(jù)的不可搜集性,可用的用戶數(shù)據(jù)不包括開(kāi)架閱覽數(shù)據(jù)。
2.1.3 歷史數(shù)據(jù)特點(diǎn)
這些館藏?cái)?shù)據(jù)與用戶數(shù)據(jù)都是結(jié)構(gòu)化數(shù)據(jù),方便用于人工智能系統(tǒng)的學(xué)習(xí)訓(xùn)練集構(gòu)建。均可采用有標(biāo)簽訓(xùn)練方式,分別按照字段名稱單獨(dú)設(shè)置標(biāo)簽,生成獨(dú)立的訓(xùn)練集和測(cè)試集文件,用來(lái)學(xué)習(xí)和訓(xùn)練館藏偏好與特征網(wǎng)絡(luò)模型、讀者需求模型以及采訪人員偏好模型,同時(shí)也用來(lái)檢測(cè)和訓(xùn)練圖書智能評(píng)估模型的參數(shù)[6]。同時(shí),通過(guò)對(duì)館藏?cái)?shù)據(jù)與用戶數(shù)據(jù)進(jìn)行擬合,發(fā)現(xiàn)它們之間的吻合程度。
其他數(shù)據(jù)可以看作是歷史數(shù)據(jù)的具體化與補(bǔ)充。包括主題詞庫(kù)數(shù)據(jù)、出版社數(shù)據(jù)、館藏政策數(shù)據(jù)、專業(yè)作者數(shù)據(jù)等。
主題詞庫(kù)數(shù)據(jù)是學(xué)習(xí)訓(xùn)練集中重要的組成部分。分類主題詞表是其最權(quán)威的來(lái)源。館藏書目數(shù)據(jù)與出版社數(shù)據(jù)、館藏政策數(shù)據(jù)、專業(yè)作者數(shù)據(jù)等其他數(shù)據(jù)都要與主題數(shù)據(jù)建立關(guān)聯(lián),才能為人工智能采訪模型使用。主題詞庫(kù)建設(shè)以本館收藏類目為指導(dǎo),由分類主題詞表導(dǎo)入相關(guān)部分,本館收藏不涉及的類目主題詞可不導(dǎo)入,以減少冗余。
各出版社都有自己的特長(zhǎng)出版,出版社數(shù)據(jù)指出版社各出版方向涉及的主題詞。出版時(shí)間數(shù)據(jù)是另一個(gè)重要的出版數(shù)據(jù)??傮w而言,選擇最新出版的圖書是采訪的基本原則。但對(duì)一些基礎(chǔ)專業(yè)而言,出版時(shí)間不是采訪的重要指標(biāo)。
館藏政策數(shù)據(jù)是指館藏政策中規(guī)定的本館收藏類別及其收藏級(jí)別對(duì)應(yīng)的數(shù)據(jù)。收藏級(jí)別,分為從不收藏到完整級(jí)共分為0-5五個(gè)等級(jí)[7]。各類別圖書根據(jù)收藏級(jí)別的不同,對(duì)應(yīng)的分類級(jí)別及其主題類別也有不同。
專業(yè)作者數(shù)據(jù)是指在收藏范圍內(nèi)的各專業(yè)中的必收作者數(shù)據(jù)。對(duì)于專業(yè)研究來(lái)說(shuō),長(zhǎng)江學(xué)者、千人計(jì)劃、青年學(xué)者、省級(jí)以上學(xué)術(shù)帶頭人、國(guó)家級(jí)項(xiàng)目承擔(dān)人等各類專業(yè)榮譽(yù)獲得者、專業(yè)研究骨干等,都應(yīng)列入專業(yè)作者數(shù)據(jù)。并建立作者姓名與專業(yè)領(lǐng)域的關(guān)聯(lián),避免不同專業(yè)同名作者的混淆情況發(fā)生。
館藏?cái)?shù)據(jù)、用戶數(shù)據(jù)、主題詞庫(kù)數(shù)據(jù)、出版社數(shù)據(jù)、館藏政策數(shù)據(jù)、專業(yè)作者數(shù)據(jù)等數(shù)據(jù)構(gòu)成了數(shù)據(jù)集的主要內(nèi)容。這些數(shù)據(jù)既是獨(dú)立的,又是相互關(guān)聯(lián)的。館藏?cái)?shù)據(jù)中包含了館藏書目的主題詞、出版社、作者等數(shù)據(jù)信息;廣義的用戶數(shù)據(jù)通過(guò)其借閱數(shù)據(jù)、查詢數(shù)據(jù)、薦購(gòu)數(shù)據(jù)等體現(xiàn)館藏?cái)?shù)據(jù)與用戶需求的主題數(shù)據(jù)。尤其是在館藏政策數(shù)據(jù)中,由于館藏設(shè)計(jì)集中體現(xiàn)了對(duì)服務(wù)對(duì)象的服務(wù)深度與廣度,它事實(shí)上同時(shí)包含了用戶數(shù)據(jù)總特征與館藏?cái)?shù)據(jù)總特征。即館藏政策就是針對(duì)服務(wù)對(duì)象制定的,因此它包含了用戶數(shù)據(jù)總特征;針對(duì)用戶特征制定的學(xué)科及其主題所屬分類也不同。
2.4.1 糾正主觀館藏偏好
館藏?cái)?shù)據(jù)體現(xiàn)館藏偏好,宏觀上它取決于館藏發(fā)展政策的規(guī)定,實(shí)操中它受采訪人員個(gè)人偏好與其整體知識(shí)結(jié)構(gòu)等因素的影響。在學(xué)習(xí)訓(xùn)練中通過(guò)提取館藏書目數(shù)據(jù)主題詞與分類號(hào),可以生成本館的客觀館藏偏好模型??陀^館藏偏好體現(xiàn)的是館藏應(yīng)有的偏好,它與館藏政策相一致。通過(guò)館藏實(shí)際數(shù)據(jù)與館藏客觀偏好進(jìn)行擬合,得出館藏偏差,從而作為采訪糾偏依據(jù)。也可將用戶借閱數(shù)據(jù)與館藏?cái)?shù)據(jù)進(jìn)行擬合,得出需求與資源間的吻合度,人工分析后,進(jìn)行館藏糾偏或用戶行為引導(dǎo)。
2.4.2 保障館藏結(jié)構(gòu)與品質(zhì)穩(wěn)定
智能采訪目的是減少人工采訪的偏差與失誤,從而保證館藏結(jié)構(gòu)與品質(zhì)的穩(wěn)定。人工智能采訪通過(guò)對(duì)各類數(shù)據(jù)進(jìn)行整合排序,并建立關(guān)聯(lián),再進(jìn)行權(quán)值計(jì)算,深度學(xué)習(xí),進(jìn)而實(shí)現(xiàn)符合館藏發(fā)展政策的客觀采訪。
在對(duì)人工智能進(jìn)行訓(xùn)練的數(shù)據(jù)集中,館藏政策主要通過(guò)主題與分類數(shù)據(jù)體現(xiàn)。比之于其他數(shù)據(jù),主題與分類數(shù)據(jù)是在表現(xiàn)館藏結(jié)構(gòu)中最重要的數(shù)據(jù)。它們?cè)诒U橡^藏的學(xué)科結(jié)構(gòu)中起到了引導(dǎo)作用。
出版社數(shù)據(jù)與專業(yè)作者數(shù)據(jù)則是保證館藏品質(zhì)的重要數(shù)據(jù)。這些數(shù)據(jù)需要實(shí)時(shí)維護(hù),以跟蹤最新的出版與學(xué)科發(fā)展,最大限度地彌補(bǔ)采訪人員知識(shí)結(jié)構(gòu)的不足,保障館藏品質(zhì)。
學(xué)習(xí)訓(xùn)練集不僅要存儲(chǔ)數(shù)據(jù),還要對(duì)數(shù)據(jù)進(jìn)行處理,作為人工智能采訪判斷的依據(jù)。模型設(shè)計(jì)中,首先根據(jù)歷年館藏與經(jīng)費(fèi)情況,設(shè)置閾值。當(dāng)經(jīng)費(fèi)低于該值時(shí),按綜合測(cè)算的單冊(cè)圖書均價(jià)測(cè)算出的可購(gòu)圖書數(shù)量也會(huì)低于某個(gè)值。同時(shí)就會(huì)按優(yōu)先級(jí)啟動(dòng)使用其他數(shù)據(jù)。
首先啟動(dòng)的是館藏政策數(shù)據(jù),對(duì)館藏政策轉(zhuǎn)換后的主題詞進(jìn)行優(yōu)先級(jí)設(shè)定,作為智能采訪一級(jí)依據(jù)。此時(shí),在智能篩選圖書時(shí),對(duì)于適合本館入藏的圖書,將主題詞限定到較低級(jí)次,即更具體,更專業(yè);而對(duì)非本館適合入藏圖書,將其主題詞與其他篩選判斷詞設(shè)定為禁用或低權(quán)值使用。以保證經(jīng)費(fèi)不足時(shí)適合本館的圖書采選充足。
將同一出版方向按出版專長(zhǎng)至少對(duì)十家出版社進(jìn)行排序,給出優(yōu)先級(jí),作為智能采訪中同主題出版篩選的依據(jù)。出版時(shí)間的優(yōu)先級(jí)設(shè)置要視專業(yè)而定,不可一概而論。一般而言,將出版社、出版年等輔助篩選指標(biāo)按初始排序進(jìn)行自后而前的截?cái)噙x取,只選取出版更專業(yè)、出版時(shí)間更新的目錄數(shù)據(jù)。
為保證專業(yè)優(yōu)質(zhì)圖書,專業(yè)作者數(shù)據(jù)是智能采訪更精準(zhǔn)的保障。
用戶數(shù)據(jù)是需求驅(qū)動(dòng)型采訪模型的重要依據(jù)。雖然用戶需求數(shù)據(jù)受館藏?cái)?shù)據(jù)制約,即用戶只能在館藏內(nèi)進(jìn)行選擇借閱,可獲得的結(jié)構(gòu)性用戶數(shù)據(jù)也不能全面反映用戶需求,但這種借閱數(shù)據(jù)體現(xiàn)的是用戶的深度閱讀需求,是明顯需求,強(qiáng)需求,有相當(dāng)?shù)拇硇?可以設(shè)置為優(yōu)先級(jí)別最高的需求。
3.2.1 使用并分析長(zhǎng)期數(shù)據(jù)
進(jìn)行人工智能學(xué)習(xí)訓(xùn)練需要大量數(shù)據(jù)。只使用三到五年的數(shù)據(jù),不足以對(duì)人工智能進(jìn)行精準(zhǔn)訓(xùn)練。至少應(yīng)該使用十年數(shù)據(jù)進(jìn)行訓(xùn)練。因?yàn)闅v史數(shù)據(jù)只代表過(guò)去,所以要不斷補(bǔ)充新數(shù)據(jù),使用的數(shù)據(jù)時(shí)間段越長(zhǎng),人工智能得到的訓(xùn)練越精準(zhǔn)。這樣才能對(duì)新的館藏進(jìn)行擬合,發(fā)現(xiàn)模型中的問(wèn)題,對(duì)模型進(jìn)行改進(jìn)。同時(shí),掌握新的用戶需求,將其與館藏進(jìn)行擬合,人工分析后,進(jìn)行館藏糾偏或用戶行為引導(dǎo)。
3.2.2 數(shù)據(jù)要保持更新
學(xué)習(xí)訓(xùn)練集數(shù)據(jù)要隨館藏發(fā)展政策的變化、用戶需求的變化、出版重點(diǎn)的變化而變化,才能保證人工智能的深度學(xué)習(xí)保持同步。因此,要及時(shí)增補(bǔ)修訂各類數(shù)據(jù)。在用戶數(shù)據(jù)增補(bǔ)時(shí)要注意,對(duì)于一些圖書館管理系統(tǒng)而言,讀者數(shù)據(jù)在讀者注銷以后,與之相關(guān)的個(gè)人信息和流通記錄,也隨之刪除。因此用戶數(shù)據(jù)導(dǎo)入學(xué)習(xí)訓(xùn)練集應(yīng)根據(jù)管理系統(tǒng)工作規(guī)程選擇好時(shí)機(jī),保證新數(shù)據(jù)及時(shí)進(jìn)入。對(duì)于出版數(shù)據(jù)要關(guān)注出版特長(zhǎng)變化,及時(shí)修訂調(diào)整。專業(yè)作者數(shù)據(jù)的更新速度是其他數(shù)據(jù)中更新最頻繁的一類數(shù)據(jù),因此要對(duì)專業(yè)領(lǐng)域新人出現(xiàn)要持續(xù)關(guān)注,及時(shí)增補(bǔ)數(shù)據(jù)。
3.2.3 歷史數(shù)據(jù)不穩(wěn)定性
在館藏建設(shè)中,一些非穩(wěn)定因素會(huì)對(duì)館藏?cái)?shù)據(jù)有重大影響。如評(píng)估階段出現(xiàn)的垃圾圖書,超高復(fù)本圖書等情況,都不是符合館藏發(fā)展政策的,也不是采訪人員個(gè)人因素。這些臨時(shí)因素造成的館藏偏差作為歷史數(shù)據(jù)進(jìn)入學(xué)習(xí)訓(xùn)練集,會(huì)產(chǎn)生錯(cuò)誤的訓(xùn)練結(jié)果。一定要對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行排除。
在借閱數(shù)據(jù)中也要注意此類問(wèn)題。有些館在新館搬遷、舊館改造中,為了工作方便,會(huì)鼓勵(lì)讀者多借書。此時(shí)生成的借閱數(shù)據(jù)也不可以進(jìn)入學(xué)習(xí)訓(xùn)練集。
3.2.4 歷史數(shù)據(jù)的不全面性
在館藏?cái)?shù)據(jù)與用戶數(shù)據(jù)使用中,要對(duì)其不全面性有明確認(rèn)識(shí)。圖書館在系統(tǒng)更換或存儲(chǔ)設(shè)備更換時(shí),可能出現(xiàn)數(shù)據(jù)丟失或不完整的情況,對(duì)于此類歷史數(shù)據(jù)缺失要有必要的了解,如可能是哪些年度或類別的數(shù)據(jù)不能使用,要予以人工矯正。
在用戶數(shù)據(jù)使用中,對(duì)于大部分圖書館管理系統(tǒng)來(lái)說(shuō),用戶流通數(shù)據(jù)只是借閱數(shù)據(jù),而無(wú)瀏覽數(shù)據(jù),而這些瀏覽數(shù)據(jù)相當(dāng)于購(gòu)物平臺(tái)的對(duì)商品點(diǎn)擊查看而非下單數(shù)據(jù),這些數(shù)據(jù)對(duì)于預(yù)測(cè)讀者偏好有重要的參考作用,但由于其不可搜集性導(dǎo)致學(xué)習(xí)訓(xùn)練集中該類數(shù)據(jù)的缺失,在使用模型生成的采訪訂單時(shí)予以必要的人工干預(yù)。
學(xué)習(xí)訓(xùn)練集是人工智能采訪深度學(xué)習(xí)的重要依據(jù)。對(duì)學(xué)習(xí)訓(xùn)練集中的各類數(shù)據(jù)數(shù)據(jù)以主題詞數(shù)據(jù)為核心,建立相互關(guān)聯(lián),是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的素材。學(xué)習(xí)訓(xùn)練集構(gòu)建中要注意數(shù)據(jù)的科學(xué)合理使用,運(yùn)行中要注意數(shù)據(jù)的維護(hù),并對(duì)其不完整性帶來(lái)的局限有充分認(rèn)識(shí)。