摘 要:設(shè)計(jì)更符合紀(jì)錄片文獻(xiàn)資源特征的元數(shù)據(jù)對(duì)圖書館紀(jì)錄片文獻(xiàn)資源管理有著重要的意義。文章基于廣州圖書館開展紀(jì)錄片公共文化服務(wù)和紀(jì)錄片文獻(xiàn)資源管理多年的工作實(shí)踐積累,分析了圖書館紀(jì)錄片文獻(xiàn)資源應(yīng)用元數(shù)據(jù)的現(xiàn)狀,從紀(jì)錄片文獻(xiàn)資源元數(shù)據(jù)的特征出發(fā),結(jié)合現(xiàn)行的有關(guān)規(guī)范與標(biāo)準(zhǔn),設(shè)計(jì)并提出了一種新的圖書館紀(jì)錄片文獻(xiàn)資源元數(shù)據(jù)格式。廣州圖書館在元數(shù)據(jù)設(shè)計(jì)中創(chuàng)新性地將人工智能技術(shù)引入文獻(xiàn)的著錄和知識(shí)描述,為圖書館紀(jì)錄片文獻(xiàn)資源元數(shù)據(jù)管理和創(chuàng)新提供了新的思路與參考。
關(guān)鍵詞:元數(shù)據(jù);圖書館;紀(jì)錄片文獻(xiàn);人工智能
中圖分類號(hào):G254 文獻(xiàn)標(biāo)識(shí)碼:A
Research on the Metadata Design of Library Documentary Resources: A Case Study of Guangzhou Library
Abstract Designing metadata that better reflects the characteristics of documentary resources is of significant importance for the management of library documentary collections. Based on years of practical experience in public cultural services and documentary resource management at Guangzhou Library, this article analyzes the current state of metadata application in library documentary resources. Beginning with the characteristics of documentary metadata, and in combination with existing relevant standards and guidelines, the article proposes a new metadata format for library documentary resources. Guangzhou Library has innovatively integrated artificial intelligence technology into the cataloging and knowledge description of documentary metadata, offering new insights and references for the management and innovation of metadata in library documentary collections.
Key words Metadata; Libraries; Documentary Resources; Artificial Intelligence
紀(jì)錄片作為圖書館的一種重要文獻(xiàn)資源,承載著深厚的文化價(jià)值、教育價(jià)值以及社會(huì)價(jià)值。隨著人民群眾對(duì)高品質(zhì)文化需求的進(jìn)一步提升,他們對(duì)紀(jì)錄片服務(wù)的要求也在不斷攀升,做好紀(jì)錄片文獻(xiàn)服務(wù)與管理對(duì)圖書館工作有著重要的意義。因紀(jì)錄片的信息組織方式迥異于其他類型的文獻(xiàn),以傳統(tǒng)的元數(shù)據(jù)格式難以滿足其管理需求。如何構(gòu)建更適合紀(jì)錄片的元數(shù)據(jù)格式,以實(shí)現(xiàn)對(duì)圖書館紀(jì)錄片資源的規(guī)范描述和科學(xué)管理,已經(jīng)成為當(dāng)前圖書館界亟待解決的問題。
1 圖書館紀(jì)錄片文獻(xiàn)資源應(yīng)用元數(shù)據(jù)現(xiàn)狀
1.1 采用面向文獻(xiàn)單元的元數(shù)據(jù)
面向文獻(xiàn)單元的元數(shù)據(jù)是最早出現(xiàn)的元數(shù)據(jù),它重點(diǎn)關(guān)注對(duì)文獻(xiàn)外部特征的揭示與表達(dá)。目前,我國(guó)圖書館針對(duì)紀(jì)錄片文獻(xiàn)資源的描述工具仍多采用這種元數(shù)據(jù),如中國(guó)機(jī)讀目錄(CNMARC)等。廣州圖書館的書刊文獻(xiàn)和部分音像制品的紀(jì)錄片文獻(xiàn)依然采用這種傳統(tǒng)的著錄方式。這種元數(shù)據(jù)描述工具側(cè)重于實(shí)現(xiàn)書目信息的數(shù)字化,其特點(diǎn)是便于數(shù)據(jù)庫(kù)存儲(chǔ)和利于采用信息系統(tǒng)對(duì)MARC書目信息的管理與訪問。然而,這種單維度、高結(jié)構(gòu)化及多字段的特點(diǎn),在數(shù)字環(huán)境下的通用性和語義揭示性較差,使其無法對(duì)多媒體形式的紀(jì)錄片文獻(xiàn)資源進(jìn)行精準(zhǔn)描述和管理。
1.2 采用面向數(shù)據(jù)單元的元數(shù)據(jù)
隨著數(shù)據(jù)科學(xué)與數(shù)據(jù)庫(kù)技術(shù)的不斷進(jìn)步,面向數(shù)據(jù)單元的元數(shù)據(jù)應(yīng)運(yùn)而生,它采用形式化語言對(duì)資源內(nèi)的知識(shí)進(jìn)行著錄。目前,這類元數(shù)據(jù)最具代表性的是都柏林核心元素集(Dublin Core, DC),此外還有種類繁多的行業(yè)元數(shù)據(jù)。廣州圖書館館藏的數(shù)字化影音文獻(xiàn)資源普遍采用了這種元數(shù)據(jù)。這種元數(shù)據(jù)可以全面地描述數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)集的各種特征和屬性,包括數(shù)據(jù)來源、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)質(zhì)量等關(guān)鍵信息。盡管這種元數(shù)據(jù)在很大程度上彌補(bǔ)了面向文獻(xiàn)單元的元數(shù)據(jù)的缺陷,降低了資源屬性描述的專業(yè)門檻以及對(duì)編目人員專業(yè)素養(yǎng)的要求,但在其應(yīng)用中,仍存在一些核心數(shù)據(jù)集字段定義不夠準(zhǔn)確的問題,從廣州圖書館紀(jì)錄片文獻(xiàn)資源的管理實(shí)踐來看,這種元數(shù)據(jù)的適用性并不理想。
1.3 采用面向知識(shí)單元的元數(shù)據(jù)
圖書情報(bào)學(xué)界一直致力于尋求一種能夠揭示文獻(xiàn)語義特征的面向知識(shí)單元的元數(shù)據(jù)。新一代人工智能技術(shù)的不斷發(fā)展,為面向知識(shí)單元的元數(shù)據(jù)發(fā)展提供了更多的技術(shù)可能性。這種元數(shù)據(jù)聚焦于信息資源語義描述、揭示與整合,以語義網(wǎng)絡(luò)技術(shù)為基礎(chǔ),通常由描述結(jié)構(gòu)的可擴(kuò)展標(biāo)記語言(Extensible Markup Language, XML)、表達(dá)語義的資源描述框架(Resource Description Framework, RDF)和表示本體的網(wǎng)絡(luò)本體語言(Web Ontology Language, OWL)構(gòu)成。廣州圖書館在紀(jì)錄片文獻(xiàn)資源管理中,將智能檢索、自然語言處理和語義網(wǎng)絡(luò)分析等技術(shù)相結(jié)合,以XML為基礎(chǔ)并采用RDF和OWL架構(gòu),對(duì)紀(jì)錄片文獻(xiàn)進(jìn)行知識(shí)描述,探索了一種面向知識(shí)單元的元數(shù)據(jù)。廣州圖書館還在這種元數(shù)據(jù)中創(chuàng)新性地引入深度學(xué)習(xí)圖卷積神經(jīng)網(wǎng)絡(luò)技術(shù),對(duì)文獻(xiàn)知識(shí)單元和文獻(xiàn)內(nèi)容進(jìn)行智能信息抽取、細(xì)顆粒度處理及智能分類匯聚。經(jīng)驗(yàn)證,相應(yīng)元數(shù)據(jù)信息均具有較高的準(zhǔn)確性、覆蓋性和魯棒性[1]。廣州圖書館已采用這種元數(shù)據(jù)對(duì)大量館藏的中國(guó)(廣州)國(guó)際紀(jì)錄片節(jié)文獻(xiàn)資源進(jìn)行編目,顯著提高了管理效率,更好地滿足了讀者對(duì)紀(jì)錄片文獻(xiàn)的深層次需求。
2 紀(jì)錄片文獻(xiàn)資源元數(shù)據(jù)的特征
2.1 內(nèi)容結(jié)構(gòu)的特殊性
紀(jì)錄片文獻(xiàn)資源在內(nèi)容呈現(xiàn)形式及內(nèi)容組織結(jié)構(gòu)方式上與圖書館傳統(tǒng)文獻(xiàn)存在顯著差異。紀(jì)錄片作為一種多媒體形式的文獻(xiàn),是以幀為最小單元,進(jìn)而組成鏡頭、場(chǎng)景和片段,最后由片段構(gòu)成節(jié)目,資料內(nèi)容和敘事結(jié)構(gòu)靈活多變,還具有更加復(fù)雜的關(guān)聯(lián)信息。元數(shù)據(jù)設(shè)計(jì)必須充分考量這種內(nèi)容結(jié)構(gòu)的特殊性。除了基礎(chǔ)的描述性元數(shù)據(jù),還應(yīng)包括由節(jié)目、片段、場(chǎng)景以及鏡頭依次向下嵌套進(jìn)行描述的結(jié)構(gòu)性元數(shù)據(jù)。由于紀(jì)錄片之間的相互引用,一個(gè)紀(jì)錄片的片段、場(chǎng)景或鏡頭可能出現(xiàn)在多部作品中,形成了復(fù)雜的關(guān)聯(lián)網(wǎng)絡(luò)。這種關(guān)聯(lián)不僅涉及視覺元素,還包括背后的故事、人物、時(shí)間線等多維度的信息。在元數(shù)據(jù)著錄中構(gòu)建完善的關(guān)聯(lián)數(shù)據(jù)框架能夠系統(tǒng)地組織和描述這些數(shù)據(jù)之間的關(guān)系,使數(shù)據(jù)的結(jié)構(gòu)性更加明晰。
2.2 信息描述的動(dòng)態(tài)性
相較于圖書館傳統(tǒng)書籍文獻(xiàn),紀(jì)錄片文獻(xiàn)資源的元數(shù)據(jù)具有更加顯著的動(dòng)態(tài)特性,其信息內(nèi)容、信息元素和信息組織變更頻次更高。例如,廣州圖書館在著錄人物信息時(shí),建立了對(duì)應(yīng)的人物信息庫(kù),動(dòng)態(tài)更新元數(shù)據(jù)中人物的名稱、身份、履歷及人物關(guān)聯(lián)等信息。這種動(dòng)態(tài)性的元數(shù)據(jù),確保了紀(jì)錄片文獻(xiàn)著錄的時(shí)效性和靈活性,確保讀者能夠與時(shí)俱進(jìn)獲取到文獻(xiàn)最新狀態(tài)和最具時(shí)效價(jià)值的信息。為了更好地管理和控制這種動(dòng)態(tài)性,廣州圖書館在元數(shù)據(jù)著錄中設(shè)置了版本控制信息,記錄元數(shù)據(jù)每一次的更改操作及元數(shù)據(jù)的歷史版本,有效追蹤元數(shù)據(jù)的變化歷程。在紀(jì)錄片文獻(xiàn)資源管理和服務(wù)工作中,對(duì)這種動(dòng)態(tài)性的描述和利用,使得元數(shù)據(jù)信息能夠適應(yīng)外部環(huán)境的變化,提高紀(jì)錄片文獻(xiàn)資源的可用性,更好地滿足讀者的需求。
2.3 應(yīng)用場(chǎng)景的技術(shù)性
紀(jì)錄片元數(shù)據(jù)廣泛的應(yīng)用場(chǎng)景均展現(xiàn)出高度的技術(shù)依賴性。在素材管理上,大數(shù)據(jù)技術(shù)使得海量的紀(jì)錄片視頻、音頻和圖像素材能夠被精確識(shí)別和分類,提高資源組織的效率。在讀者服務(wù)中,智能檢索技術(shù)依托紀(jì)錄片元數(shù)據(jù)信息能精準(zhǔn)標(biāo)引至紀(jì)錄片對(duì)應(yīng)片段,讀者能快速檢索到需求的信息。依托版權(quán)信息管理系統(tǒng),可以實(shí)現(xiàn)紀(jì)錄片版權(quán)權(quán)限的時(shí)空雙維度動(dòng)態(tài)控制與管理。在安全方面,需要依靠網(wǎng)絡(luò)信息安全技術(shù)來保護(hù)紀(jì)錄片文獻(xiàn)安全,元數(shù)據(jù)記錄這些技術(shù)信息以便于后續(xù)的維護(hù)和管理。因此,在紀(jì)錄片元數(shù)據(jù)設(shè)計(jì)中,技術(shù)性是一個(gè)必須充分考慮的關(guān)鍵因素。對(duì)這種技術(shù)信息的細(xì)致描述,能確保應(yīng)用中數(shù)據(jù)的準(zhǔn)確性、一致性和互操作性,確保紀(jì)錄片文獻(xiàn)的有效傳遞和利用,更好地發(fā)揮元數(shù)據(jù)在圖書館紀(jì)錄片文獻(xiàn)管理和服務(wù)中的價(jià)值。
3 現(xiàn)行元數(shù)據(jù)規(guī)范對(duì)紀(jì)錄片文獻(xiàn)資源的適用性分析
3.1 圖書館元數(shù)據(jù)規(guī)范與紀(jì)錄片文獻(xiàn)資源元數(shù)據(jù)適用性分析
中國(guó)圖書館元數(shù)據(jù)規(guī)范主要包括《信息與文獻(xiàn) 資源描述》(GB/T 3792—2021)等元數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),主要定義了不同類型資源的元數(shù)據(jù)內(nèi)容和取值,如圖書、期刊等。同時(shí),《中國(guó)機(jī)讀書目格式》(GB/T 33286—2016)定義了元數(shù)據(jù)的結(jié)構(gòu)。圖書館現(xiàn)有的元數(shù)據(jù)規(guī)范主要設(shè)計(jì)用于描述和組織靜態(tài)信息資源,如圖書、期刊和圖片。紀(jì)錄片作為一種多媒體視頻資源,其復(fù)雜性和多樣性遠(yuǎn)超文本和圖像等靜態(tài)信息資源,在處理動(dòng)態(tài)、多媒體的視頻資源時(shí),現(xiàn)行的圖書館元數(shù)據(jù)規(guī)范顯得不夠充分和具體。因此,鑒于紀(jì)錄片資源的特殊性,可以借鑒圖書館現(xiàn)有元數(shù)據(jù)規(guī)范中的一些基本框架和方法,制定更具體、專業(yè)的元數(shù)據(jù)規(guī)范來詳細(xì)描述紀(jì)錄片文獻(xiàn)資源。
3.2 視頻元數(shù)據(jù)規(guī)范與紀(jì)錄片文獻(xiàn)資源元數(shù)據(jù)適用性分析
視頻類元數(shù)據(jù)規(guī)范中,有幾個(gè)重要標(biāo)準(zhǔn),包括針對(duì)廣播電視音像資料編目工作的《廣播電視音像資料編目規(guī)范 第1部分:電視資料》(GY/T 202.1—2004),
用于規(guī)范圖書館視頻資源數(shù)字化加工的《圖書館館藏資源數(shù)字化加工規(guī)范 第5部分:視頻資源》(GB/T 31219.5—2016),中央電視臺(tái)根據(jù)其業(yè)務(wù)出臺(tái)的《中央電視臺(tái)音像資料編目細(xì)則(2015年修訂)》,國(guó)家圖書館編撰的《國(guó)家圖書館視頻資源元數(shù)據(jù)規(guī)范》以及北京大學(xué)研制的《數(shù)字資源元數(shù)據(jù)規(guī)范》等。由于各行業(yè)語境的差異,現(xiàn)行的視頻元數(shù)據(jù)編目規(guī)范在實(shí)施過程中往往各行其是,缺乏一致性。在紀(jì)錄片元數(shù)據(jù)應(yīng)用方面,這些規(guī)范尤其顯得力不從心。這主要是因?yàn)榧o(jì)錄片有其特有的主題、內(nèi)容、形式和風(fēng)格,而現(xiàn)行的視頻元數(shù)據(jù)規(guī)范顯然無法很好滿足其特性[2]。此外,紀(jì)錄片元數(shù)據(jù)的編目對(duì)象、著錄規(guī)則及版權(quán)權(quán)限管理需求與一般視頻資源如電影、電視節(jié)目等存在顯著差異。因此,為確保全面、準(zhǔn)確、有效的紀(jì)錄片元數(shù)據(jù)著錄,需充分考慮紀(jì)錄片的特點(diǎn)和讀者對(duì)文獻(xiàn)中所包含知識(shí)的需求,制定專門的規(guī)范[3]。
4 紀(jì)錄片元數(shù)據(jù)規(guī)范研究?jī)?nèi)容
4.1 元數(shù)據(jù)結(jié)構(gòu)與規(guī)范
為確保紀(jì)錄片元數(shù)據(jù)的質(zhì)量和規(guī)范性,廣州圖書館規(guī)定了紀(jì)錄片元數(shù)據(jù)的結(jié)構(gòu)(見表1),制定了與之相對(duì)應(yīng)的元數(shù)據(jù)規(guī)范。元數(shù)據(jù)結(jié)構(gòu)包括描述元數(shù)據(jù)、管理元數(shù)據(jù)、結(jié)構(gòu)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、其他元數(shù)據(jù)5個(gè)元數(shù)據(jù)子集,以及分別的元數(shù)據(jù)實(shí)體和元數(shù)據(jù)元素。相應(yīng)的元數(shù)據(jù)規(guī)范也分為5個(gè)部分:描述元數(shù)據(jù)規(guī)范主要包括描述視頻內(nèi)容,方便用戶檢索的描述性規(guī)范;管理元數(shù)據(jù)規(guī)范描述管理信息,以及對(duì)存儲(chǔ)和使用至關(guān)重要的管理性規(guī)范;結(jié)構(gòu)元數(shù)據(jù)規(guī)范定義視頻結(jié)構(gòu)與關(guān)聯(lián)的結(jié)構(gòu)性規(guī)范;技術(shù)元數(shù)據(jù)規(guī)范確保信息系統(tǒng)正常運(yùn)轉(zhuǎn),規(guī)定技術(shù)參數(shù)的技術(shù)性規(guī)范;還包括提高元數(shù)據(jù)遷移性,確立編碼和映射的其他規(guī)范等。元數(shù)據(jù)結(jié)構(gòu)和規(guī)范的確立,保障了元數(shù)據(jù)著錄信息的一致性、準(zhǔn)確性、遷移性和可擴(kuò)展性,是實(shí)現(xiàn)紀(jì)錄片文獻(xiàn)資源有效管理、共享和使用的重要基礎(chǔ)[4]。
4.2 核心元數(shù)據(jù)設(shè)置
廣州圖書館在設(shè)置紀(jì)錄片核心元數(shù)據(jù)時(shí),考慮到DC元數(shù)據(jù)的靈活、可擴(kuò)展性較好以及其對(duì)智能資源發(fā)現(xiàn)工具較好的兼容性等優(yōu)勢(shì),選擇以DC元數(shù)據(jù)為基礎(chǔ)。同時(shí),為避免DC元數(shù)據(jù)因更偏重于網(wǎng)絡(luò)信息資源而導(dǎo)致字段關(guān)聯(lián)性不足等問題,還綜合參考了其他相關(guān)標(biāo)準(zhǔn)。一方面,參考專為音視頻及廣電行業(yè)元數(shù)據(jù)設(shè)置的方法,增加了細(xì)分為節(jié)目層、片段層、場(chǎng)景層和鏡頭層四個(gè)層次結(jié)構(gòu)的元數(shù)據(jù)。每一層次均配備了相應(yīng)的項(xiàng)目,從而盡可能提供紀(jì)錄片更全面、更細(xì)致的元數(shù)據(jù)描述。另一方面,為確保元數(shù)據(jù)設(shè)置在圖書館信息系統(tǒng)的兼容性,參考了CNMARC等圖書館常用元數(shù)據(jù)和規(guī)范。
由此,結(jié)合實(shí)際工作的需要,廣州圖書館制定了紀(jì)錄片文獻(xiàn)資源核心元素集(見表2)。核心元素集不僅詳細(xì)描繪了紀(jì)錄片文獻(xiàn)資源的多個(gè)特征,包括外部特征、內(nèi)容特征、管理特征、技術(shù)特征以及服務(wù)特征等,還進(jìn)一步優(yōu)化了描述深度和資源組織的細(xì)致度,顯著提升了數(shù)據(jù)的可讀性、易用性、可擴(kuò)展性以及語義明確性,從而為深層次的紀(jì)錄片文獻(xiàn)服務(wù)打下了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)[5]。
4.3 紀(jì)錄片文獻(xiàn)元數(shù)據(jù)應(yīng)用
紀(jì)錄片文獻(xiàn)元數(shù)據(jù)在廣州圖書館的實(shí)施應(yīng)用,對(duì)圖書館紀(jì)錄片公共文化服務(wù)工作產(chǎn)生了顯著的積極影響。一方面,在紀(jì)錄片文獻(xiàn)資源建設(shè)與管理工作中,通過該元數(shù)據(jù)優(yōu)化了文獻(xiàn)信息資源的組織結(jié)構(gòu),更好地對(duì)紀(jì)錄片文獻(xiàn)數(shù)據(jù)信息進(jìn)行標(biāo)準(zhǔn)化管理,提升了數(shù)據(jù)的準(zhǔn)確性和可用性。另一方面,該元數(shù)據(jù)中通過人工智能挖掘的內(nèi)在語義特征信息,為廣州圖書館紀(jì)錄片文獻(xiàn)的利用、服務(wù)及研究工作提供了更多維度和深度,提升了服務(wù)質(zhì)量和工作效率,推動(dòng)了紀(jì)錄片文獻(xiàn)資源管理的智慧化進(jìn)程。
紀(jì)錄片文獻(xiàn)元數(shù)據(jù)還為廣州圖書館跨領(lǐng)域合作與交流開辟了新的路徑。通過元數(shù)據(jù)的共享與交換,廣州圖書館得以與其他機(jī)構(gòu)、平臺(tái)實(shí)現(xiàn)紀(jì)錄片文獻(xiàn)資源的互通與共享,進(jìn)而促成跨地域、跨領(lǐng)域的深度合作與交流。該成果不僅顯著提升了紀(jì)錄片文獻(xiàn)資源的利用率,還有效擴(kuò)大了紀(jì)錄片文獻(xiàn)資源的服務(wù)范圍與深度,進(jìn)一步發(fā)揮了其蘊(yùn)含的文化價(jià)值、教育價(jià)值以及社會(huì)價(jià)值。
參考文獻(xiàn):
[1] 李廣建,袁鉞.基于深度學(xué)習(xí)的科技文獻(xiàn)知識(shí)單元抽取研究綜述[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2023,7(7):1-17.
[2] 段明蓮,李燕.數(shù)字視頻資源元數(shù)據(jù)及描述[J].數(shù)字圖書館論壇,2016(12):15-20.
[3] 賈君枝.從編目到元數(shù)據(jù)管理:圖書館知識(shí)組織的發(fā)展路徑[J].中國(guó)圖書館學(xué)報(bào),2023,49(2):121-131.
[4] 成全.館藏資源元數(shù)據(jù)的語義描述及關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建研究[M].北京:科學(xué)出版社,2022:10.
[5] 鄭一波,曾建勛.圖書館資源發(fā)現(xiàn)系統(tǒng)的實(shí)質(zhì)與應(yīng)對(duì)策略[J].情報(bào)科學(xué),2022,40(8):134-137,143.
作者簡(jiǎn)介:梁征,廣州圖書館館員,研究方向?yàn)槲墨I(xiàn)資源建設(shè)與管理。
收稿日期:2024-07-03編校:鄭秀花 王曉琳