王榮群 李婷 魏蕊
(河北大學(xué)管理學(xué)院,保定 071000)
隨著數(shù)字技術(shù)的發(fā)展和智能手機時代的到來,圖像類信息資源大規(guī)模增加。圖書館等機構(gòu)開始將數(shù)字圖像類數(shù)據(jù)庫納入館藏建設(shè)的范圍。數(shù)字圖像作為數(shù)字信息資源的重要組成部分,它不同于一般的信息資源,其內(nèi)容特征涉及非文字性的圖形、色彩、色調(diào)、紋理、內(nèi)容對象、物理制作要素等信息[1]。元數(shù)據(jù)是信息資源描述、組織與管理的重要工具,利用元數(shù)據(jù)對圖像進(jìn)行描述、組織和規(guī)范處理,可以提高檢索的準(zhǔn)確性和快捷性,從而增強其可發(fā)現(xiàn)性和可用性。從數(shù)字圖像的獲得方式來看,包括直接拍攝的數(shù)字圖像和從紙質(zhì)文獻(xiàn)資源中以掃描方式提取的數(shù)字圖像兩大類。直接拍攝的數(shù)字圖像主要包括實物展示類圖像和新聞紀(jì)實類圖像兩類。因此,本文選擇實物展示類圖像、新聞紀(jì)實類圖像和數(shù)字化提取類圖像這三類圖像數(shù)據(jù)庫作為調(diào)查樣本,調(diào)查分析其圖像的元數(shù)據(jù)元素,然后與數(shù)字資源元數(shù)據(jù)標(biāo)準(zhǔn)和圖像類資源元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行對照分析,結(jié)合實踐調(diào)查和理論分析提出圖像數(shù)據(jù)庫元數(shù)據(jù)元素集的改進(jìn)建議。
以中國知網(wǎng)CNKI為數(shù)據(jù)源,使用“圖像”“圖像數(shù)據(jù)庫”“元數(shù)據(jù)標(biāo)準(zhǔn)”分別進(jìn)行題名、主題的組合檢索。檢索不限“年份”,經(jīng)過人工篩選后,得到檢索結(jié)果75條。經(jīng)過分析可以看出,近年來國內(nèi)圖像元數(shù)據(jù)的研究主要集中在兩個方面。一是對國際和行業(yè)上相關(guān)的數(shù)字圖像元數(shù)據(jù)項目和規(guī)范進(jìn)行介紹。例如:袁莉等[1]對國外數(shù)字圖像的元數(shù)據(jù)格式MOA2 metadata、VRA Core等做了簡單介紹和比較,將元數(shù)據(jù)分為描述性元數(shù)據(jù)、結(jié)構(gòu)性元數(shù)據(jù)、管理性元數(shù)據(jù);黃崑等[2]將可用于描述和著錄圖像的元數(shù)據(jù)標(biāo)準(zhǔn)歸納為專門的圖像元數(shù)據(jù)標(biāo)準(zhǔn)、文化資源相關(guān)的元數(shù)據(jù)標(biāo)準(zhǔn)和通用元數(shù)據(jù)標(biāo)準(zhǔn)并分別介紹。二是對我國大量古籍文獻(xiàn)和特殊地方文化等相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)的制定進(jìn)行探究。例如:北京大學(xué)圖書館提出古籍元數(shù)據(jù)標(biāo)準(zhǔn)、拓片元數(shù)據(jù)標(biāo)準(zhǔn);郭瑞芳等[3]根據(jù)國家圖書館圖像元數(shù)據(jù)元素及修飾詞著錄細(xì)則設(shè)計了一套描述端硯圖像的元數(shù)據(jù)方案,同時結(jié)合端硯作品自身特點給出完整描述;王若宸等[4]基于Panofsky和Shatford的圖像學(xué)理論模型構(gòu)建專門面向非遺數(shù)字圖像的語義描述框架,提出一種專門面向非遺圖像語義信息的描述方法。
20世紀(jì)90年代,國外開始逐漸出現(xiàn)圖像元數(shù)據(jù)的研究項目,相關(guān)研究以介紹元數(shù)據(jù)在各行業(yè)領(lǐng)域的實踐應(yīng)用為主,側(cè)重于元數(shù)據(jù)的實踐技術(shù)等方面研究。關(guān)于元數(shù)據(jù)的具體應(yīng)用實踐,范圍很廣,比較有代表性的是數(shù)字圖書館中數(shù)字圖像元數(shù)據(jù)規(guī)范項目的建設(shè)、將圖像元數(shù)據(jù)的標(biāo)準(zhǔn)應(yīng)用于構(gòu)建地標(biāo)圖像的AI訓(xùn)練數(shù)據(jù)集[5],以及從實驗日志和文本文件中提取元數(shù)據(jù),處理圖像并將其上傳到服務(wù)器,從而創(chuàng)建完全注釋的多維數(shù)據(jù)集[6]。Kim等[7]針對多媒體圖像的侵犯版權(quán)和非法使用等問題,提出以JPEG格式的數(shù)據(jù)保護(hù)特性作為元數(shù)據(jù)擴展到遠(yuǎn)程訪問控制中,通過將訪問控制數(shù)據(jù)的位置信息作為元數(shù)據(jù)保存在圖像文件中,圖像所有者可以允許或拒絕其他人的數(shù)據(jù)消耗,起到隱私保護(hù)作用。在圖書館、檔案館、博物館等方面,Crowe等[8]以丹佛大學(xué)檔案館館藏為例,分析了高校檔案圖像元數(shù)據(jù)最佳實踐。Saleh[9]探討了網(wǎng)絡(luò)文化遺產(chǎn)數(shù)字館藏中使用圖像嵌入元數(shù)據(jù)的可用性。
為了保證所調(diào)研數(shù)字圖像的全面性,本文選擇實物展示類圖像數(shù)據(jù)庫、新聞紀(jì)實類圖像數(shù)據(jù)庫和數(shù)字化提取類圖像數(shù)據(jù)庫為研究對象,對不同類型數(shù)字圖像數(shù)據(jù)庫內(nèi)的元數(shù)據(jù)元素進(jìn)行調(diào)查。圖像類目是將圖像按不同特征進(jìn)行歸類處理,以滿足用戶檢索、獲取所需圖像的需求。圖像元數(shù)據(jù)是描述圖像文件的一些信息標(biāo)簽,具體包括圖像拍攝時自動標(biāo)注的圖像尺寸、像素等信息,以及圖像名稱、作者、地址等后期對圖像進(jìn)行人工描述的元數(shù)據(jù)信息。本節(jié)主要通過網(wǎng)絡(luò)調(diào)查法對數(shù)據(jù)庫內(nèi)圖像類目和圖像元數(shù)據(jù)進(jìn)行總結(jié)分析,以期為改進(jìn)圖像數(shù)據(jù)庫元數(shù)據(jù)元素提供一定的實踐基礎(chǔ)。
實物展示類圖像就是將各類實物直接地予以反映,通過圖像拍攝真實還原其本質(zhì)美感。實物展示類圖像數(shù)據(jù)庫保存的是相機等拍攝工具直接捕捉的圖像或者計算機內(nèi)繪圖工具等創(chuàng)作出的圖像。這類數(shù)據(jù)庫既有圖像資源種類豐富的綜合性圖像數(shù)據(jù)庫,如圖蟲圖庫[10],它是字節(jié)跳動旗下的優(yōu)質(zhì)攝影圖片整合圖像庫,由攝影愛好者上傳作品,已有超過4.6億張正版素材,包括風(fēng)景、動物等攝影圖片;也有將某一類型的作品收集在一起,為用戶提供某一專業(yè)領(lǐng)域的圖像檢索及利用服務(wù)的專類圖像數(shù)據(jù)庫,如中藥材圖像數(shù)據(jù)庫[11],它由香港浸會大學(xué)中醫(yī)藥學(xué)院建立,圖像涉及常用中藥材420余種,以高清圖像展示藥材的外觀特征,并以文字記載藥材的來源、主產(chǎn)地、性味功效等信息。作為實物展示類圖像數(shù)據(jù)庫,這兩類數(shù)據(jù)庫中的圖像類目多種多樣,且都對不同特征、不同類別的圖像進(jìn)行整合區(qū)分。
經(jīng)調(diào)查,圖蟲圖庫主要圖像類目包括“人像”“自然風(fēng)光”“節(jié)日”等,為更加細(xì)致地劃分不同類別的圖像,圖蟲圖庫對每一大類下的類目進(jìn)行細(xì)分,例如,“人像”類目下可以細(xì)分為“外國人”“青年”“女性”“肖像”等,“自然風(fēng)光”類目下可以分為“山川”“草原”“海洋”等,以便更好地幫助用戶根據(jù)圖像的不同特征精確檢索圖像;中藥材圖像數(shù)據(jù)庫對常用類型中藥材圖像的藥材類別、味覺特性、品質(zhì)特性等進(jìn)行劃分,又對每一個類目進(jìn)行細(xì)分,如“味覺特性”可以細(xì)分為“苦”“甘”“辛”等。通過對數(shù)據(jù)庫內(nèi)圖像元數(shù)據(jù)調(diào)查發(fā)現(xiàn),根據(jù)圖像類型的不同,所描述的信息側(cè)重點也有所區(qū)別。圖蟲圖庫作為攝影圖像數(shù)據(jù)庫,更注重對圖像的攝像標(biāo)準(zhǔn)系數(shù)進(jìn)行描述,如白平衡、色彩模式、圖像寬高度、分辨率等,同時也對圖像標(biāo)題和作者等主要信息進(jìn)行描述;中藥材圖像數(shù)據(jù)庫內(nèi)的圖像主要為高清拍攝中藥材圖像,除了對圖像尺寸、像素等信息進(jìn)行描述外,更注重體現(xiàn)中藥材圖像的屬性特征,對藥材科名、中外文名稱、藥材來源、藥材產(chǎn)地等圖像元數(shù)據(jù)進(jìn)行描述。
新聞紀(jì)實圖像的主要功能為向用戶傳遞故事和信息,在新聞紀(jì)實類圖像中需要展示人物、時間、地點、事件、原因、發(fā)生過程六要素,在呈現(xiàn)圖像的同時搭配文字介紹,更加完善地向外界呈現(xiàn)一個新聞信息。中國新聞圖片網(wǎng)[12]屬于新聞紀(jì)實類圖像數(shù)據(jù)庫,將每日新聞圖片制作成電子文本,通過互聯(lián)網(wǎng)整合成可視化的圖片分享平臺。新聞的不同類型決定圖像也有不同的類目。中國新聞圖片網(wǎng)按反映社會生活的內(nèi)容將新聞圖像分為政治、經(jīng)濟(jì)、文化、體育、教育等類目,并對不同類目下的具體新聞圖像進(jìn)行細(xì)分,例如“體育”大類下具體分為“奧運”“足球”“NBA”等,以保證新聞覆蓋面的廣泛性。關(guān)于新聞圖像的元數(shù)據(jù),通過調(diào)查可知,新聞圖像具有新聞的特點,其圖像元數(shù)據(jù)也是圍繞新聞六要素,即人物、時間、地點、事件、原因、發(fā)生過程進(jìn)行描述。還需要注意是,中國新聞圖片網(wǎng)通過“圖像文件名稱”“圖片作者”“作者單位”和“拍攝地址”等元數(shù)據(jù)對圖像信息進(jìn)行描述,以保證新聞的真實性與準(zhǔn)確性。
數(shù)字化提取類圖像數(shù)據(jù)庫主要指通過掃描儀等識別圖像的機器,將文獻(xiàn)中的圖像傳輸?shù)接嬎銠C中,通過圖像處理軟件最大限度地還原文獻(xiàn)圖像,整理保存形成數(shù)據(jù)庫。插圖是插附于書刊文字間的特殊圖畫形式,將文獻(xiàn)中的紙質(zhì)插圖進(jìn)行數(shù)字化提取和整合,有助于更加直觀地理解文本內(nèi)容。
古籍插圖圖像數(shù)據(jù)庫[13]是由首都圖書館創(chuàng)辦的一個包含古籍插圖數(shù)據(jù)的線上查詢系統(tǒng),目前收錄了1萬多張插圖,每張插圖都有其所屬類別以及具體的圖像信息。古籍插圖圖像數(shù)據(jù)庫中每條圖像數(shù)據(jù)包括插圖影像和內(nèi)容描述兩部分。根據(jù)插圖主題內(nèi)容的不同分為小說、戲曲、宗教、風(fēng)景等幾大類目。在對插圖進(jìn)行數(shù)字化提取過程中,主要通過“插圖題名”“繪圖者”“圖像類別”“繪制年代”等元數(shù)據(jù)對插圖圖像進(jìn)行描述,以揭示圖像內(nèi)蘊含的信息。同時還通過“文獻(xiàn)題目”“責(zé)任者”對提取插圖的古籍文獻(xiàn)信息進(jìn)行描述。因此在構(gòu)建圖像元數(shù)據(jù)時可注重數(shù)字化提取類圖像與文獻(xiàn)本身的內(nèi)容聯(lián)系,保障數(shù)字化提取類圖像元數(shù)據(jù)描述的完整性。
通過對上述三類圖像數(shù)據(jù)庫的調(diào)查分析發(fā)現(xiàn),不同類別圖像數(shù)據(jù)庫中的圖像呈現(xiàn)方式和信息描述不同,圖像類目和圖像元數(shù)據(jù)描述側(cè)重點有所差異,結(jié)果見表1所示。
實物展示類圖像主要是對于事物本身的展示,向外界傳遞圖像自身所攜帶的信息。因此在構(gòu)建圖像元數(shù)據(jù)元素集時多以描述圖像本身的元素為主。根據(jù)用途不同,在提取元數(shù)據(jù)元素時有各自不同的依據(jù),從圖蟲圖庫中提取的圖像類目都是很直觀的圖像元素,如“自然風(fēng)光”“美食”;而中藥材圖像這種某一具體類別的圖像則更多以圖像背后的信息元素作為提取的元數(shù)據(jù),如味甘、味辛是不能在圖像中直觀表示的。因此要根據(jù)圖像的功能定位,以及用戶對于圖像的需求等具體情況構(gòu)建實物展示類圖像的元數(shù)據(jù)。新聞紀(jì)實類圖像更加注重事件的表達(dá)和信息的呈現(xiàn),在進(jìn)行圖像描述時,主要以圍繞新聞的六要素,即人物、時間、地點、事件、原因、發(fā)生過程構(gòu)建元數(shù)據(jù),此外還需明確新聞圖像的所屬類別,注重圖像所反映的新聞主題。數(shù)字化提取類圖像與上述兩類數(shù)字圖像不同,在構(gòu)建圖像元數(shù)據(jù)元素集時,除了描述圖像本身的元素之外,還要對提取圖像的文獻(xiàn)資料進(jìn)行描述,插圖所附文獻(xiàn)的題名、故事、人物等也要作為圖像元數(shù)據(jù)描述加以呈現(xiàn)。綜上所述,構(gòu)建數(shù)字圖像元數(shù)據(jù)元素集時,要根據(jù)數(shù)據(jù)庫的類型和定位,考慮用戶對于不同圖像的信息需求,綜合考量數(shù)字圖像的基本信息、所屬范疇、主要功能、用戶定位等因素。
圖像數(shù)據(jù)庫元數(shù)據(jù)元素集構(gòu)建的最終目的是方便數(shù)字圖像的收集與管理,因此需在構(gòu)建之初將數(shù)字圖像相關(guān)標(biāo)準(zhǔn)與實際應(yīng)用中的圖像元素進(jìn)行比較研究。本文選取數(shù)字資源元數(shù)據(jù)標(biāo)準(zhǔn)《都柏林核心元素集》(Dublin Core Element Set,DC)和圖像類資源元數(shù)據(jù)標(biāo)準(zhǔn)《圖像元數(shù)據(jù)規(guī)范》(WH/T 51—2012)、《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》(GB/T 35311—2017),對比元數(shù)據(jù)標(biāo)準(zhǔn)與上述4個圖像數(shù)據(jù)庫的具體實踐情況,分析其圖像的元數(shù)據(jù)元素。為縮小元素的含義范圍,使其更具有專指性,所選取的《都柏林核心元素集》和《圖像元數(shù)據(jù)規(guī)范》都給定相應(yīng)的元素修飾詞,因此本節(jié)針對元素修飾詞在具體圖像數(shù)據(jù)庫內(nèi)的適應(yīng)性也進(jìn)行一定的分析介紹,從而為圖像數(shù)據(jù)庫元數(shù)據(jù)元素集的改進(jìn)提供參考。
DC是由聯(lián)機計算機圖書館中心(Online Computer Library Center,OCLC)與美國國家超級計算機應(yīng)用中心(National Center for Supercomputer Applications, NCSA)聯(lián)合發(fā)起,目的是建立一套描述網(wǎng)絡(luò)電子文獻(xiàn)的方法,以便實現(xiàn)網(wǎng)上信息檢索。DC元數(shù)據(jù)元素集可以歸納為內(nèi)容屬性、知識產(chǎn)權(quán)屬性、形式屬性3種屬性,共包括15個核心元素和24個元素修飾詞。對照DC元數(shù)據(jù)元素集,將圖蟲圖庫、中藥材圖像數(shù)據(jù)庫、中國新聞圖片網(wǎng)和古籍插圖圖像數(shù)據(jù)庫內(nèi)圖像元數(shù)據(jù)元素的利用情況進(jìn)行對照分析(見表2)。
表2 DC元數(shù)據(jù)元素在圖像數(shù)據(jù)庫中的應(yīng)用
上述4個數(shù)字圖像數(shù)據(jù)庫都包含DC元數(shù)據(jù)中的“題名”“主題”“描述”“創(chuàng)建者”和“日期”,表明這些元素都是圖像數(shù)據(jù)庫中最基本的信息。DC是描述電子文獻(xiàn)的元數(shù)據(jù)標(biāo)準(zhǔn),而數(shù)字圖像具有強烈的數(shù)字資源屬性,因此數(shù)字圖像數(shù)據(jù)庫內(nèi)圖像元素與DC的核心元素適配性較高。例如:“主題”,古籍插圖圖像數(shù)據(jù)庫中的有“個人主題”和“地名主題”,這都是對于“主題”元素的擴展應(yīng)用;“語種”,中藥材圖像數(shù)據(jù)庫內(nèi)圖像的每一個信息元素都是以中文名、拉丁名、英文名3種語言表示;“權(quán)限”,圖蟲圖庫內(nèi)圖像標(biāo)注“限時免費”“授權(quán)書”“第三方權(quán)利說明”等與使用下載相關(guān)的權(quán)限內(nèi)容。在對比元素時發(fā)現(xiàn),一些DC元素修飾詞可以更加精確地描述圖像信息,如“日期”下的元素修飾詞在圖蟲圖庫中有所體現(xiàn),“創(chuàng)建日期”可表示作者拍攝圖像的日期,“可獲得日期”表示用戶獲取利用圖像資源的時間區(qū)間,“發(fā)布日期”表示圖像資源正式對外公開發(fā)布的日期。值得注意的是,這種對比只是在對照DC元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上分析圖像數(shù)據(jù)庫元素集在具體項目應(yīng)用中的體現(xiàn),對于圖像數(shù)據(jù)庫元數(shù)據(jù)元素集的構(gòu)建還應(yīng)該參考各類相關(guān)的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范。
數(shù)字圖像資源不同于一般的信息資源,對其內(nèi)容特征元素描述存在特定類型圖像元數(shù)據(jù)標(biāo)準(zhǔn),這類標(biāo)準(zhǔn)往往對于描述實物本質(zhì)特征、派生的數(shù)字化資源以及新聞類圖像資源內(nèi)容更具有針對性。本文選取《圖像元數(shù)據(jù)規(guī)范》和《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》兩個圖像元數(shù)據(jù)標(biāo)準(zhǔn)對所調(diào)研的圖像數(shù)據(jù)庫內(nèi)的元素進(jìn)行一一對照分析。
3.2.1 《圖像元數(shù)據(jù)規(guī)范》
《圖像元數(shù)據(jù)規(guī)范》是國家文化部發(fā)布的一項文化行業(yè)標(biāo)準(zhǔn),由上海交通大學(xué)圖書館牽頭,聯(lián)合國家圖書館、浙江省圖書館和山西省圖書館牽頭制定。標(biāo)準(zhǔn)規(guī)定了圖像資源(包括所有原生和派生的圖像資源)的內(nèi)容和外觀描述,給出圖像資源定位與管理的一般性方法,適用于描述數(shù)字形態(tài)的圖像資源,包括22個元素和24個元素修飾詞,其中15個元素對應(yīng)DC核心元素,另外7個其他元素分別為出版地、版本、受眾、收藏機構(gòu)、背景、源載體和收藏歷史。由于15個對應(yīng)的DC核心元素已在表2進(jìn)行對比,這一部分就不再重復(fù)對比,只對4個數(shù)字圖像數(shù)據(jù)庫應(yīng)用《圖像元數(shù)據(jù)規(guī)范》中另外7個元數(shù)據(jù)元素情況進(jìn)行對照分析(見表3)。
表3 《圖像元數(shù)據(jù)規(guī)范》元數(shù)據(jù)元素在圖像數(shù)據(jù)庫中的應(yīng)用
這7個元素均不同程度地體現(xiàn)在4個圖像數(shù)據(jù)庫內(nèi):“背景”,作為圖像資源的特有元素,主要體現(xiàn)為圖像資源有關(guān)的責(zé)任者和其他相關(guān)人物的資料,這一元素適用于古籍插圖圖像數(shù)據(jù)庫中的“出處”,適用于中國新聞圖片網(wǎng)內(nèi)的“拍攝地址”;“受眾”,作為圖像資源的各類實體,包括創(chuàng)建者、出版者等,不同類型圖像數(shù)據(jù)庫的受眾也會有所不同,如圖蟲圖庫的受眾更多為專業(yè)攝影師和攝影愛好者。
需要注意的是,《圖像元數(shù)據(jù)規(guī)范》是在DC的基礎(chǔ)上進(jìn)行設(shè)計,其元素修飾詞相較DC有所補充,主要針對圖像資源的內(nèi)容特征進(jìn)行描述,一些核心元素的修飾詞對于圖像類資源的描述更加精確。例如“格式”的元素修飾詞“篇幅”復(fù)用DC“大小”,如中國新聞圖片網(wǎng)內(nèi)的圖像“篇幅”不僅指圖像的尺寸大小,還包括圖像數(shù)量,明確表明每組圖有幾張圖像,以“組圖”的形式出現(xiàn),“格式”下還新增元素修飾詞“技術(shù)細(xì)節(jié)”描述數(shù)字圖像,表現(xiàn)圖片拍攝制作成電子文本所需的技術(shù)細(xì)節(jié)處理;“描述”的元素修飾詞“目次”復(fù)用DC“目錄”,作為資源內(nèi)容的子單元列表,在描述時,幾乎適用于上述提到的所有數(shù)據(jù)庫內(nèi)的圖像,如圖蟲圖庫內(nèi)“冬奧之約”板塊下的“單板滑雪”“雙板滑雪”“跳臺滑雪”等,“描述”下還新增元素修飾詞“風(fēng)格”,在4個圖像數(shù)據(jù)庫中均有體現(xiàn),如古籍插圖圖像數(shù)據(jù)庫內(nèi)風(fēng)景、建筑等圖像資源的內(nèi)容具有強烈鮮明的風(fēng)格特點。
3.2.2 《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》
《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》是2017年12月底正式發(fā)布的國家標(biāo)準(zhǔn),是世界范圍內(nèi)第一個以圖片視覺內(nèi)容和語義特征描述為主的圖片元數(shù)據(jù)規(guī)范,專業(yè)性強、結(jié)構(gòu)簡明,具有較高的應(yīng)用價值。標(biāo)準(zhǔn)的主要內(nèi)容是對圖片元數(shù)據(jù)元素做出準(zhǔn)確定義,尤其突出對圖片視覺內(nèi)容特征和語義信息的描述。標(biāo)準(zhǔn)以編輯類圖片和創(chuàng)意類圖片為主要對象,定義了24個元數(shù)據(jù)元素,分別歸屬到公共元數(shù)據(jù)、新聞編輯類圖片元數(shù)據(jù)和新聞創(chuàng)意類圖片元數(shù)據(jù)3個部分。經(jīng)調(diào)研發(fā)現(xiàn),新聞編輯類圖片元數(shù)據(jù)和新聞創(chuàng)意類圖片元數(shù)據(jù)側(cè)重描述新聞圖像,對圖片類型的指向性更強,強調(diào)新聞的屬性。而圖蟲圖庫、中藥材圖像數(shù)據(jù)庫和古籍插圖圖像數(shù)據(jù)庫中不包含新聞圖像,所以只對比分析公共元數(shù)據(jù)在4個圖像數(shù)據(jù)庫內(nèi)的具體應(yīng)用情況(見表4)。
表4 公共元數(shù)據(jù)元素在圖像數(shù)據(jù)庫中的應(yīng)用
由于公共元數(shù)據(jù)的“公共”特征,因此圖片標(biāo)識、篇幅、色彩、拍攝角度、被攝體方向等元素均體現(xiàn)在4個數(shù)字圖像數(shù)據(jù)庫中。從表4可見,“景別”作為描述圖像的特寫、近景、全景及人物身體部位的元素,在上述4個數(shù)字圖像數(shù)據(jù)庫中均有體現(xiàn),如中藥材圖像數(shù)據(jù)庫中的“山楂”藥材圖像對其果肉、果核、果梗和外皮進(jìn)行局部特寫描述,圖蟲圖庫內(nèi)對人物的“身體部位”進(jìn)行描述,如臉部、手、腰部。因此建議“景別”作為數(shù)字圖像元數(shù)據(jù)元素集的一項元素擴充其中;“情景”描述畫面中主要元素呈現(xiàn)出的情形和活動信息,偏向于展示圖像的動態(tài)信息,中藥材圖像數(shù)據(jù)庫主要是對于藥材進(jìn)行展示,圖像不涉及動態(tài)的相關(guān)內(nèi)容,因此“情景”未在中藥材圖像數(shù)據(jù)庫進(jìn)行體現(xiàn),而其他3個數(shù)字圖像數(shù)據(jù)庫內(nèi)的圖像都不同程度地展現(xiàn)了圖像的畫面信息,如圖蟲圖庫內(nèi)的“動物捕食”圖像、古籍插圖圖像數(shù)據(jù)庫的“祭祀”圖像和中國新聞圖片網(wǎng)內(nèi)的“運動會”圖像都呈現(xiàn)了圖像內(nèi)主要元素的活動情形。
新聞編輯類圖片元數(shù)據(jù)和新聞創(chuàng)意類圖片元數(shù)據(jù)強調(diào)新聞圖片的特有屬性,10個新聞編輯類圖片元數(shù)據(jù)“標(biāo)題”“圖說”“拍攝時間”“拍攝地”“人物姓名”“事件”“專題”“新聞分類”“民族”“宗教”和4個新聞創(chuàng)意類圖片元數(shù)據(jù)“人物信息”“畫面主體”“特定時間”“攝影技術(shù)”均在中國新聞圖片網(wǎng)內(nèi)有所體現(xiàn)。例如:“民族”和“宗教”兩項可以描述中國新聞圖片網(wǎng)站內(nèi)的“民族與宗教”板塊內(nèi)的新聞圖片;“圖說”描述新聞圖片的創(chuàng)作背景,新聞事件的時間、地點和人物等,如中國新聞圖片網(wǎng)中的“河南增派中醫(yī)醫(yī)療隊馳援上?!边@一新聞組圖的文字說明——“4月12日,河南省增派75名隊員組成的中醫(yī)醫(yī)療隊馳援上海。醫(yī)療隊隊員分別來自河南省中醫(yī)院、河南中醫(yī)藥大學(xué)第三附屬醫(yī)院、河南省中醫(yī)藥研究院附屬醫(yī)院3家醫(yī)療機構(gòu),均為業(yè)務(wù)能力強的中青年骨干中醫(yī)醫(yī)師”,其中對圖像涉及的背景、時間和地點等元素均有介紹。
通過對3個元數(shù)據(jù)標(biāo)準(zhǔn)和4個圖像數(shù)據(jù)庫進(jìn)行對比可知,DC作為描述網(wǎng)絡(luò)資源的元數(shù)據(jù)標(biāo)準(zhǔn)在4個數(shù)據(jù)庫內(nèi)均有體現(xiàn),圖像類資源元數(shù)據(jù)標(biāo)準(zhǔn)則根據(jù)圖像資源的不同特征在具體應(yīng)用過程中有所差異,《圖像元數(shù)據(jù)規(guī)范》適用于描述實物展示類圖像、新聞紀(jì)實類圖像和數(shù)字化提取類圖像,而《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》更具專指性,側(cè)重對新聞圖像描述,更適用于對新聞紀(jì)實類圖像描述。因此本文結(jié)合具體圖像類別的不同,參考借鑒不同類型的圖像元數(shù)據(jù)標(biāo)準(zhǔn),在元數(shù)據(jù)標(biāo)準(zhǔn)和圖像數(shù)據(jù)庫具體實踐對比分析的基礎(chǔ)上,提出圖像數(shù)據(jù)庫元數(shù)據(jù)元素集的改進(jìn)建議。
通過調(diào)查實物展示類圖像數(shù)據(jù)庫、新聞紀(jì)實類圖像數(shù)據(jù)庫和數(shù)字化提取類圖像數(shù)據(jù)庫中的元數(shù)據(jù)元素,將數(shù)據(jù)庫中圖像的元數(shù)據(jù)元素與數(shù)字資源元數(shù)據(jù)標(biāo)準(zhǔn)《都柏林核心元素集》和圖像類資源元數(shù)據(jù)標(biāo)準(zhǔn)《圖像元數(shù)據(jù)規(guī)范》《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》進(jìn)行對照分析,再根據(jù)圖像數(shù)據(jù)庫的圖像特點,參考3個元數(shù)據(jù)標(biāo)準(zhǔn),共精煉出17個元數(shù)據(jù)元素和11個元素修飾詞。其中復(fù)用《都柏林核心元素集》的16個元數(shù)據(jù)元素和“摘要”“目次”“創(chuàng)建日期”“發(fā)布日期”“可獲日期”“篇幅”“載體”7個元素修飾詞;復(fù)用《圖像元數(shù)據(jù)規(guī)范》的“風(fēng)格”“技術(shù)細(xì)節(jié)”作為元素修飾詞;復(fù)用《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》的“景別”作為元數(shù)據(jù)元素,“情景”“特定時間”作為元素修飾詞。
根據(jù)元數(shù)據(jù)在圖像數(shù)據(jù)庫中的具體應(yīng)用情況,將改進(jìn)的17個元數(shù)據(jù)元素劃分為3個基本檢索點、5個有價值的檢索點和9個輔助檢索點?!邦}名”“創(chuàng)建者”“主題”可作為基本檢索點進(jìn)行描述,用戶可以根據(jù)“題名”和“主題”進(jìn)行簡單檢索,也可通過作者及拍攝者進(jìn)行檢索。有價值的檢索點包括:①“描述”,其元素修飾詞包括“摘要”和“風(fēng)格”,其中“摘要”是對圖像具體內(nèi)容的概括和總結(jié),“風(fēng)格”包括中國風(fēng)、表現(xiàn)主義和寫實風(fēng)格等,例如中國風(fēng)就是圖像中較有特色的一個風(fēng)格,包含強烈鮮明的中國元素事物,可以對中國風(fēng)的服飾、陶瓷、圖畫等實物資源進(jìn)行描述;②“日期”,其中元素修飾詞“創(chuàng)建日期”和“發(fā)布日期”是圖像資源的必備元素,尤其新聞圖片的發(fā)布日期對新聞報道尤為重要,而“特定時間”(例如節(jié)氣、節(jié)日等)也是畫面內(nèi)容所表現(xiàn)的時間信息,且都強調(diào)新聞圖片的時效性和故事性,可作為圖片重要檢索點;③“類型”,圖像資源的特征或類型,按照不同圖像主題檢索;④“格式”,包括圖像資源的媒體類型和大小,如尺寸、像素等;⑤“覆蓋范圍”,圖像資源的覆蓋范圍包括時間范圍和空間范圍,時間范圍是圖像拍攝的時間間隔和日期,空間范圍可以涉及圖像資源的地名或地理坐標(biāo)。一些檢索點對于用戶檢索需求較少,可作為圖像資源的輔助元素,包括:①“出版者”,使資源可以獲得和利用的責(zé)任實體,主要指圖像資源的出版者或頒布者,包括個人與團(tuán)體,由個人或團(tuán)體的名稱來表示;②“其他責(zé)任者”,對資源做出貢獻(xiàn)的其他責(zé)任實體;③“語種”,表達(dá)圖像資源內(nèi)容的語言;④“標(biāo)志符”,給予圖像資源的明確標(biāo)志;⑤“來源”,與當(dāng)前圖像來源有關(guān)的資源;⑥“權(quán)限”,指與圖像資源相關(guān)的各種產(chǎn)權(quán)說明,記錄圖像資源的權(quán)限管理說明等;⑦“關(guān)聯(lián)”,與圖像資源存在某種關(guān)系的其他資源,例如原格式圖像;⑧“受眾”,指利用圖像資源的各種實體,不同類型圖像數(shù)據(jù)庫的受眾會有所區(qū)別;⑨“景別”,作為描述的近景、中景、全景及人物身體部位的元素。需要注意的是“受眾”這一元素復(fù)用于DC的非核心元素,其不包括于表2中15個核心元素內(nèi),將其擴充進(jìn)圖像數(shù)據(jù)庫元數(shù)據(jù)元素集可以較之前更全面地描述數(shù)字圖像,從而完善圖像數(shù)據(jù)庫元數(shù)據(jù)元素集的構(gòu)建。
為推動數(shù)字圖像類數(shù)據(jù)庫的建設(shè),加強圖像資源的可發(fā)現(xiàn)性和可用性,需要一個更具有針對性,且與數(shù)字圖像實踐應(yīng)用緊密結(jié)合的標(biāo)準(zhǔn)。由于數(shù)字圖像元數(shù)據(jù)的組織和規(guī)范具有一定的復(fù)雜性,同時還受到各方面因素的制約,本文通過分析當(dāng)前相關(guān)圖像數(shù)據(jù)庫的建設(shè)現(xiàn)狀和數(shù)據(jù)特點,根據(jù)現(xiàn)有國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn),提出合理并且實用的元數(shù)據(jù)改進(jìn)方案,這對于整理數(shù)量龐大的圖像資源和提高圖像的檢索利用具有重要意義。需要注意的是,隨著技術(shù)的發(fā)展,圖像數(shù)據(jù)庫元數(shù)據(jù)元素集標(biāo)準(zhǔn)的建設(shè)也會是一個不斷完善的過程,當(dāng)前對于數(shù)字圖像元數(shù)據(jù)的描述需要進(jìn)一步合理規(guī)范,以保證數(shù)字圖像資源的保存和共享。