保麗娟?í?
【摘要】民族醫(yī)藥文獻數(shù)字化是保存和促進少數(shù)民族醫(yī)藥知識及文化傳播的有效途徑。論文從數(shù)字化準(zhǔn)備工作、加工標(biāo)引、管理發(fā)布等方面詳細介紹了云南少數(shù)民族醫(yī)藥文獻數(shù)字化建設(shè)的操作流程和步驟,并針對云南少數(shù)民族醫(yī)藥文獻不同載體類型的特點及少數(shù)民族文字的特色詳細介紹了數(shù)字化方法,以期為民族醫(yī)藥文獻數(shù)字化工作提供參考和借鑒,促進民族醫(yī)藥事業(yè)的發(fā)展。
【關(guān)鍵詞】民族醫(yī)藥文獻;數(shù)字化流程;數(shù)字化方法
【中圖分類號】R29【文獻標(biāo)志碼】 A【文章編號】1007-8517(2017)11-0015-04
Discuss on Yunnan Minority National Medical Literature Digitizing
BAO LiJuan
Yunnan University of Traditional Chinese Medicine, Kunming 650500, China
Digitalization of national medicine literature is an effective way to preserve and promote the knowledge and cultural dissemination of minority national medicine. This paper introduces the processes and steps of the digital construction of Yunnan minority national medical literature, include digital preparation, processing indexing, management and Publishment. Introduces the digital method of different literature types and minority characters in Yunnan. So as to provide reference for the digital work of national medicine literature, to promote the development of national medicine.
Minority Medical Literature; Digital Procedures; Digital Method
民族醫(yī)藥文獻數(shù)字化是指利用現(xiàn)代電子信息處理技術(shù)在相關(guān)標(biāo)準(zhǔn)的指導(dǎo)下對民族醫(yī)藥文獻進行加工標(biāo)引等處理,使其轉(zhuǎn)化為電子數(shù)據(jù)形式存儲到數(shù)據(jù)庫中,然后通過光盤、網(wǎng)絡(luò)等途徑進行信息檢索和查詢,以便于文獻資源的保存和傳播。民族醫(yī)藥文獻數(shù)字化是保護與傳承民族醫(yī)藥資源和文化的重要方式之一,數(shù)字化以后的民族醫(yī)藥文獻資源不僅能夠真實清晰地反映資源的本來面貌,促進民族醫(yī)藥資源和文化的傳播,還能有效解決民族醫(yī)藥文獻保護與使用之間的矛盾。縱觀云南少數(shù)民族醫(yī)藥文獻數(shù)字化成果可以看到,這些數(shù)據(jù)庫大都只是進行了文獻資料的整理和資料的入庫建設(shè),數(shù)據(jù)庫功能結(jié)構(gòu)單一,各數(shù)據(jù)庫相互獨立,結(jié)構(gòu)模式簡單,難以擴展升級。這些數(shù)據(jù)庫的模式和結(jié)構(gòu)限制了云南少數(shù)民族醫(yī)藥數(shù)據(jù)資源的傳播和共享,并不能完全滿足對民族醫(yī)藥文獻資源深度挖掘的需要。因此,需要制定一套完整的民族醫(yī)藥文獻數(shù)字化整理方案,并以該方案為標(biāo)準(zhǔn)和指導(dǎo),統(tǒng)一規(guī)劃,合理部署,以實現(xiàn)資源的充分利用。在數(shù)字化整理方案中,數(shù)字化流程及數(shù)字化方法規(guī)范是方案中的重要組成部分,因此需要針對云南少數(shù)民族醫(yī)藥文獻資源的特點制定出詳細的數(shù)字化流程及相應(yīng)的數(shù)字化方法以指導(dǎo)數(shù)字化加工人員規(guī)范操作。
1云南少數(shù)民族醫(yī)藥文獻數(shù)字化流程
文獻數(shù)字化流程,是云南少數(shù)民族醫(yī)藥文獻數(shù)字化建設(shè)項目中的關(guān)鍵步驟,數(shù)字化流程主要分為三個階段,見圖1。第一階段是前期準(zhǔn)備工作階段,第二階段是民族醫(yī)藥文獻信息資源的數(shù)字化制作與加工階段,第三階段是數(shù)字化文獻的發(fā)布及管理階段[1]。
11數(shù)字化準(zhǔn)備工作對于民族醫(yī)藥文獻資源數(shù)字化建設(shè)項目來說,充分、完備的前期準(zhǔn)備工作是項目能順利開展的前提和保障,是整個數(shù)字化項目建設(shè)中的第一步,數(shù)字化準(zhǔn)備階段包括以下幾個主要工作。
111少數(shù)民族醫(yī)藥文獻資源收集根據(jù)數(shù)字化建設(shè)的主題,確定民族醫(yī)藥文獻的收集范圍。確定所需要收集文獻的內(nèi)容及形式,然后進行全方位的資料收集。民族醫(yī)藥文獻資源的收集要與相關(guān)民族地區(qū)圖書館、博物館、醫(yī)療機構(gòu)、科研院所等單位密切配合,開展大量的民族地區(qū)民間走訪,采用田野調(diào)查的方式對各種載體形態(tài)的民族醫(yī)藥文獻資源進行搜集。對于印刷型或手寫型文獻,可以通過復(fù)印、掃描、拍照等方式收集;對于刻寫型文獻,通過拍照,拓印等方式收集;對于口碑文獻,可通過文本記錄、錄音、拍攝影像等方式收集。理順收集渠道,采用對外交換,對內(nèi)挖掘,利用搜索引擎對現(xiàn)有的相關(guān)民族醫(yī)藥電子文獻進行篩選等方法,收集與數(shù)字化建設(shè)主題相關(guān)的各類民族醫(yī)藥文獻資源。
112少數(shù)民族醫(yī)藥文獻資源整理根據(jù)數(shù)字化建設(shè)的主題,對民族醫(yī)藥文獻資料進行篩選,按照所制訂好的《民族醫(yī)藥文獻數(shù)字化分類方案》進行分類整理,對于版面信息殘缺不全的民族醫(yī)藥文獻,在數(shù)字化工作之前進行信息補缺或做相應(yīng)的說明,以保證文獻信息的真實性和完整性,然后對原始民族醫(yī)藥文獻進行拆分、拼接、文獻載體清潔處理等數(shù)字化加工前準(zhǔn)備工作,為原始民族醫(yī)藥文獻添加資源標(biāo)示符,以便于資源編目及數(shù)字化掃描等工作,確定適合數(shù)字化建設(shè)主題的元數(shù)據(jù)規(guī)范、文獻標(biāo)引及著錄規(guī)則。
113軟、硬件設(shè)備準(zhǔn)備結(jié)合需要數(shù)字化的資源類型以及需要達到的數(shù)字化效果,根據(jù)數(shù)字化硬件設(shè)備的性能,綜合數(shù)字化建設(shè)項目的考慮和權(quán)衡,選擇適合的數(shù)字化硬件設(shè)備及數(shù)字化軟件平臺,以減少數(shù)字化建設(shè)中出現(xiàn)的故障及數(shù)據(jù)錯誤概率,保障數(shù)據(jù)信息的安全可靠,提高民族醫(yī)藥文獻數(shù)字化建設(shè)的效率。同時根據(jù)民族醫(yī)藥文獻的特點和數(shù)字化軟件平臺的功能,結(jié)合民族醫(yī)藥文獻數(shù)字化項目中的數(shù)據(jù)采集、加工效果、數(shù)據(jù)識別等要求,確定不同載體民族醫(yī)藥文獻的數(shù)字化技術(shù)。
12民族醫(yī)藥文獻資源的數(shù)字化加工與標(biāo)引民族醫(yī)藥文獻數(shù)字化建設(shè)的數(shù)字化準(zhǔn)備工作結(jié)束以后,就需要對少數(shù)民族醫(yī)藥文獻資源進行數(shù)字化加工與制作,主要包括民族醫(yī)藥文獻資源的數(shù)據(jù)采集、數(shù)據(jù)加工標(biāo)引和數(shù)據(jù)存儲三個方面的工作。
121數(shù)據(jù)采集民族醫(yī)藥文獻數(shù)據(jù)采集必須要做到及時、準(zhǔn)確、有效地獲取所需數(shù)據(jù)信息,在數(shù)據(jù)采集中要充分體現(xiàn)民族醫(yī)藥文獻資源的特色,做到民族醫(yī)藥資料的全面性、系統(tǒng)性和連續(xù)性。在民族醫(yī)藥文獻數(shù)據(jù)采集中,需要完成各種載體類型民族醫(yī)藥文獻信息的采集,包括各類紙質(zhì)文獻、圖片資源和音視頻資源以及網(wǎng)絡(luò)資源、現(xiàn)有數(shù)據(jù)庫資源等的采集工作。對于非電子化的資源,還需要通過掃描、拍照、錄入等方式將其轉(zhuǎn)換為電子資源,根據(jù)數(shù)字化加工平臺的格式要求及數(shù)據(jù)采集要求,對所有需要數(shù)字化的資源進行數(shù)據(jù)轉(zhuǎn)換和格式規(guī)范,然后批量導(dǎo)入。
122數(shù)據(jù)加工標(biāo)引在民族醫(yī)藥文獻數(shù)據(jù)采集工作完成后,要對所采集的數(shù)據(jù)信息做進一步的加工處理,以揭示民族醫(yī)藥文獻資源的信息價值。各民族醫(yī)藥文獻在形式以及內(nèi)容上均不統(tǒng)一,增加了數(shù)據(jù)加工和處理的難度,因此,在數(shù)據(jù)加工之前,要做好不同類型資源的轉(zhuǎn)換、統(tǒng)一,同時對數(shù)據(jù)的格式、質(zhì)量做好規(guī)范化處理。
另外,在數(shù)字化加工中,首先需要在數(shù)字化加工平臺中完成數(shù)據(jù)庫的結(jié)構(gòu)搭建,包括數(shù)據(jù)庫的分類結(jié)構(gòu)和元數(shù)據(jù)結(jié)構(gòu),以便于數(shù)據(jù)的標(biāo)引和著錄。然后根據(jù)數(shù)字化平臺所提供的標(biāo)引技術(shù),采用自動標(biāo)引技術(shù)、人工標(biāo)引技術(shù)或者兩者結(jié)合的標(biāo)引方法,依據(jù)所制訂的云南少數(shù)民族醫(yī)藥文獻分類方案、元數(shù)據(jù)方案以及標(biāo)引著錄規(guī)則完成民族醫(yī)藥文獻信息的標(biāo)引和著錄工作。
123數(shù)據(jù)存儲數(shù)據(jù)存儲能對加工標(biāo)引后的數(shù)據(jù)進行科學(xué)有序的存儲和保管,以便于以后對數(shù)據(jù)信息的使用。數(shù)字化工作人員應(yīng)按照規(guī)定的數(shù)據(jù)格式、加工規(guī)則和數(shù)據(jù)順序要求,將加工后的民族醫(yī)藥文獻數(shù)據(jù)信息,通過直接存儲到鏈接存儲設(shè)備上或通過直網(wǎng)絡(luò)方式存儲到云存儲中,在數(shù)據(jù)存儲中要保證民族醫(yī)藥文獻數(shù)據(jù)信息的安全性和完整性。
13云南少數(shù)民族醫(yī)藥文獻數(shù)字化數(shù)據(jù)管理及發(fā)布云南少數(shù)民族醫(yī)藥文獻數(shù)字化建設(shè)的最終目的是便于民族醫(yī)藥的傳播和研究學(xué)習(xí),因此,數(shù)字化加工存儲后,還需要對云南民族醫(yī)藥文獻信息進行發(fā)布和管理,數(shù)據(jù)發(fā)布和管理工作對民族醫(yī)藥文獻信息資源的利用至關(guān)重要[2],需要做好以下幾方面的工作。
131數(shù)據(jù)發(fā)布根據(jù)數(shù)字化成果的使用范圍和使用權(quán)限,將數(shù)字化后的云南民族醫(yī)藥文獻信息發(fā)布到互聯(lián)網(wǎng)上,對不同版權(quán)的文獻信息設(shè)置不同的訪問權(quán)限,以供民族醫(yī)藥研究和學(xué)習(xí)者瀏覽和檢索。
132數(shù)據(jù)安全備份把民族醫(yī)藥文獻信息整理備份到異地存儲或光盤上,可備份數(shù)據(jù)庫結(jié)構(gòu)信息、元數(shù)據(jù)信息,原文信息等,在設(shè)備損壞或網(wǎng)絡(luò)安全出現(xiàn)問題時能有備份數(shù)據(jù)可以恢復(fù),以保證民族醫(yī)藥文獻資源數(shù)據(jù)庫的正常使用。
133數(shù)據(jù)更新云南民族醫(yī)藥文獻資源數(shù)字化建設(shè)是一項長期的系統(tǒng)工程,在完成當(dāng)前的數(shù)字化建設(shè)任務(wù)以后,還需要根據(jù)數(shù)字化主題收集民族醫(yī)藥文獻資源,然后按照所制訂的數(shù)字化方案進行數(shù)據(jù)的持續(xù)更新,保證云南民族醫(yī)藥文獻資源庫資源的可持續(xù)發(fā)展。
2云南少數(shù)民族醫(yī)藥文獻數(shù)字化方法
云南少數(shù)民族醫(yī)藥文獻的載體形態(tài)繁雜,主要有印刷型文獻、刻寫型文獻,同時還存在大量的口碑文獻。另外,各少數(shù)民族醫(yī)藥文獻還存在不同民族文字的情況,因此,在云南民族醫(yī)藥文獻數(shù)字化建設(shè)中,需要將不同載體形式的文獻資料轉(zhuǎn)換為計算機可識別和處理的數(shù)據(jù)信息。因此,數(shù)字化加工人員要針對不同文獻的類型和特點,結(jié)合數(shù)字化建設(shè)要求,選擇最為恰當(dāng)?shù)臄?shù)字化方法。
21印刷型文獻數(shù)字化方法印刷型文獻是以紙為載體,以手寫、打字、印刷為記錄手段而產(chǎn)生的文獻。例如圖書、古籍、文稿、圖譜等。印刷型的文獻的數(shù)字化加工是指利用掃描技術(shù)、識別技術(shù)、數(shù)據(jù)庫技術(shù)、數(shù)據(jù)壓縮技術(shù)等技術(shù)手段把印刷型文獻轉(zhuǎn)化為電子文檔存儲的一種技術(shù)。對印刷型的云南少數(shù)民族醫(yī)藥文獻數(shù)字化可以采用掃描錄入方式進行模數(shù)轉(zhuǎn)換,這是最常用的數(shù)字化處理方法。這種方法的工作原理是采用掃描儀或數(shù)碼相機等光學(xué)輸入設(shè)備,將文本類民族醫(yī)藥文獻按照其原貌轉(zhuǎn)換為能夠在計算機上處理的圖像文件,文字部分可以通過OCR光學(xué)字符識別技術(shù)對所掃描的文字進行識別,轉(zhuǎn)換為計算機能處理的文字。采用掃描錄入方法能夠很好的展現(xiàn)文獻的原貌,具有投入少、費用低、速度快等優(yōu)點。
22刻寫型文獻數(shù)字化方法云南少數(shù)民族醫(yī)藥古籍中存在大量的刻寫型文獻,即金石文獻,如傣族的貝葉經(jīng),早期彝族的碑刻文獻等。對于可寫性文獻的數(shù)字化方法,可采用拓印后掃描、數(shù)字拍攝等方式進行數(shù)字化[3]。經(jīng)過掃描、拍攝轉(zhuǎn)換成圖像文件以后進行數(shù)字化加工處理。在加工處理過程中要注意保持文獻的原貌,因此需要考慮圖像處理的相關(guān)技術(shù)。
數(shù)字化后的圖像文獻一般要運用圖像處理軟件進行優(yōu)化處理,進行圖像裁剪、圖像效果加強、圖像壓縮、圖片數(shù)據(jù)轉(zhuǎn)換等操作,以得到更好的圖片效果。比較常用的圖像處理軟件有Photoshop、Fireworks等。常用的數(shù)字化圖像存儲格式有TIF格式、JPEG格式、BMP格式等。圖像文件的數(shù)據(jù)量一般比較大,所需要的存儲空間也較大,因此,需要根據(jù)存儲空間以及圖像的需求進行圖片處理。
23口碑文獻數(shù)字化方法云南少數(shù)民族中流傳著許多反映各少數(shù)民族傳統(tǒng)醫(yī)學(xué)藥理內(nèi)容的故事、傳說、歌謠、諺語等,它們是各民族文化的族群記憶,對考證各民族醫(yī)藥的起源、形成和發(fā)展有著重要價值。對于此類口碑文獻的數(shù)字化,需要從文獻采集工作開始。可以通過人工記錄、錄音或拍攝影像等方式采集口碑文獻,然后再進行數(shù)字化加工。人工記錄的資料可通過人工錄入或掃描的方式進行數(shù)字化加工,錄音或視頻數(shù)字化需要考慮到音視頻加工技術(shù)。
音頻文獻數(shù)字化,是將音頻資料通過音頻轉(zhuǎn)換設(shè)備進行識別、轉(zhuǎn)換、壓縮,生成標(biāo)準(zhǔn)格式的電子文件,并編目以及建立標(biāo)引信息的過程。在音頻文獻數(shù)字化過程中需要注意兩點:一是采集聲音文件時音量要適當(dāng),如果采集音量太小,則得到的聲音文件會有損失;如果采集音量太大,則音量過載,得到的聲音文件就會變形,不能使用。二是要進行降噪處理,對于有噪音的聲音要進行優(yōu)化處理,原則上是以過濾掉雜音為主,但不能過于依賴降噪器,以防止聲音文件本身及聲音細節(jié)受到損失。常用的音頻處理軟件有GoldWave、Music Match等,常用的音頻存儲格式有WAVE格式、MP3格式、RM格式等。
視頻文獻的數(shù)字化類似于音頻文獻的數(shù)字化,也是需要通過專業(yè)的視頻轉(zhuǎn)換設(shè)備對視頻文獻資源進行識別、轉(zhuǎn)換、壓縮,生成標(biāo)準(zhǔn)格式的電子文件,并將其編目標(biāo)引。視頻文獻數(shù)字化的過程并不比音頻文獻數(shù)字化的復(fù)雜,在對視頻資料的處理中,需要使用視頻制作軟件對采集好的視頻文件進行切割、優(yōu)化等處理,最后進行格式轉(zhuǎn)換、壓縮、存檔并上傳到數(shù)據(jù)庫中。相對于音頻文件來說,視頻文件占用的儲存空間較大,因此,選擇的視頻存儲格式既要保證畫質(zhì)清晰,同時還要考慮占用空間和下載速度的問題。常用的視頻處理軟件有Adobe Premiere、Movie Maker等,常用的視頻存儲格式有AVI格式、MPEG格式、RM格式等。
24民族文字數(shù)字化方法我國的55個少數(shù)民族中有23個有自己的文字,到目前為止,只有藏、滿、蒙古、朝鮮、維吾爾、柯爾克孜、傣、彝、壯和哈薩克等10種少數(shù)民族的語言文字能夠進行計算機文字處理,并能夠與漢、英等文字實現(xiàn)兼容。少數(shù)民族語言文字在數(shù)字化處理上的瓶頸,給民族醫(yī)藥文獻的數(shù)字化建設(shè)帶來了一定的困難[4]。目前,民族醫(yī)藥文獻中的民族文字的文本數(shù)字化處理方式主要有兩種:有民族文字字庫的,可以通過OCR光學(xué)掃描識別技術(shù)進行掃描輸入,這種方式大大提高了加工標(biāo)引的效率。無民族文字字庫的一般是將民族文字文獻原件轉(zhuǎn)化為圖像文件,然后利用人工手段進行識別標(biāo)引成漢字,這種方式存在加工成本高、加工效率低下等缺點。使用漢字而讀音與漢語不同的,可在進行讀音標(biāo)引時單獨做標(biāo)注,全方位展現(xiàn)民族醫(yī)藥文獻的特色。
對民族醫(yī)藥文獻資源進行收集整理,并進行進一步的數(shù)字化建設(shè)是開發(fā)利用民族醫(yī)藥資源的有效途徑,數(shù)字化技術(shù)的發(fā)展為民族醫(yī)藥文獻的整理發(fā)掘以及長期保存提供了強大的技術(shù)支持,民族醫(yī)藥信息資源的系統(tǒng)整理和有效管理是開發(fā)利用民族醫(yī)藥資源的基礎(chǔ)[5]。在“云時代”到來的大背景下,開發(fā)利用和共建共享具有代表性的民族醫(yī)藥信息資源,對及時搶救和保護民族醫(yī)藥文化遺產(chǎn),深度挖掘民族醫(yī)藥文獻資源的價值,促進民族醫(yī)藥事業(yè)發(fā)展具有重要的現(xiàn)實意義。
參考文獻
[1]葛潔敏. 高?;疑墨I數(shù)字化研究[D].鄭州:鄭州大學(xué),2010.
[2]曹霞,常存庫,裴麗.中醫(yī)古籍?dāng)?shù)字化建設(shè)及其平臺設(shè)計和實現(xiàn)[J]. 中華醫(yī)學(xué)圖書情報雜志,2016(03):45-47,53.
[3]侯艷,江蓉星,任玉蘭,等. 中醫(yī)藥古籍孤本文獻的保護與數(shù)字化建設(shè)[J]. 中華醫(yī)學(xué)圖書情報雜志,2011(02):30-31,70.
[4]趙東.論少數(shù)民族古籍的數(shù)字化建設(shè)[C].第十次全國民族地區(qū)圖書館學(xué)術(shù)研討會論文集.2008:279-286.
[5]諸國本.民族醫(yī)藥文獻發(fā)掘整理現(xiàn)狀及對策研究[J].中國民族醫(yī)藥雜志,2012(1):5-9.
(收稿日期:2017-04-27編輯:穆麗華)