李曉明(國(guó)家圖書(shū)館 北京 100081)
中文字符數(shù)轉(zhuǎn)模清晰度研究*
李曉明(國(guó)家圖書(shū)館 北京 100081)
中、英文字符在結(jié)構(gòu)、數(shù)量、字體等方面存在差異,相較來(lái)說(shuō),中文字符需要的線對(duì)數(shù)要求更高。數(shù)轉(zhuǎn)模技術(shù)結(jié)合中文字符的特征,以文字使用頻率和筆畫(huà)復(fù)雜度為遴選依據(jù),確定中文典型字符。以中文典型字符為研究對(duì)象,采用縮微影像可讀性質(zhì)量分析、文字光學(xué)等級(jí)測(cè)算和實(shí)驗(yàn)驗(yàn)證等方法進(jìn)行分析,有助于厘清解像力、縮率與字符高度等要素的關(guān)系,提出數(shù)轉(zhuǎn)模技術(shù)對(duì)被拍攝中文字符高度的要求。中文字符數(shù)轉(zhuǎn)模工作的順利開(kāi)展,有利于保證文獻(xiàn)拍攝清晰度符合要求,實(shí)現(xiàn)對(duì)文獻(xiàn)的保護(hù)。
數(shù)轉(zhuǎn)模 光學(xué)等級(jí) 中文字符 解像力
數(shù)轉(zhuǎn)模技術(shù)是將數(shù)字圖像通過(guò)數(shù)字存檔機(jī)轉(zhuǎn)換到縮微膠片上進(jìn)行長(zhǎng)期保存的技術(shù),是對(duì)珍貴數(shù)字資源異質(zhì)備份的有效手段,是數(shù)字資源長(zhǎng)期保存的有效途徑。
近年來(lái),全國(guó)圖書(shū)館文獻(xiàn)縮微復(fù)制中心(以下簡(jiǎn)稱(chēng)縮微中心)帶領(lǐng)多家成員館開(kāi)展了數(shù)轉(zhuǎn)模轉(zhuǎn)換和設(shè)備研發(fā)工作,并從中發(fā)現(xiàn)了數(shù)轉(zhuǎn)模技術(shù)影像質(zhì)量標(biāo)準(zhǔn)中存在的問(wèn)題。當(dāng)前國(guó)內(nèi)數(shù)轉(zhuǎn)模技術(shù)所采用的相關(guān)標(biāo)準(zhǔn)均由國(guó)外標(biāo)準(zhǔn)轉(zhuǎn)化而來(lái),而以國(guó)外相關(guān)標(biāo)準(zhǔn)考察中文文獻(xiàn)縮微影像,其清晰度并未達(dá)到理想水平。這是由于中文字符與英文字符在文字結(jié)構(gòu)上的差異造成的。然而在實(shí)際工作中,這一點(diǎn)并沒(méi)有引起業(yè)界重視。業(yè)界普遍認(rèn)為以120線對(duì)/毫米的解像力標(biāo)準(zhǔn)進(jìn)行數(shù)轉(zhuǎn)模轉(zhuǎn)換便可得到令人滿意的影像,而忽略了字符結(jié)構(gòu)的復(fù)雜程度對(duì)文字影像清晰度的影響。在此情況下,制定一套針對(duì)中文字符的數(shù)轉(zhuǎn)模技術(shù)標(biāo)準(zhǔn)來(lái)規(guī)范我國(guó)數(shù)轉(zhuǎn)模技術(shù)應(yīng)用,是現(xiàn)階段亟待開(kāi)展的工作。本文對(duì)中文字符進(jìn)行系統(tǒng)分析,找出中文字符典型特征與數(shù)轉(zhuǎn)模各項(xiàng)技術(shù)參數(shù)之間的關(guān)系,從而提出中文字符原件的標(biāo)準(zhǔn)要求,為中文字符數(shù)轉(zhuǎn)模技術(shù)標(biāo)準(zhǔn)的制定提供理論基礎(chǔ)。
中文字符結(jié)構(gòu)是指字符的形體和筆畫(huà)的復(fù)雜程度。在數(shù)轉(zhuǎn)模領(lǐng)域,字符結(jié)構(gòu)是需要重點(diǎn)關(guān)注的,它和系統(tǒng)解像力、拍攝倍率、字符高度以及文獻(xiàn)的背景反差等縮微技術(shù)參數(shù)共同作用,決定著字符影像的清晰程度。
根據(jù)國(guó)家標(biāo)準(zhǔn)GB/T 16573-2008的早期版本GB/T 16573-1996《縮微攝影技術(shù)——在16mm和35mm銀明膠型縮微卷片上拍攝文獻(xiàn)的操作程序》中附錄D顯示,每個(gè)字符都有一定的光學(xué)等級(jí)(符號(hào)為C),并通過(guò)下列公式計(jì)算:C=H/d。其中,H為字型的大寫(xiě)字符的高度,d為基本細(xì)部尺寸(基本細(xì)部可以理解為字符的最小線條寬度)[1]。
通過(guò)上述公式可以看到,在中文字符結(jié)構(gòu)方面影響字符影像清晰度的關(guān)鍵在于字符的線條寬度。字符的結(jié)構(gòu)越復(fù)雜,則線條寬度越小,光學(xué)等級(jí)越高。而光學(xué)等級(jí)越高代表字符可讀性越低。
在數(shù)轉(zhuǎn)模技術(shù)參數(shù)中,系統(tǒng)解像力為拍攝系統(tǒng)的固定參數(shù),按國(guó)家標(biāo)準(zhǔn)要求應(yīng)達(dá)到120線對(duì)/毫米;文獻(xiàn)的背景密度反差可通過(guò)曝光技術(shù)使其符合國(guó)家標(biāo)準(zhǔn),其中涉及的變量是拍攝倍率、字符高度和字符線條寬度。
若要根據(jù)參數(shù)關(guān)系,獲得數(shù)轉(zhuǎn)模字符標(biāo)準(zhǔn),則需要固定字符線條寬度,從而對(duì)其他兩項(xiàng)參數(shù)進(jìn)行分析和研究。固定字符線條寬度的前提是明確研究對(duì)象,即遴選出中文典型字符。
表1 中文字符筆畫(huà)與使用頻率統(tǒng)計(jì)分析表
對(duì)于英文字符,通常選用小寫(xiě)字母“e”為典型字母,這是由于在英文文獻(xiàn)印刷時(shí),“e”字的清晰度最小。如果“e”的清晰度符合預(yù)定要求,那么其他字符的清晰度則都可以達(dá)到標(biāo)準(zhǔn)。1956年,美國(guó)NBS攝影技術(shù)部制作了“NBS解像力測(cè)試圖卡的使用法”手冊(cè),其中有關(guān)于縮微膠片清晰度的鑒別基準(zhǔn)項(xiàng)目,均采用字母“e”作為典型字符。然而,中文字符的識(shí)別與英文字符相比存在著很大的差異,如二者在字符遠(yuǎn)近粘連、字體字符數(shù)量、形狀拓?fù)洳顒e等方面各具特殊性。所以,在中文字符的清晰度鑒別上,“e”并不能作為參照,需要選取相應(yīng)的中文典型字符。
在中文典型字符的選取過(guò)程中,我們以《通用規(guī)范漢字表》為基礎(chǔ),其將中文字符總共分為三級(jí):一級(jí)字表為常用字集,收字3 500個(gè),主要滿足基礎(chǔ)教育和文化普及的基本用字需要。二級(jí)字表收字3 000個(gè),使用度僅次于一級(jí)字。一、二級(jí)字表合計(jì)6 500字,主要滿足出版印刷、辭書(shū)編纂和信息處理等方面的一般用字需要。三級(jí)字表收字1 605個(gè),為姓氏人名、地名、科學(xué)技術(shù)術(shù)語(yǔ)和中小學(xué)語(yǔ)文教材文言文用字中未進(jìn)入一、二級(jí)字表的較通用的字,主要滿足各專(zhuān)門(mén)領(lǐng)域的用字需要[2]。在選取的過(guò)程中,我們以一級(jí)字表中的字符為選取范圍,以筆畫(huà)密度高、使用頻率高為原則,進(jìn)行典型字符的篩選。中文字符結(jié)構(gòu)復(fù)雜,僅選出某一文字作為典型字符是不具備代表性的。因此,筆者結(jié)合多重判斷條件,遴選出一組字符作為研究對(duì)象,結(jié)合相關(guān)漢字的使用頻率表和漢字的筆畫(huà)復(fù)雜程度[3],制作了數(shù)據(jù)統(tǒng)計(jì)分析表,如表1所示。
根據(jù)對(duì)一級(jí)字表中的漢字的橫畫(huà)進(jìn)行統(tǒng)計(jì),結(jié)合漢字的復(fù)雜程度與字符的檢出率,我們初步確定中文典型字符為 “是”“事”“藏”“最”“露”“量”“警”“?!?。
在確定中文典型字符的基礎(chǔ)上,我們需要結(jié)合縮微技術(shù)成像原理及相關(guān)標(biāo)準(zhǔn),對(duì)上述字符進(jìn)行分析研究。首先確定字符線條寬度,從而得到拍攝縮率和字符高度之間的對(duì)應(yīng)關(guān)系,即在系統(tǒng)解像力為120線對(duì)/毫米的國(guó)家標(biāo)準(zhǔn)條件下,找出不同縮率對(duì)應(yīng)的被拍攝原件文字高度標(biāo)準(zhǔn)的計(jì)算方法。
在中文典型字符分析中,筆者采用的方法是字符縮微影像可讀性質(zhì)量分析法,分析對(duì)象是上述典型中文字符中最為復(fù)雜的“警”和“?!薄?/p>
在分析研究中,除了考慮文字本身的選取以外,我們還要考慮典型字符的字體。不同字體的光學(xué)等級(jí)不同,可識(shí)別程度也不同,因此典型字符的字體也是決定字符線條寬度的關(guān)鍵因素。在字體的選擇上,我們利用光學(xué)等級(jí)計(jì)算公式,對(duì)較為常用的宋體、楷體、黑體、隸書(shū)進(jìn)行初步測(cè)算,每種字體所對(duì)應(yīng)的光學(xué)等級(jí)數(shù)值如表2所示。
表2 不同字體對(duì)應(yīng)的光學(xué)等級(jí)數(shù)值
從表2我們可以看出,宋體的光學(xué)等級(jí)最高,也就是識(shí)別度最差。因此,我們選擇宋體為研究對(duì)象的字體,便于適用到中文字符所有字體。
在選定典型字符和字體的基礎(chǔ)上,我們需要對(duì)字符線條寬度進(jìn)行測(cè)量,并利用字符縮微影像可讀性質(zhì)量分析方法進(jìn)行進(jìn)一步分析研究。
字符縮微影像可讀性質(zhì)量分析可借鑒小穴純教授針對(duì)日文漢字縮微影像可讀性的研究成果。他在理論分析的基礎(chǔ)上提出了影像質(zhì)量的計(jì)算公式和像質(zhì)分級(jí)標(biāo)準(zhǔn),最終指出:日文漢字縮微影像的可讀性質(zhì)量(Q),與原件上漢字兩相鄰線條的最小距離,即細(xì)密度(S)和攝影解像力(R)成正比,而與拍攝時(shí)的縮率(M)成反比[4],如圖1所示計(jì)算公式為:
同時(shí),將Q值分為3個(gè)質(zhì)量等級(jí),分別為:
Q≥2.5 影像清晰
2.5 > Q≥1 影像可分辨
Q<1 影像不清晰
圖1 字符高度與細(xì)密度圖示
為了力求精確,筆者在word中將文字大小設(shè)置為700磅,對(duì)文字的高度及細(xì)密度進(jìn)行測(cè)量,并計(jì)算出高度與細(xì)密度的比值,結(jié)果如表3所示。
結(jié)合數(shù)轉(zhuǎn)模設(shè)備、膠片和光學(xué)成像原理,筆者將系統(tǒng)解像力設(shè)定為國(guó)家標(biāo)準(zhǔn)中要求的120線對(duì)/毫米,將縮率隨機(jī)設(shè)定為7.4、10.5和14.8,將質(zhì)量等級(jí)設(shè)定為2.5及1.0,帶入公式1,并參照表3中計(jì)算出的文字高度與細(xì)密度的比值,可推算出中文字符的最小高度要求,如表4、表5、表6所示。
表3 基于不同文字的影像可讀性分析表
表4 “e”字字高數(shù)值對(duì)照表
表5 “警”字字高數(shù)值對(duì)照表
表6 “?!弊肿指邤?shù)值對(duì)照表
上述理論分析是在解像力符合國(guó)家標(biāo)準(zhǔn)的情況下,在不同字符、不同縮率、不同安全系數(shù)條件下,對(duì)文字的最小高度要求。從表4、表5、表6可以看出,數(shù)轉(zhuǎn)模技術(shù)對(duì)中、英文字符的最小字符要求差距較大。經(jīng)分析,筆者認(rèn)為,“?!弊譃檩^復(fù)雜的常用文字,在一定程度上能體現(xiàn)常用中文字符的復(fù)雜程度。因此,在系統(tǒng)解像力為120線對(duì)/毫米、縮率為7.4時(shí),原始文獻(xiàn)文字高度需高于2.4毫米;縮率為10.5時(shí),原始文獻(xiàn)文字高度需高于3.41毫米;縮率為14.8時(shí),原始文獻(xiàn)文字高度需高于4.81毫米。
這里需要說(shuō)明的是,上述結(jié)論只適用于印刷字體,而不適用于手稿、油印件或是質(zhì)量較差的原件。
為驗(yàn)證上述理論值是否可靠,我們選用3張數(shù)轉(zhuǎn)模設(shè)備檢測(cè)標(biāo)板,分別為7.4倍、10.5倍和14.8倍,以“是”“事”“藏”“最”“露”“量”“警”“?!?個(gè)字符作為檢驗(yàn)字符,如圖2所示,用數(shù)轉(zhuǎn)模設(shè)備OP300進(jìn)行拍攝,采用FP505沖洗機(jī)進(jìn)行沖洗,在顯微鏡下觀察試片、文字清晰度和文字高度。
5.1 觀察方法及原則
在觀察過(guò)程中,首先觀察固定縮率下能看清楚的文字高度,然后觀察在此縮率下所看到的測(cè)試圖的讀數(shù),并詳細(xì)記錄。按照此方法對(duì)7.4倍、10.5倍和14.8倍3塊標(biāo)板進(jìn)行觀察,并記錄觀察數(shù)據(jù)。用顯微鏡觀察測(cè)試圖樣時(shí),如果某個(gè)測(cè)試圖樣上兩個(gè)方向的線條都能區(qū)別清楚且筆畫(huà)等寬,則認(rèn)為是可以分辨的;如果出現(xiàn)有某個(gè)筆畫(huà)突然變細(xì)的情況,則判定此字不能分辨清楚。按上述原則讀取并記錄可分辨的最小圖樣和最小字符高度。
5.2 實(shí)驗(yàn)結(jié)果
圖2 實(shí)驗(yàn)用技術(shù)標(biāo)板
筆者綜合表7數(shù)據(jù)與表5和表6中文字高度的理論數(shù)值進(jìn)行對(duì)比,考慮拍攝、沖洗等環(huán)節(jié)導(dǎo)致的誤差等因素,可以判斷實(shí)驗(yàn)數(shù)據(jù)與理論數(shù)據(jù)基本吻合,可證明上述推斷方法具有參考意義。
表7 實(shí)驗(yàn)中縮率、解像力、字高對(duì)應(yīng)關(guān)系表
6.1 中文字符標(biāo)準(zhǔn)要求
根據(jù)上述理論分析及實(shí)驗(yàn)結(jié)果,在將質(zhì)量等級(jí)設(shè)定為2.5的情況下,數(shù)轉(zhuǎn)模工作可將字符高度標(biāo)準(zhǔn)要求設(shè)定如表8所示。
表8 文字高度與縮率、解像力關(guān)系
本文所選典型字符為中文字符中最為復(fù)雜的文字,因此,在制定標(biāo)準(zhǔn)時(shí),文字高度最小值不必完全按照理論值進(jìn)行設(shè)定。在實(shí)際工作中,數(shù)轉(zhuǎn)模工作者可結(jié)合工作項(xiàng)目情況和文字特點(diǎn),自行選取典型字符按上述方法計(jì)算文字高度標(biāo)準(zhǔn)。同時(shí),在質(zhì)量等級(jí)的選擇上,數(shù)轉(zhuǎn)模工作者可根據(jù)項(xiàng)目需求在1到2.5之間選擇。
6.2 數(shù)轉(zhuǎn)模中文字符標(biāo)準(zhǔn)應(yīng)用情況
自2011年縮微中心開(kāi)始數(shù)轉(zhuǎn)模工作,截止到2015年底完成約140萬(wàn)拍的數(shù)字文獻(xiàn)搶救工作,建立了完善的工作流程與攝制標(biāo)準(zhǔn),并且將上述理論應(yīng)用于實(shí)際工作中。
以地方志數(shù)字資源轉(zhuǎn)換為縮微膠片工作為例,縮微中心在數(shù)字文獻(xiàn)選取之初,先對(duì)文獻(xiàn)進(jìn)行整理,測(cè)量待拍攝原件原始尺寸及文字高度。根據(jù)文獻(xiàn)原始尺寸確定拍攝縮率,以確保文獻(xiàn)影像大小符合國(guó)家標(biāo)準(zhǔn)。之后結(jié)合已確定的縮率和文獻(xiàn)文字高度,確定文獻(xiàn)拍攝清晰度是否符合要求。目前,地方志數(shù)轉(zhuǎn)模項(xiàng)目采用雙畫(huà)幅拍攝,縮率在10~14倍之間,按照表8 的縮率與文字高度的對(duì)應(yīng)關(guān)系,最小文字高度應(yīng)在4.05毫米到5.7毫米之間。若文字高度低于此標(biāo)準(zhǔn),則利用120線對(duì)/毫米的解像力將無(wú)法得到完全清晰的縮微影像,這就需要通過(guò)提高系統(tǒng)解像力來(lái)提升影像的清晰度。目前,縮微中心所拍攝的地方志的文獻(xiàn)高度一般在6.5毫米左右,已高于該項(xiàng)目文字高度要求,經(jīng)質(zhì)檢檢驗(yàn),拍攝的文獻(xiàn)清晰度符合要求。
中、英文字符在結(jié)構(gòu)、數(shù)量、字體等多方面存在差異,中文字符結(jié)構(gòu)比英文字符更為復(fù)雜,字符細(xì)密度相差很大,在相同清晰度下,相應(yīng)需要的線對(duì)數(shù)要求更高。數(shù)轉(zhuǎn)模技術(shù)在中文字符拍攝時(shí)需緊密結(jié)合中文字符的特征,將字體的光學(xué)等級(jí)與數(shù)轉(zhuǎn)模成像特點(diǎn)結(jié)合起來(lái)進(jìn)行分析,進(jìn)而確定中文字符在數(shù)轉(zhuǎn)模選取拍攝原始文件字體高度、縮率及解像力要求。同時(shí),鑒于漢字結(jié)構(gòu)所具有的復(fù)雜性、多樣性和密集性等特點(diǎn),數(shù)轉(zhuǎn)模工作還需要在后期大量實(shí)驗(yàn)基礎(chǔ)上,對(duì)前期數(shù)據(jù)進(jìn)行不斷修正與整合,建立適合數(shù)轉(zhuǎn)模中文字符影像質(zhì)量控制方法,保證國(guó)內(nèi)數(shù)轉(zhuǎn)模的拍攝質(zhì)量。
[1]GB/T 16573-1996縮微攝影技術(shù)——在16mm和35mm銀明膠型縮微卷片上拍攝文獻(xiàn)的操作程序[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,1996.
[2]教育部國(guó)家語(yǔ)言文字工作委員會(huì).通用規(guī)范漢字表[M].北京:語(yǔ)文出版社, 2013:4-41.
[3]漢字使用頻率統(tǒng)計(jì)[EB/OL].[2016-03-21].http://wenku.baidu.com/view/0902c8cf05087632311212b3.html.
[4]中國(guó)檔案學(xué)會(huì)檔案縮微技術(shù)委員會(huì).第一次檔案縮微技術(shù)討論會(huì)論文選集 [C].北京:檔案出版社, 1991:141-143.
Research on the Technology of COM Concentrated on the Field of Chinese Characters
Chinese characters need higher logarithmic demand for the differences in structure, amount and font features between Chinese and English characters.The technology of COM(Computer Output Microfilm) determines typical Chinese characters by combining the features of Chinese characters, and using the frequency and the complexity of the strokes as the selection basis.It is helpful to analyze the relationship of resolution, shrinkage and text height, and determine the requirements in height of the Chinese characters in technology of COM to take typical Chinese characters as research object, and analysing by readability quality estimation method, text optical grade calculations and experimental verification methods.The development of COM would protect the documents and ensure the film clarity of the documents.
Computer Output Microfilm(COM); Optical grade; Chinese characters; Resolution
G255.72
A
*本文系2015年度國(guó)家文化科技提升計(jì)劃項(xiàng)目“中文字符數(shù)轉(zhuǎn)模技術(shù)研究”的成果之一,項(xiàng)目編號(hào):2015-05。
李曉明 女,1970年生,現(xiàn)工作于國(guó)家圖書(shū)館,副研究館員,研究方向?yàn)槲墨I(xiàn)保存保護(hù)及數(shù)字化服務(wù),已發(fā)表論文10余篇。
2016-03-31 ]