,, ,
在科研文獻呈指數增長的大背景下,文獻中的非文本型(圖片、表格、數據等)文件逐漸累積。隨著數字出版技術的興起,隨之而來的是科技期刊、文獻及其包含的非文本文件的全新展現形式和交互方式:在線閱讀、圖片的展示與檢索、表格的動態(tài)操作、數據的外部鏈接等等[1]。非文本型文件的內容大多簡單易讀,能直接反映文獻所涉及的研究內容、研究方法和研究結果,對文獻內容的描述具有不可替代的作用。尤其是在生物醫(yī)學領域,圖片等是醫(yī)學知識傳播的重要載體。研究人員在閱讀醫(yī)學類文獻時,首先會關注到文獻中的圖表信息,對圖表信息的感興趣度也會直接影響到研究人員閱讀科技文獻的方式。
由于全文文獻中的非文本型文件類型多樣、描述信息復雜,對其管理造成了困難。到目前為止,各大出版社、圖書館在基于非文本型文件的文獻聚類與檢索領域的工作已開展相關研發(fā)工作[2]。本文以生物醫(yī)學領域全文期刊為研究對象,量化分析多類型文件的類型與規(guī)模等信息,并尋求有效的管理和利用方法,進而充分利用文獻的各類資源。
數字出版是期刊文獻中多類型文件量化分析的前提,其相關技術的不斷發(fā)展豐富了科技期刊的出版形式,使文獻的閱讀不僅限于面上文字。視頻、外部鏈接等附件形式的出現,提升了讀者的閱讀興趣。20世紀 90 年代互聯網技術快速崛起,數字出版技術也隨之興起[3]。在經歷了多年的迅猛發(fā)展之后,全球數字出版產業(yè)發(fā)展勢頭趨于平穩(wěn),我國數字出版產業(yè)繼續(xù)保持強勁增長勢頭。2014年國內數字出版產業(yè)整體收入規(guī)模為 3 387.7 億元[4],2015年為4 403.85億元,比2014年增長30%。其中,互聯網期刊、電子圖書、數字報紙的總收入為74.45億元,比2014年增長了6.66%[5-6]。
數字出版的興起和發(fā)展,使得科技期刊的出版形式、傳播手段、閱讀方式、市場主體等都發(fā)生了巨大變化[7]。國際上領先的出版商,包括 Thomson、John Wiley、Springer、Elsevier 等都已依托數據庫,建立了成熟的專業(yè)化數字出版模式。與此同時,圖書館和機構知識庫作為科技期刊和科技文獻的重要載體,也在著力研究數字出版技術、數據庫存儲和管理技術等。
華盛頓大學的Po-shen Lee等人[8]對科技文獻中圖片類文件的存在現狀進行了統(tǒng)計,并對其進行了識別和分析:按照方程、示意圖、照片、線性圖和表格將PMC文獻中的圖片分為5類(包括對組合圖的拆解),其中線形圖占比最多,為35.0%;其次為照片,占22.7%。為了方便文獻中圖片文件的檢索和查詢,該團隊還在此研究基礎上開發(fā)了VizioMetrix檢索系統(tǒng),支持對PMC文獻的圖片文件按照方程、示意圖、照片、線性圖和表格進行分類檢索和閱讀,并可以通過點擊圖片獲得其所在文章的相關信息,如作者、摘要、鏈接和相關文件等。
美國密歇根大學的Zhe Chen等人[9]研發(fā)了一種科技文獻中圖片的分析與識別工具DiagramFlyer。該工具能夠識別出153 000篇文獻中的319 000個圖片信息,并解析出圖片的文本標簽,如圖片的坐標軸信息、圖例信息等。用戶可使用關鍵詞檢索的方法對圖片進行檢索。
本文對生物醫(yī)學領域全文文獻所包含的所有文件類型進行了解析和量化分析。
本文以PMC(PubMed Central)收錄的1 815種期刊中包含的891 334篇文獻作為研究數據。PMC將期刊全文按照JATS(Journal Article Tag Suite)標準存儲[10]在nxml文件中,其他附件如圖片、壓縮包、數據文件、視頻等附在對應的nxml文件所在文件夾中。通過對JATS標準的文件內容進行標簽解析,將提取出所需標簽內的數據存儲到MongoDB數據庫中,附件則以文章名稱命名的方式與該期刊全文進行映射,同時進行結構化存儲。
一篇PMC的全文文獻可以大致分為3個主體部分,分別用,,back>標簽[11-12]標記。為了能夠實現文獻中所有附件的相互映射,實驗通過提取
表1 科技文獻圖表結構化描述信息的提取方法研究所使用的JATS標簽及其含義
對數據集進行了初步結構化存儲之后,共獲得891 334篇文獻,其附件數量為9 613 877。根據附件后綴名和附件表現形式將其分為幾個大類以便對期刊全文多類型附件能進行更直觀的分析。分類方法如表2所示。
表2 全文期刊附件類型分類統(tǒng)計表
經統(tǒng)計,圖片在附件中所占的比例為80.91%,表格在附件中的比例為14.89%,分列附件所占比例的前兩位,二者共占附件總數的95%以上,而文檔、數據、視頻、網頁、壓縮包等其他格式則只占附件總數的5%。由此可見,圖片和表格是期刊文獻中對實驗流程及實驗結果的主要展示形式。因此,圖片和表格是本文中多類型文件量化分析的重點。為了對生物醫(yī)學領域全文期刊中多類型附件進行進一步分析,本文根據JATS數據存儲標準,對全文文獻進行解析,并將提取出來的標簽信息存儲在MongoDB數據庫中。再從附件多樣性、附件數量、出版時間、出版來源覆蓋面等方面進行期刊遴選,最終篩選出30種目標期刊。
選取這30種期刊1996年至2015年期間刊載的文獻作為下一步實驗數據。期刊種類的權重篩選方法如下:首先通過
圖1 多類型文件量化分析的實驗流程
如圖2所示,壓縮包、視頻、數據和文檔這4類附件的坐標軸為左側主坐標軸,圖片使用的坐標軸為右側副坐標軸。該柱狀圖展現了30種目標期刊在1996-2015年附件類型的變化趨勢。
從圖2可以看出,在2006年之前,全文期刊中的附件數量是比較少的,從2006年以后才開始快速增長;在2014-2015年期間出版的文獻中,壓縮包的數量為3 949個,視頻的數量為8 516個,數據文件的數量為31 862個,文檔的數量為52 545個,圖片的數量為1 445 167個。
圖2 1996-2015年目標期刊附件數量的變化趨勢
由圖2可以看出,2014-2015年的數量是其他4類附件總數的15倍左右,可見圖片在當前的生物醫(yī)學領域全文期刊附件中占比相當高。相比其他附件,作者更傾向于使用圖片作為論文內容的展示形式。同時, doc/docx格式在文檔類附件中所占比例在80%以上,jpg/jpeg格式在圖片類附件中所占比例在50%以上,說明這兩種格式在科技論文的發(fā)表及展示過程中尤為常見。因此對于我們后續(xù)的分析有較高的研究價值。
為了獲悉每篇科技文獻中圖片的出現頻率,統(tǒng)計了這30種期刊每年的文章數量及圖片數量,得出文章數量變化趨勢圖和圖片/文章數量變化趨勢(圖3、圖4)。
圖3 1996-2014年目標期刊文章數量變化趨勢
圖4 1996-2014年目標期刊圖片/文章數量變化趨勢
2005年以前PMC收錄這30種期刊的文章數比較有限,從2005年開始呈現大幅度的增長,2006年收錄4 635篇文章,2014年增至42 374篇。圖片/文章數也從2006年的平均10.7張/篇,增長到了2014年的20.69張/篇。由于2005年之前每年的文章數量比較少,因此統(tǒng)計出的圖片與文章數之比參考意義不大。
統(tǒng)計分析結果顯示,自2005年期刊文章數量與篇級圖片數均有有顯著增長,這與數字出版行業(yè)的發(fā)展密切相關。生物醫(yī)學領域開放獲取期刊電子化程度也越來越高,存儲PMC的相關文章也開始逐漸增多。通過對統(tǒng)計數據的調查研究發(fā)現,PMC的圖片附件中一般對于圖片都保存有低分辨率和高分辨率兩個版本,低分辨率圖一般作為網頁縮略圖展示使用,而高分辨率圖一般在作為圖片解釋頁使用。同時,在部分期刊中有大部分的數學公式是以圖片的形式存儲的。這些因素導致我們統(tǒng)計結果中圖片與文章數之比相對較高,但眾多的圖片數量仍然體現了圖片在文獻中的重要作用。
本文發(fā)現非文本型(圖片,表格、視頻等)文件急劇增長,且圖片和表格的占比較高、增速較快??萍嘉墨I中的圖片和表格將作為下一步研究對象,將從圖像和表格管理與利用、圖片和表格標簽信息提取與挖掘等方面開展的研究,如圖片和表格類型的識別,圖片和表格文本以及語義標簽的提取等。通過對文獻的非文本文件的分析,將提高全文科技文獻的存儲管理及挖掘利用。