• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用VBA一鍵提取Word論文上網(wǎng)元數(shù)據(jù)

      2018-12-25 05:55:16劉永強馬昕紅
      學報編輯論叢 2018年0期
      關鍵詞:參考文獻

      劉永強,馬昕紅,樊 坤

      ?

      利用VBA一鍵提取Word論文上網(wǎng)元數(shù)據(jù)

      劉永強,馬昕紅,樊 坤

      (西安熱工研究院有限公司熱力發(fā)電編輯部,西安 710054)

      為了減少期刊編輯部在每期論文網(wǎng)絡出版時上傳元數(shù)據(jù)的工作量,根據(jù)Word論文的標題、作者、單位、摘要、關鍵詞、中圖分類號、文獻標識碼、參考文獻、備注等元數(shù)據(jù)的位置、樣式、標注等信息確定提取規(guī)則,提出了一種基于VBA的上網(wǎng)元數(shù)據(jù)一鍵提取方法。采用該提取方法后,《熱力發(fā)電》期刊每期提取元數(shù)據(jù)時間由4 h縮短至1 h,達到了預期效果。該方法對編輯同行具有一定的借鑒作用。

      元數(shù)據(jù);信息提取;VBA;樣式;論文上網(wǎng)

      互聯(lián)網(wǎng)時代,學術期刊面臨前所未有的機遇和挑戰(zhàn),其出版方式和運營模式都迎來一場巨大的變革[1]。目前,幾乎所有的期刊均以實現(xiàn)了網(wǎng)絡出版,且已有部分期刊開始嘗試開放存取。如何快速、高質(zhì)量地提取擬發(fā)表論文的元數(shù)據(jù)是實現(xiàn)期刊網(wǎng)絡出版的關鍵。隨著計算機的廣泛應用以及互聯(lián)網(wǎng)的飛速發(fā)展,眾多提取方法被應用到文檔信息提取中[2-8]。

      考慮到目前大多數(shù)作者采用Word撰寫論文,且不少編輯部采用Word排版,急需一種依托Word文檔的信息提取方法。吳春龍[9]基于C#語言進行軟件設計,實現(xiàn)了從損壞的Word 97、Word 2003文檔中提取文本。湯克明等[10]在Delphi 7.0平臺下開發(fā)了一個實用的Word文檔分析工具,給出了Word文檔常規(guī)屬性的提取方法。文獻[11-13]分別提出了1種Word表格與數(shù)據(jù)庫數(shù)據(jù)雙向轉(zhuǎn)換的方法,既實現(xiàn)了從Word表格中采集提取數(shù)據(jù)存儲到數(shù)據(jù)庫中,又實現(xiàn)了從數(shù)據(jù)庫中讀取數(shù)據(jù)導出到Word表格中,該方法轉(zhuǎn)換效率高,實用可行,但僅限于從Word表格的提取信息。鄭河榮等[14]在對Word文檔對象的分析基礎上,介紹了Word文檔信息的智能提取技術,但僅限于表格中的某些特定字段。

      在爭奪網(wǎng)絡首發(fā)權(quán)的戰(zhàn)爭中,采用機械的復制粘貼方法提取元數(shù)據(jù)已不能滿足要求。本文基于前人方法和經(jīng)驗,以《熱力發(fā)電》期刊為例,設計出一種針對Word論文上網(wǎng)元數(shù)據(jù)的一鍵提取方法,對編輯同行具有一定的借鑒作用。

      1 VBA

      VBA是Microsoft設計的最簡單的開發(fā)工具,能夠很方便地與其他軟件兼容,具有直觀、高速開發(fā)等特點[15]。VBA位于Word開發(fā)工具中。開發(fā)工具提供了大量的指令及其他加載項功能。單擊“文件”—“選項”—“自定義功能區(qū)”—在“主選項卡”列表中,選擇“開發(fā)工具”復選框,單擊“確定”,即可激活該選項卡,如圖1所示。

      圖1 開發(fā)工具選項卡

      2 元數(shù)據(jù)和提取規(guī)則

      2.1 元數(shù)據(jù)

      根據(jù)Dublin元數(shù)據(jù)標準[16],考慮科技論文的特殊性[17],其元數(shù)據(jù)可歸納為標題(副標題)、主要責任人(作者姓名、學歷、機構(gòu)、聯(lián)系方法)、主題(關鍵詞、主題詞、論文分類號)、描述(摘要、目次、基金資助)、其他責任人(姓名、機構(gòu)、責任方式)、日期(收稿日期、修改日期、發(fā)布日期)、資源類型、格式(期刊名稱、期數(shù)、頁面、頁面尺寸)、標識符(文章編號、DOI)、語種、相關資源(參考文獻)、版權(quán)、論文類型13個元數(shù)據(jù)和屬性[6]。

      結(jié)合《熱力發(fā)電》期刊實際情況,本文所討論的論文上網(wǎng)元數(shù)據(jù)是指論文的標題、作者、單位、摘要、關鍵詞、中圖分類號、文獻標識碼、參考文獻、備注等信息。

      2.2 提取規(guī)則制定

      由于論文的格式一般都是固定的,通常論文的元數(shù)據(jù)一般都會集中在論文的前幾頁,并且各個元數(shù)據(jù)都會按照一定的順序出現(xiàn),比如論文的第一頁通常會有論文的標題、作者、摘要和關鍵詞等信息;而論文的每一項元數(shù)據(jù)都有其特定的字體、字號、行距等樣式,并且同一項元數(shù)據(jù)中的所有文字都會采用同種樣式;同時某些特定的元數(shù)據(jù)都會有關鍵詞進行標注,如在摘要的正文前會加上關鍵詞“[摘要]”等:結(jié)合這些特點可以提高對論文有效信息提取的效率和準確率[4]?!稛崃Πl(fā)電》期刊論文樣式庫和模板[18]首頁分別如圖2和圖3所示。

      圖3 論文模板

      結(jié)合圖2、圖3,根據(jù)元數(shù)據(jù)位置、樣式、標注等信息確定提取規(guī)則。

      (1) 借助樣式讀取整段。

      中文標題、英文標題、中文姓名、英文姓名等均獨占一段,可分別借助預設的“標題中文” “標題英文” “作者中文” “作者英文”樣式識別并提取。

      (2) 借助標注提取整段。

      中文摘要、中文關鍵詞等均獨占一段,且分別以“[摘要]” “[關鍵詞]”作為標注。查找這些標注定位到元數(shù)據(jù)所在段落,并替換掉這些標注即可。

      (3) 提取段落的一部分。

      中圖分類號、文獻標識碼與文章編號共居一段,分別以“[中圖分類號]” “[文獻標識碼]” “[文章編號]”作為標注,且已知文獻標識碼和文章編號位數(shù)確定。此時可采用從右向左讀取字符數(shù)的方法提取論文的中圖分類號和文獻標識碼。

      (4) 讀取多段。

      全文一般有多條參考文獻,可采用預設的“參考文獻”樣式識別,再借助循環(huán)逐條增加的方式提取。每條參考文獻之間采用換行符chr(13)或回車符chr(10)分隔。

      If InStr(ActiveDocument.Paragraphs(i).Range.Style.NameLocal, "參考文獻") > 0 Then接收表.Cells(行, 11) = 接收表.Cells(行, 11) + Chr(10) + ActiveDocument.Paragraphs(i).Range.Text

      (5) 讀取多段并截去首尾。

      作者單位可能不止一個,單位首尾用括號括起來。可采用預設的“單位中文” “單位英文”樣式識別,借助循環(huán)逐條增加的方式提取,再截去首尾的括號。

      3 元數(shù)據(jù)一鍵提取

      3.1 設置提取快捷鍵或按鈕

      借助宏功能設置提取快捷鍵或按鈕。具體創(chuàng)建方法為:①單擊“開發(fā)工具”選項卡—“代碼”—“錄制宏”,彈出“錄制宏”對話框,修改宏名為“一鍵提取”;②將宏指定到鍵盤(也可指定到按鈕),彈出“自定義鍵盤”對話框,鼠標移至“請按新快捷鍵”,同時摁下Ctrl+Shift+T,單擊“指定”,接著單擊“關閉”;③單擊“代碼”—“停止錄制”,到此一鍵提取操作賦予快捷鍵Ctrl+Shift+T。

      3.2 一鍵提取主程序

      主程序編輯方法為:①單擊“開發(fā)工具”選項卡—“代碼”—“宏”,彈出“宏”對話框;②選擇“一鍵提取”,單擊“編輯”,打開VBA窗口;③在“一鍵提取”程序節(jié)內(nèi)輸入以下程序:

      Sub 單個提取()Dim oApp As ObjectDim oappwork, 接收表Dim MyString1, MyString2, MyString3, MyString4, MyString5Dim m, n As LongSet oApp = CreateObject("Excel.Application")Set oappwork = oApp.Workbooks.AddSet 接收表 = oappwork.Sheets(1)行 = 1接收表.Cells(1, 1) = "中文標題"接收表.Cells(1, 2) = "Title"接收表.Cells(1, 3) = "作者"接收表.Cells(1, 4) = "中文單位"接收表.Cells(1, 5) = "Author(s)"接收表.Cells(1, 6) = "英文單位"接收表.Cells(1, 7) = "關鍵詞"接收表.Cells(1, 8) = "分類號"接收表.Cells(1, 9) = "文獻標識碼"接收表.Cells(1, 10) = "摘要"接收表.Cells(1, 11) = "參考文獻"接收表.Cells(1, 12) = "備注/Memo"For i = 1 To ActiveDocument.Paragraphs.Count ’此處填入2.2節(jié)中所列提取程序Next ioApp.Visible = TrueEnd Sub

      3.3 提取結(jié)果及整理

      采用上述一鍵提取方法能以Excel工作簿的形式輸出單篇論文上網(wǎng)元數(shù)據(jù)。以每期20余篇論文計,可生成20余個工作簿,將其匯總至1個工作簿內(nèi),即可得到當期網(wǎng)絡出版所需的元數(shù)據(jù)。同理,可根據(jù)不同編輯部的需求,提取論文中的英文摘要、英文關鍵詞、DOI編號等數(shù)據(jù)。

      4 結(jié)束語

      本文設計了一種Word論文上網(wǎng)元數(shù)據(jù)一鍵提取方法。該方法在《熱力發(fā)電》期刊網(wǎng)絡出版中起到了明顯作用,顯著減輕了編務工作量。采用傳統(tǒng)復制粘貼方法提取一期論文上網(wǎng)元數(shù)據(jù)約需4 h,采用一鍵提取方法后僅需約1 h。后期可在提取程序精簡和提取方法智能化方面做深入研究。

      [1] 廖坤,崔玉潔.網(wǎng)絡時代學術期刊數(shù)字出版模式探析[J].編輯學報,2017,29(2):116-118.

      [2] 劉華中.面向PDF文檔的論文元數(shù)據(jù)提取方法研究[D].燕山大學,2012:2;4-6.

      [3] 牛永潔,薛蘇琴.基于PDFBox抽取學術論文信息的實現(xiàn)[J].計算機技術與發(fā)展,2014(12):61-63.

      [4] 任林濤.PDF格式中文科技論文的有效信息提取方法及分類研究[D].長春:吉林大學,2011:9-18.

      [5] 趙子浩.基于集成學習的OA期刊論文元數(shù)據(jù)提取方法研究[D].秦皇島:燕山大學,2012:1-3.

      [6] 錢建立,吳廣茂,蔣路.基于特征相似度的科技論文元數(shù)據(jù)提取算法研究[J].微電子學與計算機,2008,25(8): 129-132.

      [7] 楊海亮,徐用吉.利用VB讀取方正排版文件提取元數(shù)據(jù)[J].中國科技期刊研究,2015,26(6):612-617.

      [8] 馮民,毛善峰.一種適合大批量期刊元數(shù)據(jù)自動化提取的程序設計[J].中國科技期刊研究,2016,27(10): 1081-1084.

      [9] 吳春龍.C#語言實現(xiàn)從Word文檔中提取文本[J].電腦編程技巧與維護,2013(13):84-87.

      [10] 湯克明,陳崚.Word服務器的接口解析與文檔屬性提取[J].計算機工程與應用,2008,44(28):79-82.

      [11] 黃蔚,張璟,李軍懷,等.非結(jié)構(gòu)化Word數(shù)據(jù)表與RDB間的存儲轉(zhuǎn)換[J].計算機工程,2009,35(20):37-40.

      [12] 肖剛,王洪恩,王昌建,等.基于Word文檔的數(shù)據(jù)交換策略及其實現(xiàn)[J].計算機應用與軟件,2004,21(3):34-6.

      [13] 林宮.基于OLE和VBA的數(shù)據(jù)庫與Word數(shù)據(jù)交互研究[J].福州大學學報(自然科學版),2006,34(6): 831-835.

      [14] 鄭河榮,沈瑛,馬珂絳,等.Word文檔信息的智能提取技術[J].紹興文理學院學報(自然科學版),2003,23(9): 33-35.

      [15] 王克剛,齊軍.Word文檔的程序控制[J].安康學院學報,2002,14(2):45-47.

      [16] ANSI/NISOZ 39.85—2001. The Dublin core meta data element set [M]. Maryland: NISO Press, 2001.

      [17] 屠彤輝.期刊論文的元數(shù)據(jù)描述探析[J].上海高校圖書情報工作研究,2006(4):30-34.

      [18] 劉永強,李園,馬昕紅,等.學術期刊傻瓜式投稿模板設計方法[J].編輯學報,2018,30(2):192-195.

      猜你喜歡
      參考文獻
      Eurydice’s Face:the Paradox of Mallarmé’s Musical Poetics*
      Kidney health for everyone everywhere—from prevention to detection and equitable access to care
      Effect of low high-density lipoprotein levels on mortality of septic patients: A systematic review and meta-analysis of cohort studies
      SINO-EUROPE SYMPOSIUM ON TRADITIONAL CHINESE MEDICINE & HERBAL MEDICINE-MARKET OVERVIEW ®ULATION POLICY
      A prediction method for the performance of a low-recoil gun with front nozzle
      The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
      Where Does Poetry Take Place? On Tensions in the Concept of a National Art* #
      Chinese Cultural Influence on Hannah Jelkes in The Night of the Iguana*
      The serum and breath Raman fingerprinting methodfor early lung cancer and breast cancer screening
      Study on the physiological function and application of γ—aminobutyric acid and its receptors
      東方教育(2016年4期)2016-12-14 13:52:48
      囊谦县| 桐乡市| 中卫市| 鹤山市| 朝阳县| 望奎县| 子长县| 阳泉市| 炎陵县| 田林县| 会东县| 乐山市| 保亭| 吕梁市| 瑞昌市| 卓尼县| 普兰县| 四会市| 萨迦县| 南投市| 诏安县| 旺苍县| 宁海县| 简阳市| 大埔区| 大冶市| 四川省| 宣威市| 永靖县| 和平县| 陆河县| 五莲县| 新平| 上杭县| 平罗县| 北海市| 益阳市| 闻喜县| 罗田县| 海安县| 旅游|