• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文獻(xiàn)語料管理系統(tǒng)設(shè)計(jì)分析

      2024-09-21 00:00:00張超
      科技創(chuàng)新與應(yīng)用 2024年27期

      摘 要:不少語言學(xué)科研項(xiàng)目需要建設(shè)文獻(xiàn)語料庫,對(duì)文獻(xiàn)語料的管理需求越來越強(qiáng)烈,開發(fā)一套面向語言學(xué)者的文獻(xiàn)語料管理系統(tǒng)非常必要。該文以清末民初西南文人白話作品和傳教士文獻(xiàn)的語料處理需求為出發(fā)點(diǎn),對(duì)系統(tǒng)功能需求、系統(tǒng)流程、系統(tǒng)數(shù)據(jù)等進(jìn)行分析、設(shè)計(jì)和實(shí)現(xiàn),有效解決文獻(xiàn)語料庫建設(shè)中的語料管理問題。

      關(guān)鍵詞:文獻(xiàn)語料庫;語料管理;系統(tǒng)設(shè)計(jì)與分析;語言學(xué)者;管理系統(tǒng)

      中圖分類號(hào):TN912 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2024)27-0143-04

      Abstract: Many linguistic research projects require the construction of a literature corpus, and the demand for managing literature corpus is becoming increasingly strong. It is necessary to develop a literature corpus management system for linguists. This paper takes the processing requirements of the vernacular works of literati and missionary literature in the late Qing Dynasty and early Republic of China as the starting point, analyzes, designs, and implements the system functional requirements, system processes, system data, etc., effectively solving the problem of corpus management in the construction of literature corpus.

      Keywords: literature corpus; corpus management; system design and analysis; linguists; management system

      近年來立項(xiàng)的國(guó)家和地方各級(jí)社科課題中,有不少項(xiàng)目涉及文獻(xiàn)語料庫建設(shè),早期北京話文獻(xiàn)、客家方言文獻(xiàn)、粵語文獻(xiàn)、閩語文獻(xiàn)、吳語文獻(xiàn)和西南官話文獻(xiàn)等,在不少課題中或多或少被涉及,如莊初升《海內(nèi)外客家方言的語料庫建設(shè)和綜合比較研究》、李藍(lán)《中國(guó)方志語言資料數(shù)據(jù)平臺(tái)建設(shè)及詞典編纂》、林華勇《清末民國(guó)漢語五大方言比較研究及數(shù)據(jù)庫建設(shè)》、盛益民《基于文獻(xiàn)考證與歷史比較的吳語語法史研究》等。語料管理系統(tǒng)就是語料庫的后端數(shù)據(jù)管理系統(tǒng),用以管理語料庫的后端數(shù)據(jù)內(nèi)容。如何規(guī)范高效且準(zhǔn)確地錄入文獻(xiàn)語料,使文獻(xiàn)語料庫有效地精確地服務(wù)于學(xué)術(shù)界,是語言學(xué)者普遍關(guān)心的問題。因此,開發(fā)一套面向語言學(xué)者的文獻(xiàn)語料管理系統(tǒng)非常必要。本文參考于娜娜[1]、王松[2]、李仁均[3]等,以清末民初西南文人白話作品和傳教士文獻(xiàn)的語料處理需求為出發(fā)點(diǎn),結(jié)合語言學(xué)界對(duì)語料庫的應(yīng)用需求,探析文獻(xiàn)語料庫管理系統(tǒng)的設(shè)計(jì)。

      1 系統(tǒng)功能需求

      參考孟克代力格日《托忒文文獻(xiàn)語料庫及其管理程序設(shè)計(jì)》[4]提供的經(jīng)驗(yàn),基于清末民初西南文人白話作品和傳教士文獻(xiàn)處理的需要,本文確定文獻(xiàn)語料管理系統(tǒng)最基本的功能需求包括文獻(xiàn)管理、語料管理、生僻字管理、用戶管理和系統(tǒng)管理等5項(xiàng),以下分別進(jìn)行介紹。

      1.1 文獻(xiàn)管理

      文獻(xiàn)語料管理系統(tǒng)是為文獻(xiàn)語料庫的建設(shè)服務(wù)的,文獻(xiàn)語料庫中需要呈現(xiàn)文獻(xiàn)的有關(guān)信息,故文獻(xiàn)管理是文獻(xiàn)管理系統(tǒng)中重要的功能模塊之一。該模塊下包括文獻(xiàn)分類管理、文獻(xiàn)對(duì)象管理、文獻(xiàn)目錄管理等。

      文獻(xiàn)分類管理。允許用戶根據(jù)研究需要建立自定義的文獻(xiàn)分類,可編輯的信息包括分類名稱、類別備注、排序號(hào)等。

      文獻(xiàn)對(duì)象管理??删幍男畔㈨?xiàng)目包括編號(hào)、名稱、分類、著者、出版者、出版時(shí)間、內(nèi)容簡(jiǎn)介和封面圖片等。

      文獻(xiàn)目錄管理。是針對(duì)特定文獻(xiàn)對(duì)象目錄內(nèi)容而進(jìn)行的增刪查改操作,可編輯的信息項(xiàng)目包括目錄名稱、上級(jí)目錄、所在頁碼范圍等??紤]到實(shí)際文獻(xiàn)可能有多級(jí)目錄的現(xiàn)象,文獻(xiàn)目錄管理模塊要具備按層級(jí)建立目錄的功能。

      1.2 語料管理

      語料管理是對(duì)文獻(xiàn)語句進(jìn)行的增刪查改操作,基本功能包括新增語料、修改語料、刪除語料及檢索語料等。可編輯的語料信息包括文獻(xiàn)語句、文獻(xiàn)釋義(可空)、簡(jiǎn)體對(duì)照(可空)、繁體對(duì)照(可空)、外文對(duì)照(可空)、普通話對(duì)譯(可空)、所在文獻(xiàn)、所在頁碼和所在目錄等。

      文獻(xiàn)的語料都要明確歸屬于特定文獻(xiàn),為避免錯(cuò)置歸屬,宜將語料管理作為文獻(xiàn)對(duì)象管理的子功能模塊來設(shè)計(jì),即在文獻(xiàn)對(duì)象操作區(qū)內(nèi)加“文獻(xiàn)語料管理”功能按鈕作為文獻(xiàn)語料管理入口,這樣可以省去選擇語料對(duì)應(yīng)文獻(xiàn)的操作,并且有效避免錯(cuò)置文獻(xiàn)。

      1.3 生僻字管理

      生僻字是指當(dāng)前主流輸入法在啟用大字符集的情況下仍不能輸入的漢字。比如,清末傳教士西南官話文獻(xiàn)《華西官話漢法詞典》中的“”(西南官話中形容小孩愛搗亂且不聽招呼),“”(西南官話中指鋪床的動(dòng)作),“”(‘搊’的簡(jiǎn)化,指用手從側(cè)面對(duì)人或物體提供支撐的動(dòng)作)等漢字,在當(dāng)前主流鍵盤輸入法(比如搜狗輸入法)啟用大字符集或“生僻字”選項(xiàng)情況下仍無法輸出,用逍遙筆手寫輸入法也無法輸出,就宜把它們定為生僻字。對(duì)這類生僻字,寇冠等[5]《基于字符集編碼擴(kuò)展的通用生僻字解決方案探索與實(shí)踐》處理思路可以借鑒參考,但考慮到數(shù)據(jù)庫字符集支持等問題,于本文討論的文獻(xiàn)語料庫中暫時(shí)難以適用。本文討論的文獻(xiàn)語料庫需要考慮到后端和前端對(duì)字符的支持情況,要盡量滿足大部分學(xué)者的檢索應(yīng)用需求,宜盡量用通用字符集解決問題。綜合考慮后,本文確定對(duì)生僻字的處理策略為:在數(shù)據(jù)庫中存儲(chǔ)其圖像,建立具有唯一性的編號(hào),文獻(xiàn)語料中該字的位置用其編號(hào)占位,用戶在前端檢索時(shí),可以用其編號(hào)作為關(guān)鍵詞。為了讓用戶較方便地查檢到生僻字的編號(hào),需要允許用戶在生僻字表中多維度地檢索生僻字,為此,生僻字管理模塊需要編輯生僻字的編碼、讀音、構(gòu)造部件、圖片、來源文獻(xiàn)與備注等信息,以方便用戶選擇不同的字段信息進(jìn)行檢索。

      1.4 用戶管理

      用戶管理是指對(duì)語料庫用戶的增刪查改操作。根據(jù)系統(tǒng)模塊功能特點(diǎn),需要對(duì)用戶進(jìn)行權(quán)限管控。用戶數(shù)據(jù)模型預(yù)置系統(tǒng)管理權(quán)、用戶管理權(quán)、文獻(xiàn)管理權(quán)、語料管理權(quán)和生僻字管理權(quán)等,在添加或修改用戶過程中,根據(jù)實(shí)際需要對(duì)用戶合理賦權(quán)。具有這些管理權(quán)之一的用戶都是管理員,可以進(jìn)入文獻(xiàn)語料管理系統(tǒng);不具備這些權(quán)限的為語料庫普通用戶,不能進(jìn)入文獻(xiàn)語料管理系統(tǒng),只能在前端查檢應(yīng)用數(shù)據(jù)。

      1.5 系統(tǒng)管理

      系統(tǒng)管理是對(duì)系統(tǒng)基礎(chǔ)信息的設(shè)置操作,所設(shè)置的信息項(xiàng)目包括語料庫所有權(quán)人及其基本信息、語料網(wǎng)網(wǎng)站名稱、語料庫網(wǎng)站工信部備案號(hào)、網(wǎng)站網(wǎng)安備案號(hào)及語料庫平臺(tái)簡(jiǎn)介等。

      2 系統(tǒng)流程分析

      2.1 系統(tǒng)外部數(shù)據(jù)流圖

      文獻(xiàn)語料管理系統(tǒng)的外部數(shù)據(jù)流表現(xiàn)為系統(tǒng)管理員、文獻(xiàn)管理員、語料錄入員、語料審核員和生僻字管理員等角色與文獻(xiàn)語料管理系統(tǒng)之間的關(guān)系,如圖1所示。各角色分別與文獻(xiàn)管理系統(tǒng)發(fā)生數(shù)據(jù)交互。

      系統(tǒng)管理員:主要負(fù)責(zé)系統(tǒng)設(shè)置、用戶增刪及權(quán)限設(shè)置等操作。文獻(xiàn)管理員:主要負(fù)責(zé)文獻(xiàn)分類、文獻(xiàn)對(duì)象、文獻(xiàn)頁面和文獻(xiàn)目錄等的管理操作。語料錄入員:主要負(fù)責(zé)文獻(xiàn)語料的錄入保存操作。語料審核員:主要負(fù)責(zé)語料內(nèi)容的復(fù)核和審核操作。只有審核通過的語料才向前端開放查檢權(quán)限。生僻字管理員:主要負(fù)責(zé)文獻(xiàn)生僻字的統(tǒng)一編號(hào)和錄入操作。

      2.2 文獻(xiàn)管理系統(tǒng)核心數(shù)據(jù)工作流

      文獻(xiàn)管理系統(tǒng)核心數(shù)據(jù)是文獻(xiàn)語料,相應(yīng)地,核心操作就是語料的錄入和審核。系統(tǒng)處理流程圖如圖2所示。流程中包括語料錄入員和語料審核員2個(gè)角色。語料錄入員錄入語料,提交審核。語料審核員執(zhí)行審核,判斷是否通過,不通過的語料退回語料錄入員界面,語料錄入員修改后重新提交審核。審核通過的語料則入庫待用,可以進(jìn)入前端查詢應(yīng)用范圍或作進(jìn)一步研究處理。

      圖2 系統(tǒng)處理流程圖

      3 數(shù)據(jù)分析

      3.1 文獻(xiàn)基礎(chǔ)數(shù)據(jù)

      文獻(xiàn)基礎(chǔ)數(shù)據(jù)包括文獻(xiàn)分類、文獻(xiàn)對(duì)象、文獻(xiàn)頁面和文獻(xiàn)目錄等,由文獻(xiàn)管理員錄入處理。由于這類數(shù)據(jù)不復(fù)雜,前端應(yīng)用精確度需求并不高,故這類數(shù)據(jù)的處理不需設(shè)置審核流程。

      3.2 文獻(xiàn)語料數(shù)據(jù)

      文獻(xiàn)語料數(shù)據(jù)是文獻(xiàn)語料庫的核心數(shù)據(jù),是供用戶查檢應(yīng)用的具有科研價(jià)值的數(shù)據(jù),有精確度的需求,故語料錄入后需要經(jīng)過一次審核操作才能正式進(jìn)入待查檢應(yīng)用狀態(tài)。為確保語料有應(yīng)用價(jià)值,語料盡量以意義相對(duì)完整的句子為基本錄入和存儲(chǔ)單元。由于文獻(xiàn)語料都是以文字形態(tài)存在的,一般沒有對(duì)應(yīng)的音頻和視頻,所以都是以文本方式存入數(shù)據(jù)庫。

      4 系統(tǒng)實(shí)現(xiàn)與應(yīng)用

      文獻(xiàn)語料管理系統(tǒng)采用Python服務(wù)器編程語言,基于Django框架而設(shè)計(jì),在張超教育部社科課題“基于百年前西南文人白話作品和傳教士文獻(xiàn)的清末民初西南官話語法研究”、莊初升國(guó)家社科課題“海內(nèi)外客家方言的語料庫建設(shè)和綜合比較研究”、林華勇國(guó)家社科課題“清末民國(guó)漢語五大方言比較研究及數(shù)據(jù)庫建設(shè)”等項(xiàng)目研究中進(jìn)行了應(yīng)用,系統(tǒng)運(yùn)轉(zhuǎn)正常,極大地提升了文獻(xiàn)語料錄入處理的效率,并確保了語料的精確度,進(jìn)而確保了文獻(xiàn)語料的學(xué)術(shù)價(jià)值。

      以下展示文獻(xiàn)語料管理系統(tǒng)在處理清末民初西南文人白話作品和傳教士文獻(xiàn)的語料過程中的部分界面。圖3為文獻(xiàn)類別列表界面,用戶可以在該界面進(jìn)行文獻(xiàn)類別的增刪查改操作。

      圖4是文獻(xiàn)對(duì)象列表界面,用戶在該界面除了進(jìn)行基本的增刪查改操作之外,還可以對(duì)文獻(xiàn)進(jìn)行目錄、頁面和語料的管理。

      圖5展示了《華英捷徑》這部傳教士西南官話文獻(xiàn)后臺(tái)目錄管理界面,用戶在此界面可以針對(duì)這個(gè)文獻(xiàn)進(jìn)行目錄的增刪查改操作。文獻(xiàn)對(duì)象和目錄之間構(gòu)成主子關(guān)系。

      圖6展示了《西語譯漢入門》這部文獻(xiàn)的頁面對(duì)象管理界面,用戶在該界面可以進(jìn)行文獻(xiàn)頁面的增刪查改操作,還能看到各頁面下的語料數(shù)量。

      圖7為《華西初級(jí)官話課程》這部傳教士西南官話的語料管理界面,用戶在該界面可以進(jìn)行語料的增刪查改操作,也能查看語料對(duì)應(yīng)的頁面圖像,方便用戶在處理語料過程中進(jìn)行數(shù)據(jù)核對(duì)。該頁面也支持?jǐn)?shù)據(jù)導(dǎo)出操作。

      5 結(jié)束語

      文獻(xiàn)語料庫通常是文獻(xiàn)整理研究類課題項(xiàng)目配套的重要成果之一,而文獻(xiàn)語料管理系統(tǒng)是文獻(xiàn)語料庫的后端管理平臺(tái),是確保文獻(xiàn)語料快速準(zhǔn)確錄入和為前端提供數(shù)據(jù)格式的處理工具。本文以清末民初西南文人白話作品和傳教士文獻(xiàn)的語料處理需求為例,分析了文獻(xiàn)語料管理系統(tǒng)的基本功能需求、系統(tǒng)處理流程、系統(tǒng)數(shù)據(jù)等,并采用Python服務(wù)器編程語言,基于Django框架進(jìn)行了設(shè)計(jì)實(shí)踐,有效滿足了文獻(xiàn)語料庫建設(shè)中的語料管理的實(shí)際需求。

      參考文獻(xiàn):

      [1] 于娜娜.基于B/S架構(gòu)的語料庫管理系統(tǒng)[D].哈爾濱:哈爾濱理工大學(xué),2018.

      [2] 王松.基于Spark的會(huì)話語料庫管理系統(tǒng)[D].石家莊:河北師范大學(xué),2020.

      [3] 李仁均.抑郁語料采集與管理系統(tǒng)的研究[D].蘭州:西北師范大學(xué),2023.

      [4] 孟克代力格日.托忒文文獻(xiàn)語料庫及其管理程序設(shè)計(jì)[D].呼和浩特:內(nèi)蒙古大學(xué),2011.

      [5] 寇冠,劉良俊,徐曉劍,等.基于字符集編碼擴(kuò)展的通用生僻字解決方案探索與實(shí)踐[Z].北京市:中信銀行股份有限公司,2021-09-11.

      兴化市| 司法| 芦溪县| 虎林市| 麦盖提县| 攀枝花市| 灵山县| 朔州市| 外汇| 施甸县| 翼城县| 连平县| 柘荣县| 偃师市| 隆化县| 邹平县| 南陵县| 平利县| 达拉特旗| 吴旗县| 山东| 庐江县| 桃江县| 益阳市| 富裕县| 津市市| 开阳县| 阿拉善左旗| 乌鲁木齐县| 赤城县| 鸡泽县| 石楼县| 抚松县| 孝义市| 铜鼓县| 依安县| 延安市| 大冶市| 昔阳县| 玛曲县| 菏泽市|