趙生輝/西藏民族大學管理學院
胡 瑩/云南大學歷史與檔案學院
我國檔案信息化范式正在由“檔案數字化”升級為“檔案數據化”[1][2]。在電子文件或檔案數字化成果的基礎上,對文本信息進行結構化描述和標注,使采用自然語言表述的檔案信息在供用戶閱讀和利用的同時,具有被計算機自動分析和處理的潛力。深入分析檔案文本結構化的概念內涵、技術原理與實踐路徑,對于檔案數據化工程的戰(zhàn)略規(guī)劃具有重要參考價值。
“檔案文本結構化(Archival Text Structuring)”是指參照某種結構化模型,將表示檔案內容的文字符號序列轉換為計算機可以高速、精準處理的數據形式。檔案文本結構化的過程也是檔案數據化加工的過程,其結果是產生計算機可以高速處理的檔案文本數據。在數字化環(huán)境下,文本的內容與顯示具有相對可分離性,檔案文本結構化只關注文本的語義信息,與文本的字體、字號、顏色等顯示屬性無關。“檔案文本結構化”體現了“面向人工(Human Oriented)”與“面向機器(Machine Oriented)”兩種應用需求的沖突與平衡:一方面,檔案文本需要人的閱讀才能被理解,應該采用人工易于理解的自然語言文本進行社會信息的記錄與描述;另一方面,大數據和人工智能時代的檔案管理需要充分考慮計算機的高速自動分析需求,盡可能采取某種便于計算機處理的邏輯結構進行存儲和管理。檔案文本結構化是對上述兩種應用需求的平衡,其成果是檔案和數據兩種屬性的集合體。它既是以結構化數據形態(tài)存在的檔案文本,也是內容信息具有檔案價值的電子數據;既可以像其他類型的檔案一樣提供閱讀和利用,也可以支持計算機自動操作和分析,為用戶提供更為精細化和智能化的檔案信息服務。
檔案文本結構化以現代認知語言學當中的框架語義學(Frame Semantics)理論為指導,致力于在多種基礎資源的支撐下,實現檔案文本符號序列的層級化、顆?;驼Z義化。
“框架理論”是美國麻省理工學院人工智能實驗室的馬文·明斯基(Marvin Minsky)于1975年提出的一種認知學說,基本觀點包括:框架(Frame)指存儲在人的大腦當中與典型情境相關的基本知識結構,是基于以前記憶的“知識空框”,限定認知范疇的大致結構,具體內容需要根據不同的認知情境進行填充、修改或更新[3]。根據框架理論,人們在閱讀檔案時之所以可以快速理解文本的含義,是因為大腦中已經存儲了關于同類文檔的認知框架,熟知認知框架的人可以將某個文字符號與其代表的語義信息聯系起來,快速完成對文本內容的結構化解析。要讓計算機具備簡單的閱讀和理解檔案文本的能力,就要把人閱讀檔案文本時的所依賴的認證框架提供給計算機,即構建特定領域檔案的語義框架庫。因此,檔案文本結構化的基本思路是將人類有關特定領域檔案文本邏輯結構的知識予以“外化”,形成可供參照的領域檔案語義框架庫;在此基礎上,參照特定認知框架,在檔案文本適當位置嵌入結構或語義標記,將人對文本結構的理解轉換成為計算機可以識別、共享和處理的形式。
語義框架(Semantic Frame)可分為上層和終端層兩部分。上層是對語義要素相互關系的層級化描述,終端層由一系列的語義槽(Semantic Slots)[4]組成,需要用具體的實例或者數據來填充才能描述事物的特征。語義框架主要通過對框架元素(Frame Elements)和詞元(Lexical Unit)兩種對象的結構化描述來表達,框架元素只有被某個具體的詞元所表征時才能被用戶理解。因此,檔案文本結構化涉及的基礎資源主要包括“語義框架庫”和“詞元本體庫”兩大類型,需要按照“面向領域、需求驅動”的原則,采用人工與機器相結合的方式,經過不斷修正和完善進行構建。領域檔案語義框架庫旨在構建、集成和保存特定檔案管理領域絕各類常見檔案的語義框架,為檔案文本的語義標注提供邏輯參照體系。作為框架語義槽的填充要素,詞元在框架當中發(fā)揮了非常重要的作用,同一主題類型的檔案文本的差異性主要是通過詞元的差異性來體現的。為提高檔案信息服務的智能化程度,可以對特定領域詞元背后的語義關系進行梳理,明確各相關概念之間的語義關系,構建領域本體知識庫,作為檔案文本結構化的基礎資源。建設特定領域詞元本體知識庫的目的,是將語義框架要素可能的取值限定在可控的范圍之內,明確各類詞元之間的語義關系,為基于本體的語義推理和查詢擴展提供支持。
第一,文本層級化細分。“文本層級化”是對檔案文本的宏觀結構逐層細化的過程,每深入一層,原本作為整體存在的文本或者模塊就被劃分成為若干個更小的模塊。通常情況下,切分的粒度越小,涉及的工作量就越大,檔案文本當中嵌入的標記符號就越多,文本結構就越復雜。上述邏輯結構可以用XML提供的文檔對象模型(Document Object Model,DOM)來表示和處理[5]。DOM用根節(jié)點表示整個XML文件,每個XML標簽是一個元素節(jié)點(nodes),多個節(jié)點構成樹狀的層級結構[6]。檔案文本采用DOM進行標注和表示時,就可以通過訪問DOM屬性和方法完成相關數據操作。
第二,信息顆?;成??!靶畔㈩w?;笔侵笇n案文本當中所蘊含的各類細粒度語義要素轉換為數據形式的過程。例如某檔案題名為《深圳市人民政府關于加強檔案工作的指導意見》,可以將其轉換為三個等價數據表達式:“發(fā)文機關=深圳市人民政府”“主題=加強檔案工作”“文種=意見(下行)”[7]。檔案類型具有多樣性,有的檔案要素轉換為數據形式之后語義信息并沒有任何損失,而檔案當中的大多數自然語言文本段落無法全部轉換為數據形式,只能參照語義框架,抽取其中較為重要的關鍵信息進行轉換,轉換的結果是形成自然語言文本段落的核心語義數據集,兩者并不能完全等價。為了體現這種并非嚴格意義上的對應關系,本文將檔案文本信息顆?;庸しQ為“數據映射(Data Mapping)”,即用結構化數據來表達的各類檔案文本的核心語義信息,兩者可以等價也可以不等價。
第三,詞元語義化關聯。詞元的語義關聯涉及兩個層面的問題:第一,詞元的自然語言文字符號與檔案整體的關系;第二,詞元的自然語言文字符號與外部世界的關系。第一個問題主要通過語義框架的結構要素標記來解決,例如標記〈發(fā)文機關〉國務院〈/發(fā)文機關〉的含義就是某文書檔案的制發(fā)機關是國務院,計算機可以通過〈發(fā)文機關〉標記明確公文的制發(fā)者。第二個問題主要通過基于本體的詞元語義標注來解決。參考領域本體知識庫,對檔案詞元文本進行語義標注的意義在于,添加了語義標記之后,計算機就能準確理解該詞元文字符號所指代的外部世界的實體對象,從而可以調動與該實體相關聯的各類知識,通過語義推理方法,更好地完成檔案管理領域的復雜性、智能化檢索任務。
根據檔案管理部門介入的時間點和介入方式的不同,檔案文本結構化工程可以分為“后端結構化”“前端結構化”“云端結構化”三種實踐路徑。
檔案文本的后端結構化,指在紙質檔案數字化掃描成果的基礎上進行深度開發(fā),通過對檔案圖像進行文字識別和語義標注,將檔案文本轉換為結構化數據,便于計算機自動分析和處理。檔案文本結構化是對檔案數字化加工的延續(xù),數字化階段編制完成的檔案元數據依然有效,其檢索不限于針對檔案整體的粗粒度檢索,還包括深入到檔案文本的細粒度內容檢索,可以支持更為復雜的語義推理和擴展查詢。檔案文本數據化成果并非天然具有法律效力,只有嚴格規(guī)范數字化掃描、文字識別、語義標注、信息抽取等環(huán)節(jié),才能最大限度地減少檔案語義信息在加工過程中出現損失和失真的可能性。考慮到信息抽取環(huán)節(jié)無法做到語義數據與源文本完全等價,因此在檔案智能服務過程中,要慎重使用計算機系統(tǒng)經過自動分析提供的結果,必要時要調閱檔案圖像進行確認與核對。
檔案文本前端結構化,是指檔案管理部門需要對檔案形成過程進行前端控制,使電子文件在最初生成時就符合結構化管理的各項要求,以便于計算機處理的數據形態(tài)存在。具體而言,檔案管理部門需要通過制定相應的標準規(guī)范,使業(yè)務部門在業(yè)務系統(tǒng)設計或者更新換代時,充分考慮檔案數據化處理的需求,在文本中嵌入規(guī)范化的檔案結構標記和詞元語義標記,使電子文件可以在供人工閱讀的同時,按照便于計算機處理的數據形式進行保存。上述過程中,電子文件產生者不能自由編輯文本,而是在電子文件管理系統(tǒng)中,按照給定的語義框架模板,錄入覆蓋到所有核心語義框架要素的詞元序列,最終由計算機自動生成結構化的檔案文本,本文將這種模式稱為“檔案受限生成”。按照受限模板生成的檔案數據本身就具有憑證效力,在業(yè)務系統(tǒng)中可以驅動業(yè)務流程的進行,在司法活動中可以作為證據使用。通過受限模板生成的電子檔案可以有多種呈現的方式,既可以與框架顯示模板文件相匹配生成規(guī)定版式的文檔,也可以靈活調用其中的某些框架要素組合成多種多樣的視圖,在不需要顯示時也可以保存在文檔數據庫或者關系型數據庫當中,供計算機程序調用和分析[8]。
檔案文本結構化所涉技術更為復雜,尤其是檔案語義框架庫和詞元本體知識庫的構建需要大量領域專業(yè)知識和數據科學知識支撐,在業(yè)務機構現有人力資源和技術條件不具備時,也可以考慮通過檔案數據化工程外包的方式來實現,以提高工作效率和專業(yè)化程度。檔案文本云端結構化是指社會組織不再自行開發(fā)檔案數據化系統(tǒng),而是借助專業(yè)的檔案信息化服務商提供的云計算平臺,由檔案數據服務商在系統(tǒng)后臺完成檔案數據化加工的過程[9]。云端結構化路徑可以保持與現有辦公系統(tǒng)的良好銜接,業(yè)務機構將檔案掃描圖像或者非結構化電子文件提交給數據服務商,由數據服務商依托云端的檔案框架庫和詞元本體庫等基礎資源完成映射和標注,經過驗收保存回業(yè)務機構的檔案文本數據庫,供檔案智能檢索系統(tǒng)和其他應用系統(tǒng)調用。