【摘要】隨著信息技術(shù)的不斷快速發(fā)展,檔案管理中所涉及到的信息也是越來越多,而這就需要開發(fā)一種較為先進(jìn)的方式,保障檔案管理及使用者可以快速的獲得想得到的文檔。在這種背景下,本文技術(shù)與文檔分類技術(shù),探討了檔案管理中的文檔分類技術(shù)的應(yīng)用方法及可選用的詞匯。
【關(guān)鍵詞】檔案管理;文檔分類;技術(shù)應(yīng)用;方法;詞匯
一、檔案管理中的文檔分類技術(shù)應(yīng)用的必要性
在競爭的產(chǎn)業(yè)環(huán)境里,檔案資料大有可為,企業(yè)勢必要仰賴大量的檔案信息來輔助決策者在最適當(dāng)?shù)臅r(shí)機(jī)做出適當(dāng)?shù)呐袛?。因此有效地利用大量的檔案信息就成為企業(yè)成功的關(guān)鍵要素之一。關(guān)聯(lián)式資料庫(Relational Database System)就是在這種時(shí)空背景環(huán)境之下而發(fā)明的系統(tǒng)。關(guān)聯(lián)式資料庫可以處理結(jié)構(gòu)化的數(shù)值型態(tài)檔案資料,利用資料表(Table)儲(chǔ)存企業(yè)每天的運(yùn)營資料,同時(shí)使用限制條件(Constraint)讓這些檔案資料是依指定的格式正確地存入資料表中,之后再輔以網(wǎng)上分析處理(Online Analytical Processing, OLAP)和資料探勘(Data Mining)的技術(shù),就能快速地產(chǎn)生文檔報(bào)表,作為決策者下決策的參考。
隨著網(wǎng)絡(luò)的成熟發(fā)展,企業(yè)開始利用網(wǎng)絡(luò)來傳送電子化的文檔,加上以驚人速度成長的企業(yè)入口網(wǎng)站和個(gè)人網(wǎng)頁,數(shù)字化的結(jié)果使得我們開始面對(duì)越來越多非結(jié)構(gòu)化或是半結(jié)構(gòu)化的電子檔案資料。如果再使用傳統(tǒng)檔案管理方式來管理文檔,似乎是不恰當(dāng)?shù)?,無法反應(yīng)文檔特有的性質(zhì)。更進(jìn)一步分析,我們可以預(yù)期,當(dāng)文檔的數(shù)量到達(dá)一定的程度,加上檔案文檔產(chǎn)出的速度超過人類所能處理的速度時(shí),傳統(tǒng)以人工進(jìn)行文檔分類和標(biāo)示已經(jīng)是不太可能的事。因此如果有方法可以讓我們快速地知道檔案文檔內(nèi)的作者、標(biāo)題、出處或者是文檔內(nèi)所包含的關(guān)鍵字,我們就有可能更進(jìn)一步去了解檔案文檔的深層含意以。本文希望對(duì)檔案管理中的自動(dòng)化文檔分類技術(shù)的應(yīng)用加以探討,揭示有效的儲(chǔ)存及利用的電子化檔案文檔的方式,從檔案文檔中挖掘出有用的信息與知識(shí)的方式。
二、檔案管理中的文檔分類技術(shù)應(yīng)用方法
文檔分類,或者稱之為自動(dòng)地指派語意上的類別予以由自然語言所構(gòu)成的文檔,是目前常用來管理檔案信息的一種方法。歸納式的文檔分類希望從一些事先標(biāo)定的文檔集里推導(dǎo)出一個(gè)分類的準(zhǔn)則,此后可以正確地應(yīng)用此分類準(zhǔn)則來對(duì)未知的新文檔做分類。
一是二元(Binary)設(shè)定法。二元設(shè)定法是最簡單,也是學(xué)習(xí)型問題(Learning Problem)里最重要的設(shè)定公式。其它復(fù)雜的設(shè)定法都可以通過一定的簡化步驟,退化為二元設(shè)定法的公式。在二元設(shè)定法里,只存在兩種類別標(biāo)簽。例如在檔案信息檢索(Information Retrieval)的應(yīng)用問題里,此兩種類別標(biāo)簽可以被標(biāo)定為“相關(guān)”或者是“不相關(guān)”這兩大類。同樣的,在電子檔案的分類應(yīng)用里,可以將接收的電子檔案區(qū)隔為“垃圾文檔”與“非垃圾文檔”這兩大類。這代表類別標(biāo)簽的值只能有兩種可能的值,為了符號(hào)定義的方便,這兩種可能的值設(shè)定為-1與1。
二是多類別(Multi-Class)設(shè)定法。有些分類的問題牽涉兩類以上的分類法。例如一個(gè)電子文檔派送代理程序,它負(fù)責(zé)判斷是否將所有接收到的電子文檔轉(zhuǎn)發(fā)給十位中層管理人員。這代表類別標(biāo)簽可以是十個(gè)(更廣義的說法為l)同的值。
三是多標(biāo)簽(Multi-Label)設(shè)定法。絕大多數(shù)文檔分類的問題落在該設(shè)定法內(nèi)。它和多類別設(shè)定法不同之處在于類別標(biāo)簽和文檔之間不是一對(duì)一的對(duì)應(yīng)關(guān)系。相反地,每一個(gè)文檔都可以落在多個(gè)、唯一一個(gè),甚至是零個(gè)的類別之內(nèi)。例如,當(dāng)檔案的情境為分類新聞報(bào)導(dǎo)時(shí),每一個(gè)語意上的主題都可以成為某一類別的標(biāo)簽,所以一篇新進(jìn)的新聞報(bào)導(dǎo)可以同時(shí)落在“足球”和“巴西”這兩個(gè)不同的類別之內(nèi)。這類的設(shè)定法可以用一個(gè)多維度的二元向量來代表眾多的類別標(biāo)簽。因?yàn)轭悇e標(biāo)簽已經(jīng)使用單維度的二元向量的方式來表示,分類規(guī)則所產(chǎn)出的結(jié)果也必須是單維度的二元向量。
三、檔案管理中的文檔分類應(yīng)用詞匯
在處理自然語言的問題時(shí),文檔內(nèi)的上下文脈絡(luò)(Context)會(huì)影響一段文字表達(dá)的意義,同樣的一個(gè)單詞,在不同的句子里可以有不同的意義。在文檔分類的問題里,會(huì)采用不同的方法來表達(dá)文字,根據(jù)不同的需求,可能會(huì)也可能不會(huì)辨別這些不同的相依性和意義。一般而言,根據(jù)文檔分析層級(jí)的深度,總共有下列四種不同的表達(dá)法:次詞(Sub-Word)層級(jí);字詞(Word)層級(jí);多詞(Multi-Word)層級(jí);語意(Semantic)層級(jí)。在每一個(gè)層級(jí)里,最基本的構(gòu)成組件(Building Block)稱之為索引字(Index Term)。一是字詞(Word)層級(jí)。在很多的情況之下,單詞是很好的表達(dá)單位,同時(shí)單詞具備很低的模棱兩可性。盡管存在所謂的多義詞,但也假設(shè)其對(duì)整體文檔的代表性的沖擊是很小的。事實(shí)上,字詞層級(jí)的表達(dá)方式已經(jīng)被證實(shí)在信息檢索與文檔分類的領(lǐng)域里是很有效的。以單詞為基礎(chǔ)的表達(dá)方式的優(yōu)點(diǎn)為簡單和直覺。不考慮邏輯上的結(jié)構(gòu),使用單詞當(dāng)成是索引字的最小單位可以把一份文檔轉(zhuǎn)化成一連串單詞的組合。同時(shí)我們假設(shè)單詞出現(xiàn)的順序在文檔分類的任務(wù)中是無關(guān)緊要的。
二是次詞(Sub-Word)層級(jí)。該層級(jí)不使用單詞當(dāng)成是索引字,一個(gè)由n個(gè)字母所構(gòu)成的字串被視為基礎(chǔ)的構(gòu)成組件,這種表示法可以建立相似性的模型,如“computer”和“computers”是不同的單詞。使用這種表示法的優(yōu)點(diǎn)是系統(tǒng)可以處理拼字錯(cuò)誤,允許使用者輸入錯(cuò)誤的單詞,經(jīng)由系統(tǒng)比對(duì),自動(dòng)找到類似的單詞。
三是多詞(Multi-Word)層級(jí)。借助語言學(xué)上的工具的輔助,大量的文檔可以基于句法(Syntactic)上的結(jié)構(gòu)做深入的分析。在這一個(gè)層級(jí)里,索引字通常是參考句法結(jié)構(gòu)的信息所產(chǎn)生的。最常被使用的句法結(jié)構(gòu)之一是“名詞片語”。這種方式通稱為句法片語索引(Syntactic Phrase Indexing)。
四是語意(Semantic)層級(jí)。到目前為此,現(xiàn)今既有的信息科技與技術(shù)尚未能做到自動(dòng)化的摘取一份文檔的內(nèi)容所代表的完整語意,并且表達(dá)成可以用以作為數(shù)學(xué)運(yùn)算的形式。但是就某些角度而言,有研究指稱可以使用分類學(xué)以及一些固定字匯的索引語言來取得文檔所代表的語意。網(wǎng)絡(luò)上的Yahoo!分類架構(gòu)就是其中一個(gè)例子。Yahoo!使用階層式的分類樹,用以組成整體的分類結(jié)構(gòu),接著以人工的方式將網(wǎng)頁分到一至多個(gè)的分類類別里。