對(duì)于企業(yè)競(jìng)爭(zhēng)情報(bào)工作而言,有幾個(gè)我們并不愿意接受,但卻基本正確的判斷:信息如潮水般涌來,相關(guān)信息的監(jiān)測(cè)和搜集都已超出了人的手工操作能力,更不要說分析抽取有價(jià)值的情報(bào)了;信息并不是情報(bào),信息、數(shù)據(jù)只是能夠從中提取情報(bào)的原料,或者叫礦石。
在這個(gè)信息泛濫的時(shí)代,這些情報(bào)礦石的品位并不很高,我們擁有的提煉技術(shù)還很初級(jí);情報(bào)是信息、數(shù)據(jù)背后的含義,獲得情報(bào)的關(guān)鍵是理解和判斷能力。在這一點(diǎn)上來看。我們現(xiàn)在擁有的強(qiáng)大的技術(shù)能力卻顯得有些無能為力;數(shù)據(jù)表明,一個(gè)企業(yè)或組織80%的信息是以文本的形式存放的,包括WEB頁面、技術(shù)文檔、電子郵件等。
由于信息技術(shù)還沒有賦予對(duì)文本的閱讀和分析能力,而由于文本數(shù)量的飛速增長(zhǎng)和經(jīng)常改變,人們已經(jīng)沒有足夠的時(shí)間和精力處理數(shù)量巨大的文本,而這又是組織存在和運(yùn)轉(zhuǎn)所必需的。
競(jìng)爭(zhēng)情報(bào)存在于事實(shí)、事件、關(guān)系、變化之中,競(jìng)爭(zhēng)情報(bào)工作就是需要監(jiān)測(cè)和采集這些事實(shí)、事件、關(guān)系、變化的信息,并分析它們自身以及對(duì)于所關(guān)心事物的意義。這就意味著我們需要監(jiān)測(cè)和搜集的信息可能會(huì)非常廣泛,就如同美國(guó)在國(guó)家競(jìng)爭(zhēng)中投入巨資監(jiān)聽全球所有國(guó)家?guī)缀跻磺型ㄓ嵅ǘ我粯?。作為一個(gè)企業(yè)和組織不可能有這樣的能力對(duì)競(jìng)爭(zhēng)環(huán)境和競(jìng)爭(zhēng)對(duì)手進(jìn)行全面的信息監(jiān)測(cè)和搜集。作為一種現(xiàn)實(shí)可行的替代方案,企業(yè)或組織可以進(jìn)行媒體和文獻(xiàn)文檔信息的監(jiān)測(cè)和搜集。
面對(duì)浩如煙海的文本信息,如何幫助人們有效地收集和選擇所感興趣的信息,如何幫助用戶在日益增多的信息中自動(dòng)發(fā)現(xiàn)新的概念,并自動(dòng)分析它們之間的關(guān)系,使之能夠真正做到信息處理的自動(dòng)化,這已經(jīng)成為信息技術(shù)領(lǐng)域的熱點(diǎn)問題。我們已經(jīng)可以對(duì)結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行很好的分析和處理,真正的困難在于非結(jié)構(gòu)化的信息,也就是我們通常說的文本信息。人們迫切需要能夠從大量文本文檔中快速、有效地發(fā)現(xiàn)有用資源和知識(shí)的方法和工具。在這種強(qiáng)烈需求的驅(qū)動(dòng)之下。文本挖掘技術(shù)被催生了。
在討論文本挖掘技術(shù)之前,我們先要討論一下結(jié)構(gòu)化信息的挖掘問題。結(jié)構(gòu)化數(shù)據(jù)我們已經(jīng)建立了有效的分析和處理方法,計(jì)算機(jī)可以很好地進(jìn)行處理。為什么呢?因?yàn)槲覀兛梢愿嬖V計(jì)算機(jī)這些數(shù)據(jù)之間的邏輯關(guān)系和尋找各種關(guān)系的模型。而對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)——自然語言文本,我們還不能做到這一點(diǎn)。這是因?yàn)槲覀儗?duì)于結(jié)構(gòu)化數(shù)據(jù)已經(jīng)可以“操作性”地描述它們的關(guān)系和模式。比如加、減、比例、對(duì)數(shù)、微分等等。
文本挖掘技術(shù)的發(fā)展
文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí),并且利用這些知識(shí)更好地組織信息的過程。文本挖掘是信息挖掘的一個(gè)應(yīng)用研究分支。用于基于文本信息的知識(shí)發(fā)現(xiàn)。
文本挖掘利用智能算法,如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、客戶電子郵件、問題查詢、網(wǎng)頁等),抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對(duì)文檔進(jìn)行分類,獲取有用的知識(shí)和信息。文本挖掘技術(shù)涉及多種科學(xué)學(xué)科,涵蓋了多種技術(shù)。包括數(shù)據(jù)挖掘技術(shù)、信息抽取、信息檢索、機(jī)器學(xué)習(xí)、自然語言處理、計(jì)算語言學(xué)、統(tǒng)計(jì)數(shù)據(jù)分析、線性幾何、概率理論甚至還有圖論。
文本挖掘?qū)嶋H上就是利用計(jì)算機(jī)的高速度和海量處理能力,來幫助人們處理文本信息。怎樣幫助人來處理文本信息呢?這還要從人如何利用文本信息談起。
我們知道,人們需要信息是要理解信息所代表的含義。在這一點(diǎn)上計(jì)算機(jī)理解自然語言的能力還非常有限,幾乎幫不了人的什么忙。只有人“規(guī)定”一個(gè)符號(hào)序列等同于什么,并且用什么樣的形式去表達(dá)(如數(shù)字、文字、圖像、音頻序列)。除此之外,計(jì)算機(jī)什么也不“想”,也不會(huì)“想”。說穿了,在弄清楚人的思維的奧秘之前,我們恐怕還沒有辦法讓計(jì)算機(jī)具有思維能力,哪怕是很初級(jí)的。
因此。計(jì)算機(jī)目前能夠解決的還是符號(hào)序列和符號(hào)序列之間的關(guān)系,比如發(fā)現(xiàn)兩個(gè)文本文件中出現(xiàn)了相同的符號(hào)序列,一篇文獻(xiàn)中同一個(gè)符號(hào)序列出現(xiàn)了多少次等??梢哉f,目前文本挖掘的本質(zhì)還是統(tǒng)計(jì)的和結(jié)構(gòu)的分析技術(shù),遠(yuǎn)遠(yuǎn)還沒有達(dá)到語義的層次。即便是基于樣本的學(xué)習(xí)訓(xùn)練方法和神經(jīng)網(wǎng)絡(luò)等人工智能方法,都是如此。從目前文本挖掘技術(shù)的研究和應(yīng)用狀況來看,從語義的角度來實(shí)現(xiàn)文本挖掘的還沒有看到,目前研究和應(yīng)用最多的幾種文本挖掘技術(shù)包括文檔聚類、文檔分類和摘要抽取。
文檔聚類、分類和文摘
文檔聚類就是通過對(duì)文檔的字詞和結(jié)構(gòu)特征進(jìn)行分析,用來發(fā)現(xiàn)與某種文檔相似的一批文檔,幫助知識(shí)工作者發(fā)現(xiàn)相關(guān)知識(shí)。聚類方法通常有:層次聚類法、平面劃分法、簡(jiǎn)單貝葉斯聚類法、K-最近鄰參照聚類法、分級(jí)聚類法、基于概念的文本聚類等。
文檔聚類常常用于將一批文檔聚類成若干個(gè)類,提供一種文檔分析方法和組織文檔庫的方法。聚類分析可以用來發(fā)現(xiàn)文檔特征生成文檔分類器,以對(duì)文檔進(jìn)行分類。
文本挖掘中的聚類分析可用于提供大規(guī)模文檔庫內(nèi)容的總括,判斷文檔之間的相似程度。在搜索引擎服務(wù)中,用來減輕瀏覽相關(guān)、相似信息。文檔分類和聚類是不同的,區(qū)別在于分類是基于已有的分類體系表的,分類表是通常由人工指定,是進(jìn)行了語義處理的。一般比較準(zhǔn)確、科學(xué)地反映了某一個(gè)領(lǐng)域的劃分情況,所以在信息系統(tǒng)中使用分類的方法,能夠讓用戶手工遍歷一個(gè)等級(jí)分類體系來找到自己需要的信息,達(dá)到發(fā)現(xiàn)知識(shí)的目的,這對(duì)于用戶剛開始接觸一個(gè)領(lǐng)域想了解其中的情況,或者用戶不能夠準(zhǔn)確地表達(dá)自己的信息需求時(shí)特別有用。
而聚類分析則沒有這樣的分類表,只是基于文檔之間的相似度。并且僅僅在聚類分析的前提下生成的分類還需要人工賦予語義解釋。也就是說,機(jī)器聚類篩選出來的特征可能是人無法理解的。
文檔自動(dòng)分類一般采用統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)來實(shí)現(xiàn)。常用的方法有:簡(jiǎn)單貝葉斯分類法、矩陣變換法、K-最近鄰參照分類算法以及支持向量分類機(jī)等。自動(dòng)文摘是由于互聯(lián)網(wǎng)上的文本信息、機(jī)構(gòu)內(nèi)部的文檔及數(shù)據(jù)庫的內(nèi)容都在成指數(shù)級(jí)的速度增長(zhǎng),用戶在檢索信息的時(shí)候,可以得到成千上萬篇的返回結(jié)果,其中許多是與其信息需求無關(guān)或關(guān)系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶付出很多勞動(dòng),而且效果不好。
自動(dòng)文摘能夠生成簡(jiǎn)短的關(guān)于文檔內(nèi)容的指示性信息。將文檔的主要內(nèi)容呈現(xiàn)給用戶,以決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量的瀏覽時(shí)間。自動(dòng)文摘就是利用計(jì)算機(jī)自動(dòng)地從原始文檔中提取全面準(zhǔn)確地反映該文檔中心內(nèi)容的簡(jiǎn)單連貫的短文。
最簡(jiǎn)單的自動(dòng)文摘方法就是截取文章頭部有限數(shù)量的文字,生成文檔的文摘。一般來說要求自動(dòng)文摘應(yīng)能將原文的主題思想或中心內(nèi)容自動(dòng)提取出來,文摘文字應(yīng)具有概況性、客觀性、可理解性和可讀性。
按照生成文摘的句子來源,自動(dòng)文摘方法可以分成兩類,一類是完全使用原文中的句子來生成文摘;另一類是可以自動(dòng)生成句子來表達(dá)文檔的內(nèi)容。后者的功能更強(qiáng)大,但在實(shí)現(xiàn)的時(shí)候,自動(dòng)生成句子是一個(gè)比較復(fù)雜的問題,經(jīng)常出現(xiàn)產(chǎn)生的新句子不能被理解的情況,因此目前大多用的是抽取生成法。
文本挖掘現(xiàn)實(shí)與應(yīng)用前景
從文檔挖掘的現(xiàn)實(shí)來看,雖然距離語義層次的理解和知識(shí)挖掘的理想還很遙遠(yuǎn)。但是已經(jīng)在文本搜索、剔出重復(fù)、文檔聚類分析、自動(dòng)分類和文摘方面取得了實(shí)用的效果。其實(shí),我們每天使用的搜索引擎技術(shù)中就已廣泛地應(yīng)用到了文本挖掘技術(shù)。
信息化的社會(huì)、商業(yè)環(huán)境和組織內(nèi)部每天都在產(chǎn)生海量的文檔信息,而人們已經(jīng)沒有足夠的精力和時(shí)間去處理這些文本信息,因此,文檔信息的自動(dòng)化處理已經(jīng)是刻不容緩的商業(yè)需求。文本挖掘技術(shù)及其相關(guān)的文檔自動(dòng)化處理技術(shù)具有非常廣泛的應(yīng)用前景和商業(yè)價(jià)值。
如果從情報(bào)搜集和分析的角度來看,文本挖掘技術(shù)已經(jīng)在為我們的情報(bào)搜集活動(dòng)提供支持,特別是網(wǎng)絡(luò)情報(bào)收集方面??梢灶A(yù)期,隨著網(wǎng)絡(luò)文獻(xiàn)量的海量增長(zhǎng),搜索、相似性判別、剔除重復(fù)、聚類和分類、文摘和管理,各類文本處理和信息挖掘技術(shù)將被更加廣泛地應(yīng)用到情報(bào)搜集和管理之中。
很多文本挖掘技術(shù)的應(yīng)用是一般用戶幾乎感覺不到的。從情報(bào)分析的角度看,核心工作還是要靠人來進(jìn)行,但是大量的預(yù)處理、整序和信息統(tǒng)計(jì)特征分析則可以由文本挖掘及其相關(guān)技術(shù)來進(jìn)行。隨著語料庫語言學(xué)的發(fā)展和大規(guī)模語料語義研究的進(jìn)展,文本挖掘技術(shù)可能會(huì)給我們的情報(bào)分析和判斷帶來巨大的便利,甚至?xí)霈F(xiàn)一些基于語料的文本分析工具,這些工具可能會(huì)處理文檔中語詞之間的關(guān)系。
關(guān)于文本挖掘技術(shù)的現(xiàn)實(shí)應(yīng)用和期望,有兩點(diǎn)需要特別指出:首先,不要企望短時(shí)間內(nèi)對(duì)文本挖掘技術(shù)在語義層面有很大的突破,因而不要對(duì)其理解力和智能化有過高的奢望。特別是在短時(shí)間內(nèi),理解、想象和含義判斷依然是人類的專利和專長(zhǎng)。其次,文本挖掘技術(shù)已經(jīng)在為我們帶來便利和效率——如搜索引擎中的剔除重復(fù)和自動(dòng)文摘。不要奢望文本挖掘很快越過語義鴻溝,也不要因?yàn)檎Z義鴻溝的存在而看不到其重要的應(yīng)用意義和巨大的商業(yè)價(jià)值。