姜偉 王健 班翊坤 馬春茂 馮曉佳
摘要:本文提出將元數(shù)據(jù)智能分析的理念引入電子文件的開發(fā)利用工作中的創(chuàng)新思路,通過數(shù)據(jù)挖掘流程與技術(shù)創(chuàng)新的有機(jī)結(jié)合,自動化、智能化、高效率、低成本地將電子文件中的淺層信息變?yōu)樯顚有畔?,將隱性知識轉(zhuǎn)化為顯性知識,力求加速知識創(chuàng)新,為電子文件的深度開發(fā)與利用奠定基礎(chǔ)。
關(guān)鍵詞:電子文件元數(shù)據(jù)數(shù)據(jù)挖掘智能分析可視化
本文將從社會關(guān)系的角度探討電子文件元數(shù)據(jù)智能分析的思路、對象和方法,繼而以可視化的形式展示這一思路的系統(tǒng)實現(xiàn),以期為電子文件的深度開發(fā)和利用奠定基礎(chǔ)。
一、電子文件元數(shù)據(jù)智能分析的理念與思路
(一)電子文件元數(shù)據(jù)智能分析的基本理念
電子文件元數(shù)據(jù)智能分析是指在有噪音、模糊的大量非結(jié)構(gòu)化電子文件中,基于《文書類電子文件元數(shù)據(jù)方案》(DA/T46-2009)中元數(shù)據(jù)(本文稱之為標(biāo)準(zhǔn)元數(shù)據(jù))及本課題組提出的擴(kuò)展元數(shù)據(jù),通過圖形直觀地顯示、比較數(shù)據(jù)中的復(fù)雜關(guān)系,識別出有效、新穎、可用的數(shù)據(jù)分析模型,并發(fā)現(xiàn)隱藏于數(shù)據(jù)之中知識的過程。
電子文件元數(shù)據(jù)智能分析的目的在于向利用者屏蔽原始數(shù)據(jù)的噪音,洞察、解釋錯綜復(fù)雜的數(shù)據(jù)關(guān)系,從原始數(shù)據(jù)中提煉出有意義的知識,并用可視化的圖形簡潔、生動地展示出來,以便為業(yè)務(wù)提供經(jīng)過挖掘、提煉、梳理并能反映規(guī)律和本質(zhì)的信息,有效輔助決策。由于電子文件元數(shù)據(jù)中包含了社會關(guān)系的主體(人物、組織),因而在可視化智能分析中特別重視分析并顯示個人與個人的關(guān)系、個人與組織機(jī)構(gòu)的關(guān)系、個人與主題的靜態(tài)和動態(tài)關(guān)系。通過數(shù)據(jù)挖掘方法揭示上述關(guān)系有助于量化人物、組織、主題之間廣泛、深入、直接的聯(lián)系,從而為決策提供數(shù)據(jù)支撐。
(二)電子文件元數(shù)據(jù)智能分析的核心對象
電子文件元數(shù)據(jù)智能分析的對象主要是《文書類電子文件元數(shù)據(jù)方案》中列為“內(nèi)容描述元數(shù)據(jù)”的主題詞、關(guān)鍵詞、人名以及“業(yè)務(wù)實體元數(shù)據(jù)”中的行為依據(jù)。在此基礎(chǔ)上,課題組基于上述社會關(guān)系研究,又拓展了其他命名實體元數(shù)據(jù),包括空間、組織、引語等“內(nèi)容描述元數(shù)據(jù)”的擴(kuò)展項,其中“組織”是指電子文件內(nèi)容涉及的所有組織機(jī)構(gòu),主要分析存在于電子文件中的各種社會組織關(guān)系。特別予以說明的是,將主題詞作為分析對象,主要基于以下考慮:
1.主題詞地位至關(guān)重要。主題詞是內(nèi)容描述元數(shù)據(jù)的核心,是電子文件核心內(nèi)容的概括和提煉。國家電子政務(wù)標(biāo)準(zhǔn)化總體組制訂的首批6個電子政務(wù)標(biāo)準(zhǔn)項目中,《基于XML電子公文格式規(guī)范》《電子政務(wù)數(shù)據(jù)元和電子政務(wù)主題詞表編制規(guī)則》都包含了主題詞的內(nèi)容;以主題詞為代表的內(nèi)容描述元數(shù)據(jù)在《文書類電子文件元數(shù)據(jù)方案》中也占據(jù)重要地位。盡管2012年國家標(biāo)準(zhǔn)《黨政機(jī)關(guān)公文格式》(GB/T9704-2012)在格式要素中取消了“主題詞”,但課題組認(rèn)為全文檢索的原理無法展現(xiàn)主題詞之間運用“用、代、屬、分、族、參”等參照項所建立起來的隱蔽的分類體系,因此不能深刻揭示公文中的語義關(guān)系。語義關(guān)系無法揭示,電子文件的數(shù)據(jù)挖掘也無從談起。
2.主題詞方面的研究成果在實踐中已得到很好的驗證。課題組的前期研究成果《電子政務(wù)主題詞表編制及應(yīng)用系統(tǒng)》獲2005年度“北京市科學(xué)技術(shù)二等獎”,基于上述主題詞研究成果開發(fā)的“北京外事網(wǎng)站內(nèi)容分析和發(fā)布系統(tǒng)”實現(xiàn)了友好城市新聞自動采集、分析和發(fā)布,較大提高了北京外事網(wǎng)站內(nèi)容的更新效率;基于上述研究開發(fā)的“全球最新科技情報數(shù)據(jù)挖掘系統(tǒng)”在專利、期刊、論文、科技新聞的元數(shù)據(jù)整合中發(fā)揮重要作用。
(三)電子文件元數(shù)據(jù)智能分析的方法
智能分析法中的相關(guān)關(guān)系法、回歸分析法和時序分析法在數(shù)據(jù)挖掘、信息分析、趨勢預(yù)測等領(lǐng)域應(yīng)用比較廣泛,所以課題組將之選為電子文件“內(nèi)容描述元數(shù)據(jù)”和“業(yè)務(wù)實體元數(shù)據(jù)”的智能分析方法,其中相關(guān)分析法是核心。相關(guān)分析法側(cè)重探討變量間關(guān)系的密切程度,回歸分析法側(cè)重探求變量間的因果關(guān)系,時間序列分析法則考慮研究對象與時間之間的相關(guān)關(guān)系,即將時間作為自變量來看待。同時,本文還以詞語同現(xiàn)概率理論為基礎(chǔ)引入主題詞智能標(biāo)引技術(shù),從詞語的角度研究并度量社會關(guān)系,用可視化技術(shù)顯示“內(nèi)容描述元數(shù)據(jù)”和“業(yè)務(wù)實體元數(shù)據(jù)”在社會影響力、社會發(fā)展趨勢、社會熱點問題等方面的影響。
通過技術(shù)手段自動采集出目標(biāo)分析對象的主題詞、關(guān)鍵詞、人名、行為依據(jù)、空間、組織、引語等元數(shù)據(jù)并以此作為分析對象,運用相關(guān)分析法以上述元數(shù)據(jù)在電子文件集合中出現(xiàn)的頻次作為第一個變量進(jìn)行研究,以上述元素在電子文件集合中同時出現(xiàn)的概率作為第二個變量進(jìn)行研究。在回歸分析中,為探求變量間的因果關(guān)系,例如以“世界城市”的相關(guān)內(nèi)容元數(shù)據(jù)作為第一項多個變量,以公認(rèn)的世界城市“紐約”的相關(guān)內(nèi)容元數(shù)據(jù)作為第二項多個變量,通過尋找這兩項多個變量的交集,發(fā)現(xiàn)世界城市的自變量。在此基礎(chǔ)上,提出時序數(shù)據(jù)隨時間推移而變動的四種類型:趨勢變動、周期變動、季節(jié)變動和隨機(jī)變動。
二、電子文件元數(shù)據(jù)智能分析的系統(tǒng)實現(xiàn)
電子文件元數(shù)據(jù)智能分析的系統(tǒng)實現(xiàn)包括:電子文件元數(shù)據(jù)自動采集體系和系統(tǒng)開發(fā)、電子文件元數(shù)據(jù)智能分析與實際業(yè)務(wù)需求的無縫對接、電子文件元數(shù)據(jù)智能分析及其可視化展示。其中,電子文件元數(shù)據(jù)自動采集體系主要描述如何根據(jù)大數(shù)據(jù)特點設(shè)計電子文件擴(kuò)展元數(shù)據(jù)以及如何通過流程、模板、技術(shù)這三種方法在電子文件中自動采集元數(shù)據(jù)及擴(kuò)展元數(shù)據(jù),這部分內(nèi)容是將非結(jié)構(gòu)化文本半結(jié)構(gòu)化處理的關(guān)鍵環(huán)節(jié);對電子文件元數(shù)據(jù)智能分析與實際業(yè)務(wù)需求的無縫對接,課題組將通用的數(shù)據(jù)挖掘流程與北京市人民政府外事辦公室的具體業(yè)務(wù)需求進(jìn)行對接,圍繞電子文件元數(shù)據(jù)智能分析系統(tǒng)的設(shè)計展開對業(yè)務(wù)的需求分析,這是將技術(shù)與業(yè)務(wù)結(jié)合的關(guān)鍵;在電子文件元數(shù)據(jù)智能分析系統(tǒng)設(shè)計過程中,課題組根據(jù)數(shù)據(jù)挖掘原理,圍繞社會關(guān)系,對電子文件元數(shù)據(jù)和擴(kuò)展元數(shù)據(jù)進(jìn)行了智能分析,這是課題組研究的核心內(nèi)容,目的是探索一條開發(fā)和利用電子文件的新思路和新方法;在電子文件智能分析結(jié)果的可視化展示研究中,課題組根據(jù)視覺認(rèn)知原理,對電子文件標(biāo)準(zhǔn)元數(shù)據(jù)和擴(kuò)展元數(shù)據(jù)的表現(xiàn)形式以及智能分析結(jié)果的表現(xiàn)形式進(jìn)行創(chuàng)新設(shè)計,將枯燥的數(shù)據(jù)分析結(jié)果予以直觀展示。
(一)通過建立業(yè)務(wù)需求對接流程實現(xiàn)電子文件元數(shù)據(jù)智能分析
在研究過程中,課題組專門開展了元數(shù)據(jù)智能分析與實際工作需求實現(xiàn)對接的流程研究,實現(xiàn)科學(xué)理論——技術(shù)實現(xiàn)——實際應(yīng)用的跨越。流程主要包括:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、智能分析、測試評價、項目實施六個環(huán)節(jié),后續(xù)環(huán)節(jié)的知識發(fā)現(xiàn)會從前面環(huán)節(jié)的經(jīng)驗中受益。需要指出的是,電子文件智能分析各環(huán)節(jié)的順序不是剛性的,經(jīng)常會出現(xiàn)環(huán)節(jié)反復(fù)、重復(fù)的現(xiàn)象,特別是測試評價與其他環(huán)節(jié)之間往往大量反復(fù)交互,這是電子文件智能分析能夠應(yīng)用于業(yè)務(wù)實際、輔助領(lǐng)導(dǎo)決策的根本保證。
在實踐過程中,課題組分析、梳理了業(yè)務(wù)職能部門對電子文件智能分析的實際需求,包括發(fā)現(xiàn)與重大事件相關(guān)的機(jī)構(gòu)、人物、主題;顯示特定人物的人際交往關(guān)系和范圍分布;發(fā)現(xiàn)國外主流媒體報道的主要特征和傾向;顯示重大國際事件的發(fā)展趨勢及關(guān)聯(lián)特征;發(fā)現(xiàn)國際著名城市的發(fā)展路徑及優(yōu)勢領(lǐng)域;顯示國際非政府組織的活動領(lǐng)域或地域;發(fā)現(xiàn)世界著名企業(yè)的投資領(lǐng)域和活動特點等。根據(jù)上述需求,通過技術(shù)手段對高端人物特征(政治、經(jīng)濟(jì)、軍事、文化、體育等)、國際活動特征(國際會議、展覽、體育賽事、文化演出等)、國際組織特征(政府組織、非政府組織、知名跨國企業(yè)等)、文化產(chǎn)業(yè)特征(影視、出版、傳媒等)、高新技術(shù)特征(電信、網(wǎng)絡(luò)、環(huán)保、能源等)進(jìn)行了語言方面的統(tǒng)計分析和優(yōu)化處理,提高了分析維度的精確性。
(二)通過可視化數(shù)據(jù)挖掘系統(tǒng)實現(xiàn)電子文件元數(shù)據(jù)智能分析
可視化是利用計算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示以進(jìn)行人機(jī)交互的方法和技術(shù)。電子文件元數(shù)據(jù)智能分析的可視化系統(tǒng)指基于電子文件標(biāo)準(zhǔn)元數(shù)據(jù)和擴(kuò)展元數(shù)據(jù),引入數(shù)據(jù)挖掘理論和方法,從社會關(guān)系角度入手,數(shù)量化、圖形化地揭示人物、組織和主題之間的靜態(tài)和動態(tài)關(guān)系,從而輔助各級領(lǐng)導(dǎo)開展決策的系統(tǒng)。將可視化技術(shù)運用于電子文件元數(shù)據(jù)智能分析的目的在于,便于用戶更好地理解和掌握信息,提高科學(xué)決策的效率。電子文件元數(shù)據(jù)智能分析的可視化系統(tǒng)的主要功能包括:
1.關(guān)聯(lián)強(qiáng)度分析。主要用于顯示電子文件內(nèi)容描述元數(shù)據(jù)之間的關(guān)聯(lián)強(qiáng)度。圖1展示的是圍繞“國際合作”這一主題進(jìn)行的關(guān)聯(lián)強(qiáng)度分析,圓形直徑大小表示特定實體內(nèi)容在數(shù)據(jù)集里面的絕對數(shù)量,絕對數(shù)量越多,圓形直徑越長。圓形之間的鏈接線表示關(guān)系強(qiáng)度,兩個圓形之間的鏈接線越短,代表兩個實體內(nèi)容的關(guān)系越緊密。
2.時序演變分析。主要用于顯示電子文件特定內(nèi)容在整個預(yù)測時間內(nèi)呈現(xiàn)出的遞增或遞減的總趨勢。圖2展示的是在“國際組織”主題之下,“美國”和“中國”這兩個不同空間概念在2013年1~6月間的趨勢變化(下面的曲線代表美國,上面的曲線代表中國)。
3.綜合比對分析。這是關(guān)聯(lián)強(qiáng)度分析和時序演變分析的綜合。其中,縱向比對用于揭示相同時間段不同對象的比較和分析(圖3-1);橫向比對用于不同時間段相同對象的比較和分析(圖3-2)。圖3-1顯示了在2013年1~6月期間,奧巴馬和默克爾關(guān)注的主題異同情況,上半部分是奧巴馬關(guān)注的主題,下半部分是默克爾所關(guān)注的,中間部分為二者同時關(guān)注。圖3-2顯示了奧巴馬分別在2012年1~6月和2013年1~6月期間關(guān)注主題的異同。
4.當(dāng)前熱點分析。當(dāng)前熱點分析主要根據(jù)電子文件內(nèi)容描述元數(shù)據(jù)中的實體名詞在電子文件中出現(xiàn)的頻次,計算統(tǒng)計后,以數(shù)量多少為主要依據(jù),用圖形顯示出結(jié)果,可視化可展示特定時間不同熱點的實體數(shù)量。
在實踐過程中,課題組也深感需要研究的理論內(nèi)容和需要克服的技術(shù)難點還有很多。比如,如何進(jìn)一步提高內(nèi)容描述元數(shù)據(jù)自動采集和分類聚類的準(zhǔn)確率,如何結(jié)合業(yè)務(wù)實際需求研究新的數(shù)據(jù)分析模型;如何進(jìn)一步提高人機(jī)交互設(shè)計水平以提高系統(tǒng)的易用性等。
參考文獻(xiàn):
[1]王健等譯.電子辦公環(huán)境中文件管理原則與功能要求[M].北京:中國人民大學(xué)出版社,2012
[2]中華人民共和國國家檔案局.DA/T 46-2009文書類電子文件元數(shù)據(jù)方案[S]. 2009
[3]Julie Steele,Noah Iliinsky.數(shù)據(jù)可視化之美[M].北京:機(jī)械工業(yè)出版社,2011
[4]蘇新寧,楊建林,鄧三鴻,周軍.數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003