孫彩萍,王維,張亞青
中國環(huán)境科學(xué)研究院環(huán)境信息研究所
分類是知識組織的有效方式,常用的分類方法有體系分類法和分面組配分類法[1]。隨著計算機和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,知識本體經(jīng)歷了文獻、信息化、數(shù)字化等發(fā)展階段,相應(yīng)地產(chǎn)生了圖書資料分類法、網(wǎng)絡(luò)信息分類法、電子政務(wù)分類法等[2-5],分類法在單一知識組織功能中增加了知識發(fā)現(xiàn)新功能。經(jīng)典分類法(如中國圖書館分類法和杜威十進制圖書分類法)向自動化、信息化發(fā)展,實現(xiàn)從傳統(tǒng)手工紙質(zhì)圖書資料分類向自動化、網(wǎng)絡(luò)化的信息分類轉(zhuǎn)型[5-7]。在這一過程中,用戶驅(qū)動型的分類開始出現(xiàn)。隨著電子政務(wù)的興起和發(fā)展,基于元數(shù)據(jù)標準的目錄服務(wù)成為信息共享和復(fù)用的技術(shù)標準,而分類法是電子政務(wù)目錄體系建立的基礎(chǔ)[8-9]。大數(shù)據(jù)時代,信息更多地分散于數(shù)據(jù)中,呈現(xiàn)數(shù)據(jù)量大、數(shù)據(jù)處理速度快、數(shù)據(jù)結(jié)構(gòu)多樣性和數(shù)據(jù)價值密度低等特點[10],基于互連網(wǎng)數(shù)據(jù)采集和檢索的搜索引擎技術(shù)可滿足信息發(fā)現(xiàn)和復(fù)用需求[11]。在大氣環(huán)境數(shù)據(jù)資源共享建設(shè)中,如何集合分類方法和現(xiàn)代檢索技術(shù),實現(xiàn)信息的高效組織、發(fā)現(xiàn)和利用,成為需要解決的難題。
傳統(tǒng)分類方法常用的有體系分類法、分面分類法和混合分類法。體系分類法,又稱為線分類法、層次分類法,通常以科學(xué)分類為基礎(chǔ),依據(jù)分類對象的某些特征或?qū)傩詣澐诸惸?,逐級進行類目細化,逐次展開各分類段,形成有層次的樹狀結(jié)構(gòu)的分類體系。各大搜索引擎的類目設(shè)計上,采用的是傳統(tǒng)分類法主題分類思想[10]。其優(yōu)點一是按照學(xué)科、專業(yè)集中文獻,類目的展開比較系統(tǒng);二是采取等級列舉方式,能清晰地表達出類目體系中各類目之間的從屬關(guān)系和并列關(guān)系。缺點主要是類目表為靜態(tài)結(jié)構(gòu),不能根據(jù)需要隨時改變,各種復(fù)雜主題和細小專深主題詳盡揭示受限。
分面分類法的基本原則是選擇分類對象本質(zhì)的特征或?qū)傩宰鳛椤懊妗?;同一“面”?yīng)采用相同的分類依據(jù);不同“面”內(nèi)的類目不相互交叉,也不能重復(fù)出現(xiàn)。經(jīng)典分面PMEST是指人物(personality)、事件(matter)、能量(energy)、空間(space)和時間(time)[1]。分面分類法面向數(shù)字環(huán)境下特定領(lǐng)域的組織與搜索需求,設(shè)計滿足專業(yè)化、個性化的分面類表,主要用于網(wǎng)站信息架構(gòu)、電子商務(wù)產(chǎn)品目錄、企業(yè)內(nèi)容組織工具以及提高搜索效率的后控詞表等[4-5]。
網(wǎng)絡(luò)信息具有交互性、多維性、多樣性、高頻性和海量等特征,傳統(tǒng)分類法應(yīng)用受限。隨之興起的大眾分類法,又稱社會化標簽系統(tǒng),是指由大眾自發(fā)性定義的平面型非層級結(jié)構(gòu)式標簽分類體系,是Web 2.0的典型產(chǎn)物之一。它允許用戶以元數(shù)據(jù)的形式自發(fā)地標注各種類型的網(wǎng)絡(luò)資源,并通過標簽實現(xiàn)資源的共享,幫助社區(qū)用戶進行知識的檢索、瀏覽、組織、共享和創(chuàng)新,因而被廣泛應(yīng)用于國內(nèi)外的在線社區(qū)中,它具有包容性、靈活性、動態(tài)性和以用戶為中心的信息組織特點。當(dāng)前主流的網(wǎng)絡(luò)信息分類主要有:融合大眾標注的主題分類目錄的嚴格等級化分類體系;基于主題法的大眾分類的平面化分類體系;用戶驅(qū)動的非嚴格等級化的大眾分類本體分類體系和自動派生的非嚴格等級化的大眾分類本體分類體系等[13]。
1.2.1中國圖書館分類法
中國圖書館分類法(簡稱中圖分類法)以學(xué)科分類為基礎(chǔ),設(shè)有22個基本大類,采用字母與阿拉伯?dāng)?shù)字相結(jié)合的混合編碼。與國際上其他分類法相比,中圖分類法雖然產(chǎn)生較晚,但它不僅系統(tǒng)地總結(jié)了我國分類法的編制經(jīng)驗,而且吸取了國外分類法的編制理論和技術(shù),所以發(fā)展很快[2]。基于中圖分類法的《中國分類主題詞表》(Web版)(簡稱《中分表》)通過互聯(lián)網(wǎng)提供詞表瀏覽、檢索和數(shù)據(jù)下載服務(wù),提供BS模式的圖書館業(yè)務(wù)支持,并能與聯(lián)機公共目錄檢索系統(tǒng)(online public access catalog,OPAC)進行對接?!吨蟹直怼返倪M一步規(guī)范處理需要借助自動分詞詞性標注、新詞發(fā)現(xiàn)、信息抽取、自動聚類等中文本體信息處理的最新方法和技術(shù)。但在相當(dāng)長的時間內(nèi),《中分表》修訂與維護工作仍然離不開人工方式[5]。
中圖分類法對環(huán)境科學(xué)分類設(shè)有8個一級類目(圖1),分別是環(huán)境科學(xué)基礎(chǔ)理論、社會與環(huán)境、環(huán)境保護管理、災(zāi)害及其防治、環(huán)境污染及其防治、廢物處理與綜合利用、環(huán)境質(zhì)量評價與環(huán)境監(jiān)測、安全科學(xué)。1999—2010年中圖分類法的環(huán)境分類有了大幅調(diào)整,增加了30個二級類目。但在專業(yè)分類應(yīng)用上存在3個問題:其一,中圖分類法為體系分類,屬于預(yù)列類目,固有的缺陷是不能詳盡無遺地列出已知主題,對不斷涌現(xiàn)的新概念更是不能及時吸納[14];其二,中圖分類法版本更新周期較長,與現(xiàn)代環(huán)境科學(xué)迅速發(fā)展不相協(xié)調(diào);其三,現(xiàn)代科學(xué)具有高度細化、高度綜合的發(fā)展特點,這種缺陷在專業(yè)分類上更加凸顯。
圖1 中圖分類法——環(huán)境科學(xué)之大氣科學(xué)Fig.1 Chinese Library Classification: environmental atmospheric science
1.2.2環(huán)境信息分類
圖2 環(huán)境信息分類——大氣環(huán)境質(zhì)量數(shù)據(jù)Fig.2 Classification of environmental information: atmospheric environmental quality data
王宏智等[17]基于1999—2012年資源環(huán)境領(lǐng)域科技基礎(chǔ)性工作專項產(chǎn)生的科學(xué)數(shù)據(jù),采用一、二級按學(xué)科,三級按關(guān)鍵詞的分類體系對資源環(huán)境領(lǐng)域科學(xué)數(shù)據(jù)進行分類,共有14個一級分類、67個二級分類、435個三級分類,其大氣科學(xué)及環(huán)境科學(xué)中有大氣成分或涉及大氣污染物的分類見表1。由表1可見,該分類法的優(yōu)點是以環(huán)境介質(zhì)和特征污染物作為三級分類,易于理解;缺點是特征污染物過少。
表1 資源環(huán)境領(lǐng)域中涉及大氣部分的數(shù)據(jù)分類[17]
1.2.3FEA框架數(shù)據(jù)分類
美國電子政務(wù)共享框架(Federal Enterprise Architecture Framework,F(xiàn)EA框架)[18]是美國電子政務(wù)頂層設(shè)計——聯(lián)邦總體架構(gòu)的方法論和集成工具,迄今有10余年的發(fā)展歷史,于2013年發(fā)布了最新版,旨在促進聯(lián)邦政府各部門與其他政府實體之間的信息共享、互操作以及通用業(yè)務(wù)過程的共享開發(fā)。FEA框架的核心是統(tǒng)一參考模型(CRM),其由6個子模型組成,包括績效參考模型、業(yè)務(wù)參考模型、數(shù)據(jù)參考模型、應(yīng)用參考模型、基礎(chǔ)設(shè)施參考模型和安全參考模型[18]。FEA框架幫助聯(lián)邦政府實現(xiàn)自上向下的電子政務(wù)設(shè)計和統(tǒng)籌管理,指導(dǎo)聯(lián)邦機構(gòu)將政府戰(zhàn)略目標轉(zhuǎn)化為機構(gòu)目標,進而細化為具體、可實施的電子政務(wù)工程,因而已被多國吸收和借鑒。
FEA框架的分類思想體現(xiàn)在參考模型中,它從績效、業(yè)務(wù)、數(shù)據(jù)、應(yīng)用、基礎(chǔ)設(shè)施和安全6個角度表現(xiàn)電子政務(wù)體系主要包含的元素。除數(shù)據(jù)參考模型外,每個參考模型都有3~4個基本的分類層級,將參考模型的具體內(nèi)容層層細化。如業(yè)務(wù)參考模型采取業(yè)務(wù)域、業(yè)務(wù)線、子功能三類定義對聯(lián)邦政府的主要業(yè)務(wù)流和業(yè)務(wù)活動進行描述;應(yīng)用參考模型從系統(tǒng)、應(yīng)用組件、接口3個層次對支持政府業(yè)務(wù)和績效目標分類。
數(shù)據(jù)參考模型(data reference model,DRM)面向業(yè)務(wù)活動,聚焦機構(gòu)和跨部門的信息互操作性和共享挑戰(zhàn),是實現(xiàn)整個聯(lián)邦政府間的信息描述、發(fā)現(xiàn)、管理、共享的基礎(chǔ),將政府?dāng)?shù)據(jù)視為國家資產(chǎn)管理原則。DRM用于識別聯(lián)邦政府擁有哪些數(shù)據(jù)以及如何根據(jù)業(yè)務(wù)任務(wù)要求共享該數(shù)據(jù)。DRM采取三級分類(圖3),最頂級為域(4項),依次為主題(22項)和專題(144項)。需要注意的是,DRM分類標準不是固定不變的。相反,它具有靈活性和可擴展性,隨著聯(lián)邦政府業(yè)務(wù)模式的變化,可以添加新的主題和專題,也允許機構(gòu)根據(jù)需要將主題進一步分解為機構(gòu)特定的業(yè)務(wù)流程。
圖3 DRM分類Fig.3 Date reference model classification
DRM指出,參與美國聯(lián)邦政府首席信息官委員會(COI)的機構(gòu)和組織對數(shù)據(jù)進行分類,通過定義、編寫和發(fā)布潛在用戶可以看到和訪問的分類元數(shù)據(jù),發(fā)現(xiàn)共享信息,繼而實現(xiàn)數(shù)據(jù)服務(wù)的目標。根據(jù)數(shù)據(jù)的業(yè)務(wù)支撐特性和應(yīng)用范圍,自下而上將元數(shù)據(jù)劃分為6類,即數(shù)據(jù)概念、數(shù)據(jù)交換、數(shù)據(jù)資產(chǎn)、專題、主題、域。需要明確的是數(shù)據(jù)資產(chǎn)不是DRM分類標準,但是其可按DRM分類法進行分類。此外,數(shù)據(jù)使用者可以訂閱數(shù)據(jù)注冊表中發(fā)布的主題,增強數(shù)據(jù)發(fā)現(xiàn)。一旦分享數(shù)據(jù)注冊表,這些分類將成為數(shù)據(jù)發(fā)現(xiàn)的有效工具,促進數(shù)據(jù)分享和復(fù)用。
伴隨著我國大氣污染的防治歷程從起步、發(fā)展、轉(zhuǎn)型到攻堅階段,大氣環(huán)境監(jiān)測作為重要的科技支撐體系,更是得到迅速發(fā)展,監(jiān)測技術(shù)、設(shè)備和手段日趨多樣化,并逐漸具有了重要的國際影響力。在大氣重污染成因與治理攻關(guān)項目(簡稱大氣攻關(guān)項目)中,專門組建了立體觀測網(wǎng),集業(yè)務(wù)化觀測網(wǎng)、組分觀測網(wǎng)、超級站觀測網(wǎng)、雷達網(wǎng)、衛(wèi)星觀測于一體[19-20]。此外,在線監(jiān)控系統(tǒng)和天空地立體遙測技術(shù)為企業(yè)監(jiān)管提供了先進的技術(shù)手段[21]。伴隨著基于物聯(lián)網(wǎng)傳感器的自動化監(jiān)測技術(shù)與設(shè)備的普及和多樣化,大氣環(huán)境科學(xué)領(lǐng)域的數(shù)據(jù)量呈井噴式增長,其中僅空氣質(zhì)量監(jiān)測數(shù)據(jù)在2015年底就已經(jīng)超過10 TB[22],呈現(xiàn)典型的大數(shù)據(jù)特征。
大氣環(huán)境數(shù)據(jù)資源共享的目標是對項目產(chǎn)出的多源數(shù)據(jù)在線集成、統(tǒng)一管理和全面共享[23]。大氣攻關(guān)項目設(shè)5個研究部——大氣重污染來源與成因、排放現(xiàn)狀評估和強化管控、綜合科學(xué)決策支撐、大氣污染對人群健康影響以及城市研究部,在研究架構(gòu)設(shè)計上為專題—課題—子課題三級科研體系,28個研究方向,從大氣重污染三大因素——污染排放、氣象條件和區(qū)域傳輸入手,對污染來源、排放強度、時間分布、行業(yè)分布開展精細化、定量化研究。針對上述業(yè)務(wù)需求,需要整合全社會資源,引入覆蓋天空地一體化的大氣環(huán)境領(lǐng)域的科學(xué)監(jiān)測數(shù)據(jù)和各類統(tǒng)計調(diào)查數(shù)據(jù),并進行科學(xué)性、系統(tǒng)化分類。
大氣攻關(guān)項目組匯交的數(shù)據(jù)具有如下特征:1)數(shù)據(jù)來源復(fù)雜,既有來自研究機構(gòu)(中國環(huán)境監(jiān)測總站和立體觀測網(wǎng))的監(jiān)測觀測數(shù)據(jù),包括空氣質(zhì)量、顆粒物組分、激光雷達監(jiān)測文件等;也有課題組和政府發(fā)布的調(diào)查數(shù)據(jù)(以文件的形式提交),科研產(chǎn)出成果(如研究報告、論文、信息系統(tǒng)、模擬數(shù)據(jù)),外部必需數(shù)據(jù)(如污染源排放、氣象、標準規(guī)范、基礎(chǔ)數(shù)據(jù)等)。2)數(shù)據(jù)結(jié)構(gòu)多樣、數(shù)據(jù)量大、時效性強,指標表達方式多樣化。3)數(shù)據(jù)采集手段呈先進性和多樣性并重,合規(guī)性不一。綜上,大氣領(lǐng)域研究的技術(shù)、方法和數(shù)據(jù)已經(jīng)發(fā)生巨大的變革,傳統(tǒng)的分類體系既不適應(yīng)也不能準確反映科研領(lǐng)域研究及科研數(shù)據(jù)的變化特征。需要根據(jù)業(yè)務(wù)需求,開發(fā)易于理解、面向精準化數(shù)據(jù)集的分類體系。
對行業(yè)大數(shù)據(jù)分類體系建設(shè)要堅持實用性、科學(xué)性、均衡性等原則?;贔EA框架數(shù)據(jù)類目業(yè)務(wù)化、資源化原則,定位于數(shù)據(jù)發(fā)現(xiàn)路徑設(shè)計,提升多元異構(gòu)海量數(shù)據(jù)的檢索效率,采用分面分類法建立大氣環(huán)境數(shù)據(jù)資源分類體系。在分面分類結(jié)構(gòu)中,等級分類采用經(jīng)典方法,以環(huán)境信息分類法的類目層次為基礎(chǔ),其一按照實際采集的綜合科研數(shù)據(jù)種類進行類目的擴充和細化,保證分類體系的完整性;其二根據(jù)數(shù)據(jù)對業(yè)務(wù)的必要性調(diào)整類目層級,保持分類體系結(jié)構(gòu)的一致性;其三在平面結(jié)構(gòu)的劃分上,依據(jù)數(shù)據(jù)特征(如結(jié)構(gòu)化特征、時間特征)和用戶習(xí)慣等進行面分類。針對平臺數(shù)據(jù)來源和種類,建立元數(shù)據(jù)及注冊服務(wù),在元數(shù)據(jù)中增加分類,便于數(shù)據(jù)發(fā)現(xiàn)。同時基于元數(shù)據(jù),提供信息查詢服務(wù)。
依據(jù)《大氣重污染成因與治理攻關(guān)項目數(shù)據(jù)管理辦法》《大氣重污染成因與治理攻關(guān)項目數(shù)據(jù)管理技術(shù)規(guī)定》,參照HJT 417—2007框架體系,建立了標準化大氣環(huán)境科學(xué)數(shù)據(jù)分類體系和資源目錄(表2)。該分類體系充分考慮了大氣環(huán)境數(shù)據(jù)存在的來源廣、類型雜、規(guī)模小、分類難等問題,根據(jù)環(huán)境信息分類與編碼的有效范圍和容量,確定大氣環(huán)境科學(xué)的具體分類方法和結(jié)構(gòu),為綜合數(shù)據(jù)的規(guī)范化管理、構(gòu)建歸一化數(shù)據(jù)集奠定了基礎(chǔ)。
在進行大氣環(huán)境科學(xué)綜合數(shù)據(jù)采集與共享平臺的建設(shè)中,為打破數(shù)據(jù)孤島,讓多源異構(gòu)數(shù)據(jù)更易被發(fā)現(xiàn)和使用,支撐科研機構(gòu)的業(yè)務(wù)探索需求,對大氣環(huán)境科學(xué)綜合的業(yè)務(wù)數(shù)據(jù)集提供基于類目體系的元數(shù)據(jù)目錄注冊和發(fā)布服務(wù)。元數(shù)據(jù)注冊服務(wù)包括來源信息、基礎(chǔ)信息、描述信息、質(zhì)量信息(圖4)。通過元數(shù)據(jù)發(fā)布及相應(yīng)的檢索工具——元數(shù)據(jù)搜索引擎和資源目錄,為匯交的海量多源異構(gòu)數(shù)據(jù)建立具有可操作性的多種知識發(fā)現(xiàn)途徑。
建立基于元數(shù)據(jù)的Solr企業(yè)搜索引擎[24],提供信息查詢服務(wù)。鑒于平臺信息既有存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),也有附載在文本、視頻等文件中的非結(jié)構(gòu)化信息,且存儲比較分散,迫切需要構(gòu)建一個企業(yè)搜索引擎,以便讓科研人員更方便、快速地查找信息。Solr是目前比較流行的、用于構(gòu)建全文搜索引擎的先進技術(shù),故用Solr作為構(gòu)建企業(yè)搜索引擎的技術(shù)支持,其查詢效果如圖5所示。由圖5可見,基于類目體系的全文檢索結(jié)果可讓用戶更快地找到支撐業(yè)務(wù)的相關(guān)數(shù)據(jù)。未來,基于語義深度學(xué)習(xí)的推薦系統(tǒng)將會與分類體系互為助力,使大數(shù)據(jù)的業(yè)務(wù)驅(qū)動功能發(fā)揮得更加顯著。
表2 大氣環(huán)境科學(xué)數(shù)據(jù)資源目錄
圖4 元數(shù)據(jù)注冊信息Fig.4 Metadata registration information
圖5 基于元數(shù)據(jù)的搜索引擎查詢效果Fig.5 Search engine based on metadata
(1)隨著知識載體和傳播方式的改變,分類法發(fā)生從知識組織到知識發(fā)現(xiàn)的功能轉(zhuǎn)變。
(2)隨著網(wǎng)絡(luò)信息、知識社區(qū)和政府信息共建共享的不斷發(fā)展,分類法從傳統(tǒng)的學(xué)科分類法向面向業(yè)務(wù)的主題分類法發(fā)展。
(3)基于業(yè)務(wù)分析,建立了11個大類的大氣環(huán)境綜合數(shù)據(jù)分類體系,制定元數(shù)據(jù)注冊表,提供全文檢索服務(wù),滿足大數(shù)據(jù)使用特點。