呂端士
摘要:大數(shù)據(jù)背景下,信息組織和知識組織在其研究方法和發(fā)展趨勢上發(fā)生巨大的變化,如何利用好海量復(fù)雜的數(shù)據(jù)成為當(dāng)下信息組織與知識組織研究的熱點。本文通過對信息組織和知識組織的相關(guān)內(nèi)容梳理,結(jié)合當(dāng)前大數(shù)據(jù)時代特點,分析信息組織和知識組織結(jié)合大數(shù)據(jù)技術(shù)所能發(fā)揮的新作用,并指出當(dāng)前信息組織和知識組織所面臨的困難與挑戰(zhàn),為現(xiàn)代信息工作者提供一些研究思路和理論支撐。
關(guān)鍵詞:大數(shù)據(jù);信息組織;知識組織;知識網(wǎng)絡(luò);知識組織系統(tǒng)
一、相關(guān)概念
(一)信息組織
人們可以通過各種各樣的渠道接觸到信息,但這些信息往往是冗雜的、無序的,需要經(jīng)過加工整理才能被人們所利用,這就是信息組織的任務(wù)。信息組織是利用一定的科學(xué)方法,通過信息外在特征和內(nèi)容特征將無序狀態(tài)的信息轉(zhuǎn)換成有序狀態(tài)的信息[1]。信息組織一種普遍的社會行為,是信息收集工作下一步的重要工作,為后續(xù)信息研究與應(yīng)用奠定了基礎(chǔ)。
(二)知識組織
相當(dāng)于信息組織而言,知識組織更偏重知識挖掘的過程[2]。知識組織最早由英國圖書館學(xué)家布利斯在1929年提出,他在《圖書館的知識組織》《知識組織和科學(xué)系統(tǒng)》兩本著作中從圖書館文獻(xiàn)分類的角度描述了知識組織的思想。目前對知識組織的定義尚沒有達(dá)到統(tǒng)一,圖書情報界對知識組織的定義主要有以下幾種:①知識組織是指對事物的本質(zhì)及事物間的關(guān)系進(jìn)行揭示的有序結(jié)構(gòu),即知識的序化。②知識組織是指對知識客體所進(jìn)行的諸如整理、加工、揭示、控制等一系列組織化過程及其方法。③知識組織是對知識進(jìn)行整序和提供,既處理大量的現(xiàn)有知識,又能相對降低存儲知識的物理載體的盲目增長以免知識過于分散化。
二、信息組織與知識組織在大數(shù)據(jù)環(huán)境中的作用
(一)大數(shù)據(jù)環(huán)境特點
大數(shù)據(jù)并非新技術(shù),也不算是新產(chǎn)品,而是新的現(xiàn)象。在大數(shù)據(jù)時代,信息的規(guī)模越來越大,要處理的數(shù)據(jù)量急劇上升。對于大數(shù)據(jù)環(huán)境特點,不同的研究組織有不同的解讀,但一個普遍的認(rèn)知是:大數(shù)據(jù)環(huán)境具有4V特征,即容量大(Volume)、速度快(Velocity)、種類多(Variety)、價值密度低(Value)[3][4]。容量大指的是大數(shù)據(jù)環(huán)境具有龐大的數(shù)據(jù)量;速度快可以理解為處理用戶數(shù)據(jù)迅速,延遲小,實時性高;種類多即大數(shù)據(jù)環(huán)境下數(shù)據(jù)來源廣,數(shù)據(jù)種類與格式已經(jīng)不局限于結(jié)構(gòu)化數(shù)據(jù)范疇,還包含半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)繁雜,包含的對用戶真正有價值的數(shù)據(jù)并不多,因此數(shù)據(jù)價值密度低是目前大數(shù)據(jù)環(huán)境下最顯著的特點。
(二)信息組織在大數(shù)據(jù)環(huán)境中的作用
由于大數(shù)據(jù)環(huán)境下的信息量呈指數(shù)型增長,人們對獲取有價值信息的實時性和準(zhǔn)確性要求更高,一方面人們利用智能的終端設(shè)備可以獲取到以往難以獲取的信息,另一方面也存在信息貧乏或者難以獲得的現(xiàn)象,形成信息爆炸和信息孤島并存的局面,因此信息組織工作在這種局面下顯得尤為重要。馬費成[5] 提到信息組織至少應(yīng)該在數(shù)據(jù)分類、描述、約減、評估、交換共享等方面發(fā)揮重要作用。
分類是信息組織的基礎(chǔ)性方法。最初用于圖書館的資源分類,例如中國圖書館分類法使得讀者得以迅速有效地查閱圖書館相關(guān)資源。在大數(shù)據(jù)環(huán)境下,對網(wǎng)絡(luò)信息的分類應(yīng)當(dāng)更加發(fā)揮更重要的作用。網(wǎng)絡(luò)信息分類的對象是數(shù)以百萬計的網(wǎng)站或是搜索引擎,這些對象幾乎包含了人類所能認(rèn)知的一切知識,由于數(shù)據(jù)量龐大,因此應(yīng)當(dāng)根據(jù)數(shù)據(jù)的序化程度進(jìn)行分級,序化程度較低的數(shù)據(jù),分類的重點在對其描述揭示;序化程度較高的數(shù)據(jù),分類重點在于整合和互聯(lián)。資源的描述通過對信息資源進(jìn)行特征分析來描述資源的主要內(nèi)容,但由于網(wǎng)絡(luò)信息具有極高的自由度和隨意性,且信息的來源往往沒有真實性保證,因此對網(wǎng)絡(luò)信息資源的描述方法研究十分必要。目前對網(wǎng)絡(luò)信息的描述方法主要有MARC、DC、MODS三種[6]。對大數(shù)據(jù)資源的約減工作與記錄描述一樣,都是將一次信息轉(zhuǎn)化為二次信息,使得復(fù)雜無序的信息約減為簡單的替代記錄。信息組織還可以通過元數(shù)據(jù)對大數(shù)據(jù)資源進(jìn)行評估與管理,保存信息資源的使用情況,研究人員可以利用這些資源對信息統(tǒng)計分析,對其使用價值和重要性進(jìn)行判定,并將情況反饋給資源管理者,使其更好地服務(wù)用戶。此外,信息組織促進(jìn)大數(shù)據(jù)資源的交換共享,各個本體都可看作信息系統(tǒng),各個信息系統(tǒng)之間存在交換與共享,進(jìn)而創(chuàng)造更大的價值,如我國建設(shè)數(shù)據(jù)統(tǒng)一交換平臺,來促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展。
(三)知識組織在大數(shù)據(jù)環(huán)境中的作用
傳統(tǒng)的社會發(fā)展方式依靠勞動資源和資本資源,換句話說誰擁有大量勞動力和生產(chǎn)機(jī)器,誰就得以迅速發(fā)展。然而,當(dāng)前的社會是知識經(jīng)濟(jì)時代[7],知識作為一種競爭資源可以起到?jīng)Q定性作用,對知識的有效管理以及開發(fā)利用已經(jīng)成為大數(shù)據(jù)環(huán)境下推動產(chǎn)業(yè)發(fā)展和技術(shù)革新的基礎(chǔ)性工作[8]。由于大數(shù)據(jù)環(huán)境下知識呈現(xiàn)無序狀態(tài),因此對知識的有效管理以促進(jìn)知識有效利用和傳播是知識組織在大數(shù)據(jù)時代的根本目標(biāo)。筆者通過研究近十年在中國知網(wǎng)收錄的知識組織相關(guān)文獻(xiàn),總結(jié)出知識組織在當(dāng)前大數(shù)據(jù)環(huán)境下主要通過構(gòu)建知識組織系統(tǒng)和建立知識網(wǎng)絡(luò)來發(fā)揮作用。
1.知識組織系統(tǒng)
知識組織系統(tǒng)可以理解為對人類知識結(jié)構(gòu)進(jìn)行表達(dá)和有組織地闡述的各種語義工具的統(tǒng)稱。作為一種可以有效組織管理知識的框架體系,知識組織系統(tǒng)不僅能夠為研究人員提供序化知識,還能夠?qū)崿F(xiàn)對知識的有序化檢索與導(dǎo)航,使得知識可以被有效檢索和利用。中山大學(xué)曹樹金教授[9]曾提到知識組織在大數(shù)據(jù)時代有兩個根本任務(wù),其一是從各領(lǐng)域?qū)嶋H需求和實踐中出發(fā),概括出一般的、可跨領(lǐng)域的應(yīng)用知識理論方法;其二是結(jié)合用戶情景對更細(xì)粒度信息單元進(jìn)行揭示與關(guān)聯(lián)。在此基礎(chǔ)上,筆者認(rèn)為知識組織系統(tǒng)在大數(shù)據(jù)環(huán)境下可以在信息檢索和術(shù)語服務(wù)兩個層面發(fā)揮作用。知識組織系統(tǒng)可利用敘詞表中的概念語義關(guān)系為網(wǎng)絡(luò)信息檢索提高其性能,或利用分類聚類體系形成一個信息瀏覽框架,提供信息的分類導(dǎo)航服務(wù)。例如Google學(xué)術(shù)、知網(wǎng)等學(xué)術(shù)檢索網(wǎng)站;BBS、豆瓣網(wǎng)等主題分類網(wǎng)站。術(shù)語服務(wù)是知識組織系統(tǒng)網(wǎng)絡(luò)化的一個有效方法,其主要作用是展示和應(yīng)用各種類型的知識組織資源,在主題標(biāo)引、分類以及機(jī)器翻譯領(lǐng)域發(fā)揮著重要作用。
2.知識網(wǎng)絡(luò)
知識網(wǎng)絡(luò)是涉及科學(xué)知識生產(chǎn)和傳播過程中的相關(guān)機(jī)構(gòu)或活動,也可以理解為它是集不同知識要素的共性特征的集合。基于知識網(wǎng)絡(luò)的知識組織對企業(yè)或組織內(nèi)部的知識創(chuàng)新、實現(xiàn)多模網(wǎng)絡(luò)知識管理和研究知識擴(kuò)散路徑與規(guī)律具有重要作用?;谥R網(wǎng)絡(luò)的知識圖譜構(gòu)建對精準(zhǔn)獲取用戶需求、規(guī)范整合信息資源與提高知識庫精準(zhǔn)性與智能性提供了有效解決途徑。特別是人工智能時代,由于知識圖譜邏輯推理性強(qiáng),可解釋性高,具有透明共享和可視化的優(yōu)勢,基于知識圖譜的知識組織會有廣闊的研究前景。在可預(yù)見的未來,知識網(wǎng)絡(luò)對解決大數(shù)據(jù)時代信息爆炸危機(jī)和提高情報研究效率方面將會提供非常有效的方法。
三、大數(shù)據(jù)環(huán)境下信息組織與知識組織面臨的挑戰(zhàn)
(一)信息組織面臨的挑戰(zhàn)
(1)信息組織的作用極易被忽視
在大數(shù)據(jù)的應(yīng)用場景中,大量的數(shù)據(jù)經(jīng)過挖掘后可以直接生成供信息工作者使用的情報,并沒有經(jīng)過信息組織過程。同時由于在大數(shù)據(jù)時代,信息強(qiáng)調(diào)實時性,大量的數(shù)據(jù)還沒有經(jīng)過存儲和組織就已經(jīng)失去了效用。因此,信息組織的作用在大數(shù)據(jù)環(huán)境下顯性化,信息組織從數(shù)據(jù)獲取到生產(chǎn)決策方案的過程中的作用被隱藏或忽略。
(2)信息描述標(biāo)準(zhǔn)的建立存在困難
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)和數(shù)據(jù)載體變得豐富多樣化。越來越多的數(shù)據(jù)來源于科學(xué)實驗、基因組測試、社交媒體,這些數(shù)據(jù)表現(xiàn)形式各不相同,由于信息組織需要有上層的統(tǒng)一的描述標(biāo)準(zhǔn)和規(guī)范來保證數(shù)據(jù)組織和描述達(dá)到一致,且保證不同標(biāo)準(zhǔn)之間具有關(guān)聯(lián)性,所以建立跨領(lǐng)域和跨數(shù)據(jù)類型的統(tǒng)一描述標(biāo)準(zhǔn)存在較大困難。
(3)傳統(tǒng)信息組織工具難以適應(yīng)當(dāng)前需求
傳統(tǒng)的信息組織工具動態(tài)性較差,以往采用的分類法、敘詞表或本體這些工具一經(jīng)建立,再想改動就極其復(fù)雜,且更新很慢。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)量呈指數(shù)增長,其數(shù)據(jù)更新速度極快,因此傳統(tǒng)的信息組織工具面臨著極大的挑戰(zhàn)。
(二)知識組織面臨的挑戰(zhàn)
(1)數(shù)據(jù)的非結(jié)構(gòu)化
大數(shù)據(jù)環(huán)境下加速了知識生產(chǎn)建設(shè),知識的多元化進(jìn)一步促使網(wǎng)絡(luò)數(shù)據(jù)庫中存在大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)如自然語言文本、多媒體數(shù)據(jù)等等,由于結(jié)構(gòu)和內(nèi)涵上的語義不明確,在進(jìn)行語義分析時往往具有更大的不確定性,這種不確定性的表達(dá)在知識組織流程中會影響到知識表示,不利于用戶發(fā)現(xiàn)和吸收知識??梢妭鹘y(tǒng)的關(guān)系型數(shù)據(jù)庫和聯(lián)機(jī)檢索機(jī)制都已經(jīng)無法勝任,這就對現(xiàn)有的組織方式和檢索語言提出了更高的要求,需要創(chuàng)新知識組織方法與技術(shù),高度重視專家團(tuán)隊的參與來提供足夠的技術(shù)支持進(jìn)行高質(zhì)量、高價值的知識交流,對檢索語言進(jìn)行技術(shù)改變和應(yīng)用模式的探索,從而提升知識運動的效率。
(2)知識用戶需求多樣性。
知識組織的最終目的是為提供適度且具有定向性的用戶知識服務(wù)。知識用戶在獲取知識的方式和內(nèi)容是多層次、多角度的,呈現(xiàn)出多樣性的特點。長尾理論告訴我們應(yīng)該重視用戶需求曲線中的尾巴部分,要盡可能地實現(xiàn)資源與需求的最大化匹配,實現(xiàn)知識組織效果的最大化。知識用戶需求的多樣性對知識組織準(zhǔn)確性和高效性工作提出了挑戰(zhàn),大數(shù)據(jù)環(huán)境下帶來的是傳統(tǒng)媒體的新變革和新升級,要求必須改變傳統(tǒng)的規(guī)范化的知識組織方式,運用大數(shù)據(jù)進(jìn)行信息挖掘和個性化知識服務(wù),對用戶搜索內(nèi)容進(jìn)行自動統(tǒng)計分析,生成偏好設(shè)定,有針對性的為每位用戶推送與其專業(yè)需求相關(guān)的知識,從被動服務(wù)向個性化主動服務(wù)演化,真正地提高知識獲取效率。
(3)知識的碎片化。
與傳統(tǒng)的單一數(shù)據(jù)庫不同,在大數(shù)據(jù)環(huán)境下的知識數(shù)據(jù)種類繁多,其知識服務(wù)主要是平臺服務(wù),而信息用戶無論是使用微博還是微信等網(wǎng)絡(luò)平臺發(fā)布文字、圖片、視頻等,都呈現(xiàn)出了知識碎片化和關(guān)聯(lián)化的特點,這就對跨平臺的知識整合提出了更高的要求。因此,如何使用知識組織方法進(jìn)行數(shù)據(jù)融合,利用互聯(lián)網(wǎng)搭建知識組織平臺來揭示顯性知識和隱性知識,挖掘知識關(guān)聯(lián)是目前大數(shù)據(jù)環(huán)境下所面臨的一大挑戰(zhàn)。通過整合與集成知識組織碎片化的問題,來實現(xiàn)知識跨平臺組織、共建共享,提高用戶知識發(fā)現(xiàn)和知識吸收。
四、結(jié)語
在大數(shù)據(jù)環(huán)境下,互聯(lián)網(wǎng)的飛速發(fā)展推進(jìn)著信息組織和知識組織的升級與變革,數(shù)據(jù)在各個層面都加大了開放程度。當(dāng)今社會對信息知識的靈敏性和精確性的要求越來越高,數(shù)據(jù)信息知識的互通互聯(lián)已成為一大趨勢,信息組織和知識組織持續(xù)發(fā)揮著其巨大的作用。隨著相關(guān)研究的不斷深入,無論是制定組織標(biāo)準(zhǔn)還是進(jìn)行知識集成構(gòu)建,信息組織和知識組織在大數(shù)據(jù)環(huán)境下都將面臨巨大的挑戰(zhàn),如何結(jié)合傳統(tǒng)的組織方法和技術(shù)手段,更加深入系統(tǒng)地研究信息組織和知識組織的組織管理和應(yīng)用的方法和技術(shù),還有待進(jìn)一步探索。
參考文獻(xiàn):
[1]黃如花.國內(nèi)外信息組織研究述評[J].中國圖書館學(xué)報,2002(01):63-66.
[2]蔣永福.論知識組織[J].圖書情報工作,2000(06):5-10.
[3]嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J].計算機(jī)技術(shù)與發(fā)展,2013,23(4):168-172.
[4]陳如明.大數(shù)據(jù)時代的挑戰(zhàn)、價值與應(yīng)對策略[J].移動通信,2012(17):14-15.