蘇云梅,武建光
(山西醫(yī)科大學,太原 030001)
?
大數(shù)據(jù)之下我國情報學面臨的挑戰(zhàn)及應對策略
蘇云梅,武建光
(山西醫(yī)科大學,太原 030001)
摘要:文章從大數(shù)據(jù)入手,簡要概述了大數(shù)據(jù)的“4V”特征和我國情報發(fā)展簡史,進而分析了大數(shù)據(jù)下我國情報學在實踐、技術、理論與情報共享四方面所面臨的挑戰(zhàn),并從實踐層面、技術層面、人才培養(yǎng)、情報領域研究四個方面探討了應對策略。
關鍵詞:大數(shù)據(jù);情報學;情報理論;情報技術;情報實踐
隨著計算機技術、通信技術、網(wǎng)絡技術與設備的完備和發(fā)展,各種電子技術的相互融合,人們從遠古時代的信息貧乏到如今的信息泛濫、信息污染、信息噪音、信息綜合征。大數(shù)據(jù)之下情報學面臨哪些挑戰(zhàn),是所有情報人所要思考的問題。
1大數(shù)據(jù)與情報學
大數(shù)據(jù)是指在一定時間內(nèi)無法用一定工具對其內(nèi)容進行抓取﹑管理和處理的數(shù)據(jù)集合[1]。數(shù)據(jù)科學家John Rauser提到一個簡單的定義:大數(shù)據(jù)是超過了任何一臺計算機處理能力的龐大數(shù)據(jù)量[2]。IBM公司提出大數(shù)據(jù)的“4V”特征:更大規(guī)模(volume)、更實時(velocity)、更多樣化(variety)、價值密度低(veracity)[3]。
起始于1956年的新中國科技情報事業(yè),在創(chuàng)立之初被賦予了“耳目、尖兵、參謀”的功能與重任。20世紀90年代末,開始從知識經(jīng)濟的角度組織、分析和利用知識。隨著信息化的推進,研究領域漸漸拓展到企業(yè)信息管理、競爭情報分析、信息共享、個性化信息服務等一系列研究領域。情報從本質(zhì)上講是特定用戶在特定時間解決特定問題需要的數(shù)據(jù)、信息和知識。情報要借助一定的媒介、工具,克服時間和(或)空間的障礙,方可傳遞到用戶手中。大數(shù)據(jù)環(huán)境下,情報學已成為信息社會的強大支柱,并與物質(zhì)、能量并駕齊驅(qū)。情報是關于特定問題的信息的集合。情報是包含在信息之下的種概念。情報學是研究情報的搜集、傳遞、管理以及應用的一系列過程的規(guī)律、方法和技術的學科。信息學則是研究信息的獲取、組織、傳遞和利用規(guī)律的新興學科。從學科概念定義上我們不難發(fā)現(xiàn)情報學與信息學有著很大的相似性,都是研究情報(信息)的獲取、處理、傳遞和應用過程的規(guī)律、方法和技術。而情報學是最早涉及信息問題的學科,大數(shù)據(jù)之下情報學借助信息學的理論與方法,展現(xiàn)出無限活力。
2面臨的挑戰(zhàn)
2.1 理論方面
情報學的基本原理,信息的失真與保真,信息傳遞交流模式等內(nèi)容在大數(shù)據(jù)環(huán)境下還有待進一步探索和研究。大數(shù)據(jù)之下傳統(tǒng)情報理論是否依然可以解釋諸如信息爆炸、實體關聯(lián)性等新現(xiàn)象?傳統(tǒng)影響因子在網(wǎng)絡環(huán)境下如何確定?是以瀏覽量衡量、下載量衡量,還是以轉載量評價?選擇哪一種或哪些指標更能客觀評價影響力?如果從受眾面來衡量,瀏覽量無疑是個很好的參考量;如果從學術價值影響上看,被引量可能更有說服力。在評價時我們從哪一層面進行?綜合評價某位作者的影響力時各層面的比例如何分配?解決這一問題還要看研究的目的,目的不同所采取的指標、比例有差異,最終分析結果也會有所不同。這一系列問題還有待進一步探討研究。
2.2 技術方面
具體可表現(xiàn)在:信息侵權和安全問題,信息污染和非結構化數(shù)據(jù)。網(wǎng)絡空間存在著巨大的開放性,人們進出自由方便,任何人都可以通過任一節(jié)點獲取信息。一方面,一些不法分子借助網(wǎng)絡的開放性竊取他人信息、惡意下載信息、惡意篡改信息,嚴重擾亂了互聯(lián)網(wǎng)安全。另一方面,任何人都可以通過聯(lián)網(wǎng)計算機發(fā)布信息,發(fā)布信息的權利開始走向平民化,但我們又不得不面臨信息質(zhì)量參差不齊的尷尬,使得情報價值大打折扣。如何加強網(wǎng)絡安全的保密工作?如何抵制不良信息的發(fā)布?這些挑戰(zhàn)不僅是計算機科學家、信息科學家要解決的問題,同時也是情報學家要突破的難關。非結構化數(shù)據(jù)難以用特定語言描述,在大數(shù)據(jù)背景下,非結構化數(shù)據(jù)大量涌現(xiàn),任何數(shù)據(jù)信息都被視為有價值和可參考的,這對傳統(tǒng)數(shù)據(jù)庫提出挑戰(zhàn),非結構化數(shù)據(jù)成為情報數(shù)據(jù)分析的重點。
2.3 應用實踐方面
其一:在進行情報搜集時,UGC內(nèi)容中的日志、微博、網(wǎng)民評論、視頻等內(nèi)容都有可能成為情報工作分析處理的對象。而這類信息缺乏嚴格的監(jiān)管與控制,碎片化的內(nèi)容更零散、更復雜。例如我們要進行某一突發(fā)事件處理結果的網(wǎng)民滿意度調(diào)查,初期情報收集時,如何確定情報搜集對象?所需情報是哪些類型?如何確定視頻、圖片情報中網(wǎng)民的價值取向等這一系列問題還有待思考與商榷。其二:情報服務問題。大數(shù)據(jù)之下,人們對情報檢索的要求更加苛刻,傳統(tǒng)單一的僅僅滿足于文獻出處的情報檢索難以為人們所接受。人們更加苛求智能化檢索、多語言情報檢索、全文檢索,甚至是系統(tǒng)自動對外文檢索結果進行翻譯。這些都是大數(shù)據(jù)之下情報服務所面臨的挑戰(zhàn)。其三:情報應用的具體領域還缺乏知識性的結論。例如阿里巴巴旗下的淘寶、天貓電商擁有大量的商家和注冊用戶。用戶的商品搜索數(shù)據(jù),用戶的購買偏好,用戶的消費能力等一系列情報資源,如果形成情報分析報告和結論,可指導商家有針對性地供貨及定價。同時可為用戶提供偏好產(chǎn)品,大大減少用戶瀏覽時間。對此阿里巴巴成立大數(shù)據(jù)分析小組和數(shù)據(jù)分析團隊。而其他行業(yè)領域這種有針對性的、專業(yè)化的大數(shù)據(jù)情報分析研究還少之又少。
2.4 共享和保密的平衡
大數(shù)據(jù)下人們倡導情報共享,在公共事務處理中,一些情報資源實施共享機制,可提高辦事效率。如在公安系統(tǒng)案件偵破中有意識地促進情報資源共享,可及時將不法分子捉拿歸案。這在打擊跨國犯罪時,各國間情報資源的共享尤為關鍵。另一方面,情報的保密性又是情報的專有屬性,一旦對情報廣而告之,情報也就不再稱其為情報。從情報搜集者、擁有者的角度講,這些人更傾向于情報的保密。情報擁有者在情報獲取過程中花費了大量人、財、物力。一些技術情報是企業(yè)內(nèi)部的機密甚至是絕密,正因為對這些技術情報的壟斷,才使企業(yè)在行業(yè)中成為龍頭。情報共享與情報保密從不同群體的角度來衡量,其價值取向是不同的。那么在大數(shù)據(jù)之下解決這一問題時,我們站在哪一群體的角度來做取舍,如何平衡共享與保密的矛盾還有待探討。
3應對策略
3.1 理論對策
大數(shù)據(jù)時代,情報學的研究領域從單一領域轉向全領域,綜合利用多種數(shù)據(jù)源,注重新型信息資源分析[6]。由于信息浪潮的沖擊,各門學科都在與相關學科交叉融合,不斷地擴大研究領域,在此基礎上產(chǎn)生了分支學科、交叉學科。情報學也不例外,吸收借鑒其他學科的理論和研究方法,可使得情報工作更有針對性,提高工作效率。例如信息用戶研究,更多地要借鑒心理學的相關知識。在情報服務、情報理論研究和情報實踐中,專業(yè)情報人才的培養(yǎng)同樣勢在必行。未來數(shù)據(jù)科學家是情報收集、存儲、管理、挖掘和分析的主力軍。他們借助一定的數(shù)據(jù)分析軟件,發(fā)揮他們的綜合知識優(yōu)勢,撥開大數(shù)據(jù)的迷霧,真正將數(shù)據(jù)信息應用于趨勢預測、危機預警和管理決策等實踐中。
3.2 技術對策
對大數(shù)據(jù)之下的垃圾信息,在情報數(shù)據(jù)分析時可采取過濾機制。數(shù)據(jù)挖掘分析時,情報人員可針對被觀察對象的特點或一個事件所處狀態(tài),采用一定取樣標準(詞頻取樣、詞與詞的共現(xiàn)取樣、時間段取樣、特定詞取樣等)選擇和過濾相關數(shù)據(jù),可大大減少結果偏差。以快遞業(yè)務數(shù)據(jù)管理系統(tǒng)為例:在數(shù)據(jù)系統(tǒng)的開發(fā)階段,開發(fā)人員根據(jù)客戶需求,系統(tǒng)開發(fā)人員除了設計系統(tǒng)整體功能還應該設置數(shù)據(jù)過濾程序并嵌入整體程序中,其目的是規(guī)范用戶的數(shù)據(jù)輸入。當用戶輸入信息有誤或不符合提前設定規(guī)則時,激發(fā)數(shù)據(jù)比較程序,并將錯誤信息反饋給用戶。數(shù)據(jù)過濾程序中可設置郵編字段、郵編數(shù)組長度、地理區(qū)域字段(省、市、縣、鄉(xiāng))并設置規(guī)范表達。為防止用戶輸入地址不一致,可在程序中嵌入地理區(qū)域查找表,讓用戶來選擇,可減少不一致性。為了方便數(shù)據(jù)在時間上的管理,可設置時間字段組。當需要對快遞業(yè)務進行數(shù)據(jù)挖掘分析時,由于設置了郵編、區(qū)域、時間等不同字段,可根據(jù)需要有針對性地篩選過濾數(shù)據(jù)(流程見圖一)。如需要分析某城市在某一年內(nèi)快遞業(yè)務變化情況,以確定下一年度該城市是否增加快遞網(wǎng)點時,為了減少數(shù)據(jù)冗余,可篩選時間年度字段和城市字段。這樣,減少了冗余和不相關數(shù)據(jù),提高了數(shù)據(jù)精準度和分析質(zhì)量。解決海量數(shù)據(jù)的另一措施是實體識別與實體關系識別。所謂實體識別是指在情報數(shù)據(jù)中識別出表現(xiàn)現(xiàn)實世界的具體或抽象的對象。首先人工輔助標注語料,然后交給機器按照標注的語料進行識別實體,按文檔中某一語料識別的頻率來確定是否識別。在實體識別過程中,支持實體關系識別。例如識別某一突發(fā)事件與事件處理機構的關系,識別機制中設置關系親密等級,這樣在進行情報搜集時可確保最相關實體進入分析數(shù)據(jù)庫,不相關數(shù)據(jù)排除在外。在處理非結構化數(shù)據(jù)時,首先對這些數(shù)據(jù)進行清洗,然后對這些數(shù)據(jù)進行分類處理并存儲于相應數(shù)據(jù)庫。最后在進行情報分析時,將這些數(shù)據(jù)庫按相關性進行組合合并。如建立客戶合同數(shù)據(jù)庫,分析客戶合同變化情況,將客戶數(shù)據(jù)庫與合同數(shù)據(jù)庫中的數(shù)據(jù)分別導入數(shù)據(jù)分析系統(tǒng)中進行分析,這樣可使分析更容易、更有針對性。
圖1 數(shù)據(jù)過濾采集流程
3.3 實踐對策
在解決應用實踐挑戰(zhàn)的問題時,情報人員首先要立足具體領域,根據(jù)具體的研究領域作出情報分析規(guī)劃。情報收集時注意提前做好搜集計劃,對搜集到的情報資料進行分類、聚類整理。情報結果分析時,除了簡單的統(tǒng)計、結果呈現(xiàn)外,情報人員應試圖對分析結果進行解釋;對情報結果的關聯(lián)性進行分析;形成情報分析報告為用戶所用。情報服務機制問題,可在各行各業(yè)中解決。智能檢索、多語言檢索以及檢索結果的自動翻譯更多地需要人工智能、機器學習、文本采集技術的支持。這些技術對計算機掌握能力要求高,更多地要從技術層面來解決。在具體領域的情報研究中,成立行業(yè)情報資源數(shù)據(jù)庫,對該行業(yè)的全部數(shù)據(jù)進行集中式采集、存儲、管理和利用,實現(xiàn)全領域情報資源共享。
3.4 平衡對策
情報共享與情報保密平衡問題的解決,在不同性質(zhì)行業(yè)中可采取區(qū)別對待的原則。在公共事業(yè)中,如醫(yī)療衛(wèi)生領域、公安系統(tǒng)、教育文化產(chǎn)業(yè)部門,國家可搭建和倡導行業(yè)情報資源共享平臺。而在商業(yè)領域的技術情報,一方面要顧及情報擁有者的利益,國家信息產(chǎn)業(yè)部門建立完善的知識產(chǎn)權、專利保護政策法規(guī),以保護情報開發(fā)者的合法權益;另一方面要綜合市場需要,相關技術的普及程度,情報擁有者的投入比例等綜合因素,確定情報保密年限,以便情報資源及時開放、及時共享。
結語
我國情報學于20世紀50年代起步,應用實踐、理論基礎與相應技術都漸成規(guī)模。而大數(shù)據(jù)的到來,又給情報學帶來一定的沖擊和挑戰(zhàn),尤其在實踐、技術和理論方面。應對這些挑戰(zhàn)可從提高情報服務質(zhì)量,建立行業(yè)情報庫,提高技術手段,轉變情報研究重點以及人才培養(yǎng)等方面入手。未來情報學走向如何,有哪些問題要解決,還需要一代代情報學人的關注和解決。
參考文獻:
[1] Big data [EB/OL] . http://en.wikipedia.org∕wiki∕Big data. 2012-08-18.
[2] Philip Russom.big data analytics[EB/OL].http://www.docin.com/p_340502098.html. 2012-08-01.
[3] 戴維民.信息組織(第三版) .北京:高等教育出版社.2009.
[4] 郭志懋.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J] .軟件學報,2012,12(11):22-28.
[5] 黃曉斌,鐘輝新.大數(shù)據(jù)時代企業(yè)競爭情報研究的創(chuàng)新與發(fā)展[J] .圖書與情報,2012,(6):9-14.
[6] 李健,楊林.大數(shù)據(jù)視角下的情報研究與情報研究技術[J] .圖書與情報,2012,(6):1-8.
(責任編輯:傅正)
Challenges and Countermeasures of Intelligence Science in China in the Era of Big Data
SU Yun-mei, WU Jian-guang
(Shanxi Medical University, Taiyuan030001, China)
Abstract:This paper firstly briefly describes “4V” characteristics of the big data and informatics development history in China, analyzes deeply the challenges which informatics in China faced in practice, technology, theory and information sharing, and puts forward countermeasures from practical level, technical level, personnel training and information science research.
Key words:big data; Intelligence; Intelligence theory; Intelligence technology; Intelligence practice
中圖分類號:G250.2
文獻標識碼:A
文章編號:1006-1525(2016)02-0009-03
作者簡介:蘇云梅,女,館員。
收稿日期:2015-11-08