李廣建 楊林
摘要:大數(shù)據(jù)時(shí)代的到來(lái),給情報(bào)研究帶來(lái)了機(jī)遇和挑戰(zhàn)。文章在現(xiàn)有研究和實(shí)踐基礎(chǔ)上,總結(jié)了在此背景下情報(bào)研究的發(fā)展趨勢(shì)和相關(guān)技術(shù)問(wèn)題,將發(fā)展趨勢(shì)概括為單一領(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究、綜合利用多種數(shù)據(jù)源、注重新型信息資源的分析、強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性和情報(bào)研究的智能化五個(gè)方面,并探討了可視化分析、數(shù)據(jù)挖掘、語(yǔ)義處理三方面的技術(shù)問(wèn)題。
關(guān)鍵字:大數(shù)據(jù)情報(bào)研究情報(bào)研究技術(shù)
中圖分類(lèi)號(hào):G250.2 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-6938(2012)06-0001-08
1引言
當(dāng)數(shù)據(jù)和黃金一樣,成為一種新的經(jīng)濟(jì)資產(chǎn)[1],當(dāng)科研處于以數(shù)據(jù)為基礎(chǔ)進(jìn)行科學(xué)發(fā)現(xiàn)的第四范式[2],當(dāng)數(shù)據(jù)開(kāi)始變革教育[3],這些無(wú)不宣告著我們已經(jīng)進(jìn)入了大數(shù)據(jù)(bigdata)時(shí)代。不同的學(xué)科領(lǐng)域,正在不同的層面上廣泛地關(guān)注著大數(shù)據(jù)對(duì)自己的研究和實(shí)踐帶來(lái)的深刻影響,情報(bào)研究領(lǐng)域也不例外。
大數(shù)據(jù),顧名思義是大規(guī)模的數(shù)據(jù)集,但它又不僅僅是一個(gè)簡(jiǎn)單的數(shù)量的概念,IBM公司指出,大數(shù)據(jù)的特點(diǎn)是4個(gè)V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實(shí)),它提供了在新的和正在出現(xiàn)的數(shù)據(jù)和內(nèi)容中洞悉事物的機(jī)會(huì),使業(yè)務(wù)更加靈活,并回答以往沒(méi)有考慮到的問(wèn)題[4]。Gartner公司的報(bào)告也提出,大數(shù)據(jù)是大容量、高速和多樣化的信息資產(chǎn),它們需要新的處理方式,以提高決策能力、洞察力和流程優(yōu)化[5]。
由此可見(jiàn),大數(shù)據(jù)強(qiáng)調(diào)的不單純只是數(shù)據(jù)量多少的問(wèn)題,其背后隱藏了更為復(fù)雜和深刻的理念,這些理念包括:①將對(duì)數(shù)據(jù)和信息的分析提升到了前所未有的高度。這里的分析不是一般的統(tǒng)計(jì)計(jì)算,而是深層的挖掘。大數(shù)據(jù)時(shí)代,如何充分利用好積累的數(shù)據(jù)和信息,以創(chuàng)造出更多的價(jià)值,已經(jīng)成為企業(yè)管理者、政府機(jī)構(gòu)以及科研工作者首要關(guān)注的問(wèn)題?!皹I(yè)務(wù)就是數(shù)據(jù)”、“數(shù)據(jù)就是業(yè)務(wù)”、“從大數(shù)據(jù)中發(fā)掘大洞察”等意味著對(duì)數(shù)據(jù)分析提出了新的、更高的要求。可以這么說(shuō),大數(shù)據(jù)時(shí)代就是數(shù)據(jù)分析的時(shí)代。②多種數(shù)據(jù)的整合和融合利用。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的多樣性是一種真實(shí)的存在,數(shù)據(jù)既包括結(jié)構(gòu)化的數(shù)據(jù),也包括非結(jié)構(gòu)化的數(shù)據(jù),表現(xiàn)方式可以是數(shù)據(jù)庫(kù)、數(shù)據(jù)表格、文本、傳感數(shù)據(jù)、音頻、視頻等多種形式。同一個(gè)事實(shí)或規(guī)律可以同時(shí)隱藏在不同的數(shù)據(jù)形式中,也可能是每一種數(shù)據(jù)形式分別支持了同一個(gè)事實(shí)或規(guī)律的某一個(gè)或幾個(gè)側(cè)面,這既為數(shù)據(jù)和信息分析的結(jié)論的交叉驗(yàn)證提供了契機(jī),也要求分析者在分析研究過(guò)程中有意識(shí)地融集各種類(lèi)型的數(shù)據(jù),從多種信息源中發(fā)現(xiàn)潛在知識(shí)。只有如此,才能真正地提高數(shù)據(jù)分析的科學(xué)性和準(zhǔn)確性。③更加廣泛地應(yīng)用新技術(shù)和適用技術(shù)。數(shù)據(jù)量大(Volume)、類(lèi)型多樣(Variety)、增長(zhǎng)速度快(Velocity)是大數(shù)據(jù)的突出特點(diǎn),這必然會(huì)帶來(lái)數(shù)據(jù)獲取、整合、存儲(chǔ)、分析等方面的新發(fā)展,產(chǎn)生相應(yīng)的新技術(shù)或者將已有的技術(shù)創(chuàng)新地應(yīng)用于大數(shù)據(jù)的管理與分析。同時(shí),大數(shù)據(jù)的這些特點(diǎn)也決定了傳統(tǒng)的、以人工分析為主的工作模式將遇到瓶頸,計(jì)算機(jī)輔助分析或基于計(jì)算機(jī)的智能化分析,將成為大數(shù)據(jù)時(shí)代數(shù)據(jù)與信息分析的主流模式。
對(duì)于在數(shù)據(jù)分析領(lǐng)域扮演重要角色的情報(bào)研究工作而言,大數(shù)據(jù)的理念和技術(shù)既帶來(lái)了機(jī)遇,也帶來(lái)了挑戰(zhàn)。一方面,在大數(shù)據(jù)時(shí)代,情報(bào)研究工作正在得到空前的重視,大數(shù)據(jù)為情報(bào)研究的新發(fā)展提供了機(jī)會(huì),從更為廣闊的視野來(lái)看待情報(bào)研究的定位,研究新技術(shù)新方法,解決新問(wèn)題,將極大地促進(jìn)情報(bào)研究理論與實(shí)踐前進(jìn)的步伐。另一方面,大數(shù)據(jù)時(shí)代本身也要求各行各業(yè)重視情報(bào)研究工作,這就必然使得眾多學(xué)科有意識(shí)地涉足到以往作為專(zhuān)門(mén)領(lǐng)域的情報(bào)研究之中,并將其作為本學(xué)科的重要組成部分加以建設(shè)。文獻(xiàn)分析(本質(zhì)是文本分析)不再為情報(bào)研究所獨(dú)占,以往情報(bào)研究領(lǐng)域積累的相關(guān)理論和方法很有可能優(yōu)勢(shì)不再。因此,如何把握住自身的優(yōu)勢(shì),并抓住機(jī)會(huì)有所拓展,是情報(bào)學(xué)在大數(shù)據(jù)時(shí)代需要思考的問(wèn)題。
2大數(shù)據(jù)環(huán)境下情報(bào)研究的發(fā)展趨勢(shì)
大數(shù)據(jù)帶來(lái)的新觀念,正在引發(fā)情報(bào)研究的新發(fā)展,而且,研究人員也在不斷地從情報(bào)研究的實(shí)踐中總結(jié)經(jīng)驗(yàn)教訓(xùn),引導(dǎo)情報(bào)研究的未來(lái)走向。英國(guó)萊斯特大學(xué)的MarkPhythian教授在2008年10月作了題為“情報(bào)分析的今天和明天”的報(bào)告[6],指出:①獲知情境是至關(guān)重要的。忽略戰(zhàn)略環(huán)境、領(lǐng)導(dǎo)風(fēng)格和心理因素等更為廣泛的問(wèn)題,將導(dǎo)致情報(bào)研究的失誤;②要加強(qiáng)信息之間的關(guān)聯(lián)。美國(guó)政府部門(mén)內(nèi)部的信息共享障礙,致使分析人員無(wú)法獲取充足的信息來(lái)支持分析活動(dòng),導(dǎo)致情報(bào)研究中的預(yù)測(cè)失敗;③要汲取更多外界的專(zhuān)業(yè)知識(shí)。這一舉措雖然不能保證分析的成功性,但將是競(jìng)爭(zhēng)分析的重要信息來(lái)源。
綜合大數(shù)據(jù)背景的要求和以往情報(bào)研究的經(jīng)驗(yàn)教訓(xùn),結(jié)合國(guó)內(nèi)外同行的研究成果,本文將情報(bào)研究的發(fā)展趨勢(shì)總結(jié)為以下五個(gè)方面:?jiǎn)我活I(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究;綜合利用多種數(shù)據(jù)源;注重新型信息資源的分析;強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性;情報(bào)研究的智能化。
2.1單一領(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究
隨著學(xué)科的深入交叉融合及社會(huì)發(fā)展、經(jīng)濟(jì)發(fā)展與科技發(fā)展一體化程度的增強(qiáng),情報(bào)研究正從單一領(lǐng)域分析向全領(lǐng)域分析的方向發(fā)展。
首先,表現(xiàn)在各領(lǐng)域中的情報(bào)研究從視角、方法上的相互借鑒。從方法上看,社交網(wǎng)絡(luò)分析方法、空間信息分析等其他學(xué)科的分析方法,廣泛應(yīng)用于軍事情報(bào)、科技情報(bào)等領(lǐng)域,心理學(xué)等領(lǐng)域的理論也用于情報(bào)分析的認(rèn)知過(guò)程,以指導(dǎo)情報(bào)分析及其工具的研發(fā)。同時(shí),情報(bào)學(xué)中的引文分析等文獻(xiàn)計(jì)量方法也被借鑒用于網(wǎng)站影響力評(píng)估。從技術(shù)上看,可視化、數(shù)據(jù)挖掘等計(jì)算機(jī)領(lǐng)域的技術(shù),為情報(bào)研究提供了有力的技術(shù)視角,情報(bào)研究獲得的知識(shí)反過(guò)來(lái)又給予其他技術(shù)領(lǐng)域的發(fā)展以引導(dǎo)。可見(jiàn),無(wú)論從思想上、方法上、技術(shù)上,各領(lǐng)域之間的交叉點(diǎn)越來(lái)越多,雖然這種相互借鑒早就存在,但現(xiàn)在意識(shí)更強(qiáng)、手段更為綜合。
其次是分析內(nèi)容的擴(kuò)展,這也是最為重要和顯著的變化。在情報(bào)研究過(guò)程中,不僅僅局限于就本領(lǐng)域問(wèn)題的分析而分析,而將所分析的內(nèi)容置于一個(gè)更大的情景下做通盤(pán)考慮,從而得出更為嚴(yán)謹(jǐn)?shù)慕Y(jié)論。聯(lián)合國(guó)的創(chuàng)新倡議項(xiàng)目GlobalPulse在其白皮書(shū)“BigDataforDevelopment:Opportunities&Challenges”[7]中指出,情境是關(guān)鍵,基于沒(méi)有代表性樣本而獲得的結(jié)論是缺乏外部合法性的,即不能反映真實(shí)的世界。在情報(bào)研究領(lǐng)域,一些數(shù)據(jù)往往因?yàn)橐恍┎豢煽沽Φ脑蚨煌暾缭缙诘目萍紨?shù)據(jù),可能由于國(guó)際形勢(shì)等外部因素,導(dǎo)致一些國(guó)家的科技信息無(wú)法獲取,基于這樣缺失的分析樣本來(lái)評(píng)估該國(guó)的科技影響力,如果僅就數(shù)據(jù)論數(shù)據(jù),無(wú)疑是會(huì)得“正確”的錯(cuò)誤結(jié)論,這時(shí)應(yīng)針對(duì)這樣的異常情況,將研究問(wèn)題放置在當(dāng)時(shí)的時(shí)代背景下,揭示背后的原因,從其他方面收集信息來(lái)補(bǔ)充,才能得出符合實(shí)際的結(jié)論。也就是說(shuō),必須要考察不同時(shí)間戳下的相關(guān)信息,再對(duì)分析內(nèi)容加以擴(kuò)充,這實(shí)質(zhì)是一種基于時(shí)間軸的擴(kuò)展。另外,將內(nèi)容擴(kuò)展至本領(lǐng)域的上下游則是一種更為重要的擴(kuò)展。例如,考察某項(xiàng)技術(shù)的發(fā)展前景,如果僅就該技術(shù)本身來(lái)討論,可能會(huì)得出正面的結(jié)論,但如果結(jié)合特定地區(qū)人們對(duì)該技術(shù)的態(tài)度、當(dāng)?shù)氐募夹g(shù)水平、物理?xiàng)l件、發(fā)展定位等,卻可能會(huì)得出相反的結(jié)論。這就說(shuō)明,在很多領(lǐng)域中,環(huán)境不同,發(fā)展程度不同,要解決的問(wèn)題也就不同。一些地區(qū)當(dāng)前關(guān)注的問(wèn)題不一定就是其他地區(qū)要關(guān)注的問(wèn)題,某些欠發(fā)達(dá)地區(qū)當(dāng)前不一定就必須照搬另一些所謂發(fā)達(dá)地區(qū)的當(dāng)前做法。這需要通盤(pán)考察,分析相關(guān)思想、觀點(diǎn)和方法產(chǎn)生的土壤、使用的條件,結(jié)合當(dāng)前環(huán)境再做出判斷,否則可能會(huì)對(duì)決策者產(chǎn)生誤導(dǎo)。
2.2綜合利用多種數(shù)據(jù)源
綜合利用多種信息源已經(jīng)成為情報(bào)研究的另一大發(fā)展趨勢(shì)。ThomasFingar[8]從軍事情報(bào)角度指出,軍事情報(bào)界需要綜合利用人際情報(bào)、信號(hào)情報(bào)、圖像情報(bào)和外部情報(bào),進(jìn)行全資源分析(all-sourceanalysis),即利用多種不同的信息資源來(lái)評(píng)估、揭示、解釋事物的發(fā)展、發(fā)現(xiàn)新知識(shí)或解決政策難題??萍记閳?bào)界也是如此,如利用科技論文和專(zhuān)利,發(fā)現(xiàn)科技之間的轉(zhuǎn)換關(guān)系、預(yù)測(cè)技術(shù)發(fā)展方向,綜合利用政府統(tǒng)計(jì)數(shù)據(jù)、高校網(wǎng)站、期刊、報(bào)紙、圖書(shū)等來(lái)評(píng)估大學(xué)等科研機(jī)構(gòu)??梢?jiàn),綜合利用多種信息源是從問(wèn)題出發(fā),系統(tǒng)化地整合所有相關(guān)信息資源來(lái)支持情報(bào)研究,信息源可以是學(xué)術(shù)論文、專(zhuān)利等不同類(lèi)型的文獻(xiàn)集合、文本和數(shù)據(jù)的集合也可以是正式出版物與非正式出版物的集合等。
這一發(fā)展趨勢(shì)是由幾大因素決定的。一是情報(bào)研究問(wèn)題的復(fù)雜性。在大數(shù)據(jù)背景下,情報(bào)不再局限在科技部門(mén),而成為全社會(huì)的普遍知識(shí)。公眾對(duì)情報(bào)的需求使得情報(bào)研究問(wèn)題更為綜合,涉及要素更為多元,同時(shí)也更為細(xì)化。這導(dǎo)致單一數(shù)據(jù)源不能滿足分析的要求,需要不同類(lèi)型的信息源相互補(bǔ)充。例如要分析科技之間的轉(zhuǎn)換關(guān)系,就避免不了涉及科技論文和專(zhuān)利這兩種類(lèi)型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問(wèn)題,如專(zhuān)利、研究出版物、技術(shù)報(bào)告等,可以較為直觀地反映研究者對(duì)某科技問(wèn)題的理解與描述,而評(píng)論文章、科技新聞、市場(chǎng)調(diào)查等,可以反映出社會(huì)對(duì)該科技的觀點(diǎn)、認(rèn)知情況[9]。因此,各類(lèi)信息自身的特性就說(shuō)明他們之間可以、也需要相互補(bǔ)充。此外,從現(xiàn)實(shí)角度來(lái)看,通常會(huì)遇到某些信息無(wú)法獲取的情況,這就需要?jiǎng)e的信息加以替代,這就從實(shí)踐角度說(shuō)明了綜合利用多種信息源的必要性。三是分析結(jié)果的重要性。以評(píng)估大學(xué)為例,評(píng)估的結(jié)果會(huì)引導(dǎo)各學(xué)校在比較中發(fā)現(xiàn)自身優(yōu)勢(shì)和差距,指導(dǎo)未來(lái)發(fā)展定位,同時(shí)也為廣大學(xué)生報(bào)考提供參考??梢?jiàn),研究結(jié)果對(duì)社會(huì)的影響是廣泛而深遠(yuǎn)的,要做到分析結(jié)果的可靠性、科學(xué)性,必然先要從源頭上,即分析數(shù)據(jù)上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰(zhàn)。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類(lèi)型中是如何表現(xiàn)的,不同信息源相互之間的關(guān)系是怎樣的。其次,針對(duì)待分析的問(wèn)題,要選擇適合的信息,并不是信息越多越好,類(lèi)型越全越好,尤其是當(dāng)問(wèn)題含糊不清時(shí),可能需要不斷地調(diào)整信息源。再次,情報(bào)研究人員要能有效地綜合、組織、解釋不同信息源分析出的結(jié)果,特別是當(dāng)結(jié)論有所沖突的時(shí)候,識(shí)別不當(dāng)結(jié)果、保證分析結(jié)果的正確性是很重要的。
2.3注重新型信息資源的分析
隨著網(wǎng)絡(luò)應(yīng)用的深入,出現(xiàn)了許多新型的媒體形式。AndreasM.Kaplan等人將構(gòu)建于Web2.0技術(shù)和思想基礎(chǔ)上,允許用戶創(chuàng)建交換信息內(nèi)容的基于網(wǎng)絡(luò)的應(yīng)用定義為社會(huì)化媒體(SocialMedia),包括合作項(xiàng)目(如維基百科)、博客、內(nèi)容社區(qū)(如YouTube)、社交網(wǎng)站、虛擬游戲世界和虛擬社會(huì)世界(如第二人生)等六種類(lèi)型[10]。這類(lèi)媒體形式依托于Web2.0等網(wǎng)絡(luò)技術(shù),以用戶為中心來(lái)組織、傳播信息,信息可以是用戶創(chuàng)造性的言論或觀點(diǎn),可以是圍繞自己喜好收集的信息資源集合等。由于社會(huì)化媒體的易用性、快速性和易獲取性等特點(diǎn),它們正迅速地改變著社會(huì)的公共話語(yǔ)環(huán)境,并引導(dǎo)著技術(shù)、娛樂(lè)、政治等諸多主題的發(fā)展[11]。這些通過(guò)龐大的用戶社區(qū)來(lái)傳播的高度多樣化的信息及其網(wǎng)絡(luò)結(jié)構(gòu),為洞悉公眾對(duì)某一主題的觀點(diǎn)、研究信息擴(kuò)散等社會(huì)現(xiàn)象[12]、預(yù)測(cè)未來(lái)發(fā)展方向[11]等提供了機(jī)會(huì),有助于發(fā)現(xiàn)有共同興趣的社群、領(lǐng)域?qū)<?、熱點(diǎn)話題[13]等,帶來(lái)了網(wǎng)絡(luò)輿情分析等研究?jī)?nèi)容。此外,這類(lèi)信息結(jié)合其他類(lèi)型的數(shù)據(jù),產(chǎn)生了新的情報(bào)研究領(lǐng)域。例如,智能手機(jī)的普及和GPS的廣泛應(yīng)用,使得可以從社交網(wǎng)絡(luò)和網(wǎng)絡(luò)交互數(shù)據(jù)、移動(dòng)傳感數(shù)據(jù)和設(shè)備傳感數(shù)據(jù)中獲取社會(huì)和社區(qū)情報(bào)(socialandcommunityintelligence,SCI),揭示人類(lèi)行為模式和社群動(dòng)態(tài)[14]。
此外,機(jī)構(gòu)知識(shí)庫(kù)等作為一種反映組織或群體知識(shí)成果的智力資源,也正引發(fā)情報(bào)界的重視。網(wǎng)絡(luò)信息聯(lián)盟的執(zhí)行董事CliffordA.Lynch[15]從大學(xué)的角度指出,成熟完整的機(jī)構(gòu)知識(shí)庫(kù)應(yīng)包含機(jī)構(gòu)和學(xué)生的智力成果(包括科研材料和教學(xué)材料)以及記錄機(jī)構(gòu)自身各項(xiàng)事件和正在進(jìn)行的科研活動(dòng)的文檔。這暗示著學(xué)術(shù)界從過(guò)去只關(guān)心科研成果正逐步轉(zhuǎn)向關(guān)注科研過(guò)程。從機(jī)構(gòu)知識(shí)庫(kù)中,可以發(fā)現(xiàn)隱藏其中的科研模式、揭示目前科研狀況的不足,引導(dǎo)機(jī)構(gòu)未來(lái)科研的發(fā)展走向等。但現(xiàn)有的機(jī)構(gòu)知識(shí)庫(kù)工具還缺乏幫助人們理解和分析這些資源的機(jī)制[16],在大數(shù)據(jù)環(huán)境下,加強(qiáng)這方面的研究也是必然趨勢(shì)??梢灶A(yù)見(jiàn),隨著科技的發(fā)展和應(yīng)用的深入,還會(huì)不斷的有新型資源出現(xiàn),并不斷促進(jìn)情報(bào)研究的發(fā)展。
2.4強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性
情報(bào)研究活動(dòng)在宏觀層面上是一種意義構(gòu)建(sensemaking)[17],依賴(lài)于分析人員根據(jù)已有知識(shí)構(gòu)建認(rèn)知框架(frame),通過(guò)對(duì)認(rèn)知框架的不斷修正來(lái)達(dá)到理解的目的[18]。這意味著情報(bào)研究活動(dòng)本身帶有很大的不確定性,很多因素影響著情報(bào)研究的有效性。如何使情報(bào)研究工作更加嚴(yán)謹(jǐn),減少情報(bào)分析的不確定、提升情報(bào)成果的質(zhì)量,正成為學(xué)術(shù)界當(dāng)前普遍關(guān)注的問(wèn)題。情報(bào)研究嚴(yán)謹(jǐn)性(rigor)不等同于分析結(jié)果的正確性,它衡量的是情報(bào)研究的過(guò)程,是指在情報(bào)研究過(guò)程中“基于仔細(xì)考慮或調(diào)查,應(yīng)用精確和嚴(yán)格的標(biāo)準(zhǔn),從而更好地理解和得出結(jié)論”[19]。美國(guó)俄亥俄州立大學(xué)的DenielZelik[20][21]從評(píng)估角度,給出了8個(gè)指標(biāo)來(lái)衡量分析過(guò)程的嚴(yán)謹(jǐn)性:假設(shè)探索、信息檢索、信息驗(yàn)證、立場(chǎng)分析、敏感度分析、專(zhuān)家協(xié)作、信息融合和解釋評(píng)價(jià)。從這幾項(xiàng)指標(biāo)看,信息檢索和融合是從分析信息源上消除不全面性;假設(shè)探索是要使用多種視角來(lái)揭示數(shù)據(jù)和信息;信息驗(yàn)證側(cè)重于數(shù)據(jù)的溯源、佐證和交叉驗(yàn)證;立場(chǎng)分析強(qiáng)調(diào)分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專(zhuān)家協(xié)作是防止分析結(jié)果受分析人員自身的學(xué)科背景或經(jīng)驗(yàn)帶來(lái)的偏差;解釋評(píng)價(jià)是要正確對(duì)待分析結(jié)論??梢?jiàn),情報(bào)研究的嚴(yán)謹(jǐn)性意在消除人的主觀偏見(jiàn),用更為客觀的視角對(duì)待情報(bào)研究。如果說(shuō)之前的情報(bào)研究活動(dòng)依賴(lài)專(zhuān)家的個(gè)人判斷,帶有較為強(qiáng)烈的主觀色彩,那么走向嚴(yán)謹(jǐn)性的情報(bào)研究活動(dòng)正逐步轉(zhuǎn)變?yōu)橐婚T(mén)科學(xué)。
在大數(shù)據(jù)背景下,情報(bào)分析的嚴(yán)謹(jǐn)性,不僅體現(xiàn)在理念上,還暗含了對(duì)技術(shù)的要求。面對(duì)海量數(shù)據(jù),自動(dòng)化的技術(shù)手段必不可少。當(dāng)信息的檢索更多的是借助檢索系統(tǒng),而不是人工的收集,信息融合更多依賴(lài)數(shù)據(jù)倉(cāng)庫(kù)等技術(shù)手段,如何在這樣的分析環(huán)境中將情報(bào)研究的科學(xué)性落到實(shí)處,是需要關(guān)注的問(wèn)題。可以看到,利用技術(shù)本身已經(jīng)在一定程度上避免了人的主觀性,但面對(duì)同樣一個(gè)問(wèn)題,可以有不同的技術(shù)手段,也可能產(chǎn)生不同的結(jié)果,如何避免由技術(shù)產(chǎn)生的偏見(jiàn),也許通過(guò)多種技術(shù)手段或采用不同的算法,全方位地展示信息內(nèi)容及其之間的關(guān)系,從而避免產(chǎn)生信息的誤讀,是一個(gè)解決方案??梢?jiàn),在大數(shù)據(jù)時(shí)代,情報(bào)研究需要多種手段來(lái)加強(qiáng)其分析過(guò)程的科學(xué)性,而這又需要多種技術(shù)方法加以支持。
2.5情報(bào)研究的智能化
大數(shù)據(jù)背景下的情報(bào)研究,對(duì)技術(shù)提出了更高的要求。正如美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)發(fā)布的報(bào)告[22]所說(shuō),美國(guó)在科學(xué)和工程領(lǐng)域的領(lǐng)先地位將越來(lái)越取決于利用數(shù)字化科學(xué)數(shù)據(jù)以及借助復(fù)雜的數(shù)據(jù)挖掘、集成、分析與可視化工具將其轉(zhuǎn)換為信息和知識(shí)的能力。對(duì)于情報(bào)研究來(lái)說(shuō),應(yīng)用智能化技術(shù)能自動(dòng)進(jìn)行高級(jí)、復(fù)雜的信息處理分析工作,在很大程度上把情報(bào)研究人員從繁瑣的體力勞動(dòng)中解放出來(lái),尤其在信息環(huán)境瞬息萬(wàn)變的今天,及時(shí)收集信息分析并反饋已經(jīng)變得非常重要,這都需要智能化技術(shù)加以支撐。從信息源來(lái)講,情報(bào)研究對(duì)象得以擴(kuò)展,其中可能包含微博等社會(huì)化媒體信息,可能包含圖片、新聞等,大量非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)的涌入,必然需要技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以供后續(xù)分析。同時(shí),多元化的信息,需要根據(jù)分析需求加以融合,這可能需要語(yǔ)義層面上的技術(shù)支持。從分析需求來(lái)講,簡(jiǎn)單的統(tǒng)計(jì)分析已不能滿足現(xiàn)在社會(huì)的決策需求,需要從大量信息中發(fā)現(xiàn)潛在模式,指導(dǎo)未來(lái)的發(fā)展,這就涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)。此外,要尋求情報(bào)研究的客觀性,摒除過(guò)多的主觀意愿,也需要多種技術(shù)來(lái)支撐??梢?jiàn),這一發(fā)展趨勢(shì)是大數(shù)據(jù)時(shí)代下的必然。而各國(guó)在積極建設(shè)的數(shù)字化基礎(chǔ)設(shè)施,也在推動(dòng)著情報(bào)研究的智能化,如歐洲網(wǎng)格基礎(chǔ)設(shè)施(EuropeanGridInfrastructure,EGI)[23]項(xiàng)目就致力于為歐洲各領(lǐng)域研究人員提供集成計(jì)算資源,從而推動(dòng)創(chuàng)新。
目前,對(duì)情報(bào)研究中的智能化技術(shù)沒(méi)有統(tǒng)一的界定,但概觀之,可以將情報(bào)研究智能化的本質(zhì)概括為定量化、可計(jì)算、可重復(fù)。定量化是針對(duì)過(guò)去情報(bào)研究更多的是依賴(lài)人的主觀判斷,即基于已有文字材料或數(shù)據(jù),根據(jù)研究人員的經(jīng)驗(yàn)等給出粗略的結(jié)論,如果說(shuō)這是一種定性化分析,現(xiàn)在更多地依賴(lài)通過(guò)計(jì)算機(jī)自動(dòng)化處理原始材料并獲得潛在數(shù)據(jù),并在此基礎(chǔ)上輔以人的判斷,可以說(shuō)是一種定量化的分析??捎?jì)算是指將各種信息資源轉(zhuǎn)化為計(jì)算機(jī)可理解、處理的形式,如從新聞、論文、專(zhuān)利等中,提取出科研組織、科研人員等實(shí)體,再基于這些結(jié)構(gòu)化的、富有語(yǔ)義的信息,采用統(tǒng)計(jì)、數(shù)據(jù)挖掘等方法加以計(jì)算,獲取隱含的知識(shí)。可重復(fù)是指自動(dòng)化分析技術(shù)消除了許多主觀因素,從理論上講,如果分析數(shù)據(jù)等條件一致,分析結(jié)論也應(yīng)該是一致的,這也體現(xiàn)了智能化技術(shù)為情報(bào)研究帶來(lái)客觀性的一面。
3情報(bào)研究中的技術(shù)問(wèn)題
情報(bào)研究的上述發(fā)展走向,決定了情報(bào)研究既不能仍然停留在定性分析上,也不能僅僅靠簡(jiǎn)單的統(tǒng)計(jì)替代情報(bào)研究中的計(jì)算技術(shù),由此對(duì)情報(bào)研究技術(shù)提出了新的要求。美國(guó)McKinseyGlobalInstitute在2011年5月發(fā)布了研究報(bào)告“大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域”(Bigdata:Thenextfrontierforinnovation,competition,andproductivity)[24]。報(bào)告分六個(gè)部分,其中第二部分討論了大數(shù)據(jù)技術(shù),并圍繞大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)技術(shù)和可視化三方面進(jìn)行了闡述。在大數(shù)據(jù)分析技術(shù)中,列舉了26項(xiàng)適用于眾多行業(yè)的分析技術(shù),包括A/B測(cè)試、關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類(lèi)、聚類(lèi)分析、眾包(Crowdsourcing)、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學(xué)習(xí)、遺傳算法、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、神經(jīng)網(wǎng)絡(luò)、網(wǎng)絡(luò)分析、優(yōu)化、模式識(shí)別、預(yù)測(cè)建模、回歸、情感分析、信號(hào)處理、空間分析、統(tǒng)計(jì)、監(jiān)督學(xué)習(xí)、模擬、時(shí)間序列分析、無(wú)監(jiān)督學(xué)習(xí)和可視化。這些技術(shù)絕大部分是已有的技術(shù),也有部分是隨著互聯(lián)網(wǎng)的發(fā)展以及對(duì)大規(guī)模數(shù)據(jù)挖掘的需求,在原有技術(shù)的角度發(fā)展起來(lái)的,如眾包就是隨著Web2.0而產(chǎn)生的技術(shù)。
根據(jù)我們的理解,這些技術(shù)大致可以劃分為可視化分析、數(shù)據(jù)挖掘以及語(yǔ)義處理三大類(lèi)。這三大類(lèi)技術(shù)也是當(dāng)前情報(bào)分析領(lǐng)域應(yīng)予以關(guān)注和深入研究的技術(shù)。
3.1可視化分析
可視化分析(VisualAnalytics)是一門(mén)通過(guò)交互的可視化界面來(lái)便利分析推理的科學(xué)[25],是自動(dòng)分析技術(shù)與交互技術(shù)相結(jié)合的產(chǎn)物,目的是幫助用戶在大規(guī)模及復(fù)雜數(shù)據(jù)內(nèi)容的基礎(chǔ)上進(jìn)行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關(guān)注計(jì)算機(jī)自動(dòng)生成信息的交互式圖形表示,關(guān)注這些圖形表示的設(shè)計(jì)、開(kāi)發(fā)及其應(yīng)用[27],而可視化分析在此基礎(chǔ)上加入了知識(shí)發(fā)現(xiàn)過(guò)程,關(guān)注自動(dòng)分析方法及其選擇,以及如何將最佳的自動(dòng)分析算法與適當(dāng)?shù)目梢暬夹g(shù)相結(jié)合,以達(dá)到輔助決策的目的。
目前的情報(bào)分析系統(tǒng),雖然也提供了多種視圖來(lái)揭示信息,但更多的是一種分析結(jié)果的呈現(xiàn),系統(tǒng)內(nèi)部分析、處理的機(jī)制對(duì)分析人員來(lái)講是個(gè)黑匣子,分析人員無(wú)法了解分析方法、分析結(jié)果的局限性或者有效性,這無(wú)疑不符合情報(bào)研究嚴(yán)謹(jǐn)性這一發(fā)展要求。同時(shí),現(xiàn)有的分析工具需要分析人員輸入各種繁雜的參數(shù),又缺乏對(duì)情報(bào)分析認(rèn)知過(guò)程的支持,這就對(duì)使用人員的專(zhuān)業(yè)化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問(wèn)題,它整合了多個(gè)領(lǐng)域包括采用信息分析、地理空間分析、科學(xué)分析領(lǐng)域的分析方法,應(yīng)用數(shù)據(jù)管理和知識(shí)表示、統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)領(lǐng)域的成果進(jìn)行自動(dòng)分析,融入交互、認(rèn)知等人的因素來(lái)協(xié)調(diào)人與機(jī)器之間的溝通,從而更好地呈現(xiàn)、理解、傳播分析結(jié)果[28]。佐治亞理工學(xué)院的JohnStasko等人應(yīng)用Pirolli等人提出的情報(bào)分析概念模型[29],建立了一個(gè)名為Jigsaw(拼圖)的可視化分析系統(tǒng)[30],并將其應(yīng)用于學(xué)術(shù)研究領(lǐng)域(涉及期刊和會(huì)議論文)以及研究網(wǎng)絡(luò)文章(如網(wǎng)絡(luò)新聞報(bào)道或?qū)n}博客)領(lǐng)域,也說(shuō)明了將可視化分析技術(shù)應(yīng)用于情報(bào)研究的可行性。
將可視化分析技術(shù)應(yīng)用于情報(bào)研究領(lǐng)域,有眾多問(wèn)題要解決。首先,在情報(bào)研究工具中,是以自動(dòng)化分析為主,還是以可視化為主?DanielA.Keim等人將待分析的問(wèn)題分為三類(lèi),第一類(lèi)是在分析過(guò)程中可視化和自動(dòng)化方法可以緊密結(jié)合的問(wèn)題,第二類(lèi)是應(yīng)用自動(dòng)化分析潛力有限的問(wèn)題,第三類(lèi)是應(yīng)用可視化分析潛力有限的問(wèn)題。在研究這三類(lèi)問(wèn)題中交互程度對(duì)分析效率影響的基礎(chǔ)上,DanielA.Keim等人指出,應(yīng)分析如何通過(guò)考慮用戶、任務(wù)和數(shù)據(jù)集特點(diǎn),來(lái)確定可視化和自動(dòng)分析方法的優(yōu)化組合,從而達(dá)到最佳的效果[31]??梢?jiàn),要將可視化分析技術(shù)應(yīng)用于情報(bào)研究領(lǐng)域,需要明確每類(lèi)問(wèn)題適用哪種組合方式。其次,情報(bào)研究領(lǐng)域適合使用哪些可視化交互手段?這可能包括原始分析數(shù)據(jù)、析取出的關(guān)系數(shù)據(jù)、深層挖掘的模式數(shù)據(jù)等的可視化手段,分析人員與系統(tǒng)交互的方式,分析過(guò)程的可視化展示等。第三,情報(bào)研究領(lǐng)域中的認(rèn)知過(guò)程是什么樣的,關(guān)注哪些問(wèn)題,涉及哪些實(shí)體,在大數(shù)據(jù)環(huán)境下面臨哪些認(rèn)知困難,需要在哪些環(huán)節(jié)加以支持,這些困難能否通過(guò)技術(shù)來(lái)解決。此外,從現(xiàn)有的可視化分析技術(shù)來(lái)看,主要是將各個(gè)相關(guān)領(lǐng)域的技術(shù)以優(yōu)化的方式整合起來(lái),但在將來(lái)會(huì)產(chǎn)生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會(huì)對(duì)情報(bào)研究帶來(lái)怎樣的影響等等,都是在情報(bào)研究中引入可視化分析技術(shù)需要關(guān)注的。
3.2數(shù)據(jù)挖掘
廣義的數(shù)據(jù)挖掘指整個(gè)知識(shí)發(fā)現(xiàn)的過(guò)程,是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。它涵蓋了數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)的任務(wù),從數(shù)據(jù)特征化與區(qū)分到關(guān)聯(lián)和相關(guān)性分析、分類(lèi)、回歸、聚類(lèi)、離群點(diǎn)分析、序列分析、趨勢(shì)和演變分析等,吸納了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、算法、高性能計(jì)算、可視化、數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)等領(lǐng)域的技術(shù),并可以用于任何類(lèi)型的數(shù)據(jù),包括數(shù)據(jù)庫(kù)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)等基本形式,也包括數(shù)據(jù)流、序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、圖數(shù)據(jù)等其他類(lèi)型的數(shù)據(jù)[33]。
從數(shù)據(jù)挖掘的涵義看,它與情報(bào)研究有著天然的聯(lián)系;從數(shù)據(jù)挖掘的方法看,有其特定的含義和實(shí)現(xiàn)過(guò)程,可以有效地解決情報(bào)研究的問(wèn)題。例如,情報(bào)研究可以借鑒關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的成功案例——超市的“啤酒+尿布”,嘗試用關(guān)聯(lián)規(guī)劃來(lái)分析研究主題的相關(guān)性,從科技論文與專(zhuān)利的關(guān)聯(lián)中發(fā)現(xiàn)科技的轉(zhuǎn)換關(guān)系等等。但從目前的情報(bào)研究成果看,許多還僅僅停留在簡(jiǎn)單的頻率統(tǒng)計(jì)、共詞計(jì)算層次上,在知識(shí)發(fā)現(xiàn)的過(guò)程中,這些工作僅僅是數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備,還有待于更為深入的發(fā)掘??梢?jiàn),數(shù)據(jù)挖掘能夠也應(yīng)該應(yīng)用于情報(bào)研究領(lǐng)域,這不僅是數(shù)據(jù)挖掘應(yīng)用擴(kuò)展的結(jié)果,也是情報(bào)研究自身發(fā)展的需求。此外,由于較少有專(zhuān)門(mén)針對(duì)情報(bào)研究領(lǐng)域研發(fā)的挖掘工具,現(xiàn)有情報(bào)分析通常借助于其他工具,不同工具的功能不同,這就導(dǎo)致常常同時(shí)使用好幾個(gè)分析工具,如在使用SPSS進(jìn)行聚類(lèi)分析的同時(shí),還使用Ucinet分析社會(huì)網(wǎng)絡(luò)。這帶來(lái)的問(wèn)題是,分析缺乏完整性,可能社會(huì)網(wǎng)絡(luò)和其他信息之間有關(guān)聯(lián),因?yàn)楣ぞ叩姆指钚?,就?dǎo)致潛在模式的丟失。由此,研發(fā)適用于情報(bào)研究的挖掘工具,是必要也是緊迫的,尤其是面對(duì)大數(shù)據(jù)的挑戰(zhàn),智能化地輔助分析人員,減少認(rèn)知壓力,是亟待解決的問(wèn)題。
要解決以上的問(wèn)題,首先需要研究情報(bào)分析任務(wù),分析哪些問(wèn)題是可以使用數(shù)據(jù)挖掘技術(shù)來(lái)支持的,這類(lèi)問(wèn)題有哪些共同點(diǎn)、特殊性,能否對(duì)未來(lái)可能的情報(bào)分析問(wèn)題進(jìn)行擴(kuò)展,哪些問(wèn)題不適用于數(shù)據(jù)挖掘技術(shù),原因是什么等。其次,對(duì)于某類(lèi)或某個(gè)分析問(wèn)題,使用哪種數(shù)據(jù)挖掘技術(shù)或幾種技術(shù)的組合才能有效地解決,涉及的算法是否需要針對(duì)該問(wèn)題進(jìn)行適應(yīng)性改造,如何評(píng)價(jià)挖掘的結(jié)果等。第三,數(shù)據(jù)挖掘出現(xiàn)了交互挖掘這一發(fā)展趨勢(shì),即構(gòu)建靈活的用戶界面和探索式挖掘環(huán)境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢(shì)會(huì)對(duì)情報(bào)研究帶來(lái)哪些影響,如何在這一背景下,探索情報(bào)研究工具的新發(fā)展,尋找情報(bào)分析的新模式,值得我們關(guān)注。
3.3語(yǔ)義處理
語(yǔ)義是關(guān)于意義(meaning)的科學(xué),語(yǔ)義技術(shù)提供了機(jī)器可理解或是更好處理的數(shù)據(jù)描述、程序和基礎(chǔ)設(shè)施[34],整合了Web技術(shù)、人工智能、自然語(yǔ)言處理、信息抽取、數(shù)據(jù)庫(kù)技術(shù)、通信理論等技術(shù)方法,旨在讓計(jì)算機(jī)更好地支持處理、整合、重用結(jié)構(gòu)化和非結(jié)構(gòu)化信息[35]。核心語(yǔ)義技術(shù)包括語(yǔ)義標(biāo)注、知識(shí)抽取、檢索、建模、推理等[34]。語(yǔ)義技術(shù)可以為信息的深層挖掘打好基礎(chǔ),即通過(guò)對(duì)各類(lèi)信息的語(yǔ)義處理,在獲取的富有語(yǔ)義的結(jié)構(gòu)化數(shù)據(jù)上使用各種數(shù)據(jù)挖掘算法來(lái)發(fā)現(xiàn)其中的潛在模式。數(shù)據(jù)的語(yǔ)義性支持了機(jī)器學(xué)習(xí)等技術(shù)的內(nèi)在功能[36]。
從現(xiàn)有的情報(bào)研究實(shí)踐和工具看,語(yǔ)義支持的缺失是一個(gè)普遍問(wèn)題,這其中又可劃分為兩個(gè)層次。對(duì)于傳統(tǒng)的情報(bào)研究對(duì)象,如科技論文、專(zhuān)利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語(yǔ)義支持。例如,要分析論文的內(nèi)容主題時(shí),需要從摘要等自由文本中提取出主題信息,在數(shù)據(jù)處理時(shí),常常無(wú)法識(shí)別同義詞、近義詞等,需要人工干預(yù)。一些工具雖然在語(yǔ)義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類(lèi)結(jié)果上,缺乏有效的主題說(shuō)明,自動(dòng)形成的主題標(biāo)簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數(shù)據(jù)集環(huán)境下,還可以接受,當(dāng)面對(duì)大數(shù)據(jù)的沖擊,這種半自動(dòng)化的處理方法無(wú)疑是耗時(shí)又費(fèi)力的。此外,對(duì)于新型情報(bào)研究對(duì)象,如網(wǎng)絡(luò)新聞、博客等,已有如動(dòng)態(tài)監(jiān)測(cè)科研機(jī)構(gòu)等的系統(tǒng)工具,但總體來(lái)說(shuō)還處于起步狀態(tài),目前較多的還是依賴(lài)人工篩選出所需信息,并整理成結(jié)構(gòu)化的數(shù)據(jù),同樣也不利于大規(guī)模的數(shù)據(jù)分析。這些問(wèn)題的存在,使得消除語(yǔ)義鴻溝(semanticgap)[37],應(yīng)用語(yǔ)義技術(shù)成為廣泛需求及必然。
將語(yǔ)義技術(shù)應(yīng)用于情報(bào)分析,需要關(guān)注以下幾方面的內(nèi)容。首先,分析情報(bào)研究任務(wù)的特點(diǎn),了解它的語(yǔ)義需求,是否存在規(guī)律性的準(zhǔn)則以供指導(dǎo)分析工具的研發(fā),這既需要原則性和方向性的準(zhǔn)則,也需要為針對(duì)多維度劃分出的各類(lèi)任務(wù)給出詳細(xì)的規(guī)范,例如,對(duì)微博等社會(huì)化媒體,其中既存在高質(zhì)量的信息,也存在辱罵等低質(zhì)量的信息,區(qū)分這些信息并篩選出高質(zhì)量信息,就成為在分析社會(huì)化媒體中的語(yǔ)義任務(wù)之一。其次,語(yǔ)義資源建設(shè)問(wèn)題,即在情報(bào)分析領(lǐng)域中,要實(shí)現(xiàn)語(yǔ)義層面上的理解,是否需要建設(shè)語(yǔ)義資源,如果不需要,哪些技術(shù)手段可以代替,如果需要,哪種類(lèi)型的語(yǔ)義資源可以便捷、快速、高效地構(gòu)建,并且這種語(yǔ)義資源應(yīng)該如何構(gòu)建,如何使用才能有效地服務(wù)于情報(bào)研究工作。第三,信息抽取問(wèn)題??萍夹畔⑸婕氨姸鄬W(xué)科的專(zhuān)業(yè)術(shù)語(yǔ)、各種科研機(jī)構(gòu)、組織等,如何使用語(yǔ)義技術(shù)將這些信息準(zhǔn)確地提取出來(lái)并加以標(biāo)注,尤其是針對(duì)不同類(lèi)型的信息源,采用什么樣的抽取策略等。第四,信息整合問(wèn)題,即如何使用語(yǔ)義技術(shù),把不同來(lái)源的數(shù)據(jù)對(duì)象及其互動(dòng)關(guān)系進(jìn)行融合、重組,重新結(jié)合為一個(gè)新的具有更高效率和更好性能的具有語(yǔ)義關(guān)聯(lián)的有機(jī)整體,以便后續(xù)分析。
4結(jié)語(yǔ)
正如本文引言中所談到的那樣,大數(shù)據(jù)的理念和技術(shù)為情報(bào)學(xué)領(lǐng)域中情報(bào)研究的理論和實(shí)踐帶來(lái)了機(jī)遇,也帶來(lái)了挑戰(zhàn)。機(jī)遇巨大,挑戰(zhàn)更大,需要我們對(duì)此有清醒的認(rèn)識(shí)。本文分析了大數(shù)據(jù)背景下情報(bào)研究的若干發(fā)展趨勢(shì),總結(jié)了情報(bào)研究中值得關(guān)注的技術(shù)問(wèn)題,以期能為促進(jìn)情報(bào)研究的理論和實(shí)踐的發(fā)展添磚加瓦。
參考文獻(xiàn):
[1]BigData,BigImpact[EB/OL].[2012-09-06].http://www
3.weforum.org/docs/WEF_TC_MFS_BigDataBigImpact_Br
iefing_2012.pdf.
[2]eScience——ATransformedScientificMethod[EB/OL].[2012-09-06].http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt.
[3]AdvancedPersonalizedEducation[EB/OL].[2012-09-06].http://www.cra.org/ccc/docs/web_learning_spring.pdf.
[4]Whatisbigdata?[EB/OL].[2012-09-06].http://www-01.ibm.com/software/data/bigdata/.
[5]BigdatainlittleNewZealand[EB/OL].[2012-09-06].http://www.techday.co.nz/itbrief/news/big-data-in-little-new-zealand/24518/.
[6]IntelligenceAnalysisTodayandTomorrow[J].SecurityChallenges,2009,5(1):67-83.
[7]BigDataforDevelopment:Opportunities&Challenges[EB/OL].[2012-09-06].http://www.unglobalpulse.org/si
tes/default/files/BigDataforDevelopment-UNGlobalPulseJune2012.pdf.
[8]ThomasFingar.AGuidetoAll-SourceAnalysis[EB/OL].[2012-09-07].http://www.afio.com/publications/Fingar_
All_Source_Analysis_in_AFIO_INTEL_WinterSprg2012.pdf.
[9]AlanL.Porter,ScottW.Cunninghan.TechMiningExploitingNewTechnologiesforCompetitiveAdvantage[M].JohnWiley&Sons,2005.
[10]AndreasM.Kaplan,MichaelHaenlein.Usersoftheworld,unite!ThechallengesandopportunitiesofSocialMedia[J].BusinessHorizons,2010,53(1):59-68.
[11]SitaramAsur,BernardoA.Huberman.PredictingtheFutureWithSocialMedia[EB/OL].[2012-09-08].http:
//www.hpl.hp.com/research/scl/papers/socialmedia/socialmedia.pdf.
[12]MunmunDeChoudhury.HowDoestheDataSamplingStrategyImpacttheDiscoveryofInformationDiffusioninSocialMedia?[EB/OL].[2012-09-08].http://research.microsoft.com/en-us/um/people/munmund/pubs/icwsm_10.pdf.
[13]SitaramAsur,etal.TrendsinSocialMedia:PersistenceandDecay[EB/OL].[2012-09-10].http://www.hpl.hp.com/research/scl/papers/trends/trends_web.pdf.
[14]DaqingZhang,BinGuo,ZhiwenYu.TheEmergenceofSocialandCommunityIntelligence[J].Computer.2011,
44(7):21-28.
[15]CliffordA.Lynch.InstitutionalRepositories:EssentialInfrastructureforScholarshipintheDigitalAge[EB/OL].[2012-09-12].http://scholarship.utm.edu/21/1/Ly
nch,_IRs.pdf.
[16]Nichols,D.M.,etal.Experiencesindeployingmetadataanalysistoolsforinstitutionalrepositories[J].Cataloging&ClassificationQuarterly,2009,47(3/4):229-248.
[17]GaryKlein,etal.MakingSenseofSensemaking1:AlternativePerspectives[J].IntelligentSystems,2006,21(4):70-73.
[18]GaryKlein,etal.MakingSenseofSensemaking2:AMacrocongnitiveMode[J].IntelligentSystems,2006,21(5):88-92.
[19]TheHumanandSocialElementinMilitaryExperimentation[EB/OL].[2012-09-15].http://www.mors.org/Use
rFiles/file/meetings/06bar/holloman.pdf.
[20]DenielZelik,EmilyS.Patterson.UnderstandingRigorinInformationAnalysis[C].ProceedingsoftheEighthInternationalNDMConference,PacificGrove,CA,2007.
[21]DenielJ.Zelik,EmilyS.Patterson,DavidD.Woods.MeasuringAttributesofRigorinInformationAnalysis[EB/OL].[2012-09-15].http://csel.eng.ohio-state.edu/zelik/research/Rigor_files/ZelikPattersonWoods_Measuri
ngRigor_1.pdf.
[22]NSFsCyberinfrastructureVisionfor21stCenturyDiscovery[EB/OL].[2012-09-16].http://www.nsf.gov/od/oci/ci_v5.pdf.
[23]EGIEuropeanGridInfrastructure[EB/OL].[2012-09-16].
http://www.egi.eu/.
[24]Bigdata:Thenextfrontierforinnovation,competition,andproductivity[EB/OL].[2012-09-15].http://www.mckinsey.com/insights/mgi/research/technology_an
d_innovation/big_data_the_next_frontier_for_innovation.
[25]Thomas,J.J.andCook,K.A.IlluminatingthePath:TheResearchandDevelopmentAgendaforVisualAnalytics[M].IEEEComputerSocietyPress,2005.
[26]DAKeim,etal.VisualAnalytics:Definition,Process,andChallenges[EB/OL].[2012-09-06].www.http:www.ll.gatech.edu/atasko/7450/sy//abus.html.
[27]ChaomeiChen.Informationvisualization[J].WileyInterdisciplinaryReviews:ComputationalStatistics,2010,
2(4):387-403.
[28]DanielA.Keim,etal.ChallengesinVisualDataAnalysis[C].InformationVisualization,2006:9-16.
[29]P.Pirolli.TheSensemakingProcessandLeveragePointsforAnalystTechnologyasIdentifiedThroughCognitiveTaskAnalysis[EB/OL].[2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]JohnStasko,etal.Jigsaw:supportinginvestigativeanalysisthroughinteractivevisualization[EB/OL].[2012
-09-16].http://www.elementsofparametricdesign.com/fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]DanielA.Keim,F(xiàn)lorianM.,andJimThomas.VisualAnalytics:HowMuchVisualizationandHowMuchAnalytics?[J].ACMSIGKDDExplorationsNewsletter,2009,11(2):5-8.
[32]Aigner,etal.VisualMethodsforAnalyzingTime-OrientedData[J].TransactionsonVisualizationandComputerGraphics,2008,14(1):47-60.
[33]JiaweiHan,MichelineKamber,JianPei.DataMiningconceptsandtechniquesthirdedition[M].MorganKaufmann,2011.
[34]JohnDomingue,etal.HandbookofSemanticWebTechnologies[M].SpringerPublishingCompany,2011.
[35]DieterFensel,etal.CommonValueManagement-basedonEffectiveandEfficientOn-lineCommunication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]BettinaBerendt,AndreasHotho,GerdStumme.IntroductiontotheSpecialIssueoftheJournalofWebSemantics:BridgingtheGap-DataMiningandSocialNetworkAnalysisforIntegratingSemanticWebandWeb2.0[J].WebSemantics:Science,ServicesandAgentsontheWorldWideWeb,2010,8(2-3):95-96.
[37]RongZhao,etal.NarrowingtheSemanticGap—ImprovedText-BasedWebDocumentRetrievalUsingVisualFeatures[J].Multimedia,2002,4(2):189-200.
作者簡(jiǎn)介:李廣建(1963-),男,博士,北京大學(xué)信息管理系教授,博士生導(dǎo)師,研究方向:信息資源管理與網(wǎng)絡(luò)信息系統(tǒng)研究;楊林(1984-),女,中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館、中國(guó)科學(xué)院大學(xué)博士研究生,研究方向:信息資源管理與網(wǎng)絡(luò)信息系統(tǒng)研究。