袁 海,陳 康,陶彩霞,陳 翀
(1.中國(guó)電信股份有限公司江蘇分公司 南京 210037;2.中國(guó)電信股份有限公司廣東研究院 廣州 510630)
最近幾年,隨著博客、社交網(wǎng)絡(luò)等互聯(lián)網(wǎng)產(chǎn)品的興起,海量信息不斷涌現(xiàn),從這些信息中提取、分析、發(fā)現(xiàn)重要信息的方法也日新月異。這些技術(shù)中,文本可視化技術(shù)是發(fā)展比較快的一種。諸如傳統(tǒng)的書(shū)籍、論文,最近的Web文本、微博博文等,其內(nèi)容都是以文本為載體的,而文本可視化則是根據(jù)這些文本的內(nèi)容,挖掘、提煉出有用的信息,并且以帶有交互功能的圖形、圖表等形式展示給用戶(hù),并不是將大批量、大段的文字簡(jiǎn)單地返回。文本可視化已經(jīng)滲透到計(jì)算機(jī)以外的各個(gè)學(xué)科,如科學(xué)、藝術(shù)、社會(huì)學(xué)等,屬于一個(gè)多樣化、邊緣化的技術(shù)。在討論文本可視化分析的內(nèi)容時(shí),前人按照不同的研究給出了不同的分類(lèi)結(jié)果,參考文獻(xiàn)[1]給出了文本可視化研究的如下3個(gè)層次:
·基于詞頻統(tǒng)計(jì)的文本可視化;
·基于聚類(lèi)算法的文本可視化;
·基于語(yǔ)義的文本可視化。
文本可視化所要做的工作不僅是將文字轉(zhuǎn)換成幾個(gè)圖形、圖表,更大的作用在于發(fā)現(xiàn)一篇文檔內(nèi)容的結(jié)構(gòu)、主題和隱含的特征,或者發(fā)現(xiàn)一系列文檔中存在的關(guān)系、模型等。同時(shí)以簡(jiǎn)潔、有交互性的圖形展示給使用者,即將枯燥的信息與數(shù)據(jù)轉(zhuǎn)換成美麗的、能給人深刻印象并且有意義的圖形。只有將數(shù)據(jù)和信息用圖形和圖像表示出來(lái),才能展現(xiàn)隱藏的知識(shí)。而文本可視化能夠加快數(shù)據(jù)處理的速度,使結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)得以充分利用;可以在人、數(shù)據(jù)之間建立通信,從而直觀觀察數(shù)據(jù)中隱含的規(guī)律、熱點(diǎn),為發(fā)現(xiàn)定律提供有力的工具;可以實(shí)現(xiàn)對(duì)計(jì)算和編程過(guò)程的引導(dǎo)和控制,通過(guò)交互手段改變呈現(xiàn)結(jié)構(gòu)和效果,并觀察和比較其影響。
文本可視化分析技術(shù)的研究方向有基于文本內(nèi)容、基于文本關(guān)系、基于多層面信息以及對(duì)于文本流的可視化分析。根據(jù)文本可視化的設(shè)計(jì)方案和不同的應(yīng)用目的,文本可視化可以分為以下幾類(lèi):基于詞匯的可視化、基于篇章的可視化、基于時(shí)間序列的可視化和基于主題領(lǐng)域的可視化。本文的可視化研究主要是對(duì)中文文本內(nèi)容進(jìn)行研究。
一般來(lái)說(shuō),文本可視化可以包括以下幾個(gè)過(guò)程:信息收集、預(yù)處理、知識(shí)表示、視覺(jué)呈現(xiàn)和交互等。其中,信息收集是文本可視化的資料收集階段,是許多數(shù)據(jù)可視化必備的;而預(yù)處理則是對(duì)文本進(jìn)行的各種操作,包括分詞、去停用詞、提取關(guān)鍵詞等自然語(yǔ)言處理;知識(shí)表示則是根據(jù)要求將文字組織成某種形式的過(guò)程;視覺(jué)呈現(xiàn)則是選擇適合的圖形或圖表將可視化文本呈現(xiàn)出來(lái)的過(guò)程,需要考慮的因素包括文本的數(shù)量、元素和效果等;交互則是指人機(jī)交互,添加用戶(hù)對(duì)數(shù)據(jù)圖形的操作,實(shí)現(xiàn)互動(dòng)、動(dòng)態(tài)展示,是最近研究文本可視化的熱點(diǎn)。
文本預(yù)處理過(guò)程是一個(gè)自然語(yǔ)言處理的過(guò)程,其文本分析關(guān)鍵技術(shù)包括分詞、命名實(shí)體識(shí)別、關(guān)鍵詞抽取、主題分析以及情感分析等。其中,分詞是很重要的一環(huán),分詞的準(zhǔn)確率會(huì)對(duì)后面的分析的正確性產(chǎn)生很大的影響。相對(duì)于英文的分詞,中文的分詞難度大很多,因?yàn)橹形牡淖植](méi)有像英文那樣用空格分開(kāi)每個(gè)單詞,這也是造成中文分詞困難的最大原因。然而隨著技術(shù)的成熟,中文分詞取得了很大的成功。目前,在中文分詞方面,做得比較好的分詞器有NLPIR漢語(yǔ)分詞系統(tǒng)[2]、哈爾濱工業(yè)大學(xué)語(yǔ)言技術(shù)平臺(tái)[3]、斯坦福大學(xué)的自然語(yǔ)言處理套件[4]、復(fù)旦大學(xué)的分詞器(FudanNLP)[5],這幾個(gè)分詞器都有很高的準(zhǔn)確率和速度,而且功能齊全,被許多機(jī)構(gòu)、學(xué)校以及企業(yè)使用。
在分詞后,最直接的文本可視化就是基于詞匯的可視化,可以分為3種:基于命名實(shí)體的可視化、基于詞頻的可視化和基于詞匯分布的可視化。命名實(shí)體是指一些關(guān)鍵的人名、地名、術(shù)語(yǔ)等詞語(yǔ),這些詞語(yǔ)一般具有特殊的含義和特定的關(guān)系,因此將這些詞語(yǔ)進(jìn)行可視化能夠了解一篇文檔的主語(yǔ)關(guān)系;文本可視化工具Contexter[6]就是一個(gè)將命名實(shí)體可視化的自動(dòng)化軟件;基于詞頻的可視化是在統(tǒng)計(jì)文本詞語(yǔ)的出現(xiàn)頻次后,根據(jù)詞頻賦予每個(gè)詞語(yǔ)不同的權(quán)重,并在前端將這些詞語(yǔ)重新排列展示。其中,最常用的詞頻計(jì)算方法是TFIDF[7],而最常用的可視化形式是標(biāo)簽云(或稱(chēng)為詞云)[8],文本可視化軟件WordLe是其中廣泛采用的代表之一[9]?;谠~匯分布的可視化,是反映詞匯在文本中的分布情況,通常是將整文按段落、章節(jié)等劃分文本,能夠使用戶(hù)查詢(xún)?cè)~語(yǔ)以及詞間的關(guān)系。在這方面Tilebars[10]就是反映詞匯分布的可視化軟件。此外,還有許多技術(shù)或軟件用于對(duì)詞匯的可視化,如結(jié)合主題特征的Topic Islands[11]、添加時(shí)間維度的Theme River[12]、動(dòng)態(tài)變化的Meme Tracker[13]以及主題分類(lèi)的NewsMap[14]等。
對(duì)單篇文本進(jìn)行可視化的另一種方法是基于文本關(guān)系的可視化,也可以稱(chēng)為基于篇章內(nèi)容的文本可視化?;谄?,即更多的是關(guān)注、發(fā)現(xiàn)文章中特定的語(yǔ)義關(guān)系,展示文章的主題和核心內(nèi)容,呈現(xiàn)文章脈絡(luò)和閱讀線索。這類(lèi)可視化一般是將文本通過(guò)特征分析后再展示,特征分析的方法有很多,如主成分分析、多維尺度分析、潛在語(yǔ)義分析以及主題模型。在這方面,常見(jiàn)的可視化軟件或方法有Phrase Net[15]、DocuBurst[16]、WordTree[17]等 。此 外 ,研 究 者 對(duì)基于文本外在關(guān)系的可視化研究也有諸多進(jìn)展,主要包括兩方面內(nèi)容:多文本的詞語(yǔ)關(guān)系可視化和文本間引文關(guān)系的可視化。多文本的詞語(yǔ)關(guān)系可視化多用于信息檢索、主題檢測(cè)和話題演變等方面,這些技術(shù)可以是傳統(tǒng)的,如分類(lèi)、聚類(lèi),也可以是最近的新技術(shù),如主題模型,其目的都在于挖掘大量文本信息的內(nèi)在關(guān)系、關(guān)鍵主題;文本間引文關(guān)系的可視化,主要是研究文章作者、文章引用或會(huì)議等內(nèi)容,以方便理解文獻(xiàn)的發(fā)表情況和研究進(jìn)展。在這方面,主要的展示工具有 FP-Tree[18]、ContexTour[19]和 FacetAtlas[20]等。
文本的可視化呈現(xiàn)和交互是直接與用戶(hù)相關(guān)的環(huán)節(jié)。在可視化呈現(xiàn)時(shí),主要考慮的因素包括圖形的選擇、形狀的選擇、顏色的選擇等。其中,圖形的選擇包括樹(shù)狀圖、坐標(biāo)軸、放射狀圖、網(wǎng)絡(luò)圖等;形狀的選擇則包括點(diǎn)的設(shè)計(jì)、邊的設(shè)計(jì),具體有方形、圓形、星形等;顏色的選擇則有千萬(wàn)種,一般來(lái)說(shuō)只要能夠區(qū)分不同詞語(yǔ)和不同特征就能夠滿(mǎn)足,現(xiàn)實(shí)中偏向于選擇鮮艷的顏色,如紅色、藍(lán)色等。另外,可視化字體的選擇、大小、方位等也很重要。交互功能則是讓用戶(hù)參與到可視化展示中,通過(guò)需求呈現(xiàn)不同的文本特性。在文本可視化中,主要用到的交互方式包括高亮、縮放、更新、轉(zhuǎn)換、標(biāo)注、分層查看以及焦點(diǎn)加上下文等。
文本可視化是數(shù)據(jù)可視化的一個(gè)分支,國(guó)內(nèi)外有很多成果,特別是技術(shù)發(fā)展以及計(jì)算機(jī)的普及,使得許多互聯(lián)網(wǎng)企業(yè)、運(yùn)營(yíng)商都想將自己的數(shù)據(jù)可視化,立體地展示給用戶(hù),以獲取更多的用戶(hù)支持、廣告投資。但隨著社交方式的變遷,利用舊的可視化方法展示新的數(shù)據(jù)遇到了一些障礙,如數(shù)據(jù)流、動(dòng)態(tài)數(shù)據(jù)等。同時(shí),由于語(yǔ)言不同,可視化工具的底層設(shè)計(jì)、展示方式也不同,即不同語(yǔ)言的可視化工具不能夠通用,需要研究符合本語(yǔ)言的可視化工具。本文根據(jù)前人的研究,對(duì)中文文本進(jìn)行可視化研究,包括工具調(diào)研、設(shè)計(jì)、效果以及評(píng)價(jià)等。
標(biāo)簽云也稱(chēng)為詞云、文字云,是詞頻可視化中最為典型的形式。標(biāo)簽云是關(guān)鍵詞的視覺(jué)化描述,用于匯總用戶(hù)生成的標(biāo)簽或一個(gè)網(wǎng)站的文字內(nèi)容。標(biāo)簽一般是獨(dú)立的詞匯,常常按字母順序排列,其重要程度又能通過(guò)改變字體大小或顏色表現(xiàn),所以標(biāo)簽云可以靈活地依照字母順序或熱門(mén)程度檢索一個(gè)標(biāo)簽。大多數(shù)標(biāo)簽本身就是超級(jí)鏈接,直接指向與標(biāo)簽相聯(lián)的一系列條目。標(biāo)簽云很適合用來(lái)挖掘和展現(xiàn)熱點(diǎn),微博中的話題、用戶(hù)標(biāo)簽都很適合用標(biāo)簽云展示。
標(biāo)簽云按作用的不同可以分為三大類(lèi):第1類(lèi)用于描述網(wǎng)站的每個(gè)獨(dú)立條目,第2類(lèi)用于描述網(wǎng)站所有條目的標(biāo)簽情況,第3類(lèi)是將標(biāo)簽作為一個(gè)數(shù)據(jù)項(xiàng)目的工具,用于表示整個(gè)集合中各項(xiàng)目的量。按形式分,可以分為平面型和球面型:平面型即2D型,一般是靜態(tài)的,標(biāo)簽無(wú)鏈接;而球面型即3D型,標(biāo)簽是動(dòng)態(tài)展示的,可以根據(jù)鼠標(biāo)的移動(dòng)而轉(zhuǎn)動(dòng),并能夠點(diǎn)擊打開(kāi)鏈接或搜索。研究表明,網(wǎng)站采用標(biāo)簽云的好處有:方便信息管理、促進(jìn)協(xié)作分享、增加參與度等。
標(biāo)簽云的實(shí)現(xiàn)方案有很多,大部分是Web版的,如WordLe[21]、ImageChef[22]、Tagul[23]等。這些工 具不只是簡(jiǎn)單地將文字展示出來(lái),更多的是讓用戶(hù)參與其中,實(shí)現(xiàn)個(gè)性化展示。例如,對(duì)微博的話題熱點(diǎn)進(jìn)行可視化,截取其中最頻繁的150個(gè)詞用WordLe展示,如圖1所示。通過(guò)標(biāo)簽云的可視化,看出“官方推薦”這個(gè)詞在這些話題中出現(xiàn)最多,而且人們都在討論“HOT 男人”、“生日”、“YOKA”等話題,而熱點(diǎn)討論的人物包括“華晨宇”、“劉忻”等。
除了Web端的標(biāo)簽云制作外,一些傳統(tǒng)的工具也可以用來(lái)開(kāi)發(fā)標(biāo)簽云,如R語(yǔ)言。R語(yǔ)言提供“word cloud”分組用于制作標(biāo)簽云,其做法簡(jiǎn)單快捷,還可以與軟件集成。如果需要對(duì)表1的微博標(biāo)簽按性別展示成標(biāo)簽云,展示的結(jié)果如圖2所示。對(duì)比表1和圖2,發(fā)現(xiàn)通過(guò)標(biāo)簽云展示數(shù)據(jù)會(huì)更直觀且更具可讀性。
圖1 微博話題的標(biāo)簽云可視化
表1 微博用戶(hù)標(biāo)簽(部分)
樹(shù)圖也稱(chēng)為樹(shù)狀圖、樹(shù)形地圖,是人機(jī)界面大師Shneiderman B發(fā)明的資料表示法[24],主要目的是在一張圖內(nèi)一目了然整體狀況,由各個(gè)元件量的大小決定圖示大小,并具有群組功能。簡(jiǎn)單而言,樹(shù)圖是一種層次數(shù)據(jù)可視化的方法,用一定面積的塊表示數(shù)據(jù)中的個(gè)體,使用空間位置表示個(gè)體之間的關(guān)系,而塊的大小則表示個(gè)體的權(quán)重。樹(shù)圖擁有與標(biāo)簽云相似的好處,都能夠讓用戶(hù)快捷地對(duì)文本中的主題、關(guān)鍵詞有所了解,區(qū)分關(guān)鍵詞作用的大小,并能夠?qū)⑦@些詞語(yǔ)按一定的要求組織起來(lái),有的還能提供交互功能,用戶(hù)點(diǎn)擊某層,就能夠?qū)⒃搶拥膬?nèi)容展開(kāi),以查看更多、更詳細(xì)的數(shù)據(jù)。
樹(shù)圖的主要研究?jī)?nèi)容一般包括3個(gè)方面:基本布局算法、視覺(jué)設(shè)計(jì)、交互設(shè)計(jì)?;静季炙惴ㄓ羞f歸算法、貪心策略算法、由內(nèi)向外布局算法等,這些算法適用于不同的場(chǎng)景,可以展示出不同的效果,如今研究更多的是多層次、多節(jié)點(diǎn)以及有周期性的布局算法。在選擇這些布局算法時(shí),需要考慮到算法的穩(wěn)定性、可讀性、連續(xù)性等性質(zhì)。樹(shù)圖的視覺(jué)設(shè)計(jì)則是在選定布局算法后,在一些細(xì)節(jié)上進(jìn)行修改,如標(biāo)簽的顏色顯示,文字的大小、字體,還有塊的紋理、投影效果等。樹(shù)圖的交互設(shè)計(jì)也是圖形設(shè)計(jì)的重要一環(huán),是提高用戶(hù)體驗(yàn)很好的途徑,樹(shù)圖的交互方法有改變權(quán)重、改變顏色、切換布局以及焦點(diǎn)上下文等。最近有許多新穎的設(shè)計(jì),如 Maigic Lens[25]、Semantic Zooming[26]等。
樹(shù)圖的圖形選擇有很多,一般是矩形,還有圓形、心形、多角形、球形等,樹(shù)圖與柱狀圖結(jié)合還可以組成展示功能更好的可視化模型。用樹(shù)圖進(jìn)行文本可視化有很多用途,如展示關(guān)鍵詞、分析包含與邏輯關(guān)系等。用D3[27]樹(shù)圖展示的效果如圖3所示,可以看出占用比例大的關(guān)鍵詞。利用經(jīng)典的Treemap布局[28]展示文本的示例如圖4所示,該工具提供多個(gè)布局面板、多種大小、顏色選擇以及交互模塊,還可以雙擊某塊進(jìn)入查看細(xì)節(jié)內(nèi)容,是樹(shù)圖展示的不錯(cuò)選擇。
圖2 根據(jù)性別形成的標(biāo)簽云
標(biāo)簽云和樹(shù)狀圖都擁有直觀和美觀兩大優(yōu)點(diǎn),但其展現(xiàn)能力也有局限性,如僅對(duì)關(guān)鍵詞進(jìn)行離散的展示,丟失了關(guān)鍵詞之間的關(guān)聯(lián)性和文本內(nèi)容的緊湊性,也無(wú)法展現(xiàn)文章的主題,因此研究者探索利用其他方法來(lái)展示文本的多維度信息,基于Facet Atlas算法的可視化就是其中一種。參考文獻(xiàn)[20]首先將Facet Atlas用于可視化,克服了簡(jiǎn)單投影造成的信息丟失,并將投影方法與點(diǎn)線圖相結(jié)合,能夠在同一個(gè)版面表達(dá)數(shù)據(jù)的多維信息,幫助理解文本潛在的關(guān)系。這種方法還可以與文本聚類(lèi)技術(shù)相結(jié)合,從而分析多文本的主題關(guān)系,并配以豐富的交互方式,傳達(dá)更多的信息。
FacetAtlas算法是一個(gè)力學(xué)布局算法,其利用力學(xué)原理,令節(jié)點(diǎn)互相排斥或互相吸引,基本思想是將圖看成一個(gè)以鋼環(huán)為頂點(diǎn)、以彈簧為邊的物理系統(tǒng),系統(tǒng)被賦予某個(gè)初始狀態(tài)后,彈簧彈力(引力和斥力)的作用會(huì)導(dǎo)致鋼環(huán)運(yùn)動(dòng),直到系統(tǒng)總能量減少到最小值時(shí)停止。采用不同的力學(xué)原理會(huì)生成不同的布局結(jié)構(gòu),例如,可以用帶電荷粒子的電力模擬節(jié)點(diǎn)的排斥力或用彈簧彈力模擬邊的吸引力。使用ForceAtlas算法的目的是將有聯(lián)系的節(jié)點(diǎn)緊靠在一起,并與其他節(jié)點(diǎn)明顯分隔開(kāi),將數(shù)據(jù)形成一個(gè)個(gè)群組。這個(gè)算法的時(shí)間復(fù)雜度比較高,可以在運(yùn)行一段時(shí)間后停止,這時(shí)圖形已基本成型。
圖3 D3樹(shù)圖展示的效果
圖4 文本的樹(shù)圖可視化
使用FacetAtlas算法對(duì)文本進(jìn)行可視化,可以根據(jù)內(nèi)容的不同制造出不同的圖形。一般來(lái)說(shuō),有對(duì)單篇文檔詞語(yǔ)的可視化、對(duì)多篇文檔詞語(yǔ)的可視化和對(duì)文檔間引文關(guān)系的可視化。如圖5所示,從多篇文本提出人物屬性的可視化,采用FacetAtlas算法將多個(gè)因素轉(zhuǎn)化成節(jié)點(diǎn),并用不同形狀、不同大小、不同顏色的線條連接,從而可以一目了然文章人物的性別、出生年份和愛(ài)好。此外,一些集成FacetAtlas的可視化工具還提供了更多的展示功能,如復(fù)雜網(wǎng)絡(luò)分析、群組劃分等[29]。如圖6所示是用CiteSpace軟件分析文獻(xiàn)可視化的例子。CiteSpace[30]是一款可視化文獻(xiàn)分析軟件,能夠顯示一個(gè)學(xué)科或知識(shí)域在一定時(shí)期發(fā)展的趨勢(shì)與動(dòng)向,形成若干研究前沿領(lǐng)域的演進(jìn)歷程。該軟件能夠提供很多可視化、交互功能,并支持中文語(yǔ)言展示,是一款主流的文獻(xiàn)可視化工具。
傳統(tǒng)的文本更多的是用統(tǒng)計(jì)的方法展示關(guān)鍵詞、主題詞以及它們的關(guān)聯(lián)、關(guān)系,因此前面介紹的幾乎都是與時(shí)間無(wú)關(guān)的方法,然而有很多文本信息是以流的方法保存和組織的,是與時(shí)間有關(guān)的文本,如Twitter熱點(diǎn)話題、搜索引擎的查詢(xún)?nèi)罩镜?。時(shí)間是文本的一個(gè)重要特性,在文獻(xiàn)的共引中已經(jīng)加入對(duì)時(shí)間的分析,即發(fā)表日期,因此研究文本內(nèi)容隨時(shí)間的變化也是文本可視化的重要方向。
圖5 性別、出生年份與愛(ài)好的FacetAtlas可視化
圖6 CiteSpace文獻(xiàn)共現(xiàn)可視化效果
添加時(shí)間維度后的文本可視化展示類(lèi)型有兩種:靜態(tài)展示與動(dòng)態(tài)展示。文本的靜態(tài)展示,一般是將關(guān)鍵詞按時(shí)間分布,如按順序展示TimeMines[30]、結(jié)合標(biāo)簽云展示SparkClouds[31],還有聚類(lèi)樹(shù)展示[32]、疊式圖展示[33]等;動(dòng)態(tài)展示文本信息,是指以動(dòng)畫(huà)或具有更新性能的展示方法,研究信息的傳播、流動(dòng)規(guī)律,如動(dòng)態(tài)呈現(xiàn)Twitter信息的TwitterScope[34]、TwitterMood[35]。將時(shí)間信息融入文本可視化的研究方向包括:添加時(shí)間軸、添加順序時(shí)間河、添加螺旋形時(shí)間流、與空間信息結(jié)合等。針對(duì)文本本身,展示方式又可以分為按主題變化、按內(nèi)容變化、按人物變化等。
基于時(shí)間的文本可視化也很關(guān)注展示的視覺(jué)效果,如使用不同的圖形展示不同的元素、使用不同的顏色標(biāo)注不同的主題、采用不同的塊代表不同的功能。這些展示不僅讓畫(huà)面更吸引人,而且增加可讀性,可以清晰地理解文本內(nèi)容的變化。如今,很多可視化工具都集成了多種展示功能,如TimeFlow[36]。TimeFlow能夠以多種形式展現(xiàn)文本內(nèi)容,如按時(shí)間流(timeline)方式、按日期(calendar)方式、按詞頻(bar graph)方式等,而且還提供多種交互功能,能夠讓用戶(hù)選擇展示的范圍。TimeFlow按時(shí)間展示關(guān)鍵詞時(shí),觀察界面的關(guān)鍵詞即可以理解文本內(nèi)容的變化,將鼠標(biāo)放在關(guān)鍵詞上即可展示這個(gè)詞語(yǔ)所在的文本名稱(chēng)。如圖7所示是按時(shí)間查看文本的分布情況,時(shí)間能夠精確到時(shí)分秒,這種展示很適合分析日志文件,如搜索引擎的點(diǎn)擊日志。
圖7 按時(shí)間查看文本的分布
用于文本可視化的工具有很多,每一種工具都有自己的優(yōu)點(diǎn),能夠在某一方面顯式地展現(xiàn)文本的內(nèi)容、結(jié)構(gòu)、關(guān)系,但它們使用的分析技術(shù)、設(shè)計(jì)理念和交互功能又有差異。從多個(gè)角度分析比較幾種工具的應(yīng)用場(chǎng)景,對(duì)比結(jié)果見(jiàn)表2。從表2看,標(biāo)簽云的可視化形式適用于展示文本中的一系列關(guān)鍵詞;樹(shù)圖由于其形狀特征,能夠用來(lái)展示文本主題的層次關(guān)系或主題關(guān)鍵詞;關(guān)聯(lián)關(guān)系則用到點(diǎn)、線,并用網(wǎng)狀的形式表現(xiàn)文本內(nèi)容的關(guān)系;結(jié)合時(shí)間的可視化則是將文本事件的序列進(jìn)展以動(dòng)態(tài)的形式呈現(xiàn)。這些工具各有各的好處,選擇適應(yīng)的場(chǎng)合能收到事半功倍的效果。
表2 文本可視化工具的比較
文本可視化是一個(gè)多學(xué)科交叉的研究方向,其集成了文本分析、數(shù)據(jù)挖掘、人機(jī)交互等學(xué)科的理論與方法,還增加了人類(lèi)心理學(xué)的概念,解決了文本可視化在圖形繪制、圖形展現(xiàn)和數(shù)據(jù)分析方面的眾多問(wèn)題;同時(shí)能更好地幫助用戶(hù)處理日益增長(zhǎng)的文本信息。未來(lái)可視化分析技術(shù)可改善現(xiàn)有布局算法,以提高實(shí)時(shí)的、大量的數(shù)據(jù)可視化效率,并且綜合運(yùn)用各種人際交互方法,提高展現(xiàn)效果,轉(zhuǎn)化成可規(guī)模化商業(yè)應(yīng)用的能力。本文通過(guò)調(diào)研各種中文文本可視化工具,分析各技術(shù)的分析方法、交互性能、使用對(duì)象等。
從這些工作來(lái)看,文本可視化研究取得了很豐富的成果,文本可視化技術(shù)已經(jīng)被廣泛使用。同時(shí),隨著情感分析、輿情分析技術(shù)的成熟,可視化技術(shù)將會(huì)進(jìn)一步發(fā)展。但也有很多問(wèn)題需在處理過(guò)程中加以考慮,如無(wú)縫融合信息可視化和數(shù)據(jù)分析技術(shù),如何更好地處理海量、實(shí)時(shí)分布的互聯(lián)網(wǎng)數(shù)據(jù)信息,這也將是文本可視化下一步的研究工作。有關(guān)社交網(wǎng)絡(luò)的文本挖掘研究正蓬勃發(fā)展中,未來(lái)將對(duì)現(xiàn)實(shí)世界產(chǎn)生巨大的作用。
1 Wise J A,Pennock K,Lantrip D,et al.Visualizing the non-visual:spatial analysis and interaction with information from text documents.Proceedings of information visualization,Atlanta,GA,USA,1995:51~58
2 http://ictclas.nlpir.org/,2014
3 http://www.ltp-cloud.com/,2014
4 http://nlp.stanford.edu/software/index.shtml,2014
5 http://code.google.com/p/fudannlp/,2014
6 Mladenic M G D.Visualization of news articles.http://ailab.ijs.si/dunja/SiKDD2004/Papers/GrobelnikMladenic-Contexter.pdf,2008
7 Sebastiani F.Machine learning in automated text categorization.ACM Computer Surveys,2002,34(1):1~47
8 Viegas F B,Wattenberg M.TIMELINES:tag clouds and the case for vernacular visualization.Interactions,2008,15(4):49~52
9 Viegas F B, Wattenberg M, Feinberg J. Participatory visualization with word.IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1137~1144
10 HearstM A.TileBars:visualization of term distribution information in full text information access.Proceedings of the SIGCHI Conference on Human Factors in Computing System,Austin,United States,1995:59~66
11 MillerM,WongP,Brewster M,etal.TOPICISLANDS-a wavelet-based text visualization system.Proceedings of IEEE Visualization,North Carolina,USA,1998:189~196
12 Havre S,Hetzler B,Nowell L.Theme River:visualization theme changes over time.Proceedings of IEEE Symposium on Information Visualization,Salt Lake City,UT,USA,2000:115~123
13 Leskovec J,Backstrom L,Kleinberg J M.Meme tracking and the dynamics of the news cycle.Proceedings of KDD 2009,Paris,France,2009:497~506
14 http://www.newsmap.jp,2014
15 Van Ham F,Wattenberg M,Viegas F B.Mapping text with phrase nets.IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1169~1176
16 Collins C,Carpendale S,Penn G.DocuBurst:visualizing document content using language structure.Computer Graphics Forum,2009,28(3):1039~1046
17 Wattenberg M,Fernanda B.The word tree,an interactive visual concordance.IEEE Transactions on Visualization and Computer Graphics,2008,14(6):1221~1228
18 Han J,Pei J,Yin Y,et al.Mining frequent patterns without candidate generation:a frequent-pattern tree approach.Data Mining and Knowledge Discovery,2004,8(1):53~87
19 Lin Y R,Sun J,Cao N,et al.Contextour:contextual contour visual analysis on dynamic multi-relational clustering.Proceedings of SDM 2010,Columbus,Ohio,2010
20 Cao N,Sun J,Lin Y R,etal.Facetatlas:multifaceted visualization forrich textcorpora.IEEE Transactions on Visualization Computer Graphic,2010,16(6):1172~1181
21 http://www.wordle.net/,2014
22 http://www.imagechef.com/ic/word_mosaic/,2014
23 http://tagul.com/,2014
24 http://www.cs.umd.edu/hcil/treemap-history/,2014
25 Jin L,Banks D C.Tennis Viewer:a browser for competition trees.IEEE Computer Graphics and Applications,1997,17(4):63~65
26 Shi K,Irani P,Li B.An evaluation of content browsing technique:for hierachica space:filling visualization.Proceedings of IEEE Symposium on Information Visualization,Los Alamitos:IEEE Computer Society Press,2005:81~88
27 http://d3js.org/,2014
28 Bederson B B,Shneiderman B,Wattenberg M.Ordered and quantum tree maps:making effective use of 2D space to display hierarchies.ACM Transactions on Graphics(TOG),2002,21(4):833~854
29 http://gephi.org/,2014
30 http://cluster.cis.drexel.edu/~cchen/citespace/,2014
31 Swan J,Jensen D.TimeMines:constructing time lines with statistical models of word usage.http://www.cs.cmu.edu/~dunja/KDDpapers/Swan_TM.pdf,2012
32 Lee B,Riche N H,Karlson A K,et al.Spark Clouds:visualizing trends in tag clouds.IEEE Transactions on Visualization and Computer Graphics,2010,16(6):1182~1189
33 Kienreich W,Sabol V,Granitzer M,et al.Infosky:a system for visual exploration of very large,hierarchically structured knowledge spaces.http://www.kde.cs.uni-kassel.de/ws/LLWA03/fgwm/Resources/FGWM03_03_Wolfgang_Kienreich.pdf,2012
34 Havre S,Hetzler B,Nowell L.ThemeRiver:visualizing theme changes over time.Proceedings ofIEEE Symposium on Information Visualization,Washington DC,IEEE Computer Society Press,2000:115~123
35 Gensner E R,Hu Y,North S C.Visualizing streaming text data with dynamic maps.http://arxiv.org/abs/1206.3980,2012
36 https://github.com/FlowingMedia/TimeFlow,2014
37 Mislove A,Lehmann S,Ahn Y Y,et al.Pulse of the nation:US mood throughout the day inferred from twitter.http://www.infosthetics.com/archives/2010/07/pulse_of_the_nation_us_mood_throughout_the_day_inferred_from_twitter.html,2012