劉世彬 包雪峰 劉央瑞 劉興彥 張 健
摘要:本文研究了采用可視化技術(shù)將海量抽象的網(wǎng)站相關(guān)數(shù)據(jù)轉(zhuǎn)換成圖像信息,從而方便研究者對這些數(shù)據(jù)的理解和處理。
關(guān)鍵詞:網(wǎng)絡(luò)技術(shù):信息可視化;海量數(shù)據(jù)
1引言
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展。從海量數(shù)據(jù)發(fā)現(xiàn)有用信息是很困難的,這就需要采用一種技術(shù)幫助人們來研究這些數(shù)據(jù),可視化技術(shù)便是一種很有效的方法。信息可視化可以定義為利用計算機(jī)幫助將抽象的不具有視覺形象的數(shù)據(jù)賦予視覺形象以便于人們理解和處理的一個過程。信息可視化技術(shù)就是將各類抽象的數(shù)據(jù)信息轉(zhuǎn)換成圖形信息,使研究者能真實地觀察他們對實際問題的模擬及處理結(jié)果,它是隨著計算機(jī)圖形學(xué)的成熟,高性能圖形工作站的普及以及人們運用計算機(jī)圖形表達(dá)各種信息的需要而發(fā)展起來的一門新興的高技術(shù)。
2信息可視化的處理過程
由于信息可視化是對不具有視覺形象的數(shù)據(jù)的可視化。它的原始信息本身是不具有圖形特征的,而且數(shù)據(jù)量是很大的,要直接從海量數(shù)據(jù)中發(fā)現(xiàn)有用的信息是十分困難的。因此需要將其進(jìn)行抽象處理轉(zhuǎn)換成圖形信息,用直觀和清楚的方式顯示出來,使用戶能方便地使用這些數(shù)據(jù)。信息可視化技術(shù)把這些數(shù)據(jù)轉(zhuǎn)變成人的視覺可以感受到的圖像。這些圖像可以將大量的抽象數(shù)據(jù)有機(jī)地組織在一起,并形象生動地顯示數(shù)據(jù)所表示的內(nèi)容及其之間的關(guān)系,從而提高了人們的洞察力。
可視化技術(shù)作用于科學(xué)研究的全過程。它從大量的原始數(shù)據(jù)中通過分析提取有效數(shù)據(jù)開始,經(jīng)過各種轉(zhuǎn)換生成圖形映射,并完成繪制圖像的過程。最終顯示出所繪制的圖像。
3可視化的基本原則
WWW領(lǐng)域內(nèi)的可視化有若干原則,主要包括布局、抽象、聚焦和交互性四個方面。
布局(Layout)——網(wǎng)絡(luò)信息可視化的最簡單的方法是這樣的:網(wǎng)站是一個圖形,有很多算法能畫出這樣的圖形來,選擇其中的一種或幾種并用它們畫出部分Web的圖形,這樣問題就解決了。但是這種方法并不適用。主要的原因是比例。圖形的繪制是一個成長的領(lǐng)域,有用的可視化表示法應(yīng)該是用盡可能少的節(jié)點和邊組成的圖形,但是能產(chǎn)生這種表示法的一般技術(shù)是不存在的。布局要基于任務(wù)。如果可視化的主要目的是幫助用戶以一種有組織的方式記錄某瀏覽時間段的瀏覽過的軌跡,使用分級布局方式是一種有效的方法。在這一領(lǐng)域內(nèi)很多原型采用的都是這種方式。
抽象(Abstraction)——在網(wǎng)絡(luò)信息可視化方面,抽象技術(shù)作用是非常顯著的,它可以將那些看上去很混亂的網(wǎng)絡(luò)進(jìn)行處理,使復(fù)雜網(wǎng)絡(luò)趨于結(jié)構(gòu)化。抽象原則通常是與聚類聯(lián)系在一起的,也就是說只有具有同樣特征或者同一類型的網(wǎng)頁才適用于抽象原則。例如:網(wǎng)絡(luò)導(dǎo)航生成器工具能按照結(jié)構(gòu)特點或者是內(nèi)容相關(guān)特性把節(jié)點分組,抽象成高級“簇”。分層和分類是提高可視化的最有效的方法之一,它在視覺上將各種類型的數(shù)據(jù)分成不同的層。在網(wǎng)絡(luò)信息可視化技術(shù)中,嵌套圖表的使用和動態(tài)地對可視化外觀進(jìn)行部分強(qiáng)調(diào)和淡化技術(shù)是完成分層所需要的部分基礎(chǔ)。
聚焦(FOCUS)——聚焦有兩種方法,一種方法是選擇顯示與目前任務(wù)相關(guān)的信息;另一種方法是強(qiáng)調(diào)顯示的某些部分,同時以淡化方式保留其他部分以便提供相關(guān)的上下文聯(lián)系。這也就是促成魚眼和其他強(qiáng)調(diào)技術(shù)的思想。
交互性(Interaction)——用戶不僅能觀看到繪制的圖形。而且能對圖形進(jìn)行一些主動的操作控制,這樣用戶獲得的信息會更多。在直接操作方面有很多方法可以使網(wǎng)絡(luò)可視化信息更豐富。
4兩種網(wǎng)絡(luò)技術(shù)中的信息可視化
綜合分析目前網(wǎng)絡(luò)技術(shù)中的信息可視化可以分為兩類:一類是基于網(wǎng)站結(jié)構(gòu)的可視化技術(shù);另一類是基于CUT的可視化技術(shù)。
4.1網(wǎng)站結(jié)構(gòu)的可視化技術(shù)
基于網(wǎng)站結(jié)構(gòu)的可視化技術(shù)可以對大型的網(wǎng)站進(jìn)行可視化。由于大型網(wǎng)站結(jié)構(gòu)復(fù)雜,涉及的網(wǎng)頁和鏈接成千上萬,要實現(xiàn)大型網(wǎng)站的可視化是非常困難的。必須采取適當(dāng)?shù)目梢暬夹g(shù)才能較好地達(dá)到網(wǎng)站可視化預(yù)期的目的。目前比較通用的技術(shù)有錐形樹、雙曲線瀏覽器、NicheWorks等。
(1)錐形樹技術(shù)適合層次樹。它將所有節(jié)點顯示在一個虛擬的房間中,每個節(jié)點和它的孩子節(jié)點的布局呈錐形。為了讓用戶可以觀察到所有的數(shù)據(jù),錐形是半透明的,而且層攻樹可以轉(zhuǎn)動。
(2)雙曲瀏覽器技術(shù)為了在有限的平面中顯示更多的節(jié)點,采用了廣角鏡的技術(shù)。節(jié)點的顯示空間根據(jù)它到焦點節(jié)點的距離而逐漸縮小。試驗結(jié)果表明它顯示的節(jié)點個數(shù)可以10倍于傳統(tǒng)的技術(shù)。用戶在觀察圖結(jié)構(gòu)的時候,可以使用鼠標(biāo)轉(zhuǎn)移焦點。
4.2基于CUT的可視化技術(shù)
基于CUT的可視化技術(shù)中的CUT是Content、Usage、Topology三個單詞的縮寫,Content指的是網(wǎng)頁內(nèi)容,Usage指的是訪問日志,Topology指的是網(wǎng)站結(jié)構(gòu),所以基于CUT的可視技術(shù)就是基于網(wǎng)頁內(nèi)容、訪問日志和網(wǎng)站結(jié)構(gòu)的可視化技術(shù)。目前基于CUT的可視化技術(shù)在很多工具的設(shè)計中得到應(yīng)用,比較典型的有:WebWiz、磁盤樹、WebPath等。
(1)WebWiz用二維方式直觀地把網(wǎng)站的結(jié)構(gòu)和日志文件中的網(wǎng)站訪問情況顯示出來。但是它只針對網(wǎng)頁中的HTML文件及其相互間的超鏈接。用節(jié)點表示HTML文件。用邊表示超鏈接,把邊的顏色、寬度和節(jié)點的顏色、寬度作為參數(shù)可以由用戶來設(shè)置。它在顯示網(wǎng)站使用情況時,可以選擇特定時間段的訪問圖像,也可以重新“播放”整個訪問過程。
(2)磁盤樹技術(shù)采用了2d平面繪制網(wǎng)站的樹狀結(jié)構(gòu),整個網(wǎng)站繪制成圓盤狀,根節(jié)點在中心,其他節(jié)點分布在不同的同心圓上。半徑和節(jié)點到根的路徑的長短成正比。并且把時間作為第三維,使網(wǎng)站圓盤排列在時間軸上(Timetube)。它把屬于不同時間段的網(wǎng)站結(jié)構(gòu)合并在一起,以不同的顏色標(biāo)注頁面的狀態(tài)。邊的寬度、亮度和頁面的訪問頻率成正比。