張 濤,劉夢奇,榮 美
(燕山大學 信息科學與工程學院,河北 秦皇島 066004)E-mail:zhtao@ysu.edu.cn
形式概念分析是一種對形式背景進行數(shù)據(jù)分析和規(guī)則提取的重要工具,目前,國內(nèi)外學者對形式概念分析的關注度越來越高且已經(jīng)成功應用于數(shù)據(jù)分析[1]、機器學習[2]、知識發(fā)現(xiàn)[3]、軟件工程[4]等領域.基于形式概念分析的認知研究也是本領域的重要方向[5],并取得了一定成果.
屬性拓撲(Attribute Topology)[6,7]是近年來形式概念分析領域出現(xiàn)的一種新型形式背景的直觀表示方法,屬性對象間用基本二元關系表示,構建與形式背景對應的屬性關聯(lián)拓撲網(wǎng)絡,以屬性為頂點,屬性對間的包含關系為權值,以加權圖的形式對形式背景進行刻畫,將屬性間的耦合關系和耦合強度直觀的表現(xiàn)在拓撲圖上[8,9].屬性拓撲在概念計算[10,11]、關聯(lián)關系發(fā)現(xiàn)[12]、因果分析[13]、認知模型構建[14,15]等領域都已有所發(fā)展.
但目前屬性拓撲的表示是二維的,二維平面的屬性拓撲對于屬性強度的描述存在局限性.二維屬性拓撲注重刻畫屬性結點和結點之間的關系,但是缺乏對屬性結點本身的描述,對屬性結點的強度表示不突出.因此,本文提出三維屬性拓撲的概念,同時對三維屬性拓撲的衰減特性進行了分析和證明,并將其應用于對人腦遺忘特性的可視化分析.
形式背景是形式概念分析的基本表示方法,其定義如下.
定義1[16].一個形式背景表示為K=(G,M,I),其中,G表示形式背景中所有對象的集合,M表示形式背景中所有屬性的集合,I?G×M表示對象與屬性之間的關系.(g,m)∈I或gIm表示對象g具有屬性m.
屬性拓撲是一種新型的具有可視性的形式背景表示方法,通過對屬性之間的二元關系的表示,構成網(wǎng)絡拓撲結構.為了更好地表示形式背景中屬性對間的各種關聯(lián)關系,現(xiàn)給出如下屬性拓撲相關定義:
定義2.形式背景K=(G,M,I),?mi,mj∈M且mi≠mj,形式背景K的屬性拓撲表示為AT=(V,Edge),其中V=M是屬性拓撲中的頂點集合,Edge是屬性拓撲邊的權重,Edge表示為:
(1)
通過以上分析可知,二維屬性拓撲可以對形式背景進行直觀地表示,但是現(xiàn)有的二維屬性拓撲無法表示屬性強度關系,為了描述各屬性的強度關系,現(xiàn)提出三維屬性拓撲的概念.
首先給出與三維屬性拓撲相關的基礎定義.
定義3.在屬性拓撲AT=(V,Edge)中,?mi,mj∈V且mi≠mj,屬性結點mi和mj間的相互依賴度Ix(mi,mj)為:
(2)
其中,g(mi)∩g(mj)表示mi與mj分別所屬對象集的交集,g(mi)表示mi所屬對象集,g(mj)表示mj所屬對象集,#(·)表示求集合·的大小.
定理1.相互依賴度Ix(mi,mj)和相互依賴度Ix(mj,mi)大小相等,即Ix(mi,mj)=Ix(mj,mi).
證明:
定義4.屬性強度:已知形式背景K=(G,M,I),對應屬性拓撲AT=(V,Edge),?mi,mj∈V且mi≠mj,屬性結點mj對應的相互依賴度Ix(m1,mj),Ix(m2,mj),…,Ix(mN,mj)的總和稱為屬性強度,表示為:
(3)
N為含屬性結點mj的屬性相互依賴度中,使得Ix(mi,mj)≠0的mi結點的個數(shù).
定義5.已知屬性拓撲AT=(V,Edge),?mj∈V,屬性拓撲中所有屬性強度的平均值稱為強度半徑,表示為:
(4)
對于二維屬性拓撲AT=(V,Edge),加入屬性強度,構成具有強度值的三維屬性拓撲,現(xiàn)給出如下三維屬性拓撲的定義.
定義6.形式背景K=(G,M,I),?mi,mj∈M且mi≠mj,形式背景K的三維屬性拓撲表示為AT=(V,Edge,Iv),其中V=M是屬性拓撲中的頂點集合,Edge是屬性拓撲邊的權重,Edge表示為:
(5)
Iv是各個頂點的強度集,Iv表示為:
Iv={I(m1),I(m2),…,I(mj),…,I(mn)}
(6)
屬性強度的加入,使原有二維屬性拓撲結構層級化,加入強度特性的三維屬性拓撲與傳統(tǒng)二維屬性拓撲的模型對比圖如圖1所示,圖1(a)為二維屬性拓撲模型,圖1(b)為三維屬性拓撲模型,其中,縱軸表示屬性強度.通過比較圖1(a)二維屬性拓撲模型和圖1(b)三維屬性拓撲模型可以看出,二維屬性拓撲的各屬性位于同一平面,而三維屬性拓撲中,由于各屬性的強度不同,屬性呈現(xiàn)在不同的平面,強度大的屬性位于強度小的屬性的上層.
圖1 二維屬性拓撲與三維屬性拓撲對比模型圖Fig.1 Comparison model diagrams between two-dimensional attribute topology and three-dimensional attribute topology
由二維屬性拓撲及三維屬性拓撲的定義,性質1顯然成立.
性質1.二維屬性拓撲AT=(V,Edge)為三維屬性拓撲AT=(V,Edge,Iv)在xOy平面的投影.
3.2.1 時間特性下三維屬性拓撲強度分析
三維屬性拓撲的衰減特性體現(xiàn)在不同強度的屬性位于不同的強度層級.隨著時間的流逝,屬性進行衰減并分層.在三維屬性拓撲AT=(V,Edge,Iv)的基礎上加入時間特性,表示為:ATt=(Vt,Edget,Iv).
加入時間特性的三維屬性拓撲ATt使原三維屬性拓撲AT的強度特性會隨著時間發(fā)生變化,同時,三維屬性拓撲中的屬性分為不同的層級,三維屬性拓撲中的分層表示模型如圖2所示.
圖2 三維屬性拓撲分層表示模型Fig.2 Three-dimensional attribute topology hierarchical representation model
本文中,考慮四個層級,四個層級代表四個不同的強度,分別為初始層Layerori、一級衰減層Layerfir、二級衰減層Layersec和三級衰減層Layerthi.其中,初始層中包含原始三維屬性拓撲中的所有屬性.
屬性在衰減過程中,屬性強度產(chǎn)生變化,變化是通過對不同層級的屬性進行加權處理得到的,現(xiàn)給出衰減系數(shù)的定義,用來分析屬性強度的變化.
定義7.衰減系數(shù)χ(Layerl)與時間t的關系滿足:
χ(Layerl)=λt
(7)
0<λ<1,χ(Layerl)即l層的衰減系數(shù).
屬性初始的狀態(tài)為全部屬性位于同一層級,此時屬性拓撲中的強度層級總數(shù)L=1,L表示強度級數(shù)總數(shù).
定義8.層級屬性強度:當強度層級總數(shù)L>1時,三維屬性拓撲AT=(V,Edge,Iv),mi∈V,屬性結點mj層級屬性強度表示為:
(8)
其中,p為l層中使得Ix(mi,mj)≠0的屬性結點mi個數(shù),q為l+1層中使得I(mi,mj)≠0的屬性結點mi個數(shù),χ(Layer|mi)表示mi所在強度層級中的衰減系數(shù).
當強度層級總數(shù)L>1時,各層屬性強度平均值在該層單獨計算,有如下定義:
定義9.三維屬性拓撲AT=(V,Edge,Iv)中,mi∈V且mi∈{∧Layerl},當強度層級總數(shù)L>1時,層級屬性強度半徑為在位于本層中屬性的屬性強度的平均值,表示為:
(9)
在不同時刻t0,t1,t2,t3下,對應的屬性拓撲分別為:
ATt0=(Vt0,Edget0,Iv),ATt1=(Vt1,Edget1,Iv)
ATt2=(Vt2,Edget2,Iv),ATt3=(Vt3,Edget3,Iv)
不同時刻的層級分布示意圖如圖3所示.
3.2.2 三維屬性拓撲的層級衰減
根據(jù)對三維屬性拓撲中屬性強度特性和時間特性的分析,隨著時間的流逝,不同強度的屬性分布于不同的強度層級,三維屬性拓撲會呈現(xiàn)動態(tài)的結構變化.
圖3 屬性層級分布示意圖Fig.3 Attribute hierarchy distribution diagram
對于原始三維屬性拓撲AT=(V,Edge,Iv),?mi∈V,mi∈{∧Layerori},其中{∧Layerori}表示位于初始層的屬性集合.對當前強度層級的屬性強度和強度半徑進行大小對比,依此判定某屬性在下一個時刻發(fā)生的層級變化情況,判定依據(jù)如以下分層運算規(guī)則所示:
三維屬性拓撲AT=(V,Edge,Iv),?mi∈V,若:
由分層運算規(guī)則可知,tn時刻某強度層級的屬性及其所處層級在tn+1時刻有兩種去向,一種在tn+1時刻仍處于該層,另一種下降一個層級,下面對屬性的兩種去向進行分析.
1)設屬性強度層級在tn~tn+1(n=0,1,2,3)時間內(nèi)平移過程表示為:
2)設屬性強度層級在tn~tn+1(n=0,1,2,3)時間內(nèi)下降過程表示為:
其中,l+1層為l層降低一層后的層級,{∧Layerl|mi↓}tn表示tn時刻l層屬性mi強度層級下降的屬性集合,{∧Layerl+1}tn+1表示tn+1時刻l+1層屬性集合,得到tn+1時刻,{∧Layerl|mi↓}tn?{∧Layerl+1}tn+1.
證明:該性質易由分層運算規(guī)則證明.
□
性質4.{∧Layerl}tn∩{∧Layerk}tn=φ,k≠l.
□
衰減分層流程圖如圖4所示.
圖4 衰減分層流程圖Fig.4 Attenuation hierarchical flowchart
不同時刻屬性分層情況不同,經(jīng)過如圖4所示屬性衰減過程后,屬性強度在衰減過程中發(fā)生變化,二維平面的屬性拓撲呈現(xiàn)三維結構,更新為三維屬性拓撲.隨著時間的流逝,屬性強度發(fā)生改變同時屬性層級結構也隨之發(fā)生改變.
認知科學的研究認為,人腦的記憶和遺忘是相輔相成的,所有的信息在神經(jīng)系統(tǒng)出發(fā)后都會進入遺忘過程[17].遺忘是衰減的一種表現(xiàn)形式,同時,屬性拓撲在遺忘過程中存在遺忘模型,因此本文以人腦遺忘為例對三維屬性拓撲的衰減特性進行分析表示.
為了驗證三維屬性拓撲對遺忘分析的可行性,本文選取心理學記憶與遺忘的例子作為樣本,從人腦遺忘的數(shù)據(jù)角度進行分析,通過實驗對其進行分析驗證.
首先選取實驗的被試者,被試者為燕山大學本科生、研究生共65人(其中男生28人,女生37人),平均年齡23.84歲,視力或矯正視力正常.其次,根據(jù)《現(xiàn)代漢語常用詞頻詞典(音序部分)》選取中等頻率雙字名詞[18]共8個詞,包括:白色、棉花、柔軟、土壤、溫暖、信封、觸摸和純樸.
實驗開始,被試者觀看寫有以上8個詞語的卡片并記憶,隨后收回卡片,記錄不同被試者對8個詞語的記憶程度,記憶程度以記憶系統(tǒng)中記憶值[19]來評估.此時取t0=0,為被試者記憶的初始結果,并將其詳細記錄.由于數(shù)據(jù)龐大,為描述簡便,如表1所示隨機選取8位被試者原始數(shù)據(jù)進行分析,并將所有數(shù)據(jù)中大于或等于平均值的詞語所對應的記憶值賦值為1,否則賦值為0,得到經(jīng)過二值化處理后的數(shù)據(jù)如表2所示.
對原始屬性拓撲進行以天為單位的屬性遺忘分析,令t0=0,t1=1,t2=2,t3=3,本實驗中取λ=0.5.由公式(7)求得各時刻各層級的衰減系數(shù),根據(jù)公式(2)~公式(4)求得各詞語的屬性強度及強度半徑,并根據(jù)分層運算規(guī)則得到各個時刻詞語的狀態(tài)變化情況.
表1 部分原始數(shù)據(jù)Table 1 Partial raw data
表2 處理后的部分原始數(shù)據(jù)Table 2 Partial data after processing
t0=0時有且僅有一個初始層級,“白色”、“棉花”、“柔軟”、“土壤”、“溫暖”、“信封”、“觸摸”和“純樸”均位于初始層;t1=1時刻“白色”、“棉花”、“柔軟”、“信封”和“觸摸”保持在初始層不變,“土壤”、“溫暖”和“純樸”下降到一級衰減層,;t2=2時刻“白色”、“棉花”、“信封”保持在初始層不變,“柔軟”、 “觸摸”、 “溫暖”位于一級衰減層,“土壤”、 “純樸”下降到二級衰減層;t3=3時刻“白色”、“棉花”保持在初始層不變,“信封”、“觸摸”位于一級衰減層,“純樸” 、“柔軟”、“溫暖”位于二級衰減層,“土壤”下降到三級衰減層.不同時刻各個詞語的各項數(shù)據(jù)及狀態(tài)變化如表3~表6所示.
表3 t0=0時刻詞語狀態(tài)Table 3 Word status at t0=0
經(jīng)過從初始狀態(tài)到t3=3時刻的衰減,三維屬性拓撲更新為四個強度層級,整個衰減過程強度層級分布圖如圖5所示.
對65位被試者在3天之后對8個詞語的記憶情況進行統(tǒng)計,由于篇幅所限,65位被試者經(jīng)過3天記憶衰減后記憶值匯總表格過大,表7只列出了表1中8位被試者的記憶值.
表4 t1=1時刻詞語狀態(tài)Table 4 Word status at time t1=1
表5 t2=2時刻詞語狀態(tài)Table 5 Word status at time t2=2
對65位被試者遺忘后記憶值計算其平均值,得到如表8所示結果,為了方便此結果與三維屬性拓撲衰減結果的對比分析,需要對表6中三維屬性拓撲衰減的強度值進行處理,對其增加兩個數(shù)量級,以將強度值調整到合適范圍,得到圖6所示對比結果,其中灰色柱體表示為全部被試者對各個詞語的記憶平均值,黑色柱體則表示通過三維屬性拓撲衰減方法得到的記憶強度值調整數(shù)量級后的數(shù)值.
表6 t3=3時刻詞語狀態(tài)Table 6 Word status at time t3=3
圖5 衰減過程強度層級分布Fig.5 Strength level distribution of attenuation process
通過圖6中心理學的記憶與遺忘實驗得到的記憶值和使用三維屬性拓撲衰減方法所得數(shù)據(jù)的對比分析,可以看出,兩組記憶結果在整體變化上呈現(xiàn)大致相同的趨勢,且單個詞語的記憶分析也趨向相同,如詞語“棉花”在兩組結果中均為記憶最強者,詞語“土壤”均為記憶最弱者.由于未考慮個體差異,導致實驗得到的結果與通過三維屬性拓撲衰減方法得到的結果存在些許偏差,但是整體趨勢基本吻合.
通過上述分析,可以看到人腦記憶隨著時間的流逝呈現(xiàn)衰減狀態(tài).通過人腦遺忘特性對三維屬性拓撲衰減進行直觀表示,讓遺忘可視化且有預見性,比如在學習中,對于易遺忘的知識做到重視,及時強化鞏固,以提高學習效率.本文對于記憶實驗得到的詞語記憶結果仍具有片面性,如個體情緒、環(huán)境影響等因素,還需要結合更多的研究對象、記憶目標對象進行驗證,因此有關大數(shù)據(jù)量的三維屬性拓撲的衰減將是之后研究的方向之一.
表7 部分被試者記憶衰減后記憶值Table 7 Memory value of some subjects after memory attenuation
表8 全部被試者遺忘后記憶平均值Table 8 Average memory of all subjects after forgetting
圖6 各詞語遺忘后記憶平均值與三維屬性拓撲衰減記憶強度對比Fig.6 Comparison of memory average and Three-dimensional attribute topological attenuation memory intensity after word forgetting
本文提出以三維屬性拓撲為基礎的衰減特性分析方法,根據(jù)屬性強度對三維屬性拓撲進行分層,從認知與記憶網(wǎng)絡的角度說明其認知意義,并給出實驗加以驗證.通過人腦遺忘實驗挖掘屬性間的內(nèi)在聯(lián)系,并對實驗數(shù)據(jù)進行整理和分析,實驗結果表明,以三維屬性拓撲為基礎模擬人腦遺忘過程的方案具有可行性,三維屬性拓撲的衰減基本符合人腦遺忘過程,同時,三維結構的衰減過程使遺忘過程可視化.
本文是對三維屬性拓撲衰減特性的研究,探討了三維屬性拓撲的衰減特性,并結合屬性遺忘與人腦認知的實際意義,為屬性拓撲減量式結構分析提供一種思路和方法.