美子, , ,
(1.上海師范大學(xué) 信息與機(jī)電工程學(xué)院,上海 200234;2.泰山護(hù)理職業(yè)學(xué)院 公共教學(xué)部計(jì)算機(jī)教研室,泰安 271000)
一種基于語(yǔ)義的網(wǎng)絡(luò)信息過(guò)濾三層模型設(shè)計(jì)
李美子1,李欣2*,潘建國(guó)1,沈滌1
(1.上海師范大學(xué) 信息與機(jī)電工程學(xué)院,上海200234;2.泰山護(hù)理職業(yè)學(xué)院 公共教學(xué)部計(jì)算機(jī)教研室,泰安271000)
提出了一種面向網(wǎng)絡(luò)信息的層次過(guò)濾模型及其體系架構(gòu),該模型分為本體過(guò)濾層、需求過(guò)濾層和興趣過(guò)濾層.本體過(guò)濾層中,利用本體為基礎(chǔ)對(duì)信息內(nèi)容進(jìn)行語(yǔ)義描述,實(shí)現(xiàn)信息的計(jì)算機(jī)理解與過(guò)濾;在需求過(guò)濾層,模型通過(guò)理解用戶所提出的需求中所包含的語(yǔ)義,進(jìn)而更加準(zhǔn)確地通過(guò)過(guò)濾規(guī)則進(jìn)行信息流過(guò)濾;在興趣過(guò)濾層,用戶興趣通過(guò)特定方式表達(dá),并通過(guò)語(yǔ)義相似度計(jì)算實(shí)現(xiàn)第三過(guò)濾層.
語(yǔ)義; 信息過(guò)濾; 層次模型; 本體
面對(duì)大數(shù)據(jù)時(shí)代的信息海洋,人們往往面臨著“信息過(guò)載、信息迷航”等問(wèn)題.信息過(guò)濾技術(shù)為用戶提供了從動(dòng)態(tài)海量信息中選擇出滿足用戶需求的信息的能力[1-3].這種個(gè)性化的服務(wù)方式使用戶真正擺脫了信息海洋的困境,從根本上解決了主動(dòng)式信息服務(wù)的問(wèn)題.
本文作者提出并設(shè)計(jì)了一個(gè)引入了三過(guò)濾層(Semantic based Three-layer Web Information Filtering Model,SFM)方法的網(wǎng)絡(luò)信息過(guò)濾系統(tǒng).SFM系統(tǒng)主要面向來(lái)自網(wǎng)絡(luò)的各類(lèi)信息,經(jīng)過(guò)需求過(guò)濾、興趣過(guò)濾和語(yǔ)義近似計(jì)算過(guò)濾3個(gè)階段實(shí)現(xiàn)比傳統(tǒng)的信息過(guò)濾技術(shù)更好的過(guò)濾效果.
SFM的核心思想是:將信息過(guò)濾的流程分為3個(gè)層次,即本體過(guò)濾層、需求過(guò)濾層和興趣過(guò)濾層;其過(guò)程包括:在本體過(guò)濾層,將各類(lèi)網(wǎng)絡(luò)信息通過(guò)形式化語(yǔ)義描述,并精確地得到本體標(biāo)注的第一層過(guò)濾;在需求過(guò)濾層,模型通過(guò)理解用戶所提出的需求中所包含的語(yǔ)義,進(jìn)而更加準(zhǔn)確地通過(guò)過(guò)濾規(guī)則進(jìn)行信息流過(guò)濾;在興趣過(guò)濾層,用戶興趣通過(guò)特定方式表達(dá),并通過(guò)語(yǔ)義相似度計(jì)算實(shí)現(xiàn)第三層過(guò)濾.
1.1SFM的系統(tǒng)的總體設(shè)計(jì)
SFM模型主要框架分為:用戶模板空間、領(lǐng)域本體、信息流空間、信息過(guò)濾核心模塊和人機(jī)交互模塊等5個(gè)部分,其組成示意圖如圖1所示.
圖1 SFM模型總體架構(gòu)
用戶模板(Profile)空間:用戶模板空間主要由用戶需求、用戶屬性以及用戶興趣庫(kù)組成.用戶模板空間從用戶的操作行為、用戶的閱讀習(xí)慣、用戶歷史過(guò)濾記錄和新獲得的訓(xùn)練樣本中得到符合用戶過(guò)濾的興趣等,從而更新用戶主題和用戶興趣庫(kù).
領(lǐng)域本體:領(lǐng)域本體是SFM中用來(lái)進(jìn)行語(yǔ)義表示的關(guān)鍵,同時(shí)也是對(duì)獲取的信息流進(jìn)行計(jì)算機(jī)語(yǔ)義理解的核心.領(lǐng)域本體對(duì)特定領(lǐng)域中所包含的知識(shí)、術(shù)語(yǔ)等進(jìn)行形式化、概念化的描述;同時(shí),本體作為計(jì)算機(jī)實(shí)現(xiàn)語(yǔ)義理解的基礎(chǔ)手段,使信息中的知識(shí)在最大程度上得到語(yǔ)義描述,形成內(nèi)涵、外延等具體語(yǔ)義形式,從而使機(jī)器能夠自動(dòng)理解信息中所表達(dá)的內(nèi)容.
信息空間:信息空間即網(wǎng)絡(luò)信息流在SFM中未被過(guò)濾前所存在的儲(chǔ)存空間.信息流空間依據(jù)領(lǐng)域本體定義的不同類(lèi)別,將信息流中不同信息劃分為若干個(gè)由信息領(lǐng)域本體描述的語(yǔ)義;進(jìn)而在信息內(nèi)容特征語(yǔ)義獲取模塊中組織成為具有特征的語(yǔ)義向量,利用主特征和副特征來(lái)描述信息,最后進(jìn)行信息語(yǔ)義擴(kuò)展.
信息過(guò)濾核心:信息過(guò)濾核心是利用現(xiàn)有的用戶興趣庫(kù),結(jié)合用戶需求,對(duì)信息流空間中處理完畢的動(dòng)態(tài)信息流進(jìn)行信息過(guò)濾的過(guò)程,其工作原理為本文作者給出的三層信息過(guò)濾方法.
人機(jī)交互模塊:人機(jī)交互模塊是為用戶提供了可供用戶輸入具體信息需求的界面.針對(duì)用戶輸入的需求,系統(tǒng)將需求進(jìn)行語(yǔ)義化處理,通過(guò)粒度分析獲得需求語(yǔ)義,提供給信息過(guò)濾核心;同時(shí),SFM的在信息過(guò)濾過(guò)程中的有兩種交互方式:根據(jù)用戶具體需求過(guò)濾以及根據(jù)用戶瀏覽歷史、訓(xùn)練樣本過(guò)濾.
1.2SFM的三過(guò)濾層結(jié)構(gòu)
圖2 SFM三過(guò)濾層圖
SFM采用了三過(guò)濾層的結(jié)構(gòu),將信息分類(lèi)、信息過(guò)濾、冗余消除等結(jié)合在一起,如圖2所示.
本體過(guò)濾層:本體過(guò)濾層核心任務(wù)在于將網(wǎng)絡(luò)中雜亂無(wú)章的信息流按照一定的領(lǐng)域進(jìn)行分類(lèi).本體過(guò)濾層的意義在于,去除了那些不符合SFM擁有理解能力的信息,使保留下來(lái)的信息具備了領(lǐng)域語(yǔ)義.
需求過(guò)濾層:需求過(guò)濾層主要通過(guò)用戶需求粒度分析、用戶需求語(yǔ)義獲取以及信息需求過(guò)濾等方面的工作,將本體過(guò)濾層中已經(jīng)被初步處理的信息進(jìn)行分離,獲得能夠符合用戶需求的信息.
興趣過(guò)濾層:興趣是對(duì)用戶以往進(jìn)行的閱讀偏好、習(xí)慣等各種用戶個(gè)性化信息的簡(jiǎn)稱(chēng).SFM通過(guò)用戶模板空間和人機(jī)交互模塊,為用戶提供了個(gè)性化的輸入窗口.SFM利用用戶興趣語(yǔ)義,將符合用戶興趣要求的信息盡量往前排列,同時(shí)將用戶歷史上不關(guān)心的信息進(jìn)行后置或者刪除處理,從而得到最可能符合用戶要求的信息.
2.1本體層信息過(guò)濾方法
2.1.1 信息領(lǐng)域本體相關(guān)概念與語(yǔ)義相似度計(jì)算
首先,定義SFM中的信息領(lǐng)域本體如下:
定義1信息領(lǐng)域本體IO是一個(gè)七元組:
IO=(C,SR,IR,P,SF,V,I),
(1)
其中C表示領(lǐng)域本體的概念名;SR表示概念在該領(lǐng)域中的上下位結(jié)構(gòu)性關(guān)系,也就是父子關(guān)系;IR表示概念與概念之間存在的非結(jié)構(gòu)性關(guān)系;P表示描述概念所使用的屬性;SF是一個(gè)二元組SF=(O,x),用以表示該概念與其他本體O之間存在的語(yǔ)義關(guān)聯(lián)度x;V為該概念的同義詞典;I表示屬于概念的實(shí)例.
每一條信息如果看作是對(duì)一個(gè)事件或一個(gè)狀態(tài)的描述,那么描述的格式就應(yīng)該有結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化等各種方式.本體就是一種提供結(jié)構(gòu)化知識(shí)的最好工具,因此對(duì)于信息過(guò)濾而言,所處理的最佳對(duì)象就是結(jié)構(gòu)化信息.在處理以前,就需要將非結(jié)構(gòu)化或者半結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息.這個(gè)過(guò)程可以看作是對(duì)信息內(nèi)容的特征提取.
定義2對(duì)于一個(gè)給定的閾值,如果在信息中出現(xiàn)的概念相對(duì)于該文檔的重要度大于該閾值,那么這個(gè)概念可以看作是信息的主特征,記做MC;否則,該概念記為信息副特征,記為NC;信息的特征向量C為由主特征和副特征組成的向量集合,表示為C=(MC,NC).
信息內(nèi)容的特征向量可以表示為如下特征:
F(c)={((mc1,mr1),(mc2,mr2),…,(mci,mri)),((nc1,nr1),(nc2,nr2),…,(ncj,nrj))},
(2)
其中F(c)是信息的特征向量集合;mci是第i個(gè)主特征項(xiàng),mri是該主特征項(xiàng)的權(quán)重;ncj是第j的副特征項(xiàng),nrj是該副特征項(xiàng)的權(quán)重.關(guān)于權(quán)重計(jì)算的方法,作者在[8]中詳細(xì)闡明.
當(dāng)信息特征已經(jīng)確定之后,那么特征之間的相似度就可以看做是兩個(gè)特征在本體中的語(yǔ)義相似度的計(jì)算.下面給出兩個(gè)概念的語(yǔ)義相似度計(jì)算方法.
定義3本體層次樹(shù)中兩個(gè)概念的語(yǔ)義距離為同一本體中不同類(lèi)間關(guān)系鏈中最短關(guān)系鏈長(zhǎng)度的一種度量方法,與相似度的對(duì)應(yīng)關(guān)系需要滿足以下條件:
1) 兩個(gè)概念語(yǔ)義距離為0時(shí),其相似度為1;
2) 兩個(gè)概念語(yǔ)義距離為無(wú)窮大時(shí),其相似度為0;
3) 兩個(gè)概念語(yǔ)義距離越大,其相似度越小.
定義5在本體層次樹(shù)中,概念在層次樹(shù)中越深,語(yǔ)義距離越小.概念的分類(lèi)越細(xì)致,語(yǔ)義距離越小.概念C在樹(shù)中的深度D(c)為該節(jié)點(diǎn)到樹(shù)根的最短路徑,將從概念C引出的邊的權(quán)值記為概念C的權(quán)值w(c),C的父節(jié)點(diǎn)記為p(c),wid(c) 為概念C的寬度,即其孩子節(jié)點(diǎn)的數(shù)目.定義概念的權(quán)重計(jì)算公式為:
(3)
定義6語(yǔ)義距離與相似度相互轉(zhuǎn)換公式為:
(4)
其中t為一個(gè)可調(diào)節(jié)的參數(shù).
2.1.2 基于語(yǔ)義相似度的本體過(guò)濾層
本體層信息過(guò)濾實(shí)現(xiàn)在信息語(yǔ)義分類(lèi)的基礎(chǔ)上,抽取出SFM能夠理解其語(yǔ)義的信息,將這些信息作為本體概念的實(shí)例.本體過(guò)濾層的主要流程為:
1) 對(duì)于信息的一個(gè)特征t,搜索其在信息領(lǐng)域本體庫(kù)中的本體Oi(0
3) 搜索信息領(lǐng)域本體庫(kù)中所有本體,直到所有概念都獲取完畢;
4) 對(duì)該信息的所有主特征進(jìn)行上述步驟的計(jì)算;
5) 將沒(méi)有成為本體庫(kù)中概念的實(shí)例的信息直接存入一級(jí)緩存庫(kù)中.
2.2用戶需求層信息過(guò)濾
用戶的需求是由用戶主動(dòng)輸入得到,有若干個(gè)特征詞組成的表達(dá)式.用戶需求由若干特征詞組成,這些需求定義如下:
定義7用戶需求是指用戶所關(guān)心的概念,用戶需求特征詞可以表示為一個(gè)序?qū)i|wi,其中Ti表示特征詞的概念,wi表示該需求特征詞的用戶關(guān)心度[8].
用戶需求進(jìn)行本體解釋的原理如下:輸入后,首先為用戶建立一個(gè)需求特征,即對(duì)用戶輸入的特征詞進(jìn)行本體標(biāo)注,從而使計(jì)算機(jī)能夠利用自有的信息領(lǐng)域本體對(duì)用戶輸入的主題進(jìn)行一定程度的理解.用戶需求特征詞即為本體中的概念名.
經(jīng)過(guò)本體過(guò)濾層獲得信息流中的被識(shí)別的信息,SFM通過(guò)需求特征和信息特征之間的相似度計(jì)算進(jìn)行過(guò)濾.需求過(guò)濾層的工作流程如下:
3) 將該需求特征與信息中所有主特征和副特征進(jìn)行相似計(jì)算,記需求特征x的所有可記錄相似度為f(x)=a∑l(x)+b∑l(x)(公式中a,b為調(diào)節(jié)參數(shù),分別代表與x所計(jì)算的信息特征為主特征和副特征的參數(shù),并且a+b=1);
4) 將所有需求特征與信息中所有特征進(jìn)行計(jì)算;
5) 需求與信息的語(yǔ)義相似度為∑f(x);
6) 若∑f(x)≥θ(θ為預(yù)設(shè)過(guò)濾閾值),則將該信息存入緩存數(shù)據(jù)庫(kù),否則將該信息丟棄.
2.3基于用戶興趣語(yǔ)義的過(guò)濾
首先定義用戶興趣表示方法如下:
定義8用戶興趣是若干用戶主題組成的對(duì)信息的復(fù)雜心態(tài).用戶興趣形式化表示為:
I=<(T1|w1,T2|w2,T3|w3,…,Ti|wi),F>,
(5)
其中主題序?qū)Ρ硎九d趣具體的主題組成,斷言公式集合F是指主題的邏輯組合方式.
SFM將根據(jù)用戶歷史上對(duì)信息過(guò)濾的經(jīng)驗(yàn)進(jìn)行過(guò)濾,找出盡量符合用戶興趣和習(xí)慣的信息.
假設(shè)一個(gè)用戶興趣為I=<(T1|w1,T2|w2,…,Ti|wi,…,Tn|wn),F>,其中Ti表示主題的概念,wi表示該主題的用戶關(guān)心度,斷言公式集合F是指主題之間的組合方.信息的特征為F(c)={((mc1,mr1),(mc2,mr2),…,(mci,mri)),((nc1,nr1),(nc2,nr2),…,(ncj,nrj))}其中F(c)是信息的特征向量集合;mci是第i個(gè)主特征項(xiàng),mri是該主特征項(xiàng)的權(quán)重;ncj是第j的副特征項(xiàng),nrj是該副特征項(xiàng)的權(quán)重.過(guò)濾算法流程如下:
1) 計(jì)算sim(Ti,mcj),進(jìn)而計(jì)算λi=(sim(Ti,mcj)+wi+mrj)/3;
2) 計(jì)算sim(Ti,ncj),進(jìn)而計(jì)算σi=(sim(Ti,ncj)+wi+nrj)/3;
3) 設(shè)斷言公式為析取范式,其形式為(T1∪…∪Tm)∩Ti∩…∩Tn,則信息與用戶需求的語(yǔ)義相似度為:
(6)
其中η∈[0,1]為預(yù)設(shè)調(diào)節(jié)參數(shù);
4) 根據(jù)用戶設(shè)定進(jìn)行信息推送.
本文作者設(shè)計(jì)了針對(duì)計(jì)算機(jī)領(lǐng)域內(nèi)的論文自動(dòng)過(guò)濾模型,該模型通過(guò)構(gòu)建計(jì)算機(jī)領(lǐng)域本體進(jìn)行知識(shí)表示,提供語(yǔ)義支持;利用了中科院計(jì)算所的分類(lèi)詞典進(jìn)行中文分詞,從而獲取過(guò)濾需求的語(yǔ)義;采用三層過(guò)濾模型進(jìn)行論文的過(guò)濾.
3.1基于本體的論文過(guò)濾實(shí)驗(yàn)
為了驗(yàn)證所提出的依賴(lài)于本體進(jìn)行信息過(guò)濾的效果,采用來(lái)自互聯(lián)網(wǎng)的中文論文數(shù)據(jù)源進(jìn)行測(cè)試.測(cè)試的中文論文分為兩組:第一組300篇,全部為計(jì)算機(jī)領(lǐng)域的學(xué)術(shù)論文;第二組300篇,其中150篇為計(jì)算機(jī)領(lǐng)域的論文,150篇為計(jì)算機(jī)領(lǐng)域與非計(jì)算機(jī)領(lǐng)域的交叉學(xué)科論文(包括30篇非計(jì)算機(jī)領(lǐng)域論文),并且這600篇論文不重復(fù).分別記錄了兩組論文的過(guò)濾識(shí)別率和錯(cuò)誤率,如圖3所示.
圖3 基于本體的信息過(guò)濾分析
從圖3中看出,依賴(lài)于本體進(jìn)行信息過(guò)濾基本能夠?qū)崿F(xiàn)不同領(lǐng)域論文的過(guò)濾.然而兩組論文過(guò)濾平均識(shí)別率分別為55.2%和50.6%,錯(cuò)誤率分別為10.7%和17.9%,可見(jiàn)僅依賴(lài)與本體進(jìn)行過(guò)濾,其性能仍有待提升.分析原因在于:本體設(shè)計(jì)缺陷,即由于本體中所包含的專(zhuān)業(yè)術(shù)語(yǔ)數(shù)量有限,并不一定能夠準(zhǔn)確地識(shí)別出論文中出現(xiàn)的各類(lèi)詞匯.這種情況主要有兩種:一是術(shù)語(yǔ)識(shí)別錯(cuò)誤,二是術(shù)語(yǔ)缺失.
3.2信息過(guò)濾性能分析
為了驗(yàn)證該原型系統(tǒng)的信息過(guò)濾效果,設(shè)計(jì)了利用百度搜索引擎、Google學(xué)術(shù)論文搜索引擎、CNKI中文學(xué)術(shù)引擎以及所提出原型進(jìn)行對(duì)比的實(shí)驗(yàn).實(shí)驗(yàn)中,用戶針對(duì)同樣的計(jì)算機(jī)論文需求進(jìn)行過(guò)濾.在百度搜索引擎和Google學(xué)術(shù)論文中,記錄前100個(gè)記錄中符合用戶興趣的主題數(shù)量;在CNKI中文學(xué)術(shù)引擎中,依據(jù)輸入需求記錄全部搜索記錄中符合用戶需求的論文數(shù);在設(shè)計(jì)的原型中記錄全部搜索中符合用戶需求的論文數(shù)(最優(yōu)數(shù)據(jù)預(yù)先人工設(shè)定).
圖4 SFM信息過(guò)濾性能分析
實(shí)驗(yàn)進(jìn)行了8組,每組進(jìn)行20次需求過(guò)濾,并針對(duì)每組記錄平均準(zhǔn)確率.如圖4中所示,由于本設(shè)計(jì)的原型采用了計(jì)算機(jī)領(lǐng)域本體的語(yǔ)義支持,因此其過(guò)濾效果優(yōu)于其他方案.同時(shí),本設(shè)計(jì)的原型系統(tǒng)由于存在一定的用戶積累效果,準(zhǔn)確率逐次提高,用戶查看論文花費(fèi)的時(shí)間相對(duì)較少.
本文作者提出了一種基于語(yǔ)義的信息三層過(guò)濾系統(tǒng)SFM,并且詳細(xì)介紹了該系統(tǒng)的框架結(jié)構(gòu)設(shè)計(jì).SFM對(duì)信息的過(guò)濾主要可以分為本體過(guò)濾層、需求過(guò)濾層和興趣過(guò)濾層.這三層過(guò)濾的主要功能分別對(duì)應(yīng)于信息過(guò)濾需要的領(lǐng)域分類(lèi)、用戶要求和用戶興趣3個(gè)方面.本體層過(guò)濾主要負(fù)責(zé)將來(lái)自互聯(lián)網(wǎng)的動(dòng)態(tài)信息流依據(jù)信息領(lǐng)域本體庫(kù)的標(biāo)準(zhǔn)進(jìn)行領(lǐng)域劃分,從而提高以后進(jìn)行信息過(guò)濾的效率.需求層過(guò)濾主要針對(duì)用戶所提出的具體信息要求,獲取用戶對(duì)信息要求的準(zhǔn)確語(yǔ)義,然后針對(duì)這些需求語(yǔ)義進(jìn)行信息的過(guò)濾.興趣層過(guò)濾在前面兩層過(guò)濾的基礎(chǔ)上,針對(duì)具體用戶之間的差別,分析不同用戶可能出現(xiàn)的興趣、習(xí)慣以及閱讀傾向等,進(jìn)而挑選出符合用戶興趣習(xí)慣的信息推送給用戶.
未來(lái)工作的重點(diǎn)包括以下方面:(1)本體庫(kù)的完善.計(jì)算機(jī)領(lǐng)域本體庫(kù)只是信息領(lǐng)域本體庫(kù)中的一個(gè)組成部分.而本設(shè)計(jì)的計(jì)算機(jī)領(lǐng)域本體庫(kù)還比較粗糙,所包含的術(shù)語(yǔ)知識(shí)數(shù)量不夠充分,屬性描述比較簡(jiǎn)單,還需要進(jìn)一步補(bǔ)充完善;(2)各類(lèi)語(yǔ)義獲取方法的準(zhǔn)確度提高.通過(guò)中文切詞獲得語(yǔ)義是一種普遍采用的方法,但是中文切詞也存在很多缺陷,例如對(duì)歧義的處理等等.因此以后工作需研究如何提高語(yǔ)義獲取的準(zhǔn)確性.
[1] Huang X J,Xia Y J,Wu L D.A text filtering system based on vector space model [J].2003,14(3):435-442.
[2] Sánchez S N,Triantaphyllou E,Kraft D.A feature mining based approach for the classification of text documents into disjoint classes [J].Information Processing & Management,2002,38(01):583-604.
[3] Zeng C,Xing C X,Zhou L Z.A personalized search algorithm by using content-based filtering [J].Journey Software,2003,14(5):999-1004.
[4] Song W J,Guo Q,Liu J G.Improved hybrid information filtering based on limited time window [J].Physica A:Statistical Mechanics and its Applications,2014,416:192-197.
[5] Liu J H,Zhang Z K,Yang C,et al.Gravity effects on information filtering and network evolving [J].PloS one,2014,9(3):e91070.
[6] Tian F J,Li C R,Wang D X.Evolving information filtering method [J].Journey Software,2000,11(3):328-333.
[7] Liu Q,Li J H.Research on network content security administration system and its key technologies [J].Computer Engineering,2003,29(2):287-289.
[8] Zhang B,Xiang Y,Wang J.Information filtering algorithm based on semantic understanding [J].Journal of Electronics & Information Technology,2010,32(10):2324-2330.
[9] Yu X L.Information filtering model based on ontology [J].Computer Applications and Software,2014,31(2):119-122.
[10] Ma L,Chen Q X,Cai L H.An improved model for adaptive text information filtering [J].Journal of Computer Research and Development,2015,42(1):79-84.
(責(zé)任編輯:包震宇)
Thedesignofsemanticbasedthree-layerwebinformationfilteringmodel
Li Meizi1,LiXin2*,PanJianguo1,ShenDi1
(1.The College of Information,Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai200234,China;2.Computer Teaching Section of Public Teaching Department,Taishan Vocational College of Nursing,Taian271000,China)
Asemantic based three-layer web information filtering model and its architecture are presented,which comprises ontology filtering layer,requirement filtering layer,and interest filtering layer.In ontology filtering layer,contents of information are described formally based on ontology,and those information which cannot be understood by ontology can be recognized and filtered;in requirement filtering layer,web information would be filtered through calculating the semantic similarity degrees between user requirements and information features;in interest filtering layer,the user interests are described based on formal semantic,and further,the information can be filtered by comparing the similarity of user interest and information content.
semantic; information filtering; layer model; ontology
2015-11-18
國(guó)家自然科學(xué)基金(61572326,61103069),上海教委教育規(guī)劃一般項(xiàng)目(C160049)
李美子(1979-),女,講師,主要從事智能信息處理,數(shù)據(jù)挖掘方面的研究.E-mail:Limeizi@shnu.edu.cn
*通信作者: 李 欣(1978-),女,講師,主要從事智能信息處理教育信息化方面的研究.E-mail:lifebest78@163.com
TP391
:A
:1000-5137(2017)04-0514-07