鄧冬梅,龍際珍,尹湘舟
(1. 湖南師范大學(xué) 計(jì)算機(jī)教學(xué)部,湖南 長(zhǎng)沙,410081;2. 長(zhǎng)沙理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,湖南 長(zhǎng)沙,410114;3. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京,100190)
聚類(lèi)是網(wǎng)上多媒體檢索和過(guò)濾常用的一種方法[1-2],依據(jù)事物的某些屬性將其聚集成類(lèi),使同類(lèi)間相似性盡量小,類(lèi)與類(lèi)之間相似性盡量大,是一種無(wú)監(jiān)督的模式識(shí)別問(wèn)題。很多聚類(lèi)方法都是基于單一文本聚類(lèi)[3-4]和單一圖片聚類(lèi)[5]。然而,有時(shí)不僅需要對(duì)單一的文本信息或圖片信息進(jìn)行聚類(lèi),還需要對(duì)一些屬性信息同時(shí)進(jìn)行聚類(lèi),以便挖掘更多有用的信息[6],這就需用到聯(lián)合聚類(lèi)的思想。Dhillon[7]在2001年提出了基于二部圖劃分思想來(lái)解決聯(lián)合聚類(lèi)的問(wèn)題,這是目前聯(lián)合聚類(lèi)方法最常用的一種方法。Giannakidou等[8]介紹了一種標(biāo)簽和社會(huì)資源的聯(lián)合聚類(lèi)方法,它是一種基于文本的圖像聯(lián)合聚類(lèi)方法?,F(xiàn)在網(wǎng)絡(luò)上的多媒體信息通常不是單一的文本信息或圖片信息,它所呈現(xiàn)的是一種結(jié)構(gòu)化文檔的特性,融合了文本信息和圖片信息。許多研究者開(kāi)始研究包含這2種信息在內(nèi)的Web文檔檢索。Chen等[9]采用線性組合方式實(shí)現(xiàn)文本信息和圖像低層視覺(jué)信息的融合來(lái)檢索圖像。Blei等[10]使用 LDA(Latent dirichlet alfocation)模型捕獲圖像視覺(jué)特征和文本特征之間的聯(lián)合概率分布以及條件概率分布。Denoyer等[11]介紹了一種結(jié)構(gòu)化文檔的分類(lèi)方法,該方法結(jié)合結(jié)構(gòu)化文檔的文本信息和圖片信息對(duì)結(jié)構(gòu)化文檔進(jìn)行有效分類(lèi)。利用這種結(jié)構(gòu)化文檔分類(lèi)的思想,本文作者在考慮文本自身相似性的基礎(chǔ)上,引入圖片自身內(nèi)容信息之間的相似性,再通過(guò)文本和圖片相似性融合實(shí)現(xiàn)結(jié)構(gòu)化 Web文檔的聯(lián)合聚類(lèi),從而實(shí)現(xiàn)Web文檔的快速檢索與過(guò)濾。
一個(gè)結(jié)構(gòu)化文檔稱(chēng)為一個(gè)資源,它不僅包含圖片信息,還包含用來(lái)描述圖片的標(biāo)簽(描述圖片資源的特征詞),分別用 R,T,AS,P分別表示資源、標(biāo)簽、屬性、圖片集合[8],并從圖片信息中選擇最具有特征的m個(gè)圖片作為圖片關(guān)鍵詞,用PF表示。這樣,問(wèn)題就可以描述為資源—屬性—圖片關(guān)鍵詞聯(lián)合聚類(lèi)的問(wèn)題:給定資源集R、圖片集P、屬性集AS、圖片關(guān)鍵詞集合PF、整數(shù)k和相似函數(shù),由聯(lián)合聚類(lèi)得到一個(gè)集合C且Cx(1≤x≤k)包含有資源、屬性或圖片關(guān)鍵詞,最大(i=1, …, n; j=1, …, d; t=1, …, m)。其中:similarity(ri, aj)表示資源與屬性之間的相似性;similarity(pi, ft)表示圖片與圖片關(guān)鍵詞之間的相似性。
每個(gè)資源都可以用標(biāo)簽來(lái)表示,而屬性集由d個(gè)出現(xiàn)頻率最高的標(biāo)簽組成,這樣,資源與屬性之間的相似性就轉(zhuǎn)化為標(biāo)簽之間的相似性。為了更好地表示2個(gè)標(biāo)簽之間的相似性,可以同時(shí)考慮它們的社會(huì)相似性和語(yǔ)義相似性。語(yǔ)義相似性是利用Ohillon[7]所提出的方法,來(lái)計(jì)算詞的語(yǔ)義相似程度。tx和ty是標(biāo)簽T1和T2的本體映射概念,則語(yǔ)義相似性定義為:
depth(tx)表示從 tx到 tx和 ty共同父節(jié)點(diǎn)的路徑長(zhǎng)度;depth(P)表示從 tx和 ty的共同父節(jié)點(diǎn)到最終的祖節(jié)點(diǎn)的路徑長(zhǎng)度。
社會(huì)相似性是通過(guò)關(guān)鍵詞同時(shí)出現(xiàn)在不同文檔中的概率來(lái)計(jì)算,則2個(gè)標(biāo)簽tx和ty之間的社會(huì)相似性表示為:
為了考察每種相似性對(duì)聚類(lèi)結(jié)果的影響,2個(gè)標(biāo)簽之間的相似性可用這 2種相似性的權(quán)重之和來(lái)表示。利用文獻(xiàn)[10]中的方法,2個(gè)標(biāo)簽之間總的相似性可表示為:
其中:w為語(yǔ)義相似性和社會(huì)相似性之間的權(quán)值。若w=1,則表示單獨(dú)的語(yǔ)義相似性;若 w=0,則僅僅表示社會(huì)相似性。當(dāng)w取任何其他值時(shí),2種相似性都起作用,但是,其作用要看w取值。這樣,資源的標(biāo)簽信息與屬性之間的相似函數(shù)就可以表示為:
則 n個(gè)資源和 d個(gè)屬性之間的相似性就構(gòu)成了 1個(gè)n×d的矩陣RA:
目前,計(jì)算圖片之間相似性的方法很多,如絕對(duì)值距離計(jì)算法、歐氏距離法、余弦距離和直方圖的相關(guān)系數(shù)法、卡方法、相交法和Bhattacharyya 距離法等等,還有基于SIFT特征提取的計(jì)算方法。
對(duì)于整個(gè)圖片資源集合,首先人工按圖片內(nèi)容信息將圖片資源分類(lèi),然后,從每個(gè)類(lèi)中挑選一些能代表這些類(lèi)的圖片,稱(chēng)為圖片關(guān)鍵詞。圖片之間的相似性simp(pi, fj)定義為圖片和關(guān)鍵詞之間的相似性:
其中:N表示pi與fj匹配的關(guān)鍵點(diǎn)個(gè)數(shù);ipN 代表pi中關(guān)鍵點(diǎn)個(gè)數(shù)。
本文在進(jìn)行圖片相似性計(jì)算時(shí),利用了基于SIFT特征提取的計(jì)算方法、直方圖的相關(guān)系數(shù)法、卡方法、相交法和Bhattacharyya 距離法,然后,對(duì)幾種方法進(jìn)行比較。對(duì)于n個(gè)圖片資源和m個(gè)圖片關(guān)鍵詞的數(shù)據(jù)集合,計(jì)算它們之間的相似性,這些相似性構(gòu)成了n×m階矩陣PF,
文本相似性矩陣和圖片相似性矩陣的行都是用標(biāo)簽信息表示的資源信息,因此,可以進(jìn)行矩陣的水平拼接融合。由式(5)和(7),定義文本和圖片相似性融合矩陣:
式(8)中:⊕表示矩陣RA和PF水平拼接融合。文本和圖片相似性矩陣融合以后,融合矩陣中既包含了文本的相似性,也包含了圖片的相似性。
輸入:n個(gè)資源集R,n個(gè)圖片資源集p,l個(gè)Tags集合T,整數(shù)k和w∈[0, 1]
輸出:1個(gè)有k個(gè)簇的集合C,且每個(gè)簇中都包含資源、圖片關(guān)鍵詞和屬性,并且使得簇內(nèi)部的相關(guān)性最大,而簇之間的相關(guān)性最小。
第1步:Tunitags=UnitaryTags(T); /*標(biāo)簽拼寫(xiě)歸一化*/;
第 2步:PureTag=EliminateNoiseTags(Tunitags);
/*過(guò)濾標(biāo)簽*/;
第 3步:Attribs=ExtractAttrib(PureTag); /*抽取頻率最高的標(biāo)簽形成屬性集*/;
第4步:PurePict=E liminateNoisePict(p); /*過(guò)濾噪音圖片*/;
第5步:PictFeat=ExtractPictKey(PurePict); /*抽取圖片特征*/;
第 6步:PKEY=ExtractPictKey(PurePict); /*形成圖片關(guān)鍵詞*/;
第7步:SOS=CalculateSocialSimilarity(R, Attribs);/*計(jì)算文本相似性RA*/;
第 8步:SES=CalculateSemanticSimilarity(R,Attribs);
第9步:RresAttribSS=w*SES+(1-w)*SOS;
第10步:RA=RresAttribSimilarityScore(RresAttrib SS);
第 11步:PictPictKeySS=CalculateSimilarity(Pure Pict, PKEY, PictFeat); /*計(jì)算圖片相似性PF*/;
第12步:PF=SimilarityScore(PictPictKeySS);
第13步:RA_PF=MatrixFusion(RA, PF); /*將RA和PF水平拼接形成RA_PF*/;
第14步:Drow=CalculatePictDiagMatrix(RA_PF); /*形成矩陣NAR_PF*/;
第15步:Dcol=CalculatePictKeyDiagMatrix(RA_PF);
第16步:(Drow-1/2, Dcol-1/2)=CalculateMitrix(Drow,Dcol);
第17步:NAR_PF=CalculateNormalizedMatrix(Drow,Dcol); /*計(jì)算得到NAR_PF的左奇異向量Lrow和右奇異向量Rcol*/
第18步:(Lrow, Rcol)=GETLeftRightSingularVector(NRA_PF);
第19步:SV=CreatUltimatelyMatrix(Drow-1/2, Dcol-1/2,Lrow, Rcol); /*構(gòu)成矩陣SV*/
第 20步:C=K-Means(SV, k); /*對(duì) SV進(jìn)行k-means聚類(lèi)*/
為了獲得更高效的聚類(lèi)效果,首先對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理,標(biāo)簽拼寫(xiě)歸一化(第 1步)和過(guò)濾掉缺少?lài)?yán)格意義并且不能映射具體概念的標(biāo)簽(第 2步),抽取頻率最高的標(biāo)簽形成屬性集(第 3步)。對(duì)圖片的預(yù)處理首先是過(guò)濾噪音圖片(第4步),抽取圖片特征(第5步),最后形成圖片關(guān)鍵詞(第6步)。預(yù)處理完成后進(jìn)入相似性計(jì)算階段,通過(guò)計(jì)算文本相似性RA(第7~10步)和圖片相似性PF(第11~12步),然后將RA和PF水平拼接形成 RA_PF(第 13步)。當(dāng)?shù)玫饺诤虾蟮木仃嘡A_PF,就可以進(jìn)入聯(lián)合聚類(lèi)的處理過(guò)程,通過(guò)計(jì)算對(duì)角矩陣Drow和Dcol,形成矩陣NAR_PF(第14~17步),然后計(jì)算得到NAR_PF的左奇異向量Lrow和右奇異向量Rcol(第18步),這樣,Drow-1/2, Dcol-1/2, Lrow和Rcol就構(gòu)成了矩陣SV(第19步)。最后,對(duì)SV進(jìn)行k-means聚類(lèi)(第20步),可得到k類(lèi)包含資源、屬性和圖片信息的簇。
本文實(shí)驗(yàn)都是基于一個(gè)文本特征和圖像特征相融合的Web圖片檢索系統(tǒng)。該系統(tǒng)建立在一個(gè)擴(kuò)展性良好的統(tǒng)一框架上,系統(tǒng)核心采用C/C++編碼,實(shí)現(xiàn)了文本和圖片的特征提取、融合、文檔的高效聚類(lèi)以及統(tǒng)一的數(shù)據(jù)集和數(shù)據(jù)I/O模塊。實(shí)驗(yàn)所使用的數(shù)據(jù)集是利用Flickr網(wǎng)站提供的API,從該網(wǎng)站下載,包括由 cityscape,seaside,mountain,roadside,landscape,sport和locations組成的7個(gè)場(chǎng)景近7 000幅(每個(gè)場(chǎng)景大約有1 000幅)結(jié)構(gòu)化文檔的圖像。每個(gè)場(chǎng)景表示聯(lián)合聚類(lèi)中的1個(gè)類(lèi),即1個(gè)簇。這些圖像分別包含圖片信息以及圖片所對(duì)應(yīng)的文本信息。每個(gè)場(chǎng)景的圖片信息用1個(gè)文件夾保存,文件夾的命名就是這個(gè)場(chǎng)景的名字。每個(gè)場(chǎng)景中所有圖片的文本信息用1個(gè)大的txt文件保存,每張圖片的文本信息叫做1條記錄。記錄中有圖片的名字、URL、描述信息、tags信息。Flickr網(wǎng)站的一個(gè)特點(diǎn)就是tags信息是人為地標(biāo)注上去的,比其他任何信息都能很好地表述圖片內(nèi)容的語(yǔ)義信息,所以,文本的特征提取是從圖片的tags信息中得到。由文本和圖片特征提取模塊提取大量文本特征向量和圖片關(guān)鍵點(diǎn),創(chuàng)建特征參數(shù)。然后,將文本特征和圖片特征融合在一起,進(jìn)行聯(lián)合聚類(lèi),最后分析聚類(lèi)結(jié)果。
在實(shí)驗(yàn)過(guò)程中,采用精確率和召回率來(lái)評(píng)價(jià)聚類(lèi)結(jié)果。精確率高和召回率低(把一些本應(yīng)該在一個(gè)簇的聚類(lèi)予以分開(kāi))表明聚類(lèi)的結(jié)果就好,RCj和ACj分別表示屬于簇Cj的資源集合和屬性集合。簇Cj的精確率和召回率定義如下:
在很多聚類(lèi)的評(píng)估方法中,通常也用 F-Measure值同時(shí)反映精確率和召回率。根據(jù)精確率和召回率的定義,1個(gè)簇Cj的F-Measure值可定義為:
F-Measure的值F(Cj)在區(qū)間[0, 1]之間波動(dòng),其值越高,表示聚類(lèi)越好。
3.2.1 文本聯(lián)合聚類(lèi)分析
首先從實(shí)驗(yàn)數(shù)據(jù)集中初步提取所有圖片的文本信息,經(jīng)過(guò)文本相似性計(jì)算后進(jìn)行k-means方法聯(lián)合聚類(lèi)。試驗(yàn)時(shí)實(shí)驗(yàn)數(shù)據(jù)取自7個(gè)場(chǎng)景,所以,簇?cái)?shù)k取為7,w (社會(huì)相似性和語(yǔ)義相似性的權(quán)重)設(shè)置為0.2,0.5和0.8。由式(10)和(11)算出每個(gè)聚類(lèi)所獲得的精確率和召回率,然后,按式(12)推導(dǎo)出每一簇的F-Measure值,如圖1所示??梢钥闯觯寒?dāng)w=0.5時(shí),與w=0.2和w=0.8相比,它在編號(hào)為2,4,5和6的4個(gè)簇中取得的值較高,在另外3個(gè)其值稍低??傮w來(lái)說(shuō),它能產(chǎn)生較好的聚類(lèi)效果。
圖1 文本聚類(lèi)F-measure值Fig.1 F-measure value of text co-clustering
3.2.2 圖片聯(lián)合聚類(lèi)分析
對(duì)實(shí)驗(yàn)數(shù)據(jù)集中所有圖片單一進(jìn)行k-means聚類(lèi)時(shí),用到的圖片相似性矩陣包括:
(1) 根據(jù) SIFT特征提取法計(jì)算所得的相似性矩陣;
(2) 利用相關(guān)系數(shù)(CORREL)法計(jì)算圖片所得的相似性矩陣;
(3) 利用卡方(CHISQR)法計(jì)算圖片所得的相似性矩陣;
(4)利用交集法計(jì)算圖片所得的相似性矩陣;
(5) 利用Bhattacharyya距離計(jì)算圖片所得的相似性矩陣。
此時(shí)k取為7,算出每個(gè)簇的精確率和召回率以及 F-Measure值。圖 2所示為圖片聯(lián)合聚類(lèi)的F-Measure值。從圖 2可以看出:?jiǎn)渭兊匾揽繄D片特征信息進(jìn)行聚類(lèi)的效果不是十分理想,其中,BHATTACHARYYA方法所得到的F-Measure值較高,但是,也沒(méi)有超過(guò)50%。其原因是現(xiàn)在所有的直接從圖片的特征信息計(jì)算圖片相似性的方法還不能很好地表達(dá)它們之間的相似性,計(jì)算機(jī)對(duì)圖片的理解程度還不能達(dá)到人對(duì)圖片的理解程度。
圖2 圖片聯(lián)合聚類(lèi)F-measure值Fig.2 F-measure value of image co-clustering
3.2.3 文本和圖片融合聯(lián)合聚類(lèi)分析
對(duì)文本和圖片融合后的數(shù)據(jù)進(jìn)行k-means聯(lián)合聚類(lèi)時(shí),取聚類(lèi)數(shù)k為7,w為0.5,文本聚類(lèi)效果最好。用SIFT特征提取法、直方圖的相關(guān)系數(shù)法(CORREL)、直方圖卡方法(CHISQR)、直方圖交集法(INTERSECT)和Bhattacharyya距離法這5種方法計(jì)算圖片相似性矩陣,然后,分別與文本相似性矩陣融合進(jìn)行實(shí)驗(yàn),所得每簇的精確率和召回率如表1和表2所示。從表1和表2可看到:采用BHATTACHARYYA方法得到的相似性矩陣和文本相似性矩陣融合的結(jié)果最好。
為了比較融合以后與單一文本、圖片的聚類(lèi)效果,在圖3中文本的聚類(lèi)效果w取0.5,圖片的聚類(lèi)方法取 BHATTACHARYYA,融合的聚類(lèi)方法取BHATTACHARYYA,與文本融合。從圖3可以看出:融合后效果比單純的圖片聯(lián)合聚類(lèi)的效果要好很多,F(xiàn)-Measure值基本上是單純的圖片聯(lián)系聚類(lèi)的2倍以上。與文本聚類(lèi)進(jìn)行比較,在第1,2,3和7簇都比文本的高,在第4~6簇時(shí)聚類(lèi)稍差。由此可以推斷:融合后的聯(lián)合聚類(lèi)結(jié)果比單獨(dú)進(jìn)行文本和圖片聚類(lèi)的效果好。
表1 文本和圖片融合聯(lián)合聚類(lèi)精確率Table 1 Precision rate of text and image integration co-clustering
表2 文本和圖片融合聯(lián)合聚類(lèi)召回率Table 2 Recall rate of text and image integration co-clustering
圖3 文本、圖片和文本圖片融合聚類(lèi)F-measure值對(duì)比Fig.3 F-measure value’s comparison of three approaches
(1) 在進(jìn)行文本聯(lián)合聚類(lèi)時(shí),社會(huì)相似性與語(yǔ)義相似性的權(quán)重w對(duì)聚類(lèi)結(jié)果有影響:當(dāng)w為0.2時(shí),社會(huì)相似性居主要地位;當(dāng)w取0.8時(shí),語(yǔ)義相似性居主要地位;而當(dāng)w取0.5時(shí),二者的權(quán)重相等,而此時(shí)的聚類(lèi)效果最好。
(2) 在進(jìn)行圖片聚類(lèi)時(shí),聚類(lèi)效果很不理想。原因是現(xiàn)在一些計(jì)算圖片相似性的方法還不能很好地表達(dá)2張圖片之間的相似性。
(3) 文本和圖片融合聯(lián)合聚類(lèi)效果最好。對(duì)于網(wǎng)絡(luò)所呈現(xiàn)的多媒體結(jié)構(gòu)化信息,單靠基于文本或圖片的聚類(lèi)方法不能滿(mǎn)足聚類(lèi)的精確性和高效性。融合文本相似性和圖片相似性的聯(lián)合聚類(lèi)方法能有效針對(duì)結(jié)構(gòu)化Web文檔的特征,使得聚類(lèi)效果更精確,從而為進(jìn)一步有效進(jìn)行多媒體檢索和過(guò)濾研究提供一種新的研究方法。
[1] ZHANG Yan-chun, XU Guan-dong. Using Web clustering Web communities mining and analysis[C]//Web Intelligence and Intelligent Agent Technology. Sydney, 2008: 78-85.
[2] Fakouri R, Zamani B, Fathy M. Region-based image clustering and retrieval using fuzzy similarity and relevance feedback[C]//2008 International Conference on Electrical Engineering. Lahore, 2008: 343-347.
[3] 劉遠(yuǎn)超, 王曉龍, 劉秉全, 等. 信息檢索中的聚類(lèi)技術(shù)[J]. 電子與信息學(xué)報(bào), 2006, 28(4): 606-609.LIU Yuan-chao, WANG Xiao-long, LIU Bing-quan, et al. The clustering analysis technology for information retrieval[J].Journal of Electronics & Information Technology, 2006, 28(4):606-609.
[4] Dhillon I S, Modha D S. Concept decompositions for large sparse text data using clustering[J]. Machine Learning, 2001,42(1): 143-175.
[5] 劉康苗, 仇光, 陳純, 等. 基于視覺(jué)和語(yǔ)義融合特征的階段式圖像聚類(lèi)[J]. 浙江大學(xué)學(xué)報(bào): 工學(xué)版, 2008, 42(12):2043-2048.LIU Kang-miao, QIU Guang, CHEN Chun, et al. Structured image clustering based on fusion of visual and semantic features[J]. Journal of Zhejiang University: Engineering Science,2008, 42(12): 2043-2048.
[6] Djouak A, Maaref H. Two levels similarity modelling: A co-clustering approach for image classification[C]//2009 6th International Multi-Conference on System, Signals and Devices.Djerba, 2009: 803-807.
[7] Dhillon I S. Co-clustering documents and words using bipartite spectral graph partitioning[C]//Proc of the 7th ACM SIGKDD Int Conf on Knowledge Discovery and Data mining. New York,2001: 269-274.
[8] Giannakidou E, Koutsonikola V, Vakali A, et al. Co-clustering tags and social data sources[C]//The Ninth International Conference on Web-Age Information Management. Zhangjiajie,2008: 317-324.
[9] Chen Z, Wenyin L, Zhang F, et al. Web mining for Web image retrieval[J]. Journal of the American Society for Information Science and Technology, 2001, 52: 831-839.
[10] Blei D M, Jordan M I. Modeling annotated data[C]//Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Toronto,2003: 127-134.
[11] Denoyer, Jean-Noel Vittaut, Patrick Gallinari, et al. Structured multimedia document classification[C]//Proceedings of the 2003 ACM Symposium on Document Engineering. New York, 2003:153-160.
[12] Wu Z, Palmer M. Verb semantics and lexical selection[C]//Proc of the 32nd annual meeting of the association for computational linguistics. Annual Meeting of the ACL. New Mexico:Association for Computational Linguistics, 1994: 133-138.
[13] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004,60(2): 91-110.
[14] Hartigan J A. Direct clustering of a data matrix[J]. Journal of the American Statistical Association, 1972, 67: 123-129.
[15] 白雪生, 徐光佑. 基于內(nèi)容的圖像檢索及其相關(guān)技術(shù)的研究[J]. 機(jī)器人, 1997, 19(3): 231-240.BAI Xue-sheng, XU Guang-you. Images searching based on content and research on related technology[J]. Robot, 1997,19(3): 231-240.
[16] 袁承興. 基于內(nèi)容的圖像檢索技術(shù)研究[D]. 西安: 西安理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院, 2008: 40-63.YUAN Cheng-xing, Research of images searching technology based on content[D]. Xi’an: Xi’an Technological University.Institute of Computer Science and Engineering, 2008: 40-63.
[17] 黃鵬. 基于文本和視覺(jué)信息融合的 Web圖像檢索[D]. 杭州:浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 2008: 33-50.HUANG Peng. Web images searching based on texts and images’ integration[D]. Hangzhou: Zhejiang University. Institute of Computer Science and Technology, 2008: 33-50.