徐俊芬,葉俊杰,劉業(yè)政
1.合肥工業(yè)大學(xué)管理學(xué)院,合肥 230009
2.過(guò)程優(yōu)化與智能決策教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230009
基于相似領(lǐng)域共享特征的分類學(xué)習(xí)模型
徐俊芬,葉俊杰,劉業(yè)政
1.合肥工業(yè)大學(xué)管理學(xué)院,合肥 230009
2.過(guò)程優(yōu)化與智能決策教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230009
傳統(tǒng)上下文在分類研究中通常存在失真和有效性等問(wèn)題。引入研究對(duì)象領(lǐng)域的相似領(lǐng)域作為上下文,借助遷移學(xué)習(xí)理論,使用結(jié)構(gòu)化相似性學(xué)習(xí)方法構(gòu)建研究對(duì)象領(lǐng)域和其相似領(lǐng)域間的低維共享特征,提出一種基于相似領(lǐng)域共享特征的分類學(xué)習(xí)模型。實(shí)驗(yàn)以QQ空間的個(gè)性化設(shè)置數(shù)據(jù)作為上下文,對(duì)用戶電子商務(wù)網(wǎng)站頁(yè)面的風(fēng)格偏好進(jìn)行分類,驗(yàn)證了所提模型的可行性和有效性。
分類;相似領(lǐng)域;上下文;共享特征;特征遷移學(xué)習(xí)
分類算法是機(jī)器學(xué)習(xí)、模式識(shí)別和數(shù)據(jù)挖掘等領(lǐng)域中被廣泛研究和應(yīng)用的一個(gè)重要課題。分類學(xué)習(xí)模型的有效構(gòu)建很大程度依賴于充足的樣本和有效的特征信息,然而在現(xiàn)實(shí)中數(shù)據(jù)不完備現(xiàn)象廣泛存在,從而導(dǎo)致分類準(zhǔn)確率不高。為此,許多研究者提出了基于上下文的分類學(xué)習(xí)模型[1-2]。這類模型一般引入用戶描述文件(User Profile)[3]、在線社會(huì)關(guān)系網(wǎng)絡(luò)(OSN)[4]、位置[5]等各種各樣的情境上下文,以此作為目標(biāo)分類的特征信息或作為輔助信息來(lái)提高分類模型的有效性。這類模型表現(xiàn)出了較好的分類性能,但有時(shí)這些特征信息的準(zhǔn)確性并不能保證,且該類傳統(tǒng)上下文對(duì)某些特定研究領(lǐng)域并不存在有效影響,這使得許多模型的推廣應(yīng)用受到限制。例如,在拍拍網(wǎng)上需要判別用戶偏好于何種風(fēng)格的Web頁(yè)面時(shí),用戶的位置、教育程度等上下文的利用并不能有效地提高分類效率,而性別、年齡等雖然對(duì)部分風(fēng)格選項(xiàng)有效卻可能由于信息失真而使模型失去效果。
上例中,由于拍拍網(wǎng)用戶大部分擁有開(kāi)放的QQ空間并對(duì)其空間風(fēng)格和頁(yè)面進(jìn)行了個(gè)性化配置,由此可以通過(guò)一定的技術(shù)手段有效獲取這些信息,而這些信息與商品展示頁(yè)面風(fēng)格偏好同屬對(duì)Web頁(yè)面風(fēng)格的偏好,屬于相似領(lǐng)域,其中必然蘊(yùn)含著用戶對(duì)頁(yè)面風(fēng)格的偏好信息。若將這些信息作為上下文來(lái)構(gòu)建相關(guān)的分類模型,其分類效果應(yīng)該會(huì)更好。為此,本文提出一種基于相似領(lǐng)域共享特征的分類學(xué)習(xí)模型,即CM-CFBSD(Classification model based on the Common Features Between Sim ilar Domains)。本文嘗試借助遷移學(xué)習(xí)理論[6-8],利用特征遷移學(xué)習(xí)技術(shù)中的結(jié)構(gòu)化相似性學(xué)習(xí)方法(Structural Correspondence Learning,SCL)[9]獲取上下文和研究對(duì)象之間的共享特征,并將此作為上下文集成利用的有效橋梁從而構(gòu)建CM-CFBSD模型。該模型提出引入相似領(lǐng)域特征信息作為新的上下文建模數(shù)據(jù)源,有效地解決了上下文失真以及某些特定領(lǐng)域分類中缺乏有效上下文的問(wèn)題,具有一定的應(yīng)用價(jià)值。
特征遷移學(xué)習(xí)技術(shù)是遷移學(xué)習(xí)中一種主流的技術(shù)方法,該方法旨在不同但相似的領(lǐng)域之間通過(guò)挖掘領(lǐng)域間的共享特征來(lái)實(shí)現(xiàn)知識(shí)的有效遷移,其學(xué)習(xí)過(guò)程就是發(fā)現(xiàn)這部分共享特征的過(guò)程。由此共享特征的獲取問(wèn)題受到了廣泛的關(guān)注,不少學(xué)者對(duì)此展開(kāi)深入研究。例如,Blitzer等[9]提出了SCL方法,利用領(lǐng)域未標(biāo)記數(shù)據(jù)提取一些降低領(lǐng)域間差異的相似性特征來(lái)解決NLP問(wèn)題;Bonilla[10]等人將模型建立在高斯過(guò)程的基礎(chǔ)之上,由此誘導(dǎo)得出共享特征;Dai等[11]同時(shí)對(duì)兩領(lǐng)域數(shù)據(jù)進(jìn)行自學(xué)習(xí)聚類多次迭代來(lái)尋求一個(gè)共同的特征表示。這些方法從不同角度解決了特征學(xué)習(xí)技術(shù)中獲取共享特征的問(wèn)題。其中,SCL方法在域自適應(yīng)問(wèn)題上表現(xiàn)出了良好的性能,且能精煉地提取出領(lǐng)域間的一致性特征和依賴關(guān)系。
K-Means聚類算法則是一種基于領(lǐng)域內(nèi)樣本間相似性度量的間接聚類算法,由M acQueen于1967年首次提出。該算法處理流程清晰易懂,操作簡(jiǎn)便,并因其高效性、可擴(kuò)展性,許多聚類問(wèn)題都選擇該經(jīng)典算法。同時(shí),K-Means聚類算法可有效地發(fā)現(xiàn)數(shù)據(jù)分布和其中的隱含模式。
CM-CFBSD模型主要包括三個(gè)部分:(1)應(yīng)用SCL方法構(gòu)建相似領(lǐng)域A、B之間的低維共享特征集;(2)將學(xué)習(xí)得到的低維共享特征集附加到領(lǐng)域A和領(lǐng)域B的原特征集上,生成相應(yīng)的拓展特征集并據(jù)此進(jìn)行聚類;(3)按照最近原則[12]將兩領(lǐng)域的聚類類別一一映射,獲取兩領(lǐng)域間的類別映射關(guān)系,以此結(jié)合領(lǐng)域A的特征實(shí)現(xiàn)領(lǐng)域B的分類。
3.1 相關(guān)符號(hào)定義
定義1領(lǐng)域A、B的樣本集分別記為{Ai}和{Bi},i= 1,2,…,n,其中n為兩領(lǐng)域的樣本數(shù),且兩領(lǐng)域的樣本是一一對(duì)應(yīng)關(guān)系。
定義2樣本Ai的特征表示為F={f1,f2,…,fk},其中k為特征集F的特征數(shù)。相應(yīng)地,Bi特征表示為G= {g1,g2,…,gl},其中l(wèi)為特征集G的特征數(shù)?,F(xiàn)將領(lǐng)域A、B的樣本相融合構(gòu)造一個(gè)新的樣本集:X={Xi},i=1,2,…,2n,其中2n為樣本集X的樣本數(shù),其特征表示為F∪G,共k+l個(gè)特征。記Xij為樣本i的第j個(gè)特征值,當(dāng)1≤i≤n,1≤j≤k時(shí),Xij=Aij;當(dāng)1≤i≤n,k+1≤j≤k+l或n+1≤i≤2n,1≤j≤k時(shí),Xij=NULL;當(dāng)n+1≤i≤2n,k+1≤j≤k+l時(shí),Xij=Bi-n,j-k。
3.2 基于相似領(lǐng)域上下文的低維共享特征學(xué)習(xí)
為了將相似領(lǐng)域A的信息應(yīng)用于領(lǐng)域B中,有效集成該上下文,首先需提取出相似領(lǐng)域之間的橋梁信息,記為樞紐特征集P={p1,p2,…,pm},其中m表示樞紐特征集P的特征個(gè)數(shù)。本文相應(yīng)地構(gòu)建m個(gè)二值分類器,將pj(j=1,2,…,m)表示為“該樣本中是否具有樞紐特征j,若有,則pj=1,反之pj=-1”。最后,將分類問(wèn)題轉(zhuǎn)換成m個(gè)線性預(yù)測(cè)問(wèn)題:
其中,wj為X的特征集F∪G的權(quán)重分配向量,是一個(gè)含有k+l個(gè)值的實(shí)值列向量,表示用于樞紐特征預(yù)測(cè)的k+l個(gè)特征的權(quán)重。wj的求解問(wèn)題可轉(zhuǎn)換為求解如下形式的二次無(wú)約束規(guī)劃問(wèn)題:
其中,yij是樣本i對(duì)樞紐特征j的標(biāo)注值;‖w‖2是權(quán)重分配向量w的內(nèi)積;λ是調(diào)整訓(xùn)練數(shù)據(jù)錯(cuò)誤率和權(quán)重分配向量w內(nèi)積的一個(gè)平衡因子;這里L(fēng)(w·xj,yij)是一個(gè)實(shí)值損失函數(shù),本文采用hinge損失函數(shù),定義為:
算出權(quán)重分配矩陣W={w1,w2,…,wm}以后,本文按照文獻(xiàn)[9]對(duì)W作奇異值分解,由此得出低維映射θ,其中θ選取奇異分解所得矩陣U的轉(zhuǎn)置矩陣的前q行,依此得到聯(lián)系最緊密的q個(gè)共享特征,記為S={s1,s2,…,sq}。θXi是樣本Xi的共享特征S的實(shí)例化表示,記為Si,即Si=θXi。該共享特征集充分地挖掘出領(lǐng)域A、B之間的一致性信息,有效實(shí)現(xiàn)跨領(lǐng)域上下文的集成。
3.3 基于拓展特征的領(lǐng)域聚類
將應(yīng)用SCL方法從相似領(lǐng)域A、B學(xué)習(xí)得到的低維共享特征集S分別附加到原特征集F和G上,生成拓展特征集F∪S和G∪S,并在此基礎(chǔ)上利用K-Means算法分別對(duì)領(lǐng)域A樣本集{Ai∪Si}和領(lǐng)域B樣本集{Bi∪Si}進(jìn)行聚類,最后得到聚類結(jié)果、,i,j= 1,2,…,h。具體過(guò)程如下(以領(lǐng)域A聚類為例,領(lǐng)域B聚類同理):
輸入:領(lǐng)域A樣本集{Ai∪Si},簡(jiǎn)記為{Zi},i=1,2,…,n。
步驟1指定聚類數(shù)目h。
步驟3計(jì)算每個(gè)樣本到h個(gè)類中心點(diǎn)的距離,將所有樣本分派到最近的類中。
步驟4重新確定h個(gè)類中心。
步驟5判斷是否滿足終止條件,若沒(méi)有,返回步驟3,不斷反復(fù)上述過(guò)程,直到滿足終止條件。
3.4 基于相似領(lǐng)域上下文的分類
為了便于分析,本文用每個(gè)類別的中心點(diǎn)表示相應(yīng)的類別,即:?,?,i,j=1,2,…,h。在上一步得到的聚類結(jié)果的基礎(chǔ)上,將領(lǐng)域A和領(lǐng)域B的每類中心點(diǎn)中的原特征集通過(guò)共享特征的線性映射矩陣θ將其線性表示成包含q個(gè)元素的特征向量。再加之每類中心點(diǎn)中原有的q維共享特征向量,由此將領(lǐng)域A和領(lǐng)域B的h個(gè)中心點(diǎn)映射到Rh×2q空間中,即兩個(gè)領(lǐng)域的中心點(diǎn)都轉(zhuǎn)換成了相同維度的向量,2q維的行向量,因而具有可比性。其次,計(jì)算經(jīng)線性轉(zhuǎn)換后的和的歐式距離,并為尋找一個(gè)最近的,此中心點(diǎn)所對(duì)應(yīng)領(lǐng)域A的類別即是所對(duì)應(yīng)領(lǐng)域B類別的映射類。該映射過(guò)程可表示為:
經(jīng)上述處理后,領(lǐng)域A和領(lǐng)域B的類別處于一一映射的關(guān)系,由此確定領(lǐng)域間的類別映射關(guān)系。因此,模型借助領(lǐng)域A、B間的共享特征,有效集成相似領(lǐng)域A該上下文,并在此基礎(chǔ)上根據(jù)類別映射關(guān)系實(shí)現(xiàn)領(lǐng)域B類別的預(yù)測(cè)。
3.5 算法步驟
輸入:相似領(lǐng)域A、B的樣本集{Ai}、{Bi},總樣本集X={Xi},以及待分類樣本
(1)選擇m個(gè)樞紐特征,構(gòu)建m個(gè)二值分類問(wèn)題。
(2)For j=1 to m
(4)應(yīng)用K-Means算法分別對(duì)樣本集{Ai∪Si}和{Bi∪Si}聚類,并返回聚類結(jié)果KA、KB。
4.1 應(yīng)用背景和實(shí)驗(yàn)設(shè)計(jì)
在用戶電子商務(wù)網(wǎng)站web頁(yè)面風(fēng)格偏好分類中,像用戶的性別、年齡、位置等傳統(tǒng)上下文對(duì)偏好分類不能起有效作用,而用戶的QQ空間頁(yè)面?zhèn)€性化設(shè)置卻蘊(yùn)含有用戶頁(yè)面偏好信息。針對(duì)這個(gè)問(wèn)題,可用本文所提模型加以解決。因此,本文選取用戶對(duì)電子商務(wù)網(wǎng)站w eb頁(yè)面的風(fēng)格偏好作為研究對(duì)象,而將QQ空間頁(yè)面?zhèn)€性化設(shè)置作為上下文,以期利用上述模型實(shí)現(xiàn)網(wǎng)購(gòu)用戶頁(yè)面偏好分類。
具有相同認(rèn)知特征的用戶對(duì)頁(yè)面的展示形式有相同認(rèn)知偏好。因此,該實(shí)驗(yàn)將用戶的頁(yè)面認(rèn)知特征作為以上兩個(gè)領(lǐng)域的樞紐特征,分別為p1、p2、p3,即對(duì)表象信息的偏好[13]、對(duì)頁(yè)面復(fù)雜性的偏好[14]和對(duì)頁(yè)面交互性的偏好。模型中權(quán)重分配向量的訓(xùn)練是一個(gè)二次無(wú)約束規(guī)劃問(wèn)題的求解過(guò)程,本實(shí)驗(yàn)將平衡因子λ設(shè)為0.000 01,并采用中規(guī)模的擬牛頓搜索算法。在尋找兩領(lǐng)域的低維共享特征表示時(shí),本實(shí)驗(yàn)選取3個(gè)最密集的共享特征(q=3)。在K-Means聚類學(xué)習(xí)過(guò)程中,距離測(cè)量采用歐氏距離,迭代停止條件是各樣本所屬類別不再發(fā)生變化。
4.2 數(shù)據(jù)采集
鑒于本文所提方法的應(yīng)用背景為兩個(gè)相似領(lǐng)域(兩個(gè)存在著廣泛顯性共享特征的領(lǐng)域),且要求領(lǐng)域間的數(shù)據(jù)是一一對(duì)應(yīng)關(guān)系,同屬于一個(gè)用戶,而目前該類研究中普遍采用的“Text,E-mail,W iFi,Sen”[6]這四個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集屬于不同領(lǐng)域不同用戶的數(shù)據(jù),不存在一一對(duì)應(yīng)關(guān)系,因而對(duì)本文方法適用性較差。因此,本文通過(guò)實(shí)驗(yàn)方式獲取用戶QQ空間頁(yè)面?zhèn)€性化設(shè)置和用戶電子商務(wù)網(wǎng)站web頁(yè)面的偏好信息這兩大數(shù)據(jù)集作為領(lǐng)域A和領(lǐng)域B。其中,領(lǐng)域A數(shù)據(jù)集通過(guò)人工上網(wǎng)抓取獲得,共有400個(gè)樣本,每個(gè)樣本由14個(gè)特征組成;領(lǐng)域B數(shù)據(jù)集通過(guò)問(wèn)卷調(diào)查獲取,問(wèn)卷以圖1(a)~(d)中的4種風(fēng)格頁(yè)面為考察對(duì)象據(jù)此收集數(shù)據(jù),該數(shù)據(jù)集共有400個(gè)樣本,每個(gè)樣本由12個(gè)特征組成。以上樣本集合的特征信息及經(jīng)預(yù)處理后的特征值等相關(guān)信息如表1所示。此次實(shí)驗(yàn)在400個(gè)樣本中隨機(jī)抽取80%(300個(gè))作為訓(xùn)練集,剩余的20%(100個(gè))作為測(cè)試集對(duì)模型分類性能進(jìn)行驗(yàn)證。
圖1 4種不同風(fēng)格的商品展示頁(yè)面
表1 經(jīng)處理后的樣本數(shù)據(jù)集合特征信息
4.3 實(shí)驗(yàn)結(jié)果
采用EXCEL2007對(duì)所收集的數(shù)據(jù)進(jìn)行規(guī)范化處理,再使用MATLAB2008計(jì)算獲取A、B領(lǐng)域間的低維共享特征,然后使用Clementine的K-Means算法分別對(duì)A領(lǐng)域和B領(lǐng)域的訓(xùn)練集進(jìn)行聚類,并根據(jù)聚類結(jié)果確定其類別映射關(guān)系,如圖2所示。圖中箭頭表示兩個(gè)領(lǐng)域類別之間的映射關(guān)系,例如,領(lǐng)域B的類對(duì)應(yīng)于領(lǐng)域A的類;而類標(biāo)后括號(hào)中的數(shù)字指代該類所包含的樣本數(shù)。
圖2 領(lǐng)域A和領(lǐng)域B的類映射關(guān)系
4.4 模型驗(yàn)證
為了驗(yàn)證所提模型的有效性,本文還用主觀判定法和基于相似領(lǐng)域原特征的分類模型(CM-SD)對(duì)測(cè)試集進(jìn)行分類。主觀判定法是指依據(jù)人們現(xiàn)有的知識(shí)經(jīng)驗(yàn)主觀地為待分類樣本的各個(gè)特征分配權(quán)重,通過(guò)加權(quán)學(xué)習(xí)得以實(shí)現(xiàn)分類,在本實(shí)驗(yàn)中就是根據(jù)對(duì)用戶頁(yè)面風(fēng)格偏好的影響因素的認(rèn)識(shí)和4.2節(jié)中表1的特征歸類,平均分配領(lǐng)域A和領(lǐng)域B各樞紐特征下的原特征的權(quán)重并加權(quán)求和確定3個(gè)樞紐特征的取值,最后依據(jù)樞紐特征的取值實(shí)現(xiàn)樣本類別預(yù)測(cè)。CM-SD法與本文的CM-CFBSD法相似,區(qū)別在于CM-SD法在領(lǐng)域聚類時(shí)沒(méi)有集成利用獲取得到的共享特征,直接對(duì)原特征表示的領(lǐng)域樣本聚類(聚類方法仍是K-Means算法),據(jù)此獲取類別映射關(guān)系以實(shí)現(xiàn)分類。以上三種方法的實(shí)驗(yàn)結(jié)果如表2所示。
表2 三種方法在測(cè)試集上的分類準(zhǔn)確率對(duì)比
表2數(shù)據(jù)顯示,從總準(zhǔn)確率上來(lái)看,本文提出的CM-CFBSD法顯著優(yōu)于主觀判定法、CM-SD法,具有良好的綜合分類效果。從各類準(zhǔn)確率來(lái)看,CM-CFBSD法對(duì)每類樣本的分類準(zhǔn)確率皆優(yōu)于CM-SD法,這表明共享特征S對(duì)樣本的特性表征起關(guān)鍵作用,能有效消除噪音數(shù)據(jù),保證重點(diǎn)知識(shí)的集成利用。相比于主觀判定法,CM-CFBSD法在第1、2、4這三類分類效果更好,第3類則略差。觀其各類樣本特征發(fā)現(xiàn),主觀判別法在特征顯著易察明的類別具有一定的優(yōu)勢(shì),但對(duì)特征顯著性較差的類別進(jìn)行分類則比較困難。CM-CFBSD法則不論樣本特征取值是否存在顯著差異,都能良好的對(duì)樣本加以分類,能有效地彌補(bǔ)主觀判定法的不足,適應(yīng)性更強(qiáng)。這主要是因?yàn)樵摲椒ú粌H通過(guò)低維共享特征有效集成相似領(lǐng)域上下文,此外還在分類時(shí)使用了更為客觀的K-Means聚類算法,從而可根據(jù)樣本數(shù)據(jù)分布有效挖掘其中的隱含模式。
實(shí)驗(yàn)結(jié)果表明了通過(guò)共享特征來(lái)集成利用相似領(lǐng)域上下文進(jìn)行分類學(xué)習(xí)的高效性。該實(shí)驗(yàn)基于QQ空間領(lǐng)域和電子商務(wù)網(wǎng)站領(lǐng)域的低維共享特征來(lái)實(shí)現(xiàn)用戶電子商務(wù)web頁(yè)面的風(fēng)格偏好分類,該共享特征精確地提煉出兩個(gè)領(lǐng)域之間的關(guān)系,并有效識(shí)別QQ空間領(lǐng)域這一相似領(lǐng)域上下文信息中對(duì)電子商務(wù)領(lǐng)域用戶頁(yè)面偏好分類產(chǎn)生重要影響的關(guān)鍵因素,減弱上下文中噪音產(chǎn)生的干擾,使得上下文的利用更合理、更有效,分類準(zhǔn)確率更高。該評(píng)價(jià)結(jié)果很好地驗(yàn)證了本文所提模型的有效性和可行性。
在分類研究中,分類學(xué)習(xí)的上下文信息利用的有效性問(wèn)題是一個(gè)極具挑戰(zhàn)性和研究意義的熱點(diǎn)問(wèn)題。針對(duì)傳統(tǒng)上下文的準(zhǔn)確性不能保證且對(duì)某些特定研究領(lǐng)域并不存在有效影響的問(wèn)題,本文創(chuàng)新性地提出了跨領(lǐng)域上下文信息在分類學(xué)習(xí)模型中的應(yīng)用,在該問(wèn)題上借助遷移學(xué)習(xí)理論,構(gòu)建一個(gè)基于相似領(lǐng)域共享特征的分類學(xué)習(xí)模型。實(shí)驗(yàn)表明,該模型通過(guò)獲取相似領(lǐng)域間的共享特征從而充分利用上下文信息,可有效實(shí)現(xiàn)研究領(lǐng)域的準(zhǔn)確分類。相較于實(shí)驗(yàn)中其他兩種方法該模型的分類準(zhǔn)確性具有明顯優(yōu)勢(shì),但從總體來(lái)說(shuō)其分類準(zhǔn)確率仍不是很高,存在提升的空間。今后將進(jìn)一步改進(jìn)模型與此同時(shí)使用網(wǎng)絡(luò)用戶的真實(shí)數(shù)據(jù)進(jìn)行模型測(cè)試。
[1]王立才,孟祥武,張玉潔.上下文感知推薦系統(tǒng)研究[J].軟件學(xué)報(bào),2011,23(1):1-20.
[2]Chen M M,Sun J T,Ni X C,et al.Improving context-aware query classification via adaptive self-training[C]// Proceedings of the 20th ACM International Conference on Information and Know ledge Management,New York,2011:115-124.
[3]Vieira V,Tedesco P,Salgado A C.Designing context-sensitive systems:an integrated approach[J].Expert Systems with Applications,2011,38(2):1119-1138.
[4]W hite R W,Bailey P,Chen L W.Predicting user interests from contextual information[C]//Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval,New York,2009:363-370.
[5]Chon Y,Cha H.Lifemap:a smartphone-based context provider for location-based services[J].Pervasive Computing,2011,10(2):58-67.
[6]Pan S J,Yang Q.A survey on transfer learning[J].IEEE TKDE,2010,22(10):1345-1359.
[7]Chen D,Xiong Y,Yan J,et al.Know ledge transfer for cross domain learning to rank[J].Information Retrieval,2010,13:236-253.
[8]Raina R,Battle A,Lee H,et al.Self-taught learning:transfer learning from unlabeled data[C]//Proceedings of 25th International Conference on Machine Learning,New York,2007:759-766.
[9]Blitzer J,M cdonald R,Pereira F.Domain adaptation with structural correspondence learning[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing,Sydney,2006:120-128.
[10]Bonilla E,Chai K M,W illiams C.Multi-task Gaussian process prediction[C]//Proceedings of the 20th Annual Conference on Neural Information Processing Systems,Vancouver,2008:153-160.
[11]Dai W Y,Yang Q,Xue G R,et al.Self-taught clustering[C]// Proceedings of the 25th International Conference on Machine Learning,New York,2008:200-207.
[12]袁玉波,楊傳勝.數(shù)據(jù)挖掘與最優(yōu)化技術(shù)及其應(yīng)用[M].北京:科學(xué)出版社,2007:102-103.
[13]葉俊杰,劉業(yè)政,蔣瑋.Web環(huán)境下認(rèn)知風(fēng)格對(duì)商品信息關(guān)注度的影響研究[J].圖書(shū)情報(bào)工作,2012,56(6):95-101.
[14]蔣瑋,葉俊杰,劉業(yè)政.消費(fèi)者認(rèn)知風(fēng)格對(duì)Web頁(yè)面復(fù)雜度偏好影響的實(shí)證研究[J].情報(bào)雜志,2011,30(7):178-184.
XU Junfen,YE Junjie,LIU Yezheng
1.School of Management, Hefei University of Technology, Hefei 230009, China
2.Key Laboratory of Process Optimization and Intelligent Decision-making, Ministry of Education, Hefei 230009, China
Distortion and low efficiency are two constant problems when employing traditional context in classification problems. Inspired by the transfer learning theory, the paper regards the similar domain of the target domain as context,and constructs the low-dimensional common features between the target domain and its similar domain by structural correspondence learning method. Based on the common features between similar domains, the paper puts forward a new classification model. The experiment employs users’personalized options of QQ-zone as context to classify users’preferences of e-commerce web pages, the results verify the feasibility and availability of the proposed model.
classification;similar domain;context;common feature;feature-based transfer learning
XU Junfen, YE Junjie, LIU Yezheng. Classification model based on common features between similar domains. Computer Engineering and Applications, 2014, 50(17):137-141.
A
TP181
10.3778/j.issn.1002-8331.1210-0141
國(guó)家自然科學(xué)基金(No.71071047);高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(No.20090111110016)。
徐俊芬(1988—),女,碩士研究生,研究領(lǐng)域?yàn)殡娮由虅?wù)、數(shù)據(jù)挖掘;葉俊杰(1977—),男,博士研究生,講師,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)營(yíng)銷、數(shù)據(jù)挖掘;劉業(yè)政(1965—),男,博士,教授,主要研究領(lǐng)域?yàn)殡娮由虅?wù)。E-mail:xujunfen88@163.com
2012-10-15
2013-01-08
1002-8331(2014)17-0137-05
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-01-18,http://www.cnki.net/kcms/detail/11.2127.TP.20130118.1024.004.htm l