付 博, 陳毅恒,邵艷秋,劉 挺
(1. 哈爾濱工業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院社會計算與信息檢索研究中心, 黑龍江 哈爾濱 150001;2. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)
基于用戶自然標(biāo)注的微博文本的消費意圖識別
付 博1, 陳毅恒1,邵艷秋2,劉 挺1
(1. 哈爾濱工業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院社會計算與信息檢索研究中心, 黑龍江 哈爾濱 150001;2. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)
消費意圖是指用戶在文本中明確表達(dá)出的購買產(chǎn)品或服務(wù)等一些商業(yè)消費的意愿,如“想買一部手機(jī)”。該文針對微博上的消息文本,提出一種基于用戶自然標(biāo)注的微博消費意圖識別方法。該方法將微博消費意圖識別看作為領(lǐng)域自適應(yīng)學(xué)習(xí)問題,通過自動獲取的訓(xùn)練語料基于源域和目標(biāo)域共同特征設(shè)計分類器,抽取置信度高的偽標(biāo)注消費意圖微博,再利用微博特征訓(xùn)練新的分類器對微博進(jìn)行消費意圖識別。實驗結(jié)果表明該文所采用的方法是有效的,F值達(dá)到69%和77%,其中使用的各種特征對于提高消費意圖識別的效果皆有幫助。
消費意圖;自然標(biāo)注;社會媒體;領(lǐng)域自適應(yīng)
Abstract: Consumption Intent refers to an exact indication of an immediate or future purchase in microblog. For example, a post like “I want to buy a mobile phone” indicates a buying intention. The paper proposes to study the problem of identifying consumption intent in microblogs based on user naturally annotated resources. Specifically, the proposed method recasts consumption intent recognition as a domain adaptation problem, and presents an approach utilizing automatic acquisition of large text corpora for classification. First, we look for a set of common features generalizable across domain adaptation, and then we extract the high confidence of pseudo annotation samples. Finally, we pick up useful features specific to the target domain. Experimental results show that the proposed method is effective for consumption intent recognition, achieving 69% and 77% in F-value, respectively. And, the features adopted are all contributive to the performance.
Key words: consumption intent; naturally annotated; social media; domain adaptation
隨著網(wǎng)絡(luò)媒體技術(shù)的發(fā)展和普及,用戶樂于在互聯(lián)網(wǎng)上搜索、發(fā)布和分享自身的消費需求,因此互聯(lián)網(wǎng)上積累了大量的帶有消費意圖的內(nèi)容信息。本文著重研究社會媒體(以新浪微博文本為例)中的消費意圖識別,來判斷用戶是否對某一產(chǎn)品產(chǎn)生了購買意愿。消費意圖分析是一個多學(xué)科綜合的研究領(lǐng)域,在眾多的應(yīng)用場景中都有重要的意義。例如在產(chǎn)品推薦研究中,消費意圖識別可以為用戶提供精準(zhǔn)的產(chǎn)品推薦,提高用戶對推薦系統(tǒng)的滿意度;在社會需求預(yù)測研究中,消費意圖識別可以對產(chǎn)品市場容量需求及投資前景進(jìn)行預(yù)先判定,以實現(xiàn)社會生產(chǎn)與社會需求之間的平衡;在社會媒體營銷的研究中,消費意圖識別既可用于電子商務(wù)公司挖掘用戶當(dāng)前需求,又有助于針對社會媒體富有價值的用戶提供廣告宣傳,在產(chǎn)品策劃、設(shè)計和營銷過程中做到有的放矢。
圖1是微博文本消費意圖實例。盡管微博上有類似大量的消費意圖文本,但消費意圖需求表達(dá)隱藏在噪聲文本和無關(guān)鋪墊成分中,給標(biāo)注帶來干擾。幸運的是,互聯(lián)網(wǎng)上有大量的用戶自然標(biāo)注 的 消 費意圖文本可供使用,如查詢?nèi)罩局杏脩酎c擊電商網(wǎng)站的查詢、淘寶問答等基于購物知識的問答平臺、電商網(wǎng)站用戶的歷史購買等,可以看作為用戶自然標(biāo)注的與消費相關(guān)的語料。表1為百度*www.baidu.com查詢?nèi)罩局械牟樵兿M意圖實例,記錄了消費意圖查詢、點擊的電商網(wǎng)站URL鏈接。
圖1 微博消費意圖實例
查詢查詢點擊URL雷柏8100怎么樣http://www.360buy.com/sales/...html臺式機(jī)用酷睿i5好嗎http://product.it168.com/list/...shtml
在以往的工作中,有學(xué)者研究搜索引擎查詢?nèi)罩局械牟樵兩虡I(yè)意圖識別[1-3](即本文定義的消費意圖識別),進(jìn)而將其應(yīng)用到搜索引擎廣告投放和競價排名中[4]。然而查詢商業(yè)意圖識別在應(yīng)用中也存在著幾個明顯的局限性。首先,研究者們通常認(rèn)為熱門查詢詞即是廣告關(guān)鍵詞,故而將廣告關(guān)鍵詞定位在熱門查詢中。但在實際應(yīng)用中,查詢僅記錄了用戶搜索的關(guān)鍵詞信息,無關(guān)的噪聲信息和缺失的用戶信息讓大多數(shù)的廣告資源投入在不相關(guān)的用戶中。再者是資源獲取方面的限制,查詢?nèi)罩?、廣告點擊等用戶行為信息只能從搜索引擎公司處獲取,難以實現(xiàn)自動抓取。相對于查詢商業(yè)意圖識別研究,本文所研究的微博消費意圖具有以下顯著的優(yōu)點: 首先,微博消費意圖文本中含有表示消費意圖的觸發(fā)詞和消費對象(如圖1中“想買”和“空氣凈化機(jī)”),意圖表達(dá)更明確;其次,微博消費意圖文本可以通過分析獲得文本信息和用戶信息,查詢特征更豐富;再者,社會媒體(如新浪微博和Twitter等)提供開放的API接口,可以實時地獲取微博和用戶信息以供研究。因此,微博中的消費意圖識別研究具有很重要的意義。
然而截至目前,國內(nèi)外對消費意圖識別的研究卻很少。Goldberg率先提出buy wish的概念[5](即本文定義的消費意圖),Chen[6]也提出過相似的概念“intention posts”。早期的一部分研究者將這項任務(wù)分為兩個步驟,首先獲取模板和詞袋等特征,繼而基于特征分類器來完成消費意圖的識別[7]。這種方法大大提高了識別的準(zhǔn)確率,但由于模板具有局限性及語料不平衡的限制,召回率不高。近期的一部分研究工作,側(cè)重于對不平衡語料的處理,用弱監(jiān)督的方法或遷移學(xué)習(xí)的方法來識別消費意圖[8]。此類方法假設(shè)在不同的領(lǐng)域下意圖表達(dá)的方式具有相似性,這種方法可以獲取大規(guī)模語料或意圖詞來提高系統(tǒng)識別的性能。然而,前人方法通常需要大規(guī)模的標(biāo)注語料,否則會影響學(xué)習(xí)到的分類器效果。
鑒于已有方法存在的缺陷,本文提出了一種基于用戶自然標(biāo)注的微博消費意圖識別方法。我們將這一問題看作是領(lǐng)域遷移學(xué)習(xí)問題[9],利用搜索引擎搜索日志,結(jié)合偽相關(guān)反饋,實現(xiàn)高性能的微博消費意圖識別方法。由于查詢(源域)與微博(目標(biāo)域)相關(guān)但并不完全相同,如何充分考慮不同領(lǐng)域數(shù)據(jù)之間的這種共性和特性,是基于用戶自然標(biāo)注的微博消費意圖識別研究中需要解決的主要問題。具體來說,本文首先提出了一種自動構(gòu)建大量源域訓(xùn)練語料的方法,繼而把各個領(lǐng)域的數(shù)據(jù)從原始高維特征空間映射到低維特征空間,再利用大量標(biāo)記的源域數(shù)據(jù)訓(xùn)練分類器初始目標(biāo)域數(shù)據(jù);進(jìn)一步地,選擇目標(biāo)域數(shù)據(jù)中標(biāo)記置信度高的樣本作為偽標(biāo)記數(shù)據(jù),利用目標(biāo)域數(shù)據(jù)特征來對其重新訓(xùn)練,得到新的分類器;最后對各種特征的作用進(jìn)行了較為詳細(xì)的分析和比較。實驗結(jié)果表明,本文 提 出 的 基 于 用 戶
自然標(biāo)注的方法對于微博消費意圖的識別是有效的。利用本方法,在微博文本測試集上的F值達(dá)到69%和77%。
2.2 方法描述
本文旨在利用自然標(biāo)注的搜索引擎查詢消費意圖語料來指導(dǎo)微博文本的消費意圖識別。消費意圖查詢和微博盡管在表述上相似,但仍有區(qū)別。為此我們希望識別出源域與目標(biāo)域中共有的特征表示,然后利用這些特征進(jìn)行知識遷移。類似于方法[10],我們把樣本類別高度相關(guān)的那些文本作為訓(xùn)練樣本,方法框架如圖2所示。其中,兩個橢圓分別表示源域藍(lán)色和目標(biāo)域大字紋,陰影區(qū)域代表實例可以很好地解釋分類模型。我們很希望可以由源域訓(xùn)練數(shù)據(jù)學(xué)習(xí)到目標(biāo)域的真實標(biāo)記(圖2中虛線部分),但在實際中很難實現(xiàn)。因而我們把學(xué)習(xí)過程分成兩個階段,在第一階段,我們利用源域和目標(biāo)域共同部分訓(xùn)練初始分類模型;在第二階段,利用目標(biāo)域特有特征去學(xué)習(xí)適應(yīng)目標(biāo)域的新模型。
圖2 兩階段的領(lǐng)域自適應(yīng)微博消費意圖識別框圖
3.1 系統(tǒng)框架描述 本文方法的系統(tǒng)框架如圖3所示。
在第一階段中,首先利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)共有部分的特征學(xué)習(xí)詞向量表示,初始化學(xué)習(xí)一個分類模型,這里共有部分的特征使用了查詢和微博的詞特征集合,通過詞向量表示方法把各個領(lǐng)域的數(shù)據(jù)從原始高維詞特征空間映射到低維詞特征空間,并對目標(biāo)域數(shù)據(jù)進(jìn)行初始分類;在第二階段,從初始分類模型為目標(biāo)領(lǐng)域標(biāo)注的數(shù)據(jù)中,選擇置信度高的微博標(biāo)注文本作為偽標(biāo)注微博消費意圖文本,然后重新訓(xùn)練分類器,以對目標(biāo)數(shù)據(jù)再次判別類別,以確定數(shù)據(jù)的真實標(biāo)注類別。
3.2 基于自然標(biāo)注的初始模型訓(xùn)練
自然標(biāo)注資源,是指不同媒體用戶在互聯(lián)網(wǎng)上生成的各種資源,用戶在無意中為這些資源做了一定程度的義務(wù)“標(biāo)注”,如論壇、用戶日志、百度百科、微博等[11]。我們主要利用了用戶查詢?nèi)罩局械淖匀粯?biāo)注資源,基本思想是利用用戶點擊電商網(wǎng)站的查詢,獲取大量的具有消費意圖的查詢及點擊標(biāo)題,以此為基礎(chǔ)訓(xùn)練查詢的消費意圖識別分類器。
為構(gòu)建消費意圖識別的初始訓(xùn)練模型,首先收集電商網(wǎng)站鏈接(URL)。電商網(wǎng)站鏈接可以從分類網(wǎng)站目錄中抽取(為了降低噪聲,本文人工定義了八類URL,見4.1.1節(jié))。然后我們對查詢以及點擊的標(biāo)題文本進(jìn)行分詞,利用詞向量表示將每個詞映射成k維實數(shù)向量(本文設(shè)k的值為200維),即將詞表征為實數(shù)值向量,然后針對源域和目標(biāo)域數(shù)據(jù)中的句子,把句中出現(xiàn)的每個詞向量對應(yīng)相加然后除以詞數(shù),得到每句話的向量特征表示。最后基于共同的語義特征在源域上訓(xùn)練初始分類器。
目前,基于神經(jīng)網(wǎng)絡(luò)的詞向量表示(word embedding)方法在詞語語義表示方面表現(xiàn)出很好 的 性 能,
受到廣泛關(guān)注,包括Word2Vec*http: //word2vec.googlecode.com/svn/trunk,C&W 2008[12]、M&H 2009[13]、Mikolov 2013[14]等。各種詞表示方法之間沒有絕對的優(yōu)劣之分,其性能的好壞往往取決于待處理的具體問題及待處理數(shù)據(jù)的效率要求等。本文選擇目前較流行的Word2Vec的訓(xùn)練方法來實現(xiàn)詞向量表示。
3.3 基于偽相關(guān)反饋的微博文本消費意圖識別
基于偽相關(guān)反饋的思想,假設(shè)將上述初始分類系統(tǒng)返回的置信度高的文本作為消費意圖類微博。微博文本一般都含有自己的結(jié)構(gòu)特征,針對其特定的結(jié)構(gòu),本文在實現(xiàn)偽相關(guān)反饋的微博消費意圖識別時共使用了四類11個特征,表2詳細(xì)描述了每類特征。
表2 微博文本消費意圖識別的特征描述
(2) 微博影響力特征??梢杂^察到,用戶發(fā)布微博文本的內(nèi)容與用戶影響力具有一定的正相關(guān)性。認(rèn)證用戶通常很少發(fā)布消費意圖類微博,而消費意圖類微博也很少被用戶大量轉(zhuǎn)發(fā)和評論。此外,微博上有一些廣告用戶會關(guān)注大量用戶,但是被關(guān)注數(shù)卻很少。此外,本文采用文獻(xiàn)[11]中提出的用戶信譽(yù)度概念,作為一維特征。用戶信譽(yù)度用以描述一個用戶的關(guān)注行為特征,計算公式如式(1)。
(1)
(3) 微博發(fā)布特征。通常情況下,人們發(fā)布消費意圖類微博時是以普通方式發(fā)布在社會媒體平臺上的,而廣告、活動等非消費意圖的微博常利用第三方開發(fā)的微博管理應(yīng)用工具定時發(fā)布,實現(xiàn)定時發(fā)布微博、定時轉(zhuǎn)發(fā)微博等功能,這時微博平臺會記錄微博發(fā)布的來源,我們把微博發(fā)布源作為一種特征。
(4) 觸發(fā)詞特征?!坝|發(fā)詞(Trigger)”的概念出自于事件抽取等研究領(lǐng)域,它是指能夠清楚表達(dá)事件發(fā)生的詞,如“出生”、“爆炸”等。通過分析我們發(fā)現(xiàn),一個消費意圖句中通常包含有兩個主要元素,分別是觸發(fā)詞和消費對象。其中,觸發(fā)詞表明文本中的消費意圖,而消費對象表明消費意圖的目標(biāo)。在本文中,我們利用依存句法工具LTP[5]來獲得觸發(fā)詞及對應(yīng)的消費對象。觸發(fā)詞定義由動詞在消費意圖句(正例)和非消費意圖句(負(fù)例)中的相關(guān)頻率決定。這個動詞wv的相關(guān)頻率的權(quán)重得分score(wv)基于式(2)計算。
(2)
我們利用文獻(xiàn)[11]中的觸發(fā)詞列表,其中包含818個觸發(fā)詞,分別有52個消費意圖觸發(fā)詞和766 個非消費意圖觸發(fā)詞。表3列出了top-k個觸發(fā)詞,可以看出消費意圖觸發(fā)詞中“求購”、“想買”、“推薦”等都是很強(qiáng)烈的購買意愿。在非消費意圖觸發(fā)詞中,如“免費”、“參加”、“轉(zhuǎn)發(fā)”等與消費意圖沒有明顯的關(guān)系。
觸發(fā)詞特征實例如圖4所示。
表3 消費意圖觸發(fā)詞和非消費意圖觸發(fā)詞實例
圖4 觸發(fā)詞相關(guān)特征實例
4.1 實驗數(shù)據(jù) 本文在新浪微博用戶發(fā)布的微博文本內(nèi)容集合上進(jìn)行了構(gòu)建大規(guī)模消費意圖語料的相關(guān)實驗。在種子語料集合中,本文使用了百度搜索引擎記錄的查詢?nèi)罩緮?shù)據(jù)集合。實驗使用的微博語料數(shù)據(jù)集合和查詢?nèi)罩炯戏謩e來自于利用微博API自動抓取的2012年3月的11 854 002條微博數(shù)據(jù)和百度2012年3月共1個月1億條查詢。其中,微博數(shù)據(jù)記錄了微博文本相關(guān)信息及其對應(yīng)的用戶信息。百度查詢?nèi)罩局邪糠謨?nèi)容,分別是查詢、查詢點擊的URL及查詢點擊的標(biāo)題。
4.1.1 種子數(shù)據(jù)準(zhǔn)備
在本文實驗中選取了八個網(wǎng)站作為消費意圖查詢點擊的鏈接,并從百度查詢?nèi)罩局谐槿〕鳇c擊了相關(guān)網(wǎng)站的查詢作為消費意圖查詢(本文僅進(jìn)行信息類的消費意圖研究,因而過濾了導(dǎo)航類和事務(wù)類查詢),訓(xùn)練集合中的URL列表如表4所示。此外,我們隨機(jī)抽取60 000條查詢作為非消費意圖查詢。
續(xù)表
表4 訓(xùn)練集合中URL列表
4.1.2 微博文本數(shù)據(jù)預(yù)處理
本文對微博語料進(jìn)行了兩方面的數(shù)據(jù)預(yù)處理。一是使用文獻(xiàn)[2]中的方法對垃圾微博文本進(jìn)行過濾。二是為使數(shù)據(jù)正負(fù)比例平衡,我們選取了必須包含本文定義的四類產(chǎn)品名稱的微博文本作為處理對象。表5中列出了經(jīng)過上述數(shù)據(jù)預(yù)處理后,利用四個領(lǐng)域詞表抽取出的微博數(shù)量。
表5 四個領(lǐng)域產(chǎn)品類別對應(yīng)的微博數(shù)量
4.1.3 測試數(shù)據(jù)集
由于二元分類的方法需要測試語料,而目前國內(nèi)外并沒有公開發(fā)布的相關(guān)語料,因此,本實驗通過人工標(biāo)注的方法構(gòu)建測試集。我們從微博語料中隨機(jī)抽取出5 000條微博,將其交由兩名標(biāo)注者和一名仲裁者進(jìn)行標(biāo)注。其標(biāo)注流程為: (1)由兩名標(biāo)注者分別對抽取出的數(shù)據(jù)進(jìn)行獨立標(biāo)注,每一條候選微博消費意圖文本被標(biāo)注為正例(消費意圖)或負(fù)例(非消費意圖); (2)計算兩名標(biāo)注者的標(biāo)注一致性,我們通過計算得到兩組標(biāo)注結(jié)果的Kappa值為0.861,這說明兩名標(biāo)注者的一致性很高; (3)由仲裁者對兩名標(biāo)注者意見不同的數(shù)據(jù)進(jìn)行重新標(biāo)注,并將其標(biāo)注作為最終標(biāo)注結(jié)果。依照上述過程,我們共從5 000條微博文本中過濾廣告后進(jìn)行標(biāo)注,得到正例和負(fù)例分別是431條和2 530文本。
4.2 評價方法
我們首先利用上述標(biāo)注數(shù)據(jù)對本文提出的分類特征進(jìn)行評價。這里我們采用的評價指標(biāo)包括準(zhǔn)確率P、召回率R以及F值F。具體定義為:P=|A∩B|/|A|;R=|A∩B|/|B|;F=2PR/(P+R)。其中,A表示分類器識別為正例的數(shù)據(jù)集合,B表示人工標(biāo)注為正例的數(shù)據(jù)集合。
4.3 對比實驗系統(tǒng)
為證明跨領(lǐng)域消費意圖識別中的有效性,我們將其與利用詞袋特征訓(xùn)練的SVM分類器進(jìn)行了對比。本實驗所使用的SVM分類器為libsvm-2.82*http: //www.cite.nt.deu.tw/cjlin/libsvm,我們利用詞向量(bag-of-words)特征在自動標(biāo)注的查詢?nèi)罩鞠M意圖數(shù)據(jù)集上對SVM分類器進(jìn)行實驗,并在微博文本測試集上進(jìn)行分類。
? SVM-Q(BOW): 利用源域中的查詢詞項作為訓(xùn)練語料構(gòu)建分類器。
? SVM-T(BOW): 利用源域中的查詢點擊標(biāo)題中的詞項作為訓(xùn)練語料構(gòu)建分類器。
? SVM-QT(BOW): 利用自然標(biāo)注語料中的查詢以及查詢點擊的標(biāo)題中的詞項作為訓(xùn)練語料構(gòu)建分類器。
? SVM-QT(BOW-Word2Vec): 利用大規(guī)模的查詢及查詢點擊的標(biāo)題中的詞項訓(xùn)練一個詞向量表示。這里,我們用Word2Vec將單詞轉(zhuǎn)換成向量形式,然后對每一條文本中的詞向量加和求平均,來表示每條文本詞向量特征。利用查詢及點擊標(biāo)題中的詞項和詞向量表示作為特征構(gòu)建分類器。
5.1 基于用戶自然標(biāo)注的微博消費意圖識別方法 的評價 為考察本文所使用的自然標(biāo)注的語料是否對微博消費意圖識別產(chǎn)生作用,我們對在4.3節(jié)提出的基準(zhǔn)方法進(jìn)行了對比,其實驗結(jié)果見表6。從表6中我們可以看到,對于僅利用查詢詞特征,即表6中的SVM-Q(BOW)基線實驗時,系統(tǒng)的性能很低,主要是由于查詢是關(guān)鍵詞的意圖表示方式,與微博文本的自然語言表示方法有著明顯區(qū)別。而查詢點擊的標(biāo)題相當(dāng)于一種自然語言的表示方式,因而性能會隨之提升,當(dāng)隨著查詢詞項和點擊標(biāo)注詞項加入到訓(xùn)練語料中,分類F值達(dá)到63.32%。這說明本文所使用的基于自然標(biāo)注的訓(xùn)練語料對于提高二元分類的性能是有幫助的。也就是說,查詢關(guān)鍵詞和點擊標(biāo)注關(guān)鍵詞均有助于微博消費意圖的識別。在此基礎(chǔ)上,當(dāng)加入詞表示特征(Word2Vec)后,系統(tǒng)的性能有了進(jìn)一步的提升,這也證明了本文提出方法的有效性。
表6 基于自然標(biāo)注的微博消費意圖識別
5.2 基于弱指導(dǎo)的微博消費意圖識別方法的評價
上面的實驗驗證了領(lǐng)域自適應(yīng)學(xué)習(xí)方法的有效性。接下來,我們通過實驗考察在目標(biāo)域數(shù)據(jù)標(biāo)記判別學(xué)習(xí)時本文使用的四類特征是否對微博消費意圖識別都有作用,我們進(jìn)行了四組實驗,每組實驗依次加入基于視覺的特征、影響力特征、發(fā)布特征、微博觸發(fā)詞特征,其實驗結(jié)果如表7所示。從表7中可以看到,隨著加入每一類特征,分類的F值都有明顯提高。尤其是當(dāng)使用全部四類特征時,分類準(zhǔn)確率、召回率和F值均達(dá)到最高。這一結(jié)果說明本文所采用的四類特征對于提高二元分類的性能都是有幫助的。也就是說,全部四類特征均有助于微博文本消費意圖的識別。
表7 四類特征的貢獻(xiàn)
本文首次提出基于用戶自然標(biāo)注的消費意圖識別方法,并將此方法作為一個領(lǐng)域自學(xué)習(xí)問題加以研究。具體的,文章的貢獻(xiàn)可以總結(jié)為以下幾個方面: (1)提出一種自動生成查詢消費意圖識別訓(xùn)練語料的方法,解決了有指導(dǎo)方法需要大量人工標(biāo)注訓(xùn)練數(shù)據(jù)的問題,并且通過實驗驗證了自動獲取和標(biāo)注的訓(xùn)練數(shù)據(jù)的質(zhì)量; (2)基于半監(jiān)督的方法自動標(biāo)注了大規(guī)模無標(biāo)注數(shù)據(jù)集,解決了對無標(biāo)注語料進(jìn)行自動標(biāo)注的困難,并且通過實驗驗證了方法的有效性; (3)在對目標(biāo)領(lǐng)域的模型構(gòu)建中,嘗試了多種特征,既包括前人使用過的基于文本內(nèi)容特征,又包括本文提出的基于視覺特征和用戶信息特征。本文對多種特征加以融合、比較和分析,希望其結(jié)論對后續(xù)的研究有所裨益。
[1] Dai H K, Zhao L,Nie Z, et al. Detecting online commercial intention (OCI)[C]//Proceedings of the 15th international conference on World Wide Web. ACM, 2006: 829-837.
[2] Ashkan A, Clarke C L A. Term-based commercial intent analysis[C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval. ACM, 2009: 800-801.
[3] 陳磊, 劉奕群, 茹立云, 等. 基于用戶日志挖掘的搜索引擎廣告效果分析[J]. 中文信息學(xué)報, 2008, 22(6): 92-97.
[4] Jansen B J. The comparative effectiveness of sponsored andnonsponsored links for Web e-commerce queries[J]. ACM Transactions on the Web (TWEB), 2007, 1(1): 3.
[5] Goldberg A B, Fillmore N, Andrzejewski D, et al. May All Your Wishes Come True: A Study of Wishes and How to Recognize Them[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. 2009: 263-271.
[6] Z Chen, B Liu, M Hsu, et al. Identifying intention posts in discussion forums[C]//Proceedings of the HLT-NAACL, 2013. 1041-1050.
[7] Yang H, Li Y. Identifying user needs from social media[R]. IBM Tech Report. goo.gl/2XB7NY, 2013.
[8] Fu B, LIU T. Weakly-supervised consumption intent detection in microblogs[J]. Journal of Computational Information Systems, 2013, 6(9): 2423-2431.
[9] 莊福振,羅平,何清,史忠植.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報,2015,26(1): 26-39.
[10] Jiang J,Zhai C X. A two-stage approach to domain adaptation for statistical classifiers[C]//Proceedings of the sixteenth ACM conference on Conference on information and knowledge management.ACM, 2007: 401-410.
[11] 孫茂松. 基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語言處理[J]. 中文信息學(xué)報, 2011, 25(6): 26-32.
[12] Collobert R, Weston J. A unified architecture for natural language processing: Deep neural networks with multitask learning[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 160-167.
[13] Mnih A, Hinton G E. A scalable hierarchical distributed language model[C]//Advances in neural information processing systems. 2009: 1081-1088.
[14] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv: 1301.3781, 2013.
[15] Q Liu, Y Wang, J Li, et al. Predicting user likes in online media based on conceptualized social network profiles.//Web Technologies and Applications.Springer, 2014: 82-92.
付博(1983—),博士,主要研究領(lǐng)域為社會計算,自然語言處理、信息檢索。
E-mail: bfu1983@163.com
陳毅恒(1979—),博士,講師,主要研究領(lǐng)域為社會計算、自然語言處理、信息檢索。
E-mail: yhchen@ii.hit.edu.cn
邵艷秋(1971—),博士,主要研究領(lǐng)域為自然語言處理、語言監(jiān)測、社會計算。
E-mail: yashao@pku.edu.cn
Consumption Intent Recognition Based on User Natural Annotation
FU Bo1, CHEN Yiheng1, SHAO Yanqiu2, LIU Ting1
(1. Research Center for Social Computing and Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin, Heilongjiang 150001, China;2. School of Information Sciences, Beijing Language and Culture University, Beijing 100083, China)
1003-0077(2017)04-0208-08
TP391
A
2015-10-20 定稿日期: 2016-04-08
國家青年科學(xué)基金(61202277);國家自然科學(xué)基金(61170144,61472107)