孫麗霞 山東外事翻譯職業(yè)學(xué)院
基于查詢?nèi)罩镜南M(fèi)意圖挖掘分析
孫麗霞 山東外事翻譯職業(yè)學(xué)院
隨著互聯(lián)網(wǎng)的普及,在線廣告成為人們生活中不可缺少的一部分。而用戶在搜索行為中包含了大量的內(nèi)容豐富的信息,這些信息中有相當(dāng)數(shù)量都表現(xiàn)了用戶的消費(fèi)意圖。本文在進(jìn)行了充分的預(yù)處理后,在數(shù)據(jù)上進(jìn)行特征的分析和抽取, 利用SVM分類器結(jié)合抽取出的特征進(jìn)行測(cè)試,提出對(duì)用戶搜索的消費(fèi)意圖具有較高的區(qū)分能力的方法。
消費(fèi)意圖識(shí)別;二元分類模型;SVM
在網(wǎng)絡(luò)上投放廣告已經(jīng)成為了一種十分普遍,十分重要,收益簡(jiǎn)單高效的廣告投放方式。在我們點(diǎn)擊網(wǎng)頁的時(shí)候,不經(jīng)意間就能看到各種各樣的廣告。隨著在線廣告的不斷普及,越來越多的銷售商希望通過在線廣告來提升自己產(chǎn)品的知名度,提高自己產(chǎn)品的銷量。這樣一來,搜索引擎便成為了銷售商進(jìn)行產(chǎn)品推銷的一個(gè)重要媒介。一些搜索引擎,如百度,搜狗等,都會(huì)記錄用戶的訪問信息,例如,百度的查詢?nèi)罩揪陀捎脩羲阉髡Z句、用戶點(diǎn)擊標(biāo)題、用戶點(diǎn)擊URL三部分組成。其中,有些信息顯示了用戶意圖是期望購買某類產(chǎn)品的內(nèi)容。消費(fèi)對(duì)象能更好地反映出用戶的消費(fèi)興趣,真實(shí)的消費(fèi)需求和消費(fèi)類別。
第一步需要準(zhǔn)確確定有意圖或者無意圖一個(gè)標(biāo)準(zhǔn),這樣才能判斷最終得到的系統(tǒng)給出的結(jié)果是不是正確的。首先,需要得到用戶的真實(shí)查詢語句,在大量的,真實(shí)的語料上進(jìn)行分析。準(zhǔn)確的判斷出用戶的一條查詢究竟是有意圖的還是無意圖的。
在確定了標(biāo)準(zhǔn)之后,需要根據(jù)這些數(shù)據(jù)抽取特征。所謂特征,也就是一個(gè)規(guī)則,這個(gè)規(guī)則可以較為有效的分辨出用戶的查詢是有意圖或者無意圖。在多個(gè)特征的基礎(chǔ)上,下一步就是確定如何利用這多個(gè)特征進(jìn)行分類,因而就需要找到一個(gè)合適的分類模型,然后利用抽取出的多維特征,在數(shù)據(jù)上將每一條語句表示成一個(gè)由多個(gè)特征組成的向量,然后把這個(gè)向量交給分類器去處理。分類器則會(huì)計(jì)算每一個(gè)特征對(duì)這條語句是否是有意圖查詢的影響程度。進(jìn)而計(jì)算出每一個(gè)特征影響的權(quán)重,當(dāng)一個(gè)新的查詢到來的時(shí)候,可以利用分類器訓(xùn)練出來的模型進(jìn)行測(cè)試,進(jìn)而得出結(jié)果,判斷出該條查詢是否具有消費(fèi)意圖。
LibSvm是臺(tái)灣大學(xué)林智仁(Lin Chih-Jen)教授等開發(fā)設(shè)計(jì)的一個(gè)簡(jiǎn)單、易于使用和快速有效的SVM模式識(shí)別與回歸的軟件包,他不但提供了編譯好的可在Windows系列系統(tǒng)的執(zhí)行文件,還提供了源代碼,方便改進(jìn)、修改以及在其它操作系統(tǒng)上應(yīng)用;該軟件對(duì)SVM所涉及的參數(shù)調(diào)節(jié)相對(duì)比較少,提供了很多的默認(rèn)參數(shù),利用這些默認(rèn)參數(shù)可以解決很多問題;并提供了交互檢驗(yàn)(Cross Validation)的功能。該軟件可以解決C-SVM、ν-SVM、ε-SVR和ν-SVR等問題,包括基于一對(duì)一算法的多類模式識(shí)別問題。
SVM是最常用的二元分類器之一。支持向量機(jī)SVM作為一種可訓(xùn)練的機(jī)器學(xué)習(xí)方法,依靠小樣本學(xué)習(xí)后的模型參數(shù)進(jìn)行導(dǎo)航星提取,可以得到分布均勻且恒星數(shù)量大為減少的導(dǎo)航星表。
SVM分類器即可以解決線性分類問題,也可以解決非線性分類問題。在解決非線性分類問題上,SVM采用了核函數(shù)的方法,可以將低維空間的非線性問題映射為高維空間的線性問題,并且?guī)缀醪辉黾佑?jì)算復(fù)雜度,在一定程度上避免了其他機(jī)器學(xué)習(xí)算法的“維度災(zāi)難”的問題。SVM分類器中常用的幾種核函數(shù)包括:(1)線性核函數(shù),如公式(1-1)所示;(2)多項(xiàng)式核函數(shù),如公式(1-2)所示;(3)徑向基函數(shù),如公式(1-3)所示;(4)二層神經(jīng)網(wǎng)絡(luò)核函數(shù),如公式(1-4)所示。
如果想對(duì)消費(fèi)意圖進(jìn)行準(zhǔn)確的分類,首先就要有一個(gè)高質(zhì)量的初始語料庫。本數(shù)據(jù)來源于百度2012年3月份的部分用戶查詢數(shù)據(jù)。數(shù)據(jù)由用戶查詢語句、用戶點(diǎn)擊標(biāo)題、用戶點(diǎn)擊URL三部分組成。
用戶查詢語句:用戶在搜索框中輸入的內(nèi)容
用戶點(diǎn)擊標(biāo)題:用戶點(diǎn)擊的網(wǎng)頁對(duì)應(yīng)的title
用戶點(diǎn)擊URL:用戶點(diǎn)擊的網(wǎng)頁對(duì)應(yīng)的URL
由于人們對(duì)消費(fèi)意圖這一概念比較模糊,而且對(duì)于不同的人,會(huì)有不同的理解,所以在這里嚴(yán)格定義消費(fèi)意圖的概念如下:
(1)用戶搜索語句或點(diǎn)擊標(biāo)題中有明確的購買意向,如 “求推薦一部性價(jià)比高的手機(jī)”這條語料都很明確的具有消費(fèi)意圖,指出了消費(fèi)對(duì)象,并出現(xiàn)了購買觸發(fā)詞,如“推薦”“求”等。
(2)明確的指出了購買意向,但沒有觸發(fā)詞“水貨智能機(jī),1000元以內(nèi)”這類數(shù)據(jù)雖然沒有出現(xiàn)購買意愿詞,但是仍然可以認(rèn)為這些語料具有顯式消費(fèi)意圖。
(3)用戶點(diǎn)擊網(wǎng)站的標(biāo)題具有消費(fèi)意圖傾向“三星Galaxy S6 報(bào)價(jià)_中關(guān)村在線”
這類數(shù)據(jù)可能用戶只搜索了“三星Galaxy s6”,單單從這個(gè)搜索中,我們并不能確定該查詢具有消費(fèi)意圖,但是從用戶的點(diǎn)擊上可知其應(yīng)當(dāng)具有消費(fèi)傾向。
(4)用戶點(diǎn)擊的URL中包含電商網(wǎng)站
如用戶搜索“手機(jī)”后,點(diǎn)擊淘寶網(wǎng),僅僅通過搜索詞并不能看出用戶具有消費(fèi)意圖,但是通過用戶點(diǎn)擊的URL:http://www. taobao.com/,可以判定用戶的點(diǎn)擊行為具有消費(fèi)意圖。
一個(gè)消費(fèi)意圖二元分類系統(tǒng),主要針對(duì)用戶的搜索數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,進(jìn)而在數(shù)據(jù)上進(jìn)行特征的分析和抽取,最終利用特征選擇模塊,獲得了最優(yōu)特征。
[1]張鴻, 莊越挺, 吳飛. 一種基于內(nèi)容相關(guān)性的跨媒體檢索方法. 計(jì)算機(jī)學(xué)報(bào). 2010, 31(5): 820-826.
[2]H. K. Dai, L. Zhao, Z. Nie, J.-R. Wen, L. Wang, and Y. Li. Detecting online commercial intention (oci). In Proc. of WWW '06, pages 829-837, 2006.
[3]趙妍妍, 秦兵, 劉挺. 文本情感分析. 軟件學(xué)報(bào). 2010, 21(8):1834-1848.
[4]劉非凡, 趙軍, 呂碧波, 徐波, 于浩, 夏迎炬. 面向商務(wù)信息抽取的產(chǎn)品命名實(shí)體識(shí)別研究. 中文信息學(xué)報(bào). 2006, 20(1): 7-13.
孫麗霞,女,1982年出生,民族∶漢,籍貫∶山東省乳山市人,學(xué)歷∶本科,職稱∶講師,主要研究方向∶計(jì)算機(jī)軟件工程。