李思琴 林磊 孫承杰
摘 要:廣告點(diǎn)擊率的預(yù)測是搜索廣告進(jìn)行投放的基礎(chǔ)。目前已有的工作大多數(shù)使用線性模型或基于推薦方法的模型解決點(diǎn)擊率預(yù)測問題,但這些方法沒有對特征之間的關(guān)系進(jìn)行深入的探索,無法完全體現(xiàn)廣告點(diǎn)擊預(yù)測中各個特征之間的關(guān)系。本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的搜索廣告點(diǎn)擊率預(yù)測的方法,闡述了卷積神經(jīng)網(wǎng)絡(luò)在特征的學(xué)習(xí)上模擬人的思維過程,并進(jìn)一步分析了不同特征在廣告點(diǎn)擊率預(yù)測中的作用,在KDD Cup 2012中Track 2數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的方法能夠提高搜索廣告點(diǎn)擊率的預(yù)測效果,其AUC值達(dá)到0.7925。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);點(diǎn)擊率預(yù)測;搜索廣告
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識號:A 文章編號:2095-2163(2015)04-
Click-Through Rate Prediction for Search Advertising based on Convolution Neural Network
LI Siqin, LIN Lei, SUN Chengjie
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: Click-Through Rate (CTR) prediction is the foundation of search advertising. Nowadays, lots of researches have been explored to predict CTR, and most of those researches either rely on liner model or employ method of recommendation system. However, the relations between different features in CTR predication have not been fully explored in previous works, and the relations between different features also cannot be fully embodied. In this paper, CTR prediction for search advertising based on convolution neural network is proposed, and process of convolution neural network simulating the process of human thought on feature learning is explained. Furthermore, the performance of different features have been analyzed in the task of predicting CTR. Experiments are conducted on the dataset of KDD Cup 2012 Track2 and the proposed method achieves 0.7925 in AUC, demonstrating the effectiveness of the proposed approach.
Keywords: Convolution Neural Network; Click-Through Rate Prediction; Search Advertising
0 引 言
隨著Web搜索技術(shù)的成熟,搜索廣告已經(jīng)成為互聯(lián)網(wǎng)行業(yè)的主要收入來源之一,其根據(jù)用戶輸入的查詢詞,在搜索的結(jié)果頁面呈現(xiàn)出相應(yīng)的廣告信息。廣告媒介的收益通過每次點(diǎn)擊費(fèi)用(CostPerClick,CPC)與廣告點(diǎn)擊率(Click-Through Rate,CTR)預(yù)測共同影響而得到,即CPC*CTR。由于用戶點(diǎn)擊廣告的概率隨著廣告位的排放順序呈遞減趨勢,因此對CTR進(jìn)行準(zhǔn)確高效的預(yù)測,并將CTR高的廣告投放在搜索結(jié)果頁面靠前的位置,不僅能增加廣告媒介的收益,還能提高用戶對搜索結(jié)果的滿意程度。
廣告點(diǎn)擊率預(yù)測是廣告算法中最核心的技術(shù),近年來被學(xué)術(shù)界廣泛關(guān)注。部分學(xué)者使用基于推薦方法的模型來解決CTR預(yù)測問題?;魰则E等人[1]采用協(xié)同過濾算法,為頁面找到與其相似的其他鄰居頁面,實(shí)現(xiàn)CTR的預(yù)測,以此作為基礎(chǔ)進(jìn)行廣告推薦,但當(dāng)相似頁面的數(shù)量增加時(shí),該方法的結(jié)果質(zhì)量會嚴(yán)重下滑。Kanagal等人[2]提出了一種聚焦矩陣分解模型,針對用戶對具體的產(chǎn)品的喜好以及相關(guān)產(chǎn)品的信息進(jìn)行學(xué)習(xí),解決因用戶-產(chǎn)品交互活動少而造成的數(shù)據(jù)稀疏問題。在文獻(xiàn)[2]的基礎(chǔ)上,Shan等人[3]提出了一種立方矩陣分解模型,通過對用戶、廣告和網(wǎng)頁三者之間關(guān)系的立方矩陣進(jìn)行分解,利用擬合矩陣的值來預(yù)測CTR,雖然立方矩陣分解模型增加了一維交互關(guān)系,但所刻畫的交互關(guān)系仍然十分局限,不能在CTR預(yù)測中充分挖掘廣告所有特征之間的聯(lián)系。
作為典型的預(yù)測問題,很多研究中通過將CTR預(yù)測問題看作分類或者回歸問題來解決,其中最常見的是應(yīng)用線性模型來預(yù)測CTR。Chapelle等人[4]使用動態(tài)貝葉斯網(wǎng)絡(luò),通過對用戶產(chǎn)生的點(diǎn)擊過程建立模型,考慮級聯(lián)位置的信息模擬出特定位置與相近位置的相關(guān)性,以判斷該位置上的廣告是否滿足用戶搜索要求。Chakrabarti等人[5]利用點(diǎn)擊反饋的相關(guān)性,通過在網(wǎng)頁和廣告詞等特征上使用邏輯回歸模型提高廣告檢索和預(yù)測的效果。Wu等人[6]基于融合的思想,將不同線性模型的實(shí)驗(yàn)效果相結(jié)合,來提高搜索廣告CTR預(yù)測的結(jié)果。真實(shí)的場景中CTR的預(yù)測并非簡單的線性問題,因此,一些學(xué)者開始使用非線性模型來解決CTR的預(yù)測。Dave等人[7]在搜索廣告點(diǎn)擊信息以及廣告商賬戶信息上提取語義特征,使用基于投票思想的梯度提升決策樹模型,提高了CTR預(yù)測的效果。Zhang等人[8]利用神經(jīng)網(wǎng)絡(luò)模型對影響搜索廣告點(diǎn)擊率的因素進(jìn)行的探索,從特征因素方面提高CTR預(yù)測的結(jié)果,但是資源單一,數(shù)據(jù)交互的關(guān)系沒有獲得良好的利用。
本文對基于卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)的CTR預(yù)測進(jìn)行研究,通過卷積與亞采樣操作的結(jié)合,能更好地學(xué)習(xí)出數(shù)據(jù)特征之間的關(guān)系,不僅解決了線性模型無法模擬真實(shí)廣告數(shù)據(jù)場景的問題,也解決了淺層學(xué)習(xí)模型無法深入挖掘特征間相互關(guān)系的問題,并且較之于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),CNN能更好地理解特征之間的關(guān)系。在真實(shí)的數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了本文的方法能夠提高搜索廣告中CTR預(yù)測的AUC值。
1卷積神經(jīng)網(wǎng)絡(luò)模型
1.1 卷積神經(jīng)網(wǎng)絡(luò)基本模型
卷積神經(jīng)網(wǎng)絡(luò)作為人工神經(jīng)網(wǎng)絡(luò)之一,目前已成為深度學(xué)習(xí)領(lǐng)域中研究的熱點(diǎn),權(quán)值共享以及局部窗口滑動的特點(diǎn)使之能更好地模擬出生物神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上有兩個重要的組成部分:卷積層和亞采樣層。如圖1所示。
圖1 卷積層與亞采樣層結(jié)構(gòu)
Fig.1 Convolution layer and sub-sampling layer structure
在卷積層中,原始特征通過卷積核進(jìn)行卷積得到輸出的特征,使用不同的卷積核就可以得到一系列不同的輸出特征。對卷積層的計(jì)算,有如下公式:
(1)
這里, 是sigmoid 函數(shù), , ; 代表輸入特征上選定的窗口,即在卷積過程中當(dāng)前卷積核在計(jì)算時(shí)所對應(yīng)在輸入特征上的位置; 和 分別是第 層輸入特征和第 層輸出特征上相應(yīng)的值; 是卷積核的權(quán)重值; 是特征的偏置,每一層對應(yīng)一個。
卷積過程,一個卷積核通過滑動會重復(fù)作用在整個輸入特征上,構(gòu)建出新的特征。同一個卷積核進(jìn)行卷積時(shí),共享相同的參數(shù),包括同樣的權(quán)重和偏置,這也使要學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)數(shù)量大大降低了。而當(dāng)我們使用不同的卷積核進(jìn)行卷積時(shí),可以得到相應(yīng)的不同的輸出特征,這些輸出特征組合到一起,構(gòu)成卷積層的輸出。
在亞采樣層,前一個卷積層的輸出將作為該層的輸入特征,首先設(shè)定大小的窗口,然后通過滑動,用窗口區(qū)域中最大(或平均)的特征值來表示該窗口中的特征值,最后組合這些特征值得到降維后的特征。亞采樣過程可表示如下:
(2)
這里,類似于卷積層, 和 分別是第 層輸入特征和第 層輸出特征上相應(yīng)的值, 是特征的偏置; 表示取最大值 或者平均值 的函數(shù)。
典型的卷積神經(jīng)網(wǎng)絡(luò)通常由n(n>=1)個卷積層和亞采樣層以及最末尾的m(m>=1)全連接層組合而成。一個亞采樣層跟隨在一個卷積層后出現(xiàn),通過這若干卷積層和亞采樣層后得到的特征,將經(jīng)過全連接層與輸出層相連。全連接層公式如下:
(3)
這里, 是sigmoid函數(shù), 是計(jì)算第 層到第 層時(shí)的權(quán)重值。
1.2基于卷積神經(jīng)網(wǎng)絡(luò)的CTR預(yù)測模型
研究中使用卷積神經(jīng)網(wǎng)絡(luò)對搜索廣告的CTR進(jìn)行預(yù)測,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)在搜索廣告點(diǎn)擊率預(yù)估中的應(yīng)用
Fig.2 Convolution neural network in search ad click rate through prediction
實(shí)驗(yàn)中一共設(shè)置了兩個卷積層、兩個亞采樣層以及一個全連接層。首先從歷史日志中提取相應(yīng)的特征構(gòu)建出輸入(Feature_Input),設(shè)置好卷積的窗口大小后根據(jù)公式(1)對輸入特征進(jìn)行卷積,每一次卷積是對窗口內(nèi)所有值的組合,因此卷積過程相當(dāng)于特征融合過程。對卷積后得到的特征,設(shè)置亞采樣的窗口并根據(jù)公式(2)進(jìn)行最大值-采樣,選取出窗口中的最有表達(dá)能力的特征值(最大特征值)表示整個窗口的特征,因此亞采樣過程相當(dāng)于特征的萃取過程。整個卷積和亞采樣過程的結(jié)合,模擬出了人對事物的理解和總結(jié)的過程。最后將特征經(jīng)過一層全連接后連接到輸出,得到最終的預(yù)測結(jié)果。
在一次特定的卷積(或亞采樣)全過程中即訓(xùn)練的一次迭代過程中,權(quán)值并不會隨著窗口的滑動而改變,即在計(jì)算中,所有窗口滑過的特征享受同樣的權(quán)值。這也是CNN區(qū)別于其他神經(jīng)網(wǎng)絡(luò)的特點(diǎn)——權(quán)值共享。如此即使得CNN更方便訓(xùn)練,更能多角度地對特征進(jìn)行學(xué)習(xí)。
2特征構(gòu)建
本文所采用的實(shí)驗(yàn)數(shù)據(jù)集為KDD Cup 2012中Track 2提供的數(shù)據(jù)集。該數(shù)據(jù)由騰訊公司下的搜索品牌搜搜(SOSO)搜索引擎提供,因?yàn)樯婕肮旧虡I(yè)信息,數(shù)據(jù)經(jīng)過哈希處理。實(shí)驗(yàn)數(shù)據(jù)集中,每條記錄包含12個屬性,各屬性詳解如表1所示。
研究按照實(shí)際含義將這12個屬性構(gòu)造了四大類特征:歷史點(diǎn)擊率特征、相似度特征、位置特征和高影響力特征。
2.1基于卷積神經(jīng)網(wǎng)絡(luò)的CTR預(yù)測模型
歷史點(diǎn)擊率特征是不同類別ID在歷史數(shù)據(jù)中的點(diǎn)擊率,雖然比較簡單但十分有效,因?yàn)闅v史點(diǎn)擊率在一定程度上代表了類別ID對某個廣告感興趣程度的高低,當(dāng)一個ID對某個廣告的歷史點(diǎn)擊率高時(shí),意味著其對這個廣告更感興趣,后續(xù)點(diǎn)擊的概率也更大。
歷史點(diǎn)擊率( )是點(diǎn)擊數(shù)( )與展示數(shù)( )之比,在統(tǒng)計(jì)計(jì)算過程發(fā)現(xiàn)有很多情況下有些類別信息沒有點(diǎn)擊實(shí)例,因此研究采用了平滑方法解決零值問題,根據(jù)公式(4)來計(jì)算平均點(diǎn)擊率。計(jì)算公式如下:
(4)
公式中的 和 是調(diào)節(jié)參數(shù),根據(jù)公式(4)計(jì)算出AdID,AdvertiserID,QueryID,KeywordID,TitleID,DescriptiomID,UserID的歷史點(diǎn)擊率。
2.2相似度特征
相似度特征用來刻畫屬性兩兩之間的相似程度,用戶搜索的內(nèi)容與被投放的廣告屬性相似度高時(shí),廣告被點(diǎn)擊的概率更大。例如當(dāng)搜索內(nèi)容Query與廣告關(guān)鍵字屬性Keyword相似度高時(shí),意味著網(wǎng)頁投放的廣告與用戶期望搜索的廣告結(jié)果相似度高,更符合用戶點(diǎn)擊廣告的動作。
通過對Query、Keyword、Title、Description的屬性描述文件構(gòu)造出相關(guān)的TF-IDF向量,Query為用戶搜索內(nèi)容,Keyword,Title,Description是廣告的相關(guān)屬性,數(shù)據(jù)集提供的屬性信息都是經(jīng)過哈希后的數(shù)字形式,但是屬性之間的相對含義不變,然后計(jì)算相互之間的余弦相似度作為特征。
2.3位置特征
該特征描述的是指定廣告在搜索結(jié)果頁面中的位置信息。用戶搜索時(shí)需求的多樣化要求在對廣告進(jìn)行排序和投放時(shí),在結(jié)果頁面靠前的位置中盡可能地投放滿足用戶需求的廣告,從而最大化用戶的滿意度、提高用戶點(diǎn)擊的興趣[9]。因此,研究即用當(dāng)前預(yù)測廣告的相對位置Pos來刻畫該廣告在結(jié)果頁面中排序靠前的程度,其定義如下:
(5)
這里, 指頁面投放的廣告總數(shù), 指當(dāng)前所預(yù)測廣告的位置。
2.4位置特征
在預(yù)測模型中,ID屬性信息通常采用one-hot形式的特征編碼方式,在將不同的屬性經(jīng)過one-hot編碼后的特征向量組合在一起,這樣方式簡單直觀,卻使得特征的維度巨大并且非常稀疏。然而在這龐大且稀疏的特征中,絕大部分維度上的特征值對整個模型的預(yù)測結(jié)果貢獻(xiàn)非常小甚至為零,只有少數(shù)維度上的特征值對預(yù)測結(jié)果有較高的影響力。因此研究采用L1范數(shù)正則化的方式,在邏輯回歸模型的代價(jià)函數(shù)中加入L1范數(shù)[10],使得模型學(xué)習(xí)得到的結(jié)果滿足稀疏化,在學(xué)習(xí)參數(shù)中按大小順序取出前N維權(quán)重較大的,將這N維權(quán)重對應(yīng)位置上的特征值構(gòu)建新的特征,稱為高影響力特征,考慮到實(shí)驗(yàn)硬件,取N=180。
3 實(shí)驗(yàn)結(jié)果與結(jié)論分析
3.1數(shù)據(jù)準(zhǔn)備
實(shí)驗(yàn)?zāi)繕?biāo)是通過給定的信息預(yù)測搜索網(wǎng)頁的廣告點(diǎn)擊率,由于數(shù)據(jù)量過大并且正負(fù)樣本不平衡,實(shí)驗(yàn)中從訓(xùn)練集隨機(jī)采樣10%作為本文實(shí)驗(yàn)中模型訓(xùn)練的訓(xùn)練集,既縮小了樣本空間,同時(shí)隨機(jī)采樣也保持了原始數(shù)據(jù)的分布信息。實(shí)驗(yàn)中隨機(jī)抽取部分樣本作為驗(yàn)證集用于參數(shù)的調(diào)節(jié)。本文所用測試集為 KDD Cup 2012中track 2的全部測試數(shù)據(jù),因此本文的結(jié)果與KDD Cup 2012中track 2比賽的結(jié)果具有可比性。數(shù)據(jù)的統(tǒng)計(jì)信息如表2所示。
這里, 、 分別表示結(jié)果中預(yù)測對的正樣本數(shù)和負(fù)樣本數(shù), 、 分別表示結(jié)果中預(yù)測錯的正樣本數(shù)和負(fù)樣本數(shù)。對于廣告點(diǎn)擊率預(yù)測問題,較大的AUC值代表了較好的性能。
3.2實(shí)驗(yàn)設(shè)置和結(jié)果分析
實(shí)驗(yàn)的操作系統(tǒng)為Ubuntu 12.04 LTS OS,卷積神經(jīng)網(wǎng)絡(luò)在4G RAM 的NVIDIA GeForce GT 610 GPU條件下運(yùn)行。過程中選用了Dense Gaussian對卷積層、亞采樣層的邊和節(jié)點(diǎn)進(jìn)行初始化,用常數(shù)初始化輸出層,學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)各邊權(quán)值時(shí)的優(yōu)化函數(shù)使用梯度下降算法,其中學(xué)習(xí)率為0.01、動量項(xiàng)為0.9,訓(xùn)練步數(shù)為100,設(shè)置公式(4)中參數(shù)α=0.05,β=75。實(shí)驗(yàn)時(shí)使用邏輯回歸模型(LR)、支持向量回歸模型(SVR)和深度神經(jīng)網(wǎng)絡(luò)(DNN)作為對比方法,所有方法都使用相同的特征,其中DNN的層數(shù)以及每層的節(jié)點(diǎn)數(shù)與卷積神經(jīng)網(wǎng)絡(luò)相同。
具體地,首先探究了卷積神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)的設(shè)置,因?yàn)樵贑NN中后續(xù)層的節(jié)點(diǎn)數(shù)根據(jù)第一個卷積層和每層卷積(或亞采樣)滑動窗口的大小計(jì)算得到,并以第一個卷積層節(jié)點(diǎn)的設(shè)置為實(shí)驗(yàn)變量,同時(shí)控制DNN中每層的節(jié)點(diǎn)數(shù)均與CNN相同,在驗(yàn)證集上的實(shí)驗(yàn)結(jié)果如圖3所示。
從圖3可以看出,隨著節(jié)點(diǎn)的增加,AUC的值也在不斷增長,在一定范圍內(nèi),節(jié)點(diǎn)數(shù)越多,實(shí)驗(yàn)的結(jié)果越好。但隨著節(jié)點(diǎn)數(shù)的增大,模型的訓(xùn)練時(shí)間也在延長,對設(shè)備的開銷需求也在升高,綜合上述因素,最終將第一層的節(jié)點(diǎn)數(shù)設(shè)為9 216。
CNN與各對比實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果如表3所示,可以看出CNN的效果最佳,此外在表中還列出了KDD Cup 2012 track 2比賽中第一名的結(jié)果。DNN的AUC值優(yōu)于LR和SVR,驗(yàn)證了深度學(xué)習(xí)模型比淺層學(xué)習(xí)模型更適合解決CTR預(yù)估問題,同時(shí)CNN的結(jié)果高于DNN,說明CNN中卷積層的特征融合和亞采樣層的特征萃取過程是有效的。本文中CNN目前的實(shí)驗(yàn)結(jié)果略低于KDD Cup 2012 track 2中第一名的結(jié)果,原因是比賽隊(duì)伍使用了多模型融合并提取了龐大的(千萬維)輸入特征。
進(jìn)一步地,實(shí)驗(yàn)探索了每一類特征對搜索廣告點(diǎn)擊率預(yù)測的貢獻(xiàn)。在所有特征的情況下,去掉某一類特征來進(jìn)行預(yù)測,實(shí)驗(yàn)結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果表明,去掉任意一類特征都將使得實(shí)驗(yàn)效果有所下降。其中去掉歷史點(diǎn)擊率特征效果下降得最明顯,說明用戶是否點(diǎn)擊廣告,與其之前的點(diǎn)擊行為非常相關(guān)。而去掉位置特征時(shí),效果下降得最為不明顯,因?yàn)樵趯?shí)驗(yàn)使用的數(shù)據(jù)集中,每個頁面最多僅呈現(xiàn)三個廣告,頁面中的廣告數(shù)少時(shí),位置對用戶點(diǎn)擊的影響小。
4 結(jié)束語
對搜索廣告點(diǎn)擊率的有效預(yù)測不但能夠更好的提高在線廣告投放的性能,增加廣告商的收益,還能增強(qiáng)用戶的體驗(yàn)。研究使用卷積神經(jīng)網(wǎng)絡(luò)CNN對搜索廣告點(diǎn)擊率進(jìn)行預(yù)測,對特征因素的分析之后,在真實(shí)數(shù)據(jù)的環(huán)境下對搜索廣告點(diǎn)擊率進(jìn)行預(yù)測的實(shí)驗(yàn)本文的方法的效果相對于其他方法有明顯的提高。本文的主要貢獻(xiàn)有:(1)本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的搜索廣告點(diǎn)擊率預(yù)測的方法。(2)針對高維特征,提出了一種特征選擇策略,可以在計(jì)算能力受限的情況下使用CNN模型來解決廣告點(diǎn)擊預(yù)測問題,并取得較好效果。在未來的工作中,一方面要繼續(xù)研究更有效的特征來提高對點(diǎn)擊率的預(yù)測效果,另一方面也將嘗試對CNN模型的內(nèi)部細(xì)節(jié)進(jìn)行改進(jìn),使之更適合我們的預(yù)測場景。
參考文獻(xiàn):
[1] 霍曉駿,賀樑,楊燕. 一種無位置偏見的廣告協(xié)同推薦算法[J]. 計(jì)算機(jī)工程, 2014, 40(12): 39-44.
[2] BHARGAV K, AHMED A, PANDEY S, et al. Focused matrix factorization for audience selection in display advertising[C]// Data Engineering (ICDE), 2013 IEEE 29th International Conference on, Brisbane , Australia: IEEE, 2013:386-397.
[3] SHAN Lili, LEI Lin, DI Shao, et al. CTR Prediction for DSP with Improved Cube Factorization Model from Historical Bidding Log[M]// C K Loo, et al(Eds.): Neural Information Processing. Switzerland:Springer,2014,8836:17-24.
[4] OLIVIER C, ZHANG Ya. A dynamic bayesian network click model for web search ranking[C]//Proceedings of the 18th international conference on World wide web. Madrid: ACM,2009:1-10.
[5] DEEPAYAN C, AGARWAL D, JOSIFOVSKI V. Contextual advertising by combining relevance with click feedback[C]//Proceedings of the 17th international conference on World Wide Web. Beijing: ACM,2008:417-426.
[6] WU Kuanwei, FERNG C S, HO C H, et al., A two-stage ensemble of diverse models for advertisement ranking in KDD Cup 2012[J]. KDDCup, 2012.
[7] DAVE K S, VARMA V. Learning the click-through rate for rare/new ads from similar ads[C]// Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland:ACM,2010.
[8] ZHANG Ying, JANSEN B J , SPINK A. Identification of factors predicting clickthrough in Web searching using neural network analysis[J]. Journal of the American Society for Information Science and Technology, 2009, 60(3): 557-570.
[9] 林古立.互聯(lián)網(wǎng)信息檢索中的多樣化排序研究及應(yīng)用[D].華南理工大學(xué),2011.
[10] YUAN Guoxun, HO C H, LIN C J. An improved glmnet for l1-regularized logistic regression[J]. The Journal of Machine Learning Research, 2012. 13(1): 1999-2030.
[11] FAWCETT T. ROC graphs: Notes and practical considerations for researchers[J]. Machine learning, 2004. 31: 1-38.