• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于標(biāo)簽關(guān)聯(lián)規(guī)則的挖掘與研究

      2017-09-12 03:48:01劉志剛
      科技創(chuàng)新與應(yīng)用 2017年26期
      關(guān)鍵詞:關(guān)聯(lián)規(guī)則標(biāo)簽服務(wù)

      劉志剛

      摘 要:社會化標(biāo)簽系統(tǒng)以其巨大的服務(wù)商業(yè)價(jià)值被越來越多的專家學(xué)者關(guān)注和研究,在社會化標(biāo)簽系統(tǒng)中,用戶可以按照自己的喜好來對各種網(wǎng)絡(luò)資源帖上標(biāo)簽,能更方便信息的檢索和快速查找。標(biāo)簽應(yīng)用技術(shù)也逐漸成熟起來,通過傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘方法,對標(biāo)簽數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測分析,為用戶推薦有參考價(jià)值的標(biāo)簽,有助于電商提供產(chǎn)品的精準(zhǔn)推廣服務(wù),同時(shí)促進(jìn)社會化網(wǎng)絡(luò)快速、穩(wěn)定的發(fā)展。將文本挖掘、機(jī)器學(xué)習(xí)技術(shù)與標(biāo)簽數(shù)據(jù)相結(jié)合,利用Apriori算法來進(jìn)行基于標(biāo)簽的關(guān)聯(lián)規(guī)則挖掘研究。通過研究結(jié)果數(shù)據(jù)分析可知標(biāo)簽預(yù)測結(jié)果,有很好的標(biāo)簽預(yù)測效果,并在各種商業(yè)模式的驅(qū)動下,作為信息處理的一種抽象形式得到了廣泛關(guān)注,各種服務(wù)即將快速增長。

      關(guān)鍵詞:服務(wù);標(biāo)簽;社會化標(biāo)簽系統(tǒng);關(guān)聯(lián)規(guī)則;標(biāo)簽預(yù)測

      中圖分類號:TD40 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2017)26-0026-02

      本文結(jié)合目前的研究現(xiàn)狀,利用網(wǎng)絡(luò)上的真實(shí)數(shù)據(jù),結(jié)合Apriori算法對標(biāo)簽數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,研究一種標(biāo)簽預(yù)測算法,有很好的標(biāo)簽預(yù)測效果。標(biāo)簽包是標(biāo)簽預(yù)測的一種形式,因此文章在標(biāo)簽包的基礎(chǔ)上、結(jié)合標(biāo)簽的關(guān)聯(lián)規(guī)則挖掘框架,并進(jìn)行了實(shí)驗(yàn)分析,給出了實(shí)驗(yàn)結(jié)果和后續(xù)研究的方向。

      1 標(biāo)簽包

      標(biāo)簽包是一個(gè)鏈接資源的總概括,可以稱為標(biāo)簽頭。另外還有一個(gè)更為具體的子標(biāo)簽集合,可以反映資源的不同方面。利用標(biāo)簽之間的關(guān)系來發(fā)現(xiàn)與資源相關(guān)的標(biāo)簽包。標(biāo)簽不僅能暗示資源的內(nèi)容,彼此之間含有相似語義關(guān)系的一系列標(biāo)簽?zāi)芙M合起來描述一類具有共同特征的資源。但目前網(wǎng)站中“標(biāo)簽包”的構(gòu)建完全依賴用戶手工完成,當(dāng)用戶已經(jīng)使用了大量標(biāo)簽后,無論是采用標(biāo)簽云還是標(biāo)簽包的方式,用戶人工選擇標(biāo)簽都非常復(fù)雜。另外,“標(biāo)簽包”聚合了用戶心中同屬一個(gè)類別的網(wǎng)絡(luò)資源,用戶瀏覽標(biāo)注資源時(shí),可以給用戶十分有效的參考。因此,幫助用戶尋找語義相關(guān)的標(biāo)簽,自動完成“標(biāo)簽包”構(gòu)建,給用戶進(jìn)行標(biāo)簽的實(shí)時(shí)推薦,是一項(xiàng)非常有意義的工作。

      2 基于標(biāo)簽的關(guān)聯(lián)規(guī)則挖掘框架

      如圖1所示,設(shè)計(jì)一個(gè)關(guān)聯(lián)規(guī)則挖掘框架,包含四個(gè)部分:數(shù)據(jù)獲??;數(shù)據(jù)預(yù)處理;數(shù)據(jù)利用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘分析建模;結(jié)果分析。

      研究數(shù)據(jù)通過網(wǎng)絡(luò)爬蟲技術(shù)從“http://www.programmableweb.com”網(wǎng)站上爬取得到最新的Mashup、Api和相應(yīng)的tags數(shù)據(jù)。在ubuntu12.04系統(tǒng)下,所需配置環(huán)境為redis和編ruby爬下來的數(shù)據(jù)以Key-Value的形式存儲在數(shù)據(jù)庫redis中。

      數(shù)據(jù)處理先要獲得詞干、接著提取主特征值。獲得詞干:考慮到詞的多態(tài)與派生,如mails和mail其在描述服務(wù)時(shí)是完全相同的,所以需要抽取出基本的詞根。將一些以復(fù)數(shù)、過去式、現(xiàn)在進(jìn)行時(shí)等形式出現(xiàn)的標(biāo)簽,通過程序處理生成有相同形式的詞干。主特征提?。和ㄟ^獲得詞干,生成具有同一形式的標(biāo)簽集合。剩余的詞項(xiàng)中仍有很多對分析沒有多大貢獻(xiàn)。在標(biāo)簽集合中含有大量沒有區(qū)分度的詞,例如:“result”“information”等,很難解釋所表達(dá)的語義信息。同時(shí)含有一些沒有代表性的詞,這些稀有詞項(xiàng)獨(dú)立表達(dá)的信息不強(qiáng),不足以對關(guān)聯(lián)規(guī)則產(chǎn)生影響。通過利用文檔頻數(shù)法(Document Frequency,DF),將在少于50個(gè)Mashup服務(wù)中出現(xiàn)的關(guān)鍵詞去掉,縮減了關(guān)鍵詞集合,降低了數(shù)據(jù)的維度,可以增加關(guān)聯(lián)規(guī)則挖掘的效率,降低時(shí)間復(fù)雜度,對標(biāo)簽預(yù)測結(jié)果帶來比較可觀的提升。

      最后文本關(guān)聯(lián)規(guī)則挖掘分析建模:由于標(biāo)簽是字符串的形式存儲在數(shù)據(jù)庫,不能對其進(jìn)行直接的分析。通過預(yù)處理和特征選擇,最終得到表示該Mashup服務(wù)的關(guān)鍵詞集合:Addressdoctor=[validation shipping address mail] 在Mashup服務(wù)關(guān)鍵詞集合的基礎(chǔ)上,所有的Mashup集合可以表示為一個(gè) M×N的Mashup-Tag矩陣 R,這里每個(gè)不同的Mashup對應(yīng)矩陣 R 的一行;而每一個(gè)不同的標(biāo)簽對應(yīng)于矩陣 R 中的一列。R表示為:R=[rij],其中rij為0或1,表示第 j個(gè)標(biāo)簽在第i個(gè)Mashup服務(wù)中是否出現(xiàn)。建模處理后結(jié)果數(shù)據(jù)如表1所示。

      3 標(biāo)簽關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)分析

      通?;谀撤N意圖來創(chuàng)建Mashup服務(wù),例如一個(gè)與旅游相關(guān)的Mashup服務(wù)可能是包含了旅游景點(diǎn)的選擇、機(jī)票的預(yù)定、天氣預(yù)報(bào)的查看等等一系列功能的服務(wù)組合起來構(gòu)成的。對于這種含有特定功能的Mashup服務(wù),需要為它添加一些類似于“旅游、天氣、酒店、機(jī)票”等標(biāo)簽,當(dāng)這些標(biāo)簽同時(shí)出現(xiàn)的時(shí)候,對一個(gè)未知的Mashup就可以預(yù)測到這個(gè)Mashup服務(wù)的主要功能的內(nèi)容。所以在進(jìn)行搜索查詢時(shí),可以通過標(biāo)簽之間的一些關(guān)聯(lián)規(guī)則來快速的定位想要獲取的內(nèi)容。網(wǎng)站標(biāo)簽推薦系統(tǒng)可以根據(jù)整個(gè)網(wǎng)站現(xiàn)有的大量信息,通過挖掘出標(biāo)簽的頻繁項(xiàng)集,以及標(biāo)簽與資源之間的關(guān)聯(lián),研究標(biāo)簽經(jīng)常同時(shí)出現(xiàn)的頻率,進(jìn)行標(biāo)簽預(yù)測,將規(guī)范的標(biāo)簽內(nèi)容推薦至用戶,使用戶有更好的體驗(yàn)。

      根據(jù)所描述研究對象,通過機(jī)器學(xué)習(xí)來挖掘出Mashup的標(biāo)簽之間的一些關(guān)聯(lián)規(guī)則,對挖掘出來的頻繁項(xiàng)集合關(guān)聯(lián)規(guī)則作出恰當(dāng)分析。

      數(shù)據(jù)中包含4000個(gè)Mashup和相應(yīng)的1528個(gè)標(biāo)簽(tags)。由于有些標(biāo)簽的使用量太少(只被幾個(gè)Mashup使用過),因此生成的0/1矩陣維度很大,并且數(shù)據(jù)很稀疏。經(jīng)過數(shù)據(jù)預(yù)處理后,留下64個(gè)使用頻度比較大的標(biāo)簽作為最終的關(guān)聯(lián)規(guī)則分析的實(shí)驗(yàn)數(shù)據(jù)。數(shù)據(jù)中Mashup作為行屬性,tags作為列屬性,Mashup服務(wù)Mi如果包含標(biāo)簽Tj那么陣Mij=1,反之Mij=0。用weka的Aprior算法對輸入的實(shí)驗(yàn)數(shù)據(jù)M4000x64的0/1矩陣進(jìn)行試驗(yàn),測試數(shù)據(jù)表明標(biāo)簽之間的支持度和置信度比較高。因此對于上面提到的標(biāo)簽預(yù)測功能,當(dāng)用戶輸入像“l(fā)yrics”的標(biāo)簽,可以預(yù)測出另外一個(gè)標(biāo)簽“music”很有可能是用戶有意圖使用的標(biāo)簽,同樣的如果用戶輸入像“mapping”的標(biāo)簽時(shí),可以給他推薦另外的“travel,hotels”的標(biāo)簽,挖掘出標(biāo)簽mapping的標(biāo)簽包,如下圖2所示。

      4 結(jié)束語

      通過解決社會標(biāo)簽預(yù)測問題有兩個(gè)優(yōu)點(diǎn):(1)能掌握標(biāo)簽最基本的“信息內(nèi)容”;(2)可以使用一個(gè)標(biāo)簽的預(yù)測來改善社會標(biāo)簽網(wǎng)站。后續(xù)研究可以通過以下2種方法進(jìn)行改進(jìn):

      增加單標(biāo)簽查詢的召回率。在標(biāo)簽系統(tǒng)中,大部分的查詢對象都有被一個(gè)特定的標(biāo)簽標(biāo)記過。同樣,許多標(biāo)簽系統(tǒng)允許用戶監(jiān)控標(biāo)有特定標(biāo)簽的資源。例如,一個(gè)社會書簽網(wǎng)站的用戶可能會成立一個(gè)與“攝影”標(biāo)簽相關(guān)的網(wǎng)頁導(dǎo)航。標(biāo)簽的預(yù)測可以作為一種查詢和導(dǎo)航的召回率提高策略。

      用戶間的協(xié)同。許多用戶具有相似的興趣,但可能使用不同的詞匯。標(biāo)簽的預(yù)測將實(shí)現(xiàn)對象的輕松共享,盡管詞匯之間存在一定的差異。

      參考文獻(xiàn):

      [1]魏建良,朱慶華,基于社會化標(biāo)注的個(gè)性化推薦研究進(jìn)展[J].情報(bào)學(xué)報(bào),2010,29(4):625-633.endprint

      猜你喜歡
      關(guān)聯(lián)規(guī)則標(biāo)簽服務(wù)
      服務(wù)在身邊 健康每一天
      服務(wù)在身邊 健康每一天
      服務(wù)在身邊 健康每一天
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      招行30年:從“滿意服務(wù)”到“感動服務(wù)”
      商周刊(2017年9期)2017-08-22 02:57:56
      關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
      數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評價(jià)體系中的應(yīng)用
      關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
      中國市場(2016年36期)2016-10-19 04:10:44
      基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測方法
      沈阳市| 云南省| 吴川市| 梁河县| 乌鲁木齐县| 庐江县| 拉孜县| 蒙山县| 岑溪市| 仁寿县| 汶上县| 微山县| 扎鲁特旗| 景泰县| 沙雅县| 汤阴县| 山丹县| 宁强县| 获嘉县| 麦盖提县| 宣恩县| 沭阳县| 叶城县| 阳曲县| 郯城县| 厦门市| 扶绥县| 凭祥市| 阜康市| 固镇县| 密山市| 格尔木市| 开封县| 托克逊县| 利川市| 杭锦后旗| 尚志市| 普兰店市| 加查县| 新巴尔虎右旗| 武邑县|