• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Linked Data數據集的主題模型建立方法

      2017-06-13 10:43:55劉海池唐晉韜魏登萍劉培磊
      東北師大學報(自然科學版) 2017年2期
      關鍵詞:三元組文檔向量

      劉海池,王 挺,唐晉韜,寧 洪,魏登萍,劉培磊

      (國防科技大學計算機學院,湖南 長沙 410073)

      Linked Data數據集的主題模型建立方法

      劉海池,王 挺,唐晉韜,寧 洪,魏登萍,劉培磊

      (國防科技大學計算機學院,湖南 長沙 410073)

      提出了建立Linked Data數據集主題模型的方法.首先,將數據集中的RDF陳述三元組轉換成主謂賓結構的語句,從而將Linked Data數據集轉化為文本文檔;然后,使用LDA算法對所有數據集的文本文檔進行主題建模,即可得到每個數據集的主題向量,該向量就是描述數據集內容主題的特征.在Linked Data數據集鏈接目標推薦問題上,引入數據集的主題特征進行實驗.使用數據集主題向量的余弦相似度替換基于記憶的協(xié)同過濾推薦算法中的相似度計算模塊.結果表明,推薦效果比原始的協(xié)同過濾算法有很大提升.

      Linked Data;數據集;主題模型;LDA;推薦系統(tǒng);協(xié)同過濾

      0 引言

      經過10多年的努力,語義網的理論基礎已經奠定,W3C有關語義網的技術規(guī)范也逐步得到了完善.[1]同時,鏈接數據(Linked Data)指導原則[2]已經成為在萬維網上發(fā)布RDF數據的基本準則,一個基于RDF數據模型的數據之網(Web of Data)正在快速增長.鏈接開放數據(Linking Open Data)項目的成立,極大地促進了鏈接數據的發(fā)展.截至2014年4月,已經發(fā)布1 014個數據集,包含8 038 396個資源.[3]然而數據之網上的數據集缺乏關于其內容的描述信息,例如Linked Data數據集注冊中心Datahub上,僅有一些簡單的標簽和關于數據集大小、發(fā)布者、發(fā)布時間等結構化元數據可用,關于數據集內容或主題的描述通常是缺失的,這給使用者選擇數據集帶來了困難.主題模型作為一種統(tǒng)計方法,它通過分析非結構化文本中的詞語以發(fā)現蘊藏于其中的主題.[4]如果能夠有一種方法對Linked Data數據集建立主題模型,然后利用獲得的主題向量,就可以更好地支持數據集的檢索、分類、聚類、摘要提取以及數據集間相似性、相關性判斷等一系列應用.

      主題模型起源是隱性語義索引(Latent Semantic Indexing,LSI)[5].LSI 并不是概率模型,因此也算不上一個主題模型,但是其基本思想為主題模型的發(fā)展奠定了基礎.T.Hofmann[6]提出了概率隱性語義索引(Probabilistic Latent Semantic Indexing,pLSI),pLSI模型被看成是第一個真正意義上的主題模型.而此后D.M.Blei等人[7]提出的隱性狄里克雷分配(Latent Dirichlet Allocation,LDA)又在pLSI的基礎上進行擴展,得到了一個更為完全的概率生成模型.LDA是一種生成式貝葉斯概率模型,將文檔集中的文檔建模為“詞項-主題-文檔”3層結構.LDA 基于“詞袋”假設,不考慮詞項之間的相互關系,將文檔看做詞項的獨立出現的集合.在此基礎上,LDA認為在文檔的背后隱藏著由詞項分布表示的話題,因此每篇文檔可以看做是若干話題的分布.LDA假設文檔中話題的分布服從Dirichlet分布,而話題中詞項的分布服從多項式分布,從而簡化了模型參數的推導過程.

      但Linked Data數據集由RDF三元組的結構化數據組成,不能夠直接應用主題模型算法.為此,本文提出了Linked Data數據集的主題模型建立方法.首先,按照實體的類型,對數據集進行分割,將描述同一類型實體的三元組聚集在一起形成子數據集.然后,對子數據集中的RDF陳述三元組,去除URI中的命名空間信息,從而將RDF陳述轉換為句子.這樣,就可以將數據集轉換成本文文檔.在文本文檔集合上,應用各種主題模型算法計算主題向量.最后,以分割后數據集的三元組數量為權重,綜合得到原始數據集的主題向量.在Linked Data數據集鏈接目標推薦問題上應用學習到的數據集主題模型進行實驗.協(xié)同過濾是經典的推薦系統(tǒng)算法,在基于記憶的協(xié)同過濾算法中,通常使用評分歷史記錄計算用戶或者物品的相似度[8].使用數據集的主題向量的余弦值來計算相似度,從而形成新的推薦算法.在LOD Cloud 2014[3]上,利用數據集間的鏈接關系構造 “用戶-物品”評分矩陣,并在該實驗數據上評價了多個協(xié)同過濾推薦算法的性能.實驗表明,利用數據集的主題向量計算相似度的推薦算法,無論在評分的準確性還是推薦列表的準確性上都表現更好.

      1 Linked Data數據集的主題模型建立方法

      Linked Data數據集的主題模型建立過程可以形式化描述:給定Linked Data數據集的集合{d1,d2,…,dn},并指定主題的數量m,使用特定算法進行訓練學習,得到每個數據集的內容在m個主題上的概率分布,并用向量(t1,t2,…,tm)表示.由于Linked Data數據集定義為RDF三元組的集合[1],并不是文本文檔,不能夠直接應用主題模型算法進行計算,因此需要經過一定的處理,如圖1所示.

      圖1 Linked Data數據集主題模型建模方法流程

      1.1 按照實體類型分割數據集

      Linked Data數據集通常會包含多種類型的實體,每種類型的實體都由一系列三元組描述.根據類型的不同,這些三元組通常會描述實體的名稱以及其他不同屬性的取值.同一類型實體的三元組描述內容,主題上應該相對集中,因此,可以對數據集內的三元組按照類型分割,把描述某種類型的實體的三元組看做一個整體.rdf:type屬性表示實體的類型信息,(subject rdf:type class_uri)三元組模式指明了實體所屬的類型.對數據集按照類型分割時可以采用如下方法:首先找到數據集內所有的類型,使用SPARQL語句select distinct ?class_uri where {?s a ?class_uri.}.然后用查詢到的所有類型URI,構造SPARQL語句select ?s ?p ?o where {?s a <" + class_uri + ">.?s ?p ?o.},該語句的查詢結果就是描述某種類型實體的所有三元組集合.數據集內也可能存在不包含顯式的類型信息的實體,這些實體類型為owl:Thing.使用語句select ?s ?p ?o where {?s ?p ?o.FILTER NOT EXISTS {?s a ?class.}}查詢,可以得到這些實體的三元組.

      1.2 對按類型分割的數據集進行轉換

      這一步主要是把數據集內的三元組轉換為句子.數據集所包含的RDF陳述用于描述資源所具有的屬性.一個陳述是一個“對象-屬性-值”三元組,由一個資源、一個屬性和一個值組成,值可以是資源,也可以是字面量(literal),字面量是原子值(字符串).一個陳述是一個“主語-謂語-賓語”結構的三元組,除字面量外,由一個統(tǒng)一資源標志符(Uniform Resource Identifier,或URI)表示.字面量本身是文本,不需要處理,而URI是一個用于標志某一互聯(lián)網資源名稱的字符串,包含命名空間(namespace)和本地名稱(localname)2個部分,其中命名空間部分屬于模式信息.把URI的命名空間部分去掉,只留下本體名稱部分,就可以把RDF陳述三元組變成句子.例如,3個陳述三元組:

      經過處理,就變成3個句子:

      處理之后,按類型分割的數據集,都變成了包含該類型實體陳述句子的文本文檔了,所有分割后的數據集經轉換得到的文本文檔作為文檔集合.

      1.3 在文檔集合上訓練主體模型

      利用上節(jié)的方法,把數據集分割、轉換成本文文檔后,能夠應用主題模型算法,計算文檔的主題向量.本文中的文檔集合是LOD Cloud 2014[3]的所有數據集經處理所形成的文檔集合.使用Mallet工具包[9]中的LDA算法,訓練主題模型.在訓練之前,首先對轉換得到的文本文檔進行一系列預處理,主要包括特殊符號、分詞、停用詞的除卻及大寫變小寫等.實驗中,主題數設定為150,訓練周期數設定為2 000.最終每個按類型分割的數據集得到一個表示其內容的150維的主題向量.

      1.4 形成原始數據集主題向量

      經過上述步驟,得到了按類型分割的數據集內容的主題向量.為了得到分割前數據集的主題向量,我們需要進行綜合.可以根據分割后數據集三元組的數量,按照權重求和方法,得到分割前數據集的主題向量.計算公式為

      其中:count(x)為數據集x包含的三元組數量,di為按類型分割后的數據集中第i個類的子數據集,d為分割之前的原始數據集,(ti1,ti2,…,tin)為數據集di的主題向量,(t1,t2,…,tn)為綜合后數據集d的主題向量.

      2 推薦系統(tǒng)實驗

      使用上述方法,可以得到數據集表示數據集內容的主題向量.為了驗證主題向量的建模效果,我們在數據集鏈接關系推薦[10]問題上進行了實驗.根據Linked Data的基本原則,數據集之間要建立盡可能多的鏈接.但隨著Web of Data上發(fā)布的數據集越來越多,對于數據集發(fā)布者來說,尋找可以建立鏈接關系的目標數據集是一個具有挑戰(zhàn)性的問題.之前的工作[10]把這一問題轉換為推薦系統(tǒng)問題,取得了較好的效果.在推薦過程中,發(fā)現數據集內容特征的描述對發(fā)現目標數據集是至關重要的.因此,本文探索了使用LDA算法對Linked Data數據集進行主題建模的方法.利用主題建模得到的主題向量計算數據集間的相似度,并取代傳統(tǒng)推薦算法的相似度計算模塊,通過實驗來說明本文提出的主題建模方法的有效性.實驗中,原始算法和評價指標的計算都是利用Mahout[11]實現的.

      2.1 推薦系統(tǒng)實驗框架

      在推薦系統(tǒng)實驗中,數據集同時類比表示為用戶和物品,數據集間的鏈接關系類比為用戶對物品的購買或評分,建立相互鏈接關系的“用戶-物品”矩陣,然后用推薦算法作為數據集推薦可鏈接的目標數據集.協(xié)同過濾是推薦系統(tǒng)領域的經典算法,可以分為基于記憶的算法和基于模型的算法.基于記憶的算法又可以分為基于用戶的和基于物品的算法,[8]在基于記憶的推薦算法中,一個重要步驟是通過評分歷史計算用戶或者物品的相似度.例如,2個用戶相似度就是他們評過分的物品列表的相似度,而2個物品相似度就是對它們評過分的用戶列表的相似度,列表相似度使用向量夾角的余弦值計算.

      可以利用數據集的主題向量的余弦值,來計算數據集的相似度,并作為基于記憶的推薦算法中的相似度計算模塊,并把得到的推薦算法分別記為Item-Topic和User-Topic.為了對比推薦實驗的效果,選擇了一些基礎算法和原始協(xié)同過濾算法作為baseline.Random推薦算法產生隨機的評分和推薦列表,ItemAverage推薦算法總是把所有評分的平均值作為對物品的評分預測.ItemUserAverage算法跟ItemAverage類似,但是把待推薦用戶的所有評分的平均值作為該用戶對未知物品的評分.Item-based是原始的基于物品的協(xié)同過濾算法.對于基于用戶的算法User-based有2種選擇鄰居的方法,分別是基于固定的鄰居數和基于相似度閾值.實驗中嘗試了一系列可能的參數取值,對于固定的鄰居數n,取值1~10,對于相似度閾值t,以0.1為步長,取值0.1~0.9.選擇取得最佳的結果作為實驗結果,參數設置標記在算法名稱后面.RatingSGD是基于模型的推薦算法,它有3個參數可設置,分別是因子數f、學習率γ和周期數i,同樣,本文給出了最優(yōu)參數取得的結果.

      2.2 實驗數據構造

      為了進行數據集推薦實驗,首先需要構造“用戶-評分”矩陣.我們把數據集之間的鏈接關系看做是數據集之間的評分,也就是說,如果2個數據集d1到d2之間有RDF鏈接,那么就認為數據集d1對d2有評分關系.評分值的定義方法是數據集之間的RDF鏈接三元組數量的數字位數,這一過程見圖2.圖2(a)表示的是5個數據集間的鏈接關系,圓圈中的數字表示數據集所包含的實體的個數,箭頭表示2個數據集之間的RDF鏈接,箭頭的方向由RDF鏈接三元組主語所在的數據集指向賓語所在的數據集,箭頭上的數字表示RDF鏈接三元組的數量.圖2(b)表示從圖2(a)中構造的“用戶-物品”的二部圖.圖2(c)是最終所生成的5行5列“用戶-物品”矩陣.數據集d1到d2有243個RDF鏈接,那么對應的用戶評分矩陣中r1,2值為3.

      使用文獻[3]中提供的LOD Cloud 2014數據集構造推薦系統(tǒng)的實驗數據,這些數據是我們在2014年4月從900 129個文檔中爬取的.爬取到的數據提供N-Quad格式的文件下載,文件大小約為50 GB,共包含來自1 014個數據集的1.88×108個三元組.根據圖2 的方法,最終得到的推薦系統(tǒng)數據集有1 014 個“用戶”、1 014個“物品”、4 993個評分值.

      (a)數據集間的鏈接關系

      2.3 實驗結果

      在評價推薦結果的評分準確度時,選擇了平均絕對誤差(MAE)和均方根誤差(RMSE)2個評價指標,它們用于評價推薦算法給出的打分同真實打分之間的差別大小,取值越小說明預測評分越準確.對于每個用戶,取出一部分打分作為訓練數據來計算推薦結果,剩余的評分作為標準答案.因為數據是隨機分割的,因此對于每個推薦算法,進行10次測試然后取平均值.不同推薦算法的MAE和RMSE值對比見表1和2.由表1和2可以看到用主題向量計算數據集相似度,無論MAE還是RMSE都比原來的算法效果要好,MAE值降低了12%到46%,RMSE值降低了3%到39%.所有算法中,效果最好的是基于主題向量相似度的帶閾值的基于用戶的推薦算法(見表1和2黑體字).

      表1 不同推薦算法的MAE值對比

      表2 不同推薦算法的RMSE值對比

      有時,比起評分值,用戶更關心推薦系統(tǒng)給出的推薦列表是否準確,因此我們還對TopN推薦進行了評價.使用了F1值和NDCG(Normalized Discounted Cumulative Gain)這2個指標.用于評價推薦列表的排序質量,取值越大越好.我們采用“留一法”進行實驗,對于每個用戶,去掉TopN個評分,然后用該用戶剩下的評分和其他所有用戶的所有評分作為訓練數據,所有用戶的平均結果作為最終結果.因為訓練數據是按照評分降序選擇的,因此對于基于記憶的推薦算法不需要多次重復實驗.對于矩陣因子分解算法,由于最初的向量是隨機初始化的,因此我們進行了10次測試后,取平均值.不同推薦算法的F1值和NDCG對比見表3和4.從表3和4可以看出,在基于物品的推薦算法中,使用主題向量計算數據集相似度較原始算法效果差.但在基于用戶的推薦算法中,使用主題向量計算相似度,效果較好,F1值提升了13%到177%,NDCG值提升了19%到246%.

      表3 不同推薦算法Top N推薦的F1值對比

      表4 不同推薦算法Top N推薦的NDCG值對比

      通過2個實驗對比表明,使用數據集的主題向量計算數據集相似度是可行的,而且得到的相似度較準確.在絕大多數情況下,比基于記憶的協(xié)同過濾推薦算法中使用評分歷史計算相似度效果好(見表3和4黑體字).

      3 結束語

      本文提出了Linked Data數據集主題模型的建立方法.該方法把RDF陳述轉換為本文句子,從而把數據集轉換為文本文檔.在文本文檔上使用任意主題模型算法進行建模,能夠表示數據集內容的主題向量.本文在Linked Data數據集鏈接目標推薦問題上使用數據集的主題模型進行了實驗.利用數據集的主題向量計算余弦相似度,并將該相似度作為基于記憶的協(xié)同過濾算法中的相似度模塊.在2014年LOD Cloud數據集上的實驗表明,在絕大多數情況下,利用數據集的主題向量計算相似度比使用評分歷史計算相似度效果好,得到的推薦算法性能好于原始的協(xié)同過濾算法.

      [1] HEATH T,BIZER C.Linked data:evolving the web into a global data space[J].Synthesis Lectures on the Semantic Web Theory and Technology,2011,1(1):1-136.

      [2] TIM BERNERS-LEE.Linked data[EB/OL].[2016-04-03].http://www.w3.org/DesignIssues/LinkedData.html.

      [3] SCHMACHTENBERG M,BIZER C,PAULHEIM H.Adoption of the linked data best practices in different topical domains[M]//The Semantic Web-ISWC 2014,Berlin:Springer International Publishing,2014:245-260.

      [4] 徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計算機學報,2011,34(8):1423-1436.

      [5] DEERWESTER S,DUMAIS S T,FURNAS G W,et al.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science,1990,41(6):391.

      [6] HOFMANN T.Probabilistic latent semantic indexing[C]//Proceedings of The 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Newyork:ACM,1999:50-57.

      [7] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.

      [8] 冷亞軍,陸青,梁昌勇.協(xié)同過濾推薦技術綜述[J].模式識別與人工智能,2014,27(8):720-734.

      [9] MCCALLUM,ANDREW KACHITES.Mallet:a machine learning for language toolkit[DB].[2016-12-05].http://mallet.cs.umass.edu.2002.

      [10] LIU H,WANG T,TANG J,et al.Identifying linked data datasets for sameas interlinking using recommendation techniques[C]//Proceedings of The 17th International Conference on Web-Age Information Management,Belin:Springer,2016:298-309.

      [11] ANIL R,DUNNING T,FRIEDMAN E.Mahout in action[M].Shelter Island:Manning,2011:29-51.

      Topic modeling for Linked Data datasets

      LIU Hai-chi,WANG Ting,TANG Jin-tao,NING Hong,WEI Deng-ping,LIU Pei-lei

      (School of Computer Science,National University of Defense Technology,Changsha 410073,China)

      The increasing adoption of Linked Data principles has led to an abundance of datasets on the Web.However,take-up and reuse is hindered by the lack of descriptive information about the content of the datasets,such as their topic coverage.To address this issue,an approach for creating Linked Data dataset topic profiles was proposed.Topic modeling has quickly become a popular method for modeling large document collections for a variety of natural language processing tasks.While their use for semi-structured graph data,such as Linked Data datasets,has been less explored.A framework for applying topic modeling to Linked Data datasets was presented.The RDF statement triples were transformed to natural language sentences.In this way the datasets which contains RDF structured data is transformed into text documents,this paper can apply topic modeling algorithms to get topic vector for each dataset.This paper describes how this topic profile of datasets can be used in a recommendation task of target Linked Data datasets for interlinking.The cosine similarity of topic vector of datasets generated by LDA topic modeling algorithm was calculated and the cosine similarity was made as the similarity component of memory-based collaborative filtering recommendation algorithms.Experiments to evaluate the accuracy of both the predicted ratings and recommended datasets lists of the resulting recommenders were conducted.The experiments demonstrated that our customized recommenders out-performed the original ones with a great deal,and achieved much better metrics in both evaluations.

      Linked Data;dataset;topic model;LDA;recommender systems;collaborative filtering

      1000-1832(2017)02-0077-07

      10.16163/j.cnki.22-1123/n.2017.02.015

      2016-10-20

      國家自然科學基金資助項目(61472436).

      劉海池(1985—),男,博士研究生,主要從事語義網Semantic Web、關聯(lián)數據Linked Data研究;王挺(1970—),男,博士,教授,主要從事自然語言處理研究;寧洪(1963—),女,教授,主要從事數據庫技術Database Technology研究.

      TP 391 [學科代碼] 520·2070

      A

      猜你喜歡
      三元組文檔向量
      基于語義增強雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
      向量的分解
      有人一聲不吭向你扔了個文檔
      聚焦“向量與三角”創(chuàng)新題
      關于余撓三元組的periodic-模
      基于RI碼計算的Word復制文檔鑒別
      向量垂直在解析幾何中的應用
      向量五種“變身” 玩轉圓錐曲線
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      平陆县| 红桥区| 广安市| 托克托县| 开封县| 阿拉善盟| 弥渡县| 连城县| 徐闻县| 民权县| 登封市| 平江县| 华安县| 历史| 怀仁县| 阿荣旗| 三都| 开原市| 保山市| 交口县| 汕头市| 无锡市| 海宁市| 资中县| 安吉县| 光山县| 大渡口区| 商水县| 双柏县| 清镇市| 中西区| 富裕县| 鹰潭市| 陵川县| 吉安市| 砀山县| 福安市| 禄劝| 凌海市| 定边县| 陕西省|