王舒漫,李愛萍,段利國,付 佳,陳永樂
(太原理工大學信息與計算機學院,太原030024)
物聯(lián)網(wǎng)(Internet of Things,IoT)作為我國戰(zhàn)略性新興產(chǎn)業(yè)的一個重要組成部分,正進入深化應(yīng)用的新階段[1]。隨著5G 技術(shù)的推廣和物聯(lián)網(wǎng)設(shè)備的平價化,預(yù)計到2020 年會有500 億設(shè)備接入物聯(lián)網(wǎng)[1],同時,也導(dǎo)致用戶從數(shù)量巨大的物聯(lián)網(wǎng)設(shè)備中精確地定位滿足其特定業(yè)務(wù)需求的設(shè)備變得越來越困難和耗時,如何快速高效地輔助用戶發(fā)現(xiàn)滿足需求的設(shè)備成為了目前急需解決的問題。
基于面向服務(wù)架構(gòu)(Service-Oriented Architecture,SOA)的物聯(lián)網(wǎng)使物聯(lián)網(wǎng)的功能服務(wù)化[2],服務(wù)聚類是支持服務(wù)快速發(fā)現(xiàn)的有效輔助方法,聚類算法根據(jù)某一相似特性快速聚合相關(guān)服務(wù),將數(shù)據(jù)劃分成不同的集合,能提高服務(wù)發(fā)現(xiàn)的效率。在物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)中,Liu 等[3]通過提取物聯(lián)網(wǎng)服務(wù)的主題簽名,利用主題建模方法進行聚類來確定相似服務(wù)集。Jiang等[4]使用自然語言處理技術(shù)提取服務(wù)描述文本中的目標特征,計算兩個服務(wù)目標特征之間的語義相似度,并采用K-means算法對服務(wù)進行聚類。
上述研究為物聯(lián)網(wǎng)服務(wù)的發(fā)現(xiàn)提供了有益的方法參考。然而,物聯(lián)網(wǎng)服務(wù)描述文檔屬于短文本,特征稀疏,信息量少,采用已有的服務(wù)發(fā)現(xiàn)方法進行聚類時會出現(xiàn)“類型無法識別、類型丟失”等現(xiàn)象,達不到理想效果。針對物聯(lián)網(wǎng)服務(wù)的上述特點,本文提出了一種基于詞對主題模型BTM(Biterm Topic Model)的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)方法,根據(jù)服務(wù)的隱含主題進行聚類。
物聯(lián)網(wǎng)的概念最早可追溯到20世紀90年代,國際電信聯(lián)盟在2005 年的ITU 互聯(lián)網(wǎng)報告中正式給出“物聯(lián)網(wǎng)”的概念:按照既定的協(xié)議,通過互聯(lián)網(wǎng)實現(xiàn)物與物之間信息交換和通信,進而實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò)。
物聯(lián)網(wǎng)場景中的“物”主要指的是現(xiàn)實環(huán)境中存在的感知識別、信息交互和智能控制的任何設(shè)備和資源。物聯(lián)網(wǎng)是開放式的、動態(tài)變化式的、高分布式的,允許設(shè)備隨時在不同地點以多種方式接入物聯(lián)網(wǎng)中;然而對設(shè)備信息沒有統(tǒng)一格式的描述,從而導(dǎo)致接入物聯(lián)網(wǎng)的設(shè)備呈現(xiàn)多種形式的信息表達,設(shè)備間信息的交互和共享受限[5]。對物聯(lián)網(wǎng)設(shè)備信息進行統(tǒng)一的資源描述,是面向物聯(lián)網(wǎng)設(shè)備服務(wù)發(fā)現(xiàn)的基礎(chǔ)。近年來,一些研究人員通過以下方法來解決目前物聯(lián)網(wǎng)領(lǐng)域設(shè)備的統(tǒng)一描述問題。王書龍等[6]提出了基于本體的物聯(lián)網(wǎng)設(shè)備資源描述模型,根據(jù)設(shè)備特點將其劃分為5 個類資源進行綜合描述,包括屬性、控制、狀態(tài)、歷史信息和隱私。Santos等[7]提出了一種針對嵌入式資源的描述語言,該描述語言從功能、需求和限制三方面來描述設(shè)備資源。結(jié)合以上研究,本文根據(jù)異構(gòu)物聯(lián)網(wǎng)設(shè)備的共有特征,結(jié)合物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)的需求,選取功能、接口、工作狀態(tài)、工作環(huán)境四部分來構(gòu)建物聯(lián)網(wǎng)服務(wù)描述模型,如圖1 所示。其中,功能用于描述用戶對服務(wù)功能的要求;接口用于描述用戶對于相關(guān)的設(shè)備服務(wù)接入方式的要求,包括接口信息、通信方式等;工作狀態(tài)用于描述用戶對于服務(wù)相關(guān)聯(lián)的設(shè)備的當前運行狀態(tài)的要求;工作環(huán)境用于描述用戶對于服務(wù)相關(guān)聯(lián)的設(shè)備的正常工作環(huán)境的要求,包括工作溫度、濕度、地理位置等。
圖1 物聯(lián)網(wǎng)服務(wù)描述文本Fig.1 Service description text for IoT
隨著技術(shù)發(fā)展,物聯(lián)網(wǎng)服務(wù)數(shù)量還在逐步呈不斷上升的趨勢,高效快速地發(fā)現(xiàn)最佳的服務(wù)成為亟待解決的問題。
通過挖掘服務(wù)的潛在語義信息對服務(wù)進行聚類,尤其是借助于主題模型進行服務(wù)發(fā)現(xiàn),能有效地提高服務(wù)聚類的精度和速度,減少資源消耗。在主題模型中,認為一個服務(wù)描述文本包含多個隱含主題。Teixeira 等[8]提出采用概率發(fā)現(xiàn)的方法來進行服務(wù)發(fā)現(xiàn),提高了服務(wù)發(fā)現(xiàn)的速度,并降低了服務(wù)資源的消耗。Casser 等[9]提出了一種混合語義的服務(wù)匹配方法,采用概率主題模型來學習服務(wù)的隱含主題,并通過主題相似度進行服務(wù)聚類。同時,由于物聯(lián)網(wǎng)設(shè)備故障或損壞、設(shè)備的移動性等因素,使得物聯(lián)網(wǎng)服務(wù)經(jīng)常出現(xiàn)消失或重現(xiàn)等動態(tài)變化特點,使用主題模型對物聯(lián)網(wǎng)服務(wù)進行主題建模成為解決服務(wù)動態(tài)變化的有效方法之一。
然而,物聯(lián)網(wǎng)服務(wù)描述文檔屬于短文本,信息量少,缺乏足夠的詞頻共現(xiàn),直接使用傳統(tǒng)的主題模型或其擴展模型對短文本進行建模,會導(dǎo)致嚴重的數(shù)據(jù)稀疏問題。因此,對語義信息稀少的短文本進行合理的建模,是實現(xiàn)高質(zhì)量服務(wù)發(fā)現(xiàn)的關(guān)鍵。
近年來,現(xiàn)有的研究中有部分嘗試將短文本進行擴充來進行主題模型的訓練。魏強等[10]利用英文Wikipedia 對短文本的服務(wù)描述進行語義擴充,將短文本轉(zhuǎn)換為長文本進行建模來構(gòu)建高質(zhì)量的主題模型。肖巧翔等[11]通過使用word2vec擴充服務(wù)描述語義,然后基于隱狄利克雷分配(Latent Dirichlet Allocation,LDA)模型對服務(wù)進行聚類。還有一些研究考慮利用外部知識庫對短文本進行特征擴充,這也是一種較常見的方法,但恰當?shù)耐獠繑?shù)據(jù)集不容易找到,而且使用一個外部知識庫會使建模精確度下降,同時,這些方法沒有普遍性。2013 年,Yan 等[12]在LDA 和一元混合模型的基礎(chǔ)上提出了基于詞對信息的詞對主題模型BTM,在不進行文本擴充的情況下能有效地克服短文本數(shù)據(jù)稀疏問題,同時考慮了詞之間的語義聯(lián)系。因此,本文使用BTM 對物聯(lián)網(wǎng)服務(wù)的隱含主題進行挖掘,再通過主題進行服務(wù)聚類。
傳統(tǒng)的主題模型模擬文本的生成過程,再通過參數(shù)估計得到隱含主題。與傳統(tǒng)的主題模型相比,BTM 通過將文檔轉(zhuǎn)換為詞對,直接對整個語料庫的詞對biterm(即共現(xiàn)的無序詞對模式)進行建模來學習短文本中的主題。BTM 的圖模型表示如圖2所示。其中:φz表示主題z下的詞對概率分布,θ表示語料庫中全局主題概率分布,多項式分布的參數(shù)φz和θ 分別用于生成主題和詞對;T 代表主題個數(shù);|B|代表語料庫biterm集合B中詞對的總數(shù);wi、wj和z分別代表詞對b的兩個詞及其主題;α和β是Dirichlet先驗分布的參數(shù)。
圖2 BTM的圖模型表示Fig.2 Graphical model representation of BTM
在BTM中,語料庫由多個主題組成,每個biterm獨立地從特定主題中抽取,具體生成過程如下:
1)生成各個主題z下的主題-詞分布φw|z~Dir(β)。
2)生成整個語料庫的全局的主題分布θz~Dir(α)。
3)生成biterm集合B中的每個詞對b=(wi,wj):
a)從全局的θ中抽取一個主題z~Mulit(θ);
b)從主題z中抽取兩個詞:wi,wj~Mulit(φw|z)。
按照以上的生成過程,詞對b=(wi,wj)的聯(lián)合概率可以表示為:
因此,產(chǎn)生BTM語料庫的概率為:
其中:z-b表示除了詞對b 之外的所有biterm 的主題分配,nz表示biterm 分配給主題z的次數(shù),nw|z表示詞w 分配給主題z的次數(shù),M 表示語料庫中不同詞的次數(shù)。一個詞對b 被分配給主題z,詞對b中的兩個詞wi、wj也會被分配到主題z上。
根據(jù)詞對的主題分配的次數(shù)和詞共現(xiàn),全局主題分布θz和主題-詞分布φw|z可以進行估計:
其中:φw|z表示主題z 中詞w 的概率,θz表示主題z 的概率,|B|表示詞對總數(shù),T表示主題個數(shù)。
針對物聯(lián)網(wǎng)服務(wù)的特性,本文提出了一種基于BTM 的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)方法:首先通過預(yù)處理物聯(lián)網(wǎng)服務(wù)文檔,得到有效的服務(wù)特征數(shù)據(jù)集;接著利用BTM 提取服務(wù)的隱含主題,并通過全局主題分布θz和主題-詞分布φw|z計算推理得到服務(wù)文檔-主題概率分布p(z|d);然后利用基于最大距離的Kmeans 算法對服務(wù)進行聚類;最后,通過計算服務(wù)請求與候選服務(wù)集中服務(wù)的相似度,返回最佳匹配結(jié)果?;贐TM 的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)框架如圖3所示。
圖3 基于BTM的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)框架Fig.3 Service discovery framework for IoT based on BTM
通過特征提取、分詞、去停用詞、詞干還原等方法,對物聯(lián)網(wǎng)服務(wù)描述文檔進行預(yù)處理。
1)對物聯(lián)網(wǎng)服務(wù)描述文本中的“service name”“functional description”“interface type”等關(guān)鍵特征進行提取。
2)對提取的文本中的復(fù)合詞進行拆分,如“Carbon-Dioxide”等。
3)利用正則表達式去除一些無關(guān)詞匯和符號,如“and”“of”“&”等,避免對建模造成影響。
4)具有相同詞干的單詞具有相同的含義,如“recommended”和“recommending”具 有 相 同 的 詞 干“recommend”,為了便于詞語匹配,需利用Python 庫NLTK 的Porter Stemmer進行詞干還原。
在BTM 中,物聯(lián)網(wǎng)服務(wù)描述文本文檔可以被看作是包含隱含主題的文檔。將預(yù)處理后的數(shù)據(jù)集作為BTM 的輸入進行建模,學習其隱含主題,并通過Gibbs 抽樣估計出全局主題分布θz和主題-詞分布φw|z。由于BTM 不對文檔生成過程進行建模,而是直接對語料庫的詞對進行建模,我們無法直接得到服務(wù)文檔-主題概率分布,因此需要推理計算服務(wù)文檔-主題分布p(z|d),將每個物聯(lián)網(wǎng)服務(wù)描述文本表示為隱含主題分布向量。該分布相當于文檔中詞對的分布和詞對-主題分布的乘積,計算公式為:
其中,以詞對b 作為中間量,可以計算出文檔d 中詞對的條件概率分布p(b|d),計算公式如式(7)所示,nd(b)表示詞對b 在文檔d中出現(xiàn)的次數(shù)。
根據(jù)參數(shù)估計的結(jié)果,可計算得到詞對-主題分布p(z|b)為:
因此,在上述基礎(chǔ)上,通過全局主題分布θz和主題-詞分布φw|z計算推理得到服務(wù)文檔-主題概率分布p(z|d),下面給出具體的主題挖掘過程的算法。
輸入 主題數(shù)T,數(shù)據(jù)集services,參數(shù)α,參數(shù)β,迭代次數(shù)N;
輸出 參數(shù)p(z|d)。
服務(wù)聚類是根據(jù)服務(wù)某一特征快速將服務(wù)劃分成不同的集合。根據(jù)上述分析,得到服務(wù)文檔使用主題表征的向量后,本文根據(jù)主題之間的相似度,采用K-means 算法對服務(wù)進行聚類。
為了避免K-means 算法在聚類時出現(xiàn)局部最優(yōu)解問題,本文利用余弦相似度計算T 個主題向量兩兩之間的距離,并將距離最遠的兩個作為初始簇中心,在剩余的(T-2)個主題中,選取前面兩個初始簇中心各自距離乘積最大值的那個樣本點作為第三個初始簇中心,依此類推,可以找到K 個初始簇中心,進而在初始聚類中心的基礎(chǔ)上進一步聚類。
具體的聚類算法過程如下:
步驟1 計算T 個服務(wù)主題兩兩間的相似度dis(n,1),選取dis(d1,d2)≥dis(di,dj)(i,j=1,2,…,T)作為兩個初始服務(wù)簇中心。
步驟2 在剩余的T-2 個主題中,選取dis(d1,d3)×dis(d2,d3)≥dis(d1,di)×dis(d2,di)(i=1,2,…,K)作為第三個初始簇中心,以此類推得到K個服務(wù)簇中心。
步驟3 對于剩余的T-K 個主題,計算每個主題與K 個服務(wù)簇中心的距離,并將該主題聚集到距離最近的服務(wù)簇中。
步驟4 重新計算K個服務(wù)簇中心。
步驟5 重復(fù)步驟3、4,直到服務(wù)簇中心不再改變,或者達到其他終止條件。
圖4是服務(wù)聚類的具體流程。
圖4 服務(wù)聚類流程Fig.4 Flowchart of service clustering
服務(wù)匹配是指根據(jù)用戶的服務(wù)請求,快速準確地匹配到與服務(wù)請求相似度最高的服務(wù)并返回。具體匹配過程如下:
1)對于用戶的服務(wù)請求,通過BTM 獲取服務(wù)請求的隱含主題,計算其隱含主題與各服務(wù)簇中心的距離,將相似度最高的服務(wù)簇作為候選服務(wù)簇返回;
2)對于候選服務(wù)簇中的每一個服務(wù),利用余弦相似度計算其隱含主題與服務(wù)請求的隱含主題的相似度,并將相似度最高的服務(wù)作為匹配結(jié)果返回給用戶。
本文使用采集的物聯(lián)網(wǎng)設(shè)備服務(wù)數(shù)據(jù)集進行實驗。其中,物聯(lián)網(wǎng)工業(yè)現(xiàn)場設(shè)備服務(wù)數(shù)據(jù)集包含1 038 個服務(wù),涉及不同型號的射頻識別(Radio Frequency IDentification,RFID)標簽、溫度傳感器、壓力傳感器、紅外氣體傳感器、輻射傳感器、電流變送器等多種物聯(lián)網(wǎng)設(shè)備。表1 列出了傳感器的部分參數(shù)信息。
所涉及算法通過Java、Python 編程語言實現(xiàn),實驗環(huán)境為Intel Core i5-3210M CPU@2.50 GHz,內(nèi)存4.00 GB,32 位Windows 7操作系統(tǒng),Eclipse及PyCharm開發(fā)平臺。
表1 傳感器的部分參數(shù)信息Tab.1 Some parameters information of sensors
本文采用類內(nèi)類間距離比值作為服務(wù)聚類質(zhì)量的評價指標,對于服務(wù)聚類而言,同一類內(nèi)部距離越小,不同類之間距離越大,表示該聚類效果明顯,計算如下:
其中:R(K)表示類內(nèi)類間距離比值,R(K)越小,聚類質(zhì)量越好。
within(K)表示類內(nèi)距離,即同一類中各服務(wù)之間的平均距離,本文使用所有類內(nèi)距離的最大值作為整個數(shù)據(jù)集的類內(nèi)距離,計算如下:
其中:i,j=1,2,…,K;xp和xq分別是屬于Ci類和Cj的服務(wù)。
本文采用準確率Precision 和歸一化折損累積增益(Normalized Discounted Cumulative Gain,NDCG)作為服務(wù)發(fā)現(xiàn)結(jié)果的綜合評價指標。
Precision 是指檢索得到的服務(wù)中正確服務(wù)的占比,如式
其中:|Ci|表示屬于Ci類的服務(wù)的個數(shù),xj和xp是屬于Ci類的服務(wù)。
between(K)表示類間距離,即不同類最近的兩個服務(wù)之間的距離,本文使用任意兩個類之間距離的最小值作為整個數(shù)據(jù)集的類間距離,計算如下:(12)所示,其中,Ci表示第i 個聚類簇,A 表示檢索得到的服務(wù)數(shù)中正確匹配的服務(wù)數(shù),B表示檢索得到的服務(wù)數(shù)。
NDCG 用來衡量和評價檢索結(jié)果算法,與服務(wù)請求相似度最高的檢索結(jié)果排位越靠前,NDCG的值越大,計算如下:
其中:reli表示在檢索結(jié)果p 個文檔中第i 個文檔的相關(guān)等級,|REL|表示這p個文檔按照相關(guān)性從大到小的順序排序。
對物聯(lián)網(wǎng)服務(wù)描述文本進行特征提取、分詞、詞干還原等操作,生成預(yù)處理文本作為BTM 建模的輸入,BTM 中的主題數(shù)T 是一個經(jīng)驗值,根據(jù)數(shù)據(jù)集人為設(shè)定。參數(shù)α 一般取值,參數(shù)β一般取值0.01。經(jīng)過主題挖掘,可以得到服務(wù)文檔-主題分布矩陣,部分數(shù)據(jù)如表2 所示(結(jié)果取小數(shù)點后8位,加粗數(shù)據(jù)表示該文檔中主題相關(guān)性最高的主題的概率)。
表2 服務(wù)文檔-主題分布矩陣Tab.2 Service document-topic distribution matrix
4.3.1 BTM不同主題個數(shù)下服務(wù)聚類的比較
對具有不同主題數(shù)目的BTM 在用于物聯(lián)網(wǎng)服務(wù)聚類時的情況進行了可視化對比。在該實驗中,分別設(shè)定主題數(shù)為10、15、20、30 進行訓練,得到的模型分別標記為BTM_10、BTM_15、BTM_20、BTM_30,部分實驗結(jié)果如圖5 所示,圖中“十字”符為各聚類中心。從實驗結(jié)果圖對比分析發(fā)現(xiàn),隨著BTM 主題個數(shù)的細化,物聯(lián)網(wǎng)服務(wù)的聚類效果發(fā)生明顯的變化。計算不同主題數(shù)下各聚類數(shù)對應(yīng)的類內(nèi)類間距離比值,如表3所示。在K=7 時,不同主題數(shù)下類內(nèi)類間距離比值較??;T=15,K=7 時,類內(nèi)類間距離比值最小,整體聚類效果較好(迭代次數(shù)N取值為2 000)。
表3 不同主題數(shù)下各聚類數(shù)K對應(yīng)的類內(nèi)類間距離比值Tab.3 Distance ratio within and between classes under different number of topics with different K
4.3.2 不同方法下服務(wù)發(fā)現(xiàn)的比較
為了驗證本文提出的基于BTM的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)方法的有效性,采用4種現(xiàn)有服務(wù)發(fā)現(xiàn)研究中的常用方法TF-IDF[14]、LDA[15]、HDP[10]和LDA-K[16]作為基準與本文方法進行對比。
1)TF-IDF[14]:該方法用TF-IDF 算法計算服務(wù)之間的相似度,利用服務(wù)相似度使用K-means 方法進行服務(wù)聚類,是一種基于關(guān)鍵詞的服務(wù)分類辦法。
2)LDA[15]:該方法建立了三層貝葉斯模型,即文檔-主題-詞,基于LDA 模型的服務(wù)發(fā)現(xiàn),通過LDA 建模提取服務(wù)的隱含主題信息,并根據(jù)不同主題對服務(wù)進行分類。LDA 對長文本進行主題挖掘有較好的效果,但處理短文本效果不明顯。
3)HDP[10]:一種非參數(shù)貝葉斯主題模型,可以根據(jù)數(shù)據(jù)集自動確定主題數(shù)量。與LDA 模型相比,該方法更適合對具有實時性的數(shù)據(jù)集進行主題建模。
4)LDA-K[16]:使用LDA 將服務(wù)從詞項空間轉(zhuǎn)換到主題空間,通過建模學習得到服務(wù)的隱含主題,并使用K-means 算法對服務(wù)進行分類,該方法注重主題分布整體的相似度。
圖5 不同主題個數(shù)下服務(wù)聚類效果Fig.5 Service clustering under different number of topics
在相同的實驗環(huán)境下使用相同的數(shù)據(jù)集,對以上方法提出相同的服務(wù)請求進行查詢。圖6 和圖7 分別給出了在不同數(shù)量的服務(wù)查詢下5 種方法的Precision 和NDCG 指標的評估結(jié)果。圖6是5種方法的物聯(lián)網(wǎng)服務(wù)查詢準確率的對比,可以看出,隨著服務(wù)查詢數(shù)量的增長,所有方法查準率都呈下降趨勢,查詢數(shù)量為35 時趨于穩(wěn)定,本文方法整體上要優(yōu)于其他方法。通過計算可知,基于BTM 的服務(wù)查詢平均準確率相比TF-IDF、LDA、HDP 和LDA-K 方法分別提高了5.91%、4.01%、2.92%、2.46%。
圖7 是5 種方法在不同查詢數(shù)量下的NDCG 值對比,NDCG 值越大說明與服務(wù)請求相似度最高的檢索結(jié)果排位越靠前。從圖7 中可以看出,5 種方法的NDCG 值隨著服務(wù)查詢數(shù)量的增加均有所下降,相比其他4 種常用方法,本文方法的查詢結(jié)果相似度更高。針對短文本的物聯(lián)網(wǎng)服務(wù),本文方法可以直接建模學習,無需進行文本擴充,有效解決了數(shù)據(jù)稀疏性問題,服務(wù)匹配返回最佳服務(wù)的效果得到了提升。
綜合分析圖6 和圖7 的結(jié)果可以看出:TF-IDF 側(cè)重通過計算文本中單詞的詞頻和逆文檔頻率進行服務(wù)聚類;LDA、HDP 和LDA-K 主要針對于較長文本進行文檔級建模;而BTM主題模型則是對詞共現(xiàn)進行建模來增強主題挖掘,利用整個語料庫的聚合模式來學習文本的隱含主題,有效地解決了短文檔級的數(shù)據(jù)稀疏問題。因此,基于Precision 和NDCG 的綜合分析,對文本較短、語義性差的物聯(lián)網(wǎng)服務(wù)進行聚類,BTM有效地提高了服務(wù)發(fā)現(xiàn)的效果。
圖6 5種方法的物聯(lián)網(wǎng)服務(wù)查詢準確率對比Fig.6 Precision comparison of IoT service query by five methods
圖7 5種方法在不同查詢數(shù)量下的NDCG值對比Fig.7 NDCG comparison of five methods under different service queries
如何快速有效地找到最佳服務(wù)以滿足不斷增長的服務(wù)需求是當前物聯(lián)網(wǎng)應(yīng)用中需要解決的關(guān)鍵問題之一,由于物聯(lián)網(wǎng)服務(wù)文本短、語義性差等特性,應(yīng)用現(xiàn)有的服務(wù)發(fā)現(xiàn)方法不能很好地匹配到最佳服務(wù)。針對這一問題,本文提出了一種基于BTM 的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)方法,該方法利用BTM 挖掘物聯(lián)網(wǎng)服務(wù)的隱含主題,對服務(wù)進行聚類并返回服務(wù)請求的最佳匹配結(jié)果。實驗結(jié)果分析表明,該方法在Precision 和NDCG方面比常用的其他方法均有更好的效果。
本文的研究主要集中于物聯(lián)網(wǎng)服務(wù)屬于短文本、語義性差這一特性上,今后,我們將會在本文的基礎(chǔ)上進一步考慮為物聯(lián)網(wǎng)服務(wù)添加語義標記、服務(wù)的實時變化性等特性對物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)的影響。