• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于統(tǒng)計的數(shù)字電視信息過濾算法*

      2010-06-25 09:38:48劉春英吳德華
      電視技術(shù) 2010年7期
      關(guān)鍵詞:查全率查準率特征向量

      劉春英,吳德華,宋 燁

      (長沙航空職業(yè)技術(shù)學院,湖南 長沙 410124)

      1 引言

      隨著數(shù)字電視和通信技術(shù)的不斷發(fā)展,用戶除了能看到越來越多的電視節(jié)目,更能享受到個性化信息服務(wù)等數(shù)字電視增值業(yè)務(wù)。但是,用戶在享受電視資訊服務(wù)的同時,同樣受到“信息迷向”和“信息過載”問題的困擾[1]。

      雖然數(shù)字電視的基本工作方式是廣播式的,但其發(fā)送數(shù)字信息的顆粒度仍然較高,流量仍然很大。如何從用戶終端的大量信息中篩選出用戶真正需要的信息,已成為這項增值業(yè)務(wù)能否讓用戶滿意的瓶頸。面對信息流量大而機頂盒存儲能力有限的矛盾,信息過濾技術(shù)在數(shù)字電視的個性化信息服務(wù)[2-3]中的應(yīng)用是推動數(shù)字電視增值業(yè)務(wù)更好、更快發(fā)展的必然趨勢。因此,迫切需要一個信息過濾系統(tǒng)來滿足電視觀眾日益俱增的個性化需求,實現(xiàn)數(shù)字電視平臺上的個性化信息服務(wù)。

      2 數(shù)字電視信息過濾與網(wǎng)絡(luò)信息過濾技術(shù)對比

      信息過濾的主要任務(wù)是將信息源與用戶興趣模型進行比較,根據(jù)比較結(jié)果過濾掉不相關(guān)的信息,選出用戶關(guān)注的信息。網(wǎng)絡(luò)信息過濾系統(tǒng)一般包括信息源、過濾部分、用戶和用戶興趣模型4個基本組成部分[4]。為了提高過濾的效率與精度,系統(tǒng)還可根據(jù)過濾結(jié)果提供相應(yīng)的反饋機制來不斷更新用戶興趣模型[5],使用戶的信息需求越來越明確,其工作過程見圖1。

      數(shù)字電視信息過濾系統(tǒng)在技術(shù)上與網(wǎng)絡(luò)上的信息過濾類似,所不同的是它以廣播式信道為基礎(chǔ),具有單向性的特點。而網(wǎng)絡(luò)上的商業(yè)化搜索引擎的搜索對象是半結(jié)構(gòu)化的,工作環(huán)境是強大的服務(wù)器集群,檢索結(jié)果也不盡理想。例如,谷歌(Google)的查準率很高,但冗余率也很高,一般只有搜索結(jié)果的前幾項是用戶感興趣的內(nèi)容。而數(shù)字電視信息過濾系統(tǒng)的處理對象是非結(jié)構(gòu)化的TS碼流,工作平臺是數(shù)字電視終端(目前主要是機頂盒),可利用的軟硬件資源都十分有限,不適于使用網(wǎng)絡(luò)信息過濾技術(shù)。另一方面,機頂盒是一個小平臺,無法完成信息過濾的所有工作,如中文分詞、特征抽取等工作只能在廣播網(wǎng)絡(luò)前端完成。因此,怎樣結(jié)合數(shù)字電視的特點,尋求一種行之有效的用戶興趣模型、精簡的信息過濾算法和學習算法是在數(shù)字電視中實現(xiàn)信息過濾技術(shù)的關(guān)鍵所在。

      數(shù)字電視信息過濾系統(tǒng)的用戶興趣模型是對用戶興趣的描述,常用的模型主要以文本描述模型為基礎(chǔ),輔以對用戶興趣的描述,構(gòu)成用戶興趣模型。信息過濾算法在用戶興趣模型與信息源之間進行匹配。用戶興趣學習算法的作用是對用戶興趣模型進行修正。數(shù)字電視信息過濾系統(tǒng)的處理對象的特殊性及數(shù)字電視終端的軟硬件資源的有限性,決定了數(shù)字電視信息過濾系統(tǒng)中的信息過濾算法、用戶興趣模型和學習算法不能太復(fù)雜。

      3 基于統(tǒng)計的數(shù)字電視信息過濾算法

      根據(jù)數(shù)字電視的精簡性要求及其工作的軟硬環(huán)境,筆者提出了一種適用于數(shù)字電視的信息過濾算法,如圖2所示。該過濾算法以向量空間模型為基礎(chǔ),重點是特征向量集的建立和修正以及特征向量匹配算法。索引及索引點擊率順序表則體現(xiàn)了用戶興趣。

      該算法的特點在于信息過濾系統(tǒng)不是簡單地從用戶詞典中取出幾個表示用戶興趣的關(guān)鍵詞去匹配*.txt文本,而是用這些關(guān)鍵詞及其概念范疇的合集組成特征向量集去匹配*.txt文本。由此得到的特征向量集更能體現(xiàn)用戶興趣。這樣可以挖掘文本的潛在語義,避免某些包含同義詞或多義詞的文檔被過濾系統(tǒng)遺漏,提高過濾效果。例如,用戶詞典中的關(guān)鍵詞“足球”,它的概念范疇有“射門”、“門將”、“鏟球”、“點球”、“進球”等若干詞,則(門將,射門,鏟球,點球,進球)就是匹配“足球”信息時用的初始特征向量,并且特征向量中每個關(guān)鍵詞都帶有權(quán)重。在用戶動作之后,信息過濾系統(tǒng)要能根據(jù)用戶的動作指令判斷初始特征向量中的哪些分量的權(quán)重較高,要繼續(xù)留下;哪些特征向量分量權(quán)重低于事先設(shè)定的閾值,要從特征向量中剔除掉。

      本設(shè)計采用的是一種基于統(tǒng)計的方法,即通過統(tǒng)計各關(guān)鍵詞的出現(xiàn)頻率,來確定特征向量和特征向量分量的權(quán)重。此算法基于如下假設(shè):1)用戶輸入的關(guān)鍵詞是有限的;2)預(yù)先設(shè)計的索引結(jié)構(gòu)和用戶詞典是合理的;3)用戶瀏覽的點擊率能比較可靠地體現(xiàn)用戶興趣。

      4 實驗結(jié)果分析

      在本算法的研究過程中,采取了查全率和查準率[6]作為評價指標,對該信息過濾算法的效果進行模擬評價。在實驗中,首先人為設(shè)置初始特征向量,然后選擇了50篇文檔進行測試,實驗結(jié)果如表1所示。

      表1 實驗結(jié)果

      開始實驗時,初始特征向量由系統(tǒng)預(yù)置,用該特征向量匹配出來的信息用戶不一定感興趣。例如,首先設(shè)置初始特征向量為(球迷,門將,射門,鏟球,點球,進球),實驗結(jié)果顯示查準率很低。隨著實驗的進行,在用戶動作指令的影響下,系統(tǒng)通過計算發(fā)現(xiàn)“球迷”的權(quán)重最低,將它從特征向量中剔除。依此類推,在特征向量的不斷修正中,查全率與查準率逐步好轉(zhuǎn),最后達到比較理想的效果。

      表1表示的只是將特征向量中權(quán)重較低的關(guān)鍵詞逐一剔除后的情況。實際中,也可通過分析用戶的瀏覽歷史,將一些權(quán)重很高但并沒有出現(xiàn)在初始特征向量的關(guān)鍵詞添加進特征向量。當然,用查全率和查準率來評價數(shù)字電視中的信息過濾算法的效果存在一定的誤差。原因在于:首先,該信息過濾算法設(shè)定只返回關(guān)聯(lián)度大于某個固定閾值的信息,閾值的取值不同,返回的信息數(shù)量也會不同,因此采用查準率、查全率來衡量過濾效果就會造成誤差。再者,數(shù)字電視中信息源(TS碼流)不斷動態(tài)變化,會導(dǎo)致計算查全率時無法特別準確地確定信息源中符合用戶興趣的全部信息量,從而無法很精確地計算查全率。

      5 小結(jié)

      為了提高信息過濾的效率和精度,讓個性化信息過濾技術(shù)真正應(yīng)用于數(shù)字電視,結(jié)合數(shù)字電視廣播的特點,設(shè)計了一種適用于數(shù)字電視的個性化信息過濾算法,并通過一系列實驗證明了該算法的可行性。不過,實驗中也存在一些不足,一是用查全率和查準率指標評價該信息過濾算法的過濾效果不是很精確;二是目前沒有將該算法加入機頂盒解碼芯片進行實際驗證,這都需要在今后的研究中繼續(xù)努力。

      [1]延霞.基于信息過濾技術(shù)的搜索引擎研究[J].深圳信息職業(yè)技術(shù)學院學報,2005(3):20-24.

      [2]龐雅麗,王彩芬.個性化信息過濾技術(shù)[J].甘肅科技,2007(3):124-126.

      [3]吳學輝,張敏.個性化信息過濾系統(tǒng)研究[J].重慶科技學院學報,2008(3):96-98.

      [4]張園園.基于用戶興趣的個性化搜索引擎的分析與研究[D].秦皇島:燕山大學,2006.

      [5]王翠平.基于用戶興趣度的網(wǎng)絡(luò)信息過濾模型研究[D].濟南:山東師范大學,2007.

      [6]牛洪波,丁華福.基于文本分類技術(shù)的信息過濾方法的研究[J].信息技術(shù),2007(12):100-102.

      猜你喜歡
      查全率查準率特征向量
      二年制職教本科線性代數(shù)課程的幾何化教學設(shè)計——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      海量圖書館檔案信息的快速檢索方法
      基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計
      一類特殊矩陣特征向量的求法
      基于詞嵌入語義的精準檢索式構(gòu)建方法
      大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
      EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
      基于深度特征分析的雙線性圖像相似度匹配算法
      中文分詞技術(shù)對中文搜索引擎的查準率及查全率的影響
      沈丘县| 铁力市| 高雄县| 和龙市| 清新县| 延安市| 航空| 西贡区| 隆化县| 张家口市| 安多县| 城固县| 海晏县| 城市| 巴里| 京山县| 来凤县| 邵阳市| 贵港市| 青岛市| 宜春市| 讷河市| 任丘市| 洪湖市| 辉南县| 娄烦县| 洛川县| 安国市| 酒泉市| 山东省| 滦南县| 象州县| 勃利县| 周至县| 射洪县| 沈阳市| 邮箱| 宝应县| 甘德县| 宣武区| 麻栗坡县|