• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于本體的互聯(lián)網(wǎng)輿情分析預警系統(tǒng)關鍵技術研究

    2018-07-12 01:08:08張慎武鄭州大學西亞斯國際學院
    數(shù)碼世界 2018年6期
    關鍵詞:本體文檔輿情

    張慎武 鄭州大學西亞斯國際學院

    1 引言

    互聯(lián)網(wǎng)改變著中國人的生活方式。2017年8月,中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布了第40次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》。《報告》顯示,截至2017年6月, 我國網(wǎng)民規(guī)模達7.51億,普及率達到54.3%,其中微博用戶2.9億,網(wǎng)民使用率38.7%,使用網(wǎng)絡新聞和論壇/貼吧的用戶分別為83.1%和17.6%[1]。超過70%的網(wǎng)民在互聯(lián)網(wǎng)上發(fā)表言論并進行話題討論,充分表達思想觀點和利益訴求。因為自身的開放性、互動性、便捷性、及時性和影響范圍廣等特點,互聯(lián)網(wǎng)已成為思想文化信息的集散地和社會輿論的放大器[2]。在互聯(lián)網(wǎng)輿情中,有一些熱點問題容易引起廣泛的影響,特別是負面的影響。如果不能及時地發(fā)現(xiàn)、有效地引導,負面的互聯(lián)網(wǎng)輿情將對社會秩序和公共安全造成較大威脅。因此,對互聯(lián)網(wǎng)輿情進行高效快速分析預警的技術是保證良好、穩(wěn)定的社會秩序的重要保障手段,對此類技術的研究迫在眉睫。互聯(lián)網(wǎng)輿情分析與導控系統(tǒng)一般包括熱點、敏感話題識別、輿情主題跟蹤、自動摘要、輿情趨勢分析、突發(fā)事件分析和輿情報警等功能。目前國內(nèi)大多數(shù)網(wǎng)絡輿情分析系統(tǒng)都采用基于語法的輿情分析技術,不能從語義層面對網(wǎng)絡輿情進行分析預警,可能會忽略一些熱點/敏感事件,影響了系統(tǒng)對于輿情的發(fā)現(xiàn)率。本文主要闡述基于本體的互聯(lián)網(wǎng)輿情分析預警系統(tǒng)的模型框架和關鍵技術。

    2 系統(tǒng)模型框架

    系統(tǒng)模型主要包含輿情規(guī)劃、信息采集、輿情分析、輿情報警和本題庫構建等模塊,如圖1所示。

    a.輿情規(guī)劃模塊:操作員根據(jù)需要設置輿情主題和種子URL,形成定制化的輿情方案。

    b.信息采集模塊:負責利用爬蟲技術從新聞網(wǎng)頁、論壇、微博、貼吧等互聯(lián)網(wǎng)社交媒體中采集信息,將采集到的文本進行格式化、預處理以及向量化,用云存儲技術保存在分布式集群中,并隨時提供信息檢索服務。

    c.輿情分析模塊:以一系列最新理論技術研究成果為基礎,涵蓋系統(tǒng)的三個核心模塊(自然語言處理、情感分析和語義分析),利用輿情分析產(chǎn)生的文本分類和情感傾向性結果產(chǎn)生輿情,為輿情服務提供基礎性數(shù)據(jù)分析支撐。

    d.輿情服務模塊:利用輿情分析模塊的處理結果,根據(jù)系統(tǒng)的配置提供輿情服務,進行輿情可視化分析并提供輿情預警和展示。

    圖1.系統(tǒng)模型框架

    3 互聯(lián)網(wǎng)輿情領域本體庫的構建

    領域專家在本體構建方法學的指導下,構建網(wǎng)絡輿情領域本體庫。Tom Gruber給出了設計本體的基本準則: (1) 明確性和客觀性,本體應該有效地傳達所定義的術語內(nèi)涵; (2) 一致性,即由本體推斷出來的概念定義應該與本體中的概念定義一致; (3)可擴展性,指本體提供的共享詞匯集,應該在不改變原義的前提下能夠單調地進行擴展; (4) 最小編碼偏差,本體應該處于知識的層次,而與特定的符號級編碼無關; (5)最小本體承諾,一個本體在提供必須的共享知識條件下,要求有最小的本體承諾[3]。本體建立的方法目前沒有統(tǒng)一的標準,一般都是參考軟件工程的方法。

    參考常用的本體開發(fā)方法后,在本系統(tǒng)中采用的本體建立方法如下: (1) 確定輿情分析本體應用的目的和范圍; (2) 進行本體概念和關系的初步選取; (3) 形式化表示及評價; (4)建立本體。

    由于領域知識龐大而復雜,不可能對其進行全面建模,在實際系統(tǒng)中應緊貼特定主題輿情分析的需要,選擇相關的領域建立領域本體庫。

    構造本體時是以OWL來進行描述的,在對Web內(nèi)容進行語義標注和基于語義的輿情分析過程中會頻繁地訪問本體中的概念、實例、屬性及各種關系,所以需要將本體存入數(shù)據(jù)庫,以實現(xiàn)對本體的快速訪問。

    4 輿情內(nèi)容文本語義標注

    語義標注的目的是通過本體為輿情內(nèi)容文本增加計算機可以理解的語義信息,也就是為本體中的概念尋找文本中的實例或者為本體中的實例尋找相匹配實例的過程。在輿情分析系統(tǒng)中可以采用如下方案來實現(xiàn)網(wǎng)絡文本內(nèi)容的語義標注:

    (1) 網(wǎng)絡文檔特征詞提取。在傳統(tǒng)的空間向量模型文本表示方法中,特征選擇和權值計算忽略了文本的語義信息,所以在本系統(tǒng)中通過遍歷輿情分析本體庫進行文檔特征詞選擇,形成特征詞集合。

    (2) 基于輿情分析本體庫進行特征詞權值計算,形成文檔與領域本體的映射關系。文檔 dj表示成特征向量:

    dj= { ( t1,w1j) ,…,( ts,wsj) } ,其中t1…ts表示經(jīng)過本體進行匹配后特征詞,w1j…wsj表示經(jīng)過在本體計算后得到的概念權值。

    采用這種方案不僅可以揭示文檔的隱含語義信息,而且能較準確地劃分文檔與所屬類別,為輿情分析中的熱點話題發(fā)現(xiàn)提供基礎。

    5 基于語義相似度的輿情熱點/主題/話題分析

    Web 文本挖掘的目的是對文本內(nèi)容進行分析,發(fā)現(xiàn)有價值的模式和規(guī)則,并進行預測。而現(xiàn)有的文本挖掘都是基于語法層面,極少進行語義層面的挖掘,準確率不高。在輿情分析系統(tǒng)中,熱點、敏感話題發(fā)現(xiàn)主要是采用文本挖掘的聚類來實現(xiàn),在本系統(tǒng)中提出基于語義的熱點、敏感話題發(fā)現(xiàn),實現(xiàn)流程如下:(1) 在上述語義標注的結果上進行基于本體庫的文檔與文檔之間的語義相似度和相關度計算; (2) 按照預設的閾值進行聚類處理,形成相應的簇; (3) 形成文檔集合的劃分后,再次利用上述基于本體的語義特征詞概念權值計算方法進行文檔集合的特征提取,從而形成輿情分析中的熱點、敏感話題,在本體庫的支持下進行情感傾向性分析。

    在該過程中多次涉及到語義概念特征的相似度與相關度計算,對于概念的語義相似度

    其中:α(x)是以x為起點向上可達的結點集合;α(x)∩α(y) 是以x和y為起點,向上可達的結點集合的交集;ρ∈[0,1]是可調參數(shù)。式(1) 充分考慮

    了概念間的語義重合度、概念層次深度和相似度的不對稱性。

    在領域本體中任意2個概念特征相關度

    其中,ShortPath(x, y)表示從x到y(tǒng)的最短路徑距離,當x和y不相通時該值為∞,λ為可調參數(shù)。

    6 結束語

    本文闡述了互聯(lián)網(wǎng)輿情分析預警系統(tǒng)的模型框架和系統(tǒng)中使用的三個關鍵技術:互聯(lián)網(wǎng)輿情領域本體庫的構建、輿情內(nèi)容文本語義標注和基于語義相似度的輿情熱點/主題/話題分析,如何將這些關鍵技術和其他技術在模型框架內(nèi)整合成一套自動化的互聯(lián)網(wǎng)輿情分析預警系統(tǒng),為相關管理者、監(jiān)管部門提供一個基礎性平臺,是本文下一步的工作重點。

    猜你喜歡
    本體文檔輿情
    Abstracts and Key Words
    哲學分析(2023年4期)2023-12-21 05:30:27
    有人一聲不吭向你扔了個文檔
    對姜夔自度曲音樂本體的現(xiàn)代解讀
    中國音樂學(2020年4期)2020-12-25 02:58:06
    基于RI碼計算的Word復制文檔鑒別
    輿情
    中國民政(2016年16期)2016-09-19 02:16:48
    輿情
    中國民政(2016年10期)2016-06-05 09:04:16
    《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
    文學教育(2016年27期)2016-02-28 02:35:15
    輿情
    中國民政(2016年24期)2016-02-11 03:34:38
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    微博的輿情控制與言論自由
    临澧县| 额济纳旗| 莱西市| 登封市| 宣武区| 增城市| 定陶县| 通渭县| 香格里拉县| 彭泽县| 台中县| 丰顺县| 麟游县| 凤山市| 娄烦县| 安陆市| 弥渡县| 时尚| 灵石县| 进贤县| 新宁县| 佛坪县| 文水县| 上虞市| 贺州市| 江达县| 文安县| 绥中县| 北安市| 鄂尔多斯市| 宁陵县| 郯城县| 龙海市| 玉环县| 方山县| 汶上县| 湘潭县| 浦城县| 科技| 康平县| 同仁县|