翁雙卿
摘 要 主要研究熱點(diǎn)話題追蹤的方法及策略。首先,從熱點(diǎn)話題追蹤內(nèi)容出發(fā),對(duì)熱點(diǎn)話題追蹤過程中的注意事項(xiàng)進(jìn)行研究。其次,在上述基礎(chǔ)上全面挖掘了聚類熱點(diǎn)話題追蹤和自適應(yīng)熱點(diǎn)話題追蹤中的主要內(nèi)容,結(jié)合實(shí)際案例深入分析了聚類追蹤報(bào)道及自適應(yīng)追蹤報(bào)道的應(yīng)用效益,望為新時(shí)期熱點(diǎn)話題追蹤工作的開展提供一定的參考。
關(guān)鍵詞 話題追蹤;內(nèi)容;方法;應(yīng)用
中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360(2017)08-0163-02
信息作為人們生活中不可或缺的關(guān)鍵部分,直接影響著人們的生活質(zhì)量和生產(chǎn)效益。隨著互聯(lián)網(wǎng)的不斷深入,信息已經(jīng)越來越多樣化,面對(duì)快速更新的海量信息,如何形成高效的獲取技術(shù),對(duì)熱點(diǎn)話題進(jìn)行全面把握已勢(shì)在必行。話題追蹤技術(shù)能夠借助數(shù)據(jù)手段快速、高效地獲取相應(yīng)信息,對(duì)熱點(diǎn)話題進(jìn)行全面把握,對(duì)用戶獲取信息效益的提升具有至關(guān)重要的意義,已經(jīng)成為人們關(guān)注的焦點(diǎn)。
1 熱點(diǎn)話題追蹤的主要內(nèi)容
1.1 信息與熱點(diǎn)話題
熱點(diǎn)話題是圍繞熱點(diǎn)新聞、報(bào)道、事件、活動(dòng)等形成且達(dá)到一定搜索量的話題。這種話題需圍繞一個(gè)種子事件、活動(dòng),或與一個(gè)種子事件、活動(dòng)有間接的關(guān)系,即具有一定的關(guān)聯(lián)且能夠形成信息群。如2015年3月,“匈牙利展出肉身坐佛疑為三明20年前被盜文物”的帖子引起上億名網(wǎng)友關(guān)注,在大田縣吳山鄉(xiāng)陽春村村民找出許多當(dāng)年這尊千年肉身坐佛曾經(jīng)在此“生活”的蹤跡,兩方就肉身坐佛歸屬進(jìn)行“爭(zhēng)論”。在這里面肉身坐佛就是信息的種子源,由此衍生了了大量的信息,中央電視臺(tái)、中國(guó)之聲、新華社、人民網(wǎng)等20多家中央、省、市媒體進(jìn)行相關(guān)采訪報(bào)道,匈牙利華媒《歐洲論壇》等海外華文媒體也參與采訪調(diào)查,章公祖師、肉身坐佛等相關(guān)詞句成了熱門搜索的話題。
1.2 話題追蹤概述
我國(guó)話題追蹤起步較晚,在20世紀(jì)80年代才開始對(duì)話題追蹤進(jìn)行重視,90年代現(xiàn)代化話題追蹤技術(shù)體系才初步形成。上述追蹤的過程中主要從數(shù)據(jù)信息出發(fā),構(gòu)建相應(yīng)的數(shù)據(jù)庫,在該基礎(chǔ)上實(shí)施數(shù)據(jù)評(píng)估及處理,確定話題的相關(guān)性和時(shí)效性,對(duì)關(guān)聯(lián)話題的信息內(nèi)容進(jìn)行順序整理,從而為用戶提供完整的信息體系。
1.3 話題追蹤的內(nèi)容
熱點(diǎn)話題追蹤技術(shù)應(yīng)用的過程中需要全面把握熱點(diǎn)話題內(nèi)容,做好報(bào)道分切、話題識(shí)別、事件發(fā)現(xiàn)、分層追蹤等,這樣才能夠?qū)狳c(diǎn)話題進(jìn)行全面把握。
報(bào)道分切:熱點(diǎn)話題追蹤的過程中需要對(duì)話題報(bào)道流進(jìn)行處理,確定熱點(diǎn)話題的來源,做好話題的“分切”,依照具體來源形成歸類、整理,從而為話題追蹤奠定良好的基礎(chǔ)。報(bào)道分切過程中需做好信息分切、整理和標(biāo)記。
話題識(shí)別:識(shí)別過程中可依照?qǐng)?bào)道分切、整理和標(biāo)記后的信息進(jìn)行針對(duì)性分析,識(shí)別熱點(diǎn)話題的相關(guān)性,在該基礎(chǔ)上進(jìn)行篩選。篩選完整后依照熱點(diǎn)話題時(shí)間對(duì)其進(jìn)行排序,確定熱點(diǎn)話題中事件發(fā)展進(jìn)程。
事件發(fā)現(xiàn):熱點(diǎn)話題具有實(shí)時(shí)性、動(dòng)態(tài)性和發(fā)展性。在話題追蹤的過程中需要從實(shí)時(shí)、動(dòng)態(tài)和發(fā)展的角度對(duì)事件進(jìn)行分析,做好新事件的發(fā)現(xiàn),及時(shí)將新事件納入到話題整理內(nèi)容中,從而提升熱點(diǎn)話題追蹤效益,為用戶提供完整的話題信息。
分層追蹤:熱點(diǎn)話題往往具有一定的層次性,在熱點(diǎn)話題追蹤的過程中需要做好分層話題追蹤,在報(bào)道分切及話題識(shí)別基礎(chǔ)上將原來的平面話題轉(zhuǎn)變?yōu)樵掝}簇,由子話題節(jié)點(diǎn)、子話題簇豐富熱點(diǎn)話題內(nèi)容,更熱點(diǎn)話題內(nèi)容及發(fā)展?fàn)顩r一目了然。
2 熱點(diǎn)話題追蹤的方法及策略
2.1 聚類追蹤報(bào)道分析
聚類追蹤報(bào)道主要從熱點(diǎn)話題內(nèi)容出發(fā),將熱點(diǎn)話題依照主題、內(nèi)容等的差異劃分為不同的子集,在該子集基礎(chǔ)上實(shí)施熱點(diǎn)話題主題或核心內(nèi)容的追蹤,形成相應(yīng)的報(bào)道。該技術(shù)在處理的過程中需要對(duì)聚類操作進(jìn)行合理把握,做好聚類指標(biāo)的設(shè)置,在該基礎(chǔ)上嚴(yán)格依照話題內(nèi)容實(shí)施處理,這樣才能夠保證熱點(diǎn)話題聚類子集的準(zhǔn)確性和有效性。
熱點(diǎn)話題聚類追蹤的過程中需要對(duì)話題主題及內(nèi)容等進(jìn)行把握,總結(jié)出話題的“特征”,確定熱點(diǎn)話題中的線索,在該基礎(chǔ)上構(gòu)建熱點(diǎn)話題的映射關(guān)系,從而實(shí)施相應(yīng)聚類處理。上述處理的過程中必須要把握好話題主題和內(nèi)容提出的準(zhǔn)確性、代表性和獨(dú)立性。
常規(guī)聚類處理過程中主要依照熱點(diǎn)話題狀況實(shí)施扁平聚類和層次聚類。扁平聚類的過程中只能夠依照主題對(duì)話題進(jìn)行劃分,不能夠確定話題內(nèi)容之間層次性。K-means聚類算法就是依照二維平面聚類后熱點(diǎn)話題之間的距離狀況確定其相關(guān)性的,實(shí)施針對(duì)性劃分的方法。該算法運(yùn)用的過程中計(jì)算內(nèi)容較為簡(jiǎn)單,聚類處理速度非???,只需要將熱點(diǎn)話題到范圍質(zhì)心歐式距離平方值最小的熱點(diǎn)劃分為一類即可,對(duì)其進(jìn)行標(biāo)注。在K-means聚類算法處理的過程中話題追蹤時(shí)還需要對(duì)標(biāo)注的主題和核心內(nèi)容進(jìn)行篩選即可,借助數(shù)據(jù)檢索技術(shù)就可以實(shí)現(xiàn),操作非常簡(jiǎn)單,實(shí)用性較廣。如在“韓春雨學(xué)術(shù)造假”熱點(diǎn)話題聚類處理過程中就可以將對(duì)采集到的信息在專家評(píng)論或智能評(píng)論基礎(chǔ)上實(shí)施二維平面分布,確定位置后通過K-means聚類算法確定平均值,最有平均值范圍內(nèi)的話題即為所需的熱點(diǎn)話題關(guān)聯(lián)信息,開展后續(xù)報(bào)道。
而層次聚類既能夠顯示話題主題,又能夠分析話題內(nèi)容,聚類的效果更佳明顯,話題追蹤結(jié)果更佳全面。凝聚式層次聚類過主要依照從上而下的原則將各項(xiàng)熱點(diǎn)話題內(nèi)容整理和聚類,形成子話題簇,在算法分裂基礎(chǔ)上對(duì)各項(xiàng)內(nèi)容進(jìn)行分裂整理,為后續(xù)報(bào)道奠定了良好的基礎(chǔ)。該處理方法應(yīng)用的過程中需要構(gòu)建好話題層次的劃分,形成針對(duì)性權(quán)重,并結(jié)合專家評(píng)論或智能檢索結(jié)果將其與權(quán)重相乘,確定話題的關(guān)聯(lián)度。
2.2 自適應(yīng)追蹤報(bào)道分析
自適應(yīng)追蹤報(bào)道主要圍繞話題中的各項(xiàng)內(nèi)容對(duì)話題進(jìn)行追蹤,其借助自學(xué)習(xí)能力對(duì)話題進(jìn)行分析和評(píng)價(jià),確定話題是否符合核心內(nèi)容,對(duì)其進(jìn)行劃分,從而形成針對(duì)性報(bào)道內(nèi)容。該技術(shù)在運(yùn)用的過程中可以依照熱點(diǎn)話題狀況對(duì)其追蹤進(jìn)行實(shí)施調(diào)整,借助內(nèi)容和統(tǒng)計(jì)方法計(jì)算話題主體和內(nèi)容的相似度,將后續(xù)話題報(bào)道的計(jì)算數(shù)值與上述相似度對(duì)比,確定兩者具有一定關(guān)聯(lián)后將后續(xù)報(bào)道與原話題內(nèi)容整合,從而實(shí)現(xiàn)話題鏈的構(gòu)建,完成后續(xù)報(bào)道的設(shè)定。
自適應(yīng)熱點(diǎn)話題追蹤的過程中需要對(duì)追蹤模型的構(gòu)建進(jìn)行全面把握,做好參數(shù)的調(diào)整,這樣才能夠保證追蹤的可靠性和準(zhǔn)確性。一般自適應(yīng)話題追蹤的過程中主要通過調(diào)整閾值、相似度和特征詞的權(quán)重來滿足追蹤要求,實(shí)現(xiàn)熱點(diǎn)話題的科學(xué)“匯總”。
特征詞權(quán)重調(diào)整的過程中可以利用人工調(diào)節(jié)的方法對(duì)熱點(diǎn)話題的特征值權(quán)重進(jìn)行設(shè)定,并依照具體的熱點(diǎn)話題內(nèi)容對(duì)權(quán)重值進(jìn)行調(diào)整,在調(diào)整過程中需要對(duì)報(bào)道和話題的相似度進(jìn)行對(duì)比,依照上述相似度值對(duì)熱點(diǎn)話題追蹤內(nèi)容進(jìn)行修正。相似度調(diào)整的過程中主要依照計(jì)算數(shù)值的相似度確定目標(biāo)話題與熱點(diǎn)話題之間的關(guān)聯(lián)狀況,上述相似度一般指內(nèi)容相似頻率,由頻率參數(shù)確定兩者之間的關(guān)聯(lián)系數(shù),進(jìn)而實(shí)施熱點(diǎn)話題追蹤。除此之外,還需要通過閾值調(diào)整對(duì)熱點(diǎn)話題的時(shí)間信息進(jìn)行分析,在話題創(chuàng)建時(shí)間和熱點(diǎn)信息報(bào)道拓展時(shí)間間隔基礎(chǔ)上分析相似度,從而保證自適應(yīng)追蹤的可靠性和有效性,為后續(xù)報(bào)道提供良好的信息資料。在該過程中人員需要重視好熱點(diǎn)話題中的各項(xiàng)因素,尤其是要把握好地域因素、時(shí)間因素等對(duì)熱點(diǎn)事件追蹤報(bào)道的影響,依照上述因素把握好報(bào)道的相似度范圍,做好后續(xù)報(bào)道內(nèi)容的篩選和跟進(jìn),形成系統(tǒng)化、層次化熱點(diǎn)話題追蹤報(bào)道體系,這樣才能夠從根本上改善熱點(diǎn)話題追蹤質(zhì)量,形成實(shí)時(shí)、全面的熱點(diǎn)話題追蹤報(bào)道內(nèi)容。
在新加坡航空公司航班墜毀熱點(diǎn)話題追蹤的過程中就可以通過自適應(yīng)追蹤報(bào)道對(duì)其相關(guān)信息進(jìn)行整理,確定飛機(jī)失事報(bào)道、傷亡狀況、損失狀況、航班目前狀態(tài)、事件處理結(jié)果等內(nèi)容,在該基礎(chǔ)上依照特征詞劃分確定自適應(yīng)追蹤中的子話題簇并確定各個(gè)話題的權(quán)重。追蹤過程中共發(fā)現(xiàn)802篇報(bào)道,依照?qǐng)?bào)道和話題內(nèi)容進(jìn)行選擇后構(gòu)建子話題簇模型和子報(bào)道模型后發(fā)現(xiàn)用戶對(duì)航班狀態(tài)、傷亡狀況、事件發(fā)生原因等較為重視。因此,在后續(xù)報(bào)道過程中就需要做好上述熱點(diǎn)話題的追蹤,依照事件時(shí)間、區(qū)域等做好后續(xù)航班信息報(bào)道內(nèi)容的整理,形成相應(yīng)的追蹤報(bào)道內(nèi)容。
3 總結(jié)
熱點(diǎn)話題追蹤的過程中需要對(duì)話題主題和內(nèi)容進(jìn)行全面把握,依照追蹤需求合理選擇聚類追蹤報(bào)道或自適應(yīng)追蹤報(bào)道,形成科學(xué)的熱點(diǎn)話題追蹤體系,從而全面提升話題追蹤效益。在聚類追蹤過程中需做好聚類算法的選擇,依照算法實(shí)施二次平面分布或?qū)哟螜?quán)重構(gòu)建,從而為聚類奠定良好的數(shù)據(jù)基礎(chǔ);自適應(yīng)追蹤過程中要對(duì)特征值、相關(guān)度、閾值進(jìn)行把握,在上述基礎(chǔ)上實(shí)施模型數(shù)據(jù)與實(shí)際數(shù)據(jù)相似度的對(duì)比,找出報(bào)道與熱點(diǎn)話題的關(guān)聯(lián)度,從而實(shí)施相應(yīng)的話題聚類追蹤。