魏俊杰 何 翼 熊 黃 莊 輝
(深圳新聞網(wǎng)傳媒股份有限公司,廣東 深圳518034)
數(shù)據(jù)清洗是指通過一定的技術手段來解決數(shù)據(jù)質量問題的過程,在不同領域實際應用中,數(shù)據(jù)清洗的具體操作可能會有所不同,一般來說包括數(shù)據(jù)質量管理、數(shù)據(jù)庫以及數(shù)據(jù)挖掘三個方面。新聞數(shù)據(jù)清洗則主要是針對新聞數(shù)據(jù)進行上述操作,本研究數(shù)據(jù)清洗主要是指改善所使用的新聞數(shù)據(jù)質量這一過程。[1]
1.2.1 國外應用現(xiàn)狀
從國外研究情況來看目前有較多的數(shù)據(jù)集成商或服務商能夠提供定制化數(shù)據(jù)清洗服務,且已經(jīng)步入了較為成熟的商業(yè)化階段。目前國外提供的清洗方案主要包括用戶自定義工具和搜索引擎,兩者有著各自的優(yōu)勢和弊端。
第一種用戶自定義工具是一種半開放式框架,用戶可以根據(jù)自己的需求來制定清洗規(guī)則,但最大難點在于需要運用清洗策略語句和類編程語言,這就大大提高了新聞工作者的工作難度,因此這類工具使用效果較不理想。[2]第二種搜索引擎主要是通過對維度、屬性等進行預先分類,然后在用戶搜索時能夠給出篩選后的數(shù)據(jù)。這種方式使用較為便捷,但其弊端在于設置分類時主觀性較大,分類指標設置過細,則可能將原本不屬于數(shù)據(jù)噪聲的信息去掉,因此還需進一步人工處理。[3]
1.2.2 國內應用現(xiàn)狀
國內數(shù)據(jù)清洗應用已有較豐富的成型算法,且和電子商務等實際商業(yè)用途進行了結合,包含的數(shù)據(jù)類型有抽象數(shù)據(jù)、多元組等類型。但針對自然語言的數(shù)據(jù)清洗應用還較少,主要原因是所需技術需要多學科交叉配合,這就大大提升了制定數(shù)據(jù)清洗規(guī)則的難度。同時,國內數(shù)據(jù)清洗的商業(yè)化動力還較弱,主要還是停留在簡單轉化有限文本的層面。[4]
因此,本研究則針對筆者日常工作中的媒體數(shù)據(jù),對其數(shù)據(jù)清洗問題進行進一步深入研究,利用基于模糊綜合評判模型,從媒體角度在信息源頭就去除數(shù)據(jù)噪聲信息,保證新聞數(shù)據(jù)的質量,進而實現(xiàn)對新聞稿件的快速清洗。
運用基于模糊綜合評判的媒體新聞數(shù)據(jù)清洗方法時,第一步需要搭建總體框架,第二步需要建立新聞數(shù)據(jù)評級指標體系,第三步需要對該體系進行定量化評估。
媒體新聞數(shù)據(jù)清洗方法總體技術框架如圖1所示,主要包括了模式約束處理、實例數(shù)據(jù)清洗以及語義驗證階段。[5]
圖1 數(shù)據(jù)清洗框架
2.2.1 構建媒體新聞指標體系
構建完數(shù)據(jù)清洗框架后,應當在實際工作中對新聞稿件篩選,主要包括的指標有新聞事件、新聞基本要素。新聞事件主要是反映新聞發(fā)生的時間、地點、人物等,這些屬性可以作為數(shù)據(jù)清洗的維度。新聞基本要素主要是評估新聞的完整性和準確性,在數(shù)據(jù)清洗時可以利用其進行篩選,提高采集效率。新聞內容則包含了一些討論內容或立場,在數(shù)據(jù)清洗時可以根據(jù)傾向分析快速識別輿論熱點。[6]具體指標體系如表1所示。
表1 媒體新聞指標體系
2.2.2 基于模糊綜合評判的定量化評估
本研究基于模糊綜合評判法構建新聞稿件質量評級體系,并對各項指標進行量化。在實際工作中發(fā)現(xiàn),對媒體新聞數(shù)據(jù)集合歸屬的界定不是很清晰,模糊概念之間的差異無法量化。因此,利用模糊集的概念對此類表述進行處理,將其表示成為三角模糊值,通過加權平均值的方式使得輸出結果包含更多信息。
其模型集主要包括判斷因素集合、評判等級集合以及權重集合,同時還包括單因素評判矩陣。在模糊向量和模糊關系矩陣都已有的前提下,可以對模糊變換進行綜合評判。[7]主要步驟如下:
(1)劃分因素集U
(2)初級評判
(3)總體評判矩陣
得到總體評判模型為:素集的權重模糊向量為A、迷糊關系矩陣為R,可得
能夠看出對因素進行了K 次劃分,第K 次劃分的單層次評判就是K+1 次劃分的綜合評判。
(4)確定評判等級及隸屬函數(shù)
本研究將評判等級劃分為五級,從0~100 每隔20 分值為一級,將各級區(qū)間的中值設置為等級參數(shù),即等級參數(shù)
分級完成后,建立各影響因子對應級別隸屬度函數(shù)關系式,本研究選擇線性隸屬度函數(shù),隸屬第一級的隸屬函數(shù)為:
2.3.1 實驗新聞稿件數(shù)據(jù)源
本次實驗新聞稿件選擇深圳新聞網(wǎng)采編數(shù)據(jù)庫,選擇2021年10月至12月入庫的1456.86 萬條新聞數(shù)據(jù)進行數(shù)據(jù)清洗,實驗指標設定如表2所示。主要原因如下:
表2 實驗設定指標
首先,數(shù)據(jù)質量較高,便于建立規(guī)則庫。深圳新聞網(wǎng)數(shù)據(jù)源均為已審核過且能夠直接使用的數(shù)據(jù),其數(shù)據(jù)質量已有一定的保證,數(shù)據(jù)要素基本完整、標準化程度較高。因此選用該數(shù)據(jù),可以有效降低數(shù)據(jù)預處理壓力,從而能夠更加精準地對數(shù)據(jù)清洗效果進行分析,并評判出清洗規(guī)則是否有效。其次,稿件內容較為廣泛。深圳新聞網(wǎng)是立足于“中國改革開放窗口”深圳的國家重點新聞網(wǎng)站,是全國領先的地方網(wǎng)絡媒體,有著完善的全庫數(shù)據(jù),并且與全國上百家大型媒體單位有合作,大部分新聞數(shù)據(jù)稿件能夠互通互用,這就保證了實驗數(shù)據(jù)源有著充分的基礎。最后,新聞稿件數(shù)據(jù)能夠轉化為XML格式,這種格式有著可擴展等優(yōu)勢,已成為當前數(shù)據(jù)交換、電子商務等領域應用最為廣泛的數(shù)據(jù)格式標準,本次實驗中也采用該種數(shù)據(jù)類型。數(shù)據(jù)推送采用FTP 數(shù)據(jù)傳送方式,設定推送間隔為三分鐘。
2.3.2 數(shù)據(jù)清洗
2.3.2.1 標準化處理
由于新聞數(shù)據(jù)來源較為廣泛,數(shù)據(jù)要素和表達形式可能有所不同,因此需要對一些新聞素材進行標準化處理。例如在有的稿件中將日期表示為“2021.11.5”,而有的稿件中又表示為“11/5/2021”,或者還有的使用英文表述。針對不同數(shù)據(jù),需對應各自的拆分規(guī)則庫,不同規(guī)則庫有不同的提取規(guī)則,新聞稿件中的各數(shù)據(jù)已經(jīng)是被拆分后的字段,符合一定的粒度級別以及相應的樹狀結構。拆分后的字段會在內存模型數(shù)據(jù)結構中進行保存。
在對數(shù)據(jù)進行標準化處理時,利用貪婪算法在動態(tài)表單入口處對其進行標準化處理,進而能夠有效控制表單域排序,加快數(shù)據(jù)采集和傳輸效率。基于深圳新聞網(wǎng)語料庫,采取內存層次模型進行標準化操作,處理的具體方法和步驟如圖2所示。通過對新聞稿件標準化操作,能夠對數(shù)據(jù)消除歧義,提高后續(xù)算法執(zhí)行的可行性。[8]
圖2 標準化操作步驟
2.3.2.2 匹配消重處理
媒體新聞報道時,會存在相互轉發(fā)的情況,而有些稿件并非原創(chuàng),也會存在重復數(shù)據(jù),因此需要對新聞數(shù)據(jù)進行匹配消重操作,將無效數(shù)據(jù)進行剔除。使用匹配技術對關鍵字進行檢測,然后分別在文檔級別和文檔元素級別對其進行匹配,為了提高匹配效率,高級別粒度數(shù)據(jù)匹配時會參考低級別粒度的結果。本研究采用的主要是SNM(Sorted-Neighborhood Method)方法進行匹配消重,其基本思路是對全數(shù)據(jù)進行排序,并且對文件進行遞歸,再比較相鄰記錄的相似程度,最后經(jīng)過計算完成記錄匹配過程。[9]
第一步為創(chuàng)建排序關鍵字。該步驟需要根據(jù)數(shù)據(jù)總體情況進行評估,計算數(shù)據(jù)集中每條記錄的鍵值,最后基于匹配標準進行判斷。第二步是對整個數(shù)據(jù)集進行排序操作,如果在匹配關鍵字時認為有相似的重復記錄,則會將其放置在鄰近區(qū)域內,從而使得排序后的數(shù)據(jù)集有著更高的匹配性,大大降低了數(shù)據(jù)比較次數(shù),提高了匹配效率。第三步為計算字段匹配得分,采用滑動窗口的形式進行比較。匹配算法包括:一般性匹配、字符串完全匹配、單錯誤匹配和縮寫詞匹配。經(jīng)過該步驟后,被清洗腳本自動清洗的新聞則被認定為是稿件重復。第四步則是與閾值比較、分流數(shù)據(jù),需設定一個閾值范圍,可根據(jù)數(shù)據(jù)源的實際情況進行靈活配置。同時要記得將新聞數(shù)據(jù)寫入相應清洗日志,退出流程。
2.3.2.3 補全缺失數(shù)據(jù)
在對數(shù)據(jù)倉儲裝載數(shù)據(jù)時,原始數(shù)據(jù)可能有所缺失,對有些重要新聞而言,缺少數(shù)據(jù)可能導致清洗策略失效。字段值的缺失,主要包括:縮寫詞、慣用語被格式化以及字段值不符合規(guī)則或超出范圍等。具體來看,數(shù)據(jù)補全主要包括:第一是對不完整字段進行補充,例如一些新聞出處的URL 地址不完整,需要對其補充才能夠得到必要參數(shù)。第二是對空值字段進行補全,例如一些新聞XML 文檔中填寫了新聞發(fā)生地點這一屬性,但部分又未填寫,而新聞發(fā)生地點這一屬性是數(shù)據(jù)清洗的關鍵字,此時就需要對空值進行補全。第三是需要增加字段補全額外信息,例如一些新聞數(shù)據(jù)的來源類型、入庫時間、郵編等信息不夠完整,可以采用一些搜索樹形式的外部輔助文件加以補全。[10]
本研究利用樸素貝葉斯方法來補全缺失的數(shù)據(jù),該方法能大大降低計算復雜度且可以自動劃分屬性,相關公式為:
如果X 缺少了某個屬性值,要對其進行補充,則設j 是記錄中所有非缺失值的索引集合,則根據(jù)下式進行計算:
2.3.2.4 相關工具管理
在數(shù)據(jù)清洗時還需對使用的清洗工具進行管理,主要包括清洗任務管理、清洗算法管理、拓展算法管理、規(guī)則庫管理以及清洗日志管理。
清洗任務管理主要是記錄實體表以及表中的基本信息,包括表名、主鍵及相關描述等,一個清洗任務可能執(zhí)行了多個實體表的目標。任務管理描述表如表3所示。
表3 數(shù)據(jù)清洗任務管理描述表
清洗算法管理主要是為了能夠提高其清洗的靈活性,將所使用的算法加入到算法庫中,然后在實際使用時,選擇相應的算法可以較為靈活配置,在實際清洗工作中利用計算機集群進行工作,按照不同版塊實施清洗任務。算法管理結構表入表4所示。
表4 數(shù)據(jù)清洗算法管理表
拓展算法管理則是在已有算法管理的基礎上,通過算法接口實現(xiàn)算法的可擴展性。利用拓展算法管理,可以制定個性化的數(shù)據(jù)清洗算法,將其編譯好后,保存在該管理配置表中,使用時調用相關接口。具體拓展算法管理表如表5所示。
表5 拓展算法管理表
規(guī)則庫管理則主要是存儲數(shù)據(jù)清洗規(guī)則包含的一些運行參數(shù)、清洗指標等,主要需與實際業(yè)務相對應,具體規(guī)則庫管理表如表6所示。
表6 規(guī)則庫管理表
清洗日志管理主要是記錄在數(shù)據(jù)清洗過程中的相關信息,做到清洗任務可回溯,例如對清洗過的數(shù)據(jù)標記為歷史數(shù)據(jù),不能清洗的數(shù)據(jù)標記為異常數(shù)據(jù)。具體數(shù)據(jù)清洗日志管理表如表7所示。
表7 數(shù)據(jù)清洗日志管理表
2.3.2.5 數(shù)據(jù)清洗結果
本研究對2021年10月—12月入庫的1456.86 萬條新聞數(shù)據(jù)進行數(shù)據(jù)清洗,清洗結果及各輪耗時統(tǒng)計如表8所示。能夠看出,經(jīng)過數(shù)據(jù)清洗后,數(shù)據(jù)量由1456.86 萬條降低至8233 條,清洗時間逐步降低,涉及報道的媒體來源也降低至19 家。通過數(shù)據(jù)清洗后,有效縮減了海量新聞數(shù)據(jù)采集的時間,大大提高了新聞采編人員的工作效率,為整個集團工作流程高效運轉奠定了基礎。
表8 數(shù)據(jù)清洗結果
本研究結合深圳新聞網(wǎng)實際采編工作,利用基于模糊綜合評判的數(shù)據(jù)清洗方法對1456.86 萬條新聞數(shù)據(jù)進行了操作,具體步驟包括了數(shù)據(jù)標準化處理、匹配消重處理、補全缺失數(shù)據(jù)以及對相關工具管理。通過本次數(shù)據(jù)清洗,有效摒棄了無效信息、消除了信息噪聲,合理篩選出了質量較高、具有較高研究價值的新聞源,同時優(yōu)化了新聞數(shù)據(jù)清洗和采集流程,提高了采編人員的工作效率。