徐思紅 張力丹 田晶晶 齊月 孫寧
摘 要:消費品召回已成為產品質量安全后市場監(jiān)管最重要的措施之一。消費品缺陷線索是發(fā)現潛在缺陷的數據源,準確、及時、有效地收集與分析消費品缺陷線索是快速掌握消費品缺陷并實施召回的基礎。如何基于消費品缺陷線索快速定位產品潛在缺陷是召回管理的關鍵,消費品具有產品類型多、故障模式雜的特點,獲取缺陷線索到缺陷線索可深入分析而后初步判定潛在缺陷之間存在一定的差距,本文主要從消費品缺陷線索采集監(jiān)測、標簽字典、數據篩選、數據清洗等環(huán)節(jié)提出數據預處理的要求,為消費品缺陷線索分析提供參考。
關鍵詞:消費品,缺陷線索,數據預處理
DOI編碼:10.3969/j.issn.1674-5698.2023.01.018
1 引 言
隨著社會經濟和科學技術的快速發(fā)展,消費品的種類以及功能越來越豐富,但是也帶來了一系列安全隱患。近年來,消費品的安全性問題引發(fā)社會公眾的普遍關注。如何通過產品質量安全監(jiān)管,減少產品安全傷害、保護消費者人身和財產安全,是市場監(jiān)管的工作方向。缺陷產品召回是產品質量安全監(jiān)管的國際通行做法,是后市場監(jiān)管的重要手段[1]。我國消費品召回工作從2004年開始,隨著2015年發(fā)布的《缺陷消費品召回管理辦法》、2020年發(fā)布的《消費品召回管理暫行規(guī)定》的相繼實施以及相關配套文件的出臺,我國消費品召回管理工作的法律依據日趨完善。
根據《2021年全國消協組織受理投訴情況分析》,2021年全國消協組織共受理消費者投訴約104.5萬件,相較2020年增長6.37%,其中消費者關心的質量問題與使用安全問題占22.9%。消費者對于消費品質量安全的要求越來越高,保護自身權益的意識越來越強。根據《市場監(jiān)管總局關于2021年全國汽車和消費品召回情況的通告》,2021年受市場監(jiān)管部門調查影響的消費品召回占全年召回總量的90.5%,而消費者投訴以及其他形式的缺陷線索是引發(fā)缺陷調查導致召回最重要的信息源,隨著召回制度的逐步完善,我國消費品召回監(jiān)管已初步形成全國聯動工作格局,通過數據交換共享與業(yè)務協同,為消費品缺陷調查和召回工作提供了有效支撐。通過多種方式增強消費品多源缺陷線索信息的采集力度,信息量呈現爆發(fā)性的增長,與此同時,由于消費品具有種類多、故障模式復雜等特性,導致多源缺陷線索中產品信息不統一、故障描述不準確、缺陷線索信息重復等系列問題。為快速從消費品多源缺陷線索信息中提取有價值、有效的線索信息,采取高效技術措施做好數據預處理工作顯得尤為重要。在缺陷線索數據挖掘與發(fā)現有潛在缺陷的過程中,消費品多源缺陷線索信息的數據預處理是核心環(huán)節(jié)之一。在數據預處理過程中,主要解決的數據問題包括:(1)重復性;(2)不完整性;(3)噪音;(4)不一致性;(5)不精簡性。
2 消費品缺陷線索采集內容
消費品缺陷線索根據來源不同主要包括:消費者投訴、產品安全網絡輿情、境外召回信息、電商平臺評價信息、國內召回信息、其他信息等。根據消費品缺陷線索的用途,提出了不同類型缺陷線索采集內容(如圖1所示)。
(1)消費者投訴信息:產品類別、生產者名稱、產品名稱、產品品牌、產品型號、產品產地、購買日期、產品應用場景、故障描述、是否造成傷害、聯系人及聯系方式等。
(2)產品安全網絡輿情:產品類別、標題、描述、鏈接地址、相似新聞條數、發(fā)布時間等。
(3)境外召回信息:通報日期、通報國家、產品名稱、產品類別、缺陷原因(危險描述)、措施、鏈接地址等。
(4)電商平臺評價信息:評價時間、電商平臺、評價內容、鏈接地址等。
(5)國內召回信息:產品類別、產品名稱、品牌、缺陷描述、召回措施、受理單位等。
(6)產品檢驗檢測信息:產品類別、品牌、產品名稱、主要不合格項目、檢測單位、檢測批次等。
(7)其他信息:產品類別、品牌、產品名稱、問題描述等。
3 消費品故障標簽字典構建
產品故障現象作為消費品綜合分析判定產品安全風險缺陷線索案例的基礎信息,決定著是否存在安全性問題。多源信息中對于產品故障的描述文字量長短不一、表述隨意多樣化、故障問題多,針對這些復雜的內容,只有通過數據歸納,減少數據分析的信息量才能在分析挖掘的過程中提高效率。以已有的信息為基礎,首先對產品故障現象進行歸類,整理出每一類故障描述問題涉及的關鍵詞,然后根據實際需求,分為兩級,而后再根據描述提煉提取出同義詞,進行同義詞擴展,基于多個特征維度對近義詞表進行過濾,形成同義描述集合,豐富故障描述特征,形成產品故障現象標簽字典[2](見表1)。
4 消費品缺陷線索預處理
由于消費品缺陷線索信息的數據種類和數據結構模式多元化,關聯性較為復雜,在數據分析和信息挖掘環(huán)節(jié)中存在較大難度。在消費品缺陷線索信息收集和選擇的初期環(huán)節(jié),通過對數據的重復、缺失、噪音等問題進行預處理,然后將數據中與分析發(fā)掘相關性較高的數據通過數據清洗的方法再進行預處理,以獲得可靠性較高的有效數據。相關實踐證明,數據預處理在數據分析和挖掘過程中所占時間達70%以上,數據預處理的好壞對整個數據分析和挖掘結果有著至關重要的影響[3]。在消費品缺陷線索信息分析前的數據預處理主要包含以下幾方面。
4.1 缺陷線索數據篩選
面對消費品多源缺陷線索信息,無論是通過系統被動采集消費者投訴信息、人工記錄信函或舉報,還是主動通過網絡、電商平臺主動采集產品安全網絡輿情信息、境外召回信息、電商評價信息、檢驗檢測信息,都要確保信息數據的有效性和唯一性,如果在信息數據的初始收集過程中就確保數據的有效性和唯一性,那么相比于先采集后篩選數據更為便捷和高效、準確。在數據選擇的初始階段確保有效性和唯一性,包括以下幾項。
(1)有效性。產品信息的品牌、產品分類、類別信息完整,故障描述信息真實描述產品使用中出現的故障,排除消費糾紛、服務質量以及懷疑揣測等問題。如果有聯系人信息,聯系人手機號碼有效。
(2)唯一性。同一來源的信息避免重復。
(3)字體和詞性轉化。多源信息同一數據字段的信息字體和詞性保持一致。
對于不符合上述有效性要求的信息數據不進行采集或是不進行選擇和選取。消費者投訴信息通過采集信息頁面的必填項、手機號碼驗證的設置,確保信息有效性,重復性需要系統后臺管理人員通過產品、手機號碼和故障描述判定;產品安全網絡輿情信息根據采集內容數據項采集信息,確保信息有效性,網絡輿情信息本身具有隨意性和開放性特性,所以真實性待定,故這類信息也是綜合判定安全風險缺陷線索案例的輔助信息,應用網絡信息爬取工具排除重復信息;境外召回信息主要是監(jiān)測翻譯國外消費品召回主管機構網絡發(fā)布的召回信息,信息來源本身具有有效性和唯一性;電商評價信息根據采集內容數據項采集信息,確保信息有效性,評價信息是消費者購買和應用產品后真實反饋的內容,具有信息真實性的屬性,應用爬取工具排除同一電商平臺的重復信息;國內召回信息和檢驗檢測信息是國家政府機關發(fā)布的信息,信息來源本身具有有效性和唯一性;其他來源信息根據采集內容數據項采集信息,確保信息有效性和唯一性,通過與已有數據的產品信息、手機號碼和故障描述來判定是否重復,重復數據在已有數據的基礎上進行特殊標注。
4.2 數據清洗
美國社會保險號錯誤糾正是數據清洗技術的最早起源,隨著信息業(yè)和商業(yè)的高速發(fā)展,數據清洗也進一步發(fā)展,并根據各行各業(yè)的不同需求,有著不同的數據清洗方法,消費品缺陷線索信息的數據預處理,根據現有需求以及經驗的積累,其中的數據清洗主要包括忽略部分數據項、基礎數據核實、故障標簽標注、智能與人工結合,各自解決不同的問題以達到缺陷線索信息的預處理數據優(yōu)化效果。
4.2.1 忽略部分數據項
消費品多源缺陷線索信息各自具有其特殊屬性和信息內容,而這些信息內容在綜合判定安全風險的缺陷線索案例過程中不是分析的內容,影響分析判定結果的準確性,在信息預處理過程中,不影響消費品多源缺陷線索信息各自數據的基礎上,采取忽略元組的方式將這些信息數據進行暫時忽略,忽略多源信息內容的數據項實例見表2。
4.2.2 基礎數據核實
產品品牌、產品分類、產品類別作為關聯消費品多源缺陷線索信息的產品基礎數據信息,統一性、標準化對于后續(xù)信息數據的分析挖掘尤為重要,消費品品牌繁多、種類復雜、產品多樣、,明確這些信息才能確定是哪個產品。消費品品牌信息的研究發(fā)現,目前沒有相關標準可借鑒,通過對已有信息數據的分析概括、同時借鑒電商平臺中經銷商對于產品的描述、網絡輿情中消費者對于產品的描述,最終再通過平衡學習總結的方法,形成品牌字典。產品分類和產品類別字典可直接應用標準GB/T 36431-2018《消費品分類與代碼》,同時借鑒電商平臺中經銷商對于產品的描述,進行數據的統一和規(guī)范(見表3)。
4.2.3 故障標簽標注
根據已形成的產品故障現象字典,對采集和選擇的消費品多源缺陷線索信息:消費品的消費者投訴信息、產品安全網絡輿情、境外召回信息、電商評價信息、國內召回信息、檢驗檢測信息、其他的信息中的故障描述、描述、缺陷原因(危險描述)、評價內容、缺陷描述、主要不合格項目、問題描述的內容分別進行故障標簽標注,最終將不規(guī)范的故障現象描述數據進行規(guī)范(見表4)。
在產品安全網絡輿情信息和電商評價信息的爬取和選擇時,將爬取信息的關鍵詞匯設置為需要的品牌、產品分類和產品類別、產品故障現象字典的組合或是產品分類和產品類別、產品故障現象字典的組合,最大限度和精準地采集與消費品安全相關的信息線索。
4.2.4 人工智能修正
在信息數據采集和選擇過程中,不可避免地會產生不規(guī)范、錯誤、重復等問題,采用計算機和人工判斷結合的方式制定方案,完善或剔除問題信息,最終保留有效信息。消費品的多樣性和故障現象的復雜性,在構建品牌字典數據和故障現象標簽字典數據時,必定會存在字典數據不完整的問題,結合消費品各類產品的相關標準以及行業(yè)經驗,通過計算機和人工專業(yè)知識不斷完善字典數據,更好地為精準產品、簡化故障描述奠定基礎。
5 多源缺陷線索信息數據預處理實例
某A品牌耳機過敏的多源缺陷線索信息的數據預處理實例見表5~表7。
6 結 語
隨著消費品多源缺陷線索信息數量的不斷增加,相信數據預處理一定會越來越重要,為數據分析挖掘提供更加干凈、高質量的信息源。消費品多源缺陷線索信息預處理方式完善建議:與專業(yè)知識應用融合,且貫穿預處理各環(huán)節(jié);嚴控預處理各環(huán)節(jié)質量,保證高效[4];應用計算機智能學習和語義識別技術,解放人工,提高效率和準確性。
參考文獻
林建軍. 淺談我國消費品召回的特點及其重要意義[J]. 質量與市場, 2020, (20) :46-48.
姜肇財, 宋黎, 王雯.基于電商評論信息的產品故障標簽體系構建研究[J]. 標準科學, 2021, (12) :128-131.
胡遠樟,程小恩,何黎, 等. 一種基于糖尿病的中醫(yī)數據挖掘預處理方法[J]. CJCM 中醫(yī)臨床研究, 2021, (30) :75-77.
田桂豐, 諶頏, 尹幫治. 信息熵和灰色關聯分析在企業(yè)大數據分析中的應用[J]. 信息記錄材料, 2021, 22(3):151-152.
唐成龍,諶頏,唐海春,等. 大數據背景下數據預處理方法研究運用[J]. 信息記錄材料, 2021, 22(9):199-200.
鄭杰昌, 謝志利, 王長林. 消費品召回追溯體系研究[J]. 標準科學, 2020, (5):32-52.
許輝.數據挖掘中的數據預處理[J]. 電腦知識與技術,2022, (2):27-31.
李顏平,吳剛. 基于典型數據集的數據預處理方法對比分析[J]. 沈陽工業(yè)大學學報, 2022, 44(2):165-192.
楊忠誠. 數據挖掘工具WEKA及其應用研究[J]. 企業(yè)科技與發(fā)展, 2018, (9):38-39.
張治斌,劉威. 淺析數據挖掘中的數據預處理技術[J]. 數字技術與應用, 2017(10):216-217.