徐勝林 魏穎昊 仵冀穎
摘 ?要: 在大數(shù)據(jù)時代背景下,數(shù)據(jù)分析技術(shù)廣泛應(yīng)用于提取海量數(shù)據(jù)中的有效信息。檢驗檢疫行業(yè)形成了以CIQ2000綜合業(yè)務(wù)管理系統(tǒng)為基礎(chǔ),以電子申報、電子監(jiān)管、電子放行為主要內(nèi)容的中國電子檢驗檢疫建設(shè)格局,積累了大量來源不同、類型不同、時間周期不同、用途不同的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。針對檢驗檢疫業(yè)務(wù)數(shù)據(jù)的非線性特征,介紹了基于流形學(xué)習(xí)方法的大數(shù)據(jù)分析技術(shù),探討了其在檢驗檢疫業(yè)務(wù)中應(yīng)用的可能性。
關(guān)鍵詞: 大數(shù)據(jù); 檢驗檢疫; 流形學(xué)習(xí); 數(shù)據(jù)分析
中圖分類號:TP391.4 ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? ? ?文章編號:1006-8228(2015)07-09-04
Research on manifold learning based big data analysis with the application to inspection and quarantine
Xu Shenglin, Wei Yinghao, Wu Jiying
(Information Center of the General Administration of Quality Supervision Inspection and Quarantine of the People's Republic of China, Beijing 100088, China)
Abstract: With the development of big data, some data analysis techniques were proposed to extract the meaningful information from mass data. From 2000, there is a great development of the inspection and quarantine informatization. The construction pattern of electronic declaration, electronic supervision, and electronic release was established, based on the integrated business management system of CIQ2000. A large amount of structured and unstructured data with different source, variety, cycle, and purpose is accumulated. In this paper, we discuss the manifold based big data analysis technique, which is suitable for the nonlinear property of inspection and quarantine data. Meanwhile, we analyze the application of manifold to inspection and quarantine business.
Key words: big data; inspection and quarantine; manifold learning; data analysis
0 引言
隨著信息技術(shù)、計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,人類社會迅速邁入了一個嶄新的數(shù)字時代。利用大量的信息平臺和網(wǎng)絡(luò)建設(shè),改善了信息的交互、存儲和管理效率,從而生成、傳播出大量的數(shù)據(jù),稱為“大數(shù)據(jù)”。一般認(rèn)為大數(shù)據(jù)具有四個基本特征:數(shù)據(jù)體量大(Volume)、價值密度低(Value)、來源廣泛特征多樣(variety)、增漲速度快(Velocity)。簡言之,大數(shù)據(jù)可以理解為海量的、對于社會生活各個層面都更加有用的數(shù)據(jù)資產(chǎn)。
大數(shù)據(jù)的概念在社會上已經(jīng)廣泛流傳多年,而在檢驗檢疫行業(yè)的應(yīng)用才剛剛起步。在實際工作中,大數(shù)據(jù)與檢驗檢疫業(yè)務(wù)關(guān)系密不可分。2014年全國出入境法檢貨物共994.32萬批次,貨值達(dá)1.2萬億美元。自檢驗檢疫綜合業(yè)務(wù)管理系統(tǒng)(CIQ2000)在2000年上線使用以來,經(jīng)過十幾年的積累,檢驗檢疫貨物信息數(shù)據(jù)量達(dá)到億級。隨著我國經(jīng)濟(jì)規(guī)模的不斷擴大,檢驗檢疫業(yè)務(wù)的不斷發(fā)展,這個數(shù)據(jù)將以更快的速度遞增。
大數(shù)據(jù)處理是伴隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展而提出的,其核心問題是對大數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)分析一方面依賴于優(yōu)化的復(fù)雜大規(guī)模數(shù)據(jù)處理技術(shù),另一方面是模式提取的程序、標(biāo)準(zhǔn)和規(guī)范。大數(shù)據(jù)不僅是指數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜,更重要的是數(shù)據(jù)中模式結(jié)構(gòu)復(fù)雜、信噪比低。特別是在檢驗檢疫行業(yè)中,存在大量非結(jié)構(gòu)化數(shù)據(jù),既包括檢驗檢疫業(yè)務(wù)數(shù)據(jù)、等級評價數(shù)據(jù),也包括商品種類、國別等輔助數(shù)據(jù)??茖W(xué)的分析和利用檢驗檢疫大數(shù)據(jù),需要更多角度的模式探測和更可靠的模型構(gòu)建,無論是運用模型生成規(guī)則還是直接利用預(yù)測結(jié)果,都需要更加規(guī)范的設(shè)計和分析。
本文從數(shù)據(jù)分析的角度探討大數(shù)據(jù)在檢驗檢疫行業(yè)中的應(yīng)用價值。首先回顧數(shù)據(jù)挖掘的概念和基本流程,然后介紹常用的針對大數(shù)據(jù)的降維方法,特別是基于流形學(xué)習(xí)的方法。最后對大數(shù)據(jù)分析方法在檢驗檢疫行業(yè)中的應(yīng)用進(jìn)行探討。
1 數(shù)據(jù)挖掘的概念和基本流程
一般認(rèn)為,數(shù)據(jù)挖掘的概念最早由Fayyad在KDD會議上提出[1],定義為:一個自動或半自動化地從大量數(shù)據(jù)中發(fā)現(xiàn)有效的、有意義的、潛在有用的、易于理解的數(shù)據(jù)模式的復(fù)雜過程。
數(shù)據(jù)挖掘的核心任務(wù)是探索數(shù)據(jù)特征并建立合理的數(shù)據(jù)關(guān)系。根據(jù)最終建立的數(shù)據(jù)關(guān)系特點,可分為有監(jiān)督的學(xué)習(xí)和無監(jiān)督的學(xué)習(xí)。有監(jiān)督的學(xué)習(xí)是指對有明確預(yù)設(shè)目標(biāo)的數(shù)據(jù)學(xué)習(xí)和建模,主要包括分類、識別和預(yù)測三方面功能。無監(jiān)督的學(xué)習(xí)目的是分析并模擬數(shù)據(jù)的概念結(jié)構(gòu),主要包括關(guān)聯(lián)分組、聚類和可視化三方面。在無監(jiān)督學(xué)習(xí)中,沒有明確的標(biāo)示變量用于表達(dá)目標(biāo)概念,主要任務(wù)是從大量數(shù)據(jù)中提取潛在的可能模式,探索并建立數(shù)據(jù)聯(lián)系和內(nèi)在結(jié)構(gòu)。
數(shù)據(jù)挖掘主要包括六個基本流程[10]。
⑴ 問題識別
問題識別是從大量的復(fù)雜數(shù)據(jù)中,找到數(shù)據(jù)挖掘及分析要解決的核心問題。針對核心問題去建模和試驗?zāi)M才能找到有效的數(shù)據(jù)分析方案。識別問題時,重點明確問題屬性,兼顧問題的整體性、長期性、系統(tǒng)性和風(fēng)險性要求。
⑵ 數(shù)據(jù)理解
數(shù)據(jù)理解是確認(rèn)待解決的核心問題與掌握的數(shù)據(jù)間的匹配程度,包括對數(shù)據(jù)價值的理解和對數(shù)據(jù)質(zhì)量的理解兩方面。在實際應(yīng)用過程中,獲取的數(shù)據(jù)可能存在大量的過期、無效數(shù)據(jù),以及不一致、重復(fù)、不完整、不穩(wěn)定的數(shù)據(jù)。
⑶ 數(shù)據(jù)準(zhǔn)備
為數(shù)據(jù)分析的需要,要將所獲得的有價值的數(shù)據(jù)匯集在一起,形成數(shù)據(jù)庫或數(shù)據(jù)集市。以檢驗檢疫行業(yè)數(shù)據(jù)為例,需要將不同系統(tǒng)獲取的數(shù)據(jù)整合在一起。而各個檢驗檢疫系統(tǒng),例如CIQ2000系統(tǒng)、通關(guān)單聯(lián)網(wǎng)核查系統(tǒng)、原產(chǎn)地業(yè)務(wù)系統(tǒng)等相對獨立,數(shù)據(jù)來源、數(shù)據(jù)記錄格式、數(shù)據(jù)級別和命名規(guī)則也存在差異。因此在數(shù)據(jù)準(zhǔn)備階段需要完成數(shù)據(jù)抽取、轉(zhuǎn)換和裝載三方面的工作。
⑷ 建立模型
數(shù)據(jù)建模是整個數(shù)據(jù)挖掘流程中最核心的環(huán)節(jié),目的是使用機器學(xué)習(xí)算法對大量的數(shù)據(jù)進(jìn)行建模分析,從而建立對數(shù)據(jù)最終待解決核心問題最合適的模型。建立模型階段除了需要掌握先進(jìn)的計算機技術(shù)、機器學(xué)習(xí)算法,還需要有經(jīng)驗豐富的業(yè)務(wù)人員。分析人員的業(yè)務(wù)知識和經(jīng)驗有利于發(fā)現(xiàn)數(shù)據(jù)間的潛在關(guān)系,剔除隨機異常數(shù)據(jù)等。
⑸ 模型評價
模型建立完畢后,需要對模型進(jìn)行功能性評價和服務(wù)性評價。所謂功能性評價是指模型對任務(wù)完成的質(zhì)量,包括精準(zhǔn)性評價和穩(wěn)健性評價,常用方法為增益圖法和ROC曲線法。服務(wù)性評價通常是指實際服務(wù)的能力,經(jīng)技術(shù)驗證有效的模型并不一定是正確的模型。因為在實驗環(huán)境下建模通常存在大量的假設(shè),在實際應(yīng)用中會出現(xiàn)偏差。用戶體驗質(zhì)量(Quality of Experience, QOE)是一種以用戶認(rèn)可程度為標(biāo)準(zhǔn)的服務(wù)性評價。
⑹ 部署應(yīng)用
模型建立并經(jīng)過評價驗證后,可以部署應(yīng)用。例如進(jìn)行數(shù)據(jù)分類、數(shù)據(jù)預(yù)測、數(shù)據(jù)評價等工作。部署應(yīng)用通常與一定的數(shù)據(jù)展現(xiàn)方式緊密結(jié)合在一起。
2 基于流形學(xué)習(xí)的大數(shù)據(jù)分析技術(shù)
本文主要探討數(shù)據(jù)準(zhǔn)備階段的工作,就是利用先進(jìn)的流形學(xué)習(xí)算法進(jìn)行數(shù)據(jù)降維及分析。傳統(tǒng)的數(shù)據(jù)降維方法中最常用的是主元分析(Principal Component Analysis,PCA)[2]和線性鑒別分析(Linear Discriminant Analysis,LDA)[3]。PCA是一種無監(jiān)督的學(xué)習(xí)算法,是最小方差準(zhǔn)則條件下基于數(shù)據(jù)重構(gòu)的最優(yōu)描述方法,其任務(wù)就是找到數(shù)據(jù)變化的主要方向,并以這些方向為坐標(biāo)軸構(gòu)建一個低維子空間。利用PCA可以將特征的維數(shù)從表觀數(shù)據(jù)數(shù)量減小到特征數(shù)目。LDA是一種有監(jiān)督的學(xué)習(xí)算法,LDA充分利用類別信息,尋找能夠最大化類間離散度,同時最小化類內(nèi)離散度的投影方向。
PCA和LDA這類傳統(tǒng)的降維方法原則上只對近似于線性分布的數(shù)據(jù)有意義,即要求高維輸入空間中的樣本處在某個低維的線性子空間內(nèi)。而在實際應(yīng)用過程中,特別是像檢驗檢疫這樣數(shù)據(jù)來源復(fù)雜的行業(yè)問題中,輸入樣本無法滿足線性分布,而是呈現(xiàn)非線性的“流形”分布。為了解決這類非線性問題,提出了流形學(xué)習(xí)算法。
流形學(xué)習(xí)的任務(wù)是從高維采樣數(shù)據(jù)(大數(shù)據(jù))中發(fā)現(xiàn)其原本所在的低維流形結(jié)構(gòu),并得到相應(yīng)的映射,以實現(xiàn)維數(shù)降低。流形學(xué)習(xí)要求我們從數(shù)據(jù)集的整體,從內(nèi)在幾何特性來分析數(shù)據(jù),從而獲取與之相一致的低維參數(shù)化。進(jìn)一步講,流形學(xué)習(xí)就是要找到產(chǎn)生觀察數(shù)據(jù)的內(nèi)在規(guī)律,或者說從現(xiàn)象發(fā)現(xiàn)本質(zhì)。這意味著流形學(xué)習(xí)比傳統(tǒng)的降維方法更能體現(xiàn)事物的本質(zhì),更有利于對數(shù)據(jù)的理解和進(jìn)一步處理。從統(tǒng)計角度看,流形學(xué)習(xí)不依賴于數(shù)據(jù)集的先驗假設(shè)(如獨立性假設(shè)、正態(tài)分布假設(shè)等),而是在更一般的意義下去完成針對數(shù)據(jù)集的各項任務(wù),如降維,數(shù)據(jù)挖掘等。
近年來,科學(xué)家們提出了大量基于流形學(xué)的數(shù)據(jù)分析算法。本文對局部線性嵌入算法(Locally Linear Embedding,LLE)[4]、等距映射算法(ISOMAP)[5]、拉普拉斯特征映射算法(Laplacian eigenmaps,LE)[6]進(jìn)行簡單介紹。
⑴ 局部線性嵌入算法
假設(shè)有N個取樣自某個平滑流形的m維的數(shù)據(jù)樣本xi∈Rm(i=1,2,…,N),而且N足夠大以保證流形被很好地取樣。LLE的基本假設(shè)是:采樣自流形的每個數(shù)據(jù)點和它的近鄰點位于或者近似地位于一個局部的線性超平面。這樣每個點就可以用其鄰域點的線性組合來近似,而線性組合的系數(shù)可以用來描述這些點所在的局部幾何結(jié)構(gòu)。這樣的假設(shè)符合流形定義中關(guān)于局部歐拉性的描述,所以是有意義的。在進(jìn)行流形的低維展開的時候,每一個原始的數(shù)據(jù)點被映射到m'維歐式空間Rm'中(m'<
⑵ 拉普拉斯特征映射算法
拉普拉斯映射在降維時保持原始樣本在局部的相對距離。它的基本思想是在高維空間中距離較近的點投影到低維空間中的像也應(yīng)距離較近。LE和LLE都是基于局部特征的算法,求解的都是稀疏矩陣的廣義特征值問題,具有相同的待定參數(shù)。圖的拉普拉斯矩陣實際上就是連續(xù)流形上拉普拉斯-貝爾特拉米算子。
⑶ 等距映射算法
ISOMAP算法建立在多尺度變換基礎(chǔ)之上,其目的是保持?jǐn)?shù)據(jù)流形內(nèi)在的幾何性質(zhì),即流形上每兩點之間的測地線距離。與LLE和LE不同,ISOMAP是基于全局特征的算法,因此適用于學(xué)習(xí)內(nèi)部平坦的低維流形,但不適用于學(xué)習(xí)有較大內(nèi)在曲率的流形。另外,ISOMAP中的參數(shù)選擇對最終算法的結(jié)果影響很大。鄰域過大,會造成流形展開后不同鄰域的點混雜在一起;而鄰域過小,雖然能夠保持整體的內(nèi)在幾何結(jié)構(gòu),但低維展開后會產(chǎn)生“空洞”現(xiàn)象,或使最短路徑算法重構(gòu)的圖不連通。因此,參數(shù)選擇問題影響了ISOMAP算法在實際問題中的應(yīng)用效果。
3 檢驗檢疫行業(yè)的大數(shù)據(jù)分析探討
自2000年以來,中國電子檢驗檢疫建設(shè)得到了較快發(fā)展,先后完成了中國電子檢驗檢疫業(yè)務(wù)平臺和網(wǎng)絡(luò)建設(shè)[7]。實現(xiàn)了檢驗檢疫與企業(yè)、檢驗檢疫機構(gòu)之間、檢驗檢疫與海關(guān)等部門的數(shù)據(jù)交換。完成了總局與35個直屬局廣域網(wǎng)和699個檢驗檢疫分支機構(gòu)的局域網(wǎng)建設(shè)。直屬局建立了以雙主機、雙存儲、雙線路為基礎(chǔ)的區(qū)域集中運作環(huán)境。確定了以CIQ2000綜合業(yè)務(wù)管理系統(tǒng)為基礎(chǔ),以電子申報、電子監(jiān)管、電子放行為主要內(nèi)容的中國電子檢驗檢疫建設(shè)格局,尤其是進(jìn)出境貨物電子監(jiān)管等系統(tǒng)的應(yīng)用,奠定了對檢驗檢疫業(yè)務(wù)工作全過程電子化管理的基礎(chǔ)。
CIQ2000綜合業(yè)務(wù)管理系統(tǒng)作為該體系的核心系統(tǒng),在進(jìn)出境貨物受理報檢、施檢登記、簽證放行和業(yè)務(wù)統(tǒng)計等的電子化管理中,起到了重要的支撐作用。在整個檢驗檢疫信息系統(tǒng)架構(gòu)中,包含了大量來源不同、類型不同、時間周期不同、用途不同的數(shù)據(jù)。從數(shù)據(jù)分析的角度,這些數(shù)據(jù)可主要劃分為以下幾種。
⑴ 業(yè)務(wù)相關(guān)數(shù)據(jù)
檢驗檢疫業(yè)務(wù)工作流程中所涉及到的數(shù)據(jù)包括報檢數(shù)據(jù)、簽證數(shù)據(jù)、審單數(shù)據(jù)等。這些業(yè)務(wù)數(shù)據(jù)也包含不同類型,例如國別數(shù)據(jù)、貨物種類數(shù)據(jù)、產(chǎn)地數(shù)據(jù)、編號數(shù)據(jù)和計收費數(shù)據(jù)等。這些數(shù)據(jù)是直接由日常業(yè)務(wù)操作產(chǎn)生的,數(shù)據(jù)量大,更新速度快,種類繁多,且其中會夾雜大量的錯誤數(shù)據(jù)、無效數(shù)據(jù)等,既包含結(jié)構(gòu)化數(shù)據(jù),也包含大量非結(jié)構(gòu)化數(shù)據(jù)。
⑵ 監(jiān)督管理類數(shù)據(jù)
監(jiān)督管理是實現(xiàn)檢驗檢疫工作“前推、后移”的業(yè)務(wù)模式改革的基礎(chǔ)工作。依據(jù)法律法規(guī)、規(guī)章和國家強制性規(guī)范,以及各方面的質(zhì)量及檢疫信息,提出對某一企業(yè)特定產(chǎn)物的具體的檢驗檢疫要求,以實現(xiàn)對產(chǎn)品的電子監(jiān)管。主要分為體系監(jiān)管、出口生產(chǎn)批監(jiān)管、質(zhì)量反饋及跟蹤和體系監(jiān)管措施調(diào)整。其中包括企業(yè)類別、產(chǎn)品類別、監(jiān)管結(jié)果等各類數(shù)據(jù)。
監(jiān)督管理類數(shù)據(jù)主要是由針對報檢批后續(xù)監(jiān)管和體系監(jiān)管產(chǎn)生的,數(shù)據(jù)類型較為固定,更新速度較快,一般為非結(jié)構(gòu)化數(shù)據(jù)。
⑶ 支撐數(shù)據(jù)
支撐數(shù)據(jù)主要是指各類檢驗檢疫證單格式、規(guī)格、種類、證單用紙、用途以及其填制內(nèi)容,還包括與國外相關(guān)機構(gòu)簽訂協(xié)議所涉及的各類證單、標(biāo)識封識以及簽證印章等。支撐類數(shù)據(jù)不是由日常業(yè)務(wù)操作產(chǎn)生的,因此較為固定,一般都為非結(jié)構(gòu)化數(shù)據(jù)。
⑷ 風(fēng)險預(yù)警數(shù)據(jù)
風(fēng)險預(yù)警類數(shù)據(jù)來源包括施檢、體系監(jiān)管、風(fēng)險監(jiān)控和國外通報等?,F(xiàn)有系統(tǒng)中的風(fēng)險預(yù)警數(shù)據(jù)通過手工錄入和系統(tǒng)中不合格施檢數(shù)據(jù)自動轉(zhuǎn)入兩種方式。風(fēng)險預(yù)警數(shù)據(jù)也隨著日常業(yè)務(wù)操作不斷產(chǎn)生,但變化周期不會像業(yè)務(wù)數(shù)據(jù)那么頻繁,也主要包括非結(jié)構(gòu)化數(shù)據(jù)。
⑸ 其他輔助數(shù)據(jù)
在檢驗檢疫業(yè)務(wù)系統(tǒng)中還包含了大量其他輔助數(shù)據(jù),例如企業(yè)檔案數(shù)據(jù)、業(yè)務(wù)檔案數(shù)據(jù)、注冊備案管理數(shù)據(jù)等,其中每一類數(shù)據(jù)又是由大量種類復(fù)雜的數(shù)據(jù)項組成的。其變化周期各不相同,同時包含結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
綜上所述,檢驗檢疫行業(yè)中蘊含大量數(shù)據(jù),但數(shù)據(jù)來源廣泛,且以非結(jié)構(gòu)化數(shù)據(jù)為主,數(shù)據(jù)產(chǎn)生速度快,其中包含的有效信息較少。因此,如需有效利用這些數(shù)據(jù),首先需要對數(shù)據(jù)進(jìn)行分析和處理,將高維空間中的原始數(shù)據(jù)降維到低維空間中,從而使用傳統(tǒng)的數(shù)據(jù)分析工具進(jìn)行信息抽取。這些高維空間中的數(shù)據(jù)顯然不滿足線性條件約束,因此可以應(yīng)用現(xiàn)代的基于流形學(xué)習(xí)的降維算法進(jìn)行處理。
4 大數(shù)據(jù)在檢驗檢疫行業(yè)中應(yīng)用思考
目前,已經(jīng)有一些大數(shù)據(jù)技術(shù)應(yīng)用于檢驗檢疫行業(yè)[8-9],例如利用大數(shù)據(jù)信息進(jìn)行質(zhì)量溯源、企業(yè)信用評價、業(yè)務(wù)互聯(lián)互通、業(yè)務(wù)規(guī)模趨勢預(yù)測,以及運用大數(shù)據(jù)進(jìn)行工作量評估等。
⑴ 質(zhì)量溯源
在綜合業(yè)務(wù)管理系統(tǒng)CIQ2000的基礎(chǔ)上,全國各地的檢驗檢疫機構(gòu)陸續(xù)建立了一些用于產(chǎn)品溯源管理的信息系統(tǒng),例如:深圳檢驗檢疫局研發(fā)的“供港蔬菜檢驗檢疫監(jiān)管系統(tǒng)”,三明檢驗檢疫局開發(fā)的“出口番茄制品安全身份認(rèn)證與生產(chǎn)供應(yīng)鏈系統(tǒng)”,蘇州檢驗檢疫局建立的“進(jìn)口酒類監(jiān)管智能化管理平臺”等,分別實現(xiàn)了對進(jìn)口、出口產(chǎn)品信息的溯源管理。這些系統(tǒng)在一定范圍內(nèi)實現(xiàn)了對產(chǎn)品歷史數(shù)據(jù)的追蹤與管理,方便了檢驗檢疫機構(gòu)和消費者了解產(chǎn)品信息。
然而,這些系統(tǒng)還停留在區(qū)域化的階段,數(shù)據(jù)間無交互,沒能實現(xiàn)真正的大數(shù)據(jù)統(tǒng)一管理。建立統(tǒng)一的產(chǎn)品質(zhì)量信息溯源系統(tǒng),真正實現(xiàn)產(chǎn)品相關(guān)信息從生產(chǎn)到進(jìn)出口的全流程管理,同時利用現(xiàn)代的數(shù)據(jù)分析技術(shù),提取其中的有效信息,應(yīng)用于日常管理,將是今后的發(fā)展方向。
⑵ 企業(yè)信用評級
為全面有效地掌握及整合企業(yè)信用信息,質(zhì)檢總局建設(shè)了進(jìn)出口企業(yè)信用管理系統(tǒng),制定了企業(yè)信用管理辦法及評分標(biāo)準(zhǔn)。通過對進(jìn)出口企業(yè)檢驗檢疫信用等級實施規(guī)范化、定量化、科學(xué)化的考核,改變以人的主觀判斷來確定企業(yè)信用等級的方式,促進(jìn)進(jìn)出口企業(yè)信用意識和產(chǎn)品質(zhì)量的提高,同時提高一線檢驗檢疫工作效率。
傳統(tǒng)的信用等級評價方法是根據(jù)與檢驗檢疫相關(guān)的信用指標(biāo)設(shè)定評定標(biāo)準(zhǔn),然后建立專家系統(tǒng)進(jìn)行主觀或者客觀的綜合評價。近年來,為準(zhǔn)確、客觀、科學(xué)的進(jìn)行企業(yè)信用評價,國內(nèi)外很多學(xué)者作了大量研究工作,將數(shù)據(jù)分析、預(yù)測模型引入信用評級。弱化了人為因素對預(yù)測結(jié)果的影響,同時提高了評價結(jié)果的準(zhǔn)確性、科學(xué)性。今后,建立模型統(tǒng)一、評價指標(biāo)統(tǒng)一的信用評級模型將有利于檢驗檢疫工作的科學(xué)化、規(guī)范化管理。
⑶ 信息互聯(lián)互通
強化大通關(guān)協(xié)作機制,推進(jìn)口岸管理相關(guān)部門信息互換、監(jiān)管互認(rèn)、執(zhí)法互助,是當(dāng)前檢驗檢疫業(yè)務(wù)工作重點。信息時代,離不開共享共用。推動檢驗檢疫與其他口岸查驗部門間的合作,實現(xiàn)進(jìn)出境產(chǎn)品信息的共享共用,試行單證無紙化和出入境檢疫指令快速放行,推進(jìn)國際貿(mào)易便利化。當(dāng)然,在實現(xiàn)信息互聯(lián)互通的同時,確保檢驗檢疫網(wǎng)絡(luò)及信息系統(tǒng)安全是首要任務(wù)。
5 總結(jié)
信息時代,離不開數(shù)據(jù)的共享和利用,檢驗檢疫行業(yè)在過去十幾年快速發(fā)展的基礎(chǔ)上,已經(jīng)積累了大量有效的數(shù)據(jù)。科學(xué)、合理的利用這些數(shù)據(jù),提取其中蘊含的豐富信息,將會對檢驗檢疫業(yè)務(wù)發(fā)展起到推動作用,將檢驗檢疫事業(yè)不斷推向新的高度。
參考文獻(xiàn):
[1] Usama M. Fayyad, Ramasamy Uthurusamy (Eds.): Proceedings of
the First International Conference on Knowledge. Discovery and Data Mining[C], Montreal, Canada,1995.8:20-21
[2] M. Turk, A. P. Pentland, Face recognition using eigenfaces, IEEE
Conference on Computer Vision and Pattern Recognition[C]. Hannover, Germany,1991:586-591
[3] P. N. Belhumeur, J. P. Hespanha, D. J. Kriegman, Eigenfaces vs.
Fisherfaces: recognition using class specific linear projection[J], IEEE Transactions on Pattern Analysis and Machine Intelligence,1997.19(7):711-720
[4] T. Roweis, L. K. Saul. Nonlinear dimensionality reduction by
locally linear embedding[J].Science,2000.290:2323-2326
[5] J. B. Tenenbaum, V. D. Silva, J. C. Langford, A global geometric
framework for nonlinear dimensionality reduction[J].Science,2000.290:2319-2323
[6] M. Belkin, P. Niyogi, Laplacian Eigenmaps and spectral techniques
for embedding and clustering[C]. Proceedings of the Conference on Advances in Neural Information Processing Systems,2001:585-591
[7] 國家質(zhì)量監(jiān)督檢驗檢疫總局中國電子檢驗檢疫主干系統(tǒng)項目概要
設(shè)計說明書(總冊)[R].
[8] 魏哲.淺談檢驗檢疫溯源管理中的大數(shù)據(jù)應(yīng)用[J].中國科技期刊數(shù)據(jù)
庫,2014.7:271
[9] 王曉燕,嚴(yán)茂根.基于人工神經(jīng)網(wǎng)絡(luò)的出口食品加工企業(yè)檢驗檢疫信
用評價[J].計算機應(yīng)用與軟件,2010.27(5):191-193
[10] 王星.大數(shù)據(jù)分析:方法與應(yīng)用(第一版)[M].清華大學(xué)出版社,2013.