康波 ,孟祥飛*,夏梓峻
1.天津大學(xué)智能與計(jì)算學(xué)部,天津 300350
2.國家超級(jí)計(jì)算天津中心,天津 300457
近年來,隨著新興信息技術(shù)的產(chǎn)生和應(yīng)用,大數(shù)據(jù)、人工智能融合應(yīng)用服務(wù)時(shí)代開啟,并成為全球創(chuàng)新發(fā)展的重大驅(qū)動(dòng),國家、企業(yè)及相關(guān)行業(yè)機(jī)構(gòu)都在向大數(shù)據(jù)、人工智能看齊,搶占數(shù)據(jù)創(chuàng)新的先機(jī),努力成為數(shù)據(jù)創(chuàng)新的最大獲益者。在“十三五”期間,國家相繼發(fā)布大數(shù)據(jù)[1]、人工智能國家戰(zhàn)略[2],推動(dòng)大數(shù)據(jù)、人工智能發(fā)展成為國家在新的社會(huì)、技術(shù)發(fā)展階段創(chuàng)新發(fā)展的重要手段。
由于信息技術(shù)驅(qū)動(dòng),社會(huì)已進(jìn)入計(jì)算范式與數(shù)據(jù)范式并存的高度信息化時(shí)代,大數(shù)據(jù)代表的信息化新階段不斷推動(dòng)信息技術(shù)融合,物聯(lián)網(wǎng)和互聯(lián)網(wǎng)成為形成、產(chǎn)生海量數(shù)據(jù)的手段,云計(jì)算成為匯聚和處理海量數(shù)據(jù)的手段,新一代人工智能成為處理海量數(shù)據(jù)、實(shí)現(xiàn)數(shù)據(jù)價(jià)值再造的手段。因此,要推動(dòng)兩化深度融合,打造行業(yè)智能深度應(yīng)用場景,需要一個(gè)系統(tǒng)性信息化手段,實(shí)現(xiàn)計(jì)算能力、數(shù)據(jù)能力與網(wǎng)絡(luò)能力的融合,而超級(jí)計(jì)算可提供強(qiáng)大的計(jì)算能力與大規(guī)模數(shù)據(jù)存儲(chǔ)能力,是實(shí)現(xiàn)這些信息技術(shù)融合的基礎(chǔ)支撐,同時(shí)也是實(shí)現(xiàn)數(shù)據(jù)、計(jì)算、方法和應(yīng)用場景融合的有效支撐平臺(tái)[3-5]。
醫(yī)療健康、油氣能源、生物基因、智慧港口、建筑信息模型(Building Information Model,BIM)+地理信息系統(tǒng)(Geographic Information System)、智慧城市、電子政務(wù)等這些關(guān)系國計(jì)民生的重要應(yīng)用領(lǐng)域的快速發(fā)展均依賴于計(jì)算支撐的數(shù)據(jù)分析技術(shù)與基礎(chǔ)設(shè)施[6],需要以高端信息技術(shù)特別是大數(shù)據(jù)、人工智能等技術(shù)為支撐來實(shí)現(xiàn)跨越式發(fā)展,國家超級(jí)計(jì)算天津中心已經(jīng)在這些產(chǎn)業(yè)領(lǐng)域開展諸多創(chuàng)新,并進(jìn)入實(shí)質(zhì)產(chǎn)業(yè)化階段[7]。因此要緊緊抓住發(fā)展先機(jī),加快大數(shù)據(jù)、人工智能關(guān)鍵共性技術(shù)突破和自主高性能軟硬件融合一體化服務(wù)研發(fā),推動(dòng)基礎(chǔ)設(shè)施環(huán)境建設(shè),促進(jìn)面向產(chǎn)業(yè)的應(yīng)用場景打造,為培育和發(fā)展戰(zhàn)略性新興產(chǎn)業(yè)提供動(dòng)力支撐。
當(dāng)前,面向行業(yè)領(lǐng)域智能應(yīng)用場景打造過程中,數(shù)據(jù)作為最重要的資產(chǎn)和新型的生產(chǎn)要素,亟待解決如下問題:
(1)數(shù)據(jù)采集。針對(duì)設(shè)備、系統(tǒng)和生產(chǎn)流程等生產(chǎn)業(yè)務(wù)不同對(duì)象的數(shù)字化實(shí)現(xiàn),解決數(shù)據(jù)來源問題,同時(shí)為數(shù)據(jù)處理提供原料。
(2)數(shù)據(jù)融合。數(shù)字化之后,需要實(shí)現(xiàn)“從散到融”[7],通過網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)據(jù)的流動(dòng)、交互、復(fù)用和共享,是促進(jìn)業(yè)務(wù)能力從單項(xiàng)服務(wù)到整體覆蓋的必經(jīng)之路。
表1 工業(yè)大數(shù)據(jù)和傳統(tǒng)大數(shù)據(jù)區(qū)別Table1 Differences between big data from industry and big data from internet
(3)數(shù)據(jù)價(jià)值挖掘。針對(duì)跨業(yè)務(wù)環(huán)節(jié)、復(fù)雜應(yīng)用需求等背景,實(shí)現(xiàn)數(shù)據(jù)高價(jià)值信息提取,必須結(jié)合超級(jí)計(jì)算、大數(shù)據(jù)、人工智能、云計(jì)算等關(guān)鍵技術(shù)創(chuàng)新,實(shí)現(xiàn)基于應(yīng)用需求的信息挖掘。
例如,工業(yè)大數(shù)據(jù)和傳統(tǒng)互聯(lián)網(wǎng)大數(shù)據(jù)在數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)共享復(fù)用和數(shù)據(jù)價(jià)值提取等多個(gè)方面存在顯著不同[8-13],如表1所示。
與此同時(shí),大數(shù)據(jù)、人工智能已經(jīng)成為新的社會(huì)、技術(shù)發(fā)展階段推動(dòng)國家創(chuàng)新發(fā)展的重要手段,促使行業(yè)應(yīng)用不斷泛化和擴(kuò)展。因此,應(yīng)用驅(qū)動(dòng)數(shù)據(jù)價(jià)值再創(chuàng)造、數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)和基礎(chǔ)設(shè)施能力建設(shè)三個(gè)方面是組織好數(shù)據(jù)、利用好數(shù)據(jù)、表達(dá)好數(shù)據(jù),并且針對(duì)行業(yè)深度智能應(yīng)用場景打造的重點(diǎn)[7]:
(1)應(yīng)用驅(qū)動(dòng)的數(shù)據(jù)價(jià)值再創(chuàng)造。由于信息化、數(shù)字化關(guān)鍵技術(shù)突破和行業(yè)應(yīng)用需求不斷提高,數(shù)據(jù)管理困難、數(shù)據(jù)傳輸與共享不暢、數(shù)據(jù)價(jià)值密度低等實(shí)際問題突出,以應(yīng)用為導(dǎo)向,實(shí)現(xiàn)數(shù)據(jù)價(jià)值再創(chuàng)造是發(fā)展的根本目標(biāo)。
(2)數(shù)據(jù)獲取、標(biāo)準(zhǔn)體系構(gòu)建與科學(xué)管理。數(shù)據(jù)源多樣化,數(shù)據(jù)結(jié)構(gòu)不同,包括數(shù)據(jù)庫、文本、圖片、視頻、網(wǎng)頁等各類結(jié)構(gòu)化、非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù),為后續(xù)數(shù)據(jù)分析帶來了巨大困難和挑戰(zhàn),針對(duì)數(shù)據(jù)源采集數(shù)據(jù)、預(yù)處理和集成、分布式高效存儲(chǔ),為后續(xù)環(huán)節(jié)提供統(tǒng)一、完整、可靠的高質(zhì)量數(shù)據(jù)集是發(fā)展基礎(chǔ)。
(3)網(wǎng)絡(luò)設(shè)施能力、高端電子信息技術(shù)發(fā)展。社會(huì)高度信息化將產(chǎn)生海量多源異構(gòu)數(shù)據(jù)和場景應(yīng)用需求;網(wǎng)絡(luò)化使得數(shù)據(jù)傳輸、訪問、共享更加方便、快捷和高效;標(biāo)準(zhǔn)體系建設(shè)則確保數(shù)據(jù)的一致性、可靠性、完整性。三者的協(xié)同發(fā)展是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的保障。
面向產(chǎn)業(yè)的超級(jí)計(jì)算應(yīng)用和面向人工智能的超級(jí)計(jì)算應(yīng)用成為超級(jí)計(jì)算的熱點(diǎn)。今年召開的國際超級(jí)計(jì)算會(huì)議(ISC 2019)專門設(shè)立了產(chǎn)業(yè)日和機(jī)器學(xué)習(xí)日,凸顯出國內(nèi)外高性能計(jì)算機(jī)構(gòu)對(duì)這兩個(gè)領(lǐng)域的重視[14]。“計(jì)算+仿真”成為工業(yè)應(yīng)用熱點(diǎn),“計(jì)算+深度學(xué)習(xí)框架”是人工智能應(yīng)用的主流模式,“云計(jì)算+數(shù)據(jù)處理”是目前各大互聯(lián)平臺(tái)數(shù)據(jù)處理的通用模式[15-19]。通過多年的實(shí)踐,國家超級(jí)計(jì)算天津中心從應(yīng)用需求和信息化技術(shù)發(fā)展需求兩個(gè)維度,實(shí)現(xiàn)了“超級(jí)計(jì)算與云計(jì)算、大數(shù)據(jù)、人工智能”環(huán)境深度融合,并將之應(yīng)用到了實(shí)際產(chǎn)業(yè)應(yīng)用中,是國內(nèi)外超級(jí)計(jì)算服務(wù)產(chǎn)業(yè)應(yīng)用的新探索。
大數(shù)據(jù)與人工智能融合平臺(tái)首先是硬件設(shè)備的融合,在超算中心,主要是整合超級(jí)計(jì)算、云計(jì)算、大數(shù)據(jù)、人工智能等相關(guān)平臺(tái)設(shè)施,實(shí)現(xiàn)不同平臺(tái)數(shù)據(jù)共享、高效能處理和數(shù)據(jù)安全可控(圖1)。同時(shí),構(gòu)建高效穩(wěn)定的大數(shù)據(jù)存儲(chǔ)環(huán)境,例如多層次式和動(dòng)態(tài)可擴(kuò)展的海量數(shù)據(jù)存儲(chǔ)系統(tǒng)研究。另外,面向平臺(tái),形成分布式并行數(shù)據(jù)庫、數(shù)據(jù)處理集成工具集等共性技術(shù)(圖2)。
穩(wěn)定高效的網(wǎng)絡(luò)設(shè)施是融合環(huán)境的基礎(chǔ)支撐。通過高效網(wǎng)絡(luò),保證了不同載體間的數(shù)據(jù)交換。整個(gè)融合環(huán)境構(gòu)建了內(nèi)部網(wǎng)絡(luò)和外部網(wǎng)絡(luò)體系。內(nèi)部網(wǎng)絡(luò)體系包括通用網(wǎng)絡(luò)設(shè)施和天河高速互聯(lián)網(wǎng)絡(luò),前者通過交換機(jī)等實(shí)現(xiàn)了超級(jí)計(jì)算機(jī)、云計(jì)算服務(wù)器、存儲(chǔ)服務(wù)器、可視化服務(wù)器等不同設(shè)施之間的物理互聯(lián),后者用于實(shí)現(xiàn)超級(jí)計(jì)算機(jī)內(nèi)部計(jì)算節(jié)點(diǎn)與Lustre公共存儲(chǔ)之間的高速通信和數(shù)據(jù)交換。外部網(wǎng)絡(luò)通過配備高帶寬公共互聯(lián)網(wǎng)絡(luò)和多網(wǎng)冗余,滿足大數(shù)據(jù)用戶和企業(yè)對(duì)數(shù)據(jù)傳輸速度和效率的要求。同時(shí)結(jié)合地區(qū)實(shí)際,開通了面向天津市區(qū)、空港經(jīng)濟(jì)區(qū)、中新生態(tài)城的專有網(wǎng)絡(luò),以滿足對(duì)數(shù)據(jù)傳輸要求非常高的應(yīng)用企業(yè)和用戶需求;開通了教育專網(wǎng),以滿足高校在線實(shí)訓(xùn)、科學(xué)計(jì)算資源調(diào)研等需求。通過互聯(lián)網(wǎng)、專網(wǎng)建設(shè)構(gòu)建和完善了高效的服務(wù)網(wǎng)絡(luò)體系,保障用戶數(shù)據(jù)傳輸?shù)母咝Ш蛯?shí)時(shí)性。
融合計(jì)算設(shè)施是融合環(huán)境的基礎(chǔ)保證。大數(shù)據(jù)和人工智能分析需要充足的算力作為支撐。面對(duì)不同的場景,其所需算力類型差異較大。針對(duì)科學(xué)數(shù)據(jù)分析計(jì)算,如基因數(shù)據(jù)分析、材料數(shù)據(jù)分析等,需要雙精度(64位)的高性能計(jì)算能力;對(duì)于人工智能模型訓(xùn)練,則需要有單精度(32位)或半精度(16位)的高性能計(jì)算能力;對(duì)于數(shù)據(jù)采集、統(tǒng)計(jì)等事務(wù)性數(shù)據(jù)處理,則需要云計(jì)算的能力;對(duì)于大規(guī)模數(shù)據(jù)的高效展示,則需要可視化渲染計(jì)算能力。因此,融合平臺(tái)需要具備超級(jí)計(jì)算與云計(jì)算融合的計(jì)算處理設(shè)施,來實(shí)現(xiàn)對(duì)事務(wù)并發(fā)、數(shù)據(jù)并發(fā)的高效處理。在底層形成具有分布式計(jì)算、異構(gòu)高性能計(jì)算、內(nèi)存計(jì)算、眾核計(jì)算等多類型計(jì)算資源,利用多層級(jí)資源調(diào)度策略,形成支撐多樣性計(jì)算的融合資源池。
大規(guī)模數(shù)據(jù)存儲(chǔ)設(shè)施是融合環(huán)境的數(shù)據(jù)載體支撐。通過統(tǒng)籌云對(duì)象存儲(chǔ)、數(shù)據(jù)庫存儲(chǔ)、高性能計(jì)算存儲(chǔ)設(shè)施,形成大規(guī)模動(dòng)態(tài)可擴(kuò)展存儲(chǔ)設(shè)施。針對(duì)數(shù)據(jù)采集、預(yù)處理、分析、建模、計(jì)算/訓(xùn)練、可視化、部署等不同應(yīng)用環(huán)節(jié)和場景,構(gòu)建了包含近線、在線、高速內(nèi)存存儲(chǔ)的海量層次式動(dòng)態(tài)可擴(kuò)展存儲(chǔ)技術(shù)。針對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)等不同來源和格式的數(shù)據(jù)對(duì)底層存儲(chǔ)系統(tǒng)、時(shí)效性、應(yīng)用處理的需求,平臺(tái)解決了大數(shù)據(jù)分級(jí)存儲(chǔ)構(gòu)建、分級(jí)存儲(chǔ)性能優(yōu)化、數(shù)據(jù)共享、數(shù)據(jù)遷移和去重等關(guān)鍵問題,支撐了海量大數(shù)據(jù)的存儲(chǔ)和處理。在容災(zāi)備份方面,平臺(tái)采用符合信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范的數(shù)據(jù)災(zāi)備管理技術(shù),保障數(shù)據(jù)的安全。
融合平臺(tái)應(yīng)充分屏蔽底層各類數(shù)據(jù)源之間的差異,為上層應(yīng)用提供統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)訪問接口。推動(dòng)相關(guān)行業(yè)的大數(shù)據(jù)處理流程的標(biāo)準(zhǔn)化,實(shí)現(xiàn)資源共享、數(shù)據(jù)共享,其核心任務(wù)是將相互關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起,讓用戶以透明的方式訪問這些數(shù)據(jù)源,以便消除數(shù)據(jù)無法共享、業(yè)務(wù)流無法打通等信息孤島現(xiàn)象。
圖1 超級(jí)計(jì)算與大數(shù)據(jù)、云計(jì)算融合框架Fig.1 Fusion architecture on supercomputing,big data and cloud computing
圖2 超級(jí)計(jì)算與大數(shù)據(jù)、云計(jì)算、人工智能融合服務(wù)環(huán)境Fig.2 Fusion environment on supercomputing,big data,cloud computing and artificial intelligence
數(shù)據(jù)整合流程中,結(jié)合高性能計(jì)算,通過并行模式抽取通用數(shù)據(jù)的屬性和關(guān)鍵詞、并行格式轉(zhuǎn)換,實(shí)現(xiàn)并行數(shù)據(jù)建模和管理。機(jī)器學(xué)習(xí)作為數(shù)據(jù)整合的有效手段,用其訓(xùn)練出統(tǒng)一數(shù)據(jù)模型,通過語義分析,實(shí)現(xiàn)產(chǎn)業(yè)數(shù)據(jù)多樣性的橫向關(guān)聯(lián)和縱向關(guān)聯(lián),保證數(shù)據(jù)的高效查詢、檢索關(guān)聯(lián)和簡單分析處理。最后,整合形成數(shù)據(jù)分析處理需要的標(biāo)準(zhǔn)化數(shù)據(jù)。通過建立從數(shù)據(jù)采集到數(shù)據(jù)存儲(chǔ)的規(guī)范流程,形成統(tǒng)一標(biāo)記識(shí)別碼,使數(shù)據(jù)在整合、存儲(chǔ)、處理等環(huán)節(jié)進(jìn)行有效傳輸。在數(shù)據(jù)表示標(biāo)準(zhǔn)上,需要構(gòu)建數(shù)據(jù)編碼、元數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、大數(shù)據(jù)集統(tǒng)一描述規(guī)范等來保證數(shù)據(jù)的有效檢索與管理。在數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)上,需要結(jié)合融合環(huán)境的存儲(chǔ)設(shè)施,構(gòu)建非關(guān)系型數(shù)據(jù)庫、非結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)系統(tǒng)相關(guān)規(guī)范,借助分布式文件系統(tǒng)、非關(guān)系型數(shù)據(jù)庫等技術(shù)實(shí)現(xiàn),解決數(shù)據(jù)一致性、數(shù)據(jù)放置、故障檢測、可擴(kuò)展性等問題。基于此,構(gòu)建研究交互式異構(gòu)數(shù)據(jù)分析框架,最終形成一套高效的大數(shù)據(jù)分析軟件框架,服務(wù)實(shí)際生產(chǎn)環(huán)境下的數(shù)據(jù)處理。
同時(shí),整合目前已有的大數(shù)據(jù)分析方法,利用現(xiàn)有的Spark、Hadoop等工具,構(gòu)建通用處理工具集,提供簡單、直觀的用戶接口,支持交互式全可視化拖拽操作。針對(duì)接入的開源開放數(shù)據(jù)源和產(chǎn)業(yè)數(shù)據(jù)源,支持主流關(guān)系型數(shù)據(jù)庫如MySQL、Oracle、PostgreSQL和非關(guān)系型數(shù)據(jù)庫如MongoDB、Redis,避免繁瑣的算法參數(shù)、數(shù)據(jù)類型、數(shù)據(jù)類別等因素影響,降低數(shù)據(jù)處理使用門檻,為用戶多樣性的大數(shù)據(jù)異構(gòu)數(shù)據(jù)分析提供支持。
融合平臺(tái)以國家超級(jí)計(jì)算天津中心的“天河一號(hào)”超級(jí)計(jì)算機(jī)與“天河”百億億次超級(jí)計(jì)算機(jī)原型系統(tǒng)、天河工業(yè)云平臺(tái)、天河政務(wù)云平臺(tái)等軟硬件資源為依托,以大數(shù)據(jù)和人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展為牽引,支持基礎(chǔ)設(shè)施統(tǒng)籌發(fā)展,打破數(shù)據(jù)資源壁壘,形成大數(shù)據(jù)應(yīng)用創(chuàng)新系統(tǒng)支撐環(huán)境、工業(yè)大數(shù)據(jù)應(yīng)用創(chuàng)新平臺(tái)和公共數(shù)據(jù)共享開放平臺(tái)。工業(yè)領(lǐng)域是大數(shù)據(jù)和人工智能應(yīng)用的重要領(lǐng)域,融合平臺(tái)通過與工業(yè)云平臺(tái)結(jié)合,實(shí)現(xiàn)物理設(shè)備與虛擬網(wǎng)絡(luò)融合的數(shù)據(jù)采集、傳輸、協(xié)同和應(yīng)用集成,運(yùn)用大數(shù)據(jù)分析方法,結(jié)合工業(yè)領(lǐng)域特點(diǎn),開發(fā)支撐設(shè)計(jì)、生產(chǎn)、銷售、運(yùn)維等工業(yè)大數(shù)據(jù)領(lǐng)域的創(chuàng)新應(yīng)用(圖3)。
圖3 服務(wù)生產(chǎn)的業(yè)務(wù)處理系統(tǒng)框架示意圖Fig.3 Schematic diagram of processing system framework for serving production
在設(shè)計(jì)領(lǐng)域,以數(shù)字化模型為載體,利用仿真研發(fā)設(shè)計(jì)等技術(shù),實(shí)現(xiàn)粗放式設(shè)計(jì)模式向精準(zhǔn)化、數(shù)字化設(shè)計(jì)模式轉(zhuǎn)變;通過制定面向行業(yè)的典型工業(yè)大數(shù)據(jù)字典,實(shí)現(xiàn)產(chǎn)品各設(shè)計(jì)環(huán)節(jié)大數(shù)據(jù)的高度有序化展示,為設(shè)計(jì)提供知識(shí)參考,提高設(shè)計(jì)效率。在生產(chǎn)領(lǐng)域,利用物聯(lián)網(wǎng)技術(shù)開展生產(chǎn)線的工業(yè)大數(shù)據(jù)采集,構(gòu)建大數(shù)據(jù)處理模型,實(shí)現(xiàn)生產(chǎn)全流程的實(shí)時(shí)監(jiān)控,并基于仿真結(jié)果優(yōu)化生產(chǎn)流程;建立生產(chǎn)各要素的模型倉庫,利用人工智能等手段構(gòu)建基于訓(xùn)練模型的專家?guī)?,?duì)生產(chǎn)質(zhì)量進(jìn)行控制與預(yù)測。在銷售領(lǐng)域,依托工業(yè)云平臺(tái),開展企業(yè)內(nèi)部的歷史經(jīng)營大數(shù)據(jù)、用戶行為大數(shù)據(jù)以及第三方大數(shù)據(jù)的綜合分析,通過深度數(shù)據(jù)挖掘,建立用戶行為、產(chǎn)品特征以及外部影響與銷售的耦合關(guān)系,提出更符合市場規(guī)律的營銷策略與銷售模式。在運(yùn)維領(lǐng)域,根據(jù)不同行業(yè)運(yùn)維特點(diǎn),構(gòu)建“大數(shù)據(jù)+云計(jì)算+HPC”的多平臺(tái)融合體系,高效整合各工業(yè)運(yùn)行環(huán)節(jié)大數(shù)據(jù),實(shí)現(xiàn)對(duì)運(yùn)行各環(huán)節(jié)的可視化監(jiān)控,對(duì)運(yùn)行維護(hù)中的重大潛在問題及時(shí)進(jìn)行數(shù)據(jù)分析與仿真模擬,降低故障風(fēng)險(xiǎn)與運(yùn)維成本。
應(yīng)用平臺(tái)根據(jù)工業(yè)大數(shù)據(jù)分析流程,按照多層次進(jìn)行設(shè)計(jì)與建設(shè)。在數(shù)據(jù)采集與預(yù)處理方面,以生產(chǎn)經(jīng)營業(yè)務(wù)、設(shè)備物聯(lián)和外部數(shù)據(jù)為基礎(chǔ),匯總產(chǎn)品、物料、產(chǎn)線、工藝、質(zhì)量、設(shè)計(jì)、客戶、工業(yè)鏈、市場等多種類型工業(yè)數(shù)據(jù)。對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行規(guī)范化預(yù)處理,產(chǎn)生全鏈條可流動(dòng)的整合數(shù)據(jù)。在數(shù)據(jù)建模與管理方面,結(jié)合工業(yè)云平臺(tái)和大數(shù)據(jù)處理建模技術(shù),開展用戶、產(chǎn)品、流程、產(chǎn)線等的建模、處理與分析,實(shí)現(xiàn)各類工業(yè)場景數(shù)據(jù)結(jié)果的可視化,對(duì)數(shù)據(jù)質(zhì)量、能力成熟度、數(shù)據(jù)共享性與安全策略進(jìn)行管理。在工業(yè)化應(yīng)用方面,基于建模數(shù)據(jù)和數(shù)據(jù)管理結(jié)果,開展虛擬仿真、協(xié)作設(shè)計(jì)、流程優(yōu)化、遠(yuǎn)程維護(hù)、智能服務(wù)等不同工業(yè)場景應(yīng)用[8,9]。
應(yīng)用驅(qū)動(dòng)的融合平臺(tái),目標(biāo)是最大化地滿足大數(shù)據(jù)應(yīng)用對(duì)信息技術(shù)平臺(tái)的要求,現(xiàn)在這一平臺(tái)方案已經(jīng)在氣候氣象、裝備制造、智能網(wǎng)聯(lián)車、智慧港口、油氣能源、BIM+GIS智慧城市、電子政務(wù)等產(chǎn)業(yè)大數(shù)據(jù)應(yīng)用領(lǐng)域開展服務(wù)支撐和應(yīng)用示范,其中有些領(lǐng)域目前利用了這一平臺(tái)方案中的部分能力,而工業(yè)制造、智能網(wǎng)聯(lián)車、醫(yī)療健康等已經(jīng)逐步成為融合平臺(tái)系統(tǒng)能力充分施展的典型代表。
生產(chǎn)供應(yīng)鏈質(zhì)量控制是制造業(yè)質(zhì)量管理的重要方面,其直接決定了產(chǎn)品整體的質(zhì)量水平。隨著制造業(yè)發(fā)展,零部件的生產(chǎn)和采購越來越細(xì)化,一件產(chǎn)品可能需要多達(dá)上百家的供應(yīng)鏈條來保證,傳統(tǒng)的線下抽樣檢查已不能滿足先進(jìn)制造的需求?;谔旌哟髷?shù)據(jù)與人工智能融合服務(wù)平臺(tái),接入到各產(chǎn)品零部件供應(yīng)商的生產(chǎn)過程中,通過直接導(dǎo)入、線上錄入或OCR智能錄入等方式,將生產(chǎn)過程的過數(shù)據(jù)匯聚起來,形成面向供應(yīng)鏈管理的數(shù)據(jù)資源池。針對(duì)生產(chǎn)能力水平較低(生產(chǎn)過程產(chǎn)品質(zhì)量波動(dòng)大、不穩(wěn)定)的部件記錄部件,通常有10多個(gè)特性,平臺(tái)按照每天錄入收集特性數(shù)據(jù)上百條,通過傳統(tǒng)統(tǒng)計(jì)方法和業(yè)務(wù)分析,初步分析部件特性間的相關(guān)性,篩選構(gòu)建形成部件特性的特征數(shù)據(jù)列,根據(jù)歷史故障分析確定數(shù)據(jù)列的時(shí)間向量長度,以此采集整理形成訓(xùn)練數(shù)據(jù)集。利用平臺(tái)集成工具集,開展數(shù)據(jù)特征工程和標(biāo)準(zhǔn)化處理?;赗NN的時(shí)序分析方法,利用平臺(tái)訓(xùn)練系統(tǒng)和計(jì)算能力,開展模型訓(xùn)練和評(píng)估,實(shí)現(xiàn)其生產(chǎn)異常的監(jiān)控和預(yù)測?;诮Y(jié)果,構(gòu)建異常字典,形成可指導(dǎo)質(zhì)量管理的智能專家?guī)欤瑸樯a(chǎn)過程的質(zhì)量智能監(jiān)控提供幫助(圖4)。
目前,融合平臺(tái)結(jié)合視頻檢測、語音檢測等技術(shù),通過深度學(xué)習(xí)大規(guī)模數(shù)據(jù)訓(xùn)練,為汽車制造商提供輔助駕駛研發(fā)支撐,實(shí)現(xiàn)數(shù)據(jù)采集、預(yù)處理、特征提取、數(shù)據(jù)分析、模型設(shè)計(jì)與訓(xùn)練、模型部署全環(huán)節(jié)貫通的大數(shù)據(jù)與人工智能研發(fā)服務(wù)平臺(tái)(圖5)。
基于天河大數(shù)據(jù)與人工智能融合服務(wù)平臺(tái)的數(shù)據(jù)分析工具集和人工智能訓(xùn)練引擎,聯(lián)合廠商共同設(shè)計(jì)實(shí)現(xiàn)路況識(shí)別、輔助標(biāo)志識(shí)別、輔助駕駛、設(shè)備異常預(yù)測與預(yù)警等算法模型,并基于平臺(tái)在算法、算力與應(yīng)用場景的融合提供在線/離線相結(jié)合的應(yīng)用部署服務(wù)。
例如,設(shè)備異常預(yù)測與預(yù)警方面,提供包括電子系統(tǒng)異常散點(diǎn)識(shí)別、電子系統(tǒng)異常關(guān)聯(lián)識(shí)別、基于動(dòng)力學(xué)的底盤異常分析、操作對(duì)異常的影響分析、環(huán)境對(duì)異常的影響分析等,實(shí)現(xiàn)數(shù)據(jù)解析、異常特征抓取、降低新車型召回風(fēng)險(xiǎn),減少時(shí)間與人員成本,并系統(tǒng)化地積累經(jīng)驗(yàn),成為可重復(fù)執(zhí)行的異常模型資產(chǎn)價(jià)值(圖6)。
圖6 車輛應(yīng)用特征分析與可視化Fig.6 Vehicle application feature analysis and visualization
面向醫(yī)院的多模態(tài)分析,開展了面向放射醫(yī)學(xué)影像、病理圖像、電子病歷的分析工作(圖7)。醫(yī)學(xué)智能分析需要解決大規(guī)模數(shù)據(jù)格式轉(zhuǎn)換問題,比如單張的病理切片或單病例CT切片可達(dá)到2GB以上,導(dǎo)致用于訓(xùn)練分析的數(shù)據(jù)體量達(dá)到10TB的規(guī)模,通過格式轉(zhuǎn)換、增廣等處理后,構(gòu)建的數(shù)據(jù)集會(huì)達(dá)到100TB以上的數(shù)據(jù)規(guī)模,平臺(tái)通過構(gòu)建層次式動(dòng)態(tài)可擴(kuò)展存儲(chǔ)和高性能計(jì)算的支撐系統(tǒng)來開展人工智能模型的訓(xùn)練。平臺(tái)針對(duì)圖像,集成了針對(duì)非結(jié)構(gòu)化圖像的存儲(chǔ)格式、尺寸調(diào)整、對(duì)比度等處理算法。在放射醫(yī)學(xué)影像方面,針對(duì)腦部出血點(diǎn)檢測、肺結(jié)節(jié)識(shí)別,利用平臺(tái)建模功能,分別形成了面向輔助醫(yī)療應(yīng)用的醫(yī)學(xué)影響檢測系統(tǒng)。在病理圖像方面,針對(duì)鼻咽癌、乳腺癌等癌變判別,達(dá)到了80%以上的敏感性和特異性,在推入實(shí)際應(yīng)用后將有效降低患者額外儀器檢驗(yàn)的成本,實(shí)現(xiàn)了對(duì)腫瘤輔助檢測的支撐。在全院患者風(fēng)險(xiǎn)評(píng)估方面,通過對(duì)電子病理數(shù)據(jù)的特征提取,建立個(gè)人風(fēng)險(xiǎn)指標(biāo)動(dòng)態(tài)創(chuàng)建,實(shí)現(xiàn)對(duì)全院住院患者的動(dòng)態(tài)監(jiān)控,有望減少因漏診或漏檢引起的醫(yī)療事故,提高救治水平。
結(jié)合天津的產(chǎn)業(yè)應(yīng)用實(shí)際情況,面對(duì)實(shí)時(shí)氣象預(yù)報(bào)、基因檢測等對(duì)數(shù)據(jù)傳輸要求較高的行業(yè),融合平臺(tái)通過專有光纖網(wǎng)絡(luò)接入,提供高速網(wǎng)絡(luò)以實(shí)現(xiàn)超級(jí)計(jì)算和海量數(shù)據(jù)處理能力的軟硬件支撐服務(wù)(圖3)。使用機(jī)構(gòu)將這些能力接入自身行業(yè)應(yīng)用平臺(tái)中,實(shí)現(xiàn)基礎(chǔ)平臺(tái)與實(shí)際應(yīng)用場景的協(xié)同。
在基因檢測方面,由檢測機(jī)構(gòu)采集孕檢相關(guān)數(shù)據(jù),實(shí)時(shí)傳送到超算中心基因數(shù)據(jù)處理應(yīng)用平臺(tái),利用超級(jí)計(jì)算設(shè)施,進(jìn)行數(shù)據(jù)的實(shí)時(shí)處理與分析,最后得出檢測報(bào)告[7]。通過基于專網(wǎng)的融合平臺(tái)接入,實(shí)現(xiàn)了數(shù)據(jù)處理和臨床應(yīng)用的無縫對(duì)接,更好地為用戶提供健康服務(wù)。
在氣象預(yù)測方面,通過專網(wǎng)接入,實(shí)現(xiàn)了實(shí)時(shí)氣象基礎(chǔ)觀測數(shù)據(jù)和參數(shù)傳入,并在融合平臺(tái)設(shè)施上實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)[7]。借助融合平臺(tái)部署的不同模式的氣象預(yù)報(bào)系統(tǒng)開展實(shí)時(shí)氣象預(yù)報(bào),基于深度學(xué)習(xí)框架具備了開展高維參數(shù)的7天內(nèi)氣象預(yù)測與參數(shù)優(yōu)化等工作的能力。計(jì)算結(jié)果數(shù)據(jù)進(jìn)行整合和部分可視化計(jì)算后,返回至氣象局的氣象預(yù)報(bào)系統(tǒng),為氣象預(yù)報(bào)提供決策參考。
圖7 智能醫(yī)學(xué)輔助診斷系統(tǒng)Fig.7 Intelligent system for computer-aided diagnosis
應(yīng)用驅(qū)動(dòng)的大數(shù)據(jù)與人工智能融合平臺(tái)可進(jìn)一步解決我國智能產(chǎn)業(yè)領(lǐng)域創(chuàng)新能力和創(chuàng)新支撐平臺(tái)不足的現(xiàn)實(shí)問題。產(chǎn)業(yè)領(lǐng)域智能研究、應(yīng)用轉(zhuǎn)化是一個(gè)跨界融合的系統(tǒng)工程,需要信息技術(shù)領(lǐng)域和產(chǎn)業(yè)行業(yè)領(lǐng)域深入合作,建立聯(lián)合實(shí)驗(yàn)室、協(xié)同創(chuàng)新中心,實(shí)現(xiàn)強(qiáng)強(qiáng)聯(lián)合、相互推動(dòng)和支撐,這是非常有效的協(xié)同發(fā)展方式。
大數(shù)據(jù)、人工智能促進(jìn)了政府治理模式、產(chǎn)業(yè)生產(chǎn)方式、公共服務(wù)形式的變革,其同高性能計(jì)算、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)融合,支撐信息技術(shù)新時(shí)代的到來。在大數(shù)據(jù)、人工智能發(fā)展方面,不僅要促進(jìn)芯片、通信、系統(tǒng)軟件等電子信息基礎(chǔ)產(chǎn)業(yè)的發(fā)展,同時(shí)在經(jīng)濟(jì)、社會(huì)發(fā)展的過程中,應(yīng)注重標(biāo)準(zhǔn)化和信息化體系建設(shè),加大網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè),提升數(shù)據(jù)流通效率,降低流通成本。以計(jì)算創(chuàng)新驅(qū)動(dòng)為切入點(diǎn),加快推進(jìn)“超級(jí)計(jì)算與云計(jì)算、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)”融合模式在工業(yè)制造、醫(yī)療健康、公共服務(wù)等領(lǐng)域的應(yīng)用水平,形成自主可控、社會(huì)開放、公信力強(qiáng)的智能產(chǎn)業(yè)科學(xué)發(fā)展生態(tài)。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。
數(shù)據(jù)與計(jì)算發(fā)展前沿2019年5期