張 潮,詹全忠
(水利部信息中心,北京 100053)
水資源是人類長(zhǎng)期生存、生活和生產(chǎn)活動(dòng)中所必需的自然資源,又是一種戰(zhàn)略性經(jīng)濟(jì)資源。未來中國水資源的中長(zhǎng)期需求仍將上升,直接影響民生福祉[1]。開展水資源評(píng)價(jià),查清水資源現(xiàn)狀,是實(shí)現(xiàn)水資源可持續(xù)開發(fā)與管理的重要依據(jù),是與水資源有關(guān)的工程規(guī)劃、設(shè)計(jì)及運(yùn)行管理的重要前提,也是區(qū)域經(jīng)濟(jì)發(fā)展和人民生活的重要保障。
傳統(tǒng)的水資源評(píng)價(jià)主要是指按流域或地區(qū)對(duì)水資源數(shù)量、質(zhì)量、時(shí)空分布特征,以及開發(fā)利用條件、現(xiàn)狀、供需發(fā)展趨勢(shì)等方面進(jìn)行的分析評(píng)估,一般在年時(shí)間尺度上進(jìn)行。然而,隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展,人類活動(dòng)對(duì)水文水資源系統(tǒng)的干預(yù)越來越強(qiáng)烈,傳統(tǒng)的基于年時(shí)間尺度的水資源評(píng)價(jià)方法在時(shí)效性和精細(xì)化程度上越來越難以支撐水資源管理的要求,迫切需要研究服務(wù)于水資源管理調(diào)度,基于多源動(dòng)態(tài)監(jiān)測(cè)數(shù)據(jù),以月為時(shí)間尺度的新型水資源評(píng)價(jià)理論、技術(shù)與方法。并且隨著社會(huì)和行業(yè)信息化建設(shè)的不斷推進(jìn),數(shù)據(jù)獲取渠道的豐富和能力的不斷增強(qiáng),日益豐富的數(shù)據(jù)源將改變水資源評(píng)價(jià)中天然與開發(fā)利用過程的信息耦合方式[2]。
時(shí)效高的水資源評(píng)價(jià)需要大量的實(shí)時(shí)或準(zhǔn)實(shí)時(shí)數(shù)據(jù)和計(jì)算資源支撐。大數(shù)據(jù)平臺(tái)技術(shù)已成為現(xiàn)代建模仿真領(lǐng)域的重要支撐技術(shù)之一,平臺(tái)體系架構(gòu)、應(yīng)用模式,大數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn)、存儲(chǔ)、分析處理等大數(shù)據(jù)平臺(tái)技術(shù)飛速發(fā)展,應(yīng)用廣泛[3]。在開源軟件體系的基礎(chǔ)上,根據(jù)實(shí)際應(yīng)用場(chǎng)景需求,進(jìn)行負(fù)載均衡、多維調(diào)度的優(yōu)化,更穩(wěn)定更快地完成大數(shù)據(jù)收集和處理是比較常見的技術(shù)路線[4]。在大數(shù)據(jù)計(jì)算領(lǐng)域,Hadoop/Spark 已經(jīng)成為越來越流行的計(jì)算平臺(tái)之一,Spark 的功能涵蓋了大數(shù)據(jù)領(lǐng)域的離線批處理、SQL 類處理、流式/實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)、圖計(jì)算等各種不同類型的計(jì)算操作[5]。
與其他行業(yè)相比,水利行業(yè)大數(shù)據(jù)發(fā)展稍慢,但也在水利大數(shù)據(jù)的存儲(chǔ)與共享方法、分析平臺(tái)、挖掘算法、數(shù)據(jù)可視化和應(yīng)用等方面有所突破[6]。近年來,通過國家防汛抗旱指揮系統(tǒng)、水資源監(jiān)控能力建設(shè)等項(xiàng)目建設(shè),水資源數(shù)據(jù)庫建立及數(shù)據(jù)分析信息化系統(tǒng)取得了長(zhǎng)足進(jìn)步,已經(jīng)成為水資源決策的重要依托[7-8],但仍存在數(shù)據(jù)分析分散,數(shù)據(jù)匯集散亂,算法模型接口共享共用困難等問題,且絕大多數(shù)系統(tǒng)依托于傳統(tǒng)關(guān)系型數(shù)據(jù)庫,無法充分利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù),無法實(shí)現(xiàn)大數(shù)據(jù)規(guī)模的匯集和計(jì)算。
為此,在水資源動(dòng)態(tài)評(píng)價(jià)大數(shù)據(jù)需求分析基礎(chǔ)上,研究總體計(jì)算框架設(shè)計(jì)、數(shù)據(jù)匯集、算法模型計(jì)算支撐等內(nèi)容,初步實(shí)現(xiàn)水資源動(dòng)態(tài)評(píng)價(jià)大數(shù)據(jù)的全流程管理。
水資源動(dòng)態(tài)評(píng)價(jià)所需數(shù)據(jù)特點(diǎn)如下:
1)水資源動(dòng)態(tài)評(píng)價(jià)所需的數(shù)據(jù)來源十分駁雜。需處理的數(shù)據(jù)是典型的大數(shù)據(jù),具備大數(shù)據(jù)的基本特征,無法在一定時(shí)間內(nèi)用常規(guī)機(jī)器和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)[9]。
經(jīng)過對(duì)水資源現(xiàn)狀評(píng)價(jià)、情勢(shì)研判等方面業(yè)務(wù)的分析,數(shù)據(jù)源可能包括以下數(shù)據(jù):a. 水文及水資源監(jiān)測(cè)、水環(huán)境及水生態(tài)監(jiān)測(cè)、雨水情測(cè)報(bào)等數(shù)據(jù);b. 用水總量相關(guān)數(shù)據(jù),包括地表和地下水取用水監(jiān)測(cè)數(shù)據(jù),以及水量分配、取水許可、水資源調(diào)度、用水戶及水權(quán)交易等數(shù)據(jù);c. 用水效率相關(guān)數(shù)據(jù),包括節(jié)水、計(jì)劃用水指標(biāo),用水定額、效率,以及非常規(guī)水等數(shù)據(jù);d. 水功能區(qū)納污量相關(guān)數(shù)據(jù),包括水功能區(qū)劃、水域納污能力核定、水功能區(qū)水質(zhì)監(jiān)測(cè)及達(dá)標(biāo)評(píng)價(jià)、入河排污口調(diào)查監(jiān)測(cè)、飲用水源地保護(hù)等數(shù)據(jù);e. 水資源經(jīng)濟(jì)核算數(shù)據(jù),包括耗水總量、排污總量、水資源費(fèi)、分行業(yè)供水水費(fèi)、水權(quán)轉(zhuǎn)讓交易、生態(tài)補(bǔ)償標(biāo)準(zhǔn)定量等核算數(shù)據(jù)。
此外,社會(huì)其他部門、相關(guān)團(tuán)體和公民也越來越多地參與或涉及水資源監(jiān)督和管理,由此產(chǎn)生與水資源有關(guān)的數(shù)據(jù),如通過互聯(lián)網(wǎng)以網(wǎng)站、論壇、微信、微博等方式發(fā)布的有關(guān)信息,也可以被利用和挖掘。
2)水資源動(dòng)態(tài)評(píng)價(jià)所需的各類數(shù)據(jù)格式也駁雜不同。目前,各相關(guān)行業(yè)和部門對(duì)數(shù)據(jù)的管理多采用傳統(tǒng)關(guān)系型數(shù)據(jù)庫,其數(shù)據(jù)用統(tǒng)一的結(jié)構(gòu)表示,即結(jié)構(gòu)化數(shù)據(jù)。但隨著水資源動(dòng)態(tài)評(píng)價(jià)分析的進(jìn)化,還要處理文字、圖形、圖像、聲音、視頻等非結(jié)構(gòu)化數(shù)據(jù)。水資源動(dòng)態(tài)評(píng)價(jià)所需的數(shù)據(jù)主要包括以下格式:各種數(shù)據(jù)庫表格式,如 Oracle,MySQL,MongoDB 和 SQL Server 等數(shù)據(jù)庫;各種文本文檔,如 PDF,Word 文件;各種表格文件,如 Excel 表格文件;各種非結(jié)構(gòu)化數(shù)據(jù),如圖片、視頻、遙感數(shù)據(jù)等文件;各種網(wǎng)站網(wǎng)頁數(shù)據(jù),如 HTML 文件等。
因此,要進(jìn)行水資源動(dòng)態(tài)評(píng)價(jià)數(shù)據(jù)分析處理,首先需要充分利用大數(shù)據(jù)計(jì)算技術(shù),將駁雜的數(shù)據(jù)源進(jìn)行統(tǒng)一匯集和存儲(chǔ),形成數(shù)據(jù)倉庫。
水資源動(dòng)態(tài)評(píng)價(jià)的主要技術(shù)手段是構(gòu)建水循環(huán)的取水—輸水—用水—耗水—排水全過程模擬計(jì)算。計(jì)算技術(shù)主要有以下內(nèi)容:
1)水資源現(xiàn)狀分析。a. 水資源數(shù)量方面,涉及地表水模擬、分布式水文、地下水?dāng)?shù)值模擬等模型計(jì)算;b. 水資源質(zhì)量方面,涉及遙感與地面監(jiān)測(cè)協(xié)同的水體水質(zhì)和營養(yǎng)狀態(tài)分析評(píng)價(jià);c. 水資源開發(fā)利用方面,涉及遙感與地面監(jiān)測(cè)協(xié)同的種植結(jié)構(gòu)反演、多源融合信息耗水、農(nóng)業(yè)灌溉曲線模擬、用水量小波分析等模型計(jì)算。
2)水資源預(yù)測(cè)預(yù)報(bào)分析。涉及基于貝葉斯平均的旬月尺度降水、多源數(shù)據(jù)融合的地下水水位動(dòng)態(tài)、數(shù)據(jù)驅(qū)動(dòng)模型的水質(zhì)等預(yù)測(cè)分析,參照作物需水量預(yù)報(bào),需水量線性回歸,以及需水量灰色、神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等模型預(yù)報(bào)方法。
3)水資源規(guī)律分析。涉及主成分、關(guān)聯(lián)、驅(qū)動(dòng)因子相關(guān)性、動(dòng)態(tài)變化規(guī)律識(shí)別等各種數(shù)據(jù)分析方法。
4)水資源情勢(shì)研判。涉及地表水、地下水可供水量計(jì)算,以及雨水利用量等其他水源可供水量計(jì)算、供水風(fēng)險(xiǎn)分析、缺水狀況識(shí)別、用水過程線計(jì)算、農(nóng)業(yè)用水回歸計(jì)算、廢污水排放計(jì)算等多種算法模型。
5)水資源平臺(tái)調(diào)配。涉及水資源配置模型、共需平衡分析、重點(diǎn)工程水量調(diào)配、模型滾動(dòng)修正計(jì)算等。
這些復(fù)雜的計(jì)算形成以下 3 個(gè)主要需求:
1)各類數(shù)據(jù)分析算法的接口需求。如各功能計(jì)算都需要一些簡(jiǎn)單的歸一化和線性回歸,應(yīng)提供統(tǒng)一的算法接口,以提高分析效率,避免大量重復(fù)算法開發(fā)調(diào)試工作。
2)聯(lián)合計(jì)算的需求。在各功能計(jì)算中會(huì)存在很多某個(gè)算法需要某個(gè)模型的結(jié)果數(shù)據(jù)作為輸入數(shù)據(jù)的情況,應(yīng)具備算法模型的調(diào)度管理能力。
3)并行計(jì)算的需求。提高分析計(jì)算效率需要GPU(圖形處理器)并行計(jì)算的支撐,尤其在利用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)處理非結(jié)構(gòu)化數(shù)據(jù)的場(chǎng)景中,利用 CPU 和 GPU 混合計(jì)算可使這些算法模型計(jì)算速度比單純 CPU 計(jì)算速度大大提高。
根據(jù)需求分析和實(shí)際技術(shù)基礎(chǔ)情況,依托水利部大數(shù)據(jù)平臺(tái)的計(jì)算資源、存儲(chǔ)資源、算法開發(fā)平臺(tái)構(gòu)建水資源動(dòng)態(tài)評(píng)價(jià)大數(shù)據(jù)的總體計(jì)算框架,架構(gòu)設(shè)計(jì)如圖1 所示。大數(shù)據(jù)處理體系主要由 4 個(gè)關(guān)鍵環(huán)節(jié)構(gòu)成,包括:雨水情、水資源、月報(bào)等各類數(shù)據(jù)源的采集導(dǎo)入;對(duì)數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行范式化處理,構(gòu)成原始、基礎(chǔ)、主題數(shù)據(jù)庫等數(shù)據(jù)倉庫;開發(fā)水資源算法模型接口,提供各類算法計(jì)算服務(wù);形成結(jié)果數(shù)據(jù),支撐上層應(yīng)用系統(tǒng)分析展示。
圖1 總體計(jì)算框架設(shè)計(jì)
數(shù)據(jù)采集為不同數(shù)據(jù)源提供數(shù)據(jù)交換的橋梁,支持主流的關(guān)系型數(shù)據(jù)庫,包括 Oracle,MySQL,DB2,SQL Server 和 PostgreSQL 等。此外,可以支持與 Hadoop 平臺(tái)的 HDFS(Hadoop 分布式文件系統(tǒng))和 Hive 組件的數(shù)據(jù)對(duì)接集成,也可對(duì)接各類云上的 ODPS,ADS,OTS,RDS 的數(shù)據(jù),滿足不同應(yīng)用場(chǎng)景需求。
水資源動(dòng)態(tài)評(píng)價(jià)處理涉及多種數(shù)據(jù)處理、挖掘的算法模型支撐,將利用 Spark MLib 等方式實(shí)現(xiàn)這些算法模型的標(biāo)準(zhǔn)化編寫,從而在大數(shù)據(jù)平臺(tái)上可以直接調(diào)取使用。為實(shí)現(xiàn) CPU 和 GPU 的混合計(jì)算,利用并行計(jì)算顯卡提供 GPU 計(jì)算資源,部署Pytorch 和 TensorFlow 2 套深度學(xué)習(xí)框架,提高算法模型適應(yīng)性。
水利部大數(shù)據(jù)平臺(tái)依托 Hadoop 生態(tài)體系建立,具備基本的計(jì)算存儲(chǔ)體系。Hadoop 是一個(gè)應(yīng)對(duì)海量數(shù)據(jù)進(jìn)行分布式處理的軟件框架,核心設(shè)計(jì)是 HDFS 和 MapReduce,HDFS 為海量的數(shù)據(jù)提供存儲(chǔ),MapReduce 為海量的數(shù)據(jù)提供計(jì)算。在這個(gè)大數(shù)據(jù)平臺(tái)的基礎(chǔ)上,本研究實(shí)現(xiàn)文本文檔爬取、數(shù)據(jù)庫導(dǎo)入導(dǎo)出、非機(jī)構(gòu)化數(shù)據(jù)導(dǎo)入等各類相關(guān)數(shù)據(jù)的統(tǒng)一匯集。
對(duì)于多源格式的文本文檔數(shù)據(jù),如 PDF,Word,Excel,PPT,TXT 和 Csv 等,利用數(shù)據(jù)爬蟲技術(shù),按照一定規(guī)則將匹配數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式。數(shù)據(jù)爬蟲分為數(shù)據(jù)采集、處理、儲(chǔ)存 3 個(gè)部分,工作流程如圖2 所示。
圖2 數(shù)據(jù)爬蟲工作流程
在執(zhí)行數(shù)據(jù)爬蟲前,首先應(yīng)獲取所需爬取數(shù)據(jù)所在的文件路徑,不同于網(wǎng)絡(luò)爬蟲僅解析 HTML格式文件,數(shù)據(jù)爬蟲需要解析不同格式的文件,因此需要相應(yīng)的解析驅(qū)動(dòng)引擎幫助獲取頁面的數(shù)據(jù)信息。獲取到數(shù)據(jù)頁面信息后,數(shù)據(jù)爬蟲即開始按照指定的規(guī)則在頁面爬取信息,當(dāng)爬取信息與規(guī)則匹配時(shí),則執(zhí)行相應(yīng)的數(shù)據(jù)處理與轉(zhuǎn)換。循環(huán)執(zhí)行數(shù)據(jù)爬取流程,匹配數(shù)據(jù)將以隊(duì)列形式存儲(chǔ),等待后續(xù)的統(tǒng)一存儲(chǔ)。
水利部大數(shù)據(jù)平臺(tái)底層采用主流的 HDFS 存儲(chǔ)體系,所有的數(shù)據(jù)將直接存儲(chǔ)在 HDFS 上,數(shù)據(jù)的導(dǎo)入導(dǎo)出也將直接與 HDFS 交互。HDFS 采用 Master/Slave 架構(gòu),1 個(gè) HDFS 集群由 1 個(gè) NameNode 和一定數(shù)目的 DataNodes 組成。將各類數(shù)據(jù)導(dǎo)入導(dǎo)出請(qǐng)求轉(zhuǎn)換為相應(yīng)的 MapReduce 任務(wù),實(shí)現(xiàn)數(shù)據(jù)交換的目的。當(dāng)需要數(shù)據(jù)導(dǎo)入時(shí),文件上傳 MapReduce 程序啟動(dòng),程序按照文件導(dǎo)入流程依次與 NameNode 和各 DataNode 節(jié)點(diǎn)通信,將文件寫入 HDFS 中并建立指定數(shù)目的文件副本。當(dāng)接到數(shù)據(jù)導(dǎo)出請(qǐng)求時(shí),文件下載 MapReduce 程序啟動(dòng),程序按照文件下載流程依次與 DataNode 節(jié)點(diǎn)通信,將文件下載下來并作整合,最終返回整合完成的數(shù)據(jù),完成數(shù)據(jù)導(dǎo)出的請(qǐng)求。
通過 JDBC(Java DataBase Connectivity)和 ODBC(Open DataBase Connectivity)接口,實(shí)現(xiàn)與各種主流、開源和國產(chǎn)等數(shù)據(jù)庫的連接與接入,支持對(duì)各種結(jié)構(gòu)化和非結(jié)構(gòu)化格式文件的讀寫,以及通過多種協(xié)議與其他應(yīng)用系統(tǒng)的交互,實(shí)現(xiàn)分散異構(gòu)數(shù)據(jù)庫與大數(shù)據(jù)平臺(tái)之間的數(shù)據(jù)通信。JDBC 與 ODBC 作為 Java 技術(shù)中實(shí)現(xiàn)與關(guān)系數(shù)據(jù)庫交互的標(biāo)準(zhǔn)接口,具有很高的效率。
為支撐水資源動(dòng)態(tài)評(píng)價(jià)數(shù)據(jù)的評(píng)價(jià)與預(yù)測(cè),本研究構(gòu)建了可用于水資源動(dòng)態(tài)評(píng)價(jià)數(shù)據(jù)分析的機(jī)器與深度學(xué)習(xí)算法,包括回歸模型、支持向量機(jī)(SVM)、決策樹(DT)、隨機(jī)森林(RF)、梯度提升決策樹(GBDT)、前饋神經(jīng)網(wǎng)絡(luò)(FNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)等算法,并實(shí)現(xiàn)算法接口的統(tǒng)一管理。
在水資源動(dòng)態(tài)評(píng)價(jià)大數(shù)據(jù)上進(jìn)行機(jī)器學(xué)習(xí)分析,需要處理全量數(shù)據(jù)并進(jìn)行大量的迭代計(jì)算,Spark 立足于內(nèi)存計(jì)算,天然地適應(yīng)迭代式計(jì)算。相比于基于 Hadoop MapReduce 實(shí)現(xiàn)的機(jī)器學(xué)習(xí)算法,Spark MLlib 在機(jī)器學(xué)習(xí)方面具有一些得天獨(dú)厚的優(yōu)勢(shì)。
本研究在 Spark MLlib 庫基礎(chǔ)上,開發(fā)了很多通用的機(jī)器學(xué)習(xí)算法模塊,包括線性,GBDT,DT,RF,SVM,以及邏輯回歸二分類和多分類等模塊。設(shè)置好所需的機(jī)器學(xué)習(xí)算法模塊,便可從大數(shù)據(jù)平臺(tái)直接導(dǎo)入水資源數(shù)據(jù)接入訓(xùn)練接口。
對(duì)水資源動(dòng)態(tài)評(píng)價(jià)基礎(chǔ)數(shù)據(jù)先進(jìn)行規(guī)范化處理,將數(shù)據(jù)分為特征類和標(biāo)簽類 2 類數(shù)據(jù)。在模型訓(xùn)練過程中:特征類數(shù)據(jù)(如省份、流域、年份月份、降雨量等數(shù)據(jù))用于模型在訓(xùn)練過程的特征提??;標(biāo)簽類數(shù)據(jù)用于損失函數(shù)的計(jì)算,將模型當(dāng)前預(yù)測(cè)的結(jié)果和標(biāo)簽數(shù)據(jù)進(jìn)行比對(duì),差值作為損失函數(shù),進(jìn)而調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)使損失函數(shù)降到最低。實(shí)際計(jì)算流程如圖3 所示。
圖3 模型使用計(jì)算流程示意
通過設(shè)置算法模型的超參數(shù)可達(dá)成不同的訓(xùn)練效果,以邏輯回歸二分類為例,可設(shè)置的參數(shù)有閾值、正則化系數(shù)、彈性網(wǎng)絡(luò)混合參數(shù)、最大迭代次數(shù)、迭代收斂容差、包含常數(shù)項(xiàng)等。
CPU 需要很強(qiáng)的通用性來處理各種不同的數(shù)據(jù)類型,同時(shí)需要邏輯判斷又會(huì)引入大量的分支跳轉(zhuǎn)和中斷的處理,這些都使得 CPU 的內(nèi)部結(jié)構(gòu)異常復(fù)雜。GPU 面對(duì)的是類型高度統(tǒng)一且相互無依賴的大規(guī)模數(shù)據(jù)和不被打斷的純凈計(jì)算環(huán)境,使得 GPU 在處理圖像等數(shù)據(jù)時(shí)存在天然優(yōu)勢(shì)。為實(shí)現(xiàn)大量水資源動(dòng)態(tài)評(píng)價(jià)數(shù)據(jù)的分析與計(jì)算,利用深度學(xué)習(xí)技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行建模分析,本研究提出 CPU 和 GPU 的混合計(jì)算支撐模式。
為滿足對(duì)不同深度學(xué)習(xí)框架下的計(jì)算需求,增加了專門的 GPU 服務(wù)器。在 GPU 服務(wù)器上部署了2 個(gè)主流的深度學(xué)習(xí)框架 Tensorflow 和 Pytorch。為實(shí)現(xiàn) GPU 服務(wù)器和大數(shù)據(jù)平臺(tái)間的數(shù)據(jù)及文件的傳輸需求,在 GPU 服務(wù)器上部署了 MySQL 數(shù)據(jù)庫和 FTP 文件傳輸?shù)确?wù)。MySQL 數(shù)據(jù)庫服務(wù)主要負(fù)責(zé)實(shí)現(xiàn)深度學(xué)習(xí)平臺(tái)和大數(shù)據(jù)平臺(tái)之間結(jié)構(gòu)化數(shù)據(jù)的傳輸,F(xiàn)TP 文件傳輸服務(wù)主要負(fù)責(zé) GPU 服務(wù)器和大數(shù)據(jù)平臺(tái)之間的非結(jié)構(gòu)化數(shù)據(jù)的傳輸。水資源數(shù)據(jù)通過大數(shù)據(jù)平臺(tái)轉(zhuǎn)化成數(shù)據(jù)流傳輸?shù)椒?wù)器端,服務(wù)器端將打包的水資源數(shù)據(jù)進(jìn)行接收、分類,可進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練與調(diào)優(yōu)。模型部署后,可接收從大數(shù)據(jù)平臺(tái)傳來的水資源數(shù)據(jù)并進(jìn)行計(jì)算,將結(jié)果反向傳輸回大數(shù)據(jù)平臺(tái),實(shí)現(xiàn) CPU 和 GPU 的資源調(diào)度共享。
本研究針對(duì)水資源動(dòng)態(tài)評(píng)價(jià)業(yè)務(wù)需求,以水利部大數(shù)據(jù)平臺(tái)為基礎(chǔ),提出了數(shù)據(jù)采集—標(biāo)準(zhǔn)范式化—數(shù)據(jù)倉庫—算法模型接口的水資源動(dòng)態(tài)評(píng)價(jià)大數(shù)據(jù)計(jì)算框架,并重點(diǎn)研究了數(shù)據(jù)統(tǒng)一匯集、算法模型接口,以及 CPU 和 GPU 混合計(jì)算等關(guān)鍵節(jié)點(diǎn),實(shí)現(xiàn)了水資源動(dòng)態(tài)評(píng)價(jià)大數(shù)據(jù)的全流程管理,可為復(fù)雜的水資源評(píng)價(jià)等業(yè)務(wù)提供支撐。目前水資源動(dòng)態(tài)評(píng)價(jià)大數(shù)據(jù)計(jì)算框架已在水利部實(shí)現(xiàn)部署應(yīng)用,初步證實(shí)了此計(jì)算框架的可行性,但在擴(kuò)展數(shù)據(jù)源、完善水資源數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范、優(yōu)化算法模型聯(lián)合計(jì)算等方面仍需要進(jìn)一步完善。同時(shí),在深度學(xué)習(xí)和 GPU 計(jì)算方面也需要深化與水資源業(yè)務(wù)的融合,形成行業(yè)專用的模型,才能不斷推動(dòng)水資源動(dòng)態(tài)評(píng)價(jià)數(shù)據(jù)處理水平和分析能力的提高。