邱元陽
河南省安陽縣職業(yè)中專qiuyuanyang@126.com
AI在今年的熱度已經(jīng)很難消退了,尤其是各種生成式AI。而生成式AI離不開訓(xùn)練模型,大模型在生成式AI的進(jìn)化中功不可沒。除了需要強(qiáng)大的GPU算力支撐,AI的進(jìn)步也需要大數(shù)據(jù)的支撐。“大、智、移、云”已經(jīng)成了信息時(shí)代的共生體,可以說,人工智能的潘多拉魔盒,正是大數(shù)據(jù)打開的。
沒有可靠的大數(shù)據(jù),AI的訓(xùn)練結(jié)果可能大打折扣,甚至無法使用。因此,包括ChatGPT在內(nèi)的AI,都需要對(duì)大數(shù)據(jù)進(jìn)行排錯(cuò)和標(biāo)注。即使是普通的大數(shù)據(jù),也同樣需要相應(yīng)的治理。
在信息交互中,數(shù)據(jù)已經(jīng)成為一項(xiàng)資產(chǎn),但如果沒有數(shù)據(jù)治理,數(shù)據(jù)質(zhì)量差,可能會(huì)導(dǎo)致數(shù)據(jù)不可用,難以進(jìn)行數(shù)據(jù)建模,數(shù)據(jù)將變得沒有價(jià)值。在數(shù)字化轉(zhuǎn)型和數(shù)字躍遷過程中,大數(shù)據(jù)治理也就成為一個(gè)重要環(huán)節(jié)。
大數(shù)據(jù)治理是指充分運(yùn)用大數(shù)據(jù)、云計(jì)算、人工智能等先進(jìn)技術(shù),實(shí)現(xiàn)治理手段的智能化。大數(shù)據(jù)包括社交數(shù)據(jù)、機(jī)器數(shù)據(jù)等,海量的數(shù)據(jù)在應(yīng)用中可能會(huì)存在數(shù)據(jù)孤島,阻礙數(shù)據(jù)共享,存在數(shù)據(jù)風(fēng)險(xiǎn),以及質(zhì)量較差的數(shù)據(jù)和不可靠數(shù)據(jù),導(dǎo)致數(shù)據(jù)價(jià)值難以呈現(xiàn),數(shù)據(jù)模型不完善,模型復(fù)用度低,開發(fā)效率低。大數(shù)據(jù)治理需要覆蓋數(shù)據(jù)獲取、處理、存儲(chǔ)等各個(gè)環(huán)節(jié),在數(shù)據(jù)生命周期的各個(gè)階段,篩查有關(guān)鍵影響的數(shù)據(jù)元素,檢查和保證數(shù)據(jù)質(zhì)量。
大數(shù)據(jù)治理的目的就是解決在海量數(shù)據(jù)處理過程中可能出現(xiàn)的數(shù)據(jù)問題,連接起大數(shù)據(jù)科學(xué)和應(yīng)用的橋梁。為此,需要構(gòu)建大數(shù)據(jù)治理的相關(guān)模型,將大數(shù)據(jù)治理的各個(gè)環(huán)節(jié)形成固定化模塊,保證數(shù)據(jù)治理在各個(gè)環(huán)節(jié)都能夠得到有效執(zhí)行,這就是大數(shù)據(jù)治理框架。在這個(gè)框架中,對(duì)元數(shù)據(jù)的處理,又是大數(shù)據(jù)治理的核心。
元數(shù)據(jù)(Metadata)是描述數(shù)據(jù)的數(shù)據(jù),主要描述數(shù)據(jù)屬性,如指示存儲(chǔ)位置、歷史數(shù)據(jù)、資源查找、文件記錄等。大數(shù)據(jù)治理需要將大數(shù)據(jù)與元數(shù)據(jù)庫進(jìn)行整合,將大數(shù)據(jù)術(shù)語納入業(yè)務(wù)詞庫。例如,從Hadoop中將技術(shù)元數(shù)據(jù)引入元數(shù)據(jù)庫,管理數(shù)據(jù)血統(tǒng)(Data Lineage),并在大數(shù)據(jù)環(huán)境中對(duì)分析施加影響。
作為一種新型的信息資源,大數(shù)據(jù)應(yīng)用已經(jīng)滲透到社會(huì)生產(chǎn)生活的各個(gè)領(lǐng)域,各種業(yè)務(wù)系統(tǒng)每天都會(huì)形成大量類型復(fù)雜的數(shù)據(jù),如數(shù)字、圖片、視頻等,且處于動(dòng)態(tài)變化之中。大數(shù)據(jù)治理主要包括大數(shù)據(jù)平臺(tái)建設(shè)、數(shù)據(jù)安全與隱私保護(hù)以及數(shù)據(jù)資產(chǎn)化管理等,因此它不僅是技術(shù)方面的,也是管理方面的,需要技術(shù)與安全并重,采取身份認(rèn)證、消息認(rèn)證、加密技術(shù)、防火墻技術(shù)等,來保障數(shù)據(jù)采集、傳輸、儲(chǔ)存、使用、共享過程中的網(wǎng)絡(luò)安全。
大數(shù)據(jù)治理是一個(gè)復(fù)雜的過程,并面臨著較高的網(wǎng)絡(luò)安全風(fēng)險(xiǎn),需要運(yùn)用信息化工具,組織清晰的數(shù)據(jù)政策和程序、數(shù)據(jù)字典、數(shù)據(jù)模型、數(shù)據(jù)流和數(shù)據(jù)質(zhì)量控制等工具和流程來幫助管理和控制大數(shù)據(jù)環(huán)境,也可能需要使用一些大數(shù)據(jù)分析工具來處理和分析數(shù)據(jù),這些工具可能包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和可視化等,治理趨勢(shì)也從集中式治理走向分布式自治。
需要清楚的是,大數(shù)據(jù)并不一定都是單純看得見摸得著的數(shù)據(jù),它更多地是以某種形式存在于人際交流之中。各種交互過程,都是數(shù)據(jù)的交換,都會(huì)衍生出大量的數(shù)據(jù)信息,大數(shù)據(jù)之大,不是文件巨大,而是數(shù)量巨大。數(shù)據(jù)治理是對(duì)存量數(shù)據(jù)、增量數(shù)據(jù)管控的過程,大數(shù)據(jù)的治理,最終也是治人。