崔開源
(內(nèi)蒙古科技大學 學報編輯部,內(nèi)蒙古 包頭 014010)
在GB/ T 7714—2015《信息與文獻 參考文獻著錄規(guī)則》中,增加了 4 個文獻類型標識[1]:檔案(A) ,輿圖(CM) ,數(shù)據(jù)集(DS) ,其他(Z)。這四個新增的文獻類型中,其余三個文獻類型比較容易理解,數(shù)據(jù)集(DS)對很多人來說仍然比較陌生,容易和計算機的數(shù)據(jù)庫、數(shù)據(jù)表相混淆。雖然有些學者已經(jīng)對此做出了研究,但由于已有定義不能包括目前已經(jīng)發(fā)現(xiàn)的數(shù)據(jù)集,因此,需要對數(shù)據(jù)集的概念作出修正。
數(shù)據(jù)集的基本概念具體起源于何時,目前還不明確。從CNKI中,以關(guān)鍵詞“數(shù)據(jù)集”檢索后,可以看到1915年就已經(jīng)有了相關(guān)的文獻。之后很長一段時間,相關(guān)文獻的數(shù)量都在10篇以下。1980年前后,相關(guān)文獻數(shù)量逐步增加。如圖1所示。
最早的中文文獻出現(xiàn)在1959年,共3篇。其文獻量的變化趨勢與外文文獻數(shù)量變化趨勢基本一致,如圖2所示。
國內(nèi)目前已知最早的數(shù)據(jù)集文獻是1959年刊載在《航空材料》上的數(shù)據(jù)集,美國鋼鐵研究院的《AISI*標準不銹鋼的代號與成分》數(shù)據(jù)集[2],該數(shù)據(jù)集其實是美國鋼鐵研究院(AISI)在1957年6月提供的。同年,《航空材料》上還刊載了另外兩份數(shù)據(jù)集:《數(shù)據(jù)集NO.5:標準不銹鋼的抗腐蝕性的比較》[3]《數(shù)據(jù)集NO.6:機械試驗時的變形速度曲線圖》[4]。從1959年翻譯成中文的數(shù)據(jù)集文獻來看,數(shù)據(jù)集主要并不是在計算機領(lǐng)域,而是在材料、機械、航天領(lǐng)域。
圖1 CNKI數(shù)據(jù)庫中,關(guān)鍵詞為“數(shù)據(jù)集”的外文文獻數(shù)量變化
圖2 CNKI數(shù)據(jù)庫中,關(guān)鍵詞為“數(shù)據(jù)集”的中文文獻數(shù)量變化
從目前已經(jīng)發(fā)現(xiàn)的數(shù)據(jù)集的形式來看,主要有四種典型的數(shù)據(jù)集樣式。一是表格加說明樣式;二是示意圖加說明樣式;三是數(shù)據(jù)圖表樣式;四是數(shù)據(jù)庫樣式。
表格加說明樣式,形式上類似數(shù)據(jù)庫里的一張關(guān)系表。但實質(zhì)上與數(shù)據(jù)庫中的表中的數(shù)值不相同。比如,在表1中,對應(yīng)于201所在的行,C所在的列的內(nèi)容為“<0.15”,對應(yīng)的內(nèi)容是一種條件,而不是具體的值。只有各種元素的含量符合201鋼材對應(yīng)行的內(nèi)容要求時,才是合格的201鋼材。表中的內(nèi)容,其實是系列標準,而非具體的數(shù)值。這是與數(shù)據(jù)庫樣式的數(shù)據(jù)集根本性不同的地方。
表1 表格式數(shù)據(jù)集 《AISI*標準不銹鋼的代號與成分》
表2 相對濕度對羊毛纖維直徑測定影響的校正表/微米
表2是1978年刊載在《毛紡科技》期刊中的《羊毛工業(yè)研究協(xié)會紡織數(shù)據(jù)集 (一)》中的一個內(nèi)容[5]。該表規(guī)定了在不同的濕度環(huán)境下,使用特定的測量儀器和測量方法測出了羊毛纖維直徑后,對測量結(jié)果的修正方法。表中的第一行數(shù)據(jù)的含義是:對于測量結(jié)果為18~19.9微米的羊毛纖維,如果是在濕度為38%~42%之間測量的,最終值就需要在原來測量結(jié)果的基礎(chǔ)上加上0.4微米;如果是在濕度為68%~72%之間測量的,最終值就需要在原來測量結(jié)果的基礎(chǔ)上減去0.1微米。所以,某行某列對應(yīng)的內(nèi)容,不是具體的數(shù)值,而是對數(shù)值的處理方法。這與計算機領(lǐng)域關(guān)系數(shù)據(jù)庫中的表顯然是不同的。表2中的數(shù)值,不是通常的“實驗數(shù)據(jù)”或“數(shù)值”,而是“處理方法”或“關(guān)系”。
示意圖加說明樣式的數(shù)據(jù)集,先給出特定內(nèi)容的示意圖,然后添加輔助性的說明內(nèi)容或相關(guān)信息。如圖1所示。
為了說明該類數(shù)據(jù)集的特點,我們選取圖3中的局部內(nèi)容進行放大并重新做清晰化處理,就可以得到如圖4所示的樣式。圖中包含了7個數(shù)據(jù)單元。每個數(shù)據(jù)單元類似于一張簡明數(shù)據(jù)表。每個數(shù)據(jù)單元,包含了一種鋼材型號,及該型號鋼材中影響抗腐蝕性的主要元素的含量。圖中顯示了不同鋼材在抗腐性方面的差異及主要原因。比如310相對于309,增加了NI和C,提高了抗氧化性能;309號鋼材相對于308號鋼材,增加了Cr和Ni,提高了抗氧化性、抗腐蝕性。這種數(shù)據(jù)集,看上去直觀,清晰。如果用計算機領(lǐng)域的數(shù)據(jù)庫概念對比,這張圖所反映的信息,類似于表與表之間的關(guān)系,而不是“數(shù)值”與“數(shù)值”之間的關(guān)系。此外,它也包含了說明性的內(nèi)容。
另一個類似的數(shù)據(jù)集的實例是《機械試驗時的變形速度曲線圖》,如圖5所示。利用該曲線圖,可以查出進行機械試驗時的大約變形速度。該圖給出了具體的使用方法“當已知試驗材料的楊氏系數(shù)和引起變形的荷載時,就可以查到在一定時間內(nèi)的變形速度。比如,已知鋁合金材料的楊氏系數(shù)為10×106,在8秒鐘內(nèi),荷載為40,000磅/寸2,首先由圖的右下方所需應(yīng)力40 ×1000磅/寸2處開始向上查,找出與楊氏模數(shù)10×106斜線的交點,由此點再沿橫線向左找出與時間曲線(8秒)的交點,最后,沿縱線向下即可讀出所求的變形速度值5×0.0001,也就是0.0005寸/寸/秒”。
圖5所顯示的數(shù)據(jù)集,類似于若干條給定不同變量值的同一函數(shù)的曲線的疊加結(jié)果。它的基本單元不同于圖4的表,而是類似函數(shù)的曲線。是由若干條類似函數(shù)的曲線構(gòu)成的。需要說明的是,該圖是個經(jīng)驗結(jié)果,并不是嚴格的實際結(jié)果。因此,只能叫做大約的變形速度。
數(shù)據(jù)圖表樣式的數(shù)據(jù)集,常見于氣象學、測量學領(lǐng)域。下面是一個氣象領(lǐng)域的數(shù)據(jù)集:擴展重建海平面溫度(Extended Reconstructed Sea Surface Temperatures,ERSST)標準5下的2018年10月的全球氣候數(shù)據(jù)集的一個樣式,如圖6所示。
圖3 《AISI*標準不銹鋼的代號與成分》
圖4 AISI*標準不銹鋼的代號與成分圖局部放大并加工整理后的效果
圖5 機械試驗時的變形速度曲線圖
圖6 ERSST-v5 2018 年10月全球氣候數(shù)據(jù)(由 Z Hausfather提供)
該樣式是基于實際的觀測數(shù)據(jù),按照一定的模型生成的直觀結(jié)果。它實際上是對若干數(shù)值的綜合處理結(jié)果,表現(xiàn)形式就是主要是圖像。我們無法從圖中看到此結(jié)果所依靠的最原始的觀測數(shù)據(jù)以及數(shù)據(jù)的處理過程。與之相似,圖7所顯示的數(shù)據(jù)集樣式,則是建立在數(shù)據(jù)集基礎(chǔ)之上的柱狀圖。該數(shù)據(jù)集顯示的是1871~2018 年 6 種不同的 SST 數(shù)據(jù)集的Nino 3.4 指數(shù)的每月標準偏差對比圖。
數(shù)據(jù)圖表樣式的數(shù)據(jù)集的主要特點是,在原始數(shù)據(jù)的基礎(chǔ)上,按照給定的數(shù)據(jù)處理規(guī)則,所產(chǎn)生的圖或表。我們用EXCEL所做的柱狀圖、餅狀圖,都屬于這個類型。數(shù)據(jù)圖表樣式與圖5最主要的區(qū)別是,數(shù)據(jù)圖表樣式是可以由數(shù)據(jù)直接生成,數(shù)據(jù)變化,圖表的樣式隨之變化。數(shù)據(jù)的處理規(guī)則是確定的。而圖4、圖5所示的數(shù)據(jù)集,由于其規(guī)律不確定,需要很多人為干預(yù),添加好多經(jīng)驗或?qū)嶒瀮?nèi)容,計算機無法自動生成。凡是無法用計算機自動生成的圖、表及說明形式的數(shù)據(jù)集,都可以歸類到示意圖加說明樣式。當然,如果出現(xiàn)更好的工具,能夠把圖3的樣式由計算機模擬出來,那么,圖5也可歸類到數(shù)據(jù)圖表樣式中。
隨著大數(shù)據(jù)時代的到來,各學科產(chǎn)生的數(shù)據(jù)集(Date set,DS)的數(shù)量與日劇增[7]。數(shù)據(jù)庫樣式的數(shù)據(jù)集就逐漸多起來。幾乎所有學科都能找到以數(shù)據(jù)庫為基礎(chǔ)的數(shù)據(jù)集文獻。在醫(yī)學領(lǐng)域,有《數(shù)字化虛擬中國人女性一號號(VCH-F1)實驗數(shù)據(jù)集研究報告》[8],在氣象領(lǐng)域,有《地方MOS數(shù)據(jù)集及應(yīng)用程序包的建立方法介紹》[9],在文獻信息領(lǐng)域,有2017年、2018年復旦大學師生中文電子期刊資源訪問行為數(shù)據(jù)集[10][11],在交通領(lǐng)域,有《高速公路場景下基于深度學習的數(shù)據(jù)集建立》[12],在信息領(lǐng)域,有《機器學習算法在同態(tài)加密數(shù)據(jù)集上的應(yīng)用》[13]等等。其本質(zhì)上都是若干關(guān)系表中的數(shù)據(jù)。僅僅在表現(xiàn)形式、規(guī)范性方面略有差異。比如《2018 年復旦大學師生中文電子期刊資源訪問行為數(shù)據(jù)集》,該數(shù)據(jù)集提供了詳細的數(shù)據(jù)庫基本信息、數(shù)據(jù)采集和處理方法、數(shù)據(jù)集中的14個文件所涉及的20個字段的詳細說明、數(shù)據(jù)質(zhì)量控、數(shù)據(jù)的質(zhì)量控制、數(shù)據(jù)使用方法和建議、數(shù)據(jù)獲取地址、數(shù)據(jù)存儲方式等等,內(nèi)容非常詳盡。是一個現(xiàn)代技術(shù)條件下比較完善的數(shù)據(jù)庫樣式的數(shù)據(jù)集樣本。由于這類樣式比較常見,這里不過多介紹。
圖7 6種不同的 SST 數(shù)據(jù)集的Nino 3.4 指數(shù)的每月標準偏差對比圖
通過以上四種數(shù)據(jù)集樣式的分析,我們可以看到。把數(shù)據(jù)集定義為“是一種由數(shù)據(jù)所組成的集合”[1][7]是需要完善的。
首先,定義中的“數(shù)據(jù)”概念,在不同的學科中理解不一。對計算機專業(yè)領(lǐng)域來說,可以存儲的“數(shù)據(jù)”,既包括圖像、聲音、文字,也包括視頻甚至文件(對象)。當然,這些都是電子介質(zhì),不包括紙質(zhì)資料。不能把紙質(zhì)的介質(zhì)叫做數(shù)據(jù),只能把紙質(zhì)介質(zhì)上的內(nèi)容轉(zhuǎn)化成“數(shù)據(jù)”。事實上排出了紙質(zhì)介質(zhì)。因此,嚴格地說,紙質(zhì)圖書、電子期刊、紙質(zhì)的數(shù)據(jù)集,都不是計算機的“數(shù)據(jù)”。在其它領(lǐng)域,“數(shù)據(jù)”就是實驗過程或結(jié)果中的數(shù)值。無論是紙媒還是電子媒體,只要屬于這個范圍,都是數(shù)據(jù)。
其次,集合的概念也不準確。集合本來是嚴格的數(shù)學概念。不相關(guān)的任意幾個數(shù)字,都可以稱為集合,但這顯然不是數(shù)據(jù)集中的數(shù)據(jù)。數(shù)據(jù)集中的數(shù)據(jù)應(yīng)該是有特定關(guān)系的。集合既可以包含一個數(shù)據(jù)(元素),也可以包含若干個數(shù)據(jù)(元素),甚至可以是不包含任何數(shù)據(jù)的空集。但僅包含一個數(shù)據(jù)(元素)或空集的情況不能叫做數(shù)據(jù)集。
對于以上四種類型的數(shù)據(jù)集,上述定義不能夠完全涵蓋。一是表格加說明樣式中的表1、表2中的內(nèi)容,不是通常意義上的數(shù)據(jù),而是關(guān)系;數(shù)據(jù)圖表樣式類的數(shù)據(jù)集,是建立在數(shù)據(jù)基礎(chǔ)上的圖或表。計算機領(lǐng)域的數(shù)據(jù)概念,并不包括紙質(zhì)媒介。因此,建議把數(shù)據(jù)集的概念修改如下:
數(shù)據(jù)集是實驗、觀測及釆集數(shù)值的處理方法、特定標準的約束條件,總結(jié)說明信息以及在數(shù)值基礎(chǔ)上形成的圖、表、聲音、視頻資料等,名稱中一般含有“數(shù)據(jù)集”字樣。又稱為資料集、數(shù)據(jù)集合或資料集合。
數(shù)據(jù)集與數(shù)據(jù)庫不同。數(shù)據(jù)庫樣式的數(shù)據(jù)集一般包括兩部分內(nèi)容:數(shù)據(jù)集和數(shù)據(jù)庫。數(shù)據(jù)集是除了數(shù)據(jù)庫以外的其它信息。主要指數(shù)據(jù)的處理規(guī)則及說明信息而不是具體的數(shù)據(jù)。
上述定義包容了紙媒和電子媒介,包容了各個學科,也包含了未來的形式(聲音、視頻等),并把鑒別這類資料的關(guān)鍵要素“名稱中包含數(shù)據(jù)集“特別提示出來。從而有效地屏蔽了各類無關(guān)資料。當然,這個定義能否適合目前各類數(shù)據(jù)集,還有待實踐檢驗和進一步研究。