續(xù)冉,趙月紅*,韓清珍,溫浩
1. 中國科學(xué)院過程工程研究所,環(huán)境技術(shù)與工程研究部,多相復(fù)雜系統(tǒng)國家重點實驗室,北京 100190
2. 中國科學(xué)院大學(xué),北京 100049
數(shù)據(jù)庫(集)基本信息簡介
數(shù)據(jù)庫(集)名稱 商品化合物數(shù)據(jù)庫 數(shù)據(jù)作者 續(xù)冉、趙月紅、韓清珍、溫浩 數(shù)據(jù)通信作者 趙月紅(yhzhao@ipe.ac.cn) 數(shù)據(jù)時間范圍 2017–2019年 數(shù)據(jù)量 74 KB 數(shù)據(jù)格式 *.xls 數(shù)據(jù)服務(wù)系統(tǒng)網(wǎng)址 http://www.sciencedb.cn/dataSet/handle/914(89個樣例數(shù)據(jù)集) 基金項目 國家科技基礎(chǔ)條件平臺項目(DKA2017-12-02-05);“十三五”院信息化專項(XXH1350303-103)。 數(shù)據(jù)庫(集)組成 中國、美國、歐盟現(xiàn)有化學(xué)物質(zhì)名錄中的34 177種化合物,包含標(biāo)識信息(CAS登錄號、中英文名稱、所屬名錄、化學(xué)式、摩爾質(zhì)量、SMILES碼)、理化性質(zhì)數(shù)據(jù)(熔點Tm、正常沸點Tb、蒸汽壓P、密度ρ、表面張力σ、黏度η)和萃取性能(分配系數(shù)mij、選擇性βij、溶解能力SPij、溶劑損失SLi)。
目前許多國家和地區(qū)都編制了本國的化學(xué)物質(zhì)管理法規(guī),要求對生產(chǎn)、加工、銷售、使用或從國外進口的化學(xué)物質(zhì)進行注冊/通報。我國自2003 年開始建立并執(zhí)行新化學(xué)物質(zhì)登記制度[1-2],根據(jù)是否列入目錄,將化學(xué)物質(zhì)分為現(xiàn)有化學(xué)物質(zhì)和新化學(xué)物質(zhì)?,F(xiàn)有化學(xué)物質(zhì)的安全、環(huán)境和健康風(fēng)險已知,通過有效的技術(shù)手段和監(jiān)管措施可防范可能出現(xiàn)的危害,且可根據(jù)CAS 登錄號獲得化合物的化學(xué)物質(zhì)安全技術(shù)說明書(Material safety data sheet,MSDS),可為安全生產(chǎn)/儲存/運輸/使用/處置、泄露應(yīng)急處理、勞動保護和救護措施等提供指導(dǎo)。
為了便于利用名錄中的化合物,中國科學(xué)院過程工程研究所基于中國、美國和歐盟的現(xiàn)有化學(xué)物質(zhì)名錄,建立了商品化合物數(shù)據(jù)庫(Existing Commercial Compounds Database,ECCD)。ECCD 中除了包含名錄中化合物的基本信息外,還根據(jù)CAS 登錄號添加了表征化合物結(jié)構(gòu)信息的mol 文件。由于缺乏實驗數(shù)據(jù),無法滿足化合物篩選數(shù)據(jù)一致性和完備性的要求,我們利用化合物分子結(jié)構(gòu)信息,采用基團貢獻法和基團匹配工具CACTVS 開發(fā)了化合物物性估算程序,進行物性估算,用于擴充化合物的物性信息,包括熔點、正常沸點、密度、黏度等,作為功能化合物篩選的基礎(chǔ)數(shù)據(jù)集。對于有特定功能需求的化合物篩選,可以在基礎(chǔ)數(shù)據(jù)集的基礎(chǔ)上,增加專題功能數(shù)據(jù)。如,為了滿足萃取劑篩選的需求,實現(xiàn)煤化工廢水中多種污染物的萃取,我們在ECCD 庫中補充了針對廢水中12種典型污染物的萃取性能數(shù)據(jù),并進一步開發(fā)了基于多物性聯(lián)合檢索的高通量篩選方法。由于ECCD中化合物環(huán)境健康風(fēng)險已知,有可能進一步發(fā)現(xiàn)“老”化合物的“新”功能,有利于提高功能化合物開發(fā)效率,降低經(jīng)濟和時間成本。
目前,世界主要國家和地區(qū)的化學(xué)物質(zhì)名錄有:中國現(xiàn)有化學(xué)物質(zhì)名錄(Inventory of existing chemical substances,IECSC)、美國有毒物質(zhì)控制名錄(The toxic substances control act,TSCA)、歐洲現(xiàn)有商業(yè)化學(xué)物質(zhì)名錄(European inventory of existing commercial chemical substances,EINECS)、菲律賓化學(xué)品和化學(xué)物質(zhì)名錄(Philippine inventory of chemicals and chemical substances,PICCS)、韓國現(xiàn)有化學(xué)物質(zhì)清單(Korea existing chemical list,KECI)、加拿大國內(nèi)物質(zhì)清單(Domestic substances list,DSL)、日本現(xiàn)有和新化學(xué)物質(zhì)(Existing and new chemical substances,ENCS)、澳大利亞化學(xué)物質(zhì)名錄(Australia inventory of chemical substances,AICS)等[3-4]。
收錄化合物數(shù)量最多的6 個名錄中化合物的分布如圖1 所示,其中文恩圖由Tbtools[5]繪制??梢钥闯鰵W洲現(xiàn)有商業(yè)化學(xué)品名錄(EINECS)[6]、美國有毒物質(zhì)控制名錄(TSCA)[7]和中國現(xiàn)有化學(xué)物質(zhì)名錄(IECSC)[8-9]基本可以包含世界化學(xué)品名錄中的大部分化合物。因此,本文以這三個名錄為基礎(chǔ)建立ECCD 數(shù)據(jù)庫。
圖1 世界化學(xué)品名錄中化合物的數(shù)量分布圖
3 個名錄中化學(xué)物質(zhì)的數(shù)量如表1 所示,總共有10 萬多種化學(xué)物質(zhì)。名錄中的化學(xué)物質(zhì)一般包含CAS 號、流水號、物質(zhì)名稱和化學(xué)分子式等基本信息。為了擴充數(shù)據(jù)庫信息,以支持功能化合物篩選,我們以CAS 號為依據(jù)從中國科學(xué)院上海有機化學(xué)研究所獲取了化合物的mol 文件。排除重復(fù)的化合物后,ECCD 中共有34 177 種含分子結(jié)構(gòu)信息的化合物。
表1 3 個名錄中的化合物情況
為了擴展數(shù)據(jù)庫的應(yīng)用范圍,ECCD 添加了化合物的物性數(shù)據(jù),包括摩爾質(zhì)量M、熔點Tm、正常沸點Tb、蒸汽壓P、密度ρ、表面張力σ 和粘度η 等。由于實驗數(shù)據(jù)完備性不足,ECCD 中的物性數(shù)據(jù)采用基團貢獻法進行估算。現(xiàn)有物性計算方法中,基團貢獻法具有適用范圍廣、計算簡單、估算精度誤差范圍可接受等優(yōu)點。表2 總結(jié)了本數(shù)據(jù)庫中采用的物性計算方法[10-12],包括C-G 法、Joback 法、GCVOL 法和CSGC 法。
表2 物性數(shù)據(jù)的計算方法
物性數(shù)據(jù) 計算方法 表面張力σ CSGC_ST1 黏度η CSGC_VK
物性估算程序包括3 個步驟:首先利用Open Babel 2.3.2 軟件將化合物結(jié)構(gòu)mol 文件轉(zhuǎn)化成SMILES 碼;根據(jù)SMARTS 碼的編碼規(guī)則,對不同基團貢獻法中的基團進行表達。然后利用CACTVS化學(xué)工具庫[13]進行SMILES 碼和SMARTS 碼的匹配,將分子結(jié)構(gòu)拆解成基團。最后采用相應(yīng)的基團貢獻法估算化合物的性質(zhì)。物性估算程序采用Tcl 語言(Tool Command Language)[14]編寫,可以實現(xiàn)不同物性估算任務(wù)的批處理作業(yè),以及程序與外部數(shù)據(jù)的連接。
根據(jù)不同的化合物篩選需求,用戶可以在現(xiàn)有ECCD 數(shù)據(jù)庫上的基礎(chǔ)上添加專用的物性數(shù)據(jù)和功能數(shù)據(jù),實現(xiàn)相應(yīng)的功能化合物的篩選。例如,為了將ECCD 數(shù)據(jù)庫應(yīng)用于煤化工廢水中多種污染物脫除的萃取劑設(shè)計,我們在庫中添加了萃取性能數(shù)據(jù)??紤]到廢水中污染物濃度很低,萃取操作液液相平衡計算采用了無限稀活度系數(shù)。萃取劑對12 種典型污染物(苯酚、甲基酚、二甲基酚、苯二酚、苯三酚、聯(lián)苯、三聯(lián)苯、萘、茚、吡啶、吲哚、喹啉)的萃取性能的計算方法如下:
為了方便使用ECCD 進行萃取劑篩選,以SQL Server 2008 作為數(shù)據(jù)庫管理系統(tǒng),在Windows 7環(huán)境下,利用C#語言和Visual Studio 2010 開發(fā)了ECCD 的圖形用戶界面。ECCD 的主界面和檢索界面如圖2 和圖3 所示。
圖2 現(xiàn)有商品化合物數(shù)據(jù)庫的登錄界面
圖3 現(xiàn)有商品化合物數(shù)據(jù)庫檢索欄
ECCD 采用CAS 號作為唯一標(biāo)識字段,化合物的基本信息、物性數(shù)據(jù)和功能數(shù)據(jù)均通過CAS 號集成到數(shù)據(jù)庫中。針對不同功能化合物篩選擴充的物性數(shù)據(jù)表也可以通過CAS 登錄號集成到ECCD中。表3–5 分別是化合物的標(biāo)識數(shù)據(jù)表、理化性質(zhì)數(shù)據(jù)表和萃取性能數(shù)據(jù)表。其中各個表包含的信息為:(1)標(biāo)識數(shù)據(jù):CAS 登錄號、中文名稱、英文名稱、所屬名錄、分子式、SMILES 碼、摩爾質(zhì)量;(2)理化性質(zhì)數(shù)據(jù):正常沸點、熔點、密度、蒸汽壓、黏度、表面張力;(3)萃取性能數(shù)據(jù):分配系數(shù)、選擇性、溶解能力、溶劑損失。
表3 ECCD 的化合物標(biāo)識數(shù)據(jù)表
字段 數(shù)據(jù)類型 含義 說明 Name_EN nvarchar(255) 英文名稱 IUPAC 命名 Inventory nvarchar(255) 所屬名錄 ? MF nvarchar(255) 化學(xué)式 ? smiles nvarchar(255) SMILES 碼 ? M float 摩爾質(zhì)量 單位:g?mol?1
表4 ECCD 的理化性質(zhì)數(shù)據(jù)表
表5 ECCD 的相間行為參數(shù)數(shù)據(jù)表
分子結(jié)構(gòu)和基團的表達以及基團匹配順序?qū)Σ鸾饨Y(jié)果的正確性產(chǎn)生影響,本庫通過對分子mol文件進行顯氫處理,以避免SMILES 碼因隱氫引起的拆解錯誤。此外,修改了部分基團的SMARTS碼和基團匹配順序,以保證基團匹配結(jié)果的正確性。
無限稀釋活度系數(shù)采用Dortmund UNIFAC 模型[15-16]計算,它改進了活度系數(shù)組合項和剩余項,能更好地描述稀釋區(qū)的真實行為。關(guān)聯(lián)模型參數(shù)的數(shù)據(jù)集來自多特蒙德數(shù)據(jù)庫(Dortmund Data Bank,DDB),關(guān)聯(lián)中不僅使用了汽–液平衡數(shù)據(jù),還使用了超額焓、超額等壓熱容、液–液平衡、共沸、固–液平衡數(shù)據(jù)、無限稀釋活度系數(shù)數(shù)據(jù),與原始UNIFAC 模型相比,Dortmund UNIFAC 模型估算精度更高,估算范圍更廣,預(yù)測無限稀釋活度系數(shù)的誤差可比原始UNIFAC 模型降低40%–50%[17]。
ECCD 數(shù)據(jù)已經(jīng)開發(fā)完成,目前僅限于內(nèi)部使用,已具備在線數(shù)據(jù)查詢和數(shù)據(jù)可視化能力。ECCD數(shù)據(jù)庫包括兩個賬戶,管理員賬戶和普通用戶賬戶。管理員可以實現(xiàn)數(shù)據(jù)的檢索、導(dǎo)入、導(dǎo)出和刪除。普通用戶可以進行數(shù)據(jù)的檢索和導(dǎo)出。圖4 是檢索后的結(jié)果界面。點擊圖中的“查看”,可以得到基本信息、理化性質(zhì)和萃取性能。用戶可以設(shè)定物性約束范圍進行檢索,批量下載篩選后的結(jié)果。本數(shù)據(jù)庫還可以根據(jù)不同的體系添加相應(yīng)的物性數(shù)據(jù),更新數(shù)據(jù)集,擴展其應(yīng)用范圍。如需深入 了 解 ECCD 包 含 數(shù) 據(jù) 內(nèi) 容 , 樣 例 數(shù) 據(jù) 集 可 以 從 Science Data Bank(http://www.sciencedb.cn/dataSet/handle/914)下載(包含89 組樣例數(shù)據(jù))。需要指出的是ECCD 系統(tǒng)尚未對外提供服務(wù),正式線上服務(wù)工作正在準(zhǔn)備中。如需使用本系統(tǒng),可聯(lián)系作者。
數(shù)據(jù)作者分工職責(zé)
續(xù)冉(1990—)女,山東臨沂人,博士研究生,研究方向為計算化學(xué)與化工。主要承擔(dān)工作:商品化合物數(shù)據(jù)庫的創(chuàng)建、物性數(shù)據(jù)的計算、更新和維護。
趙月紅(1973—),男,內(nèi)蒙古包頭人,博士,副研究員,研究方向為計算化學(xué)與化工。主要承擔(dān)工作:商品化合物數(shù)據(jù)庫的創(chuàng)建、更新和維護。
韓清珍(1979—)女,山東臨沂人,博士,副研究員,研究方向為計算化學(xué)與化工。主要承擔(dān)工作:商品化合物數(shù)據(jù)庫的維護。
溫浩(1957—),男,北京人,博士,研究員,研究方向為計算化學(xué)與化工。主要承擔(dān)工作:商品化合物數(shù)據(jù)庫的設(shè)計。