張 宏
(洛陽有色金屬加工設(shè)計研究院,河南 洛陽471039)
在洛陽某鋁加工企業(yè)開發(fā)二級計算機(jī)管理系統(tǒng)過程中,數(shù)據(jù)采集時必須要處理超大數(shù)據(jù)文件。實際上在工業(yè)自動化數(shù)據(jù)采集、分析中,數(shù)據(jù)的存儲、提取操作是最為基本的功能,Windows操作系統(tǒng)提供的編程接口Win32 API和微軟公司提供的C++編程類庫MFC均提供有支持文件處理的函數(shù)和類,常用的有Win32 API的CreateFile()、WriteFile()、ReadFile()和MFC提供的CFile類以及最常使用的C Runtime 中的fopen、fread、fwrite等。一般來說,以上這些函數(shù)可以滿足大多數(shù)場合的要求,但是對于某些特殊應(yīng)用領(lǐng)域所需要的動輒幾十GB、幾百GB、乃至幾TB的海量存儲,以通常的文件處理方法進(jìn)行處理顯然是行不通的。本文將針對內(nèi)存映射文件這種大文件的操作的Windows核心編程技術(shù)展開討論。
內(nèi)存映射文件并不是簡單的文件I/O操作,實際用到了Windows的核心編程技術(shù)--內(nèi)存管理。所以,如果想對內(nèi)存映射文件有更深刻的認(rèn)識,必須對Windows操作系統(tǒng)的內(nèi)存管理機(jī)制有清楚的認(rèn)識,內(nèi)存管理的相關(guān)知識非常復(fù)雜,超出了本文的討論范疇,在此就不再贅述,感興趣的讀者可以參閱其他相關(guān)書籍。下面給出使用內(nèi)存映射文件的一般方法。
在操作一個內(nèi)存映射文件對象之前,首先要通過CreateFile()函數(shù)來創(chuàng)建或打開一個磁盤文件內(nèi)核對象,這個對象標(biāo)識了磁盤上將要用作內(nèi)存映射對象的文件。在用 CreateFile()將文件映像在物理存儲器的位置通告給操作系統(tǒng)后,只指定了映像文件的路徑,映像的長度還沒有指定。
圖1
為了指定文件映射對象需要多大的物理存儲空間還需要通過CreateFileMapping()函數(shù)來創(chuàng)建一個文件映射內(nèi)核對象以告訴系統(tǒng)文件的尺寸以及訪問文件的方式。在創(chuàng)建了文件映射對象后,還必須為文件數(shù)據(jù)保留一個地址空間區(qū)域,并把文件數(shù)據(jù)作為映射到該區(qū)域的物理存儲器進(jìn)行提交(見示意圖1)。
由MapViewOfFile()函數(shù)負(fù)責(zé)通過系統(tǒng)的管理而將文件映射對象的全部或部分映射到進(jìn)程地址空間。此時,對內(nèi)存映射文件的使用和處理同通常加載到內(nèi)存中的文件數(shù)據(jù)的處理方式基本一樣。
在完成了對內(nèi)存映射文件的使用時,還要通過一系列的操作完成對其的清除和使用過資源的釋放。這部分相對比較簡單,可以通過UnmapViewOfFile()完成從進(jìn)程的地址空間撤消文件數(shù)據(jù)的映像、通過CloseHandle()關(guān)閉前面創(chuàng)建的文件映射對象和文件對象。
在使用內(nèi)存映射文件時,所使用的API函數(shù)主要就是前面提到過的那幾個函數(shù),下面分別對其進(jìn)行介紹:
HANDLE CreateFile(LPCTSTR lpFileName,
DWORD dwDesiredAccess,
DWORD dwShareMode,
LPSECURITY_ATTRIBUTES lpSecurityAttributes,
DWORD dwCreationDisposition,
DWORD dwFlagsAndAttributes,
HANDLE hTemplateFile);
函數(shù)CreateFile()即使是在普通的文件操作時也經(jīng)常用來創(chuàng)建、打開文件,在處理內(nèi)存映射文件時,該函數(shù)來創(chuàng)建/打開一個文件內(nèi)核對象,并將其句柄返回,在調(diào)用該函數(shù)時需要根據(jù)是否需要數(shù)據(jù)讀寫和文件的共享方式來設(shè)置參數(shù)dwDesiredAccess和dwShareMode,錯誤的參數(shù)設(shè)置將會導(dǎo)致相應(yīng)操作時的失敗。
HANDLE CreateFileMapping(HANDLE hFile,
LPSECURITY_ATTRIBUTES lpFileMapping
Attributes,
DWORD flProtect,
DWORD dwMaximumSizeHigh,
DWORD dwMaximumSizeLow,
LPCTSTR lpName);
CreateFileMapping()函數(shù)創(chuàng)建一個文件映射內(nèi)核對象,通過參數(shù)hFile指定待映射到進(jìn)程地址空間的文件句柄(該句柄由 CreateFile()函數(shù)的返回值獲取)。由于內(nèi)存映射文件的物理存儲器實際是存儲于磁盤上的一個文件,而不是從系統(tǒng)的頁文件中分配的內(nèi)存,所以系統(tǒng)不會主動為其保留地址空間區(qū)域,也不會自動將文件的存儲空間映射到該區(qū)域,為了讓系統(tǒng)能夠確定對頁面采取何種保護(hù)屬性,需要通過參數(shù)flProtect來設(shè)定,保護(hù)屬性PAGE_READONLY、PAGE_READWRITE和PAGE_WRITECOPY分別表示文件映射對象被映射后,可以讀取、讀寫文件數(shù)據(jù)。在使用PAGE_READONLY時,必須確保CreateFile()采用的是GENERIC_READ參數(shù);PAGE_READWRITE 則要求CreateFile()采用的是GENERIC_READ|GENERIC_WRITE參數(shù);至于屬性PAGE_WRITECOPY則只需要確保 CreateFile()采用了GENERIC_READ和GENERIC_WRITE其中之一即可。DWORD型的參數(shù) dwMaximumSizeHigh和dwMaximumSizeLow也是相當(dāng)重要的,指定了文件的最大字節(jié)數(shù),由于這兩個參數(shù)共64位,因此所支持的最大文件長度為16EB,幾乎可以滿足任何大數(shù)據(jù)量文件處理場合的要求。
LPVOID MapViewOfFile(HANDLE hFile Mapping
Object,
DWORD dwDesiredAccess,
DWORD dwFileOffsetHigh,
DWORD dwFileOffsetLow,
DWORD dwNumberOfBytesToMap);
MapViewOfFile()函數(shù)負(fù)責(zé)把文件數(shù)據(jù)映射到進(jìn)程的地址空間,參數(shù)hFileMappingObject為 CreateFile
Mapping()返回的文件映像對象句柄。參數(shù)dwDesir-edAccess則再次指定了對文件數(shù)據(jù)的訪問方式,而且同樣要與 CreateFileMapping()函數(shù)所設(shè)置的保護(hù)屬性相匹配。雖然這里一再對保護(hù)屬性進(jìn)行重復(fù)設(shè)置看似多余,但卻可以使應(yīng)用程序能更多的對數(shù)據(jù)的保護(hù)屬性實行有效控制。MapViewOfFile()函數(shù)允許全部或部分映射文件,在映射時,需要指定數(shù)據(jù)文件的偏移地址以及待映射的長度。其中,文件的偏移地址由DWORD型的參數(shù)dwFileOffsetHigh和dwFileOffsetLow組成的64位值來指定,而且必須是操作系統(tǒng)的分配粒度的整數(shù)倍,對于Windows操作系統(tǒng),分配粒度固定為64KB。當(dāng)然,也可以通過如下代碼來動態(tài)獲取當(dāng)前操作系統(tǒng)的分配粒度:
SYSTEM_INFO sinf;
GetSystemInfo(&sinf);
DWORD dwAllocationGranularity=sinf.dwAllocati
-onGranularity;
參數(shù)dwNumberOfBytesToMap指定了數(shù)據(jù)文件的映射長度,這里需要特別指出的是,對于Windows 9x操作系統(tǒng),如果MapViewOfFile()無法找到足夠大的區(qū)域來存放整個文件映射對象,將返回空值(NULL);但是在Windows 2000下,MapViewOfFile()只需要為必要的視圖找到足夠大的一個區(qū)域即可,而無須考慮整個文件映射對象的大小。
在完成對映射到進(jìn)程地址空間區(qū)域的文件處理后,需要通過函數(shù)UnmapViewOfFile()完成對文件數(shù)據(jù)映像的釋放,該函數(shù)原型聲明如下:
BOOL UnmapViewOfFile(LPCVOID lpBaseAddress);
唯一的參數(shù)lpBaseAddress指定了返回區(qū)域的基地址,必須將其設(shè)定為MapViewOfFile()的返回值。在使用了函數(shù) MapViewOfFile()之后,必須要有對應(yīng)的UnmapViewOfFile()調(diào)用,否則在進(jìn)程終止之前,保留的區(qū)域?qū)o法釋放。除此之外,前面還曾由CreateFile()和CreateFileMapping()函數(shù)創(chuàng)建過文件內(nèi)核對象和文件映射內(nèi)核對象,在進(jìn)程終止之前有必要通過 CloseHandle()將其釋放,否則將會出現(xiàn)資源泄漏的問題。
除了前面這些必須的API函數(shù)之外,在使用內(nèi)存映射文件時還要根據(jù)情況來選用其他一些輔助函數(shù)。例如,在使用內(nèi)存映射文件時,為了提高速度,系統(tǒng)將文件的數(shù)據(jù)頁面進(jìn)行高速緩存,而且在處理文件映射視圖時不立即更新文件的磁盤映像。為解決這個問題可以考慮使用FlushViewOfFile()函數(shù),該函數(shù)強(qiáng)制系統(tǒng)將修改過的數(shù)據(jù)部分或全部重新寫入磁盤映像,從而可以確保所有的數(shù)據(jù)更新能及時保存到磁盤。
下面結(jié)合一個具體的實例來進(jìn)一步講述內(nèi)存映射文件的使用方法。該實例從數(shù)據(jù)采集卡端口接收數(shù)據(jù),并實時將其存放于磁盤,由于數(shù)據(jù)量大(幾十GB),在此選用內(nèi)存映射文件進(jìn)行處理。該線程自程序運行時啟動,當(dāng)端口有數(shù)據(jù)到達(dá)時將會發(fā)出事件 hEvent[0],WaitForMultipleObjects()函數(shù)等待到該事件發(fā)生后將接收到的數(shù)據(jù)保存到磁盤,如果終止接收將發(fā)出事件 hEvent[1],事件處理過程將負(fù)責(zé)完成資源的釋放和文件的關(guān)閉等工作。下面給出此線程處理函數(shù)的示意圖2。
圖2
在終止事件觸發(fā)處理過程中如果只簡單的執(zhí)行UnmapViewOfFile()和CloseHandle()函數(shù)將無法正確標(biāo)識文件的實際大小,即如果開辟的內(nèi)存映射文件為30GB,而接收的數(shù)據(jù)只有14GB,那么上述程序執(zhí)行完后,保存的文件長度仍是30GB。也就是說,在處理完成后還要再次通過內(nèi)存映射文件的形式將文件恢復(fù)到實際大小(見示意圖3)。
圖3
經(jīng)實際測試,內(nèi)存映射文件在處理工業(yè)自動化數(shù)據(jù)通訊中超大數(shù)據(jù)文件時表現(xiàn)出了良好的性能,比通常使用MFC CFile類和ReadFile()和WriteFile()等API函數(shù)的文件處理方式具有明顯的優(yōu)勢。
[1] 《Windows 高級編程指南》 [美]Jeffery Richter 著
[2]《Win32 多線程程序設(shè)計》 [美]Jim Beveridge & Robert Wiener 著
[3]《基于FPGA的高速數(shù)據(jù)存儲系統(tǒng)》 中國科學(xué)院研究生院(西安光學(xué)精密機(jī)械研究所)
[4]《實時高速數(shù)據(jù)采集與存儲系統(tǒng)的一種實現(xiàn)方法》 微計算機(jī)信息 作者:沈羽 齊偉民 張毅