陽小珊,朱立谷,張猛,張偉
(1.中國傳媒大學(xué) 理工學(xué)部計(jì)算機(jī)學(xué)院,北京 100024;2.中國電子科技集團(tuán)公司第十五研究所 國家電子計(jì)算機(jī)質(zhì)量監(jiān)督檢驗(yàn)中心,北京 100083;3.華中科技大學(xué) 武漢光電國家實(shí)驗(yàn)室,湖北武漢 430074;4.中國大唐集團(tuán)科學(xué)技術(shù)研究院有限公司,北京 100040)
隨著閃存技術(shù)的快速發(fā)展和存儲(chǔ)密度的提升,目前NAND閃存已被廣泛用于各行業(yè)的高性能數(shù)據(jù)存儲(chǔ)。NAND閃存以每單元存儲(chǔ)的比特?cái)?shù)分為多種類型:每單元存儲(chǔ)1比特?cái)?shù)據(jù)的單層單元(Single-Level Cell,SLC),每單元存儲(chǔ)2比特?cái)?shù)據(jù)的雙層單元(Multi-Level Cell,MLC),每單元存儲(chǔ)3比特?cái)?shù)據(jù)的三層單元(Triple-Level Cell,TLC)。目前,NAND閃存的結(jié)構(gòu)也由傳統(tǒng)的平面結(jié)構(gòu)發(fā)展為三維結(jié)構(gòu),存儲(chǔ)密度進(jìn)一步增加,但是在數(shù)據(jù)編程過程中由于相鄰單元的耦合干擾而發(fā)生比特錯(cuò)誤,導(dǎo)致數(shù)據(jù)存儲(chǔ)的可靠性下降。
編程干擾錯(cuò)誤是3D-TLC NAND閃存主要錯(cuò)誤之一,設(shè)計(jì)有效的錯(cuò)誤容忍和數(shù)據(jù)管理方案是解決編程干擾錯(cuò)誤提高數(shù)據(jù)存儲(chǔ)可靠性的有力手段。然而,設(shè)計(jì)有效的錯(cuò)誤容忍和數(shù)據(jù)管理方案需要清楚地了解3D-TLC NAND 閃存編程干擾具體的錯(cuò)誤模式。已有的工作[1][2][3]主要研究平面NAND閃存的錯(cuò)誤模式,沒有系統(tǒng)的研究三維NAND閃存的具體編程干擾錯(cuò)誤模式,文獻(xiàn)[4]也只是研究了三維MLC NAND閃存錯(cuò)誤模式,沒有具體探究三維TLC NAND 閃存的錯(cuò)誤特征。
因此,本文以實(shí)際的FPGA測(cè)試平臺(tái)為基礎(chǔ),對(duì)3D-TLC NAND閃存的編程干擾錯(cuò)誤進(jìn)行了測(cè)試,并對(duì)測(cè)試結(jié)果進(jìn)行了分析,研究了編程干擾具體的出錯(cuò)模式,包括編程干擾錯(cuò)誤狀態(tài)相關(guān)性和編程干擾比特錯(cuò)誤特性研究。這些編程干擾錯(cuò)誤模式的研究結(jié)果能夠?yàn)樵O(shè)計(jì)有效的錯(cuò)誤容忍算法和制定高效的數(shù)據(jù)管理方案以解決編程干擾錯(cuò)誤帶來的數(shù)據(jù)存儲(chǔ)可靠性問題提供有利的指導(dǎo)和幫助。
在閃存芯片基本存儲(chǔ)單元電子注入/移出過程中,場(chǎng)效應(yīng)管被加入較高的偏置電壓以獲得讓電子發(fā)生隧穿效應(yīng)的強(qiáng)電場(chǎng)。這會(huì)影響基本存儲(chǔ)單元中隧道氧化層的絕緣性,即基本存儲(chǔ)單元遭受損耗。隨著對(duì)一個(gè)基本存儲(chǔ)單元數(shù)據(jù)的反復(fù)擦寫,損耗逐漸累積,隧道氧化層的絕緣性逐漸變差,導(dǎo)致出現(xiàn)電荷捕獲(charge trapping)現(xiàn)象,改變存儲(chǔ)單元的閾值電壓。而閃存在數(shù)據(jù)讀取時(shí)就是依靠檢測(cè)存儲(chǔ)單元的閾值電壓來分辨其中存儲(chǔ)的數(shù)字信息[5]。因此,隨著基本單元被擦寫次數(shù)的增加,逐漸累積的損耗最終導(dǎo)致存儲(chǔ)數(shù)據(jù)在讀取時(shí)發(fā)生錯(cuò)誤。這種數(shù)據(jù)錯(cuò)誤被稱為原生錯(cuò)誤(raw error)。當(dāng)閃存芯片的原生錯(cuò)誤超過存儲(chǔ)器對(duì)錯(cuò)誤容忍的極限時(shí),閃存芯片到達(dá)使用壽命。另外,當(dāng)對(duì)一個(gè)基本存儲(chǔ)單元進(jìn)行擦寫,即其閾值電壓發(fā)生改變時(shí),相鄰存儲(chǔ)單元的閾值電壓會(huì)通過單元間寄生耦合電容,發(fā)生改變,導(dǎo)致在數(shù)據(jù)讀取時(shí)出現(xiàn)原生錯(cuò)誤[6]。
TLC NAND的每單元存儲(chǔ)3比特?cái)?shù)據(jù),左比特被稱為最高位(Most Significant Bit,MSB),中間比特被稱為中間位(Central Significant Bit,CSB),右比特被稱為最低位(Least Significant Bit,LSB)。閃存以頁為單位進(jìn)行比特?cái)?shù)據(jù)編程,利用one-shot編程方法分別將MSB、CSB和LSB一次性寫入三個(gè)不同的邏輯頁,即MSB頁、CSB頁和LSB頁,這三個(gè)頁位于相同的字線。當(dāng)對(duì)某一個(gè)字線上的三個(gè)頁進(jìn)行編程時(shí),由于寄生電容的耦合效應(yīng),編程過程會(huì)對(duì)臨近的字線上已經(jīng)編程完的三個(gè)頁造成干擾,使得臨近字線上閃存頁單元捕獲額外電子引起閾值電壓發(fā)生漂移,容易導(dǎo)致比特錯(cuò)誤,如圖1所示。
為了能發(fā)現(xiàn)編程干擾錯(cuò)誤的現(xiàn)象,本文以實(shí)際的FPGA測(cè)試平臺(tái)為基礎(chǔ)對(duì)3D-TLC NAND閃存的編程干擾錯(cuò)誤的出錯(cuò)模式進(jìn)行了測(cè)試研究。通過對(duì)被測(cè)NAND閃存進(jìn)行多次循環(huán)擦寫,記錄每次擦寫各比特位的變化,來分析編程干擾錯(cuò)誤的隨擦寫次數(shù)變化的情況。本次實(shí)驗(yàn)共進(jìn)行了5000次的循環(huán)擦寫,對(duì)測(cè)試結(jié)果從編程干擾錯(cuò)誤狀態(tài)相關(guān)性和編程干擾錯(cuò)誤比特錯(cuò)誤特性進(jìn)行統(tǒng)計(jì)分析的結(jié)果如下內(nèi)容。
首先對(duì)3D-TLC NAND閃存的編程干擾錯(cuò)誤狀態(tài)相關(guān)性進(jìn)行了分析和研究,統(tǒng)計(jì)了不同編程干擾狀態(tài)隨著擦寫循環(huán)次數(shù)變化的轉(zhuǎn)化比例,結(jié)果如圖2中的(a)(b)(c)(d)所示;實(shí)驗(yàn)結(jié)果顯示,3D-TLC NAND閃存不同的單元狀態(tài)會(huì)經(jīng)歷不同程度的編程干擾錯(cuò)誤,編程干擾錯(cuò)誤狀態(tài)相關(guān)性與擦寫循環(huán)次數(shù)有關(guān),隨著擦寫循環(huán)次數(shù)的增加而發(fā)生波動(dòng)。由編程干擾錯(cuò)誤產(chǎn)生的原理可知,編程干擾主要引起3D-TLC NAND閃存單元的閾值電壓窗口向右轉(zhuǎn)移,由電荷數(shù)量少的閾值電壓窗口向電荷數(shù)量多的閾值電壓窗口漂移,而且閾值電壓窗口轉(zhuǎn)移容易發(fā)生在兩個(gè)相鄰的狀態(tài)之間,跨越一個(gè)或多個(gè)狀態(tài)比較困難。
圖2(a)顯示,狀態(tài)001到狀態(tài)000的轉(zhuǎn)移比例高于狀態(tài)000到狀態(tài)010和狀態(tài)001到狀態(tài)000的轉(zhuǎn)移比例,因?yàn)闋顟B(tài)001具有相對(duì)較少的電荷數(shù)量,單元內(nèi)部電場(chǎng)強(qiáng)度相對(duì)較弱,較容易捕獲額外電子而轉(zhuǎn)移到狀態(tài)000,狀態(tài)000狀態(tài)100較為困難,因?yàn)閱卧东@足夠多的電子才能跨越中間狀態(tài)010和狀態(tài)110轉(zhuǎn)移到狀態(tài)100,這種狀態(tài)轉(zhuǎn)移比例非常低,比例都在10%以下,而從狀態(tài)000轉(zhuǎn)移到狀態(tài)010的比例也都在10%左右波動(dòng),隨著擦寫循環(huán)數(shù)量的增加,錯(cuò)誤比例越來越低。在擦寫循環(huán)數(shù)量的初期,狀態(tài)001到狀態(tài)000的比例相對(duì)較高,錯(cuò)誤比例在30%左右,但是隨著擦寫數(shù)量的增加,錯(cuò)誤比例下降。由于數(shù)據(jù)是從第一個(gè)塊的第一個(gè)頁開始寫,到指定的數(shù)據(jù)塊的最后一個(gè)頁結(jié)束,然后才開始進(jìn)行數(shù)據(jù)讀取操作,中間會(huì)經(jīng)歷數(shù)據(jù)保存錯(cuò)誤,保存錯(cuò)誤引起狀態(tài)000轉(zhuǎn)移到狀態(tài)001,因此,錯(cuò)誤比例隨著擦寫循環(huán)數(shù)量的增加發(fā)生抖動(dòng),當(dāng)擦寫數(shù)量達(dá)到2000時(shí),保存錯(cuò)誤引起的狀態(tài)轉(zhuǎn)移比例達(dá)到80%,之后隨著擦寫數(shù)量的繼續(xù)增加,錯(cuò)誤比例呈下降趨勢(shì)。
(a)
(b)
(c)
圖2(b)顯示了狀態(tài)001轉(zhuǎn)移到狀態(tài)011、狀態(tài)010轉(zhuǎn)移到狀態(tài)000和狀態(tài)110以及狀態(tài)001轉(zhuǎn)移到狀態(tài)000的錯(cuò)誤比例隨著擦寫循環(huán)數(shù)量增加的變化情況。這四種錯(cuò)誤狀態(tài)轉(zhuǎn)移比例隨著擦寫循環(huán)數(shù)量的增加呈現(xiàn)不穩(wěn)定的趨勢(shì),在擦寫循環(huán)數(shù)量小于1000時(shí),四種狀態(tài)轉(zhuǎn)移比例相對(duì)較高,但是隨著擦寫數(shù)量的增加,錯(cuò)誤比例波動(dòng)性下降。對(duì)于狀態(tài)010轉(zhuǎn)移到狀態(tài)110的比例,在擦寫循環(huán)300次左右,錯(cuò)誤比例能夠達(dá)到90%,之后錯(cuò)誤比例急劇下降,狀態(tài)001轉(zhuǎn)移到狀態(tài)000的比例從最初的48%開始下降。狀態(tài)010轉(zhuǎn)移到狀態(tài)110和狀態(tài)001轉(zhuǎn)移到狀態(tài)000的比例大都高于狀態(tài)001轉(zhuǎn)移到狀態(tài)011和狀態(tài)010轉(zhuǎn)移到狀態(tài)000的比例。因?yàn)闋顟B(tài)001轉(zhuǎn)移到狀態(tài)011和狀態(tài)010轉(zhuǎn)移到狀態(tài)000是由于數(shù)據(jù)保存錯(cuò)誤引起,而且由高狀態(tài)發(fā)生電荷泄露而變成低狀態(tài),較為困難,高狀態(tài)電荷數(shù)量較多,需要泄露足夠多的電子才能轉(zhuǎn)移到低狀態(tài),而這需要較長(zhǎng)的保存周期。
圖2(c)顯示了狀態(tài)011轉(zhuǎn)移到狀態(tài)111、狀態(tài)100轉(zhuǎn)移到狀態(tài)101、狀態(tài)100轉(zhuǎn)移到狀態(tài)110、狀態(tài)101轉(zhuǎn)移到狀態(tài)100的錯(cuò)誤比例隨著擦寫循環(huán)增加的變化情況。狀態(tài)011轉(zhuǎn)移到狀態(tài)111、狀態(tài)100轉(zhuǎn)移到狀態(tài)110以及狀態(tài)101轉(zhuǎn)移到狀態(tài)100的錯(cuò)誤比例隨著擦寫循環(huán)的變化呈現(xiàn)穩(wěn)定的趨勢(shì),而且錯(cuò)誤比例大都低于5%,這三種狀態(tài)轉(zhuǎn)換都是由于數(shù)據(jù)保存錯(cuò)誤引起,由于保存時(shí)間較短,保存錯(cuò)誤的比例低于編程干擾錯(cuò)誤,編程干擾錯(cuò)誤此時(shí)是主要錯(cuò)誤。狀態(tài)100轉(zhuǎn)移到狀態(tài)101是由于編程干擾錯(cuò)誤造成,錯(cuò)誤比例明顯高于其他三種狀態(tài)轉(zhuǎn)化,且隨著擦寫數(shù)量的增加整體呈下降趨勢(shì)。
圖2(d)顯示狀態(tài)110到狀態(tài)010、狀態(tài)110到狀態(tài)100、狀態(tài)111到狀態(tài)011和狀態(tài)001的錯(cuò)誤比例隨擦寫循環(huán)數(shù)量的變化趨勢(shì),狀態(tài)110到狀態(tài)010、狀態(tài)110到狀態(tài)100以及狀態(tài)111到狀態(tài)001的錯(cuò)誤比例非常低,且穩(wěn)定在5%附近,因?yàn)榫幊谈蓴_引起閾值電壓窗口跨越兩個(gè)狀態(tài)較為困難。編程干擾引起狀態(tài)111轉(zhuǎn)移到狀態(tài)011的錯(cuò)誤比例較高,且隨著擦寫循環(huán)數(shù)量的增加逐漸呈快速增長(zhǎng)趨勢(shì),從前期的15%左右增加到75%,因?yàn)闋顟B(tài)111是擦除狀態(tài),該狀態(tài)具有較少的電子,內(nèi)電場(chǎng)較弱,較容易從外界捕獲額外電子而使其轉(zhuǎn)移到狀態(tài)011。
綜上可見,3D-TLC NAND閃存的編程干擾錯(cuò)誤使得存儲(chǔ)單元狀態(tài)轉(zhuǎn)移比例具有不平衡的關(guān)系,相鄰的存儲(chǔ)單元狀態(tài)較容易發(fā)生轉(zhuǎn)移,跨越中間狀態(tài)轉(zhuǎn)移到其他狀態(tài)需要捕獲較多的額外電子較為困難。另外,編程干擾使得存儲(chǔ)單元從低存儲(chǔ)單元狀態(tài)到高存儲(chǔ)單元狀態(tài)發(fā)生轉(zhuǎn)移,具有較少電子的存儲(chǔ)單元狀態(tài)較為容易向具有較多電子數(shù)量的存儲(chǔ)單元狀態(tài)轉(zhuǎn)移。
本文也研究了3D-TLC NAND閃存編程干擾比特錯(cuò)誤特性,統(tǒng)計(jì)了MSB頁、CSB和LSB頁中比特0翻轉(zhuǎn)成比特1或比特1翻轉(zhuǎn)成比特0的錯(cuò)誤比例,以及對(duì)應(yīng)的比特錯(cuò)誤率分布,分別顯示在圖3和圖4。
圖3 MSB頁、CSB頁和LSB頁的比特錯(cuò)誤比例
圖4 MSB頁、CSB頁和LSB頁的比特錯(cuò)誤率分布
圖3給出了MSB頁、CSB頁和LSB頁的比特錯(cuò)誤比例隨擦寫循環(huán)數(shù)量變化情況。圖中的0>>1 表示比特0翻轉(zhuǎn)成比特1,相反地,1>>0 表示比特1翻轉(zhuǎn)成比特0。MSB和CSB頁中的1>>0的錯(cuò)誤比例以及LSB頁中的0>>1的錯(cuò)誤比例明顯高于MSB和CSB頁中的0>>1以及LSB頁中的1>>0的錯(cuò)誤比例。MSB頁中的0>>1的錯(cuò)誤比例隨著擦寫循環(huán)的增加由最初的85%逐漸下降到5%,CSB頁的0>>1和LSB頁的1>>0的錯(cuò)誤比例隨擦寫循環(huán)的增加呈現(xiàn)波動(dòng)趨勢(shì)。當(dāng)擦寫循環(huán)數(shù)量小于3000次時(shí),LSB頁的0>>1的錯(cuò)誤比例相對(duì)較高,在90%附近波動(dòng),當(dāng)擦寫循環(huán)數(shù)量大于3000次時(shí),LSB頁的0>>1的錯(cuò)誤比例開始下降,在擦寫循環(huán)數(shù)量達(dá)到5000時(shí),錯(cuò)誤比例已經(jīng)下降到70%。MSB頁的1<<0的錯(cuò)誤比例由最初的18%增加到95%,CSB頁的1>>0的錯(cuò)誤比例在80%左右波動(dòng)。出現(xiàn)MSB頁1>>0的錯(cuò)誤是由圖2中的110>>010,111>>011,111>>001引起,出現(xiàn)MSB頁0>>1錯(cuò)誤是由000>>100,010>>110,011>>111引起,出現(xiàn)CSB頁1>>0錯(cuò)誤是由011>>001,010>>000,110>>100,111>>001引起,出現(xiàn)CSB頁0>>1錯(cuò)誤是由000>>010,001>>011,100>>110引起,出現(xiàn)LSB頁1>>0是由001>>000,101>>100引起,出現(xiàn)LSB頁0>>1錯(cuò)誤是由000>>001和100>>101引起。圖2中111>>011的比例隨著擦寫數(shù)量的增加而增加造成MSB頁的1>>0的錯(cuò)誤比例逐漸增加且具有高的比例。圖2中的100>>101具有高的比例導(dǎo)致LSB頁中的0>>1的錯(cuò)誤比較高。具有較多的狀態(tài)轉(zhuǎn)移引起CSB的1>>0錯(cuò)誤。
圖4給出了MSB頁、CSB頁和LSB頁0>>1和1>>0的比特錯(cuò)誤率隨著擦寫循環(huán)數(shù)量變化的分布情況。MSB頁、CSB頁和LSB頁0>>1和1>>0的比特錯(cuò)誤率分布不平衡,MSB頁1>>0的比特錯(cuò)誤率較高且隨著擦寫循環(huán)數(shù)量的增加呈近似指數(shù)增長(zhǎng)趨勢(shì)。當(dāng)擦寫循環(huán)數(shù)量達(dá)到5000次時(shí),MSB頁1>>0的比特錯(cuò)誤率超過0.01,數(shù)據(jù)可靠性受到嚴(yán)重威脅。其他的比特錯(cuò)誤率較低大都低于0.002,且隨著擦寫循環(huán)數(shù)量的增加呈現(xiàn)平穩(wěn)增長(zhǎng)的趨勢(shì)。MSB頁、CSB頁和LSB頁具有不平衡的0>>1和1>>0的比特錯(cuò)誤比例和比特錯(cuò)誤率分布,MSB頁較易發(fā)生1>>0的錯(cuò)誤,且錯(cuò)誤率隨著擦寫循環(huán)數(shù)量增加而增加。
為了設(shè)計(jì)基于NAND閃存的高效可靠的錯(cuò)誤容忍和數(shù)據(jù)管理方案,本文對(duì)3D-TLC NAND閃存的編程干擾錯(cuò)誤的狀態(tài)相關(guān)性和比特錯(cuò)誤特性進(jìn)行了測(cè)試和分析,測(cè)試結(jié)果顯示出來的特性有利于指導(dǎo)設(shè)計(jì)相應(yīng)的高可靠數(shù)據(jù)存儲(chǔ)解決方案,有利于在存儲(chǔ)密度越來越高的閃存硬件基礎(chǔ)上實(shí)現(xiàn)高可靠的存儲(chǔ)系統(tǒng)和產(chǎn)品。