Allion Labs/ Blake Chu
現(xiàn)今SSD主流已從當(dāng)初的2.5吋SATA SSD進(jìn)化到體積只有一半不到的M.2 NVMe SSD。當(dāng)體積越小,代表了速度將有明顯地提升,延遲也會(huì)降低,而體積小的SSD也更能應(yīng)用在更廣泛的地方,如車載系統(tǒng)、亦或是未來5G架構(gòu)系統(tǒng)的應(yīng)用。NAND Flash為SSD內(nèi)部擔(dān)任儲(chǔ)存數(shù)據(jù)的組件,一般來說,影響NAND Flash數(shù)據(jù)保存,除了抹寫次數(shù)(PE/Cycle),溫度也是另一個(gè)因素;如在極端的條件下使用,在長(zhǎng)時(shí)間與不同的溫度變化也會(huì)對(duì)NAND Flash數(shù)據(jù)保存(Data Retention)造成影響。為何這兩點(diǎn)會(huì)影響到SSD數(shù)據(jù)保存呢?我們簡(jiǎn)單概述一下NAND Flash基本原理。
NAND Flash基本操作的主要三動(dòng)作:寫入、讀取、抹除。
- 寫入: 數(shù)據(jù)在NAND Flash中是以電子形式(electrical charge)儲(chǔ)存。儲(chǔ)存電子的高低電位,取決于Control Gate所被施加的電壓(圖1),當(dāng)一正電壓加于Control Gate時(shí),傳送電子通過第一個(gè)絕緣體進(jìn)入Floating Gate內(nèi),當(dāng)Floating Gate被注入負(fù)電子時(shí),在位中1就會(huì)變成0,此時(shí)為寫入。
- 讀取: 當(dāng)讀取數(shù)據(jù)時(shí),同樣會(huì)在Control Gate施加電壓,吸住Floating Gate里的電子,利用電流來感應(yīng)Floating Gate里的電子數(shù)量,靠感應(yīng)到的電子數(shù)量轉(zhuǎn)換為二進(jìn)制的0與1,最后輸出成數(shù)據(jù),此時(shí)為讀取。
- 抹除: 當(dāng)Control Gate加進(jìn)負(fù)電壓時(shí),會(huì)將電子傳送到Floating Gate外,而當(dāng)負(fù)電子從Floating Gate移除后,位也就從0變回1,此時(shí)為抹除。
圖1
?
隨著讀取、抹寫次數(shù)上升,電子多次穿越將造成漏電情況,也就是電子無法維持在Floating Gate,而導(dǎo)致數(shù)據(jù)錯(cuò)誤。此類型情況也會(huì)隨著芯片制程提升(MLC->TLC),導(dǎo)致薄膜層越薄,使電子穿越所能承受的次數(shù)變的更少。另一方面,當(dāng)SSD處于高溫下,也會(huì)影響電子的行為導(dǎo)致無法正確保存數(shù)據(jù)。針對(duì)上述情況,JEDEC固態(tài)技術(shù)協(xié)會(huì)已對(duì)一般客戶及企業(yè)訂出了溫度規(guī)范(圖2),可見溫度對(duì)于SSD數(shù)據(jù)存儲(chǔ)的影響不可小覷。
圖2
?
SSD高溫老化測(cè)試案例分析
由于車用乃至于工業(yè)用的SSD,特別注重?cái)?shù)據(jù)保存能力以及可在高溫下維持功能與性能(如延遲時(shí)間(Latency))。百佳泰針對(duì)溫度是否會(huì)對(duì)SSD數(shù)據(jù)保存(Data Retention)造成影響,特別挑選四個(gè)市面上常見M.2 NVMe SSD來進(jìn)行高溫老化測(cè)試,利用長(zhǎng)時(shí)間高溫加速老化,觀察這些SSD在接近壽命終點(diǎn)時(shí)的情況。
在進(jìn)行測(cè)試實(shí)驗(yàn)前,我們已將這些SSD維持相同的條件:已經(jīng)使用過一段時(shí)間、并寫入了大量的數(shù)據(jù)(寫入數(shù)據(jù)內(nèi)容依據(jù)JEDEC協(xié)會(huì)規(guī)范制定)。在確認(rèn)SSD狀態(tài)以及SMART(Self-Monitoring Analysis and Reporting Technology)皆正常后,將SSD斷電放進(jìn)烤箱,設(shè)置4種不同時(shí)間與溫度進(jìn)行測(cè)試。當(dāng)完成指定的長(zhǎng)時(shí)間溫度測(cè)試后,再將SSD從烤箱取出,最終在測(cè)試儀器上執(zhí)行SSD SMART檢查以及全碟讀取檢查。 (圖3)
圖3
?
Phase 0: 40°C/24HR
第一階段測(cè)試我們先用正常溫度40°C來檢視這4個(gè)SSD狀態(tài),作用于基準(zhǔn)值并跟后續(xù)高溫測(cè)試進(jìn)行比較。從圖4來看,經(jīng)過40°C/24HR后,4個(gè)SSD在執(zhí)行全碟讀取檢查的運(yùn)行時(shí)間相差不大;但SSD A所需的時(shí)間較其他三個(gè)長(zhǎng)一些。
另從全碟讀取檢查的指令響應(yīng)時(shí)間統(tǒng)計(jì)百分比來看(圖5),SSD A的延遲時(shí)間在Rank B區(qū)間較其他三顆稍多了些。
圖4
圖5
(Rank A低于0.5mSec,代表延遲低,性能好;而當(dāng)Rank高于10mSec,則代表延遲高,性能差。故Rank能集中在AB是相對(duì)好的)
?
Phase 1: 125°C/24HR
第二階段測(cè)試我們進(jìn)入高溫狀態(tài)(125°C)并連續(xù)24小時(shí)烘烤SSD,來觀察125度高溫是否對(duì)SSD有影響。從圖6來看,經(jīng)過125°C/24HR后,4個(gè)SSD在執(zhí)行全碟讀取檢查的運(yùn)行時(shí)間都因?yàn)楦邷囟冮L(zhǎng);而SSD A在這階段的測(cè)試?yán)锼璧臅r(shí)間也相較于其他3顆明顯變得更長(zhǎng),從結(jié)果判斷得知SSD A會(huì)因高溫而影響效率。
從全碟讀取檢查的指令響應(yīng)時(shí)間統(tǒng)計(jì)百分比來看,SSD A開始在Rank C/D出現(xiàn)些許延遲的現(xiàn)象;SSD B也表現(xiàn)出輕微的延遲,SSD C & D則未有明顯的影響。到目前為止4個(gè)SSD尚未出現(xiàn)狀態(tài)錯(cuò)誤(SMART error),或command error的情況發(fā)生。
圖6
?
?
Phase 2: 125°C/120HR
從Phase 1結(jié)果來看,4個(gè)SSD的性能尚未分出勝負(fù)。這一階段,我們一樣維持125度,但將時(shí)間拉長(zhǎng)5倍到120HR觀察。從圖7來看,經(jīng)過125°C/120HR后,4個(gè)SSD都因?yàn)殚L(zhǎng)時(shí)間高溫讓執(zhí)行全碟讀取檢查的運(yùn)行時(shí)間拉長(zhǎng),尤以SSD A來看,所需的時(shí)間竟拉到了近5小時(shí)之高。
從全碟讀取檢查的指令響應(yīng)時(shí)間統(tǒng)計(jì)百分比來看, SSD A因在長(zhǎng)時(shí)間及高溫的狀態(tài)下,呈現(xiàn)高延遲現(xiàn)象;相較于Phase 1的Rank D數(shù)據(jù),竟達(dá)12倍之多的差距(18.8%)。此外,SSD B也不遑多讓,延遲時(shí)間相對(duì)提升;而SSD D也在此時(shí)開始出現(xiàn)延遲的情況(Rank B)。
在這一階段測(cè)試環(huán)節(jié)中,SSD C全身而退,尚未出現(xiàn)任何影響。到目前為止4顆SSD也還未出現(xiàn)狀態(tài)錯(cuò)誤(SMART error),及command error情況發(fā)生。
圖7
?
?Final Phase: 150°C/168HR
從先前3個(gè)測(cè)項(xiàng)結(jié)果來看,4個(gè)SSD尚未出現(xiàn)狀態(tài)錯(cuò)誤(SMART error),但已有兩個(gè)SSD出現(xiàn)明顯延遲,導(dǎo)致性能顯著下降。為了測(cè)試極端狀況并加速老化速度,在最后一項(xiàng)測(cè)試環(huán)節(jié)我們將溫度提升至150度,時(shí)間拉長(zhǎng)7倍,總共168HR,從中觀察這4個(gè)SSD在極端條件會(huì)出現(xiàn)什么樣的情況。
從測(cè)試結(jié)果中(圖8)我們發(fā)現(xiàn)SSD A在烤完拿到儀器上開始執(zhí)行全碟讀取檢查時(shí)就出現(xiàn)問題,除無法正常讀取外,SSD固件回報(bào)也呈現(xiàn)狀態(tài)錯(cuò)誤(SMART error)。而SSD C & SSD D則是在全碟讀取檢查撐了一段時(shí)間后才出現(xiàn)error無法完成讀取,隨后也出現(xiàn)SSD固件回報(bào)狀態(tài)錯(cuò)誤(SMART error)。在最終測(cè)試環(huán)節(jié)中,只有SSD B脫穎而出,能完成全碟讀取檢查;SSD A、C、D在全碟讀取檢查過程均發(fā)生command error情況,只有SSD B未出現(xiàn)狀態(tài)錯(cuò)誤(SMART error)及無command error的情況產(chǎn)生。
圖8
?
測(cè)試總結(jié)
縱觀上述測(cè)試,我們可以發(fā)現(xiàn)隨著長(zhǎng)時(shí)間與溫度的增加,部分SSD在執(zhí)行全碟檢查時(shí)效率下降;其中3個(gè)SSD也因時(shí)間不斷的拉長(zhǎng)以及溫度的提升最終導(dǎo)致因數(shù)據(jù)保存出現(xiàn)問題而產(chǎn)生讀取錯(cuò)誤的情況。從低延遲時(shí)間級(jí)距Rank A來看,隨著溫度與時(shí)間不斷增加,造成延遲時(shí)間的情況也隨之加深,并導(dǎo)致控制器糾錯(cuò)時(shí)間增加,響應(yīng)時(shí)間拉長(zhǎng)。
值得一提的是,SSD B表現(xiàn)優(yōu)異,除順利通過長(zhǎng)時(shí)間高溫測(cè)試外,在全碟讀取檢查延遲時(shí)間也都保持在高水平之上,相對(duì)其他3個(gè)SSD可靠不少。
圖9
?
?
結(jié)語
經(jīng)過長(zhǎng)時(shí)間高溫的嚴(yán)峻測(cè)試,大部分SSD已無法負(fù)荷而出現(xiàn)數(shù)據(jù)保存問題,然而,還是有SSD能通過嚴(yán)苛的測(cè)試環(huán)境。雖現(xiàn)今M.2 NVMe SSD會(huì)因體積及散熱等問題出現(xiàn)資料保存錯(cuò)誤情況,但還是可以透過原料控制,以及控制器固件調(diào)校技術(shù),讓SSD能在嚴(yán)苛的條件中執(zhí)行存取任務(wù),完整保留數(shù)據(jù),維持?jǐn)?shù)據(jù)正確性。除了本次的測(cè)試案例外,百佳泰也可依照客戶需求,針對(duì)溫度/時(shí)間進(jìn)行客制化、階梯化設(shè)置,為您的產(chǎn)品迅速找出極限點(diǎn);并從所提供的詳細(xì)測(cè)試報(bào)告中協(xié)助您改善產(chǎn)品弱點(diǎn),提升市場(chǎng)競(jìng)爭(zhēng)力!