SSDのエラー発生率増大と解決、予防保全の実現フラッシュドライブの信頼性向上【後編】

SSDの故障率が増大する条件の特定とその回避策の実装までの流れを解説する。業界がどのようにSSDを改善してきたのかがよく分かる。

» 2020年09月16日 10時00分 公開
[Cliff SaranComputer Weekly]

 前編(Computer Weekly日本語版 9月2日号掲載)では、SSDの課題が検証されてきた歴史を再確認した。

 後編では、セルの摩耗だけでなくPCIeバス経由でのデータ転送で生じる問題とSSDの展望を紹介する。

 研究者によると、チップに障害が発生することにつながる兆候を見ると、どのモデルでも不良チップの3分の2は不良ブロック数がしきい値(5%)に達した後不良になったという。興味深いことに、この研究当時、ブロックの5%以上で障害が起きた不良チップはメーカーの仕様に違反したチップだったと研究者は記している。

 この研究では、ドライブの20〜63%で最初の4年間に最低1回修復不可能なエラーが発生している。そうした修復不可能なエラーがそのドライブで最も一般的な非透過的エラーにつながると結論付けている。

 Googleのデータセンターでこの研究が行われる1年前、カーネギーメロン大学とFacebookの研究者がSSDの信頼性を調査している。この研究では、PCI Express(PCIe)バス経由で転送されるデータが多くなるほどバスの使用電力が多くなり、SSDの温度が上昇することが報告された。温度が高くなるほど故障率も高くなり、この傾向はデータ転送速度を下げるスロットル技法を採用していないSSDに最も顕著に現れることが分かった。

 Seagate Technology、カーネギーメロン大学、チューリッヒ工科大学が2018年に公開した論文「Errors in Flash-Memory-Based Solid-State Drives: Analysis, Mitigation, and Recovery」(フラッシュメモリベースのSSDのエラー:分析、緩和、修復)では、ストレージ密度が高いほどエラーの発生率が高くなり障害が多くなると強調されている。

 この論文の研究者は次のように警告している。「ストレージ密度を高めるために、SSDの基盤となるNANDフラッシュメモリをスケーリングするにつれ、セルのビット自体でエラーの発生率が高まり、それによってSSDの寿命が短くなる」

 従来のHDDアレイよりもSSDの信頼性が高いのは間違いない。「これまでは、HDDアレイのHDDを交換しようと思ったら1日5000ポンド(約69万円)の費用をかけてエンジニアを雇い、新しいHDDを使ってアレイのマッピングをやり直す必要があった」と話すのはNutanixでシニアシステムエンジニアリングディレクターを務めるロブ・トライブ氏だ。

 同氏によると、SSDのファームウェアが絶えず書き込みサイクルを監視し、障害が見つかったら多くのエラーが生じているメモリブロックを使用対象から外すという。ITの自動化が進むにつれ、SSDのファームウェアが提供するメトリクスをOSが十分に利用しなくなっていることをトライブ氏は認めている。

 信頼性は、入出力操作(ドライブへの読み取りと書き込み)の失敗によって測定される。今後はSSDのファームウェアが利用され、システムがSSDの摩耗を綿密に追跡監視し、将来的には予防保全できるようになるだろう。

SSDの優秀さを5年以上にわたって支える高度なプラクティス

 SNIA EMEAの理事長アレックス・マクドナルド氏によると、最初のNANDメモリは平面上にレイアウトされ、各セルが2つのレベル、つまり1bitをサポートしていたという。これがシングルレベルセル(SLC)だ。現在は、MLC(4レベル、2bit)、TLC(8レベル、3bit)、QLC(16レベル、4bit)へと進化を続け、セルを3Dスタックに「重ねる」ことで密度を高めている。

 書き込みは、1つのセルではなく複数のセルからなる約4KBのページが単位になる。高いレベルでは、数十ページがブロックに編成される。

 ページに書き込みを行う際には、事前にブロックを消去する必要がある。これをプログラム/消去(P/E)サイクルという。フラッシュで許容されるP/Eサイクル数は限られており、それを超えると書き込みに失敗する恐れがある。

 QLCと3Dをベースとする技術の利点は、非常に高密度の機器(32TBが比較的一般的)を構築できる点にある。一般に、セル当たりのビット数が増えると実行可能なP/Eサイクル数は減少する。興味深いことに、こうした制限は高密度NANDフラッシュSSDの実用的な信頼性を必ずしも低下させない。それは、1つのセルへの信頼性の低い操作を軽減するために使う多くの技法があるためだ。

 エラー訂正コード(ECC)、ページの自動再割り当てで摩耗による障害を許容可能にするためのNANDの過剰プロビジョニング、不均一な摩耗を防ぐために書き込みを全てのページに均一に広げるさまざまな技法など、多くのプラクティスが採用されている。こうしたプラクティスは全て、外部からの介入なしにドライブのファームウェアが管理する。

 こうした進化により、SSDの寿命を5年以上に延ばし、QLCであっても1日当たりの書き込み数を増やせるようになっている。企業環境の非常に高い入出力ワークロードにとっては、読み取りと書き込みの高い帯域幅、非常に高いIOPS、少ない電力消費量といったSSDの主要特性が非常に魅力的になる。

Windows 10アップデート管理戦略ガイド

Windows 10は更新プログラムが頻繁に配信される。本PDFではそうした変更をITリーダーが管理する方法、累積的な更新プログラムがシステム管理者に及ぼす影響、円滑な移行のためにクラウドサービスが果たし得る役割について解説する。


Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ