究極の選択――落ちないシステムとすぐ直るシステムITIL Managerの視点から(2/3 ページ)

» 2008年06月04日 08時00分 公開
[谷誠之,ITmedia]

MTBF(Mean Time Between Failure)

 MTBF(Mean Time Between Failure)の直訳は平均故障時間だが、平均故障間隔、と訳されることが多い。障害が復旧してから次の障害が発生するまでの平均時間のことである。

 こちらも単純に言えば、「どれだけ壊れにくいか」ということである。言うまでもなく、可用性を考える上での「システムが壊れにくいこと」に直結している。こちらも現実的ではないが、MTBFのことだけを考えれば、システムが長期間壊れずに稼働し続けるのであれば、まったく修復できない機器だってかまわないわけである。

 可用性を高めるためには、MTBFを増やす努力が必要である。MTBFを増やすための方法には、次のようなものが考えられるだろう。

  • 障害が発生する前兆となるような現象を監視するツールを導入する
  • 過去の障害の傾向(トレンド)を分析し、障害が起こりそうな原因を究明してそれを取り除いてしまう
  • 障害が発生しそうな機器を、障害が発生する前に取り替えてしまう
  • 信頼性の高い(壊れにくい)機器に買い換える
  • 機器を多重化し、複数の機器が同時に壊れない限り全体としてのサービスが止まらないような対策を施しておく

 さらにこのMTBFは、システムの「信頼性」という言葉に関係する。信頼性とは単純に壊れにくさのことだと考えていただければよい。壊れないシステムは、信頼性が高いのである。逆に、どれだけメンテナンスが容易で、一瞬で修復できる機器であっても、しょっちゅう壊れているのであれば信頼性は低いわけである。

 ここまで説明してきた2つの考え方を図にしたものが図1である。

図1:MTTRとMTBF

 可用性対策といっても、MTTRとMTBF、どちらの観点に立つかによって、対策が変わってくる。例えば電源装置の可用性を考えてみよう。MTTRを減らすことを主軸においた場合は、「電源装置が壊れたら、即座にバックアップ電源に切り替わる」というような対策になるだろう。また、MTBFを増やすことを主軸においた場合は、「常に電源を二重化しておく」というような対策が考えられる。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ