ダウンタイムとはなにか?注目される理由と効果的に減らす方法をご紹介
この記事ではダウンタイムについて、注目される理由や効果的に減らす方法も含めて詳しく解説します。
この記事ではダウンタイムについて、注目される理由や効果的に減らす方法も含めて詳しく解説します。
知識・情報
2022/04/17 UP
- Web
- 開発
- 技術
システムの運用において、ダウンタイムは注目度を増しています。社会に選ばれるサービスを提供するうえで、ダウンタイムの削減は重要な要件のひとつ。予告なく発生するダウンタイムは、企業価値を損なうことも理由に挙げられます。
この記事ではダウンタイムについて、注目される理由や効果的に減らす方法も含めて詳しく解説します。
そもそもダウンタイムとはなにか?
ダウンタイムとは、利用者がシステムを使えない時間のことを指します。おもな理由にはシステムの停止や不具合が挙げられますが、ネットワークの不調など他の原因でダウンタイムが発生することにも留意が必要です。
ダウンタイムという言葉は24時間365日稼働など、いつでも利用可能なシステムやサービスに対してよく使われます。ここからはダウンタイムの種類や許容されるダウンタイムについて、解説を進めていきましょう。
ダウンタイムは2種類ある
ダウンタイムは事前に計画されたものかどうかという観点により、2種類に分かれます。どのようなものが該当するか、確認していきましょう。
・計画ダウンタイム
計画ダウンタイムとは事前にシステムが止まる時間を策定・周知したうえで、システムを止めている時間を指します。代表的な例として、以下の作業が挙げられます。
・機器やシステムの入れ替え、またはメンテナンス
・ソフトウェアのバージョンアップ
・災害発生を想定したテスト
・施設の電気点検(年1回の法定電気点検は典型的な例)
計画ダウンタイムの影響を最小限に抑えるためには、早めの周知徹底と想定されるトラブルへの十分な対策が欠かせません。
・計画外ダウンタイム
計画外ダウンタイムはトラブルなど、予定外の理由によりシステムが止まった時間を指します。その原因は、以下のとおり多種多様です。
・機器の故障
・予告のない停電
・ソフトウェアの不具合
・外部からの攻撃
・過剰なアクセスや処理要求の発生
利用者が予期せぬダウンタイムに対応することは困難です。このため計画外ダウンタイムは利用者に不便や損害を与えるだけでなく、社会の信用を失う重大な事態。極力避けることが求められます。
許容されるダウンタイムは、要件により異なる
常時稼働するシステムであっても、事前の周知を徹底することで数時間程度の停止が可能なシステムは多いです。
作業や点検のために許容されるダウンタイムは、要件により異なります。このためSLA(Service Level Agreement)を取り決め、稼働率を用いて設定されています。目標とする稼働率が上がると、許容されるダウンタイムは減ることを認識しておきましょう。
・99%:年間で87時間39分29秒以内
・99.9%:年間で8時間45分56秒以内
・99.99%:年間で52分35秒以内
・99.999%:年間で5分15秒以内
稼働率のアップと、メンテナンスへ割り当てる時間の割きやすさはトレードオフの関係にあるわけです。
システム運用にダウンタイムが注目される3つの理由
システム運用において、ダウンタイムは注目されがちです。その理由は、大きく3つに分けられます。それぞれについて、詳しく確認していきましょう。
保守作業が可能なタイミングはダウンタイムにより決まる
1つ目の理由は、システムを止めて実施する保守作業のスケジュールを確保するという観点にあります。もし短時間の停止で済むなら特段スケジュールを立てず、日々の業務に組み込んで行なうことも可能です。一方で数時間から数日止める作業の場合、実施できるタイミングは週末や連休中に限られます。
保守作業の際に「システムを止めなければならない時間」が重要視される理由は、このような背景があるためです。
ダウンタイムは収益の悪化につながる
ダウンタイムは、しばしば収益の悪化に直結します。例えば計画外ダウンタイムが発生すると、以下の対応や支出を迫られます。
・システムやデータの復旧
・取引先や関係機関への報告
・顧客に対する説明やお詫び
販売業務を行なう企業への影響は、より深刻です。なぜならダウンタイムしている間は販売機会を失い、収入を得られないため。これは計画ダウンタイムの場合でも悪影響を受けることに注意してください。企業によっては数十分Webサイトが停止しただけで、1億円以上の売上を失うリスクもあります。
予告なくシステムが止まると貴社の信頼が失われる
計画外ダウンタイムは、以下に挙げる事態を招くおそれがあります。いずれも、貴社の信頼を失う原因となりかねません。
・納期に遅れる。または品質が低下する
・取引先企業の業務を止める
・顧客が離脱する。また貴社に否定的な口コミが多数投稿される
・システムが停止したことを報道される
24時間365日の稼働が求められるシステムや、正確さが求められるシステムの場合、失われる信頼は特に大きくなります。失った信頼を取り戻すには、多大なコストと長い時間が必要。一度のシステムダウンで長期間にわたり評判と業績が下がるリスクは、ぜひとも防がなければなりません。
ダウンタイムを減らすメリット・デメリット
ダウンタイムの削減は望ましい取り組みですが、やみくもにゼロを目指すことが良いとは限りません。ダウンタイムを減らした結果、使いにくくなっては本末転倒です。
ここからはダウンタイムを減らすメリットとデメリットについて、詳しく解説していきます。
ダウンタイムを減らすメリット
ダウンタイムの減少は、システムを利用できる時間の増加に直結します。スムーズに使える時間が増えることは、顧客満足度の向上に直結。また通販サイトなどでは、収入や利益の向上にもつながります。
加えて、ミッションクリティカルなシステムの運用も可能です。止まらないシステムの実現は、顧客や取引先の信頼を得るためにも有効。トラブルに対応する要員の人件費を削減でき、計画どおりの収入を得られるメリットも見逃せません。
ダウンタイムを減らすデメリット
ダウンタイムの削減を重視すると、システムの構築や運用コストはアップします。とりわけ目標の稼働率が100%に近づくと、わずかな目標値のアップも大きなコストアップにつながります。例えば稼働率98%から99%を目指すよりも、99.9%から99.99%を目指すコストのほうが高くなりがちです。このためダウンタイムゼロは理想ですが、現実的とはいえません。
またオフィスでは年1回、停電をともなう法定電気点検が行なわれます。オンプレミスの場合、数時間から2日程度はシステムを使えません。この場合、99.9%の稼働率は目標として設定しにくいでしょう。
ダウンタイムを減らす3つの方法
ダウンタイムを減らす方法は、大きく3つに分けられます。運用のフェーズはもちろん、システムにおけるライフサイクルのあらゆる場面で考慮が必要です。どのような方法があるか、詳しく確認していきましょう。
ダウンタイムを抑えやすいシステム構成を選ぶ
ダウンタイムの抑制には、その箇所が不具合を起こすとシステムが止まる「単一障害点」を極力作らないことが有効です。システムを構成するすべての要素を冗長化することは、有効な解決策に挙げられます。
例えば複数のシステムに分散して稼働させる「アクティブ・アクティブ構成」の活用は、アクセス急増など負荷が大きく増えた場合も影響を緩和できる点で有効です。また以下の技術を採用することも、ダウンタイムの削減に役立ちます。
・ライブマイグレーション
・アプリケーション・バージョニング
クラウドを活用する場合は冗長化に加えて、エリア(リージョン)の分散も意識しましょう。もし関東で災害が起きシステムが止まっても、関西にシステムがあればサービスを提供し続けることが可能です。
障害の予兆をとらえて早期に対処する
システムが止まるほど重大なトラブルに見舞われる前には、何らかのサインが出ている場合も多いです。ログは代表的なものに挙げられます。これらの情報を自動的にチェックする体制を整え早期に不具合を検知し対処することで、ダウンタイムの削減が可能です。
トラブルを早く見つけるほど、対応可能な選択肢も増えます。運用に影響がない状態であれば、異常がある側のシステムを切り離したうえで稼働を続けることも可能。不意のシステム停止を防ぎ、ダウンタイムを削減できます。
早期に復旧できるよう工夫する
ダウンタイムの削減には、障害発生後の行動も影響します。短時間で的確に原因を特定し、確実に復旧させる手法を工夫しましょう。これによりトラブルが発生しても早期に復旧でき、業務や顧客、取引先への影響を抑えられます。
障害発生から復旧までの指標として、平均修復時間(MTTR)は代表的です。この数字が大きい場合は「いったん不具合が起きると長時間使えない」とみなされ、敬遠されるかもしれません。
ダウンタイムを理解しシステムの安定運用につなげよう
ダウンタイムをゼロに近づけるためには、工夫が必要です。まずは削減可能なダウンタイムと、実現する手段をチェックすることから始めましょう。
その後は費用対効果を考慮し、ダウンタイム削減の目標値を策定してください。ダウンタイムを正しく理解することはシステムの安定稼働のみならず、貴社の業績と信頼の向上にもつながります。