ディザスタリカバリとは?事業継続を守る障害対策の全体像を解説

システム開発・テクノロジー
ディザスタリカバリとは?ざっくりと3行で
  • 災害・大規模障害・サイバー攻撃などによるシステム停止からITシステムを復旧させるための計画・手順・仕組みの総称。DRと略されることが多い
  • 重要な指標はRTO(目標復旧時間)とRPO(目標復旧時点)の2つ。この2つを定義することがDR設計の出発点だ
  • 単なるバックアップを超え、システム全体を別拠点で再起動できる体制まで含む概念。BCP(事業継続計画)の重要な技術的基盤となっている

【深掘り】これだけ知ってればOK!

ディザスタリカバリの本質を一言で表すなら「どんな事態が起きても事業を続けるための保険」だ。地震・火災・データセンター全停電・ランサムウェアによる全データ暗号化——こうした最悪シナリオを想定し、事前に復旧手順を整備しておく取り組みがDRだ。

DR設計の2大指標を整理しよう。RTO(Recovery Time Objective)は「障害発生から何時間以内にシステムを復旧させるか」の目標値だ。RPO(Recovery Point Objective)は「最大でどの時点のデータ損失まで許容できるか」の目標値だ。RTOが2時間・RPOが1時間なら、「障害発生後2時間以内に、最大1時間前の状態に戻す」という要件になる。

DR戦略は求めるRTO/RPOの水準によってアーキテクチャが変わる。バックアップ&リストア(コスト最安・RTOが長い)→パイロットライト(最小限の待機環境を常時稼働)→ウォームスタンバイ(縮小版の本番環境を待機)→マルチサイトアクティブ-アクティブ(完全二重化・RTOほぼゼロ・最高コスト)という4段階のスペクトルで整理されることが多い。

DRで最も見落とされやすいのがDR訓練(ゲームデー)の実施だ。計画書を作って満足し、実際に復旧手順を試さない組織が多い。いざという本番で手順通りに動かない・担当者が対応できないという事態を防ぐには、定期的にDRシナリオを実行して手順書を更新し続けることが欠かせない。

クラウドのDR設計ではAWSのマルチリージョン構成が代表的な手法だ。東京リージョンで本番を動かし、大阪リージョンにウォームスタンバイ環境を持つことで、東京全域に影響する広域災害にも対応できる。Route 53のヘルスチェックと組み合わせることで、障害時に自動で大阪に切り替わる構成が実現できる。

よくある誤解

DRとBCPは別の概念

BCP(Business Continuity Plan=事業継続計画)は人・場所・プロセスを含む業務継続の計画全体だ。DRはその中のITシステム復旧に特化した部分に過ぎない。BCPなしのDRはシステムが復旧しても誰が何をするかわからず機能しないことがある。

バックアップがあればDRは不要という誤解

バックアップはデータを保存するが、そのデータからシステム全体を動かせる状態に復元するには時間と手順が必要だ。DRはその復旧プロセス全体を設計・訓練する取り組みで、バックアップより上位の概念だ。

会話での使われ方

ITKAGYO運営者のアイコン画像

RTO2時間・RPO1時間の要件で、コストを最小化するDR構成を提案します。ウォームスタンバイで大阪リージョンに待機環境を作ります。

インフラ設計のプレゼンで担当エンジニアが要件に合ったDR方式を提案している場面。

ITKAGYO運営者のアイコン画像

DR訓練って最後いつやりましたか?計画書はあるけど、実際に動かして確認したことないのは怖いですね。

情シスのBCP委員会で、担当者がDR訓練の未実施リスクを指摘している場面。

ITKAGYO運営者のアイコン画像

本番と同スペックのDR環境を常時起動しておく予算はないので、ランサムウェア対策は別のアプローチを組み合わせて考えましょう。

予算制約のある中小企業の情シス担当者がセキュリティ戦略を議論している場面。

【まとめ】3つのポイント

  • 「RTO・RPOを定義することがDR設計の出発点」:何時間以内に復旧するか・どの時点のデータまで許容するかを数値で定めることで、必要なDR方式とコストが決まる
  • DR訓練なしにDR計画は完成しない:計画書を作るだけでは不十分。定期的なゲームデーで手順を実行・検証・更新し続けることが実際の復旧能力を担保する
  • コストとRTO/RPOのトレードオフを経営判断で決める:RTOを短くするほどDRコストは指数的に上がる。停止1時間あたりの損害額から逆算して許容できる水準を経営判断として決めることが重要だ

よくある質問

Q
RTOとRPOの具体的な数値の目安を教えてください
A

業界・システムの重要度によって大きく異なります。金融の基幹システムではRTO数分・RPO数秒という要件も存在します。一般的なWebサービスでは業務影響と費用を考慮してRTO数時間・RPO数時間以内が多い目安です。まず停止1時間あたりの損害額を算出することが数値設定の出発点です。

Q
クラウドでDRを構築するのはオンプレより簡単ですか?
A

大幅に簡単になっています。AWS・Azure・GCPは複数リージョンへのデータレプリケーション・自動フェイルオーバー・インフラのコード管理(IaC)を標準機能として提供しており、以前は数千万円かかったDR環境が低コストで構築できます。

Q
DRとBCPはどちらが上位の概念ですか?
A

BCPが上位概念です。BCPは災害時に事業全体を継続するための計画で、人員配置・拠点確保・サプライチェーン対応なども含みます。DRはBCPの中のIT部門が担うシステム復旧の計画です。BCPとDRを整合させて策定することが重要です。

Q
ディザスタリカバリとバックアップの違いは何ですか?
A

バックアップはデータの複製を保管する仕組みです。DRはバックアップを含みながら、システム全体を別環境で再起動できる体制・手順・訓練まで含む包括的な概念です。バックアップがあれば自動的にDRが成立するわけではありません。

この用語と一緒に知っておきたい用語

用語この記事との関連
バックアップ次のステップとしてバックアップを学ぶと知識が広がります。データの複製を別の場所に保管し、障害・誤削除・ランサムウェアなどのトラブルに備える仕組みおよびその行為のこと
データ本記事のテーマと実務上セットで使われることが多い用語です。コンピュータが処理する数値や文字、画像といった事実や資料そのもの、それがデータだ
アイコンアイコンを押さえると本記事の理解がさらに深まります。アプリやファイル、操作ボタンなどをひと目でわかる小さな絵で表したもの、それがアイコンだ
ランサムウェアランサムウェアとの関係を知ると全体像がつかみやすくなります。感染したPCのファイルを暗号化して使用不能にし、復号と引き換えに金銭(多くはビットコイン)を要求するマルウェアだ
フェイルオーバーフェイルオーバーを押さえると本記事の理解がさらに深まります。システムや機器に障害が発生したとき自動的にスタンバイ機・バックアップシステムに切り替えてサービスの継続を実現する仕組みのこと

【出典】参考URL

https://bcblog.sios.jp/what-is-sla/ :RTO・RPOの定義
https://www.idcf.jp/words/sla/ :DRに関連するSLAの概念

コメント

「IT用語、難しすぎて心が折れそう……」という方のための、ハードル低めな用語辞典です。

情報レベルは「基礎中の基礎」。会話を止めないためのエッセンスだけを抽出しています。分かりやすさを追求するあまり、時々例え話が暴走しているかもしれませんが、そこは「ほどよく」聞き流していただけると幸いです。
ほどよくIT用語辞典システム開発・テクノロジー
デプロイ太郎のSNSを見てみる!!