RTO と RPO: IT の成功にとって復旧目標が重要な理由

公開: 2023-09-07

企業は、IT のダウンタイムにより多くのコストがかかることを認識しています。

企業はダウンタイムの影響を考慮し、事業運営の継続性を維持することに重点を置く必要があります。これを行うには、ダウンタイムを最小限に抑えるか完全に回避できるように、適切な事業継続計画を実装する必要があります。このようにして、企業は IT インフラストラクチャの回復力を確保できます。

ビジネスのダウンタイムについて議論するとき、目標復旧時間 (RTO) や目標復旧時点 (RPO) についてよく耳にします。すべての企業にとって、災害から迅速に復旧するには、RTO と RPO を完全に理解することが重要です。

RTO と RPO - 違いは何ですか?

RTO は、災害後のダウンタイムの望ましい制限値であり、システムをどれだけ早く復元する必要があるかを示します。一方、RPO は許容可能なデータ損失の制限であり、システムが損失しても許容できるデータ量を示します。

適切な DRaaS (Disaster Recovery as a Service) ソフトウェアを選択すると、企業はデータ損失を最小限に抑えながら RTO および RPO の目標を達成する強力なソリューションを実装できるようになります。

この記事では、RTO と RPO を測定する方法、バックアップ事業継続計画におけるこれらの指標の役割、ビジネスの RTO と RPO の目標を定義して達成する方法について説明します。

目標復旧時間 (RTO) とは何ですか?

目標復旧時間 (RTO) は、ビジネス運営に大きな影響を与えないように、ダウンタイム後にシステムまたはアプリケーションをどれくらいの速さで復旧する必要があるかを計算するのに役立つ重要な指標です。つまり、RTO は、許容できるダウンタイムの尺度です。

予期しない停止が発生した場合、1 つまたは 2 つのシステムに障害が発生する可能性があり、これが解決されるまでダウンタイムが発生することになります。そのため、業務が中断されないようにシステムを復元する時間を決定する必要がある状況になります。ここで RTO が登場します。

RTO を定義するには、各システムの許容ダウンタイムを理解する必要があり、アプリケーションごとに異なる RTO が存在する可能性があります。 RTO メトリックを定義したら、ダウンタイムからの迅速な復元を成功させるために必要なリカバリ戦略とテクノロジを含むリカバリの計画を立てる準備が整います。

目標復旧時点 (RPO) とは何ですか?

目標復旧時点 (RPO) は、ビジネスが耐えることができ、業務運営に影響を与えることなく機能を継続できるデータ損失の量について設定する指標です。

RPO を決定するには、データの重要度を評価して、すべてのデータを回復する必要があるのか、一部のデータを回復する必要があるのかを知る必要があります。比較的重要性が低く、復元する必要のないデータも存在する可能性があります。これに基づいて、システムの RPO を定義できます。データの重要性が高いほど、RPO の値は小さくなるはずです。

RPO の決定は、データの重要度に基づいてデータをバックアップする頻度を設定するのに役立つため、バックアップ計画の重要な部分です。

RTO と RPO の違い

RTO と RPO は、バックアップおよび災害復旧計画に関連する重要な要素です。 RTO と RPO はどちらも時間単位で定義および測定されます。 RTO と RPO は似ているように思えますが、いくつかの大きな違いがあります。

目標復旧時間 (RTO)	目標復旧時点 (RPO)
回復までの許容可能なダウンタイムに関連します。	許容可能なデータ損失に関連します。
復元にかかる時間に関係します。	バックアップの頻度に関係します。
最新データで正常に戻すことに関する。	最新の復元データがどうなるかに関連します。
システム全体、アプリケーションのみ、またはより詳細なレベルの復元など、目標を達成するために必要な復元テクノロジーに焦点を当てています。	適切な間隔でシステムのバックアップを自動化することに重点を置きます。

RTO と RPO: ビジネスのダウンタイムを最小限に抑える方法

IT のダウンタイムは、システムのクラッシュ、ネットワークやアプリケーションの障害、ランサムウェア攻撃によるデータ損失、自然災害によるサイトの災害など、さまざまな理由で発生します。前述の予期せぬ事態が発生した場合、プロセスが停止し、コストが増加する可能性があります。

アプリケーションは非常に重要であり、常に利用できる必要があります。ビジネスの重要なアプリケーションに障害が発生すると、アプリケーションサービスが中断され、データの損失も発生します。これは短期的および長期的にビジネス運営に直接的な影響を及ぼし、生産性、収益、ブランドに影響を与えます。極端な場合には、会社が倒産してしまう可能性もあります。

アプリケーションの許容ダウンタイムはビジネスによって異なりますが、ここで重要な要素は、アプリケーションの可用性を迅速に回復してダウンタイムを削減することです。

システムをタイムリーに稼働させるには、すべての企業が確実なデータ保護戦略、つまりバックアップと災害復旧計画を策定する必要があります。ビジネスのバックアップおよび災害復旧計画を選択するときは、より短い RTO と RPO を提供するソリューションを探す必要があります。これにより、ダウンタイムを最小限に抑え、必要に応じてシステムを復元することでビジネスの継続性を確保できます。

RTO および RPO メトリクスを無視するリスク

RTO および RPO メトリクスを正しく評価して定義すると、ダウンタイムに関連するリスクを最小限に抑えるのに役立ちます。これらの指標は、ビジネス回復目標とサービスレベルアグリーメント (SLA) 管理に合わせて調整する必要があります。

RTO と RPO を適切に定義しないと、軽度から重度までのあらゆるレベルのリスクが発生する可能性があります。さらに、必要な時点からデータを復元できなくなるため、データが失われ、ビジネスプロセスが中断される可能性があります。さらに、必要な時間内にシステムを起動できなくなります。

上記のどちらの場合でも、業務の中断は生産性の損失につながる可能性があります。最悪の場合、これは収益の損失につながり、ビジネスの評判の低下などの深刻な影響を引き起こす可能性があります。

バックアップおよび災害復旧計画で RTO と RPO を達成する方法

検討しているバックアップおよび災害復旧ソリューションでは、SLA に保証された RPO と RTO が指定されています。選択したバックアップおよび災害復旧ソリューションが、RTO と RPO という復旧目標を確実に達成できるように常に注意してください。

バックアップおよび災害復旧ソリューションは、ビジネスの RTO および RPO 目標を達成するための複数の機能を提供します。ビジネスがほぼゼロの RTO と RPO を達成するのに役立つ、バックアップおよび災害復旧ソリューションで探す必要がある重要な機能のいくつかを見ていきます。

柔軟なスケジュールポリシー

今日のバックアップおよび災害復旧ソリューションは、アプリケーションの RPO を定義する柔軟なスケジュールポリシーを提供します。スケジュールポリシーを使用すると、数分ごと、数時間ごと、または 1 日に 1 回など、定期的な間隔で自動バックアップを実行できます。これにより、RPO の実装がはるかに簡単になります。

継続的データ保護 (CDP) により、システム/アプリケーションに変更が加えられるたびに、変更が即座にバックアップまたはレプリケートされます。これにより、企業が 2 つのスケジュールされたバックアップの間に生成されたデータを失うリスクがあるという問題が解決され、ゼロ RPO を達成できるようになります。ただし、重要なワークロードに対して CDP を有効にすると、より多くのリソースが使用されるため、パフォーマンスや安定性の問題が発生する可能性があります。これらの理由から、CDP はファイルレベルのバックアップに広く使用されています。

ほぼ継続的なデータ保護をほぼゼロに設定し、定期的に実行できます。これは CDP の効果にほぼ近く、スナップショットベースのテクノロジなどを使用したイメージレベルのバックアップ/レプリケーションを実行するために有効にすることができます。市場のほとんどのバックアップおよび災害復旧ソリューションでは、重要なシステムに対して 15 分未満のほぼゼロの RPO を達成できます。

即時回復機能

ビジネスには、即時リカバリによって達成できる、ほぼゼロの RTO 目標を達成するためのオプションが必要です。

すべての企業がバックアップおよび災害復旧計画の一環として必要とするインスタントリカバリ機能の 1 つは、バックアップされたマシンをバックアップストレージから即時起動して準備完了状態の仮想マシンとしてビジネスオペレーションを継続できる機能です。

最新のバックアップから、またはバックアップストレージ上の暗号化および圧縮形式のままのバックアップデータを使用して、任意の時点から、仮想環境内のマシンをすぐに起動できます。重要なシステムを数分以内に稼働させ、ほぼゼロの RTO を達成しながらビジネスの継続性を確保できるようになりました。

これにより、ダウンタイムを最小限に抑えることができ、すべての Tier 1 ミッションクリティカルシステムはビジネスに影響を与えることなく動作し続けます。後で、即時に起動した仮想マシンを運用環境に移行して、永続的なリカバリを行うことができます。

きめ細かなリカバリ

バックアップおよび災害復旧計画におけるきめ細かなリカバリの役割は重要な役割を果たします。必要なデータのみを復元する機能を提供します。

このオプションを使用すると、ファイルまたはアプリケーション項目を選択してバックアップから直接復元できます。ファイルを誤って削除してしまった場合でも、その特定のファイルを簡単に選択して復元できます。また、データベース全体やアプリケーション全体を回復する必要はなく、特定のメールまたはメールボックスをすぐに復元できます。これで、数分の RTO を達成できるようになります。これにより、個々のアイテムを回復するために毎回マシン全体を復元する必要がなくなり、時間とリソースが節約されます。

フェイルオーバーによるライブレプリケーション

ライブレプリケーションを使用すると、運用ワークロードの正確なコピーを別のサイトに作成し、変更をレプリカマシンに頻繁に複製して、ほぼゼロの RPO を構成できます。

ソースマシンが停止や破損により使用できなくなった場合は、フェイルオーバー操作をすぐに実行して、運用操作をレプリカマシンにシームレスに切り替えることができます。ダウンタイムや影響が発生することなく、ほぼゼロの RTO 目標を達成しながらビジネス運営を継続できます。 RTO と RPO の両方がゼロに近い場合は、レプリケーションとフェイルオーバーの機能を活用して、運用ワークロードを常に利用可能な状態に保つことができます。

ディザスタリカバリのためのオフサイトコピー

災害は誰も予測できません。サイト全体に障害が発生すると、ローカルのバックアップにもアクセスできなくなり、データを回復できずにビジネスが危険にさらされます。

このため、バックアップの追加コピーを作成し、それをリモートの場所 (ローカルデータセンターまたはパブリッククラウドのいずれか) に保存できる災害復旧計画を立てることをお勧めします。オフサイトバックアップを使用すると、災害発生時にシステムを回復し、ビジネス回復目標を簡単に達成できます。

守り、回復し、繰り返す

バックアップおよび災害復旧計画は、災害シナリオに対処する上で非常に重要な部分です。上で説明したように、災害発生時に運用の継続性を確保するための主要な側面の 1 つは、バックアップおよび災害復旧計画で RTO および RPO メトリクスを正しく指定することです。

RTO と RPO の値を決定し、SLA 監視ツールなどのビジネス SLA を満たすソリューションを実装して、ビジネスを常に利用できる状態に保ちます。