- Service Level Agreementの略(読み:エスエルエー)。サービス提供者と利用者の間で、品質水準を数値で定めた合意書・契約だ
- 月間稼働率・応答時間・障害復旧時間などをパーセンテージや時間で明記し、下回った場合の返金・補償ルールまで規定するのが一般的だ
- クラウドサービスやレンタルサーバーを選ぶ際の重要な判断基準の一つ。「99.9%」と「99.99%」では年間ダウンタイムが10倍近く違うことを知っておくと選定眼が上がる
【深掘り】これだけ知ってればOK!
SLAが存在する理由はシンプルだ。「クラウドサービスを使っていたら突然止まった。保証はどうなるの?」という疑問に、事前に答えを用意しておくための書類がSLAだ。稼働率・応答速度・障害対応時間などが数値で定義されていれば、サービス選定時の比較が客観的にできる。
AWSのEC2を例にとると、マルチAZ(複数の地理的ゾーン)を使う場合の月間稼働率SLAは99.99%を保証している。これを下回ると使用料の10〜30%がサービスクレジットとして返金される仕組みだ。クラウド各社のSLAは公式ドキュメントで公開されており、契約前に必ず確認すべき重要情報だ。
SLAで返金されるのはあくまで利用料金の一部に過ぎない。システムが止まったことで発生した売上損失・機会損失・顧客への賠償は含まれないのが通常だ。ミッションクリティカルなシステムには、SLAの数値だけでなく冗長構成・バックアップ・災害復旧計画(DR)を組み合わせた多重の保護が必要だ。
よくある誤解
SLAを満たしていれば絶対に止まらないわけではない
SLAは「止まらないことの保証」ではなく「止まった場合の補償ルール」だ。99.99%のSLAでも年間約52分の停止は許容範囲内となる。重要システムでは冗長化や自動フェイルオーバーで停止影響を最小化する設計が別途必要だ。
SLA違反の補償は自動で行われないことが多い
多くのクラウドサービスでは、SLA違反を検知しても自動で返金されるわけではない。利用者側から申請して初めて補償が受けられる仕組みが一般的だ。稼働率の監視ログを保持しておくことが補償申請の前提条件になる。
会話での使われ方

このクラウドサービスのSLA、99.9%って書いてありますが、月に何時間止まっていいことになりますか?
クラウドサービス選定の検討MTGで、非エンジニアの担当者がエンジニアに具体的な影響を確認している場面。




SLA違反になったので利用料の返金申請をします。モニタリングのログをエビデンスとして添付して送ります。
クラウドの障害後にインフラ担当者がベンダーへの申請手続きを進めている場面。




重要な決済システムはSLAだけじゃ不安なので、フォーナインのSLAのサービスを選んだ上で冗長化も組み合わせます。
要件定義フェーズで、インフラアーキテクトがシステム信頼性設計の方針を説明している場面。
【まとめ】3つのポイント
- 「数値で定めたサービス品質の契約書」:SLAはクラウドや通信サービスの稼働率・応答時間・復旧時間を数値で約束し、未達の場合の補償ルールを定めた合意文書だ
- 稼働率の小数点の違いが年間ダウンタイムを10倍変える:99%と99.9%と99.99%では許容されるダウンタイムが桁違いに異なる。要件に合ったSLA水準のサービスを選ぶことがシステム設計の基本だ
- SLAはあくまで補償ルール、止まらない保証ではない:SLAを満たしていても停止はありうる。重要システムには冗長化・DR・バックアップを重ね、停止影響を最小化する設計が別途必要だ
よくある質問
- QクラウドサービスのSLAはどこで確認できますか?
- A
各クラウドベンダーの公式サービス規約ページで公開されています。AWSはService Level Agreements、AzureはSLAサマリー、GCPはCloud Platform SLAとして検索すると各サービスのSLA一覧が確認できます。
- QSLAを下回った場合の補償はどのくらいですか?
- A
サービスによって異なりますが、AWSでは月間稼働率が99.5〜99.99%を下回った場合に利用料の10〜30%のサービスクレジットが返金されます。現金ではなくサービスクレジット(次月の利用料に充当)での補償が多い点に注意が必要です。
- QSLAとSLOの違いは何ですか?
- A
SLAはベンダーと顧客の外部契約です。SLOはサービスチームが内部で設定する目標値です。SLAが99.9%なら、SLOは99.95%に設定してSLAを下回るリスクを下げるというように、SLOはSLAより高めに設定するのが設計の基本です。
- QSLAとSLIの違いは何ですか?
- A
SLIは実際のサービスの計測値で、稼働率・応答時間・エラー率などの実績数値です。SLOはその目標値、SLAは外部との契約値です。SLI→SLOで目標達成を管理し、SLAの契約を守るという3層構造で信頼性を管理するのがSRE(サイトリライアビリティエンジニアリング)の基本的なアプローチです。
【出典】参考URL
https://www.idcf.jp/words/sla/ :SLAの定義と稼働率の解説
https://bcblog.sios.jp/what-is-sla/ :SLAとダウンタイムの計算方法


コメント