FTサーバとは?ハードウェア障害が起きても止まらない高可用性サーバー

システム開発・テクノロジー
FTサーバとは?ざっくりと3行で
  • Fault Tolerant(耐障害性)の略で、CPUやメモリ・I/Oなどの主要コンポーネントを全て二重化して1箇所が故障してもサービスを無停止で継続できる高可用性サーバーのこと
  • 一般的なHAサーバー(障害検知後にフェイルオーバー)とは異なり「障害が発生した瞬間も一切のダウンタイムなしに継続稼働する」フォールトトレランス(無停止耐障害)を実現する
  • 金融システム・証券取引・医療機器・交通管制・電力系統など「1秒でも止まることが許されない」ミッションクリティカルなシステムで使われており、通常のサーバーと比べて価格が数倍〜十数倍になる

【深掘り】これだけ知ってればOK!

FTサーバの仕組みを理解しよう。FTサーバはCPU・メモリ・マザーボード・電源・I/Oを全て二重化(ロックステップ方式)して完全に同期させる。2つのCPUが完全に同じ命令を同じタイミングで実行しており、片方が故障した瞬間に全ての処理がもう片方に自動的に引き継がれる。ソフトウェアからはあたかも1台のサーバーが動いているように見えるため、アプリケーションの変更なしにフォールトトレランスを実現できる。

FTサーバが採用される典型的なシステムを理解しよう。金融・証券システム:株式取引システムが1秒でも止まると取引不能・多大な損失が発生する。病院の医療機器:人工呼吸器や手術支援システムが停止すると生命に関わる。交通管制:電車の制御システム・航空管制が停止すると大事故につながる。電力系統:発電所・変電所の制御システムが停止すると大規模停電になる。

FTサーバとHAサーバー(ハイアベイラビリティサーバー)の違いを整理しよう。HAサーバー:障害を検知してスタンバイ機に切り替えるフェイルオーバー方式。切り替え時に数秒〜数分のダウンタイムが発生する。FTサーバ:全コンポーネントを二重化してロックステップで動作させる。ダウンタイムがゼロ(またはマイクロ秒未満)。FTサーバはHAサーバーより大幅にコストが高いため、ゼロダウンタイムが本当に必要なシステムだけに採用する。

FTサーバの代表的な製品としてStratus ftServer・NEC Express5800/FTシリーズ・HP Integrity NonStopがある。クラウド時代においてもミッションクリティカルなシステムには依然としてFTサーバが使われているが、クラウドのマルチAZ構成+データベースのアクティブ-アクティブクラスタで実質的に同等の可用性を実現する設計も増えている。

FTサーバの主要な仕様としてRAS機能(Reliability, Availability, Serviceability)がある。信頼性(Reliability):故障が起きない・起きても影響しない設計。可用性(Availability):稼働率99.999%以上(ファイブナイン)の達成。保守性(Serviceability):稼働中にハードウェアを交換できる(ホットスワップ)。

よくある誤解

FTサーバがあれば絶対に止まらないと思っている

FTサーバはハードウェア障害への耐性は非常に高いが、ソフトウェアのバグ・データセンター全体の停電・自然災害には対処できない。FTサーバはハードウェアSPOFを排除するための手段であり、完全な無停止を保証するものではない。DR(災害対策)との組み合わせが必要だ。

FTサーバとRAIDは同じものだと思っている

RAIDはストレージ(ディスク)の冗長化技術でFTサーバの構成要素の一つに過ぎない。FTサーバはCPU・メモリ・マザーボード・電源・I/O全体を二重化するより広範な概念だ。RAIDだけではCPUやメモリの故障には対応できない。

会話での使われ方

ITKAGYO運営者デプロイ太郎のアイコン画像

この基幹システム、証券取引で使うので1秒のダウンタイムも許容できません。FTサーバの採用を検討してください。

インフラアーキテクトがミッションクリティカルなシステムにFTサーバの採用を提案している場面。

ITKAGYO運営者デプロイ太郎のアイコン画像

FTサーバのCPUが1つ故障しましたが、システムは無停止のまま継続動作しています。故障部品をホットスワップで交換します。

インフラエンジニアがFTサーバの障害時の動作と対処を報告している場面。フォールトトレランスの効果を示している。

ITKAGYO運営者デプロイ太郎のアイコン画像

コスト面でFTサーバは高すぎるので、クラウドのマルチAZ構成とアクティブ-アクティブDBクラスタの組み合わせで同等の可用性を目指す設計にしました。

クラウドアーキテクトがFTサーバの代替としてクラウドネイティブな高可用性設計を提案している場面。

【まとめ】3つのポイント

  • 主要コンポーネント全て二重化でダウンタイムゼロを実現する無停止サーバー:ロックステップ方式で全コンポーネントを完全同期させてハードウェア障害が発生した瞬間も無停止で継続稼働する金融・医療・交通管制などのミッションクリティカルシステム向けサーバーだ
  • HAサーバー(フェイルオーバー)との違いはダウンタイムゼロの保証:HAサーバーは障害後の切り替えに数秒〜数分のダウンタイムが発生するのに対しFTサーバはダウンタイムがゼロのため価格は数倍以上になるがゼロダウンタイムが本当に必要なシステムには不可欠だ
  • クラウド時代はマルチAZ+アクティブ-アクティブで同等の可用性も実現可能:クラウドのマルチAZ構成とデータベースのアクティブ-アクティブクラスタを組み合わせることでFTサーバと同等の高可用性をより柔軟でスケーラブルな形で実現できる設計も増えている

よくある質問

Q
FTサーバとHAサーバー(高可用性サーバー)の違いは何ですか?
A

FTサーバは全コンポーネントを二重化してダウンタイムゼロを実現します。HAサーバーは障害を検知してスタンバイ機に切り替えるフェイルオーバー方式で、切り替え時に数秒〜数分のダウンタイムが発生します。

Q
FTサーバの価格はどのくらいですか?
A

一般的なラックサーバーの数倍〜十数倍の価格になります。数百万円〜数千万円の製品が多く、保守費用も高額です。そのためゼロダウンタイムが本当に必要なシステムにのみ採用されます。

Q
FTサーバはクラウドでも使えますか?
A

パブリッククラウドではFTサーバ相当のサービスは一般的に提供されていませんが、オンプレミスのFTサーバとクラウドを組み合わせたハイブリッド構成で使うことはできます。クラウドではマルチAZ構成とアクティブ-アクティブクラスタで高可用性を実現することが一般的です。

Q
ロックステップとはどういう意味ですか?
A

FTサーバで2つのCPUが全く同じ命令を完全に同期して実行することです。両者の出力が常に一致していることを監視しており、一方が故障して出力が変わった瞬間に故障を検知してもう一方に処理を引き継ぎます。

この用語と一緒に知っておきたい用語

用語 この記事との関連
サーバー サーバーを押さえると本記事の理解がさらに深まります。ネットワークを通じて情報やサービスを提供する側のコンピューターのこと。レストランで料理を運んでくれる給仕係(server)をイメージするとわかりやすいよ
ダウンタイム 次のステップとしてダウンタイムを学ぶと知識が広がります。サーバーやシステムが停止してサービスを利用できなくなる時間のこと。計画的なメンテナンス停止と突発的な障害による停止の2種類がある
可用性 可用性は関連分野でよく登場する重要キーワードです。必要なときにシステムを使える状態を維持し続ける能力のこと。英語でAvailabilityといい、情報セキュリティの三大要素(CIA)の一つに数えられる
コンポーネント コンポーネントは関連分野でよく登場する重要キーワードです。コンポーネントの主要な特徴と用途を理解することで、関連する技術・制度・概念を正確に把握できるようになる
フェイルオーバー フェイルオーバーを押さえると本記事の理解がさらに深まります。システムや機器に障害が発生したとき自動的にスタンバイ機・バックアップシステムに切り替えてサービスの継続を実現する仕組みのこと

【出典】参考URL

https://www.stratus.com/ja/solutions/platforms/everrun/ :Stratus ftServerの公式サイト
https://jpn.nec.com/express/ft/ :NEC FTサーバーの公式ページ
https://e-words.jp/w/FT%E3%82%B5%E3%83%BC%E3%83%90.html :IT用語辞典「FTサーバ」

コメント

「IT用語、難しすぎて心が折れそう……」という方のための、ハードル低めな用語辞典です。

情報レベルは「基礎中の基礎」。会話を止めないためのエッセンスだけを抽出しています。分かりやすさを追求するあまり、時々例え話が暴走しているかもしれませんが、そこは「ほどよく」聞き流していただけると幸いです。
ほどよくIT用語辞典システム開発・テクノロジー
デプロイ太郎のSNSを見てみる!!