- 統計学者ロナルド・フィッシャーが提唱した科学的に信頼性の高い実験結果を得るための「反復(繰り返し)・無作為化(ランダム割り付け)・局所管理(ブロック分け)」という3つの基本原則のこと
- これらの原則を守ることで偶然や外部要因による影響を排除して「処理の効果」だけを正確に測定できる実験設計が実現し、科学的・統計的に有効な結論を導ける
- 農業実験から生まれた原則だが、現代のA/Bテスト・臨床試験・マーケティング実験・品質管理まで幅広い分野で応用されている
【深掘り】これだけ知ってればOK!
A/Bテストへの応用を理解しよう。Webサイトの新しいCTAボタンの効果を測定するA/Bテストでフィッシャーの3原則を確認しよう。①反復:十分なサンプル数(数百〜数千セッション以上)のデータを収集する。②無作為化:どのユーザーにAを見せるかBを見せるかをランダムに決める(特定の属性のユーザーに偏らせない)。③局所管理:デバイス・時間帯・流入元など結果に影響する変数を管理してセグメント別に分析する。
無作為化が重要な理由を医薬品の臨床試験で理解しよう。新薬の効果を検証する際に、医師が「症状が重い患者に新薬を投与する」という割り付けをすると「もともと重症だったから治りにくい」という交絡因子が発生する。ランダムに新薬群と対照群に割り付けることで、患者の重症度が両群に均等に分散されて純粋に薬の効果だけを測定できる。
「反復」の原則はサンプルサイズ計算と密接に関係している。効果量(どのくらいの差を検出したいか)・有意水準(α:偽陽性のリスク)・検出力(β:偽陰性のリスク)を事前に設定して必要なサンプル数を計算することが統計的に意味のある実験設計の前提だ。Google OptimizelyやPower Calculatorなどのツールでサンプルサイズを事前に算出できる。
よくある誤解
A/Bテストは何日か試してみれば結果が分かると思っている
A/Bテストの信頼性はサンプル数と統計的有意水準によって決まる。数日・数百セッションの結果で判断すると偶然の変動を効果と誤認するリスクが高い。事前にサンプルサイズ計算をして必要なデータ量が集まってからテストを終了することが正しい進め方だ。
ランダム割り付けは面倒なので担当者が判断して割り付けてよいと思っている
担当者による恣意的な割り付けは選択バイアスを生む。例えばエンゲージメントが高そうなユーザーに新デザインを見せれば当然良い結果になる。ランダム割り付けは外部要因の影響を排除してテストの効果だけを正確に測定するために不可欠な手続きだ。
会話での使われ方

このA/Bテスト、ユーザーをランダムに割り付けていますか?特定のデバイスユーザーだけに新デザインを見せていたら無作為化ができていないので結果が信頼できません。
データアナリストがA/Bテストの無作為化の問題を指摘している場面。フィッシャーの3原則の無作為化の重要性を示す。




サンプルサイズはもう十分ですか?事前に計算した1,500セッションに到達したのでテストを終了してよいタイミングです。
A/Bテストの担当者が事前に設定したサンプルサイズ基準に基づいてテスト終了を判断している場面。




この実験、平日と週末で購買行動が違うはずなので局所管理として曜日ブロックで分けて分析しましょう。
統計担当者が局所管理の原則を適用してA/Bテストの精度を高める提案をしている場面。
【まとめ】3つのポイント
- 反復・無作為化・局所管理の3原則で科学的に信頼性の高い実験を設計:偶然や外部要因の影響を排除して処理の効果だけを正確に測定するためにフィッシャーの3原則は農業実験から現代のA/Bテストまで科学的実験設計の基盤として機能している
- A/Bテストでは十分なサンプル数と完全なランダム割り付けが必須:事前のサンプルサイズ計算で必要なデータ量を確保し完全なランダム割り付けでバイアスを排除することが統計的に意味のあるA/Bテスト結果の前提条件だ
- 早期停止バイアスを避けて事前に決めた条件でテストを終了する:途中で有意差が出ても事前に設定したサンプルサイズに達するまでテストを継続することが偶然の変動を効果と誤認する第一種の過誤を防ぐ統計的に正しいA/Bテストの進め方だ
よくある質問
-
Qフィッシャーの3原則はいつ・誰が提唱しましたか?
-
A
ロナルド・フィッシャーが1935年に著書「実験計画法」で提唱しました。農業試験場での実験データ分析から生まれた原則で、現代の統計的実験設計の基礎になっています。
-
QA/Bテストで必要なサンプルサイズはどうやって計算しますか?
-
A
効果量(検出したい最小の差)・有意水準(通常α=0.05)・検出力(通常1-β=0.8)の3つを設定してサンプルサイズを計算します。Optimizely・Evan’s Power Calculatorなどのオンラインツールを使って簡単に計算できます。
-
Q無作為化(ランダム割り付け)とランダムサンプリングはどう違いますか?
-
A
ランダムサンプリングは母集団から標本を無作為に抽出する方法です。無作為化(ランダム割り付け)は実験参加者を処理群(実験群)と対照群にランダムに割り付ける方法です。どちらもバイアスを排除するための手続きですが使う場面が異なります。
-
Q局所管理(ブロック分け)はA/Bテストでどう使いますか?
-
A
A/Bテストのデバイス別・流入元別・曜日別などのセグメント分析がブロック分けに相当します。結果に影響する要因を事前にブロックとして管理することで、その要因の影響を取り除いてより正確な効果測定ができます。
この用語と一緒に知っておきたい用語
| 用語 | この記事との関連 |
|---|---|
| テスト | テストとの関係を知ると全体像がつかみやすくなります。テストというのは、作ったソフトウェアが意図した通りに正しく動くかどうかを確かめる検証作業のことなんだ。 |
| バイアス | 本記事のテーマと実務上セットで使われることが多い用語です。思考やデータ判定における偏りや先入観のこと! |
| データ | 本記事のテーマと実務上セットで使われることが多い用語です。コンピュータが処理する数値や文字、画像といった事実や資料そのもの、それがデータだ |
| アイコン | アイコンを押さえると本記事の理解がさらに深まります。アプリやファイル、操作ボタンなどをひと目でわかる小さな絵で表したもの、それがアイコンだ |
| デバイス | 次のステップとしてデバイスを学ぶと知識が広がります。パソコンやスマホ、それにつなぐ周辺機器まで、ITで使う機器全般を指す言葉、それがデバイスだ |
【出典】参考URL
https://www.amazon.co.jp/dp/B07MXWGWMV :フィッシャーの「実験計画法」(原著)
https://www.optimizely.com/optimization-glossary/ab-testing/ :OptimizelyによるA/Bテストの解説
https://support.google.com/analytics/answer/1745147?hl=ja :GoogleアナリティクスによるA/Bテストの説明


コメント