単回帰分析とは?1本の直線でデータの関係を読み解く統計手法

マーケティング・戦略
単回帰分析とは?ざっくりと3行で
  • 「広告費を100万増やしたら売上はどのくらい増えるか」を1本の直線(回帰直線)で表して予測する統計手法のこと。説明変数が1つだから「単」回帰分析と呼ぶ
  • 数式は y = ax + b(yが予測したい値、xが原因となる変数、aが傾き、bが切片)で表され、どれだけ直線が当てはまっているかを決定係数R²で評価する
  • シンプルな分析手法のため入門として学ばれることが多いが、「説明変数が1つでは現実を説明しきれない」場合は複数の変数を使う重回帰分析に進む必要がある

【深掘り】これだけ知ってればOK!

統計学では相関関係と因果関係は別物だという大原則がある。単回帰分析で「気温とアイスの売上に強い正の相関がある」ことを示せても、「気温が上がるからアイスが売れる」という因果関係の証明にはならない。アイスが売れているのは気温ではなく夏のイベントや広告の影響かもしれない。分析結果を解釈するとき、相関と因果を混同しないことが実務での必須知識だ。

単回帰分析の実際の流れを追ってみよう。あるパン屋が「駅の乗降者数と1日の売上」の関係を調べるとする。まず過去データを散布図にプロットし、直線的な傾向があるかを目で確認する。次に最小二乗法という計算手法でデータへの当てはまりが最もよい直線の傾き(a)と切片(b)を求める。Excelなら関数やグラフ機能で自動的に求められるため、計算式を暗記する必要はない。

求めた回帰直線の信頼性を評価するのが決定係数(R²)だ。0から1の間の値を取り、1に近いほど直線がデータをよく説明していることを意味する。一般にビジネス分析ではR²が0.7以上で強い説明力があると判断されることが多い。0.3を下回る場合は他の要因が売上に影響している可能性が高く、変数の選び直しか重回帰分析への移行を検討すべきシグナルになる。

単回帰分析は外挿(予測範囲の外への延長)に使うと危険だという点は実務で見落とされがちだ。たとえば過去データが「気温20〜35度でのアイス売上」をカバーしていた場合、気温10度のときの売上を回帰直線で外挿すると大きくズレる可能性がある。回帰直線はあくまでデータが存在する範囲内での予測に留めることが原則だ。

Excelを使えば単回帰分析は数分で実施できる。データを2列に並べて散布図を作成し、「近似曲線の追加」で「線形」を選び「数式をグラフに表示」にチェックを入れるだけで回帰直線と式が表示される。R²もチェックを入れれば同時に表示される。BIツール(Tableau・Power BI)でも同様の操作が可能で、データ分析の入り口として今最も広く使われている分析手法のひとつだ。

よくある誤解

相関係数とR²は同じものだという誤解

相関係数(r)は2変数の線形関係の強さと方向を示す指標(-1から1の間)で、R²(決定係数)は回帰直線がデータをどれだけ説明できるかの割合(0から1の間)だ。単回帰分析ではR²=r²の関係があるため数値として連動するが、意味は異なる。「R²が高い=因果関係がある」という解釈も誤りで、あくまで「直線への当てはまりが良い」という意味にとどまる。

単回帰分析さえできればすべての予測に使えると思っている

現実のビジネス現象はほぼ必ず複数の要因が絡み合っている。売上に影響するのは広告費だけでなく、競合の動き・季節性・経済状況・立地など多岐にわたる。単回帰で「広告費→売上」の関係だけを見てもモデルが単純すぎる場合が多い。Rを上げるために変数を増やす重回帰分析への理解も合わせて持っておくことが実践的なデータ分析力につながる。

会話での使われ方

ITKAGYO運営者デプロイ太郎のアイコン画像

広告費と問い合わせ件数で単回帰分析してみたら、R²が0.82でかなり強い相関が出ました。来月の予算増額の根拠に使えそうです。

マーケターが上司への予算申請ミーティングで分析結果を報告している場面。データに基づいた予算交渉をするためにExcelで分析した結果を活用している。

ITKAGYO運営者デプロイ太郎のアイコン画像

単回帰だとR²が0.4しか出ないですね。季節要因も変数に入れた方が良さそうなので、重回帰に切り替えて試してみます。

データアナリストが分析レポートの中間報告でモデルの改善方針をチームに伝えている場面。説明力不足のシグナルを数値で示している。

ITKAGYO運営者デプロイ太郎のアイコン画像

単回帰分析ってExcelでできるんですか?統計ソフトが必要だと思ってました。

データ分析の社内勉強会で参加者が講師に質問している場面。Excelの散布図機能で簡単に実施できることを知って驚いているシチュエーション。

単回帰分析の歴史

回帰分析の歴史は意外に古く、19世紀の遺伝学研究にまで遡る。現代のビジネス分析で当たり前に使われるこの手法がどのように生まれたかを知ることは、統計リテラシーの深化につながる。

出来事
1886フランシス・ゴルトンが親の身長と子の身長の関係を研究し「回帰(Regression)」という概念を提唱。親が高身長でも子は平均へ「回帰」する傾向を発見した
1900年代初頭カール・ピアソンが相関係数の概念を確立し、回帰分析の数学的基盤が整備された
1950年代〜コンピュータの普及により複雑な回帰計算が現実的になり、経済・医学・社会科学など多分野で広く活用されるようになった
1990年代〜ExcelへのSTATISTICS関数・散布図機能の搭載により、統計の専門家でなくてもビジネス現場で回帰分析を使える時代になった
現在Python(scikit-learn・statsmodels)・R・Tableau・Power BIなど多彩なツールで単回帰分析が実装できる。機械学習の基礎としても線形回帰は重要な位置を占めている

【まとめ】3つのポイント

  • 1本の直線で「原因→結果」の関係を数値化する:単回帰分析はy=ax+bという式で2変数の関係を表し、xが変わったときにyがどのくらい変化するかを定量的に示すことができる
  • R²0.7以上が実務判断の目安:決定係数R²がデータへの当てはまりを示し、ビジネス分析では0.7以上で強い説明力があると判断するのが一般的な基準だ
  • 相関は因果ではなく外挿には使えない:回帰分析の結果を過信しないことが重要で、R²が高くても因果関係の証明にはならず、データの範囲を超えた外挿予測はズレが大きくなる点に注意が必要だ

よくある質問

Q
単回帰分析に必要なデータ数はどのくらいですか?
A

最低30件以上のデータがあると統計的に安定した結果が得られやすいとされています。10件以下では偶然の影響が大きくなりすぎて信頼性が低下します。ただし「多ければ多いほどよい」というわけではなく、データの質(外れ値がないか、測定条件が一定か)の方が件数より重要な場合があります。

Q
Excelで単回帰分析をするには何を使えばいいですか?
A

最も簡単な方法は散布図を作成して「近似曲線の追加→線形→グラフに数式を表示・R²を表示」にチェックを入れることです。より詳細な統計結果(p値・標準誤差など)が必要な場合は、Excelの「データ分析」アドインを有効にして「回帰分析」を選択すると詳細なレポートが出力されます。

Q
外れ値があると回帰分析の結果はどうなりますか?
A

単回帰分析は外れ値の影響を受けやすいという弱点があります。1〜2個の外れ値が回帰直線の傾きを大きく変えてしまうことがあります。分析前に散布図で外れ値を目視確認し、測定ミスや特殊事情によるデータは除外するか別途注記するのが正しい手順です。外れ値を含めたまま分析すると、実態と異なる回帰式が求まる危険があります。

Q
単回帰分析と重回帰分析の違いは何ですか?
A

説明変数の数が違います。単回帰分析は「広告費→売上」のように説明変数が1つの場合で、重回帰分析は「広告費・気温・曜日→売上」のように複数の説明変数を同時に使う場合です。現実のビジネスは複数の要因が絡み合うため、実務での分析は重回帰が多くなります。単回帰は重回帰を理解するための入門として位置付けられ、まず単回帰をマスターしてから重回帰に進むのが定石です。

【出典】参考URL

https://globis.jp/article/dic_h7_erd5ec/ :グロービス「単回帰分析とは?」(MBA経営辞書)
https://udemy.benesse.co.jp/data-science/data-analysis/regression-analysis.html :回帰分析の基礎と活用事例(Udemy)
https://www.asmarq.co.jp/column/column-cat/glossary/analysis2/regression-analysis/ :回帰分析の考え方とビジネス応用

コメント

「IT用語、難しすぎて心が折れそう……」という方のための、ハードル低めな用語辞典です。

情報レベルは「基礎中の基礎」。会話を止めないためのエッセンスだけを抽出しています。分かりやすさを追求するあまり、時々例え話が暴走しているかもしれませんが、そこは「ほどよく」聞き流していただけると幸いです。
ほどよくIT用語辞典マーケティング・戦略
デプロイ太郎のSNSを見てみる!!
タイトルとURLをコピーしました