データマートとは?DWHとの違いと活用シーン

システム開発・テクノロジー
データマートとは?ざっくりと3行で
  • 巨大なデータウェアハウスから、マーケティング部門や営業部門など特定のチームが使いやすい形でデータを切り出して整えたミニDWHのようなものだよ。
  • 必要なデータだけを集めて事前集計しておくことで、BIツールのクエリ速度が劇的に上がり、現場の分析担当者が自分でレポートを作れるようになる。
  • 「このクエリを実行するたびに数分待ちます」という状態から、ダッシュボードが数秒で表示されるようになる変化は、現場の分析業務のリズムを大きく変える。

【深掘り】これだけ知ってればOK!

データマートという概念は1990年代にデータウェアハウスが企業規模で普及し始めた頃に登場した。当時の考案者の一人とされるBill Inmonはデータマートを「DWHのサブセット」と定義したが、Ralph Kimballは逆に「部門ごとのデータマートをボトムアップで統合してDWHを構築すべき」と主張し、データウェアハウス設計思想の二大流派として現在も続く論争の火種になった。

データマートの設計はビジネスドメインの境界に沿って行うのが基本だ。営業マート・マーケティングマート・財務マートのように部門単位で分離するか、売上分析・顧客分析・在庫分析のようなユースケース単位で分離するかを最初に決める。スタースキーマ(事実テーブルを中心に次元テーブルが放射状に配置された構造)がデータマートの標準設計として広く採用されており、BIツール(Tableau・Power BI・Looker等)との親和性が高い。列指向データベース(Amazon Redshift・Google BigQuery等)上に構築することで、集計クエリのパフォーマンスが大幅に向上する。

モダンデータスタック時代では、dbt(data build tool)を使ってDWH上にデータマートをSQLで定義・管理するアプローチが主流になりつつある。dbtはデータ変換処理をGitで管理し、テスト・ドキュメント・リネージュ(データの流れの追跡)を自動化できるため、データエンジニアリングのベストプラクティスをマート構築に持ち込める。Fivetranなどのデータパイプラインツールと組み合わせることで「ETL→DWH→dbtでマート構築→BI接続」というモダンなデータ基盤が数週間で立ち上げられるようになった。

データマートの乱立に注意が必要だ。部門ごとに独立してマートを作り続けると、同一指標の定義が部門間でズレて「売上の数字がマーケと営業で一致しない」問題が発生する。データカタログやメトリクス層(dbt Metrics等)で指標定義を一元管理する仕組みを同時に整備すること。

指標定義の不統一は技術問題というよりガバナンスの問題だ。たとえば「新規顧客」の定義が、マーケティングでは初回訪問ユーザー、営業では初回受注ユーザーと異なっていると、同じダッシュボードで数字が食い違い、経営会議での意思決定に混乱をきたす。データマート設計の段階でBusiness Glossary(用語集)と指標定義ドキュメントを作成・合意することが必須だ。

よくある誤解

データマートはデータウェアハウスがあれば不要だという誤解

DWHは全社のデータを統合する場所であり、そのまま現場のBIツールに接続すると巨大テーブルへのJOINが発生してパフォーマンスが低下し、現場担当者が自由にクエリを書くのも難しい。データマートは「現場が使いやすい形」に変換するトランスレーション層として必要だ。

データマートを部門ごとに独立して作ればデータガバナンスは後でよいと思っていないか?

ガバナンスを後回しにすると指標定義の乱立と数字の不一致が起き、データへの信頼が失われてDWH・マート全体の活用が停滞する。設計初期段階から指標定義の合意プロセスを組み込むことが長期的なコストを下げる。

会話での使われ方

ITKAGYO運営者・デプロイ太郎のアイコン画像

BIのダッシュボードが重すぎて、朝のミーティングで使えないんですよ。

マーケティング部のアナリストがデータエンジニアにBIパフォーマンスの改善を依頼している場面。データマートの構築が解決策になる状況。

ITKAGYO運営者・デプロイ太郎のアイコン画像

dbtでスタースキーマのマートを作ったら、クエリ時間が8分から3秒になりました。

データエンジニアが社内勉強会でモダンデータスタックによるマート構築の成果を共有している場面。

ITKAGYO運営者・デプロイ太郎のアイコン画像

マーケと営業の売上の数字が毎月ズレてて、どっちを信じればいいかわからなくなってます。

経営企画担当者がCTOとデータ部門長を交えた会議で指標定義の不統一問題を提起している場面。

【まとめ】3つのポイント

  • データマートはDWHから現場が使いやすい形への変換層:部門・ユースケースに特化したスタースキーマ設計でBIツールのクエリ速度を劇的に向上させ、現場担当者の自律的な分析を可能にする。
  • dbtを使ったコード管理でマート構築のベストプラクティスを実現:SQL定義・テスト・ドキュメント・データリネージュをGit管理することで、保守性と信頼性が高いデータマートを維持できる。
  • マート乱立を防ぐにはガバナンスを設計段階から組み込む:指標定義の統一とBusiness Glossaryの整備を初期フェーズから行い、部門間の数字の不一致という最大のリスクを防ぐ。

よくある質問

Q
データマートとデータウェアハウスの違いを教えてください。
A

DWHは全社のデータを統合した大規模なデータリポジトリであり、データマートはその中から特定部門・ユースケース向けに切り出した小規模なデータセットです。DWHが中央図書館なら、マートは各フロアの専門コーナーに相当します。

Q
データマートはどんなツールで構築しますか?
A

Amazon Redshift・Google BigQuery・Snowflakeなどのクラウドデータウェアハウス上にdbtでSQLモデルを定義して構築するのが現在の主流です。BIツールはTableau・Looker・Power BIをマートに直接接続する構成が一般的です。

Q
データマートとデータレイクの違いは何ですか?
A

データレイクは生データをそのまま蓄積する非構造・半構造データの貯蔵庫であり、データマートは構造化・整形済みの分析用データセットです。データレイクのデータをETLで変換してDWHへ載せ、そこからマートを切り出す流れが一般的です。

Q
データマートとデータウェアハウスとの違いは何ですか?
A

DWHは全社横断の統合リポジトリで管理・保守コストが高い代わりに一貫性が担保されており、データマートは特定部門向けに高速アクセスを最適化した軽量なサブセットです。小規模組織ではデータマートだけで運用するケースもあります。

この用語と一緒に知っておきたい用語

用語この記事との関連
データ本記事のテーマと実務上セットで使われることが多い用語です。コンピュータが処理する数値や文字、画像といった事実や資料そのもの、それがデータだ
データウェアハウスデータウェアハウスとの関係を知ると全体像がつかみやすくなります。複数の業務システムからデータを集約し、経営分析・意思決定のために最適化された構造で蓄積・管理するデータベース基盤。DWHと略されることが多い
クエリ本記事のテーマと実務上セットで使われることが多い用語です。クエリの主要な特徴と用途を理解することで、関連する技術・制度・概念を正確に把握できるようになる
ガバナンスガバナンスを押さえると本記事の理解がさらに深まります。組織を健全に運営するために、自分たちで自分たちを適切に管理・統制する仕組みのこと!
データレイクデータレイクを押さえると本記事の理解がさらに深まります。データの種類・形式・用途を問わず生のまま大量に蓄積するストレージ基盤。加工前のCSV・JSON・画像・ログ・動画などあらゆるデータをそのまま保存しておいて、後で必要に応じて分析する

【出典】参考URL

https://docs.getdbt.com/docs/introduction:dbt公式ドキュメント — データ変換ツールdbtの概要
https://www.kimballgroup.com/data-warehouse-business-intelligence-resources/kimball-techniques/dimensional-modeling-techniques/:Kimball Group — スタースキーマとデータマート設計手法

コメント

「IT用語、難しすぎて心が折れそう……」という方のための、ハードル低めな用語辞典です。

情報レベルは「基礎中の基礎」。会話を止めないためのエッセンスだけを抽出しています。分かりやすさを追求するあまり、時々例え話が暴走しているかもしれませんが、そこは「ほどよく」聞き流していただけると幸いです。
ほどよくIT用語辞典システム開発・テクノロジー
デプロイ太郎のSNSを見てみる!!