
皆さんこんにちは
今回は分析する上で基本となるクロス集計について考えます。
クロス集計とは2変数のカテゴリの組み合わせについてデータ個数や比率を集計したものです
クロス集計を行うと2変数や複数変数間の関連性を見ることができます
例えば
アプリのユーザ数が今月急に落ちたと分かったらその原因を考え調査することになると思いますが
どこが減少しているのか原因を追求しやすくなるでしょう。
OSなのか会員の年代なのか性別なのか見つけることができれば考えやすくなります。
クロス集計はアンケートの集計から様々なデータマイニングの手法の基礎となるなど
基礎から応用まで使い続ける手法なので他の手法と比べてもよく使われています。
【クロス集計の変数について】
代表的な4変数について簡単に纏めます。
■デモグラフィック変数
性別・年代・家族構成などを対象としたもので、
特徴としては人口統計分布に基づく変数基礎的な情報としてみることが多いです
■地理的変数
国や行政区や気候地域などが該当します地理的変数は地理的に分割される変数で
消費者向けのマーケティングで利用されることが多い。
■心理的変数
何々が好きや何々を常用しているといった価値観やライフスタイル好み等を表す変数で
意識調査の結果から変数をつくることが多い。
■行動変数
購買履歴や使用頻度などですがBIツールやクラウドサービスの進化で
集計が容易になったそしてIT化の進展によって集計が容易になっている。
【現状の把握から5Wを見つける】
単純に売上が下がった、ということについてもクロス集計から
『いつ』、『何が』、『何故』、『どこが』、『誰が』というように時系列で
データを常に追っかけていてそのデータをトリガーに問題を確認する順序が生まれます。
次に仮説出しをします
夏休みが終わってファミリー層の売上が減ったのではないか
あとは雨の日が多くて晴れや曇りの日に比べて売上が落ちたのではないか
等が考えられるんじゃないかなと思います。
管理図のような時系列分析で問題を早期に見つけクロス集計のような層化つまり軸比較で確認し、
そしてそのなぜかというのをフィッシュボーンやロジックツリーで考えて仮説を出して
そして最後に調査で確認するといった流れは一般的でありながら王道なので
何のデータが必要なのか、蓄積していくのかを確認する事も可能となります。
季節性の特需なんかもこのようなクロス集計でなんとなく感覚でということではなく、
数字で裏付けをすることである程度の予測(計画)をもって対応していくことも可能になります。
実際の予測モデルについてはもう少し私自信が言語化できてからに致します。
次回は相関に関する事について考えて参ります。
ありがとうございました。
コメントを残す