皆さんこんにちは
今回はPPDACのAについて考えていきます。
設定されたKGI対して各要因(例:顧客数や販売数量)などが
どのように影響を与えているのかをデータを用いてデータを用いて明らかにします。
分析の最初の段階として各要因がどのように分布しているのかという
1要因(変数)による状況把握と
2要因(変数)の関係性をデータに基づいて調査
という段階を踏んでいく必要があります。
【尺度】
変数が表す内容に関する性質であり大きく2つに分類されます。
それぞれ名義尺度と連続尺度と呼ばれています。
■名義尺度
代表的なものとしてはアンケートの性別や満足度調査になります。
より細かく分解すると例として
・順序無し:性別、都道府県、血液型
・順序付き:満足度、順位
等が挙げられます。
■連続尺度
代表的なものとしてはアンケートにおける年齢や利用金額の結果などが挙げられます
より細かく分解すると例として
・間隔尺度:年齢、温度
・比率尺度:体重、金額、速度
等が挙げられます。
【グラフで把握する】
1要因の性質に応じて適性なグラフで可視化をする必要があります。
名義尺度の場合は棒グラフ、連続尺度の場合はヒストグラムを用いて可視化します。
その際分布の形状や傾向を特徴づける代表値と呼ばれているような特徴量を算出することで
グラフを直接用いずとも各変数の鳥瞰的な把握が定量的に可能になります
棒グラフの場合は最頻値、ヒストグラムは平均値、標準偏差値というのが挙げられます。
【ある程度定型化する】
各要因とKGIのような2変数間の間の関係性の調査においても
可視化は有効ではありますが状況把握の場合と同様に各変数の性質によって
用いるグラフや手法は異なります。
異なる数値同士をかけあわせたクロス集計を用いて
他方の変数の変化に対するもう一方の数値の変化というところの傾向を調査してまいります
次に名義尺度と連続尺度の場合、連続尺度のヒストグラムを名義尺度間で比較しまして
変数間の関係性を調査していきます。
連続尺度と連続尺度の場合は変数間の散布図や時系列プロットなどを作成しまして同様に
変化の関係性など変数間の関係性を調査していきます。
定型化して作業効率を上げていくようなスキームを考えておく必要があります。
コメントを残す