クロス表で理解するカテゴリーデータと数量データ【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

クロス表で理解するカテゴリーデータと数量データ【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

クロス表で理解するカテゴリーデータと数量データ【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】
個別データは、性別や購入商品のようなカテゴリーデータと、年齢や購入量のような数量データに分けられます。数量データは度数分布や回帰分析などの方法で処理できますが、カテゴリーデータはクロス表で示されることが一般的です。クロス表では縦横のカテゴリーを組み合わせてデータを表します。個別データを集計する際、人数を数える方法と購入金額を合計する方法があります。これらの集計結果は実数表として表され、さらにパーセント表に換算することで理解しやすくなります。しかし、対象者が少ない場合は比率の信頼性が低くなるため、実数のまま分析することもあります。例えば、少人数のデータからパーセンテージを出すと信頼性が低くなることがあります。

クロス表で理解するカテゴリーデータと数量データ【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  クロス表で理解するカテゴリーデータと数量データ【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


クロス表:縦横でカテゴリーをクロスした表


ふつうの統計表は、おおもとは個別データで、それをまとめて統計表に仕上げます。


したがって個別データがまず問題となります。


もともとの個別データは、性別、購入商品のようなカテゴリーデータと、年齢、購入量のような数量データとに大きく分けられます。


後者の数量データについては、度数分布から回帰分析に至るまで様々の取り扱いが可能です。


しかし前者のカテゴリーデータではこのような扱いができません。


統計表は、ふつう縦横をクロスしたおなじみの様式で示されます。


この表を作るには、まず2種類の個別データを選んで、縦横のカテゴリーの組み合わせを作らなければなりません。


これが第一のステップです。


そこで、ある人数の女性について、それぞれの「年代」と購入化粧品の種類がカテゴリーとして与えられたものとします。


これをもとにして統計表を作ってみましょう。


なお、このように縦横でカテゴリーをクロスした表を、文字どおりにクロス表と呼んでいます



データの積み上げ


次に第二のステップとして、個別データを積み上げなければなりません。


これには2つの場合があります。


@数え上げる: まず対象者を年代に分類して、化粧品の種類別に購入した人数を数え上げます。


たとえば、ある月にメーク製品を買った人数、基礎化粧品類を買った人数、ファンデーションを買った人数、ヘアケア製品を買った人数というふうにカウントします。


さらに、メークなら口紅、アイシャドウ、アイブロウ、マスカラ、ほほ紅、マニキュアとたくさんあります。


分類のこまかさは問いませんが、ともかくそれぞれの購入者を数えて計上します。


A足し上げる: 購入金額がわかっている場合、購入者数だけではなくその金額も集計に用います。年代ごとに化粧品種類別の購入金額を足し上げるのです。


以下の図はこの2種類の表を示すものですが、要するに表の外側は同じで中身が人数か金額かの違いです。


うっかりして、「おや、同じ表だ」と勘違いしないようにしましょう。


中身は、一方は人数、他方は金額です。


クロス表で理解するカテゴリーデータと数量データ【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


実数表とパーセント表


これらの表は、もとのデータを数えたまま、あるいは足し上げたままです。


したがって、それぞれのマス目の数字は、人数、購入金額のような実数そのものです。


これは「実数表」と呼ばれます。


このままでもよいのですが、さらに次のように加工するのが普通です。


@対象者人数でそれらの数字を割り算します。それが比率となるわけですが、ふつうはパーセント表示するので、ここでは実務的に「パーセント表」と呼ぶことにしましょう。


A購入金額計で割り算します。これも比率となって、やはりパーセント表が得られます。ところで、人数で割り算することもできます。するとこれは、平均値になってしまいます。1人平均購入金額です。


このように加工したほうが、いちいち「もとの人数が何人でそのうち何人がどうした」などと気を回すことがなく、内容を理解するのに楽です。


ただし、対象者の数がきわめて小さいときには、比率があまり信頼できないので、もとの実数のままで分析することもないわけではありません


「当社の社員の66.7%がカレーライスを好む」といえばいかにも信頼できそうですが、あるレストランにたまたま当社社員が3人いて、2人がカレーライスを食べていたと聞けば、信頼度は当然ぐんと低くなります。



クロス表で理解するカテゴリーデータと数量データ【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


セミナー詳細                    解析ご相談                    LINEでお友達

クロス表で理解するカテゴリーデータと数量データ【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

クロス表で理解するカテゴリーデータと数量データ【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】