データを読み解く鍵!度数分布型の全貌【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

データを読み解く鍵!度数分布型の全貌【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

データを読み解く鍵!度数分布型の全貌【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】
度数分布にはデータの性質に応じて様々な型が存在する。主なものに対称型、非対称型、逆J型、U型、双峰性、累積度数分布がある。対称型は左右対称の山型で、自然科学でよく見られる。非対称型は一方の裾が長く、多くの経済データに見られる。逆J型は新しい商品の普及初期に見られ、時間と共に対称型に近づくことがある。U型は両端に多数が集まる珍しい型で、嗜好品の消費に見られる。双峰性は異質な集団が混在する場合に現れ、累積度数分布は度数を累積させたもので、データの傾向を一目で把握できる。これらの分布型は、データの解釈や比較に役立つ。

データを読み解く鍵!度数分布型の全貌【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  データを読み解く鍵!度数分布型の全貌【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


いろいろな度数分布型


もとの個別データの種類によって、度数分布にはいろいろな型があります


また、同じデータ種類でも、地域により、時間的変化により、度数分布型がいくぶんは違ってくるでしょう。


対称型と非対称型


対称型とは左右に裾を引く対称の山型、またはそれに近い分布型です。


社会科学関係の事象には直接にはほとんどみられない型です。


しかし、自然科学関係ではむしろこの分布型が当たり前のようです。


たとえば新生児の体重がほぼ左右対称、つまり真ん中より重い子も軽い子もほぼ同じくらいいます。


したがって、真ん中を基準値としてふつうの子より重い・軽いの判断に使われます。


もっとも、それぞれの個体差が発育のバロメーターになるかどうかは疑問ですが。


しかし、子どもがどんどん成長して大人になっていくと、体重の分布は対称型でなくなります。


もし、真ん中を60kgとして、重いほうは相撲の力士が200kgであるとしたら、左右対称では軽いほうがマイナスの体重となって、どっかに飛んでいきそうです。


非対称型は山の頂上が真ん中よりも左寄りになって、右のほうに長く裾を引く型です。


これが私たちにもっとも馴染みのある分布型です。


たいていの比尺度型の数量データはこの分布をするものとみてよいでしょう。


理由は、グラフの横軸の左側はゼロで区切られていますが、右端はどこまでも伸ばせるからです。


上の体重の例のみならず、会社内での給料の分布でもそうです。


低いほうは、新入社員の初任給として限界がありますが、高いほうは役員報酬のように会社の業績、利益しだいでどうぞいくらでも、ということになるからです。



逆J型分布


これは英語の大文字のJを左右反対にした型です。


テレビ、エアコンなどの耐久消費財の世帯保有台数に典型的に認められます。


これらの製品は、単数保有から次第に複数保有に移行しつつありますが、今後、テレビなどの製品の複数保有がさらに一般化し、1世帯に2台3台当たり前になれば、やがて左右非対称型に移るでしょう。


現にそうなりつつあります。


一般に新しい商品の場合、購入または保有世帯の分布型は、普及の度合にしたがって、だんだん変化してきます。


どう変化するかというと、購入または保有世帯だけについてみると、


逆J型分布 ⇒ 左右非対称分布 ⇒ 対称に近い分布


に移行することが認められています。


この傾向に解説を加えると、逆J型分布は、試用段階を示しており、左右非対称の段階では少数のヘビイユーザー、多数のライトユーザー層があらわれ、対称分布に近くなるにつれて個々の差が小さくなって定着化してくる、というわけです。


U型分布


両端が限られている分布型です。


形が珍しく、思い当たるところは少ないですが、昔の統計学の本には、どの本にも「××市の雲量分布」という同じグラフが引用されていました。


雲量は、晴天ならゼロに近く、曇り空なら100%に近く、その中間のお天気はあまり多くないということなのでしょう。


個人別の、1週間に酒類を飲む日数などもそうです。


ほとんど飲まない人と完全に習慣化した人とに分かれるからです。


飲まない人は全然アルコールなしで平気ですし、せいぜい付き合いで週1日くらい飲む程度でしょう。


一方、飲む人は日暮れになると恋しくなり、週1度の休肝日が、その気はあってもなかなか実現できないのです。


たいていの嗜好品がこのU型分布を描くかもしれません。


個人別の、コーヒーを飲む日数や杯数なども、おそらくお酒の例と同じでしょう。


双峰性分布


2つ山が現れる分布です。


これは、孫を連れた老人の集団の年齢分布です。


2つの山の分布が現れたら、異質の集団が混じっている疑いが濃厚です。


その2つを分離して別々の度数分布とすれば、それぞれきれいな1つ山となるでしょう。


このことにヒントを得て、ひとつ面白い実験をしてみましょう。


方法は簡単、グラフ用紙1枚あれば誰にもできます。


@2つの対称分布を用意します。ただし右方の分布は左方に比べると、高さは低いが横の広がりは大きいものとします。


Aこれらを近づけて部分的に重ねると、双峰性分布ができます。


Bもっと近づけるとどうなるでしょうか。なんと、非対称分布が現れます。


Cそして最後には完全に重なって、対称分布となります。


累積度数分布


度数分布の度数をクラスの小さいほうから順に足しあげていくことによって、累積度数分布をつくることができます


これをグラフにあらわすときには棒よりも折れ線のほうが向いています。


折れ線は左下のゼロからゆっくりと立ち上がり、次第に急カーブになり、やがて再びゆるやかになって、全対象者数(100%)に近づいていきます。


このグラフを一目見て、「喫煙者の50%は日に××本以上吸っている」などと即座に言うことができます。


50%の横線とカーブの交点を求め、そこから下におろした線で個数の目盛りを読むだけの手間です。


同様に「日に××本以上吸っている人は全体の〇〇%だ」などということもすぐにわかります。


このようなメリットのほかに、次の点でも普通の度数分布より優れています。


@クラス幅が等しいという条件は不要です。クラス幅がいくら不規則でもかまいません。


A性別、年代別のデータで1枚のグラフに重ね描きして、互いに比較するのに都合が良いです。もとの度数分布ではヒストグラム(柱状図)が入り組んで比較しにくいのです。


累積度数分布の難点は、もとの度数分布型が想像しにくいというところでしょうか。



データを読み解く鍵!度数分布型の全貌【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


セミナー詳細                    解析ご相談                    LINEでお友達

データを読み解く鍵!度数分布型の全貌【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

データを読み解く鍵!度数分布型の全貌【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】