平均値だけじゃない!標準偏差でデータ解析【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

平均値だけじゃない!標準偏差でデータ解析【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

平均値だけじゃない!標準偏差でデータ解析【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】
データを説明する際、平均値や中央値だけでは不十分であり、データのばらつきを示す標準偏差が重要です。例えば、200人の生徒のテスト結果では、英語と数学の平均点や中央値はほぼ同じですが、点数のばらつきは異なります。標準偏差を使うことで、データの分布の特徴を数値で表現できます。また、分布に偏りがある場合、パーセント点や四分位範囲が有効です。これらの指標を使うことで、データの特性をより正確に把握できます。

平均値だけじゃない!標準偏差でデータ解析【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  平均値だけじゃない!標準偏差でデータ解析【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


平均値や中央値だけでは不十分


テストの点数の仮想例を使って、標準偏差についてお話しします。


1学年200人の中学校で英語と数学のテストをしたとします。


平均点は英語60.3点(中央値60点)、数学59.9点(中央値61点)でした。


5点刻みで集計すると、最頻値はどちらも55―59点です。


Kさんの点数は、両科目とも同じで86点でした。さて、英語と数学、Kさんにとって嬉しいのはとちらでしょうか。


平均値中央値からの微妙な差についてあれこれ言ったところで面白くありません。


知りたいことは、全体から見た自分の位置です。


でも、それは平均値中央値からだけではわかりません。


平均値中央値を計算するだけでは不十分なのです


では、200人の点数がどのように度数分布しているかを見てみましょう。


英語の点数の度数分布はとがった分布、数学の点数は裾野の広い度数分布でした。


Kさんは両科目とも86点でした。英語はトップ、唯一の86点以上でした。


まずはデータの分布を見ることが重要


データの度数分布を見た上で、平均値中央値といった値を見ると、より情報が増えます


でも、平均値中央値だけでは、英語と数学の点数の分布の特徴的な違いを数値で表現しきれません。


英語のテストと数学のテストでは、平均値中央値を見ると似たような値でしたが、明らかに点数のばらつき具合が違っています。


これを示すのが標準偏差なのです。



ばらつきの指標:標準偏差


実際に計算すると、英語のテストで7.6、数学のテストで16.7となります。


値が小さいほどばらつきが小さいことを表しています。


でも、数値自体が何なのか、と思うかもしれません。


目安としては、


得られたデータのおよそ2/3は、「平均値±標準偏差」の間にある


得られたデータのおよそ95%は、「平均値±2×標準偏差」の間にある


偏差値は、以下のように、平均値標準偏差から計算されます。


点数            偏差値
平均値+2×標準偏差     70
平均値+標準偏差       60
平均値            50
平均値―標準偏差       40
平均値―2×標準偏差     30


先ほどの例では、英語のテストの平均点は60.3点で標準偏差は7.6、数学のテストの平均点は59.9点で標準偏差は16.7でした。


英語のテストだったら、


60.3+2×7.6=75.5


だから、76点取れば偏差値70以上だけど、数学のテストだったら、


59.9+2×16.7=93.3


だから、94点取らないと偏差値70以上にはならないということです。


ばらつきの指標:パーセント点・四分位範囲


データの分布に偏りがある場合、標準偏差も分布を代表する値としてあまり適切ではありません。


データの分布に偏りがある場合に、標準偏差の代わりとなるような指標として、パーセント点という指標があります


データを小さい順に並べたときの真ん中の順番(50%番目)になったデータの値を中央値と言いました。


この中央値パーセント点という言葉を使って表すと、50パーセント点ということができます。


つまり、


〇〇パーセント点:データを小さい順に並べたときの〇〇%番目になったデータの値


パーセント点です。


よく25パーセント点と75パーセント点が使われます。


中央値も含めて、25,50,75%番目の値を求めると、ちょうどデータを4分割することになるので、25パーセント点と75パーセント点の値の間の範囲を四分位範囲と呼ぶことがあります


25%番目の値と75%番目の値の間の範囲なので、全データの50%が四分位範囲に含まれることになります。



平均値だけじゃない!標準偏差でデータ解析【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


セミナー詳細                    解析ご相談                    LINEでお友達

平均値だけじゃない!標準偏差でデータ解析【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

平均値だけじゃない!標準偏差でデータ解析【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】