パン屋の秘密を暴く!ポアンカレの統計学探偵【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

パン屋の秘密を暴く!ポアンカレの統計学探偵【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

パン屋の秘密を暴く!ポアンカレの統計学探偵【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】
フランスの数学者ポアンカレは、近所のパン屋が売るパンが表示重量100グラムに満たない疑いを持ち、統計学を用いてこれを検証しました。彼は毎日パンの重さを測定し、その度数分布を分析して正規分布のグラフを作成しました。結果、パンの平均重量が95グラムであることが判明し、パン屋が一貫して重量を偽っていたことを示しました。ポアンカレの指摘後も状況が改善されなかったが、最終的にパン屋はポアンカレにのみ重めのパンを提供していたことを認めました。この話は、データ分析がいかに現実世界の問題解決に貢献するかを示す例であり、データの平均値だけでなく分布の形状も重要であることを強調しています。

パン屋の秘密を暴く!ポアンカレの統計学探偵【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  パン屋の秘密を暴く!ポアンカレの統計学探偵【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


重さの平均値のずれ


フランスの数学者ポアンカレ(1854-1912)は、近所のパン屋さんが売っている1個100グラムのパンに疑問を持ちました。


本当は100グラムよりも、もっと軽いのではないか。つまり「不当表示ではないか」というわけです。彼は、それをどうやって見抜いたのでしょうか。


@ある日のパンを全部買い取って、パンの重さの平均値を求めた。


A毎日買うパンの重さの度数分布(または確率分布)を求めた。


B毎日買うパンの重さを記録し、ひと月後にパンの重さの平均値を求めた。


たくさんの物を製造する場合、どの製品もピッタリと同じ重さ、同じサイズで作ることは無理があります。


実際には、基準よりも大きかったり、小さかったりとまちまちになります。


したがって、個々のものが規格値と違うからといって、直ちにおかしいとは言えません。



正規分布のウソを見抜く


しかし、ドイツの数学者ガウス(1777-1855)は、製品の重さやサイズなどは左右対称な山型の分布、すなわち正規分布にしたがうことを突き止めていました。


このことを知っていたポアンカレは、問題のパンを買うたびに重さを測り、グラフにしてみました。


すると、平均値が95グラムの正規分布となり、あきらかにパン屋さんが嘘つきであることがわかりました。


このことを。パン屋さんに指摘したら、「今後気をつけます」とのこと。


しかし、ポアンカレはその後もパンの重さを測ってグラフにしました。


今度も左右対称な正規分布とはとても言えませんでした。


そこで文句をつけたところ、「参ったなあ、ポアンカレさんには大きめのパンを渡していたんですよ」と白状しました。


これでは、正規分布になるはずはありませんね。


この話は、実際には架空の話かもしれませんが、ポアンカレがパンの重さについて疑問を持ち、その検証方法として統計学の原理を用いたことを示唆しています。


実際にポアンカレがこのような調査を行ったかどうかの記録はありませんが、話の内容から、ポアンカレが使用した検証方法は以下のように理解できます。


ポアンカレは、毎日買うパンの重さを記録し、それらの重さの分布を分析することでパン屋の不正を見抜いたとされています。


この話では、彼が実際に行ったとされる手法は「A毎日買うパンの重さの度数分布(または確率分布)を求めた」というものです。


彼はこれらのデータを収集し、グラフにして正規分布の形状を確認しました。


正規分布は、あるデータセットがその平均値を中心にしてどのように分布しているかを示す統計的な分布で、自然現象や製品の品質管理など、多くの場面で観測されます。


ポアンカレがグラフを作成した結果、パンの平均重量が95グラムであることが明らかになりました。


これはパン屋が「1個100グラム」と表示していた事実と矛盾しており、パン屋が一貫して少ない重量のパンを販売していたことを示しています。


さらに、パン屋に指摘した後も状況が改善されなかったとき、パン屋はポアンカレにのみ重めのパンを提供していたことを認めました。


これにより、全体としてのパンの重さの分布が正規分布から逸脱していた理由が明らかになりました。


このエピソードは、データの収集と分析がどのように現実世界の問題を明らかにし、解決するのに役立つかを示す興味深い例です。


また、平均値だけでなく、データの分布も考慮することの重要性を強調しています。


ChatGPTに聞いてみた

プロンプト

あなたは最高のデータサイエンティストです。
データの分布も考慮することの重要性について解説してください。
#制約条件:
サルでもわかる平易な日本語で
文字数は300字程度

ChatGPTの回答

データっていうのは、いろんな情報の集まりだよね。たとえば、お店で売ってるお菓子の数や、公園で遊んでる犬の数みたいなもの。これらの情報をちゃんと見ると、ただいっぱいあるだけじゃなくて、どう集まってるか、どんな形をしてるかも大事だってことがわかるんだ。例えば、クラスで身長を測ったとするよ。みんなが同じ身長だったら、それはそれでびっくりだけど、実際はそうじゃないよね。ある子はちょっと背が高くて、ある子はちょっと低い。これを全部グラフにしてみると、真ん中が一番高くて、端に行くほど低くなる山みたいな形ができる。これを「分布」と呼ぶんだ。この分布を見ることで、ただ「みんなの身長の平均はこれくらい」と知るだけじゃなく、「ほとんどの子はこのくらいの身長で、とっても背が高い子や低い子は少ないんだな」ともわかる。これが重要なのは、ただ平均だけ見てると、実際の様子がよくわからないから。分布を知ることで、もっと詳しく、現実に近い情報が手に入るんだ。つまり、「データの分布を考える」っていうのは、データの真の姿をしっかりと把握するためにすごく大事なんだよ。



パン屋の秘密を暴く!ポアンカレの統計学探偵【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


セミナー詳細                    解析ご相談                    LINEでお友達

パン屋の秘密を暴く!ポアンカレの統計学探偵【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

パン屋の秘密を暴く!ポアンカレの統計学探偵【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】