データクレンジング:分析の80%を占める真実【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】 | Google Gemini・Python・エクセルを使った講義で最速マスター

セミナー案内             AIデータサイエンス動画           インスタグラム

データクレンジング:分析の80%を占める真実【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

データクレンジング:分析の80%を占める真実【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】
データ分析には時間がかかる。適切な形にデータを加工し、ゴミを取り除くことが必要。これをデータクレンジングと呼ぶ。データクレンジングはデータ分析全体の80%を占め、膨大な時間がかかる。例えば、身長の入力ミスは修正可能だが、体重の場合は判断が難しい。正しい分析のためには正確なデータが不可欠。

データクレンジング:分析の80%を占める真実【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】▼▼▼▼▼▼▼▼
チャンネル登録はこちら


目次  データクレンジング:分析の80%を占める真実【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


データクレンジング


膨大な時間をかけデータを精査する


正しい分析のためのデータ確認作業


データを分析しようとしても、すぐに分析できるわけではありません。


分析手法によって適切なデータの形があるので、その形にデータを加工しなくてはなりません。


また、データにゴミが混じっていると、正しい分析結果が出てきません。


そのときは、ゴミを取り除く作業を行う必要があります。


このように、データを加工したりゴミを取り除いたりする作業をデータクレンジングと言います。



データクレンジングは、データ分析全体に要する時間のうち、約80%を占めると言われるくらい、時間が必要な作業です。


簡単な例ですと、健康診断のデータを分析すると、身長に17.1という入力があったとします。


これはおそらく171cmの入力ミスでしょうから、10倍すれば正しい値になると思われます。


しかし、体重で25という入力があったらどうでしょうか。


本当に25kgなのか、BMIなどの他の項目の25という数値を打ち間違えたのか、判断に困ります。


このような調査ひとつひとつに、膨大な時間がかかります。


正しい分析のためには、正しいデータ作成が必要です。


正しい分析を行うために、データの修正や加工を行うことをデータクレンジングといいます。



データクレンジング:分析の80%を占める真実【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】


セミナー詳細                    解析ご相談                    LINEでお友達

データクレンジング:分析の80%を占める真実【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】

データクレンジング:分析の80%を占める真実【東京情報大学・嵜山陽二郎博士のAIデータサイエンス講座】