たくさんの猫と豊かな世界

Pythonによるあたらしいデータ分析の教科書


私は普段Pythonを用いてデータ分析をしていますが,こういう本を1冊も読んだことがなかったのでなんとなく手にとってみました.
また,この本はPythonデータ分析試験の教材になっているようです. 気が向いたら受けてみようかなと思いました.
この本はセミナー等でしっかり読んだわけではなく,知っていることも多いのでさらっと流し読みしたような感じです.
各章ごとに簡単に感想を述べていこうと思います.

1章 データ分析エンジニアの役割

この章では,機械学習の基礎的な紹介とライブラリーの紹介がされています.
普段Pythonを使用している方はさらっと流して読めると思います.

2章 Pythonと環境

この章では,Pythonの実行環境の構築と基本的な操作について説明されています.
環境構築の節では,仮想環境の作成(venv)なども紹介されています.
基本的な操作の節では,リスト内包表記などに慣れると良いと思います. また,pathはosでも扱えますが,Pathlibを使用するのが良いと思います.

3章 数学の基礎

この章では,データ分析に必要な基本的な数学について述べられています.
数学に慣れていない方は確率と統計の節は読んでおくと良いと思います. この節では,基本的な統計の知識がつけられ,可視化するのことも考えて書かれているので,そういう目線でも読みやすいと思います.

4章 ライブラリによる分析の実践

この章では,データ分析でよく使用する様々なライブラリーの機能を広く浅く紹介されています.
NumPyの節では,参照とコピーの違い,また,Shallow copyとDeep copyの違いにも触れられています. この辺は慣れておくと良いと思います.
Pandasの節では,基本的なことは大体書かれていると思います. 個人的には,Pandasも良いですが,よりはやいPolarsも気になります.(この本では触れられていません.)
Matplotlibの節では,基本的な可視化について書いて書かれています.
Scikit-learnの節では,機械学習の手法だけでなく,前処理として,欠損値補完やOne-hotエンコーディング(カテゴリ変数をダミー化する手法)や正規化なども紹介されています.
機械学習の手法に関しても,使用方法だけでなく,簡単な数学的な説明がされていて読みやすいと思います.
深層学習についてはほぼ触れられていませんが,最後に紹介として,ライブラリー(PyTorch,Tensorflow,Keras)が紹介されています.

5章 応用:データ収集と加工

この章では,今まで学んだことの応用として実用的な話が紹介されています.
スクレイピングの節では,RequestsとBeautiful Soup4を用いてwebページからデータを取得する方法が書かれています. 私は経験がなかったのでおもしろく感じました.
自然言語処理の節では,形態素解析ややBoW(Bag of Words)やTF-IDF(Term Frequency-Inverse Document Frequency)について書かれています.
画像データの処理の節では,Pillowの使用方法や数字に変換して機械学習を用いる方法について書かれています.(個人的にはこの辺は少し物足りないなという印象でした.)

最後に

Pythonでデータ分析をする時の基礎は学べると感じました.
しかし,すでにデータ分析をしてる方や深層学習などを知っている方は少し物足りないと感じてしまう方もいるかなとも思いました.
数学についても書いてある章があるので,機械学習の手法についても少し数学的に書かれていますが,そこまで詳しく書かれていない印象です.
機械学習関係で基礎の知識で書いてなかったなぁと思ったこととしては,未学習や過学習について書かれていないので,データの分割方法や正則化などについては書かれていません. 分量の都合もあると思うのでしょうがないと思いますが,この辺は書いてあると良いのかなと思いました.


機械学習の文献に戻る