scikit-learnとTensorFlowによる実践機械学習の2章の復習

scikit-learnとTensorFlowによる実践機械学習の2章をやった。2章はエンドツーエンドの機械学習プロジェクトということでデータの入手から前処理、本番稼働までを体験できる章だ。

機械学習プロジェクトを進めているところを途中の思考も含めて一緒に体験できるような内容になっていてなかなかいいんじゃないかと思う。

なお、私の場合は本書の通りやって動かないところが多かった。公式のカーネルが公開されているのでそちらと見比べて進めると良い。

復習のためもう一度読みながら要点を箇条書きに記録する。

データを可視化する方法。corrメソッドを使ったstandard correlation coefficientを求める方法。これはPandasのscatter_matrix関数でも求められる。
データの属性を組み合わせて新しい有用な属性を作る方法

データを予測子とラベル（ターゲット）に分ける。それらを何度もできるように関数にする
データのクリーニング。データのクリーニングには、特定の値を取り除く、属性全体を取り除く、値を設定する（0、平均、中央値など）がある。DataFrameのdropna(), drop(), fillna()などで簡単にできる。
中央値を入れるのはscikit-learnのImputerを使えば簡単にできる。
テキストのデータは数値に変換する必要がある。Pandasのfactorize()関数などを使って数値にマッピングする方法がある。
単純な数値への変換だと値に意味があると判断されると困るので、ワンホットエンコーディングという方法でマッピングする方法がある。これもscikit-learnがいい感じにやってくれる。
scikit-learnにない変換器を作りたい時も特定の関数を実装してTransformerMixinを規定クラスに追加すればパイプラインなどでも使える形になる
特徴量のスケーリングもscikit-learnがあれば簡単
データの変換のステップはパイプラインでまとめる

ここまでやってみてCategoricalEncoderがscikit-learnに含まれてなかったりしたので公式が提供しているJupyter notebookを本節以降の部分を消して、ここまではうまくいったと仮定して進めることにした。

ここまで長かったけどデータの前処理のパイプラインができたのでモデルを色々簡単に試すことができる。

scikit-learnのGridSearchCVを使うとハイパーパラメーターの自動調整ができる。
探索空間が大き時はランダムサーチを使うと良い
最後にテストセットでシステムを評価するが、当然交差検証より性能が低くなるのが普通なので、テストセットで性能が少し下がったからといってハイパーパラメーターをいじるのはよくない