AutoML Tablesベータ版というExcelの表のようなデータを使って予測をするようなモデルを作ってくれるサービスを使ってみました。
サイトにログインしたら支払いの設定をします。初めての利用なら300ドル分が無料です。300ドルは33,000円ぐらいです。私は幼少期を1ドル100円で過ごした世代なので3,000円得した気持ちになりました。
AutoML Tablesは以下のような流れで進みます
- データのインポート
- トレーニング&モデル作成
- 利用
とてもいいのは利用のところで、いきなりREST形式でWebから使えるようになったり、即座にコンテナにデプロイできることです。すぐ使えるとなるとやる気が出ます。
最初はデータのインポートからです。知り合いの工事会社のデータをかりました。見積書の情報(住所・名前・金額など)とそれが受注したか失注したかがあるような3,000件からなるデータです。(ブログに書く許可は得ました)私が期待したのは「XXの住所の人は発注率が高い」「会社名にYYが入っていると発注率が高い」というようなことがわかり、見積もり段階で「これは受注率が高い案件だからジュニアメンバーに任せても大丈夫だな」「これは金額が高いけど受注率が低い条件が揃ってるので社長にいかせよう」みたいな形で役に立つことでした。
インポートするとこんな感じで、自動でデータの列の型を数値、クラス、文字列、タイムスタンプなどと認識します、欠損や外れ値なども処理してくれます。もうほとんどの人間より賢いです。
データをインポートしたらターゲットを設定して、トレーニングを開始します。トレーニングの時間は選択できて1時間$19.32でした。
1時間したら結果が出ました。
精度が96.4%になっていて、高すぎて怪しいです。嫌な予感というか、何か失敗したということです。
モデルを使ってみます。モデルを使用するにはデプロイが必要で、デプロイすると1時間あたり何円という形でお金がかかります。
デプロイしたのでWebからテストするためのUIが使えるようになりました。適当な値を入れて予測ができるようになりました。楽しいです。
少し使ってみてみると精度がとても高い理由がわかりました。どうも見積書の担当者が特定の2名の場合にほぼ100%の確率で失注になっており、それを重要な指標として学習してしまっていたのです。調べてみるとその2名は事務員でした。要するに見積もりを作っても、そのあと返事がなかったり、訪問にならなかったようなものは営業担当がつかないため、ほぼ失注になるということでした。
ここまで試しただけではこの会社の役に立つことにはなりませんでしたが、データについて何も知らない私がデータを1件もみないで事務員2名を特定でき、社内のフローが大体わかったというだけでも面白いなと思いました。次は当然担当者列を削除して試してみたいと思います。