競艇AIの機械学習モデルの精度を向上しました

2020年2月19日2020年3月5日人工知能, 機械学習, 競艇

こんな人にオススメ！

・競艇データで機械学習したい人
・競艇のAI予想の精度を知りたい人

Contents

はじめに

少し精度上がりました

モデルの特徴量を作り直したりしていて時間がかかりましたが、モデルやら予測やら詳細データの箇所を少しすっきりできたので公開します。

今回のブログでは結果(モデル精度)に関係する箇所をご紹介する形になりますので、プロセスを知りたい方は過去の記事をご参照下さい。

詳しくは記載しませんが、以下の特徴量を更新しました。

上の二つは以前のブログで調査した内容を反映したものです。

ボートに関しては、正直モーターの特徴量しか関係ないだろうと思って全く作っていませんでしたが、念の為作成しました。

アルゴリズムやらデータ量は下記になります。

学習時にはレースの展開を学習したい及び教師ラベルの関係で下記の条件に合致するデータは省いています。

モデル精度は以前と比べて若干向上しています。

しかしそれは、データが増えた影響なのか、追加した特徴量が効いたのか、はたまたアルゴリズムのハイパーパラメータ調整が上手く機能したのか、は分かりません。

それらを厳密に調べるには、それ以外の条件を完全に揃えて、それのみを変更してからモデルを作り直したりしないといけないません。が、その作業は本当に手間なので、やりません。そういった作業を全て管理してくれるライブラリやツールがあれば是非使いたいです。

ちなみに、データ数に関して、2012年〜2019年と2015年〜2019年でデータの範囲を変えて二連単を学習させてみましたが、データ数が多い方が若干の精度向上に繋がりました。

ただ、各枠番別の着順予想では精度はほぼ変わらず、二連単予想ではデータ数が多い方がAUCで0.5%程度良くなりました。結局は教師ラベルが十分かどうか(十分の説明も難しいが)次第だなと思います。

特徴量に関して、今回追加した特徴量はモデルの重要度で上位にきているものも確かにありました。しかし、それだけではその特徴が有効かどうかは分かりません。

重要度はあくまで相対的な指標と言えます。例えば、選手の「勝率」はとても重要な特徴量ですが、極端な話その勝率と全く同じ特徴量である勝率2を追加すれば、「勝率」と「勝率2」は重要度を分け合って値としては半分になるはずです。

基本的に特徴量同士の相関が高いものは片方を省いてモデルの学習に入力していますが、その閾値も何かの指標から得ているわけではないので、上述の課題を解決するものではないでしょう。

改めて特徴量の重要度について考えると難しいですね。Permutation Importanceなど手法はありますが、それらはあくまで出来上がったモデルに対しての入力した特徴量の重要度がどうか、というものなので、入力した特徴量同士に強い相関があった場合は正しい重要度が出ないはずです。

自分で特徴量を作りすぎるとそういった課題もありますね。まあいずれにしても面倒な作業なので、今回は重要度の話は割愛します。

さて、モデル精度ですが、下記になります。

直前まで使っていたモデル精度との比較です。