「恵まれ」予想やってみた

2020年3月7日機械学習, 競艇, 統計

こんな人にオススメ!

・競艇が好きな人
・恵まれに夢見る人
・全-全-全に夢見る人

はじめに

恵まれ全全全!!!

冒頭に書いている「こんな人にオススメ!」欄は適当に書きました笑

タイトルにもありますが、決まり手である「恵まれ」を機械学習で予想してみます。

少し逸れますが、こういった少し変な予想を「本日の『恵まれ』!」のようなコンテンツで確率の高いレースをピックアップして公開する予定です。

「恵まれ」の条件に関して、厳密には不明ですが、概要としては次のとおりです。

先行する他艇が転覆や落水、または失格などによって繰り上がりで勝ったような場合には決まり手は恵まれとなります。

そんな「恵まれ」ですが、そうなったレースでは配当も高くつきます。やってみたいのは、そうなったレースで全-全-全をかけたらどうなるのか、という事です。

それでは早速調査していきましょう!

データ分析

モデルを作る前に、まずは「恵まれ」のデータについて分析していきます。

決まり手が「恵まれ」になるレースは全レースのうち0.8%です。

また、「恵まれ」の3連単配当平均値は7360円でした。あれ、意外に低い…。

ちなみに「恵まれ」にはスタート事故が原因になる場合もあります。ご存知の通りスタート事故はその選手が含まれる投票券は返還になりますから、配当は安くなります。

では、スタート事故の含まない「恵まれ」はというと、「恵まれ」のうちたった7%でした。

え、少ない…。これでは全全全の掛け方で利益を得られる可能性は低いです。

ちなみに、スタート事故を含む場合と含まない場合での平均配当は次のとおりです。

※2016年-2019年までのデータ※件数3連単配当平均値3連単配当中央値
スタート事故を含む恵まれ16244383円1950円
スタート事故を含まない恵まれ12445987円26080円

約10倍の変化がありますね。

このままでは「恵まれ」の機械学習予想はただのスタート事故予想となってしまいます。ちなみにスタート事故を含まない恵まれ件数が124件しかなく機械学習するための正解ラベル数としては不足していると言えるでしょう。

データ分析をする前に「恵まれ」の機械学習モデルを作成してしまったのですが、どうやら期待していた結果とはかけ離れていそうです…。

純粋に配当を学習させるほうが賢そうですね。次回以降に試みますが、今回は「恵まれ」予想ということで、ご勘弁ください。

モデル精度

もはやスタート事故予想といえますが、「恵まれ」予想で使ったデータ数と精度(ROC AUC)は次のとおりです。

訓練データ恵まれ以外: 191294, 恵まれ: 1546
テストデータ恵まれ以外: 27482, 恵まれ: 202
テストデータAUC0.668

テストデータにおけるモデル予想確率の分布は次の通りです。まあ、AUC低いのでこんなもんでしょうね。確率の高い方(といっても2%台)は、低いところに比べて予想できてる感が少しありますね。

シミュレート

テストデータで全全全を買った場合、実際にどんな回収率になるのかを調べました。

横軸を確率にとっていますが、確率が横軸の値以上のレース全ての3連単を購入した際の回収率をプロットしています。

ご覧の通りですが、ほぼ一定です。つまり、「恵まれ」予想における回収率アップは全く期待できないと言えるでしょう。このブログを書く前は少し期待していましたが、データ分析段階で早々に期待できなくなったので、当たり前といえば当たり前の結果ですね。

まとめ

少し面白いコンセプトかなと思っていたのですが、期待はずれでした。素直に高配当予想を機械学習しますので乞うご期待ください。

まとめ!

・決まり手「恵まれ」はほとんどがスタート事故によるもの
・「恵まれ」の機械学習モデルの精度はAUCで0.67程度
・機械学習で「恵まれ」を予想して全全全の3連単購入は、回収率アップに全く期待できない

2020年3月7日機械学習, 競艇, 統計