多クラス分類とニクラス分類のどちらが精度が良いのか調べた

2019年12月15日2019年12月26日機械学習

こんな人にオススメ！

・教師あり機械学習の分類問題で悩んでいる人
・多クラス分類について知りたい人

Contents

動機

競艇と言わず、あらゆる多クラス分類は二値化して二クラスでの分類問題に落とすことが可能です。分類だけと言わず、回帰問題でさえも、ある範囲でラベル化すれば多クラスやニクラスに分類できます。

そうやって、様々なタスクで分類問題は使われます。

そして一度は疑問を覚えることでしょう。

多クラスとニクラス分類ってどっちが精度いいの？

今回はそれらを検証してみることにしました。

ただ、ここでの検証結果は、あくまで競艇に限ったもので、全てに応用できる話ではありません。正解ラベルや学習データの特徴量の性質に依存します。

ただ、直感として多クラス分類の精度はニクラス分類に劣ると思っていた結果からすると、結構違ったものになりましたので、機械学習に興味のある方はご参考いただけるかなと思います。

今回は、○号艇が何着だったかを予測します。それを多クラスとニクラスでそれぞれモデルを作ります。

モデルの種類を次の表にまとめました。

なので、モデルの数としては

です。

アルゴリズム等は次の表にまとめます。

アルゴリズム（二クラス分類）	LightGBM（objective="binary"）
アルゴリズム（多クラス分類）	LightGBM（objective="multiclass"）
ハイパーパラメータ	モデル毎にoptunaで探索して設定
訓練データ	2012年1月〜2019年6月（375572件）
テストデータ	2019年7月〜2019年12月（22837件）

さらに、各モデルに使う学習データの正解ラベルの比率はばらばらでとても不均衡です。

モデルのハイパーパラメータを統一したのでは、ベストな精度は得られないと判断し、表にも書きましたが、モデル毎のハイパーパラメータをoptunaで探索し、モデル毎に定義しました。

つまり、３６個＋６個＝４２個のハイパーパラメータが異なったLightGBMの機械学習モデルを使っています。

ポイント！

・多クラスと2クラスの分類問題における精度を比較検証する
・2クラスと6クラス分類の比較
・各問題において正解ラベルのバランスがとても不均衡であるため、モデル毎に(適度に)最適なパラメータを設定する

結果は少し以外でした。平均的に、多クラス分類の方が1%ぐらいAUCが良い、でした。

というのも、二クラス分類の方が問題が単純なので、その分特徴を探しやすく精度向上につながると思っていたからです。ですが、正解ラベルの種類によっては、多クラス分類で解いた方が精度向上につながる可能性もある、と分かりました。

毎回ここまで検証するのは難しいですが、多クラス分類も積極的に検証すべし、という感覚に変わりましたね。では結果の詳細を。精度は、テストデータのROC AUC で記載しています。