LightGBMでの予測値がすべて同じ値になるときの原因と対処

Source Code Software Computer機械学習

原因

  • トレーニングデータセットが小さすぎる

対処方法

  • ハイパーパラメータmin_child_samplesの値を小さくする。
  • トレーニングデータ数を増やす

補足

min_child_samplesは、末端ノードに含まれる最小のデータ数。

初期値が20となっており、これを下回るような分割はされない。

従って、初期値設定のままだと、数十程度のデータセットだとトレーニングまともにできず、予測値がすべて同じ値になる場合がある。

対処方法としては、 データ量を増やすことが一番良いが、 min_child_sampleの値を小さくすることである程度ましになる。

現象例

コメント

タイトルとURLをコピーしました