• 機械学習では、過学習を防ぐために正則化が行われる
  • 機械学習で用いられる正則化には、L1正則化とL2正則化がある

 

過学習を防ぐために用いられる正則化とは

機械学習では大量のデータを扱いますが、偏り過ぎたデータにまで対応してしまう過学習の状態に陥る事があります。
学習する期間が長過ぎたり、データが典型的データから外れている場合に過学習が起こります。
過学習によって、典型的なデータに適切な対応が出来なくなる可能性があるので、注意しなくてはなりません。

そのため、機械学習では過学習になるのを防ぐために、極端な重みのデータに対してペナルティを与える正則化が用いられます。

 

 

 

 

過学習は未知のデータに対応出来ない原因を作る

機械学習で学習モデルを構築する時は、過学習に陥る事を避けなくてはなりません。

単に大量のデータを使って学習モデルを訓練したのでは、訓練用データに対してだけ正確な予測をする事になってしまいます。
それでは訓練で正確な予測がされているように見えても、訓練以外の未知のデータでは適切な予測が出来なくなります。

 

L1正則化とL2正則化

機械学習で一般的に使用されるのは、L1正則化とL2正則化です。

・L1正則化 特定のデータの重みを0にする事で、不要なデータを削除する
・L2正則化 データの大きさに応じて0に近づけて、滑らかなモデルとする

データの内容を検討して適切な正則化をすると、機械学習をより有効に行う事が出来ます。

 

 

 

 

本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。

 

参考文献