機械学習やディープラーニングでは、モデルを複雑にするほど学習データへの適合度を高めることができます。

しかし、複雑化しすぎたモデルは、

ノイズ
外れ値
偶然の偏り

まで学習してしまい、未知データに対する予測性能が低下することがあります。

この問題は「過学習（Overfitting）」と呼ばれ、AI開発における代表的な課題の一つです。

その過学習を防ぐために利用される技術が「正則化（Regularization）」です。

中でも、最も広く利用されている代表的な正則化手法が「L2正則化（L2 Regularization）」です。

L2正則化は、モデル全体を安定的かつ滑らかに学習させる特徴があり、深層学習でも非常に重要な役割を担っています。

本記事では、L2正則化の基本概念から、L1正則化との違い、リッジ回帰との関係、実際の活用例までをわかりやすく解説します。

L2正則化とは？

L2正則化とは、モデルのパラメータの「二乗和」にペナルティを与える正則化手法です。

簡単に言えば、「極端に大きな重みが発生するのを防ぐ」ための技術です。

なぜ正則化が必要なのか？

機械学習モデルは、複雑にするほど学習データへ強く適合できます。

しかし適合しすぎると、

ノイズ
偶然のパターン
外れ値

まで学習してしまいます。

その結果、未知データへの性能が低下します。

これが「過学習」です。

過学習のイメージ

たとえば試験勉強で、

本質を理解している → 初見問題にも対応できる
過去問を丸暗記した → 少し変わると解けない

という違いがあります。

過学習したAIは、後者の状態に近い状態です。

L2正則化の仕組み

L2正則化では、通常の損失関数に「重みの二乗和」を追加します。

L2正則化の数式

基本形は以下の通りです。

を表します。

正則化係数 $λ\lambda$ の役割

$λ\lambda$ は、どれだけ強く正則化するかを決める重要なハイパーパラメータです。

$λ\lambda$ が小さい場合

モデルの自由度が高い
複雑なモデルになりやすい

$λ\lambda$ が大きい場合

重みに強い制約を与える
モデルがシンプルになる
過学習を抑えやすい

L2正則化の最大の特徴

すべての重みを均等に小さくする

L2正則化は、特定のパラメータだけを削除するのではなく、「全体の重みをバランスよく抑える」特徴があります。

なぜ重要なのか？

もし一部の重みだけ極端に大きくなると、特定特徴への過度な依存が起こります。

L2正則化は、その偏りを抑え、

安定性
汎化性能

を高めます。

L2正則化のイメージ

L2正則化は、「モデルに極端な判断をさせない」仕組みとも言えます。

その結果、

なめらかな予測
安定した学習

につながります。

リッジ回帰（Ridge Regression）とは？

回帰分析にL2正則化を適用したものを、「リッジ回帰（Ridge Regression）」と呼びます。

リッジ回帰の特徴

リッジ回帰では、

すべての特徴量を活かしつつ
重みの暴走を防ぐ

ことができます。

そのため、多数の特徴量が関係する問題に適しています。

L1正則化との違い

L2正則化は、L1正則化とよく比較されます。

L1正則化の数式

L1正則化では、重みの絶対値和を利用します。

L1とL2の違い

L1正則化

一部の重みを0にする
特徴量選択が可能
スパースモデルを作る

L2正則化

全体を滑らかに小さくする
安定性が高い
多特徴量問題に強い

どちらを使うべき？

用途によって異なります。

L1正則化が向くケース

不要特徴を削除したい
解釈性重視
特徴量数が非常に多い

L2正則化が向くケース

安定性重視
多数の特徴量を活用したい
深層学習

実務では、両者を組み合わせた「Elastic Net」もよく利用されます。

深層学習でのL2正則化

L2正則化は、ニューラルネットワークで特に重要です。

Weight Decay（ウェイト減衰）

深層学習では、L2正則化は「Weight Decay（ウェイト減衰）」として実装されることも多くあります。

これは、学習中に重みを少しずつ減衰させる仕組みです。

なぜ深層学習で重要なのか？

現代AIは巨大化が進んでいます。

特に、

大規模言語モデル（LLM）
画像生成AI
音声認識AI

では、膨大なパラメータを扱います。

L2正則化は、

重みの暴走防止
学習安定化
汎化性能向上

に重要な役割を果たしています。

L2正則化のメリット

学習が安定しやすい

極端な重みを抑えられるため、学習が安定します。

多特徴量問題に強い

多くの特徴量が少しずつ重要な問題に向いています。

深層学習と相性が良い

勾配ベース最適化との相性が非常に良好です。

L2正則化の注意点

特徴量削除は苦手

L2正則化は、重みを小さくはしますが、完全に0にはしにくい特徴があります。

そのため、明確な特徴量選択には向きません。

正則化しすぎると性能低下

$λ\lambda$ を大きくしすぎると、

モデルが単純化しすぎる
学習不足（Underfitting）

になる場合があります。

まとめ

L2正則化（L2 Regularization）とは、パラメータの二乗和へペナルティを与える正則化手法です。

主な特徴は、

重み全体を滑らかに抑制
過学習防止
学習安定化
汎化性能向上

にあります。

また、回帰分析では「リッジ回帰」として知られ、深層学習では「Weight Decay」として広く活用されています。

現代AIではモデルの巨大化が進む中、L2正則化は高性能AIを安定的に学習させるための重要な基盤技術となっています。

こちらもご覧ください：L1正則化とは？特徴量選択を実現する機械学習の重要手法をわかりやすく解説

Rate this post

Visited 4 times, 4 visit(s) today

L2正則化とは？過学習を防ぐ機械学習の代表的手法をわかりやすく解説

L2正則化とは？

なぜ正則化が必要なのか？

過学習のイメージ

L2正則化の仕組み

L2正則化の数式

正則化係数 $λ\lambda$ の役割

$λ\lambda$ が小さい場合

$λ\lambda$ が大きい場合

L2正則化の最大の特徴

すべての重みを均等に小さくする

なぜ重要なのか？

L2正則化のイメージ

リッジ回帰（Ridge Regression）とは？

リッジ回帰の特徴

L1正則化との違い

L1正則化の数式

L1とL2の違い

L1正則化

L2正則化

どちらを使うべき？

L1正則化が向くケース

L2正則化が向くケース

深層学習でのL2正則化

Weight Decay（ウェイト減衰）

なぜ深層学習で重要なのか？

L2正則化のメリット

学習が安定しやすい

多特徴量問題に強い

深層学習と相性が良い

L2正則化の注意点

特徴量削除は苦手

正則化しすぎると性能低下

まとめ

About itjisho.com

L2正則化とは？

なぜ正則化が必要なのか？

過学習のイメージ

L2正則化の仕組み

L2正則化の数式

正則化係数 λ\lambdaλ の役割

λ\lambdaλ が小さい場合

λ\lambdaλ が大きい場合

L2正則化の最大の特徴

すべての重みを均等に小さくする

なぜ重要なのか？

L2正則化のイメージ

リッジ回帰（Ridge Regression）とは？

リッジ回帰の特徴

L1正則化との違い

L1正則化の数式

L1とL2の違い

L1正則化

L2正則化

どちらを使うべき？

L1正則化が向くケース

L2正則化が向くケース

深層学習でのL2正則化

Weight Decay（ウェイト減衰）

なぜ深層学習で重要なのか？

L2正則化のメリット

学習が安定しやすい

多特徴量問題に強い

深層学習と相性が良い

L2正則化の注意点

特徴量削除は苦手

正則化しすぎると性能低下

まとめ

Related Posts

マルチタスク学習とは？AIが複数の仕事を同時に学ぶ仕組みをわかりやすく解説

AlphaGoとは？囲碁世界を変えたAIの仕組みと歴史をわかりやすく解説

Kerasとは？初心者にも人気のディープラーニングライブラリをわかりやすく解説

About itjisho.com

正則化係数 $λ\lambda$ の役割

$λ\lambda$ が小さい場合

$λ\lambda$ が大きい場合