強化学習やバンディットアルゴリズムにおいて、最も基本かつ重要な考え方の一つが「ε-greedy(イプシロン・グリーディ)方策」です。
シンプルで実装しやすい一方、実務でも広く使われている実用的な手法として知られています。
本記事では、ε-greedy方策の仕組みやメリット・デメリット、具体的な活用例までを、初心者にもわかりやすく解説します。
ε-greedy方策とは
ε-greedy方策とは、強化学習において「探索」と「活用」のバランスを取るための行動選択ルール(方策)の一つです。
基本の考え方
- 確率 ε(イプシロン) で「探索」を行う
- 確率 1 − ε で「活用」を行う
つまり、一定の確率であえて未知の行動を試しつつ、それ以外は最も良いと分かっている行動を選ぶというシンプルな戦略です。
強化学習における「探索」と「活用」
ε-greedy方策を理解するには、まず以下の2つの概念を押さえる必要があります。
探索(Exploration)
未知の行動を試して、新しい可能性を発見することです。
- まだ試していない選択肢を選ぶ
- より良い結果が得られる可能性を探る
活用(Exploitation)
これまでの経験をもとに、最も良い結果が得られる行動を選ぶことです。
- 過去に高い報酬を得た行動を繰り返す
- 安定した成果を狙う
探索と活用のジレンマ
この2つはトレードオフの関係にあります。
- 探索ばかり → 成果が安定しない
- 活用ばかり → 新しい最適解を見逃す
この問題を解決するために、ε-greedy方策が使われます。
ε-greedy方策の仕組み
ε-greedy方策では、行動選択を以下のように行います。
具体例
例えば、ε = 0.1 の場合:
- 10%の確率でランダムに行動(探索)
- 90%の確率で最も評価の高い行動(活用)
このように、少しだけランダム性を持たせることで、新しい選択肢を試し続けることができます。
εの値の決め方と工夫
εの設定は、学習の成果に大きく影響します。
εが大きい場合
- 探索が多くなる
- 新しい発見は増えるが、効率は下がる
εが小さい場合
- 活用が中心になる
- 安定するが、最適解を見逃す可能性がある
εを徐々に減らす手法(ε減衰)
実務では、以下のような工夫がよく使われます。
- 学習初期:εを大きくして探索を重視
- 学習後期:εを小さくして活用を重視
これを「ε減衰(epsilon decay)」と呼びます。
ε-greedy方策の活用例
ε-greedy方策は、さまざまな分野で利用されています。
Web広告配信
- 新しい広告を一定確率で表示
- 成果の良い広告を優先的に配信
レコメンドシステム
- 人気商品を中心に表示しつつ、新商品も試す
- ユーザーの反応を見ながら最適化
ゲームAI
- 既存の戦略を使いつつ、新しい戦術も試す
- プレイスタイルの多様化
メリットとデメリット
メリット
- シンプルで実装が容易
- 計算コストが低い
- 初心者でも理解しやすい
デメリット
- ランダム探索の効率が低い場合がある
- 状況に応じた柔軟な探索が難しい
- 最適なεの設定が必要
他の手法との違い(補足)
ε-greedy方策はシンプルですが、より高度な手法も存在します。
- UCB(Upper Confidence Bound)
→ 不確実性を考慮して探索 - トンプソンサンプリング
→ 確率モデルに基づいて選択
これらはε-greedyの弱点を補うために開発されています。
まとめ
ε-greedy方策は、強化学習における基本的かつ重要な行動選択手法です。
ポイントを整理すると:
- 探索と活用を確率で切り分けるシンプルな戦略
- εの値によって学習のバランスが決まる
- 実務でも広く使われている実用的な手法
- ε減衰などの工夫で性能向上が可能
まずはこの手法を理解することで、より高度な強化学習アルゴリズムの理解にもつながります。
AIを活用した最適化の第一歩として、ぜひ押さえておきたい重要な概念です。
こちらもご覧ください:バンディットアルゴリズムとは?探索と活用のバランスを最適化する手法をわかりやすく解説

