強化学習アルゴリズムの中でも、基礎として押さえておきたい手法の一つが「SARSA(サーサ)」です。
Q学習と並んで紹介されることが多く、AIの行動選択の考え方を理解するうえで重要な役割を果たします。
本記事では、SARSAの基本概念から数式の意味、Q学習との違い、具体的な活用イメージまでを、初心者にもわかりやすく解説します。
SARSAとは何か
SARSAとは、強化学習における代表的なアルゴリズムの一つで、以下の5つの要素の頭文字を取って名付けられています。
- S:State(状態)
- A:Action(行動)
- R:Reward(報酬)
- S’:次の状態
- A’:次の行動
つまり、「現在の状態と行動」だけでなく、「次に選択する行動」まで考慮して学習を行うのが特徴です。
強化学習の基本構造
SARSAを理解するために、まずは強化学習の基本を簡単に整理しておきましょう。
強化学習では、エージェント(AI)が環境と相互作用しながら学習します。
基本の流れ
- 環境の状態(State)を観測する
- 行動(Action)を選択する
- 報酬(Reward)を受け取る
- 次の状態に遷移する
- 経験をもとに学習する
この試行錯誤を繰り返すことで、より高い報酬を得る行動を学習していきます。
Q関数(行動価値関数)とは
SARSAでは、「Q関数(行動価値関数)」が重要な役割を担います。
Q関数の意味
Q関数は、ある状態と行動の組み合わせがどれくらい良いかを数値で表したものです。
- 表記:Q(s, a)
- 意味:状態sで行動aを取ったときに、将来得られる報酬の合計(期待値)
ここで重要なのが「将来の報酬」です。
割引率(γ)の考え方
将来の報酬は、以下のように評価されます。
- 近い未来の報酬 → 大きく評価
- 遠い未来の報酬 → 小さく評価
これは「割引率(γ)」というパラメータによって調整されます。
SARSAの学習の仕組み
SARSAでは、「Qテーブル」と呼ばれる表を使って学習を進めます。
Qテーブルとは
- 行:状態(State)
- 列:行動(Action)
- 中身:Q値(価値)
この表を更新しながら、最適な行動を見つけていきます。
SARSAの更新式(数式の意味)
SARSAの最大の特徴は、次の行動A’を使ってQ値を更新する点です。
![]()
各パラメータの意味
- α(学習率)
新しい情報をどの程度反映するかを決める値(0〜1) - γ(割引率)
将来の報酬をどれくらい重視するか - r(報酬)
行動によって得られた即時の評価 - Q(s’, a’)
次の状態で選択した行動の価値
ポイント
SARSAでは、「実際に選択した次の行動a’」のQ値を使います。
この点が、後述するQ学習との大きな違いです。
行動選択の戦略(方策)
学習時には、常に最適な行動だけを選ぶわけではありません。
探索と活用のバランスを取る必要があります。
代表的な手法は以下の通りです。
ε-greedy法
- 一定確率(ε)でランダムに行動
- それ以外は最もQ値が高い行動を選択
UCB(Upper Confidence Bound)
- 未知の行動を積極的に試す
- 不確実性を考慮した選択方法
これにより、局所最適に陥るのを防ぎます。
Q学習との違い
SARSAとよく比較されるのが「Q学習(Q-learning)」です。
主な違い
| 項目 | SARSA | Q学習 |
|---|---|---|
| 更新に使う値 | 実際に選んだ行動 a’ | 最大のQ値 |
| 学習タイプ | オンポリシー | オフポリシー |
| 特徴 | 安全・現実的 | 効率的・理想的 |
わかりやすいイメージ
- SARSA:実際の行動に基づいて学ぶ(慎重)
- Q学習:理想的な最良行動を前提に学ぶ(攻め)
例えば、危険なルートがある環境では、SARSAの方が安全な行動を学びやすい傾向があります。
SARSAの活用例
SARSAはシンプルながら、さまざまな分野で応用可能です。
ゲームAI
- 迷路探索
- ボードゲーム
- シンプルな戦略ゲーム
ロボット制御
- 障害物回避
- ルート最適化
教育・シミュレーション
- 学習モデルの検証
- 強化学習の基礎教材
SARSAのメリット・デメリット
メリット
- アルゴリズムがシンプルで理解しやすい
- 実際の行動に基づくため安定しやすい
- 安全性を重視した学習に向いている
デメリット
- 最適解に収束するまで時間がかかる
- 探索の影響を受けやすい
- 大規模問題には不向き(テーブル管理が困難)
まとめ
SARSAは、強化学習の基本を理解するうえで非常に重要なアルゴリズムです。
ポイントを整理すると:
- 状態・行動・報酬・次状態・次行動を使って学習する
- Q関数を更新しながら最適な行動を学ぶ
- 実際の行動に基づく「オンポリシー学習」
- Q学習と比べて安全で現実的な意思決定が可能
まずはSARSAの仕組みをしっかり理解することで、より高度な強化学習アルゴリズム(DQNやActor-Criticなど)への理解もスムーズになります。
強化学習を学び始める方にとって、最初の一歩として最適な手法といえるでしょう。
こちらもご覧ください:深層強化学習(Deep Reinforcement Learning)とは?仕組み・手法・活用例をわかりやすく解説

