強化学習(Reinforcement Learning)は、AIが試行錯誤を繰り返しながら最適な行動を学習する手法です。
その中でも重要な概念の一つが**状態価値関数(State Value Function)**です。
本記事では、状態価値関数の基本的な考え方から仕組み、行動価値関数との違いまでを、初心者にもわかりやすく解説します。
状態価値関数とは何か
状態価値関数とは、「ある状態がどれくらい良いか」を数値で評価する関数です。
強化学習では、AI(エージェント)が環境の中で行動を選択し、その結果として報酬を得ます。
状態価値関数は、ある状態にいると「将来どれくらい報酬が得られるか」を予測する役割を持ちます。
基本イメージ
- 良い状態 → 将来多くの報酬が期待できる → 高い値
- 悪い状態 → 報酬が少ない → 低い値
強化学習との関係
Reinforcement Learningでは、以下のように学習が進みます。
- 状態を観測する
- 行動を選択する
- 報酬を得る
- 状態が変化する
このとき、状態価値関数は「現在の状態がどれほど有利か」を判断するための基準になります。
状態価値関数の数式的な考え方
状態価値関数は、将来にわたって得られる報酬の合計(期待値)として定義されます。
![]()
ここでのポイントは以下の通りです。
- R:各時点で得られる報酬
- γ(ガンマ):割引率(将来の報酬の重要度)
- E:期待値(確率的な平均)
なぜ「期待値」で表すのか
実際の環境では、1つの状態から次に進む状態は1通りとは限りません。
状態遷移の特徴
- 同じ状態でも複数の行動が選べる
- 行動によって結果が確率的に変わる
- 将来は分岐しながら広がっていく
そのため、将来の報酬は「確率を考慮した平均値(期待値)」として表現されます。
方策(Policy)との関係
強化学習では、「どの状態でどの行動を選ぶか」を決めるルールを**方策(Policy)**と呼びます。
方策の役割
- 行動選択の基準を定める
- 状態価値関数の値に影響を与える
つまり、状態価値関数は「ある方策に従ったときの状態の良さ」を評価しています。
行動価値関数との違い
状態価値関数とよく比較されるのが「行動価値関数」です。
| 種類 | 内容 | 記号 |
|---|---|---|
| 状態価値関数 | 状態そのものの良さ | V(s) |
| 行動価値関数 | 状態+行動の良さ | Q(s, a) |
違いのポイント
- V(s):状態単体の評価
- Q(s, a):具体的な行動まで含めた評価
一般的に、実際のアルゴリズムではより詳細な判断ができる**行動価値関数(Q値)**がよく使われます。
状態価値関数の活用イメージ
ゲームAIの場合
- 有利な盤面 → 高い価値
- 不利な盤面 → 低い価値
AIは「価値の高い状態」に近づくように行動を選びます。
ロボット制御の場合
- 安全で効率的な状態 → 高評価
- 危険な状態 → 低評価
状態価値関数により、安全かつ効率的な行動が選択されます。
状態価値関数のメリットと課題
メリット
- 状態の良し悪しをシンプルに評価できる
- 長期的な視点での意思決定が可能
- 強化学習の基礎として理解しやすい
課題
- 状態だけでは最適な行動を直接決められない
- 複雑な問題では状態数が膨大になる
- 方策に依存するため、前提が変わると値も変わる
まとめ
状態価値関数(V(s))は、強化学習において「ある状態がどれくらい良いか」を評価するための重要な概念です。
ポイントを整理すると以下の通りです。
- 状態ごとの将来報酬の期待値を表す
- 割引率により将来の価値を調整する
- 方策に依存して値が決まる
- 行動価値関数(Q(s, a))と合わせて理解することが重要
状態価値関数は、強化学習の基礎を理解するうえで欠かせない考え方です。
AIが「どの状態を目指すべきか」を判断する仕組みとして、しっかり押さえておきましょう。
こちらもご覧ください:価値関数(Value Function)とは?強化学習の意思決定を支える重要概念をわかりやすく解説

