混同行列(Confusion Matrix)とは?精度評価の基本と指標の見方を徹底解説

混同行列(Confusion Matrix)とは?

機械学習の分類モデルを評価する際、「どれくらい正しく予測できているか」を正確に把握することが重要です。

そのための基本的な手法が「混同行列(Confusion Matrix)」です。

本記事では、混同行列の仕組みから、主要な評価指標(正解率・適合率・再現率)の意味と使い方までを、初心者にもわかりやすく解説します。

混同行列とは

混同行列とは、モデルの予測結果と実際の正解を表形式で整理したものです。

  • 行:実際のクラス(正解)
  • 列:モデルの予測結果

この表を見ることで、「どのように間違えているのか」まで詳しく分析できます。

2クラス分類における基本構造

最も基本的な例は、「ある対象が該当するか/しないか」を判断する2クラス分類です。

例えば「画像が猫かどうか」を判定する場合、混同行列は次の4つに分かれます。

予測:猫 予測:猫ではない
実際:猫 真陽性(TP) 偽陰性(FN)
実際:猫ではない 偽陽性(FP) 真陰性(TN)

 

 

用語の意味をわかりやすく解説

混同行列に登場する4つの用語は、評価指標を理解するうえで重要です。

真陽性(TP:True Positive)

実際に「猫」であり、予測も「猫」と正しく判定したケース

真陰性(TN:True Negative)

実際に「猫ではない」ものを、「猫ではない」と正しく判定したケース

偽陽性(FP:False Positive)

本当は「猫ではない」のに、「猫」と誤って判定したケース(誤検知・誤警報)

偽陰性(FN:False Negative)

本当は「猫」なのに、「猫ではない」と見逃したケース(見逃し)

混同行列から計算できる主な評価指標

混同行列の数値を使うことで、さまざまな評価指標を算出できます。

正解率(Accuracy)

全体のうち、どれだけ正しく予測できたかを示す指標です。

計算方法:

  • (真陽性 + 真陰性) ÷ 全データ数

特徴

  • シンプルで直感的
  • ただし、データの偏りに弱い

適合率(Precision)

**「陽性と予測した中で、どれだけ正しかったか」**を示します。

計算方法:

  • 真陽性 ÷(真陽性 + 偽陽性)

活用例

  • スパムメール検出
  • 誤検知を減らしたい場合

再現率(Recall)

実際に陽性のものを、どれだけ見逃さず検出できたかを示します。

計算方法:

  • 真陽性 ÷(真陽性 + 偽陰性)

活用例

  • 医療診断(病気の見逃し防止)
  • 不正検知

指標の使い分けが重要な理由

すべての指標を同時に最大化することは難しく、目的に応じた使い分けが必要です。

例:用途による優先指標

  • 医療診断 → 再現率重視(見逃しを防ぐ)
  • スパム判定 → 適合率重視(誤判定を減らす)
  • 全体評価 → 正解率+他指標の併用

実務での活用ポイント

混同行列は、単なる数値評価にとどまらず、モデル改善にも役立ちます。

改善のヒント

  • 偽陽性が多い → 判定基準を厳しくする
  • 偽陰性が多い → 感度を上げる
  • 特定クラスで誤りが多い → データの見直し

また、不均衡データ(例:不正検知など)では、正解率だけで判断しないことが重要です。

まとめ

混同行列は、機械学習の分類モデル評価における基本ツールです。

  • 予測と実際の結果を4つのパターンで整理
  • 正解率・適合率・再現率などを算出可能
  • モデルの弱点を可視化できる

重要なのは、単一の指標に頼るのではなく、複数の指標を組み合わせて総合的に判断することです。

混同行列を正しく理解し活用することで、より精度の高い、実務に強いAIモデルの構築が可能になります。

こちらもご覧ください:k分割交差検証(k-foldクロスバリデーション)とは?仕組み・メリット・使い方を徹底解説

 

Rate this post
Visited 4 times, 4 visit(s) today