機械学習やAIの分類モデルを評価する際、「正解率」だけでは性能を正しく判断できないケースが多くあります。
特に、データに偏りがある場合や、誤判定の影響が大きい場面では、よりバランスの取れた指標が必要です。
そこで重要になるのが「F1スコア(F値)」です。
この記事では、F1スコアの意味や計算方法、実務での活用ポイントをわかりやすく解説します。
F1スコア(F値)とは何か?
F1スコアとは、適合率(Precision)と再現率(Recall)のバランスを評価する指標です。
この2つの指標はトレードオフの関係にあるため、どちらか一方だけではモデルの性能を十分に評価できません。
F1スコアは、両者をバランスよく高められているかを確認するために使われます。
前提知識:4つの分類結果
F1スコアを理解するために、まずは分類問題の基本である4つの結果を押さえておきましょう。
| 用語 | 内容 |
|---|---|
| 真陽性(TP) | 陽性と予測し、実際も陽性 |
| 真陰性(TN) | 陰性と予測し、実際も陰性 |
| 偽陽性(FP) | 陽性と予測したが、実際は陰性 |
| 偽陰性(FN) | 陰性と予測したが、実際は陽性 |
F1スコアの計算方法
F1スコアは、適合率と再現率の**調和平均(harmonic mean)**で計算されます。
F1スコア = 2 ×(適合率 × 再現率)÷(適合率 + 再現率)
なぜ「調和平均」なのか?
単純な平均ではなく調和平均を使うことで、どちらか一方だけが極端に高い場合に評価が過大にならないようにしています。
F1スコアの特徴
両方が高くないとスコアは上がらない
- 適合率・再現率ともに高い → F1スコアも高い
- どちらかが低い → F1スコアも低くなる
- どちらかが0 → F1スコアは0
つまり、バランスの良いモデルほど高く評価される仕組みです。
真陰性(TN)は影響しない
F1スコアは、陽性に関する予測の精度に焦点を当てた指標のため、真陰性(TN)の数には影響されません。
そのため、以下のような状況で有効です:
- 陽性データが少ない(クラス不均衡)
- 陽性の検出が重要なタスク
F1スコアが重要な具体例
1. 医療診断
- 見逃し(FN)も誤診(FP)も避けたい
- 適合率・再現率の両方が重要
2. 不正検知
- 不正を見逃すのも問題
- 正常データを誤検知するのも問題
3. 検索エンジン・レコメンド
- 関連性の低い結果を出さない(適合率)
- 必要な情報を漏らさない(再現率)
他の評価指標との違い
正解率(Accuracy)との違い
- 正解率:全体の正しさを評価
- F1スコア:陽性予測のバランスを評価
データに偏りがある場合、正解率だけでは実力を見誤るため、F1スコアが重要になります。
適合率・再現率との関係
F1スコアは、次のような役割を持ちます:
- 適合率だけでは見えない「見逃し」を補完
- 再現率だけでは見えない「誤検知」を補完
実務での使い方とポイント
F1スコアを使うべきケース
- 適合率と再現率のどちらも重要
- クラス不均衡なデータ
- モデルの総合的な性能を評価したい
注意点
- どちらかを特に重視したい場合には不向き
→ 例:医療では再現率を優先することも多い
まとめ
F1スコア(F値)は、AIモデルの評価において「適合率と再現率のバランス」を測る重要な指標です。
ポイントを整理すると:
- 適合率と再現率の調和平均で計算される
- どちらか一方だけ高くても評価は上がらない
- 真陰性の数には影響されない
- クラス不均衡なデータに強い
- 実務では他の指標と併用するのが基本
AIモデルの評価では、「何を重視するか」によって最適な指標が変わります。
F1スコアを正しく理解し、適切に活用することで、より信頼性の高いモデル構築につながります。
こちらもご覧ください:再現率(Recall)とは?AI評価で重要な理由と計算方法をわかりやすく解説

