画像認識AIで利用されるCNN(畳み込みニューラルネットワーク)では、「グローバル平均プーリング(Global Average Pooling:GAP)」という技術が重要な役割を果たしています。
従来のCNNでは、最後に「全結合層(Fully Connected Layer)」を使って分類を行うのが一般的でした。
しかし近年では、計算効率や過学習対策の観点から、グローバル平均プーリングを採用するモデルが増えています。
特に、
- 軽量CNN
- モバイルAI
- 画像分類モデル
などで広く活用されています。
本記事では、グローバル平均プーリングの基本的な仕組みから、通常のプーリングとの違い、メリット・デメリット、活用例までを初心者向けにわかりやすく解説します。
グローバル平均プーリング(GAP)とは
グローバル平均プーリングとは、特徴マップ全体の平均値を計算し、各チャネルを1つの値へ圧縮する処理です。
英語では「Global Average Pooling」と呼ばれ、略して「GAP」と表記されます。
通常の平均プーリングが「局所領域ごとの平均」を求めるのに対し、GAPでは特徴マップ全体を対象にします。
CNNにおけるGAPの役割
CNNでは、畳み込み層によって画像の特徴を抽出します。
例えば、
- エッジ
- 模様
- 物体形状
- 輪郭
などが特徴マップとして表現されます。
従来は、この特徴マップを全結合層へ入力し、最終的な分類を行っていました。
しかし全結合層には、
- パラメータ数が多い
- 計算量が大きい
- 過学習しやすい
という問題があります。
そこで登場したのが、グローバル平均プーリングです。
グローバル平均プーリングの仕組み
GAPでは、各特徴マップ内の全ての値を平均します。
例えば、あるチャネルの特徴マップが以下のようになっているとします。
1 2
3 4
この場合、GAPでは、
(1 + 2 + 3 + 4) ÷ 4 = 2.5
を出力します。
つまり、
2次元の特徴マップ → 1つの値
へ変換されます。
これを各チャネルごとに実施することで、最終的に「ベクトル形式」のデータが得られます。
通常の平均プーリングとの違い
通常の平均プーリングは、2×2や3×3などの小さな領域単位で平均化を行います。
一方、GAPは特徴マップ全体を一括で平均化します。
違いを比較すると
| 項目 | 平均プーリング | グローバル平均プーリング |
|---|---|---|
| 対象範囲 | 局所領域 | 特徴マップ全体 |
| 出力 | 縮小マップ | 1チャネル1値 |
| 主な用途 | 中間層 | 最終層 |
| パラメータ削減 | 中程度 | 非常に高い |
なぜGAPが注目されているのか
全結合層を削減できる
GAP最大のメリットは、全結合層を簡略化または不要にできる点です。
従来のCNNでは、最後に大量の重みを持つ全結合層が必要でした。
しかしGAPを使うことで、
- パラメータ数削減
- 計算量削減
- メモリ削減
が可能になります。
過学習を抑えやすい
全結合層はパラメータ数が非常に多いため、学習データに過剰適応しやすい特徴があります。
GAPは学習パラメータを持たないため、過学習を起こしにくくなります。
これは実用AIにおいて大きな利点です。
解釈性が高い
GAPでは、各チャネルの平均値が「特徴の出現度合い」を表します。
つまり、
- どの特徴が強く反応したか
- どの特徴が分類に影響したか
を比較的理解しやすいという特徴があります。
GAPは学習パラメータを持たない
グローバル平均プーリングは、単純に平均値を計算するだけです。
そのため、
- 重み
- バイアス
などの学習パラメータを持ちません。
これは全結合層との大きな違いです。
学習対象が減ることで、学習時間短縮にもつながります。
グローバル平均プーリングのデメリット
空間情報が失われる
特徴マップ全体を平均化するため、
- どこに特徴が存在したか
- 細かな位置情報
は失われます。
そのため、位置情報が重要なタスクでは注意が必要です。
複雑な特徴表現には限界もある
全結合層は複雑な特徴の組み合わせを学習できます。
一方GAPはシンプルな処理のため、高度な表現力では不利になるケースもあります。
グローバル平均プーリングが使われる代表モデル
GAPは多くの有名CNNモデルで採用されています。
主な採用例
- ResNet
- MobileNet
- GoogLeNet
- EfficientNet
特に軽量モデルやモバイル向けAIで重要な技術となっています。
グローバル平均プーリングの活用分野
画像分類
画像全体の特徴を効率よく集約できます。
モバイルAI
軽量化しやすいため、スマートフォン向けAIで多用されています。
エッジAI
計算資源が限られる環境でも動作しやすいのが特徴です。
まとめ
グローバル平均プーリング(Global Average Pooling:GAP)は、特徴マップ全体の平均値を計算し、各チャネルを1つの値へ圧縮する技術です。
従来の全結合層に比べて、
- パラメータ削減
- 計算量削減
- 過学習抑制
- 解釈性向上
など多くのメリットがあります。
現在では、軽量かつ高性能なCNNモデルを実現する重要技術として、多くの画像認識AIで活用されています。
CNNやディープラーニングを理解するうえで、GAPはぜひ押さえておきたい重要な概念といえるでしょう。
こちらもご覧ください:最大プーリング(Max Pooling)とは?CNNで重要な役割や仕組みをわかりやすく解説

