GAP은 “Tensor의 공간 평균을 내는 연산” GAP은 평균을 내기 때문에 공간 정보를 삭제하는 연산 7×7×2048 → GAP → 1×1×2048

  • 각 채널의 7×7 공간 정보를 평균값 하나로 압축
  • 즉 정보 손실 발생
  • 대신 “공간 위치 무관한 고수준 특징”만 남음 큰 정보 손실이 있지만, 분류에서는 오히려 이게 장점
    (불필요한 위치 정보가 줄어들어서 overfitting 감소)

GAP을 쓰면 안 되는 모델 (예: Object Detection, Segmentation) 이런 모델은 feature map의 공간 정보(H×W)가 필수
따라서 평균내서 공간을 없애면 안 됨.

  • Faster R-CNN
  • Mask R-CNN
  • U-Net
  • YOLO series
  • FCN, DeepLab 등

Transformer 입력으로 넣을 때 transformer는 1D 토큰을 넣어야 하므로: H×W×C → flatten → sequence 만들기

  • ViT (Vision Transformer)
  • CNN + Transformer hybrid 모델

Fully Connected 구조 기반의 Dense 모델 Flatten 후 Dense layer 여러 개 쌓는 구조에서는 GAP 불가.