• Softmax는 실수 벡터를 확률 분포로 정규화하는 연산
  • 각 값에 지수 적용 후 전체 합으로 나누어 0~1 범위 확률로 변환
  • 입력 간 상대적 크기 차이를 증폭하여 가장 큰 로그it에 높은 확률 집중
  • 총합이 1이므로 다중 클래스 분류의 출력층에서 사용
  • 모델의 예측을 확률적 선택 형태로 해석 가능
  • 과도한 스케일 차이에 민감하여 logits 안정화(shift trick) 필수

1. 목적
최종 출력인 logit 벡터를 다중 클래스 확률 분포로 변환한다. 2. 동작 원리
logit ​ 에 대해

  • 모든 확률 합은 1
  • 지수 변환으로 가장 큰 logit의 영향력 강조
  • logit 간 상대적 크기 차이를 확률로 해석 가능 3. 특징
  • logit 전체를   로 이동해 수치 안정성 확보
  • 다중 클래스 분류의 출력층 표준 함수
  • 결과는 “클래스별 선택 확률”로 직접 사용 가능 4. Head 단계에서의 역할
  • GAP/Flatten/FC 결과물을 확률 벡터로 변환
  • 분류 모델이 최종 클래스를 결정하는 단계
  • Cross-Entropy Loss와 결합되어 안정적 학습 구조 형성