- Softmax는 실수 벡터를 확률 분포로 정규화하는 연산
- 각 값에 지수 적용 후 전체 합으로 나누어 0~1 범위 확률로 변환
- 입력 간 상대적 크기 차이를 증폭하여 가장 큰 로그it에 높은 확률 집중
- 총합이 1이므로 다중 클래스 분류의 출력층에서 사용
- 모델의 예측을 확률적 선택 형태로 해석 가능
- 과도한 스케일 차이에 민감하여 logits 안정화(shift trick) 필수
1. 목적
최종 출력인 logit 벡터를 다중 클래스 확률 분포로 변환한다.
2. 동작 원리
logit 에 대해
- 모든 확률 합은 1
- 지수 변환으로 가장 큰 logit의 영향력 강조
- logit 간 상대적 크기 차이를 확률로 해석 가능 3. 특징
- logit 전체를 로 이동해 수치 안정성 확보
- 다중 클래스 분류의 출력층 표준 함수
- 결과는 “클래스별 선택 확률”로 직접 사용 가능 4. Head 단계에서의 역할
- GAP/Flatten/FC 결과물을 확률 벡터로 변환
- 분류 모델이 최종 클래스를 결정하는 단계
- Cross-Entropy Loss와 결합되어 안정적 학습 구조 형성