3.4 DataLoader

1. `create_dataloaders` 함수

def create_dataloaders(train_files, val_files, image_size, mean, std, batch_size):
    transform = ImageTransform(image_size, mean, std)
    
    train_dataset = DogvsCatDataset(train_files, transform=transform, phase='train')
    val_dataset = DogvsCatDataset(val_files, transform=transform, phase='val')
    
    train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    val_dataloader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)
    
    dataloader_dict = {'train': train_dataloader, 'val': val_dataloader}
    
    return dataloader_dict

역할

학습(train)과 검증(validation)용 데이터로더를 동시에 생성
두 데이터로더를 딕셔너리로 묶어서 반환

단계별 동작

1단계: Transform 생성

transform = ImageTransform(image_size, mean, std)

이미지 전처리를 담당하는 변환기 객체 생성
image_size: 이미지 리사이즈 크기 (예: 224)
mean, std: 정규화에 사용할 평균과 표준편차 (예: ImageNet 통계값)
train/val 모두 동일한 변환기 사용 (내부적으로 phase에 따라 다르게 동작)

2단계: Dataset 생성

train_dataset = DogvsCatDataset(train_files, transform=transform, phase='train')
val_dataset = DogvsCatDataset(val_files, transform=transform, phase='val')

Train Dataset:

train_files: 학습용 이미지 경로 리스트
phase='train': 학습 모드 → Data Augmentation 적용 (랜덤 크롭, 플립 등)
목적: 모델이 다양한 변형 이미지로 학습하여 일반화 성능 향상 Validation Dataset:
val_files: 검증용 이미지 경로 리스트
phase='val': 검증 모드 → Augmentation 없음, 중앙 크롭만 적용
목적: 일관된 조건에서 모델 성능 평가

3단계: DataLoader 생성

train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
val_dataloader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)

Train DataLoader:

shuffle=True: 매 에포크마다 데이터 순서를 무작위로 섞음
- 모델이 데이터 순서를 기억하지 못하게 함
- 학습 안정성과 일반화 성능 향상 Validation DataLoader:
shuffle=False: 데이터 순서를 그대로 유지
- 검증은 평가 목적이므로 순서가 성능에 영향을 주면 안 됨
- 재현 가능한 결과를 얻기 위함

4단계: 딕셔너리로 반환

dataloader_dict = {'train': train_dataloader, 'val': val_dataloader}
return dataloader_dict

두 데이터로더를 하나의 딕셔너리로 묶어서 반환
학습 루프에서 쉽게 접근 가능 사용 예시:

dataloaders = create_dataloaders(train_files, val_files, 224, mean, std, 32)
 
for epoch in range(10):
    # 학습
    for images, labels in dataloaders['train']:
        ...
    
    # 검증
    for images, labels in dataloaders['val']:
        ...

2. `get_test_dataloader` 함수

def get_test_dataloader(test_files, image_size, mean, std, batch_size=1):
    transform = ImageTransform(image_size, mean, std)
    test_dataset = DogvsCatDataset(test_files, transform=transform, phase='val')
    test_dataloader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)
    
    return test_dataloader

역할

테스트(추론)용 데이터로더 생성
학습이 완료된 모델로 최종 성능 평가 시 사용

단계별 동작

1단계: Transform 생성

transform = ImageTransform(image_size, mean, std)

검증/테스트용 변환기 생성 (학습 때와 동일한 파라미터 사용)

2단계: Dataset 생성

test_dataset = DogvsCatDataset(test_files, transform=transform, phase='val')

phase='val': 검증 모드로 고정
- 이유: 테스트는 Augmentation 없이 원본에 가까운 상태에서 평가해야 공정함
- 랜덤성이 있으면 테스트 결과가 매번 달라짐

3단계: DataLoader 생성

test_dataloader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

batch_size=1: 기본값 1 (한 장씩 처리)
- 추론 시에는 속도보다 정확한 개별 예측이 중요
- 필요하면 더 큰 배치 사이즈 지정 가능
shuffle=False: 순서 유지
- 테스트 결과를 파일 순서대로 저장하거나 비교할 때 유용

주요 차이점 비교

구분	Train	Validation	Test
Augmentation	적용	미적용	미적용
shuffle	`True`	`False`	`False`
batch_size	큼 (32, 64 등)	큼 (32, 64 등)	작음 (1~16)
목적	모델 학습	과적합 체크	최종 성능 평가
사용 시점	매 에포크	매 에포크	학습 완료 후

전체 데이터 파이프라인 흐름

1. 데이터 분할
   └─ train_files, val_files, test_files

2. DataLoader 생성
   ├─ create_dataloaders() 
   │   ├─ train_dataloader (shuffle=True, augmentation=ON)
   │   └─ val_dataloader   (shuffle=False, augmentation=OFF)
   │
   └─ get_test_dataloader()
       └─ test_dataloader  (shuffle=False, augmentation=OFF, batch=1)

3. 학습 루프
   for epoch in epochs:
       └─ train: train_dataloader 사용
       └─ validate: val_dataloader 사용

4. 최종 평가
   └─ test: test_dataloader 사용

핵심 포인트

1. Phase 구분의 중요성

phase='train': 데이터 증강으로 다양성 확보
phase='val': 증강 없이 일관된 평가

2. Shuffle 전략

Train: True → 학습 안정성
Val/Test: False → 재현성

3. Batch Size

Train/Val: 큰 배치로 효율적 학습
Test: 작은 배치로 정확한 추론

￦'s blog

📁 ￦'s blog

3.4 DataLoader

1. `create_dataloaders` 함수

역할

단계별 동작

1단계: Transform 생성

2단계: Dataset 생성

3단계: DataLoader 생성

4단계: 딕셔너리로 반환

2. `get_test_dataloader` 함수

역할

단계별 동작

1단계: Transform 생성

2단계: Dataset 생성

3단계: DataLoader 생성

주요 차이점 비교

전체 데이터 파이프라인 흐름

핵심 포인트

1. Phase 구분의 중요성

2. Shuffle 전략

3. Batch Size

Graph View

Table of Contents

Backlinks

￦'s blog

📁 ￦'s blog

3.4 DataLoader

1. create_dataloaders 함수

역할

단계별 동작

1단계: Transform 생성

2단계: Dataset 생성

3단계: DataLoader 생성

4단계: 딕셔너리로 반환

2. get_test_dataloader 함수

역할

단계별 동작

1단계: Transform 생성

2단계: Dataset 생성

3단계: DataLoader 생성

주요 차이점 비교

전체 데이터 파이프라인 흐름

핵심 포인트

1. Phase 구분의 중요성

2. Shuffle 전략

3. Batch Size

Graph View

Table of Contents

Backlinks

1. `create_dataloaders` 함수

2. `get_test_dataloader` 함수