AI Research Portfolio Post

주제: 1-7 정규화와 학습 안정화

분류: foundations

타입: concept

난이도: 입문

선수지식: 있음 - gradient descent, 역전파

신경망이 깊어지면 gradient explosion, gradient vanishing, 학습 불안정 문제가 자주 발생합니다.

대표 대응 방법은 입력 데이터 표준화, Layer Normalization, gradient clipping입니다.

x^{'} = (x - m u) / s i g m a

입력 스케일을 맞추면 학습이 더 안정적이고 빠르게 진행됩니다.

학습 데이터에서 계산한 평균/표준편차를 검증·테스트에도 동일하게 사용해야 합니다.

L a y e r N o r m (x) = (x - m u) / s q r t (s i g m a^{2} + e p s i l o n)

레이어 출력 분포를 안정적으로 유지해 학습을 안정화합니다.

BatchNorm과 달리 LayerNorm은 배치 크기에 덜 민감합니다.

역전파에서 gradient가 매우 작아져 초기 레이어가 거의 업데이트되지 않는 문제입니다.

d L / d x = (d L / d a) (d a / d z) (d z / d x)

gradient 값이 너무 커져 파라미터 업데이트가 불안정해지고 학습이 발산할 수 있는 문제입니다.

g <- g * (tau / ||g||) if ||g|| > tau

gradient explosion을 방지해 학습 안정성을 높입니다.

너무 강한 clipping은 학습 속도를 낮추거나 underfitting을 유발할 수 있습니다.

수식	PyTorch 코드	설명
x' = (x-mu)/sigma	`sklearn.preprocessing.StandardScaler`	데이터 표준화
LayerNorm	`torch.nn.LayerNorm()`	레이어 정규화
gradient clipping	`torch.nn.utils.clip_grad_norm_()`	gradient 제한