AI Research Portfolio Post

Residual Connection / LayerNorm 이해

난이도: 중급

태그: llm,transformer,residual,layernorm

Residual은 "원래 정보를 우회로로 같이 흘려 보내는 장치"이고, LayerNorm은 "각 위치의 표현 스케일을 안정화하는 장치"다.

Transformer를 처음 보면 attention과 FFN만 눈에 들어오지만, 실제로 깊게 쌓아도 학습이 되게 만드는 핵심은 residual connection과 normalization이다. 이 둘이 없으면 깊은 네트워크는 쉽게 불안정해진다.

출력만 쓰지 않고 입력을 그대로 더해 x + f(x) 형태로 전달한다. 이렇게 하면 모델은 "완전히 새 표현"을 매번 만들기보다, 기존 표현에서 필요한 수정만 얹으면 된다.

각 토큰 표현 내부에서 평균과 분산을 기준으로 정규화해 스케일을 안정화한다. BatchNorm과 달리 batch 차원에 의존하지 않아 시퀀스 모델에 더 잘 맞는다.

Transformer 블록은 보통 residual path와 normalization을 함께 사용한다. 직관적으로는 "정보를 보존하는 길"과 "숫자 크기를 안정화하는 장치"가 같이 있어야 깊게 쌓아도 버틸 수 있다.

왜 Transformer에서 BatchNorm보다 LayerNorm을 더 자주 쓰는지, residual connection이 optimization에 어떤 도움을 주는지 설명할 수 있으면 좋다.