왜 Transformer는 Scaling에 유리한가

난이도: 중급

태그: LLM,Transformer,언어모델

이 문서는 AI 전문가가 뉴비에게 설명하듯 작성된 개념 정리입니다. 암기가 아니라 "왜 그런지"를 이해하는 것이 목표입니다.

한 줄 요약

모델을 크게 만들 때 성능이 계속 안정적으로 올라가기 때문이다.

다른 구조(CNN, RNN)는 일정 크기 이상에서 성능이 잘 안 올라가거나 학습이 불안정해진다. Transformer는 그런 문제가 상대적으로 적다.

역사적 맥락

2017년 Google Brain의 논문 Attention Is All You Need가 나오기 전까지, 언어 모델은 RNN과 CNN이 주를 이뤘다. 이 두 구조는 모델을 키울수록 한계가 명확했다. Transformer는 그 한계를 구조적으로 해결했다.

이 문서를 읽고 설명할 수 있어야 하는 핵심 3가지

처음 보는 사람용 핵심 용어

1단. RNN이 Scaling에 불리한 이유

RNN은 문장을 순차적으로 처리한다.

단어1 → 단어2 → 단어3 → 단어4   # 앞 단어를 처리해야 다음 단어로 갈 수 있다

이 구조에서 두 가지 문제가 발생한다.

결론: 파라미터를 늘려도 긴 문맥 학습이 안 되고, 계산 속도도 느려서 대규모 학습에 비효율적이다.

2단. CNN도 Scaling 한계가 있다

CNN의 local receptive field 구조에서, 멀리 떨어진 단어 간 관계를 포착하려면 레이어를 계속 쌓아야 한다.

# 거리 d만큼 떨어진 단어 관계를 보려면
# kernel size 3 기준으로 최소 ceil(d/2) 레이어가 필요하다
needed_layers = math.ceil(distance / (kernel_size // 2))

구조가 복잡해지고 학습이 불안정해진다. Scaling 비효율이다.

3단. Transformer의 핵심 구조

Transformer는 Attention으로 모든 토큰을 동시에 처리한다. 구조는 단순한 레이어 반복이다.

for _ in range(num_layers):
    x = self_attention(x)   # 모든 토큰을 동시에 처리
    x = feed_forward(x)     # 각 토큰 독립 변환
# 이것을 layer 수만큼 반복한다

4단. Self-Attention이 장거리 관계를 잘 포착하는 이유

예시 문장: The cat that chased the mouse is black

Transformer는 모든 토큰 쌍이 동일한 거리에 있다. 장거리 의존성 포착에서 구조적 우위다.

5단. 병렬 계산과 GPU 활용

LLM 학습은 수천~수만 GPU를 동시에 돌린다. Transformer가 이 구조에 맞는다.

# RNN: 순차 처리 (병렬화 불가)
hidden = h0
for token in sequence:
    hidden = rnn_cell(token, hidden)  # 이전 결과에 의존

# Transformer: 완전 병렬 처리
outputs = attention(sequence)  # 모든 토큰을 한 번에 처리

핵심 수식 정리

① Self-Attention 수식

Attention(Q, K, V) = softmax(Q @ K.T / sqrt(d_k)) @ V

직관: "Q와 K의 유사도를 계산해서, 비슷할수록 V를 많이 가져온다." cat과 chased의 유사도가 높으면 chased의 V값을 cat에 반영한다.

한계: 계산 복잡도가 O(n²)이다. 토큰 수가 늘면 비용이 제곱으로 증가한다.

② Power-law Scaling

L(N) ≈ A * N**(-alpha) + B
# N: 파라미터 수, L: loss, alpha: scaling 지수

직관: 파라미터를 10배 늘리면 loss가 일정 비율로 감소한다. log-log 그래프에서 직선 패턴이 나타난다. Transformer에서만 이 패턴이 안정적으로 성립한다.

6단. 모델 크기 비교

모델레이어 수
BERT24
GPT-396
GPT-4 (추정)100+

레이어 반복 구조이기 때문에 24 → 48 → 96 → 120 으로 계속 쌓을 수 있다. 구조를 바꾸지 않아도 된다.

7단. Transformer의 단점 — O(n²) 문제

Self-Attention의 계산 복잡도는 시퀀스 길이의 제곱에 비례한다.

토큰 길이계산량
1,0001M
10,000100M
100,00010B

긴 문서 처리 비용이 폭발한다. 이 문제를 해결하기 위한 후속 연구:

기존 방법과 비교

구조장거리 관계병렬화Scaling 안정성
RNN어려움 (vanishing gradient)불가낮음
CNN레이어 증가 필요가능중간
Transformer직접 연결완전 병렬높음

예상 질문 5개와 답변

다음에 스스로 해볼 실습 2가지