Neural Tangent Kernel (NTK) — 왜 큰 신경망이 잘 학습되는가

난이도: 중급

태그: 기초수학,최적화,딥러닝기초

NTK는 충분히 큰 신경망에서 학습 동역학이 커널 회귀와 유사해진다는 관점을 제공하는 이론이다.

한 줄 요약

폭이 매우 큰 신경망은 학습 중 함수가 거의 선형화되어, gradient descent가 NTK 기반 kernel regression처럼 동작한다.

핵심 질문

1. 선형화 관점

신경망 출력이 f(x, \theta)일 때, 작은 파라미터 변화 \Delta\theta에 대해 1차 근사하면:

f(x, \theta + \Delta\theta) ≈ f(x, \theta) + ∇_θ f(x, \theta) · \Delta\theta

즉 학습이 입력 x의 gradient feature ∇_θ f(x, \theta) 위에서의 선형 모델처럼 보인다.

2. NTK 정의

두 입력 x, x'에 대한 NTK는 다음과 같다.

K(x, x') = ∇_θ f(x)^T ∇_θ f(x')

해석하면, 두 입력의 gradient feature 유사도(내적)다.

3. 중요한 결과 (Infinite-width 직관)

4. Overparameterization과 일반화

전통적 통계학의 단순 직관은 “파라미터 증가 = 과적합 증가”였지만, 딥러닝에서는 큰 모델에서 다시 성능이 좋아지는 구간이 나타난다.

5. Double Descent 연결

모델 복잡도 증가에 따라 테스트 에러가:

감소 → 증가(보간 임계점 근처) → 다시 감소

하는 현상이 double descent다. 보간 임계점(interpolation threshold) 근처에서는 과적합이 두드러질 수 있고, 그보다 더 큰 모델에서는 다시 일반화가 개선될 수 있다.

6. 세 가지를 하나로 보면

  1. 큰 폭의 모델에서는 NTK 관점이 유효해진다.
  2. 과매개변수화는 최적화를 더 쉽게 만들 수 있다.
  3. 그 결과가 실무에서 double descent 형태로 관찰되기도 한다.

7. 해석 시 주의점

핵심 결론

현대 딥러닝의 성능은 큰 모델, SGD, 대규모 데이터의 결합에서 나온다. NTK는 이 조합의 학습 안정성을 설명하는 강력한 이론적 축 중 하나다.