AI Research Portfolio Post

[StyleGAN] 입문 개요

난이도: 중급

태그: generative,stylegan,latent

StyleGAN의 핵심은 "잠재 벡터를 바로 넣지 않고, 스타일로 바꿔 각 레이어를 조절한다"는 점이다.

StyleGAN은 GAN 계열 중에서도 특히 얼굴 생성처럼 고해상도 이미지를 매우 자연스럽게 만드는 것으로 유명하다. 단순히 이미지를 만드는 것에서 끝나지 않고, 잠재공간을 더 잘 제어할 수 있게 만든 구조가 핵심이다.

즉 StyleGAN은 "좋은 이미지 생성"과 "조절 가능한 잠재공간"을 함께 보여준 모델이다. 그래서 생성 품질뿐 아니라, 웃음/헤어스타일/조명 같은 시각 속성을 어느 정도 분리해서 다룰 수 있다는 점이 중요하게 평가된다.

이 문서를 읽을 때는 StyleGAN을 단순히 "GAN의 더 좋은 버전"으로만 보면 아쉽다. 핵심은 잠재공간을 더 해석 가능하게 만들고, coarse-to-fine 제어 감각을 준 구조적 변화에 있다.

입력 latent \(z\)를 mapping network가 중간 잠재공간 \(w\)로 바꾸고, 각 레이어에 style을 주입한다. 이 방식 덕분에 특정 수준의 시각 속성을 더 분리해서 다룰 수 있다.

StyleGAN은 "좋은 생성 결과"뿐 아니라 "잠재공간 해석 가능성"을 보여 주었다. 그래서 표현 제어, 편집, attribute steering을 생각할 때 중요한 기준점이 된다.

즉 생성 모델이 단순히 그럴듯한 이미지를 뽑는 것을 넘어, 사람이 원하는 속성을 조절할 수 있는 방향으로 발전하는 흐름을 보여준 사례라고 볼 수 있다.