[CLIP] 입문 개요

난이도: 중급

태그: vision,clip,contrastive,zero_shot

CLIP은 이미지와 텍스트를 같은 의미 공간에 올려 놓고, 서로 맞는 쌍은 가깝게 학습하는 모델이다.

CLIP이 중요한 이유는 이미지 분류를 위해 반드시 분류기 헤드를 새로 학습하지 않아도, 텍스트 프롬프트만으로 zero-shot 분류가 가능하다는 점이다.

이 문서를 볼 때는 CLIP을 단순한 이미지 분류 모델로 이해하면 아쉽다. CLIP의 진짜 의미는 이미지와 문장을 같은 임베딩 공간에서 비교 가능하게 만들었다는 데 있다. 그래서 분류, 검색, 멀티모달 매칭이 하나의 공통 표현 학습 문제로 묶인다.

1. 핵심 아이디어

특히 "라벨을 정수 id가 아니라 자연어 설명으로 바꾼다"는 점이 중요하다. 이 순간 모델은 단순한 고정 클래스 분류기가 아니라, 언어로 정의된 개념과 시각 정보를 연결하는 표현 학습기로 바뀐다.

2. 왜 중요한가

CLIP은 vision과 language를 하나의 표현 공간으로 연결하면서, 멀티모달 표현 학습의 방향을 크게 바꿨다.

그래서 CLIP 이후에는 학습 데이터에 없던 클래스도 문장 설명만으로 어느 정도 인식할 수 있는가가 중요한 질문이 되었다. 즉 supervised accuracy 중심에서 더 유연한 의미 일반화 능력을 보는 방향으로 기준이 넓어진 것이다.

3. 더 깊게 보기

CLIP contrastive learning과 zero-shot 상세 문서