[DETR] 입문 개요

난이도: 중급

태그: vision,detr,transformer,detection

DETR은 객체 탐지를 "고정 개수의 예측 슬롯을 가진 set prediction 문제"로 바꾼 모델이다.

기존 객체 탐지는 anchor, NMS 같은 후처리가 복잡했다. DETR은 transformer와 bipartite matching을 이용해 이 과정을 더 단순한 end-to-end 문제로 바꿨다.

처음 보면 DETR은 단순히 detection에 transformer를 붙인 모델처럼 보이기 쉽다. 하지만 더 중요한 변화는 객체 탐지를 순서 없는 집합 예측 문제로 다시 정의했다는 점이다. 이 관점이 anchor와 NMS에 크게 의존하던 기존 파이프라인과의 가장 큰 차이다.

1. 핵심 포인트

특히 object query는 "이미지 안에 있을 법한 객체 슬롯" 정도로 이해하면 된다. 각 슬롯이 하나의 객체를 설명하도록 학습되기 때문에, DETR은 후보를 많이 뿌리고 나중에 제거하는 방식보다 더 깔끔한 end-to-end 구조를 추구한다.

2. 왜 중요한가

DETR은 detection을 transformer 관점으로 다시 정의했다. 그래서 detection과 set prediction, matching loss를 함께 이해하는 데 좋은 기준점이다.

동시에 DETR은 "구조를 단순하게 만들면 학습은 오히려 더 어려워질 수 있다"는 점도 보여준다. 수렴 속도와 데이터 효율 문제가 있었기 때문에, 이후 deformable DETR 같은 파생 연구가 왜 나왔는지까지 자연스럽게 이어진다.

3. 더 깊게 보기

DETR set prediction과 bipartite matching 상세 문서