AI Research Portfolio Post

[YOLO] 입문 개요

난이도: 초중급

태그: vision,yolo,object_detection

YOLO는 "이미지를 한 번 보고 바로 박스와 클래스를 동시에 예측하는" one-stage detector다.

객체 탐지에서는 무엇이 어디에 있는지를 함께 맞혀야 한다. YOLO는 이 문제를 빠르게 풀기 위해 지역 후보를 따로 고르지 않고, 한 번의 forward pass 안에서 위치와 클래스를 동시에 예측한다.

초심자 기준으로 보면 YOLO의 핵심은 탐지를 여러 단계로 쪼개기보다 하나의 큰 예측 문제로 다룬다는 데 있다. 그래서 분류 모델에 비해 무엇이 더 어려워지는지, 그리고 왜 실시간 환경에서 one-stage 방식이 반복해서 선택되는지를 함께 봐야 흐름이 잡힌다.

특히 자율주행, CCTV, 로봇 비전처럼 지연 시간이 중요한 환경에서는 정확도뿐 아니라 얼마나 빨리 반응하느냐가 중요하다. YOLO 계열은 바로 이 속도와 정확도의 균형을 보여주는 대표 사례다.

이미지를 격자처럼 나누고, 각 위치에서 "여기에 객체가 있는가, 있다면 어떤 박스와 클래스인가"를 바로 예측한다.

여기서 읽는 포인트는 두 가지다. 박스 좌표는 회귀 문제이고 클래스는 분류 문제인데, YOLO는 이 둘을 한 번에 학습한다. 그래서 label 표현 방식, anchor나 박스 파라미터화, loss 균형이 왜 중요한지도 자연스럽게 따라온다.

그래서 YOLO를 공부할 때는 "왜 빠른가"만 보지 말고, 무엇을 단순화해서 이 속도를 얻는지도 같이 봐야 한다. 이 관점을 잡으면 이후 DETR처럼 전혀 다른 detection 철학을 가진 모델과도 더 잘 비교할 수 있다.