AI Research Portfolio Post

Segmentation 이해

난이도: 중급

태그: vision,segmentation,semantic,instance

분류가 이미지 전체에 하나의 라벨을 붙이는 문제라면, segmentation은 픽셀 단위로 무엇이 어디 있는지 더 촘촘하게 맞히는 문제다.

Segmentation은 객체 검출보다 더 세밀한 시각 이해를 요구한다. 픽셀마다 라벨을 예측해야 하므로 위치와 경계를 훨씬 정교하게 다뤄야 한다.

초심자 관점에서는 "bounding box보다 더 많은 정보를 내는 문제"라고 보면 이해가 쉽다. 단순히 사각형 위치만 맞히는 것이 아니라, 실제 물체 형태를 픽셀 수준으로 복원해야 하기 때문이다.

같은 클래스의 픽셀을 모두 같은 라벨로 본다. 예를 들어 사람 두 명이 있어도 둘 다 `person` 픽셀로만 표시된다.

같은 클래스여도 객체 인스턴스를 서로 구분한다. 그래서 사람 A와 사람 B를 따로 나눠서 마스크를 만든다.

즉 semantic segmentation이 "무슨 클래스인가"에 더 가깝다면, instance segmentation은 "어떤 개별 객체인가"까지 구분하는 문제다.

그래서 instance segmentation은 detection과 segmentation이 섞인 문제처럼 느껴질 수 있다. 객체를 개별 단위로 나눠야 하면서도, 동시에 각 객체의 실제 윤곽을 섬세하게 복원해야 하기 때문이다.

그래서 segmentation은 성능이 조금만 떨어져도 경계가 무너지거나 작은 구조가 사라질 수 있어, 평가와 시각화 해석도 detection보다 더 민감하다.

실무에서는 이 차이가 꽤 중요하다. 예를 들어 자율주행은 도로 경계와 보행자 영역을 정교하게 알아야 하고, 의료영상은 아주 작은 병변 영역도 놓치면 안 되기 때문에 box 수준 정보만으로는 부족한 경우가 많다.