AI Research Portfolio Post

Offline vs Online Evaluation 이해

난이도: 중급

태그: evaluation,offline,online,system

오프라인 점수가 좋아도 실제 사용자 환경에서 반드시 좋아지는 것은 아니다. 오프라인과 온라인 평가는 목적이 다르다.

오프라인 평가는 고정된 데이터셋으로 빠르게 비교하기 좋다. 온라인 평가는 실제 사용자 상호작용에서 품질을 확인하는 방식이다. 둘은 대체 관계가 아니라 보완 관계다.

연구 단계에서는 오프라인 평가가 필수지만, 실제 서비스 단계에서는 온라인 평가가 더 결정적일 수 있다. 그래서 둘을 연결해서 사고하는 능력이 실무 면접에서 중요하다.

재현 가능하고 빠르게 반복할 수 있다는 장점이 있다. 하지만 실제 사용자 행동이나 장기 효과를 충분히 반영하지 못할 수 있다.

그래서 오프라인 점수는 보통 "후보를 빠르게 정렬하는 지표"로 쓰는 편이 적절하다. retrieval recall, exact match, nDCG 같은 지표는 매우 유용하지만, 그것만으로 사용자 만족이나 장기 리텐션까지 보장하지는 않는다.

A/B test, CTR, 사용자 만족도 같은 실제 지표를 본다. 더 현실적이지만 비용이 크고 실험 설계가 어렵다.

온라인 평가는 현실성이 높지만 잡음도 많다. 계절성, UI 변화, 사용자 집단 차이 같은 요소가 함께 섞일 수 있어서, 단순히 숫자만 보는 것이 아니라 실험 단위와 해석 범위를 조심스럽게 잡아야 한다.

오프라인에서 후보를 빠르게 좁히고, 온라인에서 실제 효과를 검증하는 흐름이 일반적이다.

즉 오프라인 평가는 탐색과 필터링, 온라인 평가는 최종 검증에 가깝다. 이 역할 차이를 이해하면 metric 해석도 덜 단순해진다.

면접에서는 이 둘을 대립적으로 말하기보다 "오프라인은 빠른 iteration, 온라인은 실제 가치 검증"이라고 연결해 설명하는 편이 좋다. 그래야 연구와 실무를 함께 이해하고 있다는 인상을 준다.