AI Research Portfolio Post

Calibration / Uncertainty 이해

난이도: 중급

태그: foundations,calibration,uncertainty,evaluation

모델이 자신 있어 보인다고 해서 정말 맞는 것은 아니다. calibration은 "확신의 크기"와 "실제 정답률"이 얼마나 잘 맞는지를 보는 개념이다.

분류 모델이 0.99 확률로 정답이라고 말해도 자주 틀린다면, 그 모델은 overconfident하다. uncertainty와 calibration은 이런 문제를 정량적으로 다루는 개념이다.

이 주제가 중요한 이유는 많은 모델이 단순 accuracy 기준으로는 좋아 보여도, 실제 서비스에서는 자신감 표현이 엉망일 수 있기 때문이다. 특히 고위험 환경에서는 "맞히는가"만큼 "얼마나 확실한 척하는가"도 중요하다.

1. Calibration이란

모델이 80% 확률이라고 한 예측들이 실제로도 약 80% 맞아야 calibrated 되었다고 말할 수 있다. 즉 calibration은 confidence와 accuracy의 일치 정도를 본다.

여기서 핵심은 확률값을 단순 점수처럼 보지 않는 것이다. 확률은 원래 의사결정에 바로 쓰이는 신호이기 때문에, 0.9와 0.6이 실제 의미 차이를 갖지 못하면 후속 시스템도 잘못된 판단을 할 수 있다.

2. Uncertainty란

모델이 얼마나 확신하지 못하는지를 나타낸다. 데이터가 애매하거나 학습 데이터와 다른 분포를 만나면 uncertainty가 커져야 자연스럽다.

즉 uncertainty는 모델이 모르는 것을 모른다고 말할 수 있는 능력과도 연결된다. 이 점이 없으면 모델은 낯선 입력에도 평소처럼 확신 높은 답을 내놓기 쉽다.

LLM이나 RAG에서도 같은 문제가 반복된다. 모르는 질문에 대해 낮은 확신을 보이거나 추가 검색으로 넘어가야 하는데, uncertainty 인식이 약하면 그럴듯한 환각 답변을 매우 자신 있게 출력할 수 있다.

3. 왜 중요한가

의료, 금융, 검색 같은 고위험 환경에서는 틀릴 때 자신만만한 모델이 특히 위험하다.
OOD(out-of-distribution) 데이터 탐지와 연결된다.
에이전트와 RAG에서도 "모르면 모른다고 말하는가"와 연결된다.

4. 자주 보는 현상

Overconfidence: 틀리는데도 확률이 높다
Underconfidence: 맞는데도 확률이 너무 낮다

5. 면접 포인트

면접에서는 "accuracy가 높으면 calibration도 좋은가"를 자주 묻는다. 답은 아니다. 정확도가 높아도 confidence 분포가 실제 정답률과 어긋날 수 있다.

여기서 한 단계 더 나아가면 "OOD 상황에서 calibration은 왜 더 중요해지는가"까지 연결할 수 있다. distribution shift 환경에서는 단순 정확도보다 경고 신호를 얼마나 잘 내는지가 더 중요해질 수 있기 때문이다.

실무 답변에서는 "정확도는 평균적으로 맞히는 비율이고, calibration은 그 예측 확률을 의사결정에 믿고 써도 되는지의 문제"라고 구분해 주면 깔끔하다. 이 구분이 잡히면 thresholding, reranking, fallback 정책도 더 자연스럽게 설명할 수 있다.

6. 체크리스트

confidence와 calibration 차이를 설명할 수 있는가?
왜 overconfident model이 위험한가?
accuracy와 calibration이 왜 별개일 수 있는가?