주제: 6-4 실험 해석 (Baseline 대비 결과 읽기)

분류: rag_agent

타입: experiment

난이도: 중급

선수지식: 있음 — Retrieval, Evaluation Metric, Precision/Recall

실험 목적

RAG 시스템에서는 새로운 방법을 제안할 때 기존 방법(baseline)과 비교하여 성능 개선 여부를 확인합니다.

실험 해석의 핵심 질문:

1. Baseline 정의

baseline은 비교 기준이 되는 기존 방법입니다.

예:

방법 설명
BM25 전통적 검색
Dense Retrieval embedding 기반 검색
RAG retrieval + generation

실험 목표:

Improvement=Metric(model)Metric(baseline)

기호 의미

왜 필요한가

새로운 방법의 효과를 객관적으로 평가합니다.

주의점

baseline 선택이 실험 신뢰도를 결정합니다.

2. 정량 평가 (Quantitative Evaluation)

실험 결과는 보통 수치로 평가됩니다.

Metric 설명
Accuracy 정답 비율
Recall@k top-k 검색 정확도
MRR 정답 위치 기반 점수
BLEU / ROUGE 생성 품질 평가

예:

모델 Recall@10
Baseline 0.62
Proposed 0.71

개선:

Δ=0.710.62=0.09

왜 중요한가

성능 개선을 객관적으로 비교할 수 있습니다.

3. 기대값 관점

많은 평가 metric은 평균 성능을 측정합니다.

Metric=E[score(x)]

기호 의미

왜 필요한가

전체 데이터에 대한 평균 성능을 평가합니다.

주의점

평균값은 일부 실패 사례를 숨길 수 있습니다.

4. 정성 평가 (Qualitative Evaluation)

정량 평가만으로는 모델 행동을 완전히 이해하기 어렵습니다.

따라서 사례 분석이 필요합니다.

Question: Who invented the telephone?
Baseline answer: "Alexander Graham Bell"
Proposed answer: "Alexander Graham Bell invented the telephone in 1876."

분석

5. Error Analysis

실험 해석에서 중요한 단계는 오류 분석입니다.

Error Type 설명
retrieval error 관련 문서 검색 실패
generation error LLM 답변 오류
ranking error rerank 실패

목표:

Errorrate=errors/totalsamples

왜 중요한가

시스템 개선 방향을 찾을 수 있습니다.

6. Ablation Study

ablation study는 시스템 구성 요소의 영향을 분석합니다.

모델 Recall@10
Full model 0.71
without reranker 0.64
without retrieval 0.52

왜 필요한가

각 구성 요소의 기여도를 파악합니다.

7. 통계적 유의성

작은 개선은 우연일 수 있습니다.

통계 검정을 사용합니다.

pvalue<0.05

기호 의미

왜 필요한가

개선 결과의 신뢰도를 검증합니다.

8. 실험 해석 절차

1. baseline 설정
2. metric 비교
3. error analysis
4. ablation study
5. qualitative inspection

코드-수식 연결

개념 코드 설명
metric 계산 sklearn.metrics.accuracy_score() 정확도 평가
recall@k topk_recall() retrieval 성능
통계 검정 scipy.stats.ttest_ind() 유의성 테스트

자주 하는 오해 5개

체크리스트 (스스로 설명 가능해야 하는 질문)

데이터 / 모델 / 하이퍼파라미터

구성 설정
Dataset QA retrieval benchmark
Embedding bi-encoder
Vector DB FAISS
Top-k retrieval 10
Reranker cross encoder

Baseline 대비 비교

방법 Recall@10
Dense Retrieval 0.62
RAG + Rerank 0.71

결과 해석

실패 원인

다음 실험 계획