[BERT MLM] 실험 리포트 (개념 검증용)
이 문서는 BERT 아이디어를 단순화한 MLM toy 실험을 다룹니다. 논문 재현 성능 보고서가 아니라, 개념 이해용 검증 실험입니다. 구조/수식 설명은 개념 설명을 먼저 읽는 것을 권장합니다.
1. 이 실험을 왜 했는가
핵심 질문은 하나입니다. "양방향 문맥을 보는 MLM 방식이 단순 빈도 예측보다 실제 복원 성능에 도움이 되는가?"
뉴비 관점에서는 이 실험을 'BERT의 아이디어가 방향성은 맞는지' 확인하는 단계로 이해하면 됩니다.
2. 실험 설정
- 데이터셋:
internal_mlm_corpus_v1(소규모 내부 toy 코퍼스) - 모델:
TinyMLM_BidirectionalContext - 비교군:
baseline_unigram - 마스크 비율:
0.15 / 0.30 / 0.45 - 지표:
top1_acc,top5_acc,score=0.7*top1+0.3*top5
3. 결과를 읽기 전에 꼭 알아야 할 점
- 이 실험은 데이터가 매우 작아서 결과 변동이 큽니다.
- 일부 실행에서
top1=1.0이 나오지만, 다른 실행에서는0.0도 나옵니다. - 따라서 단일 실행 숫자를 "모델이 완벽하다"로 해석하면 안 됩니다.
4. 다회 실행 요약 (책임성 강화)
| run_at_utc | top1_acc | top5_acc | score | 해석 |
|---|---|---|---|---|
| 2026-03-03T09:04:32Z | 1.000000 | 1.000000 | 1.000000 | 과대평가 의심 구간 |
| 2026-03-03T09:06:06Z | 0.000000 | 0.000000 | 0.000000 | 과소적합/분할 민감 |
| 2026-03-03T09:06:35Z | 0.000000 | 0.000000 | 0.000000 | 과소적합/분할 민감 |
| 2026-03-04T00:37:54Z | 0.000000 | 0.000000 | 0.000000 | 재실행에서도 변동성 확인 |
전문가 코멘트: "지표가 높다/낮다"보다 왜 이렇게 흔들리는지를 분석하는 것이 이 단계의 핵심 학습 포인트입니다.
5. 대표 출력 예시
예시 1
입력: richer token [MASK] than one
정답: understanding
Top-k: 1:understanding(1.0000)
예시 2
입력: one directional [MASK]
정답: models
Top-k: 1:models(1.0000)
위 예시는 "잘 된 케이스"입니다. 실패 케이스도 함께 봐야 공정한 평가가 됩니다.
6. 한계와 개선 계획
- 문장 단위 split으로 train/valid 누수 가능성 최소화
- seed 다회 반복 후 평균/표준편차 보고
- 외부 코퍼스 확장 후 동일 프로토콜 재평가
7. 검증 가능 출처
- raw result:
papers/BERT/results/result_20260303_090430.txt - raw result:
papers/BERT/results/result_20260303_090604.txt - raw result:
papers/BERT/results/result_20260303_090633.txt - raw result:
papers/BERT/results/result_20260304_003752.txt