AI Research Portfolio Post

Pretraining Objectives 이해: MLM, CLM, Span Corruption

난이도: 중급

태그: llm,pretraining,mlm,clm

사전학습 목적함수는 "모델에게 어떤 예측 문제를 풀게 할 것인가"를 결정한다. 목적이 다르면 배우는 표현도 달라진다.

Transformer 기반 모델은 구조만으로 성능이 결정되지 않는다. 무엇을 예측하게 하느냐, 즉 pretraining objective가 모델 성격을 크게 바꾼다.

초심자에게 가장 중요한 관점은 모델이 주어진 학습 문제를 잘 푸는 방향으로만 표현을 배운다는 점이다. 따라서 같은 transformer라도 빈칸 맞히기를 배우는 모델과 다음 토큰 예측을 배우는 모델은 내부 표현과 강한 downstream task가 자연스럽게 달라진다.

1. MLM

문장 일부를 가리고 그 자리를 맞히게 한다. BERT가 대표적이다. 양방향 문맥을 활용하기 좋다.

그래서 MLM은 문장을 전체적으로 읽고 관계를 이해하는 능력과 잘 맞는다. 반면 생성 시점의 왼쪽에서 오른쪽으로 이어지는 실제 decoding 흐름과는 완전히 같지 않기 때문에, 생성 모델로 바로 이어질 때는 한계가 있다.

2. CLM

이전 토큰만 보고 다음 토큰을 예측한다. GPT 계열의 기본 objective다. 생성 모델과 매우 잘 맞는다.

CLM은 학습 목표와 추론 방식이 거의 일치한다는 점이 강점이다. 학습할 때도 다음 토큰을 맞히고, 실제 사용 때도 다음 토큰을 반복 생성하기 때문이다. 그래서 자연스러운 텍스트 생성과 장문 이어쓰기에 특히 강하다.

3. Span Corruption

토큰 하나가 아니라 연속 구간을 지우고 복원한다. T5 같은 모델에서 자주 쓰이며, 더 긴 단위 복원 학습이 가능하다.

Span corruption은 단어 하나보다 더 큰 의미 단위를 복원하게 만든다. 그래서 문장 구조나 구절 단위 의미를 더 잘 다루게 되고, 요약이나 변환 같은 seq2seq 태스크로 넘어갈 때도 연결이 자연스럽다.

4. 왜 중요한가

MLM은 이해 중심 태스크에 강한 편이다.
CLM은 생성과 autoregressive decoding에 직접 연결된다.
Span corruption은 요약, 복원, seq2seq 전이와 잘 맞는다.

결국 이 문서의 핵심은 어떤 objective가 절대적으로 최고냐가 아니라, 어떤 능력을 우선해서 배우게 할 것인가에 따라 목적함수가 달라진다는 점이다. 이 기준이 잡히면 BERT, GPT, T5 계열 차이도 훨씬 쉽게 읽힌다.

5. 체크리스트

BERT와 GPT objective 차이를 설명할 수 있는가?
왜 CLM이 생성 모델과 더 직접적으로 연결되는가?
Span corruption이 토큰 단위 masking과 어떻게 다른가?