주제: 4-2 RoBERTa / T5 (Pretraining Recipe와 Objective 차이)

분류: llm

타입: concept

난이도: 중급

선수지식: 있음 — BERT, Transformer Encoder/Decoder, MLM

문제 설정

BERT는 매우 강력한 언어 이해 모델이지만 이후 연구에서 다음 문제가 발견되었습니다.

이 문제를 해결하기 위해 등장한 모델이 RoBERTaT5입니다.

직관 비유

1. RoBERTa

RoBERTa는 BERT 구조를 유지하면서 pretraining 전략을 개선한 모델입니다.

핵심 변화

구조

RoBERTa 구조는 BERT와 동일합니다.

H=Encoder(X)

기호 의미

왜 중요한가

BERT의 성능 향상이 구조 때문이 아니라 학습 레시피 때문임을 보여줬습니다.

2. Dynamic Masking

BERT는 동일한 mask 패턴을 사용합니다.

RoBERTa는 학습마다 mask 위치를 변경합니다.

목표:

P(wmask|context)

왜 필요한가

더 다양한 학습 데이터를 생성할 수 있습니다.

주의점

MLM objective 자체는 동일합니다.

3. RoBERTa Objective

RoBERTa는 NSP를 제거하고 MLM만 사용합니다.

L=LMLM

왜 중요한가

NSP가 성능에 큰 영향을 주지 않는다는 것을 확인했습니다.

4. T5 모델

T5(Text-to-Text Transfer Transformer)는 모든 NLP task를 text-to-text 문제로 정의합니다.

구조

Input text
↓
Encoder
↓
Decoder
↓
Output text

수식:

y=Decoder(Encoder(x))

기호 의미

왜 중요한가

모든 NLP 문제를 동일한 방식으로 해결할 수 있습니다.

5. T5 Pretraining Objective

T5는 span corruption을 사용합니다.

예:

Input:  The <extra_id_0> sat on the <extra_id_1>
Target: <extra_id_0> cat <extra_id_1> mat

수식:

L=logP(target|input)

기호 의미

왜 필요한가

여러 토큰을 동시에 예측할 수 있습니다.

6. MLM vs Span Corruption

방법 예측 단위
MLM (BERT) 개별 토큰
Span corruption (T5) 연속 토큰

7. RoBERTa vs T5

모델 구조 목적함수
BERT Encoder MLM + NSP
RoBERTa Encoder MLM
T5 Encoder-Decoder Span corruption

8. 핵심 차이 요약

코드-수식 연결

개념 코드 설명
RoBERTa transformers.RobertaModel BERT 기반 encoder
T5 transformers.T5ForConditionalGeneration encoder-decoder 모델
tokenization T5Tokenizer SentencePiece tokenizer

자주 하는 오해 5개

체크리스트 (스스로 설명 가능해야 하는 질문)