주제: 5-1 LLM 정렬 (InstructGPT / Constitutional AI / DPO)
Pretraining만 거친 모델은 인터넷 텍스트를 잘 이어 쓰지만, 사용자 지시를 안전하고 유용하게 따르는 것은 별개의 문제다. 그래서 alignment는 "무엇을 말할 수 있는가"보다 "어떻게 행동해야 하는가"를 다루는 단계라고 볼 수 있다.
이 차이를 이해하면 RLHF, Constitutional AI, DPO가 왜 모두 단순 정답 예측이 아니라 선호도와 정책 조정 문제로 이어지는지 자연스럽게 보인다.
문제 설정
대형 언어 모델은 기본적으로 다음 목적함수로 학습됩니다.
이 목표는 단순히 다음 토큰 예측을 잘하도록 만드는 것입니다.
하지만 실제 서비스에서는 다음 문제가 발생합니다.
- 사용자 의도와 다른 답변
- 유해한 내용 생성
- 지시(instruction) 이해 부족
이를 해결하기 위해 사용하는 방법이 LLM Alignment입니다.
즉 alignment는 언어 능력을 다시 만드는 것이 아니라, 이미 가진 능력 위에 선호도와 안전 기준을 덧입히는 절차다. 이 점이 pretraining과의 가장 큰 차이이다.
Pretraining만 거친 모델은 인터넷 텍스트를 잘 이어 쓰지만, 사용자 지시를 안전하고 유용하게 따르는 것은 별개의 문제다. 그래서 alignment는 "무엇을 말할 수 있는가"보다 "어떻게 행동해야 하는가"를 다루는 단계라고 볼 수 있다.
직관 비유
- Pretraining -> 언어 지식 학습
- Alignment -> 사람 기준에 맞게 행동 조정
즉 alignment는 언어 능력을 다시 만드는 것이 아니라, 이미 가진 능력 위에 선호도와 안전 기준을 덧입히는 절차다. 이 차이를 이해하면 RLHF, Constitutional AI, DPO가 왜 모두 "정답 분포" 대신 "선호 비교"를 다루는지 자연스럽게 보인다.
1. InstructGPT
InstructGPT는 RLHF (Reinforcement Learning from Human Feedback) 기반 정렬 방법입니다.
단계
1. Pretrained LM
2. Supervised Fine-tuning (SFT)
3. Reward Model 학습
4. PPO로 정책 업데이트
1단계: SFT
사람이 작성한 답변으로 모델을 fine-tune 합니다.
기호 의미
- prompt : 사용자 입력
- answer : human response
왜 필요한가
instruction-following 능력을 학습합니다.
주의점
데이터 수집 비용이 큽니다.
2단계: Reward Model
사람이 여러 답변을 비교하여 선호도를 제공합니다.
예:
Answer A > Answer B
reward 모델 목표:
기호 의미
- x : prompt
- y : answer
왜 필요한가
사람 선호를 수치로 표현합니다.
3단계: PPO
RL 알고리즘으로 모델을 업데이트합니다.
주의점
RL 학습은 불안정할 수 있습니다.
2. Constitutional AI
Anthropic이 제안한 정렬 방법입니다.
핵심 아이디어:
AI가 스스로 답변을 평가하도록 한다.
구조
Initial response
↓
AI critique
↓
Revised response
수식 관점
기호 의미
- y : 초기 답변
- y' : 수정된 답변
왜 필요한가
인간 피드백 의존도를 줄입니다.
주의점
헌법(constitution) 규칙이 필요합니다.
3. Direct Preference Optimization (DPO)
DPO는 RLHF를 단순화한 방법입니다.
핵심 아이디어:
Reward 모델 없이 preference 데이터를 직접 학습
데이터 형태
prompt
↓
chosen answer
rejected answer
목표 함수
기호 의미
- y_w : preferred answer
- y_l : rejected answer
- π : 모델 정책
- β : scaling parameter
왜 중요한가
PPO 없이 preference 학습이 가능합니다.
주의점
reward 모델을 명시적으로 학습하지 않습니다.
4. RLHF vs DPO
| 방법 | 구성 |
|---|---|
| RLHF | SFT + Reward Model + PPO |
| DPO | Preference loss 직접 최적화 |
5. Alignment 방법 비교
| 방법 | 특징 |
|---|---|
| InstructGPT | RLHF 기반 |
| Constitutional AI | AI self critique |
| DPO | RL 없이 preference 학습 |
6. Alignment 목적
- instruction following 개선
- 유해 출력 감소
- 사람 선호 반영
코드-수식 연결
| 개념 | 코드 | 설명 |
|---|---|---|
| SFT | trainer.train() |
supervised fine-tuning |
| PPO | trl.PPOTrainer |
RLHF training |
| DPO | trl.DPOTrainer |
preference optimization |
자주 하는 오해 5개
- Alignment는 모델 성능을 항상 증가시킨다고 생각한다
- RLHF는 필수 단계라고 생각한다
- DPO는 RLHF와 완전히 동일한 방법이라고 생각한다
- Alignment는 안전성만 위한 것이라고 생각한다
- Pretraining만으로 instruction-following이 가능하다고 생각한다
체크리스트 (스스로 설명 가능해야 하는 질문)
- 왜 LLM에는 alignment가 필요한가?
- InstructGPT의 RLHF 파이프라인은 어떻게 구성되는가?
- Constitutional AI의 self critique 방식은 무엇인가?
- DPO는 RLHF와 어떤 차이가 있는가?
- 왜 reward model이 RLHF에서 필요한가?