주제: 5-1 LLM 정렬 (InstructGPT / Constitutional AI / DPO)

분류: llm

타입: concept

난이도: 중상

선수지식: 있음 — Language Modeling, Reinforcement Learning, Cross-Entropy

Alignment는 모델을 더 똑똑하게 만드는 과정이라기보다, 이미 배운 언어 능력을 "사람이 원하는 방식"으로 조정하는 과정에 가깝다.

Pretraining만 거친 모델은 인터넷 텍스트를 잘 이어 쓰지만, 사용자 지시를 안전하고 유용하게 따르는 것은 별개의 문제다. 그래서 alignment는 "무엇을 말할 수 있는가"보다 "어떻게 행동해야 하는가"를 다루는 단계라고 볼 수 있다.

이 차이를 이해하면 RLHF, Constitutional AI, DPO가 왜 모두 단순 정답 예측이 아니라 선호도와 정책 조정 문제로 이어지는지 자연스럽게 보인다.

문제 설정

대형 언어 모델은 기본적으로 다음 목적함수로 학습됩니다.

L=ΣlogP(xt|x1,...,xt1)

이 목표는 단순히 다음 토큰 예측을 잘하도록 만드는 것입니다.

하지만 실제 서비스에서는 다음 문제가 발생합니다.

이를 해결하기 위해 사용하는 방법이 LLM Alignment입니다.

즉 alignment는 언어 능력을 다시 만드는 것이 아니라, 이미 가진 능력 위에 선호도와 안전 기준을 덧입히는 절차다. 이 점이 pretraining과의 가장 큰 차이이다.

Alignment는 모델을 더 똑똑하게 만드는 과정이라기보다, 이미 배운 언어 능력을 "사람이 원하는 방식"으로 조정하는 과정에 가깝다.

Pretraining만 거친 모델은 인터넷 텍스트를 잘 이어 쓰지만, 사용자 지시를 안전하고 유용하게 따르는 것은 별개의 문제다. 그래서 alignment는 "무엇을 말할 수 있는가"보다 "어떻게 행동해야 하는가"를 다루는 단계라고 볼 수 있다.

직관 비유

즉 alignment는 언어 능력을 다시 만드는 것이 아니라, 이미 가진 능력 위에 선호도와 안전 기준을 덧입히는 절차다. 이 차이를 이해하면 RLHF, Constitutional AI, DPO가 왜 모두 "정답 분포" 대신 "선호 비교"를 다루는지 자연스럽게 보인다.

1. InstructGPT

InstructGPT는 RLHF (Reinforcement Learning from Human Feedback) 기반 정렬 방법입니다.

단계

1. Pretrained LM
2. Supervised Fine-tuning (SFT)
3. Reward Model 학습
4. PPO로 정책 업데이트

1단계: SFT

사람이 작성한 답변으로 모델을 fine-tune 합니다.

L=logP(answer|prompt)

기호 의미

왜 필요한가

instruction-following 능력을 학습합니다.

주의점

데이터 수집 비용이 큽니다.

2단계: Reward Model

사람이 여러 답변을 비교하여 선호도를 제공합니다.

예:

Answer A > Answer B

reward 모델 목표:

R(x,y)

기호 의미

왜 필요한가

사람 선호를 수치로 표현합니다.

3단계: PPO

RL 알고리즘으로 모델을 업데이트합니다.

maximizeE[R(x,y)]

주의점

RL 학습은 불안정할 수 있습니다.

2. Constitutional AI

Anthropic이 제안한 정렬 방법입니다.

핵심 아이디어:

AI가 스스로 답변을 평가하도록 한다.

구조

Initial response
↓
AI critique
↓
Revised response

수식 관점

y=revise(y,critique)

기호 의미

왜 필요한가

인간 피드백 의존도를 줄입니다.

주의점

헌법(constitution) 규칙이 필요합니다.

3. Direct Preference Optimization (DPO)

DPO는 RLHF를 단순화한 방법입니다.

핵심 아이디어:

Reward 모델 없이 preference 데이터를 직접 학습

데이터 형태

prompt
↓
chosen answer
rejected answer

목표 함수

L=logσ(β(logπ(yw)logπ(yl)))

기호 의미

왜 중요한가

PPO 없이 preference 학습이 가능합니다.

주의점

reward 모델을 명시적으로 학습하지 않습니다.

4. RLHF vs DPO

방법 구성
RLHF SFT + Reward Model + PPO
DPO Preference loss 직접 최적화

5. Alignment 방법 비교

방법 특징
InstructGPT RLHF 기반
Constitutional AI AI self critique
DPO RL 없이 preference 학습

6. Alignment 목적

코드-수식 연결

개념 코드 설명
SFT trainer.train() supervised fine-tuning
PPO trl.PPOTrainer RLHF training
DPO trl.DPOTrainer preference optimization

자주 하는 오해 5개

체크리스트 (스스로 설명 가능해야 하는 질문)