AI Research Portfolio Post

주제: 5-1 LLM 정렬 (InstructGPT / Constitutional AI / DPO)

분류: llm

타입: concept

난이도: 중상

선수지식: 있음 — Language Modeling, Reinforcement Learning, Cross-Entropy

Alignment는 모델을 더 똑똑하게 만드는 과정이라기보다, 이미 배운 언어 능력을 "사람이 원하는 방식"으로 조정하는 과정에 가깝다.

Pretraining만 거친 모델은 인터넷 텍스트를 잘 이어 쓰지만, 사용자 지시를 안전하고 유용하게 따르는 것은 별개의 문제다. 그래서 alignment는 "무엇을 말할 수 있는가"보다 "어떻게 행동해야 하는가"를 다루는 단계라고 볼 수 있다.

이 차이를 이해하면 RLHF, Constitutional AI, DPO가 왜 모두 단순 정답 예측이 아니라 선호도와 정책 조정 문제로 이어지는지 자연스럽게 보인다.

문제 설정

대형 언어 모델은 기본적으로 다음 목적함수로 학습됩니다.

L = - Σ l o g P (x_{t} | x_{1}, . . ., x_{t - 1})

이 목표는 단순히 다음 토큰 예측을 잘하도록 만드는 것입니다.

하지만 실제 서비스에서는 다음 문제가 발생합니다.

사용자 의도와 다른 답변
유해한 내용 생성
지시(instruction) 이해 부족

이를 해결하기 위해 사용하는 방법이 LLM Alignment입니다.

즉 alignment는 언어 능력을 다시 만드는 것이 아니라, 이미 가진 능력 위에 선호도와 안전 기준을 덧입히는 절차다. 이 점이 pretraining과의 가장 큰 차이이다.

Alignment는 모델을 더 똑똑하게 만드는 과정이라기보다, 이미 배운 언어 능력을 "사람이 원하는 방식"으로 조정하는 과정에 가깝다.

직관 비유

Pretraining -> 언어 지식 학습
Alignment -> 사람 기준에 맞게 행동 조정

즉 alignment는 언어 능력을 다시 만드는 것이 아니라, 이미 가진 능력 위에 선호도와 안전 기준을 덧입히는 절차다. 이 차이를 이해하면 RLHF, Constitutional AI, DPO가 왜 모두 "정답 분포" 대신 "선호 비교"를 다루는지 자연스럽게 보인다.

1. InstructGPT

InstructGPT는 RLHF (Reinforcement Learning from Human Feedback) 기반 정렬 방법입니다.

단계

1. Pretrained LM
2. Supervised Fine-tuning (SFT)
3. Reward Model 학습
4. PPO로 정책 업데이트

1단계: SFT

사람이 작성한 답변으로 모델을 fine-tune 합니다.

L = - l o g P (a n s w e r | p r o m p t)

기호 의미

prompt : 사용자 입력
answer : human response

왜 필요한가

instruction-following 능력을 학습합니다.

주의점

데이터 수집 비용이 큽니다.

2단계: Reward Model

사람이 여러 답변을 비교하여 선호도를 제공합니다.

예:

Answer A > Answer B

reward 모델 목표:

R (x, y)

기호 의미

x : prompt
y : answer

왜 필요한가

사람 선호를 수치로 표현합니다.

3단계: PPO

RL 알고리즘으로 모델을 업데이트합니다.

m a x i m i z e E [R (x, y)]

주의점

RL 학습은 불안정할 수 있습니다.

2. Constitutional AI

Anthropic이 제안한 정렬 방법입니다.

핵심 아이디어:

AI가 스스로 답변을 평가하도록 한다.

구조

Initial response
↓
AI critique
↓
Revised response

수식 관점

y^{'} = r e v i s e (y, c r i t i q u e)

기호 의미

y : 초기 답변
y' : 수정된 답변

왜 필요한가

인간 피드백 의존도를 줄입니다.

주의점

헌법(constitution) 규칙이 필요합니다.

3. Direct Preference Optimization (DPO)

DPO는 RLHF를 단순화한 방법입니다.

핵심 아이디어:

Reward 모델 없이 preference 데이터를 직접 학습

데이터 형태

prompt
↓
chosen answer
rejected answer

목표 함수

L = l o g σ (β (l o g π (y_{w}) - l o g π (y_{l})))

기호 의미

y_w : preferred answer
y_l : rejected answer
π : 모델 정책
β : scaling parameter

왜 중요한가

PPO 없이 preference 학습이 가능합니다.

주의점

reward 모델을 명시적으로 학습하지 않습니다.

4. RLHF vs DPO

방법	구성
RLHF	SFT + Reward Model + PPO
DPO	Preference loss 직접 최적화

5. Alignment 방법 비교

방법	특징
InstructGPT	RLHF 기반
Constitutional AI	AI self critique
DPO	RL 없이 preference 학습

6. Alignment 목적

instruction following 개선
유해 출력 감소
사람 선호 반영

코드-수식 연결

개념	코드	설명
SFT	`trainer.train()`	supervised fine-tuning
PPO	`trl.PPOTrainer`	RLHF training
DPO	`trl.DPOTrainer`	preference optimization

자주 하는 오해 5개

Alignment는 모델 성능을 항상 증가시킨다고 생각한다
RLHF는 필수 단계라고 생각한다
DPO는 RLHF와 완전히 동일한 방법이라고 생각한다
Alignment는 안전성만 위한 것이라고 생각한다
Pretraining만으로 instruction-following이 가능하다고 생각한다

체크리스트 (스스로 설명 가능해야 하는 질문)

왜 LLM에는 alignment가 필요한가?
InstructGPT의 RLHF 파이프라인은 어떻게 구성되는가?
Constitutional AI의 self critique 방식은 무엇인가?
DPO는 RLHF와 어떤 차이가 있는가?
왜 reward model이 RLHF에서 필요한가?