[GPT-3] 심화 개념 정리

난이도: 중급

태그: LLM,Transformer,언어모델

이 문서는 AI 전문가가 뉴비에게 설명하듯 작성된 심화판입니다. 개념을 암기하는 것이 아니라, 실무 의사결정에 연결하는 것을 목표로 합니다.

당시 상황과 역사적 맥락

2020년에는 태스크별 finetune 비용이 커졌고, API 서비스 관점에서 "모델 하나로 여러 작업" 수요가 급증했습니다.

모델 구조/구성요소 역할 (초심자용)

역사적 의미와 후속 영향

아주 쉽게 한 줄 요약

모델을 크게 키워 프롬프트만으로도 여러 작업을 하게 만든 흐름입니다.

진짜 핵심 3문장

처음 보는 사람용 핵심 용어 5개

그림/자료로 다시 보기

그림 파일은 순차 추가 예정입니다. 우선 아래 도식 설명을 기준으로 읽으세요.

1단. 문제 정의

소량 라벨 데이터에서 태스크 전환 비용이 높았다.

핵심 질문은 "왜 기존 방법으로는 충분하지 않았는가"입니다.

2단. 기존 한계

태스크별 미세조정 의존이 크면 배포/운영 복잡도가 증가한다.

면접에서는 한계를 구조/학습/운영 관점으로 나눠 말하면 설득력이 올라갑니다.

3단. 핵심 아이디어

초대형 autoregressive LM에서 in-context learning을 통해 프롬프트만으로 태스크 적응을 시도한다.

핵심은 변경점 자체보다, 그 변경점이 병목을 어떻게 줄였는지 설명하는 것입니다.

핵심 수식/알고리즘

용어/기호 빠른 사전 (뉴비용)

  • baseline: 비교 기준이 되는 가장 단순한 방법
  • objective / loss: 모델이 최소화하려는 학습 목표 함수
  • inference: 학습된 모델로 실제 입력에 대해 예측을 수행하는 단계
  • latency: 요청 1건 처리 시간(지연), throughput: 단위 시간 처리량
  • Q/K/V: Attention에서 Query/Key/Value 벡터
  • d_k: Key 벡터 차원(스케일링에 사용)
  • N, D, C: 보통 파라미터 수(N), 데이터 토큰량(D), 연산 예산(Compute, C)
  • top-k: 점수가 높은 상위 k개 후보
  • KL: 두 확률분포 차이를 나타내는 발산 지표(정렬/RL 문맥에서 자주 사용)
  • trade-off: 한 지표를 올릴 때 다른 지표(비용/지연 등)를 일부 포기해야 하는 관계

읽는 방법: 수식에서 기호가 나오면 먼저 위 사전으로 의미를 확인하고, 그다음 "이 기호가 성능/비용 중 무엇을 바꾸는지"를 연결해서 이해하면 됩니다.

논문 간 비교 포인트

BERT류는 fine-tuning 중심, GPT-3는 prompt-based adaptation 중심.

왜 요즘 LLM은 decoder-only(GPT형)가 대세인가?

Transformer 계열은 크게 3가지로 나눌 수 있습니다.

  • Encoder-only (예: BERT): 양방향 이해에 강함, 생성에는 직접적이지 않음
  • Decoder-only (예: GPT, LLaMA 계열): autoregressive 생성에 최적화
  • Encoder-Decoder (예: T5): 입력-출력 변환(번역/요약)에서 강력

최근 제품 요구가 "고품질 생성" 중심으로 이동하면서 decoder-only가 가장 널리 채택되었습니다.

BERT와 GPT를 학습목표로 비교하면

  • BERT(MLM): P(w_i | left + right)
  • GPT(CLM): P(w_t | w_1...w_{t-1})

BERT는 이해 태스크에 강하지만, GPT는 다음 토큰 예측을 반복해 자연스럽게 생성으로 이어집니다.

왜 GPT objective가 스케일에 유리했나

GPT는 "다음 단어 예측"이라는 단일 목적을 대규모 웹 텍스트에 직접 적용할 수 있어 데이터 파이프라인이 단순합니다.

반면 BERT의 MLM은 [MASK]를 주입해 학습하므로 실제 추론 입력과의 간극(train-test mismatch) 이슈가 자주 언급됩니다.

스케일링 연구(모델/데이터/연산 증가에 따른 성능 향상)와 결합되면서 autoregressive decoder-only 계열이 산업 표준으로 자리잡았습니다.

실무 구조를 한 줄로 쓰면

tokenize -> embedding -> decoder layers -> next-token probabilities -> iterative generation

이 단순한 반복 구조가 챗봇, 코드 생성, 요약, 에이전트 워크플로우까지 확장됩니다.

다음으로 이어질 핵심 질문

그렇다면 모델의 "지식"은 어디 저장될까요? 최근 해석 연구는 attention만이 아니라 FFN(MLP) 블록이 사실 기억 저장에 중요한 역할을 한다는 증거를 제시합니다.

이 질문은 hallucination, knowledge editing, 모델 신뢰성 분석으로 바로 이어집니다.

4단. 비용/리스크

추론 비용/지연, 환각, 프롬프트 민감도.

  • 품질 리스크: 분포 이동 시 성능 저하 가능
  • 운영 리스크: 지연/메모리/비용 급증 가능
  • 거버넌스 리스크: 안전/편향/출처 검증 요구 증가

실패 사례 체크리스트

  • 긴 입력/드문 도메인에서 급격한 품질 저하가 있는가
  • 단일 지표는 좋아도 사용자 체감 오류가 늘어나는가
  • 평균 성능 뒤에 tail failure가 숨겨져 있지 않은가

5단. 실무 적용

빠른 프로토타입과 범용 질의응답에 강하지만 비용·신뢰성 관리가 필수다.

  • 도입 전: baseline 2개(품질/비용)로 사전 비교
  • 도입 중: canary 배포 + rollback 조건 명시
  • 도입 후: 품질/지연/비용/안전성 대시보드 동시 모니터링

예상 질문과 답변 (면접/실무 심화)

Q1. 이 논문의 핵심 기여를 한 문장으로 말해보세요.
A1. 핵심은 기존 병목을 특정하고, 그 병목을 직접 줄이는 학습/구조/시스템 변경을 제시했다는 점입니다. 면접에서는 숫자보다 병목-해결 매핑을 먼저 말하면 전달력이 높습니다.

Q2. 성능이 좋아도 실무에서 실패하는 대표 이유는?
A2. 비용과 안정성을 같이 보지 않기 때문입니다. 오프라인 정확도가 높아도 지연/메모리/운영 복잡도가 임계치를 넘으면 서비스 품질이 떨어집니다.

Q3. 이 논문을 도입할 때 baseline은 어떻게 잡나요?
A3. 가장 단순하고 강한 baseline 두 개를 동시에 잡아야 합니다. 하나는 품질 기준, 다른 하나는 비용 기준으로 두 축을 같이 비교해야 도입 판단이 가능합니다.

Q4. 이 접근의 실패 사례를 어떻게 감지하나요?
A4. 분포 이동, 길이 증가, 노이즈 입력, adversarial 질의에서 지표를 분리해 봐야 합니다. 특히 평균 성능이 아닌 tail failure를 별도로 추적해야 합니다.

Q5. 다음 단계 실험을 1개만 한다면?
A5. 단일 run이 아니라 multi-seed/다중 조건으로 변동성을 먼저 측정하겠습니다. 재현성 없는 개선은 실무에서 신뢰하기 어렵기 때문입니다.