← 메인으로

딥러닝 수식까지 이해하는 로드맵

대상: 딥러닝을 처음 시작하는 학습자

목표: "코드 실행"이 아니라 "수식 의미 + 구현 연결"까지 설명 가능해지는 것

ROADMAP_STAGE0_LOCK=1 (Stage 0~8은 prom 기준 3필드 구조를 공식 상태로 유지)

운영 규칙 (docs 중심)

  1. 개념 글은 docs/posts/<분류>/<주제>_concept.html로 관리
  2. 실험 글은 docs/posts/<분류>/<주제>_experiment.html로 관리
  3. 새 글 추가 후 docs/index.html, docs/posts_index.json, docs/roadmap.html 링크 정합성 점검
  4. 각 단계 완료 조건: "핵심 수식을 말로 설명 + 간단 코드 재현" 둘 다 충족
  5. ROADMAP_STAGE0_LOCK=1가 있으면 Stage 0~8은 prom 기준 3필드 구조를 유지하고 누락 항목만 최소 수정

0단계. 수학 최소 기초 (진입 필수)

목표: 벡터/행렬 연산, 확률, 미분을 신경망 문맥에서 읽고 설명할 수 있어야 함

0-1 선형대수

  • 우선순위: P0
  • 난이도:
  • 이해 목표: y = Wx + b, ||x||_2의 기호/차원 의미 설명

관련 문서: 0-1 선형대수 기초 (기초)

0-2 확률/통계

  • 우선순위: P0
  • 난이도:
  • 이해 목표: P(y|x), \log p(x), Cross-Entropy 필요성 설명

관련 문서: 0-2 확률/통계 기초 (기초)

0-3 Expectation / Variance

  • 우선순위: P0
  • 난이도:
  • 이해 목표: \mathbb{E}[X], \mathrm{Var}(X)와 분산-안정성 관계 설명

관련 문서: M-2 Expectation/Variance (중급)

0-4 미분/연쇄법칙

  • 우선순위: P0
  • 난이도:
  • 이해 목표: \frac{\partial L}{\partial w}, \frac{d}{dx}f(g(x))와 연쇄법칙 이해

관련 문서: 0-3 미분/역전파 기초 (기초)

0-5 수치 안정성 기초

  • 우선순위: P1
  • 난이도:
  • 이해 목표: overflow/underflow 원인과 안정한 softmax 계산식 이해

관련 문서: 0-5 수치 안정성 기초 (기초)

0-6 Entropy / Cross-Entropy / KL

  • 우선순위: P1
  • 난이도:
  • 이해 목표: H(X), Cross-Entropy를 먼저 이해하고 KL이 분포 차이를 재는 값임을 설명

관련 문서: M-1 Entropy (중급)

0-7 베이즈 관점 확률통계

  • 우선순위: P1
  • 난이도:
  • 이해 목표: p(\theta|D) \propto p(D|\theta)p(\theta)와 우도/사후확률 차이 설명

관련 문서: 0-4 확률/통계 심화 기초 (기초)

0-8 Covariance / Correlation

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 공분산과 상관계수 차이, feature 관계 해석 설명

관련 문서: 0-8 Covariance/Correlation (기초)

1단계. 딥러닝 기초 (MLP까지)

목표: 신경망 학습 루프를 수식으로 읽고, 핵심 학습 메커니즘을 설명할 수 있어야 함

1-2 손실함수 기초

  • 우선순위: P0
  • 난이도:
  • 이해 목표: MSE와 Cross-Entropy 차이 및 사용 상황 설명

관련 문서: 1-2 손실함수 기초 (기초)

1-3 경사하강법

  • 우선순위: P0
  • 난이도:
  • 이해 목표: w \leftarrow w - \eta \nabla_w L 업데이트 의미 설명

관련 문서: 1-3 SGD (기초)

1-4 역전파 메커니즘

  • 우선순위: P0
  • 난이도:
  • 이해 목표: Local gradient가 곱으로 누적되는 이유 설명

관련 문서: 1-4 역전파 효율성 (기초)

1-5 손실함수 확장

  • 우선순위: P1
  • 난이도:
  • 이해 목표: D_{KL}(P||Q)와 Cross-Entropy 관계 설명

관련 문서: 1-5 손실함수 확장 (기초)

1-6 최적화 입문

  • 우선순위: P1
  • 난이도:
  • 이해 목표: SGD vs Adam, learning rate, warmup/cosine decay 핵심 차이 설명

관련 문서: 1-6 옵티마이저 기초 (기초)

1-8 텐서 shape 실전

  • 우선순위: P1
  • 난이도:
  • 이해 목표: broadcasting, batch/seq/hidden 차원 추적 설명

관련 문서: 1-8 텐서 Shape 실전 (기초)

1-9 CNN basics

  • 우선순위: P1
  • 난이도:
  • 이해 목표: convolution/pooling이 지역 특징을 추출하는 원리 설명

관련 문서: DL-1 CNN Basics (중급)

1-10 BatchNorm

  • 우선순위: P1
  • 난이도:
  • 이해 목표: BN의 학습/추론 모드 차이와 수렴 안정화 효과 설명

관련 문서: DL-2 BatchNorm (중급)

Training Stability / Initialization

목표: 학습 안정성을 초기화/활성함수/gradient 관점에서 설명할 수 있어야 함

TS-1 초기화

  • 우선순위: P1
  • 난이도:
  • 이해 목표: Xavier와 He initialization의 차이와 사용 조건 설명

관련 문서: TS-1 초기화 (기초)

TS-2 활성함수

  • 우선순위: P1
  • 난이도:
  • 이해 목표: ReLU, GELU, SwiGLU 특성과 적용 맥락 설명

관련 문서: TS-2 활성함수 (기초)

TS-3 Gradient 안정화

  • 우선순위: P1
  • 난이도:
  • 이해 목표: vanishing/exploding 원인과 gradient clipping 필요성 설명

관련 문서: TS-3 Gradient 안정화 (기초)

2단계. 최적화/일반화

목표: 학습 실패 원인을 진단하고 하이퍼파라미터 조정 방향을 설명할 수 있어야 함

2-3 정규화

  • 우선순위: P1
  • 난이도:
  • 이해 목표: weight decay, dropout이 일반화에 주는 효과 설명

관련 문서: 2-3 정규화 (중급)

2-4 일반화 해석

  • 우선순위: P2
  • 난이도:
  • 이해 목표: overfitting/underfitting과 bias-variance tradeoff 설명

관련 문서: 2-4 NTK (초중급)

2-5 Hessian / Curvature

  • 우선순위: P1
  • 난이도: 중상
  • 이해 목표: 곡률 정보가 학습률/수렴 안정성에 미치는 영향 설명

관련 문서: OPT-1 Hessian/Curvature (중상)

2-6 Calibration / Uncertainty

  • 우선순위: P2
  • 난이도:
  • 이해 목표: confidence와 correctness 차이, uncertainty 해석 설명

관련 문서: 2-8 Data Split/Leakage (중급)

2-7 실험 설계 기초

  • 우선순위: P0
  • 난이도:
  • 이해 목표: baseline, ablation, 재현성, error analysis 기본 원칙 설명

관련 문서: 2-6 Calibration/Uncertainty (중급)

2-8 Data Split / Leakage

  • 우선순위: P0
  • 난이도:
  • 이해 목표: train/val/test 분리와 데이터 누수 위험 설명

관련 문서: 3-5 Residual / LayerNorm (중급)

논문 읽기 / 작성 프레임

목표: 논문을 읽을 때 주장과 한계를 구조적으로 분해하고, 직접 실험 보고서를 쓸 수 있어야 함

PR-1 Paper Reading / Writing Framework

  • 우선순위: P0
  • 난이도:
  • 이해 목표: problem / hypothesis, contribution / novelty, limitation / validity, writing structure를 하나의 프레임으로 묶어 설명

관련 문서: PR Paper Reading/Writing Framework (중급)

분산 학습 (Distributed Training)

목표: 대규모 학습에서 메모리/속도 병목을 분산 전략으로 해결하는 방법을 설명할 수 있어야 함

DT-1 Data Parallel (DDP)

  • 우선순위: P1
  • 난이도:
  • 이해 목표: replica 동기화와 gradient all-reduce 원리 설명

관련 문서: DT-1 Data Parallel (중급)

DT-3 Pipeline Parallel

  • 우선순위: P2
  • 난이도: 중상
  • 이해 목표: micro-batch 스케줄과 bubble overhead 설명

관련 문서: DT-3 Pipeline Parallel (중상)

DT-4 ZeRO/FSDP

  • 우선순위: P1
  • 난이도: 중상
  • 이해 목표: optimizer/gradient/parameter sharding 단계 설명

관련 문서: DT-4 ZeRO/FSDP (중상)

Tokenization

목표: 토크나이저 선택이 표현력/문맥길이/비용에 미치는 영향을 설명할 수 있어야 함

TK-1 BPE

  • 우선순위: P1
  • 난이도:
  • 이해 목표: merge 규칙 기반 subword 분해 원리 설명

관련 문서: TK-1 BPE (입문)

TK-2 WordPiece

  • 우선순위: P1
  • 난이도:
  • 이해 목표: likelihood 기반 토큰 선택 아이디어 설명

관련 문서: TK-2 WordPiece (입문)

TK-3 SentencePiece

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 언어 독립 토큰화와 normalization 전략 설명

관련 문서: TK-3 SentencePiece (입문)

TK-4 Token length 문제

  • 우선순위: P1
  • 난이도:
  • 이해 목표: context window/비용/성능 tradeoff 설명

관련 문서: TK-4 Token Length (입문)

TK-5 Tokenizer 핵심 개념

  • 우선순위: P0
  • 난이도:
  • 이해 목표: 왜 subword를 쓰는지와 BPE/WordPiece/SentencePiece 차이, 토큰 수와 비용 관계를 핵심만 설명

관련 문서: TK-5 Tokenizer 핵심 개념 (입문)

3단계. NLP/임베딩/Transformer 전이 지식

3-4 Transformer FFN

  • 우선순위: P1
  • 난이도:
  • 이해 목표: Attention 이후 FFN의 비선형 변환 역할과 차원 확장/축소 설명

관련 문서: TR-1 Transformer FFN 구조 (중급)

3-5 Residual / LayerNorm

  • 우선순위: P1
  • 난이도:
  • 이해 목표: residual connection과 LayerNorm이 학습 안정성에 주는 효과 설명

관련 문서: 3-5 Residual / LayerNorm (중급)

4단계. LLM 핵심 아키텍처

4-2 RoBERTa/T5

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 사전학습 레시피/목적함수 차이 설명

관련 문서: RoBERTa / T5 / 4-2 RoBERTa/T5 (중급)

4-5 Pretraining Objective

  • 우선순위: P1
  • 난이도:
  • 이해 목표: MLM/CLM/Span corruption 목적함수 차이와 적용 모델 설명

관련 문서: TR-2 Pretraining Objective (중급)

4-6 RoPE / Long Context

  • 우선순위: P1
  • 난이도: 중상
  • 이해 목표: rotary positional embedding과 긴 문맥 확장 직관 설명

관련 문서: 4-6 RoPE / Long Context (중상)

4-7 LoRA / PEFT

  • 우선순위: P0
  • 난이도:
  • 이해 목표: 저랭크 적응 기반 파인튜닝 비용 절감 원리 설명

관련 문서: 4-7 LoRA / PEFT (중급)

4-8 Quantization

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 8bit/4bit 양자화가 메모리/속도/정확도에 주는 영향 설명

관련 문서: 4-8 Quantization (중급)

KV Cache / Inference Optimization

IO-1 LLM Inference

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 지연시간/처리량/메모리 지표 관계 설명

관련 문서: IO-1 LLM Inference (중급)

IO-2 KV Cache

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 디코딩 반복 시 캐시가 계산량을 줄이는 방식 설명

관련 문서: IO-2 KV Cache (중급)

IO-3 speculative decoding

  • 우선순위: P2
  • 난이도: 중상
  • 이해 목표: draft/verify 구조와 정확도-속도 균형 설명

관련 문서: IO-3 Speculative Decoding (중상)

IO-4 FlashAttention

  • 우선순위: P1
  • 난이도: 중상
  • 이해 목표: 메모리 IO 최적화 기반 attention 가속 원리 설명

관련 문서: IO-4 FlashAttention (중상)

IO-5 vLLM paged attention

  • 우선순위: P2
  • 난이도: 중상
  • 이해 목표: KV 메모리 페이징 전략과 서빙 효율 설명

관련 문서: IO-5 vLLM Paged Attention (중상)

IO-6 Decoding Strategies

  • 우선순위: P0
  • 난이도:
  • 이해 목표: greedy, beam, top-k, top-p, temperature 차이 설명

관련 문서: IO-6 Decoding Strategies (중급)

5단계. 정렬/추론 강화

5-4 RLHF 세부 메커니즘

  • 우선순위: P1
  • 난이도:
  • 이해 목표: reward model, PPO, preference optimization 흐름 설명

관련 문서: 5-4 RLHF 세부 메커니즘 (상)

6단계. RAG/에이전트/응용

6-2 Embedding models

  • 우선순위: P1
  • 난이도:
  • 이해 목표: contrastive learning, SBERT, e5/bge 임베딩 차이 설명

관련 문서: 6-2 Embedding Models (중급)

6-2.5 Vector Search

  • 우선순위: P1
  • 난이도:
  • 이해 목표: ANN(HNSW/FAISS) 검색 구조와 latency-accuracy tradeoff 설명

관련 문서: RAG-1 Vector Search (중급)

6.5단계. MLOps / LLMOps

6.5-1 ML 파이프라인

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 데이터 수집/검증, feature-training-eval-deploy 흐름 설명

도구: Airflow, Kubeflow, Prefect / 관련 문서: 6.5-1 ML 파이프라인 (중급)

6.5-2 Experiment Tracking

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 실험 재현성 보장과 실험 비교 기준 설명

도구: MLflow, W&B, TensorBoard / 관련 문서: 6.5-2 Experiment Tracking (중급)

6.5-3 Model Registry

  • 우선순위: P1
  • 난이도:
  • 이해 목표: v1/v2/v3 모델 버전 관리와 champion/challenger 전략 설명

도구: MLflow Registry, SageMaker Model Registry / 관련 문서: 6.5-3 Model Registry (중급)

6.5-4 Model Serving

  • 우선순위: P1
  • 난이도:
  • 이해 목표: online serving(REST/gRPC) vs batch inference 차이 설명

도구: Triton, TorchServe, FastAPI / 관련 문서: 6.5-4 Model Serving (중급)

6.5-5 Monitoring

  • 우선순위: P1
  • 난이도:
  • 이해 목표: data drift, concept drift, prediction distribution 모니터링 설명

도구: Prometheus, EvidentlyAI, WhyLabs / 관련 문서: 6.5-5 Monitoring (중급)

6.5-6 Feature Store

  • 우선순위: P1
  • 난이도:
  • 이해 목표: training-serving skew 원인과 방지 전략 설명

도구: Feast, Tecton / 관련 문서: 6.5-6 Feature Store (중급)

6.5-7 LLMOps

  • 우선순위: P0
  • 난이도: 중상
  • 이해 목표: Prompt versioning, RAG evaluation, Guardrails 설계 포인트 설명

도구: LangSmith, TruLens, PromptLayer / 관련 문서: 6.5-7 LLMOps (중상)

6.5-8 LLM Evaluation Metrics

  • 우선순위: P0
  • 난이도:
  • 이해 목표: faithfulness/helpfulness/groundedness 지표와 평가 셋 설계 설명

관련 문서: EVAL-1 LLM Evaluation Metrics (중급)

6.5-11 System Tradeoff Design

  • 우선순위: P0
  • 난이도:
  • 이해 목표: latency, cost, memory, quality 간 의사결정 프레임 설명

관련 문서: 6.5-11 System Tradeoff Design (중급)

7단계. Vision 트랙

7-1 ViT

  • 우선순위: P1
  • 난이도:
  • 이해 목표: patch embedding 기반 비전 트랜스포머 구조 설명

관련 문서: 7-1 ViT (중급)

7-2 YOLO

  • 우선순위: P1
  • 난이도:
  • 이해 목표: one-stage detector의 속도/정확도 tradeoff 설명

관련 문서: YOLO (중급) / 7-2 YOLO (중급)

7-3 DETR

  • 우선순위: P1
  • 난이도:
  • 이해 목표: set prediction과 bipartite matching 관점 설명

관련 문서: DETR (중급) / 7-3 DETR (중급)

7-4 CLIP

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 이미지-텍스트 대조학습과 zero-shot 전이 설명

관련 문서: CLIP (중급) / 7-4 CLIP (중급)

7-5 Detection Metrics

  • 우선순위: P1
  • 난이도:
  • 이해 목표: IoU, precision-recall, mAP 계산과 해석 설명

관련 문서: 7-5 Detection Metrics (중급)

7-6 Segmentation

  • 우선순위: P2
  • 난이도:
  • 이해 목표: semantic/instance segmentation 차이와 대표 평가 방식 설명

관련 문서: 7-6 Segmentation (중급)

7-7 Self-Supervised Vision

  • 우선순위: P2
  • 난이도: 중상
  • 이해 목표: contrastive / masked image modeling 기반 표현 학습 설명

관련 문서: 7-7 Self-Supervised Vision (중상)

8단계. Generative 트랙

8-1 GAN

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 생성자-판별자 min-max 학습 구조 설명

관련 문서: GAN (중급) / 8-1 GAN (중급)

8-3 DDPM

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 노이즈 추가/복원 기반 생성 절차 설명

관련 문서: DDPM (중급) / 8-3 DDPM (중급)

8-4 Score-based models

  • 우선순위: P2
  • 난이도: 중상
  • 이해 목표: score function 기반 생성 프레임워크 설명

관련 문서: 8-4 Score-Based Models (중상)

8-5 Diffusion sampling (DDIM)

  • 우선순위: P2
  • 난이도: 중상
  • 이해 목표: DDPM 대비 DDIM 샘플링 가속 원리 설명

관련 문서: 8-5 Diffusion Sampling (중상)

8-0 Autoencoder

  • 우선순위: P1
  • 난이도:
  • 이해 목표: 인코더-디코더 기반 잠재표현 학습 목적 설명

관련 문서: REP-1 Autoencoder (중급)

8-0.5 VAE

  • 우선순위: P1
  • 난이도:
  • 이해 목표: ELBO와 reparameterization trick 핵심 식 설명

관련 문서: REP-2 VAE (중급)

8-6 Generative Evaluation

  • 우선순위: P1
  • 난이도:
  • 이해 목표: FID, Inception Score, mode collapse 진단 기준 설명

관련 문서: 8-6 Generative Evaluation (중급)

Drug Discovery AI Track

목표: AI 모델을 이용해 분자 특성 예측, 단백질 결합 예측, 신약 후보 생성을 설명할 수 있어야 함

9단계. 바이오 기초

  • 목표: 분자와 단백질이 어떻게 구성되고 상호작용하는지 이해
  • 9-1 분자/화학 기초: 원자/공유결합, functional group, SMILES (CCO)
  • 9-2 생물학 기초: DNA → RNA → Protein 흐름 이해
  • 9-3 단백질 구조: 1차/2차/3차/4차 구조, PDB 형식
  • 9-4 ADMET: Absorption/Distribution/Metabolism/Excretion/Toxicity

관련 문서: 9-1 분자/화학 기초 / 9-2 생물학 기초 / 9-3 단백질 구조 / 9-4 ADMET

10단계. 분자 표현과 GNN

  • 목표: 분자를 AI 입력으로 표현하는 방법 이해
  • 10-1 Molecular Representation: SMILES, Graph(node/edge), 3D 좌표
  • 10-2 Graph Neural Networks: GCN, GraphSAGE, GAT, neighbor aggregation
  • 10-3 Property Prediction: toxicity, solubility, binding affinity
  • 대표 데이터: ChEMBL, MoleculeNet

관련 문서: 10단계 분자 표현과 GNN

11단계. 단백질 모델링

  • 목표: 단백질 구조와 기능을 AI로 예측
  • 11-1 Structure Prediction: AlphaFold2, RoseTTAFold
  • 입력: amino acid sequence
  • 출력: 3D protein structure
  • 11-2 Protein LM: ESM, ProtBERT

관련 문서: 11-1 AlphaFold2와 구조 예측 / 단백질 구조 기초

12단계. 단백질-리간드 상호작용

  • 목표: 분자가 단백질에 얼마나 잘 결합하는지 예측
  • 핵심 개념: binding pocket, ligand, binding affinity
  • 문제 정의: protein + molecule → binding score
  • 12-1 Docking: AutoDock, Vina
  • 12-2 Virtual Screening: 대규모 후보에서 유망 분자 필터링

관련 문서: 12단계 도킹과 Virtual Screening

13단계. 분자 생성 모델

  • 목표: AI가 새로운 drug molecule 생성
  • 13-1 VAE: JT-VAE, molecule → latent → new molecule
  • 13-2 Diffusion: DiffSBDD, TargetDiff, GeoDiff
  • 핵심: noise → molecule structure
  • 13-3 Flow: GraphNVP, MoFlow

관련 문서: 13단계 분자 생성 모델

14단계. Drug Discovery Pipeline

  • 목표: AI가 실제 신약 개발에서 쓰이는 지점 이해
  • 전체 흐름: target identification → hit discovery → lead optimization → preclinical → clinical trial
  • AI 핵심 적용: hit discovery, lead optimization

15단계. 데이터셋과 실험 환경

  • 목표: 신약 AI 실험에서 사용하는 데이터/도구 이해
  • 대표 데이터: ChEMBL, PubChem, ZINC, BindingDB, PDB
  • 대표 라이브러리: RDKit, PyTorch Geometric, DeepChem

관련 문서: 15단계 데이터셋과 RDKit

핵심 이해 기준: 왜 분자를 그래프로 표현하는가, 왜 3D 구조가 중요한가, 왜 docking만으로 부족한가, 왜 diffusion이 분자 생성에 적합한가, AI가 pipeline에서 맡는 역할을 설명 가능해야 함

보조 문서 (실험만)

  1. BERT MLM 실험 (실습)
  2. RAG Retrieval 실험 (실습)

체크리스트 (완주 기준)