[기본기] LLM 수식/기호/임베딩 먼저 이해하기
이 문서는 모든 논문을 읽기 전에 반드시 알아야 하는 최소 수학/표기법을 정리합니다. 목표는 수식을 "읽을 수 있는 상태"를 만드는 것입니다.
아주 쉽게 한 줄 요약
x_i ∈ R^d는 "i번째 단어가 길이 d인 숫자 벡터(임베딩)로 표현된다"는 뜻입니다.
1) 가장 자주 나오는 기호
x_i: i번째 토큰(단어 조각)x_i ∈ R^d: i번째 토큰 임베딩이 d차원 실수 벡터X ∈ R^(n×d): 길이 n 문장의 전체 임베딩 행렬W ∈ R^(d×k): 학습되는 가중치 행렬y: 정답 라벨 또는 다음 토큰p(y|x): 입력 x일 때 y일 확률
2) 임베딩이란?
임베딩은 단어를 숫자 벡터로 바꾸는 과정입니다. 모델은 텍스트를 직접 계산하지 못하므로, 단어를 벡터 공간으로 옮겨야 합니다.
- 정적 임베딩: 단어마다 벡터 1개 (Word2Vec/GloVe)
- 문맥 임베딩: 문장에 따라 벡터가 달라짐 (BERT 이후)
예: "bank"는 은행/강둑 의미가 다르므로, 문맥 임베딩에서는 서로 다른 벡터가 됩니다.
3) 벡터/행렬 shape 감각
- 토큰 1개 임베딩:
[d] - 문장 임베딩 묶음:
[n, d] - 미니배치:
[B, n, d]
논문에서 shape를 놓치면 식이 갑자기 어려워집니다. 먼저 "현재 텐서 크기"를 보는 습관이 중요합니다.
4) Transformer 핵심 수식 해석
Attention(Q,K,V)=softmax((QK^T)/sqrt(d_k))V
Q(Query): 지금 토큰이 찾고 싶은 정보K(Key): 각 토큰의 인덱스/키V(Value): 실제 전달할 내용QK^T: 토큰 간 관련도 점수softmax: 점수를 확률처럼 정규화/sqrt(d_k): 값이 과하게 커져 학습이 불안정해지는 것 방지
5) 손실함수(loss) 한 줄 감각
L = -log p(y|x): 정답 확률이 높아지면 loss 감소- 학습 목표: 데이터 전체에서 평균 loss를 줄이는 파라미터 찾기
즉, 모델은 "정답에 높은 확률"을 주도록 계속 수정됩니다.
6) 논문 읽을 때 체크리스트
- 문제 정의: 무엇을 예측/생성하나?
- 입력/출력 shape: 텐서 크기는 어떻게 바뀌나?
- 핵심 수식: 어떤 연산을 새로 제안했나?
- 손실함수: 무엇을 최적화하나?
- 평가지표: 성능을 무엇으로 주장하나?
7) 자주 헷갈리는 용어 짧게
- 토큰(token): 모델이 처리하는 최소 단위(단어/서브워드)
- 어휘집(vocab): 모델이 아는 토큰 목록
- 로짓(logit): softmax 전 점수
- 확률(probability): softmax 후 값 (합 1)
- 파라미터(parameter): 학습되는 가중치 값
8) 이 문서를 보고 다음으로 읽을 순서
다음: 01. BERT -> 02. RoBERTa -> 03. T5 -> 04. GPT-3
이 순서로 보면 "임베딩/인코더/디코더/스케일링" 흐름이 자연스럽게 연결됩니다.
9) 왜 벡터 공간에서 의미가 나타나는가?
핵심은 모델이 "다음 토큰/가려진 토큰 확률"을 맞추는 과정에서, 예측에 유용한 단어들을 비슷한 방향으로 배치하도록 학습된다는 점입니다.
- Word2Vec: 주변 문맥 예측으로 의미적으로 비슷한 단어를 가깝게 정렬
- BERT/GPT: 더 큰 문맥 조건부 확률을 최적화하며 문맥별 표현까지 학습
그래서 king - man + woman ≈ queen 같은 패턴은 우연이라기보다, 확률 예측 목적이 만든 기하학적 구조의 한 표현으로 볼 수 있습니다.
같은 관점으로 embedding/vector search도 연결됩니다. 모델이 만든 의미 공간 위에서, FAISS 같은 엔진이 가까운 의미 벡터를 빠르게 찾는 구조입니다.
10) 완전 직관 버전: 왜 의미가 생기나?
모델은 사실 "의미"를 직접 배우는 게 아니라, 예측을 잘하는 좌표계를 배웁니다. 그런데 그 좌표계가 결과적으로 의미 구조를 갖게 됩니다.
- 비슷한 문맥에 나오는 단어는 비슷한 예측에 기여함
- 학습은 이런 단어들을 비슷한 벡터 위치로 밀어넣음
- 반대로 다른 문맥 단어는 멀어짐
그래서 벡터 공간에는 "가까움=의미 유사"가 자연스럽게 만들어집니다.
11) Word2Vec -> BERT/GPT -> 검색까지 한 번에 연결
- Word2Vec: 주변 단어 예측으로 정적 의미 공간 형성
- BERT: 문맥을 보고 같은 단어도 다른 위치로 이동(문맥 임베딩)
- GPT: 다음 토큰 확률을 맞추며 긴 맥락 생성 능력 강화
- Vector Search: 이 공간에서 가까운 벡터를 찾아 정보 검색
즉 "벡터를 잘 만든다"와 "가까운 벡터를 잘 찾는다"가 결합되어 RAG/semantic search가 작동합니다.
12) king - man + woman ≈ queen 이 왜 가능한가?
학습 과정에서 성별/직함 같은 반복 패턴이 벡터 공간의 특정 방향으로 정리되면, 그 방향 연산이 의미 연산처럼 보입니다.
중요: 이 식은 항상 정확한 법칙이 아니라, 데이터와 학습 목적이 만든 통계적 경향입니다. 그래도 "의미 관계가 선형 구조로 부분적으로 표현될 수 있다"는 강한 신호입니다.