[기본기] LLM 수식/기호/임베딩 먼저 이해하기

난이도: 기초

태그: LLM,Transformer,언어모델

이 문서는 모든 논문을 읽기 전에 반드시 알아야 하는 최소 수학/표기법을 정리합니다. 목표는 수식을 "읽을 수 있는 상태"를 만드는 것입니다.

아주 쉽게 한 줄 요약

x_i ∈ R^d는 "i번째 단어가 길이 d인 숫자 벡터(임베딩)로 표현된다"는 뜻입니다.

1) 가장 자주 나오는 기호

2) 임베딩이란?

임베딩은 단어를 숫자 벡터로 바꾸는 과정입니다. 모델은 텍스트를 직접 계산하지 못하므로, 단어를 벡터 공간으로 옮겨야 합니다.

예: "bank"는 은행/강둑 의미가 다르므로, 문맥 임베딩에서는 서로 다른 벡터가 됩니다.

3) 벡터/행렬 shape 감각

논문에서 shape를 놓치면 식이 갑자기 어려워집니다. 먼저 "현재 텐서 크기"를 보는 습관이 중요합니다.

4) Transformer 핵심 수식 해석

Attention(Q,K,V)=softmax((QK^T)/sqrt(d_k))V

5) 손실함수(loss) 한 줄 감각

즉, 모델은 "정답에 높은 확률"을 주도록 계속 수정됩니다.

6) 논문 읽을 때 체크리스트

  1. 문제 정의: 무엇을 예측/생성하나?
  2. 입력/출력 shape: 텐서 크기는 어떻게 바뀌나?
  3. 핵심 수식: 어떤 연산을 새로 제안했나?
  4. 손실함수: 무엇을 최적화하나?
  5. 평가지표: 성능을 무엇으로 주장하나?

7) 자주 헷갈리는 용어 짧게

8) 이 문서를 보고 다음으로 읽을 순서

다음: 01. BERT -> 02. RoBERTa -> 03. T5 -> 04. GPT-3

이 순서로 보면 "임베딩/인코더/디코더/스케일링" 흐름이 자연스럽게 연결됩니다.

9) 왜 벡터 공간에서 의미가 나타나는가?

핵심은 모델이 "다음 토큰/가려진 토큰 확률"을 맞추는 과정에서, 예측에 유용한 단어들을 비슷한 방향으로 배치하도록 학습된다는 점입니다.

그래서 king - man + woman ≈ queen 같은 패턴은 우연이라기보다, 확률 예측 목적이 만든 기하학적 구조의 한 표현으로 볼 수 있습니다.

같은 관점으로 embedding/vector search도 연결됩니다. 모델이 만든 의미 공간 위에서, FAISS 같은 엔진이 가까운 의미 벡터를 빠르게 찾는 구조입니다.

10) 완전 직관 버전: 왜 의미가 생기나?

모델은 사실 "의미"를 직접 배우는 게 아니라, 예측을 잘하는 좌표계를 배웁니다. 그런데 그 좌표계가 결과적으로 의미 구조를 갖게 됩니다.

  1. 비슷한 문맥에 나오는 단어는 비슷한 예측에 기여함
  2. 학습은 이런 단어들을 비슷한 벡터 위치로 밀어넣음
  3. 반대로 다른 문맥 단어는 멀어짐

그래서 벡터 공간에는 "가까움=의미 유사"가 자연스럽게 만들어집니다.

11) Word2Vec -> BERT/GPT -> 검색까지 한 번에 연결

즉 "벡터를 잘 만든다"와 "가까운 벡터를 잘 찾는다"가 결합되어 RAG/semantic search가 작동합니다.

12) king - man + woman ≈ queen 이 왜 가능한가?

학습 과정에서 성별/직함 같은 반복 패턴이 벡터 공간의 특정 방향으로 정리되면, 그 방향 연산이 의미 연산처럼 보입니다.

중요: 이 식은 항상 정확한 법칙이 아니라, 데이터와 학습 목적이 만든 통계적 경향입니다. 그래도 "의미 관계가 선형 구조로 부분적으로 표현될 수 있다"는 강한 신호입니다.