AI Research Portfolio Post

[기본기] LLM 수식/기호/임베딩 먼저 이해하기

난이도: 기초

태그: LLM,Transformer,언어모델

이 문서는 모든 논문을 읽기 전에 반드시 알아야 하는 최소 수학/표기법을 정리합니다. 목표는 수식을 "읽을 수 있는 상태"를 만드는 것입니다.

x_i ∈ R^d는 "i번째 단어가 길이 d인 숫자 벡터(임베딩)로 표현된다"는 뜻입니다.

임베딩은 단어를 숫자 벡터로 바꾸는 과정입니다. 모델은 텍스트를 직접 계산하지 못하므로, 단어를 벡터 공간으로 옮겨야 합니다.

예: "bank"는 은행/강둑 의미가 다르므로, 문맥 임베딩에서는 서로 다른 벡터가 됩니다.

논문에서 shape를 놓치면 식이 갑자기 어려워집니다. 먼저 "현재 텐서 크기"를 보는 습관이 중요합니다.

Attention(Q,K,V)=softmax((QK^T)/sqrt(d_k))V

즉, 모델은 "정답에 높은 확률"을 주도록 계속 수정됩니다.

다음: 01. BERT -> 02. RoBERTa -> 03. T5 -> 04. GPT-3

이 순서로 보면 "임베딩/인코더/디코더/스케일링" 흐름이 자연스럽게 연결됩니다.

핵심은 모델이 "다음 토큰/가려진 토큰 확률"을 맞추는 과정에서, 예측에 유용한 단어들을 비슷한 방향으로 배치하도록 학습된다는 점입니다.

그래서 king - man + woman ≈ queen 같은 패턴은 우연이라기보다, 확률 예측 목적이 만든 기하학적 구조의 한 표현으로 볼 수 있습니다.

같은 관점으로 embedding/vector search도 연결됩니다. 모델이 만든 의미 공간 위에서, FAISS 같은 엔진이 가까운 의미 벡터를 빠르게 찾는 구조입니다.

모델은 사실 "의미"를 직접 배우는 게 아니라, 예측을 잘하는 좌표계를 배웁니다. 그런데 그 좌표계가 결과적으로 의미 구조를 갖게 됩니다.

그래서 벡터 공간에는 "가까움=의미 유사"가 자연스럽게 만들어집니다.

즉 "벡터를 잘 만든다"와 "가까운 벡터를 잘 찾는다"가 결합되어 RAG/semantic search가 작동합니다.

학습 과정에서 성별/직함 같은 반복 패턴이 벡터 공간의 특정 방향으로 정리되면, 그 방향 연산이 의미 연산처럼 보입니다.

중요: 이 식은 항상 정확한 법칙이 아니라, 데이터와 학습 목적이 만든 통계적 경향입니다. 그래도 "의미 관계가 선형 구조로 부분적으로 표현될 수 있다"는 강한 신호입니다.