[Word2Vec] BERT 이전 세계: 단어를 벡터로 바꾸는 방법

난이도: 초중급

태그: LLM,Transformer,언어모델

Word2Vec은 단어를 dense 벡터로 학습해 의미 유사도를 반영하는 고전적 방법입니다. BERT를 이해하려면 이 배경을 먼저 아는 것이 좋습니다.

Word2Vec의 핵심은 "단어를 ID가 아니라 의미를 가진 좌표로 표현하자"는 것이다.

오늘날에는 contextual embedding이 익숙하지만, Word2Vec은 그 이전에 "단어 의미를 벡터 공간에 담을 수 있다"는 감각을 널리 퍼뜨린 모델이다. 그래서 구조는 단순해 보여도, 임베딩 층과 표현 학습의 출발점으로 이해할 가치가 크다.

핵심 아이디어

비슷한 문맥에 등장하는 단어는 비슷한 벡터를 갖도록 학습합니다.

왜 중요했나

대표 직관

kingman+womanqueen

완벽한 수학 법칙이라기보다, 의미 관계가 벡터 공간에서 선형적으로 나타날 수 있음을 보여준 상징적 예시입니다.

한계 (중요)

BERT와의 연결

Word2Vec의 한계를 해결한 흐름이 문맥 임베딩(BERT)입니다. 즉, "고정 벡터 -> 문맥에 따라 변하는 벡터"로 넘어간 것입니다.

다음 순서

다음: Attention Is All You Need -> BERT