[Word2Vec] BERT 이전 세계: 단어를 벡터로 바꾸는 방법
Word2Vec은 단어를 dense 벡터로 학습해 의미 유사도를 반영하는 고전적 방법입니다. BERT를 이해하려면 이 배경을 먼저 아는 것이 좋습니다.
Word2Vec의 핵심은 "단어를 ID가 아니라 의미를 가진 좌표로 표현하자"는 것이다.
오늘날에는 contextual embedding이 익숙하지만, Word2Vec은 그 이전에 "단어 의미를 벡터 공간에 담을 수 있다"는 감각을 널리 퍼뜨린 모델이다. 그래서 구조는 단순해 보여도, 임베딩 층과 표현 학습의 출발점으로 이해할 가치가 크다.
핵심 아이디어
비슷한 문맥에 등장하는 단어는 비슷한 벡터를 갖도록 학습합니다.
왜 중요했나
- one-hot의 희소성 문제를 해결
- 단어 간 거리/유사도를 수치화 가능
- 고전 NLP 파이프라인 성능을 크게 끌어올림
대표 직관
완벽한 수학 법칙이라기보다, 의미 관계가 벡터 공간에서 선형적으로 나타날 수 있음을 보여준 상징적 예시입니다.
한계 (중요)
- 문맥 비고려: 같은 단어는 항상 같은 벡터
- 다의어 처리 약함: bank(은행/강둑) 구분 어려움
- 문장 단위 이해에는 추가 모델 필요
BERT와의 연결
Word2Vec의 한계를 해결한 흐름이 문맥 임베딩(BERT)입니다. 즉, "고정 벡터 -> 문맥에 따라 변하는 벡터"로 넘어간 것입니다.
다음 순서
다음: Attention Is All You Need -> BERT