주제: TK-5 Tokenizer 핵심 개념

분류: llm

타입: concept

난이도: 입문

선수지식: 없음

토크나이저에서 가장 중요한 것은 구현 세부가 아니라, 왜 subword를 쓰는지와 토큰 수가 비용·문맥 길이·성능에 어떤 영향을 주는지 이해하는 것이다.

1. 왜 필요한가

LLM은 텍스트를 문자 그대로 읽지 않고 토큰 단위로 읽습니다. 그래서 문장을 어떤 토큰 조각으로 나누느냐가 모델 입력 길이, 비용, 희귀어 처리 방식에 직접 영향을 줍니다.

2. 왜 subword를 쓰나

3. 최소 구분만 알면 되는 세 가지

방식 핵심 아이디어 알아둘 포인트
BPE 자주 함께 나오는 조각을 merge GPT 계열에서 자주 보며 subword의 기본 감각을 잡기 좋음
WordPiece 언어모델 관점의 점수로 subword 선택 BERT 계열과 연결해서 이해하면 충분
SentencePiece 공백 기준 전처리 없이 문자열 전체에서 학습 다국어, 한국어, T5 계열에서 자주 등장

4. 진짜 중요한 trade-off

5. 실전에서 어디까지 알면 충분한가

입문~중급 기준으로는 아래를 설명할 수 있으면 충분합니다.

6. 굳이 지금 안 파도 되는 것

체크리스트