분자/화학 기초와 SMILES 이해
신약개발 AI에서 분자는 그냥 문자열 하나가 아니라, 원자와 결합으로 이루어진 구조체다. SMILES는 그 구조를 텍스트로 적는 약속이다.
1. 왜 이걸 먼저 배우는가
Drug discovery AI에서는 분자를 입력으로 다룬다. 원자, 결합, functional group 같은 기본 화학 개념이 없으면 왜 분자 그래프를 쓰는지, 왜 3D 구조가 중요한지 연결이 잘 안 된다.
2. 분자는 무엇으로 이루어지나
- 원자: 탄소, 산소, 질소 같은 기본 구성 단위
- 결합: 단일 결합, 이중 결합, 방향족 결합 등
- functional group: 알코올, 아민, 카복실기처럼 성질을 크게 바꾸는 부분 구조
3. 왜 결합 구조가 중요한가
같은 원자를 가지고 있어도 연결 구조가 다르면 완전히 다른 분자가 된다. 약효, 독성, 용해도, 막 투과성 같은 성질이 구조에 의해 달라지기 때문이다.
4. SMILES는 무엇인가
SMILES는 분자를 문자열로 적는 규칙이다. 예를 들어 에탄올은 CCO 로 쓸 수 있다.
- 장점: 텍스트처럼 저장, 검색, 토크나이즈하기 쉽다
- 한계: 3D 구조나 입체화학 정보는 불완전하게 표현될 수 있다
5. 딥러닝과 연결
- SMILES를 쓰면 시퀀스 모델이나 tokenizer 기반 접근이 가능하다
- 분자 그래프를 쓰면 GNN으로 node/edge 관계를 직접 학습할 수 있다
- 3D 좌표를 쓰면 docking과 structure-based generation으로 이어진다