바이오인포매틱스 도구와 데이터셋: RDKit, ChEMBL, PubChem, PDB
Drug discovery AI는 모델만 알아서는 부족하다. 어떤 데이터셋을 쓰는지, 분자 전처리는 어떤 라이브러리로 하는지, 구조 데이터는 어디서 얻는지를 알아야 실험이 돌아간다.
1. RDKit
RDKit은 분자 파싱, fingerprint 계산, SMILES 변환, 분자 속성 계산, scaffold 분리 등 약물 AI 실험의 기본 도구다.
2. 대표 데이터셋
- ChEMBL: bioactivity 데이터 중심
- PubChem: 대규모 화합물 저장소
- PDB: 단백질과 복합체 3D 구조 저장소
- BindingDB: binding affinity 중심 데이터