TokenDagger
OpenAI의 Tiktoken보다 더 빠른 토크나이저
About
- OpenAI의 TikToken과 100% 호환되는 고성능 토크나이저로, 대규모 텍스트 처리에서 2배 이상 처리량과 4배 빠른 코드 토큰화 속도를 제공함
- PCRE2 기반 고속 정규표현식 파싱 엔진을 통해 토큰 패턴 매칭 속도 극대화
- 간소화된 BPE 알고리듬으로 대용량 스페셜 토큰 처리 시 성능 저하를 최소화
- 실제 벤치마크에서 코드 토큰화가 4배 이상 빠르며, 기존 TikToken 사용 코드를 그대로 교체해 활용 가능함
- Python 3.8+ 지원, PyPI
pip install tokendagger
로 간단히 설치 가능하며 PCRE2 의존성을 가짐