Skip to content

TokenDagger

OpenAI의 Tiktoken보다 더 빠른 토크나이저

About

  • OpenAI의 TikToken과 100% 호환되는 고성능 토크나이저로, 대규모 텍스트 처리에서 2배 이상 처리량과 4배 빠른 코드 토큰화 속도를 제공함
  • PCRE2 기반 고속 정규표현식 파싱 엔진을 통해 토큰 패턴 매칭 속도 극대화
  • 간소화된 BPE 알고리듬으로 대용량 스페셜 토큰 처리 시 성능 저하를 최소화
  • 실제 벤치마크에서 코드 토큰화가 4배 이상 빠르며, 기존 TikToken 사용 코드를 그대로 교체해 활용 가능함
  • Python 3.8+ 지원, PyPI pip install tokendagger 로 간단히 설치 가능하며 PCRE2 의존성을 가짐

See also

Favorite site