Anthropic
Categories
Anthropic와 OpenAI의 두 가지 다른 방식의 빠른 LLM 추론 기법
Anthropic의 Fast Mode 구조:
- Anthropic의 방식은 배치 크기를 줄여 지연 시간을 최소화하는 형태
- GPU의 주요 병목은 메모리 전송이며, 여러 사용자의 요청을 묶는 배칭은 처리량을 높이지만 대기 시간을 증가시킴
- Fast mode는 사용자가 요청하자마자 즉시 처리되는 ‘즉시 출발 버스’ 와 같음
- 배치 대기 시간이 사라져 첫 토큰까지의 지연이 줄어듦
- 다만 GPU 전체 처리량은 감소함
OpenAI의 Fast Mode 구조:
- OpenAI는 Cerebras 칩을 활용해 완전히 다른 접근을 취함
- 기존 모델 대신 GPT-5.3-Codex-Spark라는 경량화(distilled) 모델을 사용
- Spark는 원본보다 덜 정교하지만 15배 이상 빠른 추론 속도를 달성
- 모델 전체를 SRAM에 적재해 외부 메모리 접근 없이 인메모리 추론 수행
- GPU의 수십MB 수준 SRAM 대비 큰 차이를 보임
기술적 비교와 평가:
- Anthropic은 기존 모델을 그대로 유지하면서 단순히 배치 정책을 조정
- OpenAI는 새로운 하드웨어 아키텍처와 모델 설계를 결합해 더 근본적인 성능 향상을 달성
- Cerebras 칩 위에서 모델을 구동하는 것은 복잡한 기술적 도전이며, Spark 모델의 학습 또한 쉽지 않은 작업
- 두 회사의 접근은 속도 향상이라는 동일 목표를 서로 다른 기술적 경로로 달성한 사례로, OpenAI의 방식이 기술적으로 더 인상적임