Skip to content

Anthropic

Categories

Claude

Anthropic와 OpenAI의 두 가지 다른 방식의 빠른 LLM 추론 기법

두 가지 다른 방식의 빠른 LLM 추론 기법 | GeekNews - (Anthropic, OpenAI)
- [원문] Two different tricks for fast LLM inference

Anthropic의 Fast Mode 구조:

Anthropic의 방식은 배치 크기를 줄여 지연 시간을 최소화하는 형태
- GPU의 주요 병목은 메모리 전송이며, 여러 사용자의 요청을 묶는 배칭은 처리량을 높이지만 대기 시간을 증가시킴
- Fast mode는 사용자가 요청하자마자 즉시 처리되는 ‘즉시 출발 버스’ 와 같음
이 방식은 6배 높은 비용으로 2.5배 빠른 속도를 제공
- 배치 대기 시간이 사라져 첫 토큰까지의 지연이 줄어듦
- 다만 GPU 전체 처리량은 감소함
일부 사용자는 첫 토큰 이후에는 대기 시간이 크지 않다고 지적했으며, 작은 배치의 효과는 연산량 감소로 인한 실행 속도 향상에 더 가까움

OpenAI의 Fast Mode 구조:

OpenAI는 Cerebras 칩을 활용해 완전히 다른 접근을 취함
- 기존 모델 대신 GPT-5.3-Codex-Spark라는 경량화(distilled) 모델을 사용
- Spark는 원본보다 덜 정교하지만 15배 이상 빠른 추론 속도를 달성
Cerebras 칩은 70제곱인치 크기의 초대형 웨이퍼 스케일 칩으로, SRAM 44GB를 내장
- 모델 전체를 SRAM에 적재해 외부 메모리 접근 없이 인메모리 추론 수행
- GPU의 수십MB 수준 SRAM 대비 큰 차이를 보임
Spark 모델은 여러 Cerebras 칩에 샤딩(sharding) 되어 상주하는 것으로 추정되며, 이 구성이 속도 향상의 핵심 요인

기술적 비교와 평가:

Anthropic은 기존 모델을 그대로 유지하면서 단순히 배치 정책을 조정
OpenAI는 새로운 하드웨어 아키텍처와 모델 설계를 결합해 더 근본적인 성능 향상을 달성
Cerebras 칩 위에서 모델을 구동하는 것은 복잡한 기술적 도전이며, Spark 모델의 학습 또한 쉽지 않은 작업
두 회사의 접근은 속도 향상이라는 동일 목표를 서로 다른 기술적 경로로 달성한 사례로, OpenAI의 방식이 기술적으로 더 인상적임

See also