Skip to content

Mercury 2

확산 기반 초고속 추론 LLM

About

확산 모델 (diffusion) 기반 병렬 생성 방식을 사용해 기존 순차 디코딩 LLM의 속도 한계를 극복한 언어 모델
한 번에 여러 토큰을 생성·수정하는 병렬 정제(parallel refinement) 구조로, 5배 이상 빠른 응답 속도를 달성
1,009토큰/초 처리 속도, 128K 컨텍스트, JSON 출력, 도구 사용 기능 등으로 실시간 애플리케이션에 최적화
코딩 보조, 에이전트 루프, 음성 인터페이스, 검색·RAG 파이프라인 등 지연(latency)에 민감한 환경에서 효율성 입증
OpenAI API와 완전 호환, 기존 인프라 수정 없이 바로 통합 가능

See also

Diffusion Model

Favorite site