Cohere Transcribe

SOTA 오픈소스 음성 인식 모델

About

영어, 한국어, 중국어 등 14개 언어를 지원하는 2B(20억) 파라미터 규모의 최신 자동 음성 인식(ASR) 모델
Conformer 기반 인코더-디코더 구조를 사용하며, Apache 2.0 라이선스로 배포됨
영어 기준 평균 단어 오류율(WER) 5.42%로 Whisper Large v3 등 주요 경쟁 모델을 능가하며, Hugging Face Open ASR Leaderboard 1위를 기록
실제 환경 평가와 인간 평가 모두에서 높은 정확성과 일관성을 보였으며, 다국어 전사에서도 안정적 성능을 유지
낮은 지연과 높은 처리 효율을 동시에 달성해 실시간 제품과 워크플로우에 적합