Skip to content

Cohere Transcribe

SOTA 오픈소스 음성 인식 모델

About

  • 영어, 한국어, 중국어 등 14개 언어를 지원하는 2B(20억) 파라미터 규모의 최신 자동 음성 인식(ASR) 모델
  • Conformer 기반 인코더-디코더 구조를 사용하며, Apache 2.0 라이선스로 배포됨
  • 영어 기준 평균 단어 오류율(WER) 5.42%로 Whisper Large v3 등 주요 경쟁 모델을 능가하며, Hugging Face Open ASR Leaderboard 1위를 기록
  • 실제 환경 평가와 인간 평가 모두에서 높은 정확성과 일관성을 보였으며, 다국어 전사에서도 안정적 성능을 유지
  • 낮은 지연과 높은 처리 효율을 동시에 달성해 실시간 제품과 워크플로우에 적합

See also

Favorite site