Cohere Transcribe
SOTA 오픈소스 음성 인식 모델
About
- 영어, 한국어, 중국어 등 14개 언어를 지원하는 2B(20억) 파라미터 규모의 최신 자동 음성 인식(ASR) 모델
- Conformer 기반 인코더-디코더 구조를 사용하며, Apache 2.0 라이선스로 배포됨
- 영어 기준 평균 단어 오류율(WER) 5.42%로 Whisper Large v3 등 주요 경쟁 모델을 능가하며, Hugging Face Open ASR Leaderboard 1위를 기록
- 실제 환경 평가와 인간 평가 모두에서 높은 정확성과 일관성을 보였으며, 다국어 전사에서도 안정적 성능을 유지
- 낮은 지연과 높은 처리 효율을 동시에 달성해 실시간 제품과 워크플로우에 적합
See also
- 자동 음성 인식
- 음성-텍스트 변환
- Conformer
- Apache 2.0 라이선스
- Hugging Face
- Whisper