Skip to content

Moonshine

엣지 디바이스용 고속·고정확도 음성 인식(ASR) 오픈소스

About

  • 모든 처리를 온디바이스에서 수행하는 실시간 음성 인식 프레임워크
  • 스트리밍 기반 모델 구조를 통해 사용자가 말하는 동안에도 실시간으로 텍스트를 생성하며, Whisper Large v3보다 낮은 오류율(WER 6.65%) 을 달성
  • Python, iOS, Android, MacOS, Linux, Windows, Raspberry Pi 등 다양한 플랫폼에서 동일한 API로 동작하며, C++ 코어와 OnnxRuntime을 기반으로 최적화
  • 언어별 모델(영어, 한국어, 일본어, 스페인어 등) 과 명령 인식(Intent Recognition) 기능을 포함해, 개발자가 손쉽게 음성 인터페이스를 구축 가능
  • Whisper의 30초 고정 입력·캐시 부재·언어 정확도 한계를 개선해, 엣지 환경에서의 저지연 음성 인터페이스 구현에 적합한 대안으로 주목

Moonshine Voice 개요

  • Moonshine Voice는 실시간 음성 애플리케이션 개발용 오픈소스 AI 툴킷
    • 모든 연산이 로컬 디바이스에서 수행되어 빠른 응답과 개인 정보 보호 보장
    • 스트리밍 처리로 사용자가 말하는 중에도 텍스트 업데이트 가능
  • 모델은 자체 연구 기반으로 처음부터 학습된 구조이며, Whisper Large v3보다 높은 정확도를 제공
  • 26MB 초소형 모델부터 245M 파라미터 중형 모델까지 다양한 크기 제공
  • 영어, 한국어, 일본어, 중국어, 스페인어, 베트남어, 아랍어, 우크라이나어 등 다국어 지원

Whisper 대비 주요 개선점

  • Whisper의 30초 고정 입력 윈도우를 제거해, 가변 길이 입력을 지원
  • 캐싱 기능을 추가해 스트리밍 중 중복 연산을 줄이고 지연(latency)을 대폭 단축
  • 언어별 단일 모델 학습으로 동일 크기 대비 더 높은 정확도 확보
  • 크로스플랫폼 C++ 코어 라이브러리를 통해 Python, Swift, Java 등에서 동일 API 사용 가능
  • Whisper Large v3(1.5B 파라미터) 보다 작은 245M 파라미터 모델로 더 낮은 오류율 달성

주요 기능 및 API 구조

  • 음성 인식 파이프라인을 단일 라이브러리로 통합해 마이크 입력, 음성 감지(VAD), 텍스트 변환, 화자 식별, 명령 인식을 일괄 처리
  • 핵심 클래스:
    • Transcriber: 오디오 입력을 텍스트로 변환
    • MicTranscriber: 마이크 입력 자동 처리
    • IntentRecognizer: 자연어 기반 명령 인식
  • 이벤트 기반 구조로, LineStarted / LineUpdated / LineCompleted 등 상태 변화를 실시간 감지

모델 및 성능

  • Moonshine Medium Streaming (245M): WER 6.65%, Whisper Large v3(7.44%)보다 우수
  • Moonshine Small Streaming (123M): WER 7.84%
  • Moonshine Tiny Streaming (34M): WER 12.00%
  • 한국어 Tiny 모델은 WER 6.46%로 평가됨
  • 모든 모델은 OnnxRuntime 기반 .ort 포맷으로 제공되며, 8비트 양자화로 경량화

개발 및 배포

  • Python (pip install moonshine-voice), Swift (SPM), Android (Maven), Windows (C++ 헤더) 등 주요 환경에서 설치 가능
  • Raspberry Pi 최적화 패키지 제공, USB 마이크로 실시간 인식 가능
  • MIT 라이선스(영어 모델) 및 Moonshine Community License(기타 언어 모델)로 공개
  • 향후 로드맵: 모바일용 바이너리 경량화, 추가 언어, 개선된 화자 식별, 도메인 커스터마이징

벤치마크 및 활용

  • Whisper 대비 5배 이상 빠른 처리 속도로 실시간 음성 인터페이스에 적합
  • 200ms 이하 응답 지연 목표로 설계되어, 대화형 애플리케이션에 활용 가능
  • 명령 인식 예제를 통해 “Turn on the lights” 등 자연어 변형 명령도 인식 가능
  • HuggingFace OpenASR Leaderboard에서 공개 성능 검증 완료

See also

Favorite site