Qwen3-TTS

음성 디자인, 클론, 생성 기능 제공

About

Qwen3-TTS는 음성 복제, 음성 디자인, 초고품질 인간형 음성 생성, 자연어 기반 제어를 지원하는 다국어 음성 생성 모델 시리즈
중국어,영어,일본어,한국어 등 10개 주요 언어 및 다양한 방언을 지원하며, 1.7B와 0.6B 두 가지 모델 크기로 제공
자체 개발한 Qwen3-TTS-Tokenizer-12Hz 인코더를 통해 음성 신호를 효율적으로 압축하고, 비언어적 정보와 음향 환경을 완전 보존
Dual-Track 스트리밍 구조로 문자 1개 입력 후 첫 오디오 패킷을 즉시 출력하며, 97ms 지연의 실시간 합성 성능을 달성
오픈소스 공개로 개발자와 기업이 고품질 음성 생성 기술을 직접 활용할 수 있음