Qwen3-Omni
Qwen3-omni is a natively end-to-end, omni-modal LLM developed by the Qwen team at Alibaba Cloud, capable of understanding text, audio, images, and video, as well as generating speech in real time.
Qwen3-Omni-Flash-2025-12-01
Qwen3-Omni-Flash-2025-12-01은 텍스트, 이미지, 오디오, 비디오를 동시에 처리하고 실시간 스트리밍으로 텍스트와 음성 출력을 생성하는 차세대 멀티모달 모델
- 오디오·비주얼 명령 이해력과 대화 안정성이 크게 향상되어 자연스럽고 일관된 음성-영상 상호작용 구현
- 시스템 프롬프트 완전 제어 기능으로 인격 스타일, 말투, 출력 길이 등 세부 조정 가능
- 119개 언어 텍스트, 19개 언어 음성 인식, 10개 언어 음성 합성을 지원하며 다국어 일관성 문제 해결
- 논리 추론, 코드 생성, 시각·음성 이해 등 전 영역에서 성능이 향상되어 자연스럽고 정밀한 AI 상호작용 경험 제공