Qwen3-TTS
ストックにはログインが必要です
ボイスデザイン、クローン作成、97msの低遅延ストリーミング
Artificial Intelligence
Open Source
Audio
概要
Qwen3-TTSは、最先端品質・超高速・創造的コントロールを同時に実現するオープンソースTTS。10言語対応の0.6B/1.7Bパラメータモデルを核に、プロンプトベースのVoice Designと3秒のゼロショット・クローン、超低遅延のストリーミングを提供します。
主な特徴
- プロンプトベースのVoice Designで人格を直感的に設定
- 3秒のゼロショット・クローンで即時の発声音モデルを生成
- 超低遅延ストリーミング(約97msのレイテンシ)
- 10言語対応・0.6B/1.7Bパラメータのモデル群
技術ハイライト
- 12Hzトークナイザーによる音声圧縮とディテール保持
- オープンソースによる透明性・拡張性と再利用性
利用シーン
- ボイス対応アプリ、ナレーション、アシスタント、ゲームキャラなど、音声を活用する製品に適用可能
投票数: 101