
Muyan-TTS
ストックにはログインが必要です
ポッドキャストと音声クローンのためのオープンソース高品質TTS
Artificial Intelligence
GitHub
Open Source
Audio
プロダクト概要
Muyan-TTSは、ポッドキャスト向けに特化したオープンソースのテキスト音声合成(TTS)モデルです。
特徴
- 事前学習: 100,000時間以上のポッドキャスト音声を基に訓練されています。
- 高品質な声生成: ゼロショット方式で高品質な音声を生成可能で、短い音声サンプルを使用してその声で音声を合成します。
- 話者適応機能: Muyan-TTS-SFT版により、数分の音声データで特定の話者に適応できます。
開発の透明性
開発は約50,000ドルの予算内で進行され、提供されるモデルとトレーニングコードはすべて公開されています。これにより、利用者自身がカスタマイズした利用が可能です。
Muyan-TTSは、ポッドキャストコンテンツ制作に新たな可能性を提供し、開発者やクリエイターにとって非常に有用なツールです。
投票数: 2