Muyan-TTS logo

Muyan-TTS

ポッドキャストと音声クローンのためのオープンソース高品質TTS

Artificial Intelligence GitHub Open Source Audio

プロダクト概要

Muyan-TTSは、ポッドキャスト向けに特化したオープンソースのテキスト音声合成(TTS)モデルです。

特徴

  • 事前学習: 100,000時間以上のポッドキャスト音声を基に訓練されています。
  • 高品質な声生成: ゼロショット方式で高品質な音声を生成可能で、短い音声サンプルを使用してその声で音声を合成します。
  • 話者適応機能: Muyan-TTS-SFT版により、数分の音声データで特定の話者に適応できます。

開発の透明性

開発は約50,000ドルの予算内で進行され、提供されるモデルとトレーニングコードはすべて公開されています。これにより、利用者自身がカスタマイズした利用が可能です。

Muyan-TTSは、ポッドキャストコンテンツ制作に新たな可能性を提供し、開発者やクリエイターにとって非常に有用なツールです。

投票数: 2
← 投稿一覧に戻る