Step-Video-T2V logo

Step-Video-T2V

オープンソースの204フレーム動画生成モデル【テキストから動画】

Artificial Intelligence GitHub Open Source Video

Step-Video-T2Vについて

Step-Video-T2Vは、StepFunが開発したオープンソースのテキストから動画への生成モデルです。このモデルは、最大204フレームまでの長編動画を生成できる能力を持ち、最新の技術を駆使しており、以下のような特徴があります。

  • 高度なアーキテクチャ: 3Dフルアテンションを用いたDiffusion Transformer(DiT)を採用。
  • 高圧縮VAE: カスタムVideo-VAEにより、並外れた圧縮効率を実現。
  • 動画DPO: 動画の視覚品質を向上させるためのDirect Preference Optimization手法を使用。
  • バイリンガル対応: 中国語と英語のプロンプトをサポート。
  • 最先端のパフォーマンス: Step-Video-T2V-Evalベンチマークでの最高の評価を獲得。

更に、基本モデルに加えて、推論ステップの蒸留を活用した「Turbo」バージョンもあります。興味のある方は、公式ウェブサイトで直接生成を体験できます。動画生成技術の新しい可能性を体感してください。

投票数: 7
← 投稿一覧に戻る