Step-Video-T2V

ProductHunt 製品ページ

オープンソースの204フレーム動画生成モデル【テキストから動画】

Artificial Intelligence GitHub Open Source Video

Step-Video-T2V

Step-Video-T2Vについて

Step-Video-T2Vは、StepFunが開発したオープンソースのテキストから動画への生成モデルです。このモデルは、最大204フレームまでの長編動画を生成できる能力を持ち、最新の技術を駆使しており、以下のような特徴があります。

高度なアーキテクチャ: 3Dフルアテンションを用いたDiffusion Transformer（DiT）を採用。
高圧縮VAE: カスタムVideo-VAEにより、並外れた圧縮効率を実現。
動画DPO: 動画の視覚品質を向上させるためのDirect Preference Optimization手法を使用。
バイリンガル対応: 中国語と英語のプロンプトをサポート。
最先端のパフォーマンス: Step-Video-T2V-Evalベンチマークでの最高の評価を獲得。

更に、基本モデルに加えて、推論ステップの蒸留を活用した「Turbo」バージョンもあります。興味のある方は、公式ウェブサイトで直接生成を体験できます。動画生成技術の新しい可能性を体感してください。

投票数: 7

← 投稿一覧に戻る