
Step-Video-T2V
ストックにはログインが必要です
オープンソースの204フレーム動画生成モデル【テキストから動画】
Artificial Intelligence
GitHub
Open Source
Video
Step-Video-T2Vについて
Step-Video-T2Vは、StepFunが開発したオープンソースのテキストから動画への生成モデルです。このモデルは、最大204フレームまでの長編動画を生成できる能力を持ち、最新の技術を駆使しており、以下のような特徴があります。
- 高度なアーキテクチャ: 3Dフルアテンションを用いたDiffusion Transformer(DiT)を採用。
- 高圧縮VAE: カスタムVideo-VAEにより、並外れた圧縮効率を実現。
- 動画DPO: 動画の視覚品質を向上させるためのDirect Preference Optimization手法を使用。
- バイリンガル対応: 中国語と英語のプロンプトをサポート。
- 最先端のパフォーマンス: Step-Video-T2V-Evalベンチマークでの最高の評価を獲得。
更に、基本モデルに加えて、推論ステップの蒸留を活用した「Turbo」バージョンもあります。興味のある方は、公式ウェブサイトで直接生成を体験できます。動画生成技術の新しい可能性を体感してください。
投票数: 7