CogView4 logo

CogView4

オープンソース、2K解像度のテキストから画像へ

Artificial Intelligence GitHub Open Source Photo & Video

CogView4の概要

CogView4は、ChatGLMチームが開発したオープンソースのテキストから画像への生成モデルです。このプロダクトは、次のような特徴を持っています。

  • ネイティブ2K解像度: 2048x2048の高解像度画像を、アップスケーリングなしで生成します。
  • (ほぼ)無制限のプロンプト長: 中国語と英語の両方で、非常に長いプロンプトに対応しています。
  • 画像内テキスト生成: 生成する画像に、英語および中国語の文字を含めることができます。
  • バイリンガル対応: 中国語の指示を理解する能力が優れています。
  • オープンソースライセンス: Apache 2.0ライセンスにより、商業利用も可能です。
  • 高度な技術: Diffusion Transformerアーキテクチャを使用しています。

CogView4は、オープンソースの画像生成コミュニティの重要な貢献を果たしており、今後はファインチューニングフレームワークやControlNetサポート、ComfyUI統合が予定されています。興味がある方は、ぜひ直接試してみてください。

投票数: 8
← 投稿一覧に戻る