Instella logo

Instella

AMDのオープンな3B小型LM

Artificial Intelligence GitHub Open Source

Instellaの紹介

Instellaは、AMDが開発した高性能3B言語モデルです。このモデルは、小型ながらも特に優れたパフォーマンスを発揮し、大規模なオープンウェイトモデルと肩を並べることができます。

特徴

  • 高いパフォーマンス:他の3Bモデルを上回り、Llama-3.2-3BやGemma-2-2Bといった大規模なモデルと競争しています。
  • 推論に特化:訓練の第2段階では主に数学的思考や論理的推論にフォーカスしています。
  • 多様なバージョン:事前訓練済みモデルやSFT(監督付きファインチューニング)、DPO(Direct Preference Optimization)モデルもリリースされています。
  • ゼロからの訓練:AMDのInstinct MI300X GPUを使用して一から訓練されています。
  • ライセンス:モデルの重みはResearchRAILライセンスで提供され、コードはオープンソース(MIT)で利用可能です。

効率的な訓練と特定の能力への焦点を当てた成果が具現化された良い例です。

投票数: 130
← 投稿一覧に戻る