
Instella
ストックにはログインが必要です
AMDのオープンな3B小型LM
Artificial Intelligence
GitHub
Open Source
Instellaの紹介
Instellaは、AMDが開発した高性能3B言語モデルです。このモデルは、小型ながらも特に優れたパフォーマンスを発揮し、大規模なオープンウェイトモデルと肩を並べることができます。
特徴
- 高いパフォーマンス:他の3Bモデルを上回り、Llama-3.2-3BやGemma-2-2Bといった大規模なモデルと競争しています。
- 推論に特化:訓練の第2段階では主に数学的思考や論理的推論にフォーカスしています。
- 多様なバージョン:事前訓練済みモデルやSFT(監督付きファインチューニング)、DPO(Direct Preference Optimization)モデルもリリースされています。
- ゼロからの訓練:AMDのInstinct MI300X GPUを使用して一から訓練されています。
- ライセンス:モデルの重みはResearchRAILライセンスで提供され、コードはオープンソース(MIT)で利用可能です。
効率的な訓練と特定の能力への焦点を当てた成果が具現化された良い例です。
投票数: 130