
R1-AQA
ストックにはログインが必要です
XiaomiのDeepSeek-R1に触発された音声AI
Artificial Intelligence
Open Source
Audio
概要
R1-AQAは、Xiaomiが提供する新しいオープンソース音声質問応答(AQA)モデルです。DeepSeek-R1からインスパイアされたこのモデルは、以下の特徴を持っています。
主な特徴
- 音声質問応答: 単なる文字起こしを超え、音声の内容に基づいて質問が可能。質問と回答を音声でやり取りできる。
- 強化学習(GRPO): グループ相対ポリシー最適化を用いてトレーニングされ、限られたデータでも高い性能を発揮。
- 最先端の成果: MMAU Test-miniベンチマークで最高の結果を収め、GPT-4oやGemini Proといった他のモデルを凌駕。
- データ効率: わずか38,000のトレーニングサンプルを使用し、Qwen2-Audio-7B-Instructに基づいている。
- オープンアクセス: モデルとそのコードが公開されており、誰でも利用可能。
最後に
このモデルは、限られたデータでのトレーニングにもかかわらず、非常に効果的であることが示されています。興味がある方は、自分自身で試すこともできるので、ぜひご覧ください。
投票数: 4