R1-AQA logo

R1-AQA

XiaomiのDeepSeek-R1に触発された音声AI

Artificial Intelligence Open Source Audio

概要

R1-AQAは、Xiaomiが提供する新しいオープンソース音声質問応答(AQA)モデルです。DeepSeek-R1からインスパイアされたこのモデルは、以下の特徴を持っています。

主な特徴

  • 音声質問応答: 単なる文字起こしを超え、音声の内容に基づいて質問が可能。質問と回答を音声でやり取りできる。
  • 強化学習(GRPO): グループ相対ポリシー最適化を用いてトレーニングされ、限られたデータでも高い性能を発揮。
  • 最先端の成果: MMAU Test-miniベンチマークで最高の結果を収め、GPT-4oやGemini Proといった他のモデルを凌駕。
  • データ効率: わずか38,000のトレーニングサンプルを使用し、Qwen2-Audio-7B-Instructに基づいている。
  • オープンアクセス: モデルとそのコードが公開されており、誰でも利用可能。

最後に

このモデルは、限られたデータでのトレーニングにもかかわらず、非常に効果的であることが示されています。興味がある方は、自分自身で試すこともできるので、ぜひご覧ください。

投票数: 4
← 投稿一覧に戻る