Xiaomi MiMo
AI训练模型工具
Xiaomi MiMo

小米公司开发并开源的一款推理大模型

小米 MiMo 是小米公司开发并开源的一款推理大模型,属于大模型系列。它旨在通过优化的预训练和后训练流程,增强模型在复杂推理任务中的表现,特别是在数学、代码生成及一般性推理任务中。MiMo-7B 系列包括四个版本:Base、Base-Zero、SFT 和 RL,均基于 Transformer 架构,但引入了 MTP(Multi-Token Prediction)机制以加速推理过程。此外,它采用了 GQA(Generalized Multi-Query Attention)来提高多查询任务的处理能力。

用户可以通过以下方式进行使用:

  1. 访问源码:用户可以访问小米的 GitHub 仓库(https://github.com/XiaomiMiMo/MiMo)来获取 MiMo-7B 的源代码,进行本地部署和研究。
  2. Hugging Face 平台:MiMo-7B 也在 Hugging Face 平台上提供(https://huggingface.co/XiaomiMiMo/MiMo-7B-RL),用户可以直接在该平台上使用或下载模型进行测试和集成到自己的应用中。
  3. 技术报告:小米提供了详细的 MiMo-7B 技术报告(https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf),其中包含了模型架构、训练策略以及在多个基准测试中的表现,用户可以阅读这份报告来更好地理解模型的工作原理。
  4. 英中对照版:对英文技术报告感兴趣的用户,可以关注 AGI 公众号回复 'mimo7b' 获取 MiMo-7B 技术报告的英中对照版。
  5. 模型性能:MiMo-7B 在数学推理、代码生成等领域表现出色,尤其是在 AIME 竞赛和 LiveCodeBench v5 等评测中取得了领先的成绩。用户可以利用这些领域的能力来解决特定的推理问题。

通过以上途径,用户可以深入了解和利用小米 MiMo-7B 大模型,以满足其在推理任务中的需求。

相关导航