• 1
    Commits 数量
  • 145
    Star 数量
  • 1
    Contributor 数量
  • 3
    Watch 数量

项目简介:

探索模型维度极限,致力于实现以最小的算力开销验证模型scale law。实现对模型注意力机制的混合拓展,实现对于大模型的迭代与进化。

项目特点:

技术价值:

  • 验证模型扩增符合scaling law,探索模型尺寸极限
  • 对于纯SSM架构和混合注意力架构进行探索
  • 混合架构,节省kvcache和flops,加快推理速度

业务价值:

  • 模型扩展极大节省预训练成本
  • 纯rnn架构在端侧可实现无限生成,tts领域可达到0延迟
  • 混合架构,训练推理成本低,又能满足长召回任务

生态价值:

  • 模型尺寸更多样化,不同显卡都可适配
  • 模型代码易懂,生态用户方便自行魔改
  • 利于边端侧个人用户可以接入大模型

项目架构:

image.png