- 1Commits 数量
- 145Star 数量
- 1Contributor 数量
- 3Watch 数量
项目简介:
探索模型维度极限,致力于实现以最小的算力开销验证模型scale law。实现对模型注意力机制的混合拓展,实现对于大模型的迭代与进化。
项目特点:
技术价值:
- 验证模型扩增符合scaling law,探索模型尺寸极限
- 对于纯SSM架构和混合注意力架构进行探索
- 混合架构,节省kvcache和flops,加快推理速度
业务价值:
- 模型扩展极大节省预训练成本
- 纯rnn架构在端侧可实现无限生成,tts领域可达到0延迟
- 混合架构,训练推理成本低,又能满足长召回任务
生态价值:
- 模型尺寸更多样化,不同显卡都可适配
- 模型代码易懂,生态用户方便自行魔改
- 利于边端侧个人用户可以接入大模型