岩芯数智推出自研通用大模型_

经济观察网记者黄一帆随着大模型的爆火，传统的Transformer架构同时展现出计算复杂度高、成本压力大等问题，国际上已有Mamba、RWKV等非Transformer架构大模型引起关注，国内也诞生了基于新架构下的大模型。

1月24日，岩山科技（002195.SZ）旗下岩芯数智发布自研大模型“Yan模型”，打出的标签是“非Transformer架构”下的通用自然语言大模型。

岩山科技告诉记者，目前主流的大模型系列有三个：OpenAI的GPT系列、META的LLaMa系列、Google的PaLM系列。这三个系列都是基于Transformer架构衍生而来。国内的大模型基本延续了这三个系列，或是它们的一个子版本演变而来。

那么，在Transformer架构已成为人工智能领域主流架构的情况下，为什么岩芯数智还要另辟蹊径，转而构建非Transformer架构的大模型呢？

岩芯数智CEO刘凡平告诉记者，“Transformer架构的主要问题在于训练成本太高，交付成本也高，成本难以覆盖客户的付费，需要降低边际成本”。

刘凡平表示，在对Transformer模型不断地调研和改进过程中，公司意识到了重新设计大模型的必要性。“我们从早期的基于Transformer架构、改进Transformer架构，到放弃Transformer架构，这是一个漫长的过程”。

“Yan团队在三年前开始布局、落地非Transformer架构相关的事情。在这个过程中，行业也慢慢了解到Transformer架构机制有一些共性的缺陷，所以大家都会去研究有没有其他的算法去优化，甚至替代这个结构。”岩山科技常务副总经理、岩芯数智董事长陈代千表示，“我们基于此前的实践，确信非Transformer的路线是可行的”。

岩山科技告诉记者，岩芯数智推出的大模型在效率上，相较同等参数Transformer，拥有7倍训练效率、5倍推理吞吐和3倍记忆能力。

据了解，此次岩芯数智推出的是Yan1.0大模型，目前正在做Yan2.0版本。

刘凡平表示，在推出Yan1.0后，“今年会在商业化上面去工作，我们会和合作伙伴去共同推进一些项目建设”。

对于Yan2.0产品，陈代千表示，“它肯定不仅仅是现在以语言输入、文本输出等形式，它应该是比如计算机视觉、视频甚至数字信号等全模态的内容都可以输入，然后我的模型也能够以各种形态，比如说以文字吐出、语音合成或者视频、信号处理的方式吐回这个结果。我们想做的Yan 2.0，其实就是往这个方向走，做一个全模态的实时人机交互系统”。

头条号入驻

经济观察报在最恰当的时点与您分享最有价值的财经资讯和商业思想

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

岩芯数智推出自研通用大模型

头条号入驻

汽车金融公司、银行打响汽车贷款促销战

平邑县“抢”建新能源车桥大项目 | 行走先行区

绿色为底，增长为红，汾酒的靓丽成绩单

财经自媒体联盟更多自媒体作者

热文排行榜