上海人工智能实验室发布2023年度大模型公开评测榜单

上海人工智能实验室发布2023年度大模型公开评测榜单
2024年01月31日 20:15 财经新媒体

1月30日,上海人工智能实验室发布大模型开源开放评测体系司南(OpenCompass2.0),同时公布了2023年度大模型公开评测榜单。

OpenCompass2.0 的测评对象为过去一年来主流开源模型和商业API模型,数量超过150个。测评榜单显示,GPT-4 Turbo在各项评测中均获最佳表现,智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0分列二到四位。

但在百分制的评测基准中,第一名的GPT-4 Turbo也仅达到61.8分的及格水平。此结果显示,复杂推理仍然是大模型面临的重要难题,需要进一步的技术创新来攻克。

来源:上海人工智能实验室官网

测评榜单认为,智谱清言GLM-4、阿里巴巴Qwen-Max和百度文心一言4.0具有较为均衡和全面的性能,在语言和知识等基础能力维度上可以比肩GPT-4 Turbo。但短板也很明显,体现在推理、数学、代码、智能体等方面。GPT-4 Turbo在涉及复杂推理的场景虽然亦有提升空间,但已明显领先于国内的商业模型和开源模型。国内大模型要整体赶超GPT-4 Turbo等国际顶尖的大模型,在复杂推理、可靠地解决复杂问题等方面,仍需下大功夫。

测评榜单也指出,在中文场景下,国内模型对比海外模型具有优势。在中文语言理解、中文知识和中文创作上,部分模型实现了单个维度上对 GPT-4 Turbo 的超越。此外,开源模型,如Yi-34B-Chat,以相对更小的参数量,做到接近商用闭源模型的性能水平。

但总体而言,不少开源模型主客观性能仍和API模型存在相当程度的差距。

来源:上海人工智能实验室官网

上海人工智能实验室表示,截至榜单发布时,部分新的大模型尚未纳入本次榜单。1月21日,猎户星空发布了开源百亿参数大模型Orion-14B。猎豹移动董事长兼CEO、猎户星空董事长傅盛表示,在企业应用场景中,该大模型在结合企业私有数据和应用时可实现千亿参数级别的模型效果。傅盛在接受《财经》新媒体采访时曾表示,智能的本质之一就是预测,而语言大模型的本质就是预测下一个词。在预测天气、寻找抗生素、探究蛋白质结构这些需要端到端计算的数据化领域,大模型优势明显。而在语言推理方面,由于语言高度抽象和压缩,语言目前是人类最后一块“遮羞布”,但这条路径AI未来也完全可以实现。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部