新V观海外:Claude 3实际产品体验差强人意

新V观海外:Claude 3实际产品体验差强人意
2024年03月15日 12:34 经济观察报

陈沛/文 OpenAI竞争对手Anthropic近期发布了新款大模型Claude 3系列,其中包括三款子模型Haiku、Sonnet和Opus。根据Anthropic发布的测试结果,Claude 3中性能最优的Opus模型在多项基准测试中的得分都超过了OpenAI的GPT-4,次优的Sonnet模型的得分也基本可与GPT-4相媲美。

尽管AI业界近年来有所弱化基准测试得分的重要性,越来越强调大模型的产品能力和用户实际体验才是关键衡量标准。但是能在多项测试中全面超过长期占据头名的GPT-4,表明Claude 3或是一个值得尝试的大模型服务。

我已经使用了Claude 3,目前Sonnet模型可免费限量使用,Opus模型则需支付每月20美元的订阅费用。根据我的对话体验,Claude长期以来反复强调的在长文本输入和内容安全性等方面的优势,在实际产品使用中并不突出。

例如我输入了一篇长新闻内容,让Claude 3总结其中的主要结论和关键数字,Claude 3输出的主要结论尚可,但找出的关键数字却完全是凭空捏造的。

Claude 3的长文本输入能力还受限于文档处理能力。Claude 3目前支持单次上传5个文档,每个文档10Mb以内。与现在主流AI大模型产品相比,这种处理能力并不突出。就算我上传了一个只有4Mb的研究论文进行测试,Claude 3也提示内容过长无法处理。而同样的研究论文,我已在其它AI大模型产品中成功做过测试。

在产品体验方面,Claude 3目前还处于测试阶段,对话数量限制也在调整之中。由于没有类似“每3小时发送50条”的明确限制,导致有时先发送一条输入,Claude 3会提示“超出限制”报错信息,但重复试几次就又可以输出了。

Claude 3官网还重点宣传了它的图片输入理解能力,提供了Claude 3读取图片中手写文稿的示例。但我使用官网截图进行输入,Claude 3能理解图片的数量、主题信息和位置关系,但在手写文稿截图不清的情况下,却给出了完全捏造的手写文稿识别结果。

最后,Claude 3已明确表示不支持搜索互联网的内容。这种选择虽然会让它在推理时的输出相对更快一些,但与其它主流AI大模型产品相比,这个短板或许会导致Claude 3难以让个人用户做出长期付费订阅的决定。

实际使用后,总体上可以感觉到Claude 3或许是一个优秀的研究成果,但与优秀的用户产品相比,还有距离。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部