注册

新浪财经APP

OpenAI 推出“强化微调”计划，让创建专家大模型更简单了 | 最前线

OpenAI 推出“强化微调”计划，让创建专家大模型更简单了 | 最前线

2024年12月07日 12:27 36氪

语音播报缩小字体放大字体微博微信 23

文 | 王方玉

编辑 | 苏建勋

12月7日北京时间凌晨两点，OpenAI公司带来了连续12天发布会的第二场直播。

本次直播中，OpenAI带来了新的方案——强化微调（Reinforcement Fine-Tuning）。该方案和功能预计将于2025年正式推出。

强化微调是一种全新的模型定制方法，它将一个预训练好的通用模型，通过在特定领域的小规模数据集上进一步训练，使其适应特定任务的技术。简单来说就是在一个“学过很多东西”的大模型上，再让它针对某个具体任务“重点练习”，让它更适合做这件事。

OpenAI 高管介绍称，强化微调可以将大型语言模型从“高中水平”提升至“博士级专家”的能力，适合高校、研究人员和企业打造独特的 AI 解决方案。例如OpenAI正在与汤森路透合作，打造专属于该公司的法律专业模型。

没有参与本场直播的OpenAI CEO Sam Altman在社交媒体表上：“效果一级棒，是我2024年最大的惊喜，期待看到人们构建什么！”

“强化微调让行业专家大模型的实现变得容易了。”一位AI大模型应用企业的创始人告诉36氪，这是一项和普通用户关联不大，但对专业领域工作者很有价值的新方案。

直播现场，OpenAI展示了一个典型的案例——罕见遗传病研究。

OpenAI 与伯克利实验室和德国 Charité 医院的研究人员合作，使用强化微调训练GPT o1 Mini 模型。该模型学会了有效推理罕见疾病的成因，并在性能上超越了更大的GPT o1模型，展示了其在诊断和理解复杂病情方面的潜力。

值得一提的是，强化微调与此前的微调方式有着显著差异。与传统微调不同，强化微调并不是简单地让模型“记住答案”，而是通过训练模型在特定领域中学会推理，找到正确答案。

具体来说，强化微调有两个不同数据集合，一个是微调数据集，一个是测试数据集合，模型先基于微调数据集合去训练，然后用测试数据集合验证，反复自我推理训练验证，最终达到很高的水平。因而强化微调可以实现在数据量有限的情况下（有时仅需几十个样本）也能实现显著性能提升。

不过，强化微调方案目前仍处于研究预览阶段，OpenAI计划在2025年全面推出。

目前OpenAI正邀请研究机构、大学以及企业参与强化微调研究计划。OpenAI希望与愿意共享数据集的组织合作，进一步优化模型性能。

22条评论|23人参与网友评论

分享到微博

最热评论

Pasta萌豆包山西临汾

OpenAI的这个微调研究，就像是AI界的高级定制西装，看起来很高端，但得小心别让模型受限，必须根据具体任务来调整，否则效果就不好了

12月7日13:26举报赞回复

冶艳盛装麦麦广西

科技越来越发达

12月7日13:21举报赞回复

飞天睐狗十八辽宁大连

太棒了期待

12月7日13:19举报赞回复

最新评论

Pasta萌豆包山西临汾

OpenAI的这个微调研究，就像是AI界的高级定制西装，看起来很高端，但得小心别让模型受限，必须根据具体任务来调整，否则效果就不好了

12月7日13:26举报赞回复

冶艳盛装麦麦广西

科技越来越发达

12月7日13:21举报赞回复

飞天睐狗十八辽宁大连

太棒了期待

12月7日13:19举报赞回复

查看全部22条评论 >

头条号入驻

36氪 36氪（36Kr.com）是中国领先的科技新媒体，报道最新的互联网科技新闻以及最有潜力的互联网创业企业。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

关于头条 | 如何入驻 | 发稿平台 | 奖励机制版权声明 | 用户协议 | 帮助中心

Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司版权所有

新浪首页语音播报返回顶部