统计
  • 建站日期:2021-03-10
  • 文章总数:9259 篇
  • 评论总数:3 条
  • 分类总数:8 个
  • 最后更新:9月22日
文章 未分类

GPT-4学会反思,写代码能力提升21%

烈阳
首页 未分类 正文

在第一步评估的过程中,首先要经历的是LLM(大语言模型)的自我评估。

也就是说LLM在还没有外部反馈时,首先要自己对答案进行反思。

那如何进行自我反思?

研究团队使用了一个二元奖励机制,为LLM在当前状态下执行的操作赋值:

1代表生成的结果OK,0则表示生成的结果不太行。

而之所以采用二元而非多值或连续输出这类更具描述性的奖励机制,原因和没有外部输入有关。

要在没有外部反馈的条件下进行自我反思,必须将答案限制在二元状态下,只有这样,才能迫使LLM做出有意义的推断。

在自我评估结束之后,如果二元奖励机制输出为1,则不启动自我反思装置,若为0,LLM则会开启反思模式。

在反思的过程中,模型会触发一个启发性函数h(如下),类比人类思考过程,h起到的作用就像是监督一样。


GPT-4学会反思,写代码能力提升21%
-烈阳家园
-第1
张图片

不过,同人类思考一样,LLM在反思的过程中同样也有局限性,这在函数中的Ω和ε中就能体现。

Ω表示重复连续动作的次数,一般会将这个数值设置为3,这表示反思过程中若重复一个步骤三次,会直接跳到下一个步骤。

而ε则表示在反思的过程中允许执行的最大操作数量。

既然有监督,那修正也必须执行,修正过程的函数是这样子的:


GPT-4学会反思,写代码能力提升21%
-烈阳家园
-第2
张图片

其中,自我反思模型是通过“特定领域的失败轨迹和理想反射对”训练而来的,并不允许访问数据集中给定问题的特定领域的解决方案。

这样一来,LLM在反思的过程中便能够迸发出更多有“创新性”的东西。

反思之后性能提升近30%

既然GPT-4这类LLM都能够进行自我反思了,那具体效果究竟如何?

研究团队在ALFWorld和HotpotQA基准上对这种方法进行了评估。

在HotpotQA的100个问答对测试中,使用Reflexion这种方法的LLM显示出了巨大的优势,再经过多轮反思重复提问之后,LLM的性能提升了接近30%。

而没有使用Reflexion,在重复问答之后,性能没有任何变化。


GPT-4学会反思,写代码能力提升21%
-烈阳家园
-第3
张图片

在HotpotQA的134个问答对测试中,可以看出在Reflexion的加持下,LLM经过多轮反思后,准确率一度达到97%。


GPT-4学会反思,写代码能力提升21%
-烈阳家园
-第4
张图片

在另外一篇博客中,团队成员也晒出了他们这种方法在GPT-4上的效果,测试范围是编写代码。

结果也显而易见,用了Reflexion,GPT-4的编程能力直接提升了21%。


GPT-4学会反思,写代码能力提升21%
-烈阳家园
-第5
张图片

关于GPT-4已经会“思考”了,你怎(huang)么(le)看(ma)?

论文地址:

参考链接:[1]

[2]

本文来自微信公众号“量子位”(ID:QbitAI),作者:Pine,36氪经授权发布。原文标题:《GPT-4写代码能力提升21%,MIT新方法让LLM学会反思,网友:和人类的思考方式一样》

文章来源:https://36kr.com/p/2188919700553861

版权说明
文章采用: 《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权。
版权声明:未标注转载均为本站原创,转载时请以链接形式注明文章出处。如有侵权、不妥之处,请联系站长删除。敬请谅解!

-- 展开阅读全文 --
夫妻摆摊日入9千网友让查税 当事人回应了
« 上一篇
万幸!2.5吨天然铀找到了
下一篇 »
为了防止灌水评论,登录后即可评论!

HI ! 请登录
注册会员,享受下载全站资源特权。
社交账号登录

每日一言

最新文章

标签TAG