【独家焦点】GPT-4“自我反思”后能力大增，测试表现提升 30%

当前位置：首页 > 滚动 > >正文

【独家焦点】GPT-4“自我反思”后能力大增，测试表现提升 30%

来源：C114 通信网时间：2023-04-04 11:58:04

【资料图】

OpenAI 最新的语言模型 GPT-4 不仅能够像人类一样生成各种文本，还能够设计和执行测试来评估和改进自己的表现。这种“反思”技术让 GPT-4 在多项难度较高的测试中，都取得了显著的进步，测试表现提升 30%。

GPT-4 是继 GPT、GPT-2 和 GPT-3 之后，OpenAI 推出的最先进的系统，也是目前最大的多模态模型（可以接受图像和文本输入，输出文本）。其利用深度学习技术，使用人工神经网络来模仿人类的写作。

研究人员诺亚辛恩（Noah Shinn）和阿什温戈平纳特（Ashwin Gopinath）在论文中写道：“我们开发了一种新颖的技术，让 AI 代理能够模拟人类的自我反思，并评估自己的表现。GPT-4 在完成各种测试的时候，会增加一些额外的步骤，让它能够自己设计测试来检查自己的答案，找出错误和不足之处，然后根据发现来修改自己的解决方案。”

在 HumanEval 编码测试中，GPT-4 使用自我反思环路，准确率从 67% 上升到 88%

GPT-4 可以通过设计和执行测试来批判其自身的性能，如 AlfWorld 测试结果所示，可以大大改善其性能

研究团队使用这种技术对 GPT-4 进行了几种不同的性能测试。在 HumanEval 测试中，GPT-4 需要解决 164 个从未见过的 Python 编程问题，原本准确率为 67%，使用反思技术后，准确率提升到了 88%。在 Alfworld 测试中，AI 需要在各种不同的交互环境中，通过执行一些允许的操作，来做出决策和解决多步任务。使用反思技术后，GPT-4 的准确率从 73% 提高到了 97%，只有 4 个任务失败。在 HotPotQA 测试中，GPT-4 可以访问维基百科，并回答 100 个需要从多个支持文档中解析内容和推理的问题，原本准确率为 34%，使用反思技术后，准确率提高到了 54%。

这项研究表明，AI 问题的解决方案有时候是依赖 AI 本身。IT之家发现，这有点像生成对抗网络，这是一种让两个 AI 互相提高技能的方法，比如一个 AI 试图生成一些看起来像真实图片的图片，另一个 AI 试图分辨哪些是假的，哪些是真的。但在这种情况下，GPT 既是写作者又是编辑，通过自我反思来改进自己的输出质量。

X 关闭

最近更新

【独家焦点】GPT-4“自我反思”后能力大增，测试表现提升 30%

2023-04-04 11:58:04

滚动
第一季度旅游市场“开门红” 具体情况详细内容介绍-焦点快看

2023-04-04 11:26:24

滚动
卫星新闻丨“共富茶”跨越山海助力乡村振兴_全球速讯

2023-04-04 10:37:55

滚动
焦点快看：山西大同

2023-04-04 10:02:11

滚动
海贼王1080话情报：炸裂，传说的英雄，海军特殊部队与黑团开战

2023-04-04 09:10:28

滚动
“成都天府新区将建 2200 米大楼”？官方回应|每日信息

2023-04-04 08:13:15

滚动
环球滚动:中外企业家：看好北京投资北京抓住机遇共成长

2023-04-04 07:11:22

滚动
天天头条：co188土木在线论坛_co188

2023-04-04 05:15:13

滚动
【当前独家】邮报：派出球探现场考察，国际米兰希望在今夏引进圣马克西曼

2023-04-04 01:04:16

滚动
吉利数字代表的意思大全_吉利数字天天消息

2023-04-03 22:19:43

滚动
世界热议:外交部：坚决反对美方同台湾当局进行任何形式的官方往来

2023-04-03 21:00:26

滚动
全球快看：地基承载力检测方法规范_地基承载力检测频率规范

2023-04-03 19:48:50

滚动
世界滚动:12月3日是什么星座_12月30日是什么星座

2023-04-03 18:48:39

滚动
全球观察：阿斯：最佳僚机！维尼修斯的43次助攻中有22次传给了本泽马

2023-04-03 17:59:55

滚动
年利率19.80%是几厘利息？一文教你搞懂利息换算

2023-04-03 16:51:42

滚动
富春染织: 富春染织关于对全资子公司增资进展暨完成工商变更登记的公告热消息

2023-04-03 16:05:53

滚动
电池级碳酸锂跌1.25万元/吨，均价报23.25万元/吨

2023-04-03 15:35:44

滚动
极目锐评|爆料人晒张继科500万借款合同，事实真相不能是“一笔烂账”

2023-04-03 14:46:10

滚动
聚焦：全国人体器官捐献缅怀纪念活动在长沙举行：全国捐献志愿登记人数已超618万

2023-04-03 13:50:32

滚动
惠誉：预计2022年华润置地杠杆率将升至29% 2023年将保持在合理水平世界动态

2023-04-03 13:04:36

滚动
一季度琼州海峡客滚运输运量增幅明显

2023-04-03 12:43:34

滚动
UP主发起停更潮？B站内部人士回应事件简单介绍全球热讯

2023-04-03 11:45:02

滚动
北京市将鼓励企事业单位为职工提供托育服务

2023-04-03 11:15:55

滚动
平均月薪5万，最高10万！这家企业裁员90%，被裁员工却遭大厂疯抢

2023-04-03 11:12:48

滚动
寄不出的家书②与君书世界微速讯

2023-04-03 10:42:25

滚动
热头条丨乐山市医疗保障基金监管集中宣传月活动启动

2023-04-03 09:36:43

滚动
天天微资讯！ug怎样导出cad_ug怎么导出cad图

2023-04-03 08:49:26

滚动
环球今日报丨红糖生姜葱白汤晚上能喝吗?

2023-04-01 12:44:05

滚动
紧急出动：游客山顶双脚骨折忻州消防成功救援|全球快资讯

2023-04-01 11:06:33

滚动
回顾2023香港巴塞尔：奏响亚洲一级艺术市场最强音世界滚动

2023-04-01 10:05:15

滚动
陈海涛该后悔了！送走周鹏成败笔，任骏飞成笑话，杜锋敢怒不敢言-今日最新

2023-04-01 08:47:11

滚动
天天新动态：武汉机场位于_武汉机场叫什么名字

2023-04-01 06:57:12

滚动
【新视野】就这样爱你爱你爱你随时都要一起是什么歌_就这样爱你爱你爱你随时都要在一起是什么歌

2023-04-01 04:50:52

滚动
流光溢彩的意思的意思_流光溢彩的意思天天时讯

2023-04-01 01:11:29

滚动
Mysql高可用高性能存储应用系列3 - mysqld_multi配置主从集群|每日信息

2023-03-31 22:25:06

滚动
翔安区气象台发布雷电黄色预警【Ⅲ级/较重】

2023-03-31 21:18:01

滚动
一 base 单例模式, app 函数模板-天天新消息

2023-03-31 20:20:00

滚动
环球观点：大话外传新篇二星装大全_大话外传新篇

2023-03-31 19:16:29

滚动
世界最新：中日防务部门海空联络机制直通电话建成

2023-03-31 18:08:54

滚动
ECOBAMBOO 让可持续成为一种时尚|世界观点

2023-03-31 17:11:45

滚动
3月31日佛慈制药涨停分析：中药，禽流感，医药概念热股环球新动态

2023-03-31 16:31:46

滚动
全球热消息：视频二维码生成器官网_视频二维码生成器

2023-03-31 15:42:46

滚动
从孔乙己脱不脱长衫看文化影响

2023-03-31 15:14:08

滚动
每日精选：我国今年以来最大范围强雨雪明天开始！

2023-03-31 14:08:48

滚动
全国最新平均月薪是10101元？工资是不是又被平均了？真相来了

2023-03-31 13:05:24

滚动
观速讯丨半导体的春天何时来？韩国2月芯片减产幅度为金融危机以来最大

2023-03-31 12:06:45

滚动
公务员招录部分岗位放宽年龄，年轻人机会少了吗？

2023-03-31 11:32:00

滚动
徐家楼社区开展“幸福家园携手共建”主题共建日_今热点

2023-03-31 10:24:29

滚动
拓新药业于三亚新设子公司含生物农药技术研发业务|世界快报

2023-03-31 09:44:48

滚动
施洗约翰的见证_施洗约翰

2023-03-31 09:02:48

滚动
全国交通建设产业百名劳模工匠进一线宣讲活动在鄂启动每日热门

2023-03-31 07:41:22

滚动
环球关注：powermanagementsetup什么意思_powermanagement

2023-03-31 05:54:39

滚动
天天实时：《小丑2》最新路透照曝光落魄“凤凰叔”现身街头

2023-03-31 03:15:24

滚动
记者：赖斯不是拜仁的转会目标，双方并未接触过

2023-03-30 23:07:20

滚动
头条焦点：le转区工具win11_le转区工具win7

2023-03-30 21:46:36

滚动
天天关注：荣耀新旗舰Magic5与Magic5 Pro各方面参数对比图，你会买哪款

2023-03-30 20:59:39

滚动
新华全媒+｜激发新活力开辟新空间——博鳌亚洲论坛把脉数字经济发展

2023-03-30 19:49:02

滚动
世界播报:图解亚普股份年报：第四季度单季净利润同比增181.15%

2023-03-30 18:40:11

滚动
时讯：丹寨县排调镇：擦亮基层党员“五个带头”行动党建品牌激活基层党组织“红色功能”

2023-03-30 17:58:13

滚动
今日看点：中国海军第42批护航编队凯旋

2023-03-30 16:47:36

滚动
智慧芽新药情报库获阶段性成果继续发挥数据与AI技术优势

2023-03-30 16:10:30

滚动
世界时讯：自认有九条命的张兰，又摊上事了

2023-03-30 15:29:29

滚动
每日信息：以闪亮之名变装物语活动攻略分享

2023-03-30 14:30:18

滚动
全球热门:身份证号换算年龄函数（身份证号换算年龄公式）

2023-03-30 13:07:22

滚动
反向问号号_反向问好

2023-03-30 12:18:22

滚动
数实融合成经济增长新赛道_天天微动态

2023-03-30 11:26:41

滚动
原创|灯笼

2023-03-30 10:48:10

滚动
广东大学城视频_广东大学城

2023-03-30 09:58:43

滚动
美晨生态：融资净买入88.13万元，融资余额2.02亿元（03-29）-每日速讯

2023-03-30 09:12:21

滚动
鼓励头部企业做强做大到2025年，河南中药材龙头企业突破50个

2023-03-30 08:15:41

滚动
中国代表近80个国家呼吁加强国际合作推动高质量发展今日热门

2023-03-30 07:08:31

滚动
滚动：【周报君】新版本第三日的高连胜卡组合集（03/29）【死鬼教鱼篇】

2023-03-30 03:54:33

滚动
天天快讯:中国石油股份公布2022财年年度权益分配方案

2023-03-29 23:59:18

滚动
日本福岛第一核电站核燃料取出作业专家组召开首次会议当前播报

2023-03-29 21:55:39

滚动
【热闻】原神孤木孑立无林可依任务怎么做原神搜寻祖训4个祖训位置

2023-03-29 21:03:34

滚动
郑州中医药发展高峰论坛暨郑州市第一次中医名家讲坛举行

2023-03-29 19:47:20

滚动
近三年浙江检察机关为企挽损7.9亿元打击涉企虚假诉讼全球报道

2023-03-29 18:42:46

滚动
中国邮政集团有限公司兰州市分公司营业外包项目成交公示天天新资讯

2023-03-29 18:19:11

滚动
天天观焦点：2023天津黄山纪念币兑换时间安排

2023-03-29 17:17:06

滚动
全球观焦点：已有超30城调整首套房贷利率下限至4%以下

2023-03-29 16:15:03

滚动
中煤协：去年规模以上煤企利润总额首次突破万亿元再创新高

2023-03-29 15:10:23

滚动
每日报道：忍者村1.02攻略_忍者村3 20

2023-03-29 14:29:57

滚动
世界简讯:当日快讯：华润置地：2022年年股东应占溢利280.91亿元，同比减少13.3%

2023-03-29 13:04:48

滚动
协创数据：公司 AI+产品有智能摄像头、智能穿戴、扫地机器人等

2023-03-29 12:04:54

滚动
环球观天下！阿克：我觉得阿森纳接下来赛程挺艰难的，冠军悬念会保持到最后

2023-03-29 11:14:15

滚动
【Spring源码】- 02 Spring IoC容器启动之refresh方法全球观天下

2023-03-29 10:38:22

滚动
观点直击 | 下行的毛利、理想的蝶城万物云想讲什么新故事？（实录）

2023-03-29 10:04:49

滚动
超65%，城镇化进入“下半场”_当前快播

2023-03-29 09:12:07

滚动
明月何时照我还上一句_明月何时照我还环球关注

2023-03-29 07:43:17

滚动
罗浮山旅游景点介绍图片_罗浮山旅游景点介绍-天天观焦点

2023-03-29 06:04:26

滚动
金发科技: 金发科技独立董事关于放弃盘锦金发高分子材料有限公司股权优先购买权暨关联交易的独立意见

2023-03-29 01:03:27

滚动
支付宝怎么登陆淘宝权限设置_支付宝登陆保护通知开启和关闭今日热门

2023-03-28 22:19:04

滚动
夯实产业根基奏响乡村振兴“致富曲”

2023-03-28 21:18:18

滚动
财报速递：顺丰控股2022年全年净利润61.74亿元，总体财务状况良好_当前热门

2023-03-28 19:40:26

滚动
当前头条：TizzyT新厂牌SFNT首支Cypher正式上线

2023-03-28 18:50:15

滚动
热消息：有色金属行业智能制造标准体系建设指南（2023版）：到2025年基本形成有色金属行业智能制造标准体系

2023-03-28 18:08:22

滚动
深圳2023年中考可填报志愿数量_环球快看

2023-03-28 17:13:26

滚动
文明上网从我做起——邵阳市委网信办开展预防未成年人网络沉迷宣传教育活动

2023-03-28 16:03:51

滚动
头条：计划总投资37.6亿元，12个项目顺利签约——泰安市新型建材产业链举行招商引资签约仪式

2023-03-28 15:06:55

滚动
蔚来ET5旅行版曝光，内饰很立体，科技感爆棚

2023-03-28 13:50:35

滚动

【独家焦点】GPT-4“自我反思”后能力大增，测试表现提升 30%

推荐内容

最近更新