GPT-4来了支持多模态全面吊打ChatGPT完虐标准化考试

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

GPT-4来了支持多模态全面吊打…
大型国有银行采购摩尔线程国…
性价比逆天！12代酷睿i5-124…
用的人多也落伍 VGA接口将会…
ai学习机科大讯飞t20pro怎么…
手机内存是什么跟手机储存有…
那个存储空间是什么意思啊我…
小白用户必修课购机过程必备…
什么手机能用个三四年不卡顿…
4080显卡需要多少w电源显卡…
计算机显卡和声卡的发展历程…
40系显卡先出什么型号 40系显…
摩尔线程三款显卡成功兼容统…
2020-26年中国显卡行业全景调…
台式机电源品牌热卖款排行榜…
台式机电源十大品牌排名台式…
台式机电源品牌排行榜前十
高价快速上门回收手机笔记本…
台式机电源哪个牌子好推荐台…
【服务器数据恢复】IBM服务器…
电脑硬盘有几种接口有几种？
男子用电动滑板车藏 84 个固…
新起点新飞跃铠侠EXCERIA固…
百亿补贴！2T固态硬盘569元到…
新买电脑显示器出问题惠普维…
惠普战66六代锐龙版上市 389…
商务人士必抢的宝藏神机惠普…
即使在保修期惠普打印机上门…
战66六代锐龙版新品7000系列…
网上如何销售产品建立销售渠…
ST中基：公司已成立销售公司…
艾格农业网首页
答疑支招篇：中小企业新产品…
品牌应基于全域思维设计渠道…
千元神器！科睿P6 4K显示器3…
随时随地实现大屏自由！16英…
比起游戏电视用显示器打游戏…
上海彰峰电子科技有限公司
十大显示屏品牌排行榜电脑显…
怎么调节风扇转速小编教你电…
bios调节风扇转速小编教你怎…
电脑cpu风扇转速达到960(台式…
电脑更改cpu风扇转速(cpu风扇…
电脑的风扇转速一般应该是多…
i7-13700KF配什么主板有没有…
RTX 4060上市时间是什么时候…
RTX 4050显卡是pcie50吗 40显…
天选新装备华硕校园邀你共同…
华硕吹雪主板新成员将至破次…
Steam Deck可以插SD内存卡吗…

专题栏目

您现在的位置：电脑评测网 >> 电脑主板 >> 正文

高级搜索

GPT-4来了支持多模态全面吊打ChatGPT完虐标准化考试

作者：佚名文章来源：本站原创点击数：更新时间：2023/3/18 10:34:22 | 【字体：小大】

　　练宝专家智东西3月15日消息，今日凌晨，万众瞩目的大型多模态模型GPT-4正式发布！

　　OpenAI发文称，GPT-4能接受图像和文本输入，输出文本内容，虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中已做到人类水平的表现。

　　它强大到什么程度呢？输入一张手绘草图，GPT-4能直接生成最终设计的网页代码。

　　它以高分通过各种标准化考试：SAT拿下700分，GRE几乎满分，逻辑能力吊打GPT-3.5。

　　GPT-4在高级推理能力上超越ChatGPT。在律师模拟考试中，ChatGPT背后的GPT-3.5排名在倒数10%左右，而GPT-4考到了前10%左右。

　　GPT-4的长度限制提升到32K tokens，即能处理超过25000个单词的文本，并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。

　　OpenAI还贴心地发布了GPT-4开发者视频，手把手教你生成代码、检查错误信息、报税等。在视频中，OpenAI联合创始人兼总裁Greg Brockman说了句有点扎心的话：“它并不完美，但你也一样。”

　　OpenAI正通过ChatGPT和API发布GPT-4的文本输入功能，图像输入功能暂未开放。ChatGPT plus订阅者可直接获得有使用上限的GPT-4的试用权，4小时内最多只能发布100条信息。开发者也可以申请GPT-4 API，进入候补名单等待通过。

　　此外，OpenAI还开源了用于自动评估AI模型性能的框架OpenAI Evals，以便开发者更好的评测模型的优缺点，从而指导团队进一步改进模型。

　　如果是随意聊天，你可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时，GPT-4将明显比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。

　　为了了解这两种模型之间的区别，OpenAI在各种基准测试中进行了测试，包括最初为人类设计的模拟考试。他们使用了最新的公开试题（在奥林匹克竞赛和AP自由答题的情况下）或购买 2022-2023年版的模拟考试题。

　　OpenAI没有针对这些考试进行专门训练。在模型训练期间，考试中的少数问题被发现。但OpenAI认为结果具有代表性。详情可参见GPT-4论文（）。

　　OpenAI还在为机器学习模型设计的传统基准测试中评估了GPT-4。GPT-4大大优于现有的大型语言模型以及大多数最先进的（SOTA）模型，其中可能包括基准特定的制作或额外的训练协议：

　　许多现有的机器学习（ML）基准测试都是用英语编写的。为了初步了解它在其他语言中的性能，OpenAI使用Azure Translate将MMLU基准测试（一套涵盖57个主题的14000个多项选择题）翻译成各种语言。

　　在测试的26种语言中的24种中，GPT-4优于GPT-3.5和其他大型语言模型（Chinchilla，PaLM）的英语表现，包括拉脱维亚语、威尔士语、斯瓦希里语等资源匮乏的语言。

　　OpenAI也在内部使用GPT-4，这对支持、销售、内容审核和编程等功能有很大影响。OpenAI还使用它来协助人类评估AI输出，开始了其对齐策略的第二阶段。

　　GPT-4可以接受文本和图像提示，这与纯文本设置并行，允许用户指定任何视觉或语言任务。

　　具体来说，给定由穿插的文本和图像组成的输入，它能够生成自然语言、代码等文本输出。在生成带有文本和照片的文档、图表或屏幕截图等方面，GPT-4展示了与纯文本输入类似的功能。

　　此外，GPT-4还可以使用为纯文本语言模型开发的测试时（test-time）技术进行增强，包括少量标注数据（few-shot）和思维链（CoF，chain-of-thought）提示。图像输入仍处于研究预览阶段，尚未公开。

　　输入一张由三张图片拼成的图，用户输入“这张图有什么奇怪的地方？一张图一张图地描述”，GPT-4会分别对每张图中的内容进行描述，并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口是荒谬的。

　　用户问格鲁吉亚和西亚的平均每日肉类消费量总和是多少，让GPT-4在给答案前提供一个循序渐进的推理，GPT-4也能按需作答。

　　用户问“这张图片有什么不寻常之处”时，GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上在熨衣板上熨烫衣服”。

　　给几张论文的照片，GPT-4可以做总结，也可以对用户指定的图片的内容进行展开解释。

　　让GPT-4解释图中的模因（meme），GPT-4回答说这是个笑话，结合了太空中的地球照片和鸡块这两个不相关的东西。

　　最后一个示例是让GPT-4解释这张漫画，GPT-4认为它讽刺了统计学习和神经网络在提高模型性能方面的差异。

　　OpenAI通过在一套狭窄的标准学术视觉基准上评估GPT-4的性能来预览。但这些数字并不能完全代表它的能力，因为OpenAI不断发现该模型能够处理的新的和令人兴奋的任务。

　　OpenAI计划很快发布进一步的分析和评估数字，以及对测试时技术影响的彻底调查。

　　此外，OpenAI一直在研究其关于定义AI行为的文章中概述计划的各方面，包括可操纵性。与拥有固定冗长、语调、风格的ChatGPT不同，开发者（很快还有ChatGPT用户）现可通过在“系统”消息中描述这些方向来规定他们的AI的风格和任务。

　　系统消息（system messages）允许API用户在一定范围内自定义用户体验。OpenAI将在这方面继续做改进（特别是知道系统消息是“越狱”当前模型的最简单方法，即对边界的遵守并不完美)，但OpenAI鼓励用户尝试一下，并将想法告知他们。

　　第一个示例是让GPT-4作为一位总是以苏格拉底风格回应的导师，不直接给学生求解某个线性方程组的答案，而是通过将那个问题拆分成更简单的部分，引导学生学会独立思考。

　　第二个示例是让GPT-4变成“莎士比亚的海盗”，忠于自己的个性，可以看到它在多轮对话过程中时刻保持着自己的“人设”。

　　第三个示例是让GPT-4成为一名AI助手，总是用json编写响应输出，然后GPT-4的回答画风就变成了这样：

　　OpenAI称其团队花了6个月的时间，使用对抗性测试程序和从ChatGPT得到的经验教训，对GPT-4进行迭代调整，在真实性、可控制性等方面取得了有史以来最好的结果（仍远非完美）。

　　过去两年里，OpenAI重建了整个深度学习堆栈，并与微软Azure云平台一起为其工作负载从头开始共同设计了一台超级计算机。

　　一年前，OpenAI训练GPT-3.5作为系统的第一次“试运行”，发现并修复了一些错误并改进了其理论基础。结果，GPT-4训练运行（至少对OpenAI而言）前所未有地稳定，成为OpenAI能够提前准确预测其训练性能的第一个大型模型。

　　随着继续专注于可靠的扩展，OpenAI的目标是完善其方法，以帮助自身越来越多地提前预测和准备未来的能力。OpenAI认为这对安全至关重要。

　　与以前的GPT模型一样，GPT-4基础模型经过训练可以预测文档中的下一个单词，并且使用公开可用的数据（例如互联网数据）以及OpenAI已获得许可的数据进行训练。这些数据是网络规模的数据语料库，包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述，并代表各种各样的意识形态和想法。

　　因此，当有问题提示时，基础模型能以多种方式进行响应，这些方式可能与用户意图相去甚远。为了使其与护栏（guardrails）内的用户意图保持一致，OpenAI使用人类反馈强化学习（RLHF）对模型行为进行微调。

　　需注意的是，模型的能力似乎主要来自预训练过程——RLHF并不会提高考试成绩（如果不积极努力，它实际上会降低考试成绩）。但是模型的控制来自训练后的过程——基础模型需要快速的工程设计来知道它应该回答问题。

　　最重要的是，它仍然不完全可靠（存在事实性“幻觉”并出现推理错误）。在使用语言模型输出时应格外小心，特别是在高风险上下文中，使用符合特定用例需求的确切协议（例如人工审查、附加上下文的基础或完全避免高风险使用）。

　　不过，GPT-4相对于以前的模型（它们本身在每次迭代中都在改进）显著减少了幻觉。在OpenAI的内部对抗性线%。

　　OpenAI在TruthfulQA等外部基准测试上取得了进展，它测试了模型将事实与对抗性选择的一组错误陈述分开的能力。这些问题与事实不正确的答案相匹配，这些答案在统计上很有吸引力。

　　GPT-4基本模型在这项任务上只比GPT-3.5稍微好一点；但在RLHF训练（应用与GPT-3.5相同的过程）后，存在很大的差距。

　　检查下面的一些例子，GPT-4拒绝选择常见的谚语（你教不了老狗新技能，即“年老难学艺”），但它仍然会遗漏一些微妙的细节（埃尔维斯·普雷斯利不是演员之子）。

　　GPT-4普遍缺乏对绝大部分数据中断后（2021年9月）发生的事件的了解，也没有从经验中吸取教训。它有时会犯一些简单的推理错误，这些错误似乎与跨多个领域的能力不相称，或者在接受用户明显的虚假陈述时过于轻信。

　　GPT-4也可能自信地在其预测中犯错，在可能出错时没有仔细检查工作。有趣的是，基础预训练模型经过高度校准（它对答案的预测置信度通常与正确概率相匹配）。然而，通过OpenAI目前的后训练过程，校准减少了。

　　OpenAI一直在对GPT-4进行迭代，以使其从训练开始就更安全、更一致。其工作包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监控和执行。

　　GPT-4会带来与之前模型类似的风险，例如生成有害建议、错误代码或不准确信息。同时GPT-4的附加功能会带来新的风险面。

　　为了了解这些风险的程度，OpenAI聘请了50多位来自AI对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试。他们的发现使OpenAI能够在需要专业知识进行评估的高风险领域测试模型行为。这些专家的反馈和数据用于模型改进。

　　GPT-4在RLHF训练期间加入了一个额外的安全奖励信号，通过训练模型拒绝对此类内容的请求来减少有害输出。奖励由GPT-4零样本分类器提供，该分类器根据安全相关提示判断安全边界和完成方式。为了防止模型拒绝有效请求，OpenAI从各种来源收集了多样化的数据集，并在允许和不允许的类别上应用安全奖励信号（具有正值或负值）。

　　与GPT-3.5相比，其缓解措施显著改善了GPT-4的许多安全特性，已将模型响应禁止内容请求的可能性降低了82%，并且GPT-4根据OpenAI的政策响应敏感请求（如医疗建议和自我伤害）的频率提高了29%。

　　总的来说，OpenAI的模型级干预提高了引发不良行为的难度，但依然无法做到完全规避。OpenAI强调目前需用部署时安全技术（如监控滥用）来补充这些限制。

　　GPT-4和后续模型有可能以有益和有害的方式对社会产生重大影响。OpenAI正在与外部研究人员合作，以改进理解和评估潜在影响的方式，以及对未来系统中可能出现的危险功能进行评估，并将很快分享更多关于GPT-4和其他AI系统的潜在社会和经济影响的想法。

　　GPT-4项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是，对于像GPT-4这样的非常大的训练运行，进行广泛的特定于模型的调整是不可行的。OpenAI开发的基础设施和优化在多个尺度上具有非常可预测的行为。

　　为了验证这种可扩展性，OpenAI通过从使用相同方法训练但计算量减少到原来的1/10000的模型进行推断，准确预测了GPT-4在其内部代码库（不属于训练集）上的最终损失：

　　现在OpenAI可以准确地预测其在训练期间优化的指标（损失），开始开发方法来预测更多可解释的指标，例如成功预测了HumanEval数据集子集的通过率，从计算量减少至原来的1/1000的模型推断：

　　有些能力仍难以预测。例如Inverse Scaling Prize是一项竞赛，目的是寻找随着模型计算量的增加而变得更糟的度量指标，而hindsight neglect是获胜者之一。就像最近的另一个结果一样，GPT-4 扭转了趋势：

　　OpenAI认为，准确预测未来的机器学习能力是安全的重要组成部分，但相对于其潜在影响而言，它并没有得到足够的重视。OpenAI正在加大力度开发方法，为社会提供更好的未来系统预期指导，并希望这成为该领域的共同目标。

　　OpenAI正在开源其软件框架OpenAI Evals，用于创建和运行基准测试以评估GPT-4等模型，同时逐个样本地检查它们的性能。

　　OpenAI使用Evals来指导其模型的开发，其用户可以应用该框架来跟踪模型版本（现在将定期发布）的性能和不断发展的产品集成。例如Stripe 使用Evals来补充他们的人工评估，以衡量其基于GPT的文档工具的准确性。

　　因为代码都是开源的，所以Evals支持编写新的类来实现自定义评估逻辑。但根据OpenAI的经验，许多基准测试都遵循少数“模板”之一，所以他们也囊括了内部最有用的模板（包括“模型分级评估”的模板——OpenAI发现GPT-4在检查自己的工作方面惊人地强大）。通常构建新eval最有效的方法是实例化这些模板之一，并提供数据。

　　OpenAI希望Evals成为一种共享和众包基准测试的工具，代表最广泛的故障模式和困难任务。作为示例，OpenAI创建了一个逻辑难题eval，其中包含十个GPT-4失败的提示。Evals也兼容现有的基准测试；OpenAI已有一些实现学术基准的笔记本和一些集成CoQA（小子集）的变体作示例。

　　OpenAI邀请每个人都使用Evals来测试其模型，提交最有趣的示例，给与贡献、问题和反馈。

　　GPT-4是OpenAI在扩展深度学习道路上的最新里程碑。OpenAI期待GPT-4成为一个有价值的工具，通过为许多应用提供动力来改善生活。

　　正如OpenAI所言，前方还有很多工作要做，这需要通过社区在模型之上构建、探索和贡献的集体努力，来持续将模型变得越来越强。

　　（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

　　原标题：《震撼！GPT-4来了，支持多模态，全面吊打ChatGPT，完虐标准化考试》

电脑主板录入：admin 责任编辑：admin
	上一个电脑主板：大型国有银行采购摩尔线程国产显卡！造型首次公开：VGA古董接口下一个电脑主板：没有了

　栏目文章

GPT-4来了支持多模态全面吊打ChatGPT完虐标准… (03-18)	大型国有银行采购摩尔线程国产显卡！造型首次… (03-18)
性价比逆天！12代酷睿i5-12400主机低至2169元 (03-18)	用的人多也落伍 VGA接口将会惨遭清理？（五） (03-18)
i7-13700KF配什么主板有没有集成显卡？ (03-17)	RTX 4060上市时间是什么时候 40系显卡需要换主… (03-17)
RTX 4050显卡是pcie50吗 40显卡适合玩游戏吗？ (03-17)	天选新装备华硕校园邀你共同开启主板种草计划 (03-17)
华硕吹雪主板新成员将至破次元战力一触即发 (03-17)	还只支持DDR4？这款B760主板已能上DDR5 8000M… (03-17)
这个接口中高端主板都有但却用得少真有用吗？ (03-17)	RTX 4060上市时间是什么时候显卡是什么水平档… (03-17)
RTX 4050显卡玩游戏够吗相当于30系什么显卡？ (03-17)	RTX 4050显卡玩游戏够吗 4050显卡多久才能上市… (03-17)
DIY小技巧13：USB接口协议快速分辨 (03-16)	苹果笔记本Macbook pro系列主板上的屏线接口更… (03-16)
技嘉小雕B760M主板拆解：做工用料供电扩展同级… (03-16)	电脑主机后面的线要怎么接 (03-16)
组装电脑主机后面的线怎么插要图 (03-16)	2023年选主板不迷路：各家主板型号定位详解之… (03-15)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！