返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 GPT-4来了支持多模态全面吊打…
 大型国有银行采购摩尔线程国…
 性价比逆天!12代酷睿i5-124…
 用的人多也落伍 VGA接口将会…
 ai学习机科大讯飞t20pro怎么…
 手机内存是什么跟手机储存有…
 那个存储空间是什么意思啊 我…
 小白用户必修课 购机过程必备…
 什么手机能用个三四年不卡顿…
 4080显卡需要多少w电源 显卡…
 计算机显卡和声卡的发展历程…
 40系显卡先出什么型号 40系显…
 摩尔线程三款显卡成功兼容统…
 2020-26年中国显卡行业全景调…
 台式机电源品牌热卖款排行榜…
 台式机电源十大品牌排名台式…
 台式机电源品牌排行榜前十
 高价快速上门回收手机笔记本…
 台式机电源哪个牌子好推荐台…
 【服务器数据恢复】IBM服务器…
 电脑硬盘有几种 接口有几种?
 男子用电动滑板车藏 84 个固…
 新起点新飞跃 铠侠EXCERIA固…
 百亿补贴!2T固态硬盘569元到…
 新买电脑显示器出问题 惠普维…
 惠普战66六代锐龙版上市 389…
 商务人士必抢的宝藏神机 惠普…
 即使在保修期 惠普打印机上门…
 战66六代锐龙版新品7000系列…
 网上如何销售产品建立销售渠…
 ST中基:公司已成立销售公司…
 艾格农业网首页
 答疑支招篇:中小企业新产品…
 品牌应基于全域思维设计渠道…
 千元神器!科睿P6 4K显示器3…
 随时随地实现大屏自由!16英…
 比起游戏电视用显示器打游戏…
 上海彰峰电子科技有限公司
 十大显示屏品牌排行榜 电脑显…
 怎么调节风扇转速小编教你电…
 bios调节风扇转速小编教你怎…
 电脑cpu风扇转速达到960(台式…
 电脑更改cpu风扇转速(cpu风扇…
 电脑的风扇转速一般应该是多…
 i7-13700KF配什么主板 有没有…
 RTX 4060上市时间是什么时候…
 RTX 4050显卡是pcie50吗 40显…
 天选新装备 华硕校园邀你共同…
 华硕吹雪主板新成员将至 破次…
 Steam Deck可以插SD内存卡吗…
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑主板 >> 正文
高级搜索
GPT-4来了支持多模态全面吊打ChatGPT完虐标准化考试
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/3/18 10:34:22 | 【字体:

  练宝专家智东西3月15日消息,今日凌晨,万众瞩目的大型多模态模型GPT-4正式发布!

  OpenAI发文称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已做到人类水平的表现。

  它强大到什么程度呢?输入一张手绘草图,GPT-4能直接生成最终设计的网页代码。

  它以高分通过各种标准化考试:SAT拿下700分,GRE几乎满分,逻辑能力吊打GPT-3.5。

  GPT-4在高级推理能力上超越ChatGPT。在律师模拟考试中,ChatGPT背后的GPT-3.5排名在倒数10%左右,而GPT-4考到了前10%左右。

  GPT-4的长度限制提升到32K tokens,即能处理超过25000个单词的文本,并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。

  OpenAI还贴心地发布了GPT-4开发者视频,手把手教你生成代码、检查错误信息、报税等。在视频中,OpenAI联合创始人兼总裁Greg Brockman说了句有点扎心的话:“它并不完美,但你也一样。”

  OpenAI正通过ChatGPT和API发布GPT-4的文本输入功能,图像输入功能暂未开放。ChatGPT plus订阅者可直接获得有使用上限的GPT-4的试用权,4小时内最多只能发布100条信息。开发者也可以申请GPT-4 API,进入候补名单等待通过。

  此外,OpenAI还开源了用于自动评估AI模型性能的框架OpenAI Evals,以便开发者更好的评测模型的优缺点,从而指导团队进一步改进模型。

  如果是随意聊天,你可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时,GPT-4将明显比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。

  为了了解这两种模型之间的区别,OpenAI在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。他们使用了最新的公开试题(在奥林匹克竞赛和AP自由答题的情况下)或购买 2022-2023年版的模拟考试题。

  OpenAI没有针对这些考试进行专门训练。在模型训练期间,考试中的少数问题被发现。但OpenAI认为结果具有代表性。详情可参见GPT-4论文()。

  OpenAI还在为机器学习模型设计的传统基准测试中评估了GPT-4。GPT-4大大优于现有的大型语言模型以及大多数最先进的(SOTA)模型,其中可能包括基准特定的制作或额外的训练协议:

  许多现有的机器学习(ML)基准测试都是用英语编写的。为了初步了解它在其他语言中的性能,OpenAI使用Azure Translate将MMLU基准测试(一套涵盖57个主题的14000个多项选择题)翻译成各种语言。

  在测试的26种语言中的24种中,GPT-4优于GPT-3.5和其他大型语言模型(Chinchilla,PaLM)的英语表现,包括拉脱维亚语、威尔士语、斯瓦希里语等资源匮乏的语言。

  OpenAI也在内部使用GPT-4,这对支持、销售、内容审核和编程等功能有很大影响。OpenAI还使用它来协助人类评估AI输出,开始了其对齐策略的第二阶段。

  GPT-4可以接受文本和图像提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。

  具体来说,给定由穿插的文本和图像组成的输入,它能够生成自然语言、代码等文本输出。在生成带有文本和照片的文档、图表或屏幕截图等方面,GPT-4展示了与纯文本输入类似的功能。

  此外,GPT-4还可以使用为纯文本语言模型开发的测试时(test-time)技术进行增强,包括少量标注数据(few-shot)和思维链(CoF,chain-of-thought)提示。图像输入仍处于研究预览阶段,尚未公开。

  输入一张由三张图片拼成的图,用户输入“这张图有什么奇怪的地方?一张图一张图地描述”,GPT-4会分别对每张图中的内容进行描述,并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口是荒谬的。

  用户问格鲁吉亚和西亚的平均每日肉类消费量总和是多少,让GPT-4在给答案前提供一个循序渐进的推理,GPT-4也能按需作答。

  用户问“这张图片有什么不寻常之处”时,GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上在熨衣板上熨烫衣服”。

  给几张论文的照片,GPT-4可以做总结,也可以对用户指定的图片的内容进行展开解释。

  让GPT-4解释图中的模因(meme),GPT-4回答说这是个笑话,结合了太空中的地球照片和鸡块这两个不相关的东西。

  最后一个示例是让GPT-4解释这张漫画,GPT-4认为它讽刺了统计学习和神经网络在提高模型性能方面的差异。

  OpenAI通过在一套狭窄的标准学术视觉基准上评估GPT-4的性能来预览。但这些数字并不能完全代表它的能力,因为OpenAI不断发现该模型能够处理的新的和令人兴奋的任务。

  OpenAI计划很快发布进一步的分析和评估数字,以及对测试时技术影响的彻底调查。

  此外,OpenAI一直在研究其关于定义AI行为的文章中概述计划的各方面,包括可操纵性。与拥有固定冗长、语调、风格的ChatGPT不同,开发者(很快还有ChatGPT用户)现可通过在“系统”消息中描述这些方向来规定他们的AI的风格和任务。

  系统消息(system messages)允许API用户在一定范围内自定义用户体验。OpenAI将在这方面继续做改进(特别是知道系统消息是“越狱”当前模型的最简单方法,即对边界的遵守并不完美),但OpenAI鼓励用户尝试一下,并将想法告知他们。

  第一个示例是让GPT-4作为一位总是以苏格拉底风格回应的导师,不直接给学生求解某个线性方程组的答案,而是通过将那个问题拆分成更简单的部分,引导学生学会独立思考。

  第二个示例是让GPT-4变成“莎士比亚的海盗”,忠于自己的个性,可以看到它在多轮对话过程中时刻保持着自己的“人设”。

  第三个示例是让GPT-4成为一名AI助手,总是用json编写响应输出,然后GPT-4的回答画风就变成了这样:

  OpenAI称其团队花了6个月的时间,使用对抗性测试程序和从ChatGPT得到的经验教训,对GPT-4进行迭代调整,在真实性、可控制性等方面取得了有史以来最好的结果(仍远非完美)。

  过去两年里,OpenAI重建了整个深度学习堆栈,并与微软Azure云平台一起为其工作负载从头开始共同设计了一台超级计算机。

  一年前,OpenAI训练GPT-3.5作为系统的第一次“试运行”,发现并修复了一些错误并改进了其理论基础。结果,GPT-4训练运行(至少对OpenAI而言)前所未有地稳定,成为OpenAI能够提前准确预测其训练性能的第一个大型模型。

  随着继续专注于可靠的扩展,OpenAI的目标是完善其方法,以帮助自身越来越多地提前预测和准备未来的能力。OpenAI认为这对安全至关重要。

  与以前的GPT模型一样,GPT-4基础模型经过训练可以预测文档中的下一个单词,并且使用公开可用的数据(例如互联网数据)以及OpenAI已获得许可的数据进行训练。这些数据是网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法。

  因此,当有问题提示时,基础模型能以多种方式进行响应,这些方式可能与用户意图相去甚远。为了使其与护栏(guardrails)内的用户意图保持一致,OpenAI使用人类反馈强化学习(RLHF)对模型行为进行微调。

  需注意的是,模型的能力似乎主要来自预训练过程——RLHF并不会提高考试成绩(如果不积极努力,它实际上会降低考试成绩)。但是模型的控制来自训练后的过程——基础模型需要快速的工程设计来知道它应该回答问题。

  最重要的是,它仍然不完全可靠(存在事实性“幻觉”并出现推理错误)。在使用语言模型输出时应格外小心,特别是在高风险上下文中,使用符合特定用例需求的确切协议(例如人工审查、附加上下文的基础或完全避免高风险使用) 。

  不过,GPT-4相对于以前的模型(它们本身在每次迭代中都在改进)显著减少了幻觉。在OpenAI的内部对抗性线%。

  OpenAI在TruthfulQA等外部基准测试上取得了进展,它测试了模型将事实与对抗性选择的一组错误陈述分开的能力。这些问题与事实不正确的答案相匹配,这些答案在统计上很有吸引力。

  GPT-4基本模型在这项任务上只比GPT-3.5稍微好一点;但在RLHF训练(应用与GPT-3.5相同的过程)后,存在很大的差距。

  检查下面的一些例子,GPT-4拒绝选择常见的谚语(你教不了老狗新技能,即“年老难学艺”),但它仍然会遗漏一些微妙的细节(埃尔维斯·普雷斯利不是演员之子)。

  GPT-4普遍缺乏对绝大部分数据中断后(2021年9月)发生的事件的了解,也没有从经验中吸取教训。它有时会犯一些简单的推理错误,这些错误似乎与跨多个领域的能力不相称,或者在接受用户明显的虚假陈述时过于轻信。

  GPT-4也可能自信地在其预测中犯错,在可能出错时没有仔细检查工作。有趣的是,基础预训练模型经过高度校准(它对答案的预测置信度通常与正确概率相匹配)。然而,通过OpenAI目前的后训练过程,校准减少了。

  OpenAI一直在对GPT-4进行迭代,以使其从训练开始就更安全、更一致。其工作包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监控和执行。

  GPT-4会带来与之前模型类似的风险,例如生成有害建议、错误代码或不准确信息。同时GPT-4的附加功能会带来新的风险面。

  为了了解这些风险的程度,OpenAI聘请了50多位来自AI对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试。他们的发现使OpenAI能够在需要专业知识进行评估的高风险领域测试模型行为。这些专家的反馈和数据用于模型改进。

  GPT-4在RLHF训练期间加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出。奖励由GPT-4零样本分类器提供,该分类器根据安全相关提示判断安全边界和完成方式。为了防止模型拒绝有效请求,OpenAI从各种来源收集了多样化的数据集,并在允许和不允许的类别上应用安全奖励信号(具有正值或负值)。

  与GPT-3.5相比,其缓解措施显著改善了GPT-4的许多安全特性,已将模型响应禁止内容请求的可能性降低了82%,并且GPT-4根据OpenAI的政策响应敏感请求(如医疗建议和自我伤害)的频率提高了29%。

  总的来说,OpenAI的模型级干预提高了引发不良行为的难度,但依然无法做到完全规避。OpenAI强调目前需用部署时安全技术(如监控滥用)来补充这些限制。

  GPT-4和后续模型有可能以有益和有害的方式对社会产生重大影响。OpenAI正在与外部研究人员合作,以改进理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估,并将很快分享更多关于GPT-4和其他AI系统的潜在社会和经济影响的想法。

  GPT-4项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是,对于像GPT-4这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。OpenAI开发的基础设施和优化在多个尺度上具有非常可预测的行为。

  为了验证这种可扩展性,OpenAI通过从使用相同方法训练但计算量减少到原来的1/10000的模型进行推断,准确预测了GPT-4在其内部代码库(不属于训练集)上的最终损失:

  现在OpenAI可以准确地预测其在训练期间优化的指标(损失),开始开发方法来预测更多可解释的指标,例如成功预测了HumanEval数据集子集的通过率,从计算量减少至原来的1/1000的模型推断:

  有些能力仍难以预测。例如Inverse Scaling Prize是一项竞赛,目的是寻找随着模型计算量的增加而变得更糟的度量指标,而hindsight neglect是获胜者之一。就像最近的另一个结果一样,GPT-4 扭转了趋势:

  OpenAI认为,准确预测未来的机器学习能力是安全的重要组成部分,但相对于其潜在影响而言,它并没有得到足够的重视。OpenAI正在加大力度开发方法,为社会提供更好的未来系统预期指导,并希望这成为该领域的共同目标。

  OpenAI正在开源其软件框架OpenAI Evals,用于创建和运行基准测试以评估GPT-4等模型,同时逐个样本地检查它们的性能。

  OpenAI使用Evals来指导其模型的开发,其用户可以应用该框架来跟踪模型版本(现在将定期发布)的性能和不断发展的产品集成。例如Stripe 使用Evals来补充他们的人工评估,以衡量其基于GPT的文档工具的准确性。

  因为代码都是开源的,所以Evals支持编写新的类来实现自定义评估逻辑。但根据OpenAI的经验,许多基准测试都遵循少数“模板”之一,所以他们也囊括了内部最有用的模板(包括“模型分级评估”的模板——OpenAI发现GPT-4在检查自己的工作方面惊人地强大)。通常构建新eval最有效的方法是实例化这些模板之一,并提供数据。

  OpenAI希望Evals成为一种共享和众包基准测试的工具,代表最广泛的故障模式和困难任务。作为示例,OpenAI创建了一个逻辑难题eval,其中包含十个GPT-4失败的提示。Evals也兼容现有的基准测试;OpenAI已有一些实现学术基准的笔记本和一些集成CoQA(小子集)的变体作示例。

  OpenAI邀请每个人都使用Evals来测试其模型,提交最有趣的示例,给与贡献、问题和反馈。

  GPT-4是OpenAI在扩展深度学习道路上的最新里程碑。OpenAI期待GPT-4成为一个有价值的工具,通过为许多应用提供动力来改善生活。

  正如OpenAI所言,前方还有很多工作要做,这需要通过社区在模型之上构建、探索和贡献的集体努力,来持续将模型变得越来越强。

  (本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

  原标题:《震撼!GPT-4来了,支持多模态,全面吊打ChatGPT,完虐标准化考试》

电脑主板录入:admin    责任编辑:admin 
  • 上一个电脑主板:

  • 下一个电脑主板: 没有了
  •  
     栏目文章
    普通电脑主板 GPT-4来了支持多模态全面吊打ChatGPT完虐标准… (03-18)
    普通电脑主板 大型国有银行采购摩尔线程国产显卡!造型首次… (03-18)
    普通电脑主板 性价比逆天!12代酷睿i5-12400主机低至2169元 (03-18)
    普通电脑主板 用的人多也落伍 VGA接口将会惨遭清理?(五) (03-18)
    普通电脑主板 i7-13700KF配什么主板 有没有集成显卡? (03-17)
    普通电脑主板 RTX 4060上市时间是什么时候 40系显卡需要换主… (03-17)
    普通电脑主板 RTX 4050显卡是pcie50吗 40显卡适合玩游戏吗? (03-17)
    普通电脑主板 天选新装备 华硕校园邀你共同开启主板种草计划 (03-17)
    普通电脑主板 华硕吹雪主板新成员将至 破次元战力一触即发 (03-17)
    普通电脑主板 还只支持DDR4?这款B760主板已能上DDR5 8000M… (03-17)
    普通电脑主板 这个接口中高端主板都有但却用得少真有用吗? (03-17)
    普通电脑主板 RTX 4060上市时间是什么时候 显卡是什么水平档… (03-17)
    普通电脑主板 RTX 4050显卡玩游戏够吗 相当于30系什么显卡? (03-17)
    普通电脑主板 RTX 4050显卡玩游戏够吗 4050显卡多久才能上市… (03-17)
    普通电脑主板 DIY小技巧13:USB接口协议快速分辨 (03-16)
    普通电脑主板 苹果笔记本Macbook pro系列主板上的屏线接口更… (03-16)
    普通电脑主板 技嘉小雕B760M主板拆解:做工用料供电扩展同级… (03-16)
    普通电脑主板 电脑主机后面的线要怎么接 (03-16)
    普通电脑主板 组装电脑主机后面的线怎么插要图 (03-16)
    普通电脑主板 2023年选主板不迷路:各家主板型号定位详解之… (03-15)