返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 在RTX 4090被限制的时代下让…
 双十一值得选择的大尺寸轻薄…
 Redis 排障:你永远不知道告…
 GPS受RGB屏幕干扰严重该如何…
 雷克萨斯LM350七座国六现车无…
 雷克萨斯LM350国六现车港口售…
 全新雷克萨斯LM350四座六座七…
 全新雷克萨斯LM商务车支持公…
 AR笔记本电脑: 使屏幕随时取…
 IDC:上半年消费市场笔记本电…
 豪威集团推出业界首款用于笔…
 中国电信中兴联合推出!5G云…
 中科院公布材料学大模型零一…
 研祥智能COM-1505-FT工控主板…
 双11买显卡不后悔华硕BTF背插…
 芯瞳荣获-2023年度硬核中国芯…
 路虎发现4改装航空座椅 专车…
 双11买显卡不后悔华硕BTF背插…
 信息资讯中心-益盟操盘手
 行业第一!天玑9300内存硬件…
 2000多元大内存手机推荐16GB…
 澜起科技:DDR5内存接口芯片…
 内存、闪存大涨价要来了!明…
 一夜之间大量下架涨价数千元…
 英伟达显卡被禁之后中国产业…
 RTX 4090上市时间是什么时候…
 12万张英伟达AI显卡将上线?…
 全新AMD Radeon PRO工作站显…
 农发行乌拉特前旗支行开展冬…
 开关电源测试ate要检测哪些项…
 航空工业计算所:六十五载 初…
 蚂蚁庄园教育:笔记本电脑插…
 依顿电子获8家机构调研:目前…
 笔记本的存储救星奥睿科J20固…
 京东1111全周期电脑组件受用…
 来自希捷的双十一提醒:本年…
 来自希捷的双十一提醒:本年…
 追求飞快的感觉ORICO J-20 S…
 电脑键盘指示灯不亮怎么回事…
 显示器品牌-电脑显示器什么牌…
 三安光电:公司Mini LED产品…
 杉杉股份:终端广泛应用于电…
 电脑显示器哪个牌子好?电脑…
 笔记本cpu排名天梯图笔记本c…
 笔记本cpu排行天梯图知乎笔记…
 更简洁的操作 成就更智能的烹…
 进博会“亚洲首展”!博世ac…
 雷曼光电发布全球首款PM驱动…
 HFS加持 颜艺双升 TCL华星供…
 三星推出新款S49CG934游戏显…
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑内存 >> 正文
高级搜索
在RTX 4090被限制的时代下让大模型使用RLHF更高效的方法来了
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/11/14 19:31:40 | 【字体:

  火影忍者漫画648话该论文介绍了一种名为 ReMax 的新算法,专为基于人类反馈的强化学习(RLHF)而设计。ReMax 在计算效率(约减少 50% 的 GPU 内存和 2 倍的训练速度提升)和实现简易性(6 行代码)上超越了最常用的算法 PPO,且性能没有损失。

  今年,以 ChatGPT 为首的大语言模型(Large Language Models, LLMs) 在各个方面大放光彩,由此引发了学术界和商业界对 GPU 等计算资源的需求剧增。

  近日,美国政府宣布限制英伟达 GPU 产品 H100, H800等进入中国市场。这项条款无疑为中国发展大语言模型(LLMs) 和人工智能增添了很多阻力。减小 RLHF 的训练成本(GPU 消耗和训练时间)对 LLMs 的发展非常重要。

  我们发现 RLHF 的主要计算开销来源于第三阶段(奖励最大化)。这一点可以从 DeepSpeed-Chat 的报告里看到,第三阶段的训练时间是前两个阶段时间总和的 4 倍以上。而且,根据我们的经验,第三阶段的 GPU 消耗是前两阶段的 2 倍以上。

  我们发现该阶段的计算瓶颈主要来源用来目前使用的 RL 算法:PPO 算法。PPO 算法是用来解决普适 RL 问题的最流行的算法之一,有非常多成功的案例。我们在这里省略 PPO 的技术细节,着重介绍 PPO 的一个关键组件:价值模型 (The value model)。价值模型是一个需要被训练的神经网络,能够有效地估计给定策略的预期长期回报。尽管价值模型为 PPO 带来了良好的性能,但它在 RLHF 任务中也引入了沉重的计算开销。例如,为了更好地与人类偏好对齐,PPO 中的价值模型通常与 LLM 大小相似,这使存储需求翻了一番。此外,价值模型的训练需要存储其梯度、激活和优化器状态,这进一步增加了近 4 倍的 GPU 存储需求。总结来说,PPO 和它的价值模型(以及其训练相关部分)已成为 RLHF 奖励最大化阶段的主要计算障碍。

  我们得出的答案是肯定的。这是因为 PPO 和价值模型是为通用 RL 问题设计的,而不是针对像 RLHF 这样的特定问题(RLHF 只是 RL 问题中的一个子类)。有趣的是,我们发现 RLHF 具有三个在 PPO 中未使用的重要结构:

  1. 快速模拟(fast simulation): 轨迹(即 LLM 中的整个响应)可以在很短的时间内迅速执行(小于 1s),几乎没有时间开销。

  2. 确定性转移(deterministic transitions):上下文确定性依赖于过去的标记和当前生成的标记。

  通过这三个观察,我们不难发现 value model 在 RLHF 的问题中是 “冗余” 的。这是因为 value model 设计的初衷是为了随机环境下的样本效率和慢仿真环境的计算效率。然而这在 RLHF 中是不需要的。

  ReMax 算法基于一个古老的策略梯度算法 REINFORCE,REINFORCE 使用的策略梯度估计器如下图所示:

  REINFORCE可以在计算层面利用好RLHF任务的三个性质,因为REINFORCE直接利用一个响应的奖励来进行优化,不需要像一般的RL算法一样需要知道中间步骤的奖励和值函数。然而,由于策略的随机性, REINFORCE梯度估计器存在高方差问题(在Richard Sutton的RL书里有指出),这一问题会影响模型训练的有效性,因此REINFORCE在RLHF任务中的效果较差,见下面两张图片。

  为解决这一问题,ReMax 使用贪婪生成的回答(greedy response)的奖励作为基准值(baseline value)来构建梯度估计器,具体公式如下:

  我们证明了 ReMax 使用的梯度估计器仍然是真实策略梯度的一个无偏估计器。

  ReMax 能理论上节省约 50% 内存。相比于 PPO,ReMax 成功移除了所有和价值模型相关的部件,大大减小了内存开销。通过计算,我们发现相比于 PPO,ReMax 能节省约 50% 内存。

  ReMax 能节省近 50% 的 GPU 内存。ReMax 移除掉了价值模型和它的训练部分(梯度,优化器,激活值),从而极大节省了 GPU 内存需求。考虑 Llama2-7B,PPO 无法在 8xA100-40GB 的机器上跑起来,但是 ReMax 可以。

  ReMax 能加快 2 倍的训练速度。在每一轮中,ReMax 调用 2 次生成(generation),1 次反向传播(backpropagation);而 PPO 使用 1 次生成,2 次反向传播。对于大模型而言,生成会比反向传播的时间小,从而 ReMax 可以实现理论上接近 2 倍的训练加速。

  除了 RLHF 任务,作为一个 RL 算法,ReMax 对于经典的 NLP 任务也适用。本文考虑了在 GPT-2 上进行一个电影评论续写的任务,这里奖励模型不是从对比数据学习的。实验观测到,ReMax 可以实现 2.2 倍的训练加速和 60% 的 GPU 内存节省。

  在经典的 NLP 任务(文本续写)上,ReMax 相比 PPO 实现了 2.2 倍加速

  更简单的实现: ReMax 的核心部分 6 行代码即可实现。这与 PPO 中的众多复杂的代码构建块形成鲜明对比。

  更少的内存开销:由于移除了价值模型及其全部训练组件,相比 PPO,ReMax 节省了大约 50% 的 GPU 内存。

  更少的超参数: ReMax 成功移除了所有和价值模型训练相关的超参数,其中包括:GAE 系数、价值模型学习率、重要性采样时期、小批量(mini-batch)大小。这些超参数往往对问题敏感且难以调整。我们相信 ReMax 对 RLHF 研究者更加友好。

  更快的训练速度:在 GPT2(137M)的实验中,我们观察到 ReMax 在真实运行时间方面相比于 PPO 有 2.2 倍的加速。加速来自 ReMax 每次迭代中较少的计算开销。通过我们的计算,该加速优势在更大的模型上也能维持(假设在足够大的内存下 PPO 可以被成功部署)。

  优异的性能:如前所示,ReMax在中等规模实验中与PPO实现了相当的性能,并且有时甚至超越它(可能是由于 ReMax 更容易找到合适的超参数)。我们推测这种良好的性能可以拓展到更大规模的模型中。

电脑内存录入:admin    责任编辑:admin 
  • 上一个电脑内存:

  • 下一个电脑内存: 没有了
  •  
     栏目文章
    普通电脑内存 在RTX 4090被限制的时代下让大模型使用RLHF更… (11-14)
    普通电脑内存 双十一值得选择的大尺寸轻薄本——惠普星Book… (11-14)
    普通电脑内存 Redis 排障:你永远不知道告警和下班谁先到来… (11-14)
    普通电脑内存 信息资讯中心-益盟操盘手 (11-14)
    普通电脑内存 行业第一!天玑9300内存硬件压缩技术大幅降低… (11-14)
    普通电脑内存 2000多元大内存手机推荐16GB+1TB配置给力“闭… (11-14)
    普通电脑内存 澜起科技:DDR5内存接口芯片的子代迭代已正式… (11-14)
    普通电脑内存 内存、闪存大涨价要来了!明年将出现缺货潮 (11-14)
    普通电脑内存 苹果发布 29 分钟视频:详解 A17 Pro 和 M3 系… (11-12)
    普通电脑内存 单条128GB DDR5-8000内存诞生!1TB也是小意思 (11-10)
    普通电脑内存 原神pc端内存多大 原神在电脑上需要占用多少内… (11-10)
    普通电脑内存 BB鸭 苹果高管解释黄金内存;董明珠首次回应孟… (11-10)
    普通电脑内存 脑洞非常大找猫怎么过-找猫通关攻略 (11-10)
    普通电脑内存 遥遥领先?苹果被批电脑内存又少又贵老总却老… (11-10)
    普通电脑内存 ram英语ram英语怎么读 (11-09)
    普通电脑内存 中信建投点评OpenAI首届开发者大会:利好相关… (11-09)
    普通电脑内存 xs运行内存是多少 (11-09)
    普通电脑内存 基带ram是运行内存的意思吗 (11-09)
    普通电脑内存 运行状态英文(运行状态) (11-09)
    普通电脑内存 苹果高管回应“黄金内存”质疑:MacBook Pro的… (11-07)