在RTX 4090被限制的时代下让大模型使用RLHF更高效的方法来了

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

在RTX 4090被限制的时代下让…
双十一值得选择的大尺寸轻薄…
Redis 排障：你永远不知道告…
GPS受RGB屏幕干扰严重该如何…
雷克萨斯LM350七座国六现车无…
雷克萨斯LM350国六现车港口售…
全新雷克萨斯LM350四座六座七…
全新雷克萨斯LM商务车支持公…
AR笔记本电脑：使屏幕随时取…
IDC：上半年消费市场笔记本电…
豪威集团推出业界首款用于笔…
中国电信中兴联合推出！5G云…
中科院公布材料学大模型零一…
研祥智能COM-1505-FT工控主板…
双11买显卡不后悔华硕BTF背插…
芯瞳荣获-2023年度硬核中国芯…
路虎发现4改装航空座椅专车…
双11买显卡不后悔华硕BTF背插…
信息资讯中心-益盟操盘手
行业第一！天玑9300内存硬件…
2000多元大内存手机推荐16GB…
澜起科技：DDR5内存接口芯片…
内存、闪存大涨价要来了！明…
一夜之间大量下架涨价数千元…
英伟达显卡被禁之后中国产业…
RTX 4090上市时间是什么时候…
12万张英伟达AI显卡将上线？…
全新AMD Radeon PRO工作站显…
农发行乌拉特前旗支行开展冬…
开关电源测试ate要检测哪些项…
航空工业计算所：六十五载初…
蚂蚁庄园教育：笔记本电脑插…
依顿电子获8家机构调研：目前…
笔记本的存储救星奥睿科J20固…
京东1111全周期电脑组件受用…
来自希捷的双十一提醒：本年…
来自希捷的双十一提醒：本年…
追求飞快的感觉ORICO J-20 S…
电脑键盘指示灯不亮怎么回事…
显示器品牌-电脑显示器什么牌…
三安光电：公司Mini LED产品…
杉杉股份：终端广泛应用于电…
电脑显示器哪个牌子好？电脑…
笔记本cpu排名天梯图笔记本c…
笔记本cpu排行天梯图知乎笔记…
更简洁的操作成就更智能的烹…
进博会“亚洲首展”！博世ac…
雷曼光电发布全球首款PM驱动…
HFS加持颜艺双升 TCL华星供…
三星推出新款S49CG934游戏显…

专题栏目

您现在的位置：电脑评测网 >> 电脑内存 >> 正文

高级搜索

在RTX 4090被限制的时代下让大模型使用RLHF更高效的方法来了

作者：佚名文章来源：本站原创点击数：更新时间：2023/11/14 19:31:40 | 【字体：小大】

　　火影忍者漫画648话该论文介绍了一种名为 ReMax 的新算法，专为基于人类反馈的强化学习（RLHF）而设计。ReMax 在计算效率（约减少 50% 的 GPU 内存和 2 倍的训练速度提升）和实现简易性（6 行代码）上超越了最常用的算法 PPO，且性能没有损失。

　　今年，以 ChatGPT 为首的大语言模型（Large Language Models, LLMs) 在各个方面大放光彩，由此引发了学术界和商业界对 GPU 等计算资源的需求剧增。

　　近日，美国政府宣布限制英伟达 GPU 产品 H100, H800等进入中国市场。这项条款无疑为中国发展大语言模型（LLMs) 和人工智能增添了很多阻力。减小 RLHF 的训练成本（GPU 消耗和训练时间）对 LLMs 的发展非常重要。

　　我们发现 RLHF 的主要计算开销来源于第三阶段（奖励最大化）。这一点可以从 DeepSpeed-Chat 的报告里看到，第三阶段的训练时间是前两个阶段时间总和的 4 倍以上。而且，根据我们的经验，第三阶段的 GPU 消耗是前两阶段的 2 倍以上。

　　我们发现该阶段的计算瓶颈主要来源用来目前使用的 RL 算法：PPO 算法。PPO 算法是用来解决普适 RL 问题的最流行的算法之一，有非常多成功的案例。我们在这里省略 PPO 的技术细节，着重介绍 PPO 的一个关键组件：价值模型 (The value model)。价值模型是一个需要被训练的神经网络，能够有效地估计给定策略的预期长期回报。尽管价值模型为 PPO 带来了良好的性能，但它在 RLHF 任务中也引入了沉重的计算开销。例如，为了更好地与人类偏好对齐，PPO 中的价值模型通常与 LLM 大小相似，这使存储需求翻了一番。此外，价值模型的训练需要存储其梯度、激活和优化器状态，这进一步增加了近 4 倍的 GPU 存储需求。总结来说，PPO 和它的价值模型（以及其训练相关部分）已成为 RLHF 奖励最大化阶段的主要计算障碍。

　　我们得出的答案是肯定的。这是因为 PPO 和价值模型是为通用 RL 问题设计的，而不是针对像 RLHF 这样的特定问题（RLHF 只是 RL 问题中的一个子类）。有趣的是，我们发现 RLHF 具有三个在 PPO 中未使用的重要结构：

　　1. 快速模拟（fast simulation）：轨迹（即 LLM 中的整个响应）可以在很短的时间内迅速执行（小于 1s），几乎没有时间开销。

　　2. 确定性转移（deterministic transitions）：上下文确定性依赖于过去的标记和当前生成的标记。

　　通过这三个观察，我们不难发现 value model 在 RLHF 的问题中是 “冗余” 的。这是因为 value model 设计的初衷是为了随机环境下的样本效率和慢仿真环境的计算效率。然而这在 RLHF 中是不需要的。

　　ReMax 算法基于一个古老的策略梯度算法 REINFORCE，REINFORCE 使用的策略梯度估计器如下图所示：

　　REINFORCE可以在计算层面利用好RLHF任务的三个性质，因为REINFORCE直接利用一个响应的奖励来进行优化，不需要像一般的RL算法一样需要知道中间步骤的奖励和值函数。然而，由于策略的随机性， REINFORCE梯度估计器存在高方差问题（在Richard Sutton的RL书里有指出），这一问题会影响模型训练的有效性，因此REINFORCE在RLHF任务中的效果较差，见下面两张图片。

　　为解决这一问题，ReMax 使用贪婪生成的回答（greedy response）的奖励作为基准值（baseline value）来构建梯度估计器，具体公式如下：

　　我们证明了 ReMax 使用的梯度估计器仍然是真实策略梯度的一个无偏估计器。

　　ReMax 能理论上节省约 50% 内存。相比于 PPO，ReMax 成功移除了所有和价值模型相关的部件，大大减小了内存开销。通过计算，我们发现相比于 PPO，ReMax 能节省约 50% 内存。

　　ReMax 能节省近 50% 的 GPU 内存。ReMax 移除掉了价值模型和它的训练部分（梯度，优化器，激活值），从而极大节省了 GPU 内存需求。考虑 Llama2-7B，PPO 无法在 8xA100-40GB 的机器上跑起来，但是 ReMax 可以。

　　ReMax 能加快 2 倍的训练速度。在每一轮中，ReMax 调用 2 次生成（generation），1 次反向传播（backpropagation）；而 PPO 使用 1 次生成，2 次反向传播。对于大模型而言，生成会比反向传播的时间小，从而 ReMax 可以实现理论上接近 2 倍的训练加速。

　　除了 RLHF 任务，作为一个 RL 算法，ReMax 对于经典的 NLP 任务也适用。本文考虑了在 GPT-2 上进行一个电影评论续写的任务，这里奖励模型不是从对比数据学习的。实验观测到，ReMax 可以实现 2.2 倍的训练加速和 60% 的 GPU 内存节省。

　　在经典的 NLP 任务（文本续写）上，ReMax 相比 PPO 实现了 2.2 倍加速

　　更简单的实现： ReMax 的核心部分 6 行代码即可实现。这与 PPO 中的众多复杂的代码构建块形成鲜明对比。

　　更少的内存开销：由于移除了价值模型及其全部训练组件，相比 PPO，ReMax 节省了大约 50% 的 GPU 内存。

　　更少的超参数: ReMax 成功移除了所有和价值模型训练相关的超参数，其中包括：GAE 系数、价值模型学习率、重要性采样时期、小批量（mini-batch）大小。这些超参数往往对问题敏感且难以调整。我们相信 ReMax 对 RLHF 研究者更加友好。

　　更快的训练速度：在 GPT2（137M）的实验中，我们观察到 ReMax 在真实运行时间方面相比于 PPO 有 2.2 倍的加速。加速来自 ReMax 每次迭代中较少的计算开销。通过我们的计算，该加速优势在更大的模型上也能维持（假设在足够大的内存下 PPO 可以被成功部署）。

　　优异的性能：如前所示，ReMax在中等规模实验中与PPO实现了相当的性能，并且有时甚至超越它（可能是由于 ReMax 更容易找到合适的超参数）。我们推测这种良好的性能可以拓展到更大规模的模型中。

电脑内存录入：admin 责任编辑：admin
	上一个电脑内存：双十一值得选择的大尺寸轻薄本——惠普星Book Pro 16全面测评下一个电脑内存：没有了

　栏目文章

在RTX 4090被限制的时代下让大模型使用RLHF更… (11-14)	双十一值得选择的大尺寸轻薄本——惠普星Book… (11-14)
Redis 排障：你永远不知道告警和下班谁先到来… (11-14)	信息资讯中心-益盟操盘手 (11-14)
行业第一！天玑9300内存硬件压缩技术大幅降低… (11-14)	2000多元大内存手机推荐16GB+1TB配置给力“闭… (11-14)
澜起科技：DDR5内存接口芯片的子代迭代已正式… (11-14)	内存、闪存大涨价要来了！明年将出现缺货潮 (11-14)
苹果发布 29 分钟视频：详解 A17 Pro 和 M3 系… (11-12)	单条128GB DDR5-8000内存诞生！1TB也是小意思 (11-10)
原神pc端内存多大原神在电脑上需要占用多少内… (11-10)	BB鸭苹果高管解释黄金内存；董明珠首次回应孟… (11-10)
脑洞非常大找猫怎么过-找猫通关攻略 (11-10)	遥遥领先？苹果被批电脑内存又少又贵老总却老… (11-10)
ram英语ram英语怎么读 (11-09)	中信建投点评OpenAI首届开发者大会：利好相关… (11-09)
xs运行内存是多少 (11-09)	基带ram是运行内存的意思吗 (11-09)
运行状态英文（运行状态） (11-09)	苹果高管回应“黄金内存”质疑：MacBook Pro的… (11-07)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！