这个团队做了OpenAI没Open的技术让对齐大模型超简单

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

这个团队做了OpenAI没Open的…
铭瑄HD7750终结者1024M的核心…
英伟达RTX 3050 A移动显卡曝…
性能旗舰为什么要配独显背后…
浅析笔记本电脑屏幕闪烁抖动…
Computex 2024：酷冷至尊发布…
适合学生党的千元内小钢炮SA…
Roth MKM：维持
c盘满了怎么清理内存？八个小…
从裸机到700亿参数大模型这里…
平板电脑死机开不了机原因平…
手机cpu价格和品牌介绍
电脑芯片品牌有哪些？十大芯…
台式机主机内部结构台式机主…
田径赛场的跑鞋之争
广州岗顶又一家电脑城结束营…
手机cpu温度过高怎么办手机…
电脑温度过高会怎么样？电脑…
笔记本温度过高怎么办电脑降…
显示器分公司是否生产电脑显…
八亿时空：公司主营业务终端…
聚焦高质量发展丨向“新”提…
技嘉GA-Z77P-D3的电源接口是…
牙膏撕裂者！AMD 16核心旗舰…
CPU核心数越多越好？老司机实…
MATROX G2008M TV
什么最占手机内存空间
内存故障的表现有哪些
GPU凶猛：芯片换主角？
英伟达发布“最强芯片”如何…
vr设备价格是多少
免烧机必备！300元以下双12V…
童鞋们的装机计划！各品牌电…
电的能耗怎么计算
串口硬盘是什么
希捷银河Exos 7E2 1TB 128MB…
售后无忧！固态硬盘质保中TB…
厦门苹果售后维修地址查询
厦门宏碁笔记本电脑售后客服…
低价换屏需谨慎电脑配件要留…
华华手机报价华华手机推荐
昔日广州知名电脑城将撤场？…
广州一知名电脑城8月底撤场网…
cpu正常温度范围与哪些因素…
带屏数显风冷搭配14600K+407…
正常工作温度飙升至95°C！A…
苹果iPhone 16系列爆料汇总：…
开学季如何选择显示器科睿电…
友达全球最大586英寸R1000曲…
“奇袭白虎团”勇士新

专题栏目

您现在的位置：电脑评测网 >> 电脑内存 >> 正文

高级搜索

这个团队做了OpenAI没Open的技术让对齐大模型超简单

作者：佚名文章来源：本站原创点击数：更新时间：2024/7/27 17:07:50 | 【字体：小大】

　　海贼王之风一样的男子随着大型语言模型（LLM）规模不断增大，其性能也在不断提升。尽管如此，LLM 依然面临着一个关键难题：与人类的价值和意图对齐。在解决这一难题方面，一种强大的技术是根据人类反馈的强化学习（RLHF）。

　　但是，随着模型越来越大，RLHF 通常需要维持多个模型以及越来越复杂的学习流程，这又会导致内存和计算资源需求增长。举个例子，近端策略优化（PPO，这是 RLHF 常用的一种算法）需要在训练过程中维持四个模型。

　　由此，当语言模型的参数规模超过 700 亿时，为了训练和协调多个模型，所需的计算资源和调度复杂性会显著增长 —— 这是当前的架构设计难以满足的需求。

　　但是，随着模型参数规模超过 700 亿，在内存有限的 GPU 上，这种调度方法的效率会越来越低。

　　为了解决空间并置的限制，TRL 等一些框架选择在内存使用上做出妥协，其做法包括将 actor 和 critic 模型融合起来或采用低秩适应（LoRA）等技术。但是，这些技术会降低模型性能，而且融合 actor-critic 式架构与备受推崇的实践做法不兼容，即使用奖励模型的权重来初始化 critic 模型的权重。

　　另一种替代方法是使用来自英伟达 Megatron 的张量并行化和管道并行化技术。但是，Megatron 与人们常用的 Hugging Face 软件库不兼容，而适应新模型又需要大量修改源代码，如此就很难使用了。

　　为了轻松实现大规模 RLHF 训练，OpenLLMAI、字节跳动、网易伏羲 AI Lab、阿里巴巴的一个联合团队提出并开源了 OpenRLHF，其中第一作者为 Jian Hu。该框架使用 Ray、vLLM 和 DeepSpeed 对模型调度进行了重新设计，可支持超 700 亿参数的模型的 RLHF 训练，其优势包括简单易用、高性能、实现了分布式 RLHF、集成了 PPO 实现技巧。

　　要为更大的模型执行 RLHF 训练，需要高效地在多台 GPU 上分配至少四个组件模型（actor、critic、奖励、参考）。为什么需要多台 GPU？因为每台 GPU 加速器的内存有限，比如 NVIDIA A100 的内存不到 80GB。OpenRLHF 在模型调度方面创新性地使用了 Ray 来进行模型安放和细粒度的编排。

　　同时，OpenRLHF 还使用了针对推理优化的软件库 vLLM 和针对训练优化的软件库 DeepSpeed；它们都由基于 Ray 的调度器管理。

　　OpenRLHF 能将四个模型分配到多台 GPU 上，而不是将它们并置于同一台 GPU，如图 1 所示。

　　这样的设计很自然就支持在 RLHF 训练过程中使用多个奖励模型，如图 2 所示，并适用于多种算法实现。

　　基于此，算法工程师无需关心底层数据流的细节，就能快速构建多种对齐策略，比如有用性和有害性分离。这样的调度器设计还可使用 Ray 和 DeepSpeed 来实现灵活的模型融合或卸载策略。比如可以融合 actor - 参考或 critic - 奖励模型以节省 GPU 资源。

　　除了能高度定制算法实现这一优点，该调度器还能以最优方式编排 GPU，从而提升整体训练性能。

　　RLHF 算法的性能取决于训练和推理两方面的效率。从分析结果看，主要瓶颈是在 PPO 样本生成阶段（如图 2 所示），这个阶段占到了整体训练时间的 80%。原因是：在生成阶段，自回归解码的复杂度为 O (n^2)，并且也受到内存限制。

　　为了进一步加快样本生成的速度以及支持无法载入到单台 GPU 的更大型 LLM（比如 700 亿参数的模型），OpenRLHF 使用了 vLLM 的张量并行化等先进技术（连续批处理和分页注意力）来执行生成过程，如图 1 所示。

　　在 RLHF 的生成和学习阶段，OpenRLHF 采用了以下技术来获得进一步的提升：

　　将 Adam 优化器状态卸载到 CPU，这能将 GPU 内存解放出来用于较大的推理批量大小，这能提升效率以及避免生成的内存瓶颈。置顶内存和梯度积累，用于降低梯度聚合过程中的 GPU-CPU 通信负载。

　　使用 Flash Attention 2 来加速 Transformer 模型训练。

　　图 2 中另外三个模型使用了 ZeRO 的第 3 阶段（对模型、梯度和优化器进行分片）。OpenRLHF 使用了英伟达 NCCL 和 vLLM 权重加载器来同步 ZeRO 和 vLLM 引擎的权重，确保实现快速又简单的集成。

　　在训练大型语言模型（LLM）时，PPO 等强化学习算法容易不稳定。为了保证稳定，该团队尽力验证了 OpenRLHF 的实现细节。图 2 和图 3 分别给出了一般的推理和学习流程。

　　此外，OpenRLHF 还借助了一些技巧来保证 PPO 实现的训练稳定，包括：

　　为便于用户使用，该团队还为支持的算法提供了一键可用的可训练脚本（详见原论文），并且该脚本与 Hugging Face 软件库完全兼容。下面给出了 Llama2 70B 模型的 RLHF 训练的最低配置：

电脑内存录入：admin 责任编辑：admin
	上一个电脑内存： MATROX G2008M TV 下一个电脑内存：没有了

　栏目文章

这个团队做了OpenAI没Open的技术让对齐大模型… (07-27)	MATROX G2008M TV (07-26)
什么最占手机内存空间 (07-26)	内存故障的表现有哪些 (07-26)
电脑内存条小常识：什么是闪存、什么是内存颗… (07-25)	1G等于1000兆还是等于1024兆？ (07-25)
内存条是ram还是rom (07-25)	Chrome新增内存释放开关：再次优化内存占用问… (07-24)
基于SAP HANA的华为一体机采用英特尔傲腾持久… (07-24)	内存条什么牌子好 (07-24)
如何判断我的电脑是否需要增加虚拟内存？ (07-23)	美光发布全新256GB MRDIMM内存：AMD提出却仅… (07-23)
英特尔Lunar Lake处理器捆绑内存封装PC供应链… (07-23)	笔记本定制版什么意思笔记本标配版和定制版区… (07-21)
和CPU同样重要教你读懂手机之内存篇 (07-21)	内存、运存、闪存如何区分内运闪存介绍【详解… (07-21)
手机恢复出厂设置会怎么样如何恢复出厂设置【… (07-20)	内存买单条16G还是8Gx2？总算是搞懂了 (07-20)
运行内存和机身内存的区别这些知识你知道吗 (07-20)	巧记电路原理图的英文缩写 (07-19)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！