返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 这个团队做了OpenAI没Open的…
 铭瑄HD7750终结者1024M的核心…
 英伟达RTX 3050 A移动显卡曝…
 性能旗舰为什么要配独显 背后…
 浅析笔记本电脑屏幕闪烁抖动…
 Computex 2024:酷冷至尊发布…
 适合学生党的千元内小钢炮SA…
 Roth MKM:维持
 c盘满了怎么清理内存?八个小…
 从裸机到700亿参数大模型这里…
 平板电脑死机开不了机原因 平…
 手机cpu价格和品牌介绍
 电脑芯片品牌有哪些?十大芯…
 台式机主机内部结构 台式机主…
 田径赛场的跑鞋之争
 广州岗顶又一家电脑城结束营…
 手机cpu温度过高怎么办 手机…
 电脑温度过高会怎么样?电脑…
 笔记本温度过高怎么办 电脑降…
 显示器分公司是否生产电脑显…
 八亿时空:公司主营业务终端…
 聚焦高质量发展丨向“新”提…
 技嘉GA-Z77P-D3的电源接口是…
 牙膏撕裂者!AMD 16核心旗舰…
 CPU核心数越多越好?老司机实…
 MATROX G2008M TV
 什么最占手机内存空间
 内存故障的表现有哪些
 GPU凶猛:芯片换主角?
 英伟达发布“最强芯片”如何…
 vr设备价格是多少
 免烧机必备!300元以下双12V…
 童鞋们的装机计划!各品牌电…
 电的能耗怎么计算
 串口硬盘是什么
 希捷银河Exos 7E2 1TB 128MB…
 售后无忧!固态硬盘质保中TB…
 厦门苹果售后维修地址查询
 厦门宏碁笔记本电脑售后客服…
 低价换屏需谨慎电脑配件要留…
 华华手机报价 华华手机推荐
 昔日广州知名电脑城将撤场?…
 广州一知名电脑城8月底撤场网…
 cpu正常温度范围 与哪些因素…
 带屏数显风冷搭配14600K+407…
 正常工作温度飙升至95°C!A…
 苹果iPhone 16系列爆料汇总:…
 开学季如何选择显示器 科睿电…
 友达全球最大586英寸R1000曲…
 “奇袭白虎团”勇士新
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑内存 >> 正文
高级搜索
这个团队做了OpenAI没Open的技术让对齐大模型超简单
作者:佚名 文章来源:本站原创 点击数: 更新时间:2024/7/27 17:07:50 | 【字体:

  海贼王之风一样的男子随着大型语言模型(LLM)规模不断增大,其性能也在不断提升。尽管如此,LLM 依然面临着一个关键难题:与人类的价值和意图对齐。在解决这一难题方面,一种强大的技术是根据人类反馈的强化学习(RLHF)。

  但是,随着模型越来越大,RLHF 通常需要维持多个模型以及越来越复杂的学习流程,这又会导致内存和计算资源需求增长。举个例子,近端策略优化(PPO,这是 RLHF 常用的一种算法)需要在训练过程中维持四个模型。

  由此,当语言模型的参数规模超过 700 亿时,为了训练和协调多个模型,所需的计算资源和调度复杂性会显著增长 —— 这是当前的架构设计难以满足的需求。

  但是,随着模型参数规模超过 700 亿,在内存有限的 GPU 上,这种调度方法的效率会越来越低。

  为了解决空间并置的限制,TRL 等一些框架选择在内存使用上做出妥协,其做法包括将 actor 和 critic 模型融合起来或采用低秩适应(LoRA)等技术。但是,这些技术会降低模型性能,而且融合 actor-critic 式架构与备受推崇的实践做法不兼容,即使用奖励模型的权重来初始化 critic 模型的权重。

  另一种替代方法是使用来自英伟达 Megatron 的张量并行化和管道并行化技术。但是,Megatron 与人们常用的 Hugging Face 软件库不兼容,而适应新模型又需要大量修改源代码,如此就很难使用了。

  为了轻松实现大规模 RLHF 训练,OpenLLMAI、字节跳动、网易伏羲 AI Lab、阿里巴巴的一个联合团队提出并开源了 OpenRLHF,其中第一作者为 Jian Hu。该框架使用 Ray、vLLM 和 DeepSpeed 对模型调度进行了重新设计,可支持超 700 亿参数的模型的 RLHF 训练,其优势包括简单易用、高性能、实现了分布式 RLHF、集成了 PPO 实现技巧。

  要为更大的模型执行 RLHF 训练,需要高效地在多台 GPU 上分配至少四个组件模型(actor、critic、奖励、参考)。为什么需要多台 GPU?因为每台 GPU 加速器的内存有限,比如 NVIDIA A100 的内存不到 80GB。OpenRLHF 在模型调度方面创新性地使用了 Ray 来进行模型安放和细粒度的编排。

  同时,OpenRLHF 还使用了针对推理优化的软件库 vLLM 和针对训练优化的软件库 DeepSpeed;它们都由基于 Ray 的调度器管理。

  OpenRLHF 能将四个模型分配到多台 GPU 上,而不是将它们并置于同一台 GPU,如图 1 所示。

  这样的设计很自然就支持在 RLHF 训练过程中使用多个奖励模型,如图 2 所示,并适用于多种算法实现。

  基于此,算法工程师无需关心底层数据流的细节,就能快速构建多种对齐策略,比如有用性和有害性分离。这样的调度器设计还可使用 Ray 和 DeepSpeed 来实现灵活的模型融合或卸载策略。比如可以融合 actor - 参考或 critic - 奖励模型以节省 GPU 资源。

  除了能高度定制算法实现这一优点,该调度器还能以最优方式编排 GPU,从而提升整体训练性能。

  RLHF 算法的性能取决于训练和推理两方面的效率。从分析结果看,主要瓶颈是在 PPO 样本生成阶段(如图 2 所示),这个阶段占到了整体训练时间的 80%。原因是:在生成阶段,自回归解码的复杂度为 O (n^2),并且也受到内存限制。

  为了进一步加快样本生成的速度以及支持无法载入到单台 GPU 的更大型 LLM(比如 700 亿参数的模型),OpenRLHF 使用了 vLLM 的张量并行化等先进技术(连续批处理和分页注意力)来执行生成过程,如图 1 所示。

  在 RLHF 的生成和学习阶段,OpenRLHF 采用了以下技术来获得进一步的提升:

  将 Adam 优化器状态卸载到 CPU,这能将 GPU 内存解放出来用于较大的推理批量大小,这能提升效率以及避免生成的内存瓶颈。置顶内存和梯度积累,用于降低梯度聚合过程中的 GPU-CPU 通信负载。

  使用 Flash Attention 2 来加速 Transformer 模型训练。

  图 2 中另外三个模型使用了 ZeRO 的第 3 阶段(对模型、梯度和优化器进行分片)。OpenRLHF 使用了英伟达 NCCL 和 vLLM 权重加载器来同步 ZeRO 和 vLLM 引擎的权重,确保实现快速又简单的集成。

  在训练大型语言模型(LLM)时,PPO 等强化学习算法容易不稳定。为了保证稳定,该团队尽力验证了 OpenRLHF 的实现细节。图 2 和图 3 分别给出了一般的推理和学习流程。

  此外,OpenRLHF 还借助了一些技巧来保证 PPO 实现的训练稳定,包括:

  为便于用户使用,该团队还为支持的算法提供了一键可用的可训练脚本(详见原论文),并且该脚本与 Hugging Face 软件库完全兼容。下面给出了 Llama2 70B 模型的 RLHF 训练的最低配置:

电脑内存录入:admin    责任编辑:admin 
  • 上一个电脑内存:

  • 下一个电脑内存: 没有了
  •  
     栏目文章
    普通电脑内存 这个团队做了OpenAI没Open的技术让对齐大模型… (07-27)
    普通电脑内存 MATROX G2008M TV (07-26)
    普通电脑内存 什么最占手机内存空间 (07-26)
    普通电脑内存 内存故障的表现有哪些 (07-26)
    普通电脑内存 电脑内存条小常识:什么是闪存、什么是内存颗… (07-25)
    普通电脑内存 1G等于1000兆还是等于1024兆? (07-25)
    普通电脑内存 内存条是ram还是rom (07-25)
    普通电脑内存 Chrome新增内存释放开关:再次优化内存占用问… (07-24)
    普通电脑内存 基于SAP HANA的华为一体机采用英特尔傲腾持久… (07-24)
    普通电脑内存 内存条什么牌子好 (07-24)
    普通电脑内存 如何判断我的电脑是否需要增加虚拟内存? (07-23)
    普通电脑内存 美光发布全新256GB MRDIMM内存:AMD提出 却仅… (07-23)
    普通电脑内存 英特尔Lunar Lake处理器捆绑内存封装PC供应链… (07-23)
    普通电脑内存 笔记本定制版什么意思 笔记本标配版和定制版区… (07-21)
    普通电脑内存 和CPU同样重要 教你读懂手机之内存篇 (07-21)
    普通电脑内存 内存、运存、闪存如何区分 内运闪存介绍【详解… (07-21)
    普通电脑内存 手机恢复出厂设置会怎么样 如何恢复出厂设置【… (07-20)
    普通电脑内存 内存买单条16G还是8Gx2?总算是搞懂了 (07-20)
    普通电脑内存 运行内存和机身内存的区别 这些知识你知道吗 (07-20)
    普通电脑内存 巧记电路原理图的英文缩写 (07-19)