华为提出强化学习框架AsyncFlow突破分离式后训练框架瓶颈

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

华为提出强化学习框架AsyncF…
股市必读：炬光科技（688167…
信创黑马中科可控
联想S500拆机解析：拆解流程…
联想电脑维修中心北京联想笔…
英特尔新款游戏显卡卖爆！24…
挖矿为何狂抢显卡而非CPU？显…
荒诞的翻唱“拿粑粑做蛋挞”…
笔记本电脑的硬盘在哪？
Win10管理工具在哪？如何打开…
干掉机械硬盘：SSD这五年到底…
怎么看电脑显卡有没有运行一…
电脑没有独立显卡有什么影响…
电脑主机显卡插槽类型解析及…
一图教你选购充电宝→
家用充电桩的电压选择全解析…
科士达：UPS仍是未来数据中心…
在希望的田野上书写金融答卷…
一文扒开显示器面板色域刷新…
瑞幸最大股东或竞购星巴克中…
精打细算买配件！这些技巧让…
Intel新CPU助攻：微软Copilo…
旧电脑又卡又慢：分分钟几招…
微星MEG X570 ACE
中端主板的“宝藏”之选！技…
AMD RX 9060 XT显卡：强劲性…
2025苏州市景范中学校预约参…
华为CloudMatrix384超节点官…
2023年09月24日B
智慧高效新选择华为笔记本Li…
广州戴尔笔记本售后维修点地…
质量问题频出差别化对待戴…
新基智创（辽宁）计算机系统…
河北优机库科技有限公司成立…
上海创思美智能产品有限公司…
硬盘在电脑上显示不出来 5种…
净网—2025 暴恐音视频危害大…
致态TiPro9000蝉联鲁大师《2…
“小英伟达”IPO获受理！卖G…
英伟达正在悄悄降低显卡价格…
联想ThinkPad T400 27658DC
保姆级指南！小白如何在618挑…
编辑观点_智能设备_运动_汽车…
威刚4GB DDR3 1600G 游戏威龙…
超声电子（000823）7月8日主…
牧东光电取得超薄柔性触摸屏…
西蒙电气取得超薄模块化的智…
3000元价位笔记本：小新14、…
WIKO新推Hi MateBook D 1416…
这款笔记本配置有意思锐龙7 …

专题栏目

您现在的位置：电脑评测网 >> 电脑内存 >> 正文

高级搜索

华为提出强化学习框架AsyncFlow突破分离式后训练框架瓶颈

作者：佚名文章来源：本站原创点击数：更新时间：2025/7/14 19:09:25 | 【字体：小大】

　　鬼谷子手工刀大型语言模型（LLMs）依托于海量自然语言语料的无监督训练，展现出卓越的语言理解能力，为通用人工智能（）的发展奠定了重要的基础。随着模型规模从百万级扩展到万亿级，预训练数据面临枯竭危机。为了增强LLM的性能，研究者们引入指令微调与基于人类反馈的强化学习（RLHF）等后训练技术，帮助模型更好地对齐人类偏好和社会价值观。其中，强化学习通过生成高质量响应和奖励信号作为数据飞轮，从而实现模型性能的持续迭代优化。

　　然而，现有的强化学习后训练框架面临两大挑战：任务关联式（task-collocated）强化学习框架在训练过程中，一次只运行一个任务，占用所有计算资源直至完成，导致内存使用效率低下以及计算资源利用不足；任务分离式（task-separated）强化学习框架虽然能够根据工作负载需求分配资源，但由于内在的数据依赖关系，仍然存在资源闲置和工作负载不均衡的问题。此外，大多数强化学习框架与LLM训练或推理引擎紧密耦合，难以支持定制化需求。

　　针对上述挑战，华为的研究者们提出了一种任务分离的异步流式强化学习框架AsyncFlow，构建于昇腾驱动的后训练框架MindSpeed-RL之上。该框架无需显式定义跨实例的数据依赖链，实现了RL任务间的自动化负载均衡与自动化工作流程（automated pipeline）的并行重叠执行。

　　在强化学习过程中，任务间的数据依赖性是任务分离式框架设计的核心挑战，现有方案仅提供全部数据集的静态存储传输功能，导致下游任务资源闲置严重。为此，AsyncFlow引入了异步流式数据加载器TransferQueue。

　　TransferQueue是连接训练与推理集群的流式数据调度器，负责管理整个RL后训练过程中的数据流。每个RL任务都配备了一个专用的TransferQueue 控制器，用于维护训练样本的元数据。在任务分离式的RL框架中，TransferQueue能够让下游任务在部分训练样本就绪时就启动计算，而不用等待完整的数据集，实现了流式工作流程（streaming pipeline）的并行重叠执行。为了兼容训练与推理引擎的输入格式，研究者将TransferQueue交互逻辑封装进PyTorch DataLoader，用户可以无缝集成TransferQueue作为分布式流式数据加载器，而无需理解其底层实现细节。

　　在数据管理方面，TransferQueue为每个 RL任务提供统一的数据状态视图，这一功能消除了在多个 RL任务之间手动定义所有数据流的需求，避免了跨数据并行组（DP groups）复杂的数据依赖链定义。此外，这种集中式视图还有助于实现更优的负载均衡策略。

　　在数据存储与传输方面，研究者借鉴SDN架构思想，TransferQueue采用控制平面与数据平面解耦设计，并在每一层中分别实例化多个控制器和数据存储单元。该设计有效缓解了潜在的 I/O 和网络瓶颈，能够兼容多种存储系统，从而支持可扩展的后训练。

　　任务分离式框架还面临的挑战是流水线气泡问题（pipeline bubbles），即跨设备部署任务间数据依赖导致的硬件资源闲置问题。为了应对这个挑战，AsyncFlow引入基于生产者-消费者的异步工作流优化算法。通过在陈旧阈值（staleness threshold）范围内策略性地延迟参数更新过程来最小化计算闲置。

　　AsyncFlow采用分层服务化接口设计。用户级接口封装了RL算法逻辑，并提供控制后训练流程的关键API；后端级接口则提供了模块化RL任务抽象，通过后端适配器实现算法逻辑与执行引擎的解耦。该设计在保持架构灵活性的同时，有效平衡了学术研究所需的灵活性与工业部署所需的可扩展性。

　　研究者将AsyncFlow框架与VeRL框架进行比较，VeRL是最先进的任务关联式强化学习框架，通过高效的3D-HybridEngine降低了重分片开销，除训练效率优势外，VeRL结合了单控制器与多控制器范式，大幅简化了软件开发流程。实验设置中，强化学习算法采用GRPO算法进行评估；模型选择了Qwen2.5系列的模型，参数范围从7B到32B；数据集采用DeepScaleR数据集用于后训练；硬件配置和并行策略使用大规模昇腾 NPU集群来评估提出的RL框架，每个节点有16个NPU，系统内存为2880GB。

　　研究者们在32至1024个NPU的集群规模上测评AsyncFlow。可以发现，AsyncFlow在所有配置下均优于VeRL，平均吞吐量提升了1.59倍。

　　在集群规模扩大16倍时，AsyncFlow仍能保持较高的线性度，表明AsyncFlow具备良好的扩展性和适应性，为工业规模下的LLM推理智能体高效训练奠定了基础。

　　为了验证AsyncFlow各方法的有效性，研究者进行了消融实验。可以发现TransferQueue实现了RL任务之间的细粒度重叠执行。与基线相比，引入TransferQueue使吞吐量提升了2.01倍。接着，引入异步工作流优化算法能够有效减少迭代间的空闲时间。该算法主要包括延迟参数更新、任务重叠执行以及动态资源分配策略。与启用TransferQueue的基线方案相比，引入异步工作流优化算法使整体吞吐量进一步提升了36.3%。

电脑内存录入：admin 责任编辑：admin
	上一个电脑内存：股市必读：炬光科技（688167）7月4日董秘有最新回复下一个电脑内存：没有了

　栏目文章

华为提出强化学习框架AsyncFlow突破分离式后训… (07-14)	股市必读：炬光科技（688167）7月4日董秘有最… (07-14)
2025苏州市景范中学校预约参观入口 (07-12)	华为CloudMatrix384超节点官方解读：昇腾 910… (07-12)
2023年09月24日B (07-12)	计算机可以存储什么 (07-11)
存储产品涨价趋势持续你的使用需求对应多大容… (07-11)	芝奇推出256GB DDR5 6000内存套装：兼顾大容量… (07-11)
三星内存芯片第一的时代被AI终结了 (07-09)	iPhone 16e跑分出炉：确认8GB内存搭载A18处理… (07-09)
根神京都姬骑士2汉化 (07-09)	国产模特众筹视频在线 (07-08)
欧美老肥妇性疯狂视频_欧美老肥妇性疯狂视频V (07-08)	男生撬锁潜入女生寝室偷拍内衣猎奇视频被众多… (07-08)
内存 - 道客巴巴 (07-06)	计算机内存[新版] (07-06)
安装内存是什么意思什么是安装内存 (07-06)	速度与稳定性融合 Crucial Pro OC 64GB内存测… (07-05)
加快打造高质量中文数据集的思考与建议 (07-05)	极客访谈本周侃 (07-05)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！