综合RLHF、DPO、KTO优势统一对齐框架UNA来了

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

综合RLHF、DPO、KTO优势统一…
背插BTF安装教程CH560R十步走…
内存与存储的排列组合随你怎…
要谢幕了！RTX 40904090D等显…
显卡配置表一览：最新显卡性…
2024显卡排行表：全面评估年…
解决你装机烦恼一周十大机箱…
游戏悍将刀锋50全模组 AK450…
游戏悍将刀锋50全模组 AK450
电脑重装系统后进不去是什么…
手机探测门适用于哪些场所
在京东花近万元买了十个固态…
联想 ThinkPad T14p 元启版笔…
联想ThinkPad SL500 2746G9C
联想ThinkPad R400 7445A27
“团购乐陶陶”惠普配件网店…
A系中端独显平台【图】_自助…
ST贤丰：关于签订《资产租赁…
鲁大师2019年度PC处理器排行…
宏碁非凡系列AI PC全线更新首…
2024年inteli3CPU排行：性能…
1999元焊门员回来了！Redmi …
4款1212值得入手高性价比显示…
OLED显示器到底好在哪里
电脑主板的作用是什么？这三…
徐州开尚网络申请计算机主板…
河南焓控电子科技有限公司申…
超频帖子_电子发烧友网
日本疫情
宗熙先生谈内存（3）：什么是…
AMD RX 6600XT显卡渲染图曝光…
平台惊现英伟达GeForce RTX …
详细规格一览！英伟达兼CEO黄…
AMD Radeon RX 6800
和爷爷签合同
立人计算机：浅谈迷你电脑主…
电脑超频新武器！MAIWO PCIE…
电脑、相机、游戏机都能用的…
Win8对比Win7的硬件要求怎么…
iPhone支持上门维修了！苹果…
女子维修苹果手机遇价格刺客…
苹果正式宣布“自助维修”支…
闪存管理希捷 ST1000DX001 …
强散热Hi-Fi好体验映泰大板…
牛年攒机首选!3000元超值配置…
史海沉钩：配备台式机CPU的笔…
买了肯定后悔！最不值得购买…
台式机CPU怎样才算“真性价比…
香港JPS 华硕P565皮套 A款
AI时代来临今年618华硕这三款…

专题栏目

您现在的位置：电脑评测网 >> 电脑内存 >> 正文

高级搜索

综合RLHF、DPO、KTO优势统一对齐框架UNA来了

作者：佚名文章来源：本站原创点击数：更新时间：2024/10/10 3:49:59 | 【字体：小大】

　　许华秦AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：；

　　1. 王智超：本科就读于厦门大学土木工程系，研究生博士就读于佐治亚理工并获得土木工程和计算机工程硕士及机械工程博士，现任职于 Salesforce，专注于 LLM Alignment。

　　2. 闭彬：本科就读于华中科技大学计算机工程系，研究生就读于香港大学计算机科学系，博士就读于 UCLA 计算机科学系，现任职于 Salesforce，专注于 LLM Alignment。

　　随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出，常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题，学术界和工业界提出了一系列对齐（Alignment）技术，旨在优化模型的输出，使其更加符合人类的价值观和期望。

　　其中，RLHF 是一种广泛使用的方法，依赖于从人类反馈中学习强化策略。RLHF 的流程包括两个阶段：首先，通过人类偏好数据训练奖励模型（Reward Model, RM），然后使用该奖励模型指导策略模型（Policy Model）的强化学习优化。然而，RLHF 存在若干显著问题，如高内存占用、训练不稳定以及流程复杂等。

　　为了解决 RLHF 的复杂性，DPO 方法被提出。DPO 简化了 RLHF 的流程，将强化学习的训练阶段转化为一个二分类问题，减少了内存消耗并提高了训练稳定性。但 DPO 无法充分利用奖励模型，且仅适用于成对的偏好数据，无法处理更为广泛的反馈类型。

　　此外，KTO 进一步扩展了 DPO，能够处理二元数据（如正向和负向反馈），但它同样有其局限性，无法统一处理不同类型的反馈数据，也无法有效利用已有的奖励模型。

　　在这种背景下，来自 Salesforce、厦门大学的研究团队提出了一种名为 UNA 的新方法，它通过一种通用的隐式奖励函数，统一了当前主流的大规模语言模型（LLM）对齐技术。主要包括 RLHF、DPO 和 KTO，这些技术的结合不仅简化了模型的训练流程，还提高了模型对齐的性能，稳定性和效率。

　　推导通用的隐式奖励函数：UNA 通过使用 RLHF 的目标函数推导出一个通用的隐式奖励函数。

　　简化 RLHF 的流程：UNA 将传统 RLHF 中不稳定且资源密集的强化学习过程转化为一个稳定的监督学习过程，减少了训练的不稳定性和对内存的需求。

　　多种反馈数据的支持：UNA 能够处理不同类型的反馈数据，包括成对反馈（pairwise feedback）、二元反馈（binary feedback）以及基于评分的反馈（score-based feedback）。

　　UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明，给定 RLHF 的经典目标函数，最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果，通过这个函数，UNA 能够将不同类型的奖励信息整合到统一的框架中进行处理。

　　研究人员通过一系列实验验证了 UNA 的有效性和优越性。在多个下游任务中，UNA 相较于传统的 RLHF、DPO 和 KTO 都有显著的性能提升，特别是在训练速度、内存占用和任务表现等方面。以下是实验结果的主要亮点：

　　任务表现：在多个语言理解任务和生成任务中，UNA 的表现优于 RLHF 和 DPO。例如，在 Huggingface 的 Open LLM Leadboard 数据集上的测试中，UNA 在多个评价指标上超越了 RLHF 和 DPO，表现出了更强的对齐能力和任务适应性。

　　训练速度：由于 UNA 将 RLHF 中的强化学习任务转化为一个监督学习问题，其训练速度提高了近一倍。

　　内存占用：UNA 的内存消耗显著低于 RLHF。由于 UNA 不再需要维护多个模型（如策略模型、参考策略、奖励模型和价值模型），其内存占用大幅减少，尤其在处理大规模模型时，这种优势尤为明显。

　　UNA 的提出标志着大规模语言模型对齐技术的一个重要进展。通过统一 RLHF、DPO 和 KTO，UNA 不仅简化了模型的训练流程，还提高了训练的稳定性和效率。其通用的隐式奖励函数为模型的对齐提供了一个统一的框架，使得 UNA 在处理多样化反馈数据时具有更强的适应性和灵活性。实验结果表明，UNA 在多个下游任务中表现优越，为语言模型的实际应用提供了新的可能性。未来，随着 UNA 的进一步发展，预期它将在更多的应用场景中展现出强大的能力。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　博主“山取”进哀牢山采集矿石后被要求返还律师：个人无权私自进山“取”矿

　　纳斯鲁拉死后多日仍未举行葬礼，继任者的继任者已被杀？官员：目前是集体领导

　　创业开公司，4亿英镑卖掉公司当CEO，跨界拿诺贝尔奖！48岁天才刚刚达成惊人成就，“阿尔法狗”也出自他手

　　新消费日报胖东来国庆期间接待游客超300多万；Moose Knuckles获得波司登战略投资；拼多多百亿补贴正式启动双十一……

　　《编码物候》展览开幕北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律

　　消息称 AMD 准备在 CES 2025 上发布新款 RX 7650 GRE 显卡

电脑内存录入：admin 责任编辑：admin
	上一个电脑内存：背插BTF安装教程CH560R十步走附配置清单下一个电脑内存：没有了

　栏目文章

综合RLHF、DPO、KTO优势统一对齐框架UNA来了 (10-10)	背插BTF安装教程CH560R十步走附配置清单 (10-10)
内存与存储的排列组合随你怎么搭 (10-10)	超频帖子_电子发烧友网 (10-08)
日本疫情 (10-08)	宗熙先生谈内存（3）：什么是虚拟内存？它的作… (10-08)
英特尔新型DIMM内存优势显著可为HPC工作负载提… (10-07)	仅1999元？宏碁非凡Go Fun笔记本电脑值得入手… (10-07)
中国电信在京召开天翼宽带暨天翼空间上市发布… (10-07)	电脑硬件硬核科普（其四） (10-06)
佰维发布CUDIMM DDR5-9200 CL42 24GB内存：不… (10-06)	HBM4 可以将内存带宽加倍至 2048 位 (10-06)
内存没法买了！今年涨价53％、明年再涨35％ (10-05)	为发烧而生金士顿DDR3 2400 8G内存评测 (10-05)
vivo韩伯啸谈Soc内存涨价：今年更是买旗舰机的… (10-05)	照片、视频已成手机存储空间最大“杀手” 来京… (10-04)
开博尔A9 (10-04)	不止是TF卡！手机内存卡你知多少？ (10-04)
RAM工作原理深度解析：数据存储与读取的艺术 (10-03)	芯流人才服务：高端芯片岗位热招 (10-03)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！