Hugging Face：2023开源LLM大爆发数据竞赛已开启！

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

Hugging Face：2023开源LLM大…
「唤醒」NPC这家融资过亿的国…
40系显卡是台积电还是三星代…
英伟达为中国市场量身打造RT…
电脑显卡后缀的Ti和super是什…
6000 左右的预算配台式机求推…
【2023年10月】10月装机走向…
如何配组装电脑？
机械硬盘OUT了买台固态硬盘…
【手慢无】白菜价！256GB固态…
硬盘节前难降价市售500GB笔…
将低价进行到底一百元电脑CP…
cpu风扇怎么拆卸（电脑cpu风…
各种FAN（风扇）在主板中的分…
超薄LED地垫屏：体育场馆的新…
蓝厂把电池玩明白了！vivo S…
超薄蓝海电池加持vivo S18的…
千米电脑维修：七彩虹自有品…
笔记本电脑主板坏了售后说修…
台式电脑故障维修：内存条出…
【IT风向标】2023年度评选：…
整机重量英语（整机英文）
潜质突出的儿童如何发现和识…
Nvidia如何成长为万亿美元公…
采用AI与机器学习提升视觉效…
为了保住中国市场英伟达要打…
一站式充电解决方案！航嘉35…
一图便看清：航嘉最经典300W…
国内最强航嘉1200W金牌电源…
硬盘是什么手机里有没有硬盘
hdd是什么意思（HDD是什么流…
hdd-电子发烧友网
总投资2亿元！灰山港产业开发…
动线家疫情防控措施不到位的…
灰山港镇：关停11家疫情防控…
NVIDIA发布53126热修复驱动 …
cpu占用率较高怎么办（cpu占…
关于改善CPU占有率高问题的方…
清华同方21寸电脑显示器1080…
新闻简讯商用电脑频道_天极网
清华同方电脑显示器安装教程
775平台桌面级产品翔升P43降…
技嘉主板固件惹争议知名安全…
AMD对主板误报电源遥测做出回…
电脑零件价格-最新电脑零件价…
组装电脑配置清单2022及价格…
2021年3月电脑配件行情预测（…
超频有惊喜吗？光威神策 DDR…
Innodisk发布DDR5内存条：目…
BIRTV 2023展会金士顿携FUR…

专题栏目

您现在的位置：电脑评测网 >> 电脑内存 >> 正文

高级搜索

Hugging Face：2023开源LLM大爆发数据竞赛已开启！

作者：佚名文章来源：本站原创点击数：更新时间：2024/1/4 7:37:22 | 【字体：小大】

　　含香的扮演者【新智元导读】2023年的LLM开源社区都发生了什么?来自Hugging Face的研究员带你回顾并重新认识开源LLM

　　LLM的模型架构描述了具体实现和数学形状。模型是所有参数的列表，以及参数如何与输入交互。

　　大多数情况下是文本数据（自然语言、编程语言、或者其他可表达为文本的结构化数据）。

　　分词器（tokenizer）定义如何将训练数据集中的文本转换为数字(因为模型本质上是一个数学函数)。

　　分词器的词汇量通常在32k到200k之间，而数据集的大小通常以它包含的tokens数量来衡量，当今的数据集可以达到几千亿到几万亿个tokens。

　　然后，使用超参数定义如何训练模型——每次迭代，参数应该改变多少?模型的更新速度应该有多快?

　　训练的过程包括实例化架构（在硬件上创建矩阵），并使用超参数在训练数据集上运行训练算法。

　　上面训练好的LLM也可以在之后通过微调（fine-tuning）来适应特定任务(尤其是对于开源模型)。

　　微调的过程是在不同的数据集（通常更专业、更小）上对模型进行额外的训练步骤，以针对特定应用程序进行优化。

　　比起从头开始训练一个大模型，微调的成本显然低得多——这也是开源LLM受到大家欢迎的原因之一。

　　而且似乎模型的大小在超过某个阈值之后，能力会得到飞跃——有两个词语用来描述这个现象:emergent abilities和scaling laws 。

　　系列中最大的模型有176B参数，使用350B的训练数据集，包括46种人类语言和13种编程语言，是迄今为止最大的开源多语言模型。

　　OPT（Open Pre-trained Transformer）系列模型由Meta发布，遵循GPT-3论文的技巧(特定权重初始化、预归一化)，对注意力机制(交替密集和局部带状注意力层)进行了一些更改。

　　这个系列中最大的模型为175B，在180B的数据上进行训练，数据主要来自书籍、社交、新闻、维基百科和互联网上的其他信息。

　　GLM-130B（通用语言模型）由清华大学和Zhipu.AI发布。它使用完整的transformer架构，并进行了一些更改(使用DeepNorm进行层后归一化、旋转嵌入)。

　　GLM-130B是在400B个中英文互联网数据（The Pile、Wudao Corpora和其他中文语料库）的标记上训练的，它的性能也与GPT-3相当。

　　在执行推理时，模型需要加载到内存中，而100B参数的模型通常需要220GB的内存。

　　在2022年3月，DeepMind发表了一篇论文，研究了在给定计算预算下，用于训练的数据量与模型参数的最佳比率是多少。

　　换句话说，如果你只有固定的一笔钱可以花在模型训练上，那么模型大小和训练数据量应该是多少?

　　他们自己的例子是一个叫做Chinchilla的70B模型，使用1.4T的训练数据。

　　2023年开始，一大波模型涌现出来，每个月、每周、甚至每天都会有新的模型发布:

　　在Meta AI的LLaMA系列中，研究人员的目标是训练一组不同大小的模型，能够在给定的预算下具有最佳性能。

　　他们首次明确提出不仅要考虑训练预算，还要考虑推理成本，从而在更小的模型大小上达到更高的性能（权衡是训练计算效率）。

　　Llama1系列中最大的模型是在1.4T数据上训练的65B参数模型，而较小的模型（6B和13B）是在1T数据上训练的。

　　小型13B LLaMA模型在大多数基准测试中都优于GPT-3，而最大的LLaMA模型到达了当时的SOTA。不过，LLaMA是以非商业许可发布的，限制了社区的应用。

　　之后，MosaicML发布了MPT模型，具有允许商业用途的许可证，以及训练组合的细节。第一个MPT模型为7B ，随后是6月份的30B版本，均使用1T英语和代码数据进行训练。

　　在此之前，模型的训练数据是公开的，不过之后的模型就不再提供任何关于训练的信息，——不过最起码权重是开源的。

　　无处不在的对线年发布的几乎所有预训练模型都带有预训练版本和对话微调版本。

　　LAION（一个非营利性开源实验室）发布了开放指令通才(OIG)数据集，该数据集有43M条指令，既有数据增强创建，也有从其他预先存在的数据源编译而来的指令。

　　在典型的开源方式中，社区的里程碑之一是模型或数据合并。模型合并是一种将不同模型的权重融合到单个模型中的方法，以将每个模型的各自优势组合在一个统一的单个模型中。

　　采用参数高效微调（PEFT），首先固定住一部分的预训练模型的参数，然后在其上添加许多新参数，称为适配器。

　　查看更多相关信息

　　一场商家不得不上的赌局。文弋曈编园长陆元元是一家头部日化品牌的管培生，主要负责营销策划的工作，2023年9月以项目支援的名义来到了主播组，成为一名带货主播。这套一再被印证的转化链路，本质上是交易与内容更深层次的绑定，无论是传统电商还是内容见长的短视频平台，都会将店播作为未来重点发力的方向。

　　开源大模型社区HuggingFace公布了最新的开源大模型排行榜，通义千问在预训练模型类别中脱颖出，占据榜首位置。HuggingFace开源大模型排行榜涵盖了全球上百个顶尖的开源大模型，并从阅读理解、逻辑推理、数学计算、事实问答等六个维度进行了全面评估。阿里云开源通义千问720亿参数模型。

　　站在2023年的尾巴上，回望这一年，我们发现很多互联网大厂“瘦”了。字节跳动将Pico团队大幅裁撤，关停、出售部分游戏项目;腾讯精简XR业务线，变更硬件发展路径;美团放弃自营打车，全面转向聚合模式;小红书关闭自营电商平台小绿洲，京东关闭印尼和泰国站点……「定焦」统计了头部大厂在2023年的“瘦身”动作，请看下表:瘦不代表不健康，或许是为了更好地保持体型，�

　　01品牌商家有了新利器双十一结束后，很多商家在修整，但优秀的品牌又摸索出了新的经营机会。比如百草味，为了拓展抖音商城的客流，投放搜索商品卡推广，ROI平均达到2.5以上，相比投放前一周商品卡GMV增长110%;另一个品牌拇指白小T，通过搜索商品卡推广为主推的单品预热蓄水并累计销量，成功将主推单品的商品货架排名提升10位，ROI相比非商品卡推广高出30%。最近，通过�

　　京东在2023年年底推出了一系列活动，包括发送2023年度账单和跨年活动。用户可以通过京东APP搜“年度账单”查收他们的2023年度账单，这是一个个人专属的年度手账，用户可以在其中记录和回顾自己的购物和消费情况，并许下2024年的新年心愿。幸运用户有机会赢得特斯拉汽车、iPhone15等豪华奖品，其中特斯拉汽车的使用权可达10年。

　　TGA2023是指THEGAMEAWARDS2023，是一个面向全球的年度电子游戏奖项，以表彰过去一年里发售的优秀游戏，堪称世界上最为权威的游戏评选活动之一。TGA2023将在北京时间12月9日进行全程直播，那么在哪里可以看TGA2023直播呢?下面就给大家带来TGA2023游戏大选直播地址和录像回放。TGA2023中文流直播地址:直播录像回放:的提名名单于北京时间11月14日凌晨1点公布，共有六款游戏获得年度游戏提名，包括《心灵杀手2》、《博德之门3》、《漫威蜘蛛侠2》、《生化危机4重制版》、《超级马力欧兄弟惊奇》和《塞尔达传说:王国之泪》。

　　Heartstring AI是一个AI驱动的演讲写作平台,可以帮助用户在婚礼誓词、悼词等人生重要时刻写出发自内心的演说。用户只需选择演讲场合,AI将为您生成初稿,您可以根据个人需要进行修改定制,轻松写出完美的演讲稿。该产品具有生成效率高、内容真实动人、操作简便等优点,适用于需要撰写演讲稿的各类用户。

　　iSamur.ai: 提供 AI 驱动的人脸增强、修复、替换等工具,提升内容创作效率。

　　iSamur.ai 是一个 AI 内容创作工具集,提供人脸增强、修复、替换等功能,助力用户轻松创作高质量图像和视频。我们使用深度学习算法,实现精准的人脸操作和转换,还提供无限时长的视频处理。产品功能强大且易于使用,大幅提高内容创作的效率。我们持续研发创新功能,致力于将 AI 技术与创意内容结合,为用户提供简单高效的解决方案。

　　Lumino是一个机器学习模型训练平台，可以降低50-70%的成本。用户可以在其广泛的计算资源网络上训练机器学习模型，同时也可以供应计算资源。该平台通过去除中间商（如AWS、GCP和Azure）并直接连接计算资源提供商，显著降低成本。所有模型和训练集都可以追溯到经过加密验证的证据，实现完全的问责制。此外，Lumino采用去中心化和无需许可的网络结构，阻止集中式云平台和专制国家滥用权力。

　　Feedspace是一款连接企业与用户的反馈AI工具，提供视频、文本、音频和社交媒体反馈收集功能。通过Feedspace，用户可以快速获取关于项目完成情况、银行服务、公司评价、快递状态等方面的反馈。该产品适用于各种团队和领域，包括产品团队、营销团队、产品设计师、人力资源部门、初创企业、教育机构、电子商务、影响者、非营利组织等。Feedspace还提供丰富的资源和工具，包括博客、快速演示、模板反馈、常见问题解答、系统状态、教程等。用户还可以通过Feedspace成为合作伙伴，获取高达50%的佣金。产品定价灵活，适用于各种规模的企业。

　　GPT Chatbot是由OpenAI开发的AI语言模型。GPT采用Transformer架构，擅长理解和生成人类化的文本。经过大量互联网数据集的预训练，GPT理解上下文、句法和语义，使其能够生成相关的回应。GPT的优势在于其能够从多样的语言数据中推断出模式，从而完成对话、回答问题和内容创作等任务。与基于规则的系统不同，GPT动态生成回应，展现了在各个领域的适应性。其应用范围从语言翻译到支持创意写作等。通过整合深度学习技术，GPT捕捉复杂的语言结构，使其能够生成连贯且上下文相关的文本。这一预训练阶段赋予了GPT广泛的语言理解，使其成为执行众多与语言相关任务的多功能工具。

　　Mickey-1928:用于生成米奇、米妮等迪士尼公有领域角色图像的稳定扩散模型

　　Mickey-1928是一个针对Stable-Diffusion-xl模型微调后的版本,训练数据集包含96张迪士尼1928年前公有领域动画片《小飞象》、《汽船威利号》和《疯狂的高卢》中的静态画面。该模型可以生成米奇、米妮和皮特等经典迪士尼卡通形象,使生成的图像保持1928年的经典设计风格。

　　CelestialPDF是一款能够让您与任何PDF文件进行交互的工具。只需上传您的文件，立即开始提出问题。我们致力于为您提供最佳工具，以提升您的生产力。让人工智能为您总结和创建，让您可以专注于真正重要的工作。您可以通过免费计划或选择我们的专业计划开始使用CelestialPDF。上传您的PDF文件，我们将处理您的文件并准备好让您进行交互。CelestialPDF让您与PDF文件进行交谈变得前所未有的简单。

　　BetterYeah AI Agent是一款企业级AI应用开发平台,专注于构建业务专家级的AI工作助理。内置多种成熟模版,功能强大开箱即用,可快速应用落地。支持私有化部署,确保企业数据安全。可一键解析企业数据,处理图文、超链接、表格等知识数据,实现自我学习迭代。提供智能客服、销售顾问等多种应用场景,帮助企业重塑业务流程。

　　Boundary Attention 是一个可微分模型，它通过一种称为边界注意力的机制来明确地建模边界，包括轮廓、角点和交叉点。与之前的经典方法相比，我们的模型具有可微分性，可扩展到更大的图像，并且能够自动适应图像的每个部分的适当几何细节水平。与通过端到端训练找到边界的先前深度方法相比，它具有提供亚像素精度、对噪声更具鲁棒性以及能够以原生分辨率和纵横比处理任何图像的优势。

　　Text2Immersion是一个优雅的从文本提示生成高质量3D沉浸场景的方法。我们提出的流水线D扩散和深度估计模型逐步生成高斯云。接下来是对高斯云进行精炼,插值和精炼以增强生成场景的细节。与仅关注单个物体或室内场景,或采用缩小轨迹的主流方法不同,我们的方法可以生成包含各种物体的不同场景,甚至扩展到创造想象中的场景。因此,Text2Immersion可以对各种应用产生广泛的影响,如虚拟现实、游戏开发和自动内容创建。大量的评估证明我们的系统在渲染质量和多样性方面优于其他方法,并且继续推进面向文本的3D场景生成。

　　Diffusion Model with Perceptual Loss:基于感知损失的扩散模型

　　该论文介绍了一种基于感知损失的扩散模型，通过将感知损失直接纳入扩散训练中来提高样本质量。对于有条件生成，该方法仅改善样本质量而不会影响条件输入，因此不会牺牲样本多样性。对于无条件生成，这种方法也能提高样本质量。论文详细介绍了方法的原理和实验结果。

电脑内存录入：admin 责任编辑：admin
	上一个电脑内存：「唤醒」NPC这家融资过亿的国内创企在做一种很新的游戏下一个电脑内存：没有了

　栏目文章

Hugging Face：2023开源LLM大爆发数据竞赛已开… (01-04)	「唤醒」NPC这家融资过亿的国内创企在做一种很… (01-04)
【IT风向标】2023年度评选：年度推荐产品 (01-03)	整机重量英语（整机英文） (01-03)
潜质突出的儿童如何发现和识别 (01-03)	超频有惊喜吗？光威神策 DDR5 内存条48GB国产… (01-02)
Innodisk发布DDR5内存条：目前最大容量32GB (01-02)	BIRTV 2023展会金士顿携FURY Beast高端内存参… (01-02)
虚拟存储virtual storage英语短句例句大全 (01-01)	Virtual memory (01-01)
攻略：apex英雄15赛季卡死黑屏一直转圈进不去… (01-01)	重庆赛力斯申请内存泄漏修复专利解决不能方便… (12-31)
工商银行申请内存刷新技术专利应用于信息安全… (12-31)	服务器CPU持续迭代内存接口芯片有望加速 (12-31)
华为今天曝出来的新技术真的有点猛啊 (12-30)	教授谈为什么手机越用越慢已研发出存储碎片整… (12-30)
华为Mate 50卫星通话是什么功能华为mate50pr… (12-30)	专业IT外包答疑：QLC NAND是合适的选择吗？ (12-29)
海内存知己的海内指的是_存知己中的什么意思？ (12-29)	DRAMNAND都是啥？科普内存和硬盘的区别 (12-29)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！