返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 Moonshot AI 初亮相开启大模…
 绝地求生闪退怎么办 pubg闪退…
 跨境电商独立站术语盘点(一…
 没人能“杀死”15万亿美元的…
 苹果iOS18号称历史级重大更新…
 显卡日报9月4日|亚马逊CPU被…
 帮助你了解电源(11):电源评…
 这电源横评是带过最差一届 不…
 稳定是硬道理 15款高端电源性…
 为什么有些电脑需要风扇?
 CPU风扇怎么安装 CPU风扇的安…
 组装电脑:CPU散热器推荐
 显示屏怎么调节
 电脑亮度怎么调
 华为(HUAWEI)显示器 HUAWE…
 为他们点赞!黄江3人获评省市…
 电脑主板型号怎么看这三种方…
 怎么看主板型号 查看主板型号…
 130TB 铠侠固态硬盘“上天”…
 固态硬盘与机械硬盘有什么区…
 存储芯片中国什么时候能成?
 惠普电脑怎么维修 惠普cq40维…
 惠普战家族台式机大促:25k起…
 2999元起?惠普锐14商务轻薄…
 啥都有假的为啥从没听过假的…
 2月以来每天3万人新开淘宝店…
 这届年轻人送礼:父母第一领…
 微信体积再变大!新安装包突…
 全系列逐一介绍 影驰DDR5内存…
 聊天记录占超75%微信内存!微…
 30 系显卡都出来了为什么 GT…
 如何判断显卡故障 显卡坏了有…
 双显卡是什么意思 好用吗
 12v电瓶电压对照表
 技能Get!电工老师傅教你玩转…
 一种红外发射电路的设计
 森林之子CPU占用太高怎么办
 电脑cpu占用高怎么解决 电脑…
 电脑cpu使用率100怎么办? 5…
 AOC 27英寸 2k显示器 曲面 I…
 AOC显示器 AOC 冠捷 Q27N3S2…
 AOC 冠捷 Q27N3S2 27英寸IPS…
 深圳市第五批专精特新“小巨…
 云计算:让计算机围着人转
 2023上半年 贵州金元推广电动…
 如何查看电脑的配置
 电脑本机硬盘查询电脑硬盘怎…
 如何查看电脑硬盘信息(如何…
 华硕天选X 2024(i7-14700F16…
 华硕显卡sn码查询保修用户自…
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑内存 >> 正文
高级搜索
Moonshot AI 初亮相开启大模型长文本时代|Z News
作者:佚名 文章来源:本站原创 点击数: 更新时间:2024/2/3 17:35:11 | 【字体:

  苏叶女照片原标题:Moonshot AI 初亮相,开启大模型长文本时代|Z News

  今年6月,真格基金首轮投资Moonshot AI,全力支持 Moonshot AI 引领 AI 大时代。创始人杨植麟是中国顶尖的 AI 研究者,任清华交叉信息研究院助理教授,为 Transformer-XL 与 XLNet 第一作者。此前,真格基金曾领投杨植麟博士作为联合创始人的循环智能。

  2023 年 10 月 9 日,成立仅半年的大模型初创公司 —— Moonshot AI 宣布在「长文本」领域实现了突破,推出了首个支持输入 20 万汉字的智能助手产品 Kimi Chat。这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度,标志着 Moonshot AI 在这一重要技术上取得了世界领先水平。

  从技术上看,参数量决定了大模型支持多复杂的「计算」,而能够接收多少文本输入(即长文本技术)则决定了大模型有多大的「内存」,两者共同决定模型的应用效果。支持更长的上下文意味着大模型拥有更大的「内存」,从而使得大模型的应用更加深入和广泛:比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等,都可以在超长文本技术的加持下,成为我们工作和生活的一部分。

  相比当前市面上以英文为基础训练的大模型服务,Kimi Chat 具备较强的多语言能力。例如,Kimi Chat 在中文上具备显著优势,实际使用效果能够支持约 20 万汉字的上下文,2.5 倍于 Anthropic 公司的 Claude-100k(实测约 8 万字),8 倍于 OpenAI 公司的 GPT-4-32k(实测约 2.5 万字)。同时,Kimi Chat 通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,不依赖于滑动窗口、降采样、小模型等对性能损害较大的「捷径」方案。

  目前,Moonshot AI 的智能助手产品 Kimi Chat 已开放了内测。访问,即可加入内测计划。

  • 目前大火的虚拟角色场景中,由于长文本能力不足,虚拟角色会轻易忘记重要信息,例如在 Character AI 的社区中用户经常抱怨「因为角色在多轮对话后忘记了自己的身份,所以不得不重新开启新的对话」。

  • 对于大模型开发者来说,输入 prompt 长度的限制约束了大模型应用的场景和能力的发挥,比如基于大模型开发剧本杀类游戏时,往往需要将数万字甚至超过十万字的剧情设定以及游戏规则作为 prompt 加入应用,如果模型输入长度不够,则只能削减规则和设定,从而无法达到预期游戏效果。

  • 在另一个大模型应用的主要方向——Agent 中,由于 Agent 运行需要自动进行多轮规划和决策,且每次行动都需要参考历史记忆信息才能完成,这会带来了模型输入的快速增加,同时也意味着不能处理更长上下文的模型将因为无法全面准确的基于历史信息进行新的规划和决策从而降低 Agent 运行成功的概率。

  • 在使用大模型作为工作助理完成任务的过程中,几乎每个深度用户都遇到过输入长度超出限制的情况。尤其是律师、分析师、咨询师等职业的用户,由于常常需要分析处理较长的文本内容,使用大模型时受挫的情况发生频率极高。

  那么拥有超长上下文输入后的大模型会有怎样的表现?下面是一些 Kimi Chat 实际使用的例子:

  发现了新的算法论文时,Kimi Chat 能够直接帮你根据论文复现代码:

  只需要一个网址,就可以在 Kimi Chat 中和自己喜欢的原神角色聊天:

  输入整本《月亮与六便士》,让 Kimi Chat 和你一起阅读,帮助你更好的理解和运用书本中的知识:

  通过上述例子,我们可以看到,当模型可以处理的上下文变得更长后,大模型的能力能够覆盖到更多使用场景,真正在人们的工作、生活、学习中发挥作用,而且由于可以直接基于全文理解进行问答和信息处理,大模型生成的「幻觉」问题也可以得到很大程度的解决。

  长文本技术的开发,存在一些对效果损害很大的「捷径」,主要包含以下几个方面:

  • 「金鱼」模型,特点是容易「健忘」。通过滑动窗口等方式主动抛弃上文,只保留对最新输入的注意力机制。模型无法对全文进行完整理解,无法处理跨文档的比较和长文本的综合理解(例如,无法从一篇 10 万字的用户访谈录音转写中提取最有价值的 10 个观点)。

  • 「蜜蜂」模型,特点是只关注局部,忽略整体。通过对上下文的降采样或者 RAG(检索增强的生成),只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解(例如,无法从 50 个简历中对候选人的画像进行归纳和总结)。

  • 「蝌蚪」模型,特点是模型能力尚未发育完整。通过减少参数量(例如减少到百亿参数)来提升上下文长度,这种方法会降低模型本身的能力,虽然能支持更长上下文,但是大量任务无法胜任。

  简单的捷径无法达到理想的产品化效果。为了真正做出可用、好用的产品,就不能走虚假的捷径,而应直面挑战。

  训练层面,想训练得到一个支持足够长上下文能力的模型,不可避免地要面对如下困难:

  • 如何让模型能在几十万的上下文窗口中,准确的 Attend 到所需要的内容,不降低其原有的基础能力?已有的类似滑动窗口和长度外推等技术对模型性能的损害比较大,在很多场景下无法实现真正的上下文。

  • 在千亿参数级别训练长上下文模型,带来了更高的算力需求和极严重的显存压力,传统的 3D 并行方案已经难以无法满足训练需求。

  推理层面,在获得了支持超长上下文的模型后,如何让模型能服务众多用户,同样要面临艰巨挑战:

  • Transformer模型中自注意力机制(Self Attention)的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加 32 倍时,计算量实际会增长 1000 倍,这意味着如果只是用朴素的方式实现,用户需要等待极其长的时间才能获得反馈。

  • 超长上下文导致显存需求进一步增长:以 1750 亿参数的 GPT-3 为例,目前最高单机配置( 80 GiB * 8 )最多只能支持 64k 上下文长度的推理,超长文本对显存的要求可见一斑。

  • 极大的显存带宽压力:英伟达 A800 或 H800 的显存带宽高达 2-3 TiB/s,但面对如此长的上下文,朴素方法的生成速度只能达到 2~5 tokens/s,使用的体验极其卡顿。

  Moonshot AI 的技术团队进行了极致的算法和工程优化,克服上述困难完成了大内存模型的产品化,发布了支持 20 万字输入的千亿参数 LLM 产品。

  Moonshot AI 创始人杨植麟此前在接受采访时曾表示,无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。

  无损压缩的进展曾极度依赖「参数为王」模式,该模式下压缩比直接与参数量相关,这极大增加了模型的训练成本和应用门槛,而 Moonshot AI 认为:大模型的能力上限(即无损压缩比)是由单步能力和执行的步骤数共同决定的。单步能力与参数量正相关,而执行步骤数即上下文长度。

  Moonshot AI 相信,更长的上下文长度可以为大模型应用带来全新的篇章,促使大模型从 LLM 时代进入Long LLM (LLLM) 时代:

  • 每个人都可以拥有一个具备终身记忆的虚拟伴侣,它可以在生命的长河中记住与你交互的所有细节,建立长期的情感连接。

  • 每个人都可以拥有一个在工作环境与你共生(co-inhabit)的助手,它知晓公域(互联网)和私域(企业内部文档)的所有知识,并基于此帮助你完成 OKR。

  • 每个人都可以拥有一个无所不知的学习向导,不仅能够准确的给你提供知识,更能够引导你跨越学科间的壁垒,更加自由的探索与创新。

  当然,更长的上下文长度只是 Moonshot AI 在下一代大模型技术上迈出的第一步。Moonshot AI 计划凭借该领域的领先技术,加速大模型技术的创新和应用落地。

  真格基金管理合伙人戴雨森对公司的发展表达了肯定和期许:「我们认为近期 AI 应用的爆火只是一场革命的序幕,AI 技术要想真正改变世界创造巨大价值,在智能程度上还需要大的突破,这需要具备顶级技术能力的团队,以坚持追寻 Moonshot 的勇气,持续挑战智能提升的边界。

  杨植麟作为 XLNet 等多项知名科研工作的第一作者,具备非常丰富的科研和实践经验,多年来他一直坚信通过大模型实现对高维数据的压缩是人工智能发展的必经之路,也团结了一支人才密度超高,配合默契,又充满挑战巨头摇滚精神的创业团队。真格基金非常荣幸能够再次从天使轮开始支持杨植麟的新征程。」

电脑内存录入:admin    责任编辑:admin 
  • 上一个电脑内存:

  • 下一个电脑内存: 没有了
  •  
     栏目文章
    普通电脑内存 Moonshot AI 初亮相开启大模型长文本时代|Z … (02-03)
    普通电脑内存 绝地求生闪退怎么办 pubg闪退解决方案 (02-03)
    普通电脑内存 跨境电商独立站术语盘点(一)独立站建站篇 (02-03)
    普通电脑内存 微信体积再变大!新安装包突破700MB聊天记录占… (02-02)
    普通电脑内存 全系列逐一介绍 影驰DDR5内存大盘点 (02-02)
    普通电脑内存 聊天记录占超75%微信内存!微信体积再变大 新… (02-02)
    普通电脑内存 视频缓存是什么意思 (02-01)
    普通电脑内存 手机激活“满屏”应用软件“硬装”是什么原因 (02-01)
    普通电脑内存 电视内存有什么用 (02-01)
    普通电脑内存 内存_爱思助手_第67页 (01-31)
    普通电脑内存 爱国者新款DDR4DDR5内存上市:单条容量最高32… (01-31)
    普通电脑内存 轻松超频8000MHz!阿斯加特女武神D5-6800 24G… (01-31)
    普通电脑内存 计算机之CPU、内存、硬盘、GPU (01-30)
    普通电脑内存 笔记本电脑内存条要怎么加?有哪些注意事项和… (01-30)
    普通电脑内存 中秋内存价格涨不停 热销主流容量内存推荐 (01-30)
    普通电脑内存 6700诺基亚(6670诺基亚) (01-29)
    普通电脑内存 强化生活搜索 微软Bing手机版抢先评测 (01-29)
    普通电脑内存 七点工具箱最新版 (01-29)
    普通电脑内存 环球速读:笔记本内存条8g多少钱一张_笔记本内… (01-28)
    普通电脑内存 释放DDR5性能潜力!七彩虹Z790主板手动内存设… (01-28)