返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 中文大模型比英文更烧钱是AI…
 投影仪怎么选 投影仪选购方法…
 阿里云通义千问开源:70亿参…
 Steam 12月硬件调查报告:GT…
 无限创意ChatGLM-6B一体机引…
 性能出众频率上31GHz!华硕T…
 RTX 4060用多大电源 带的动4…
 空调是5000w用的32A空开和4平…
 同步发电机并网三要素及条件
 19种常见的二极管应用电路(…
 MCU要如何选择才最正确?
 斜五孔插座和正五孔插座哪一…
 国内首家!这家公司实现39微…
 选型大揭秘:导轨电源千千万…
 竞显非凡 惠科携三款显示器新…
 显示屏改变生活改变你我
 第六届进博会开幕倒计时50天…
 DIY小技巧:现在还值得为CPU…
 现在还值得为CPU超频攒机么?
 The bornless报错错误代码崩…
 聊一款售价40万元的笔记本电…
 王小川:离电脑越近的工作被…
 中秋国庆嗨不停 华硕主板助你…
 iPhone14主板维修要多少钱 苹…
 同行送台电脑找我维修我以为…
 英特尔13代CPU兼容哪些主板插…
 三星推出业界首款LPCAMM内存…
 崩坏星穹铁道pc端和手机互通…
 24G+1T大内存240W闪充+IMX89…
 科技昨夜今晨0927:三星首发…
 UltraRAM 超高效存储技术推进…
 龙芯3C5000工业计算机模块上…
 龙迅股份(688486SH):英伟达…
 超声电子:9月19日接受机构调…
 机构:Q2全球PC显示器出货同…
 洛图科技:今年 1-8 月国内便…
 优派 VX2781-2K-OLED 显示器…
 4199 元宏碁推出非凡 Go Pro…
 LG电子将推出可折叠屏笔记本…
 三星电子计划10月份开始在印…
 女生和大妈在地铁起争执一句…
 斗鱼宝可梦主播谢起灵已经和…
 40系列显卡用PCIE30有影响吗…
 win7电脑查看主板型号的详细…
 专精特新看中国|抗零下55℃…
 专精特新看中国 主板上“盖楼…
 【专精特新看中国】出厂先过…
 Win11怎么检测内存条 Win11电…
 后期制作有前途吗 学习后期使…
 开启PC内存新未来三星推出全…
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑内存 >> 正文
高级搜索
中文大模型比英文更烧钱是AI底层原理决定的?
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/9/28 14:02:20 | 【字体:

  恶搞白木莲ChatGPT等AI工具的使用正越来越普遍。在与AI交互时,我们知道,输入的提示词差异会对输出结果产生影响。那么,如果相同意思的提示词,用不同语言分别表述,结果差异是否较大?另外,提示词的输入和输出是和模型背后的计算量直接挂钩的。因此,不同语言之间在AI输出和成本消耗方面是不是有着天然的差异性或者说是“不公平性”?

  据了解,提示词背后其实对应的不是文字,而是token。当接收到用户输入的提示词之后,模型会将输入转换为token列表进行处理和预测,同时将预测的token转换为我们在输出中看到的单词。也就是,token是语言模型处理和生成文本或代码的基本单位。可以关注到,各家厂商会宣称自家模型支持多少token的上下文,而不是说支持的单词或汉字的数量。

  首先,一个token并不对应一个英文单词或一个汉字,token跟单词之间没有具体的换算关系。比如,根据OpenAI发布的token计算工具,hamburger一词被分解为ham、bur和ger,共计3个token。另外,同一个词语,如果在两句话中的结构不同,会被记作不同数目的token。

  具体token如何计算主要取决于厂商使用的标记化(tokenization)方法。标记化是将输入和输出文本拆分为可由语言模型处理的token的过程。该过程可以帮助模型处理不同的语言、词汇表和格式。而ChatGPT背后采用的是一种称为“字节对编码”(Byte-Pair Encoding,BPE)的标记化方法。

  目前来看,一个单词被分解成多少token,跟它的发音和在句子中的结构有关。而不同语言之间的计算差异似乎较大。

  拿“hamburger”对应的中文“汉堡包”来说,这三个汉字被计作8个token,也就是被分解成了8部分。

  对应的中文为:您可以使用下面的工具来理解API如何将一段文本标记化,以及该段文本中标记的总数。共计76token。

  可以看到,相同意思的中文token数是英文的两倍多。中文和英文在训练和推理上的“不公平性”,也许是因为中文通常一个词汇可以表达多种含义,语言组成较为灵活,中文还有着深厚的文化内涵,具有丰富的语境意义,这极大增加了语言的歧义性和处理难度;英语语法结构较为简单,这使得英语在一些自然语言任务上比中文更容易被处理和理解。

  中文需要处理的token更多,模型所消耗的内存和计算资源也就越多,当然所需要的成本也就越大。

  同时,ChatGPT虽然可以识别包括中文在内的多种语言,但它训练使用的数据集大都为英文文本,在处理非英语语言时,可能面临语言结构、语法等方面的挑战,进而影响输出效果。近日的一篇题为《多语言语言模型在英语中表现得更好吗?》(Do Multilingual Language Models Think Better in English?)的论文中提到,当将非英文语言翻译成英文后输出的结果,要好于直接使用非英文语言作为提示词的结果。

  对中文用户来说,先将中文翻译成英文,然后再与AI交互,似乎效果更好,也更划算。毕竟使用OpenAI的GPT-4模型API,每输入1千token至少要收费0.03美元。

  那由于中文语言的复杂性,AI模型在使用中文数据进行准确训练和推理方面可能面临挑战,并增加了中文模型应用和维护的难度。同时,对开发大模型的公司来说,做中文大模型由于需要额外的资源,或许要承担更大的成本。

电脑内存录入:admin    责任编辑:admin 
  • 上一个电脑内存:

  • 下一个电脑内存: 没有了
  •  
     栏目文章
    普通电脑内存 中文大模型比英文更烧钱是AI底层原理决定的? (09-28)
    普通电脑内存 投影仪怎么选 投影仪选购方法【步骤分享】 (09-28)
    普通电脑内存 崩坏星穹铁道pc端和手机互通吗 电脑端内存大小… (09-28)
    普通电脑内存 24G+1T大内存240W闪充+IMX890+超窄直屏线旗舰… (09-28)
    普通电脑内存 科技昨夜今晨0927:三星首发电脑 LPCAMM 新形… (09-28)
    普通电脑内存 UltraRAM 超高效存储技术推进商业化:整合内存… (09-28)
    普通电脑内存 龙芯3C5000工业计算机模块上市:16核处理器+板… (09-28)
    普通电脑内存 Win11怎么检测内存条 Win11电脑如何进行内存检… (09-27)
    普通电脑内存 后期制作有前途吗 学习后期使用的电脑内存越大… (09-27)
    普通电脑内存 开启PC内存新未来三星推出全球首款LPCAMM内存… (09-27)
    普通电脑内存 三星推出全球首款用于PC的LPCAMM内存:可拆卸… (09-27)
    普通电脑内存 三星推出全球首款适用于 PC 的 LPCAMM 内存 (09-27)
    普通电脑内存 手机运行内存是否越大越好?和储存内存区别在… (09-26)
    普通电脑内存 bo体育app官网下载 (09-26)
    普通电脑内存 14运行内存 (09-26)
    普通电脑内存 发热掉漆死机频繁 热门改版机缺点曝光 (09-26)
    普通电脑内存 运行内存是什么意思(Reno9内存配置值得购买吗… (09-26)
    普通电脑内存 浅谈内存发展史 (09-25)
    普通电脑内存 戴尔XPS 13 Plus可以加内存吗 的缺点是什么 (09-25)
    普通电脑内存 JUHOR 玖合星舞系列DDR4内存条超频实测:超低… (09-25)