中文大模型比英文更烧钱这居然是AI底层原理决定的？

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

中文大模型比英文更烧钱这居…
苹果Vision Pro或配备1TB内存
LLM能否自我评估安全性？RAI…
七彩虹CVN银翼DDR5-6000内存…
4K入门卡？——AMD RX7800XT…
再次来两台全新库存Thinkpad…
显卡用英语怎么说
4080显卡笔记本什么时候出两…
鬼玩人游戏配置要求-硬件需求…
现在什么型号的电脑显示器最…
行业独家！全新惠普288 G9 E…
这些超窄边框显示器简直就是…
泰坦军团（TITAN ARMY）
泰坦军团（TITAN ARMY）显示…
笔记本电脑cpu排行榜天梯图2…
笔记本电脑cpu排名(笔记本电…
2021年AMD和intel 处理器排名…
笔记本电脑cpu排行（笔记本电…
笔记本电脑cpu排行榜(笔记本…
电脑主板型号要怎么看
手把手教你查看主板型号的方…
微星 MSI MAG B460MORTAR
主板型号怎么看台式电脑主板…
查看主板型号的方法
一文读懂32GB大内存的必要性…
GPD WIN系列游戏掌机历代记
IT每周谈：SD卡大小的电脑你…
电脑RAM是什么意思
内存XMP是什么意思？各主板开…
725显卡价格行情（显卡资讯）
显卡亚马逊FCC认证
分析师：相比其他科技巨头英…
显卡是干啥用的显卡是干什么…
玩游戏显卡重要还是CPU重要？
电脑电源检测方法
很多人经常忽略的3C认证其实…
电源管理
如何检测电脑电源是否正常
详解电脑电源检测方法
Win11此应用无法在你的电脑上…
曝李佳琪带货时分不清电脑内…
CentOS7如何添加硬盘和挂载硬…
开学啦！大学新生必看入学需…
扬州恩源电气有限公司
同城约会、上门服务、特殊服…
58同城推出“上门保障服务”…
顺丰同城急送推出“即配服务…
男生看直播预约同城上门服务…
藏身APP 一键预约可上门
南宁百货2023年半年度董事会…

专题栏目

您现在的位置：电脑评测网 >> 电脑内存 >> 正文

高级搜索

中文大模型比英文更烧钱这居然是AI底层原理决定的？

作者：佚名文章来源：本站原创点击数：更新时间：2023/9/20 15:30:11 | 【字体：小大】

　　王洋王煜剧中接吻ChatGPT等AI工具的使用正越来越普遍。在与AI交互时，我们知道，输入的提示词差异会对输出结果产生影响。那么，如果相同意思的提示词，用不同语言分别表述，结果差异是否较大?另外，提示词的输入和输出是和模型背后的计算量直接挂钩的。因此，不同语言之间在AI输出和成本消耗方面是不是有着天然的差异性或者说是“不公平性”?这种“不公平性”又是如何产生的呢?

　　据了解，提示词背后其实对应的不是文字，而是token。当接收到用户输入的提示词之后，模型会将输入转换为token列表进行处理和预测，同时将预测的token转换为我们在输出中看到的单词。也就是，token是语言模型处理和生成文本或代码的基本单位。可以关注到，各家厂商会宣称自家模型支持多少token的上下文，而不是说支持的单词或汉字的数量。

　　首先，一个token并不对应一个英文单词或一个汉字，token跟单词之间没有具体的换算关系。比如，根据OpenAI发布的token计算工具，hamburger一词被分解为ham、bur和ger，共计 3 个token。另外，同一个词语，如果在两句话中的结构不同，会被记作不同数目的token。

　　具体token如何计算主要取决于厂商使用的标记化(tokenization)方法。标记化是将输入和输出文本拆分为可由语言模型处理的token的过程。该过程可以帮助模型处理不同的语言、词汇表和格式。而ChatGPT背后采用的是一种称为“字节对编码”(Byte-Pair Encoding，BPE)的标记化方法。

　　目前来看，一个单词被分解成多少token，跟它的发音和在句子中的结构有关。而不同语言之间的计算差异似乎较大。

　　拿“hamburger”对应的中文“汉堡包”来说，这三个汉字被计作 8 个token，也就是被分解成了 8 部分。

　　对应的中文为：您可以使用下面的工具来理解API如何将一段文本标记化，以及该段文本中标记的总数。共计76token。

　　可以看到，相同意思的中文token数是英文的两倍多。中文和英文在训练和推理上的“不公平性”，也许是因为中文通常一个词汇可以表达多种含义，语言组成较为灵活，中文还有着深厚的文化内涵，具有丰富的语境意义，这极大增加了语言的歧义性和处理难度;英语语法结构较为简单，这使得英语在一些自然语言任务上比中文更容易被处理和理解。

　　中文需要处理的token更多，模型所消耗的内存和计算资源也就越多，当然所需要的成本也就越大。

　　同时，ChatGPT虽然可以识别包括中文在内的多种语言，但它训练使用的数据集大都为英文文本，在处理非英语语言时，可能面临语言结构、语法等方面的挑战，进而影响输出效果。近日的一篇题为《多语言语言模型在英语中表现得更好吗?》(Do Multilingual Language Models Think Better in English?)的论文中提到，当将非英文语言翻译成英文后输出的结果，要好于直接使用非英文语言作为提示词的结果。

　　对中文用户来说，似乎先将中文翻译成英文，然后再与AI交互，似乎效果更好，也更划算。毕竟使用OpenAI的GPT- 4 模型API，每输入 1 千token至少要收费0. 03 美元。

　　那由于中文语言的复杂性，AI模型在使用中文数据进行准确训练和推理方面可能面临挑战，并增加了中文模型应用和维护的难度。同时，对开发大模型的公司来说，做中文大模型由于需要额外的资源，或许要承担更大的成

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

　　6月1日，2023中国科幻大会·元宇宙产业峰会在石景山首钢园一高炉SoReal元宇宙乐园盛大举办。

　　上海车展正在火热进行中，一汽大众在2023上海车展中带来了ID家族的旗舰轿车产品，ID.7 VIZZION，新车基于MEB平台打造而来，预计将于今年下半年正式上市。

　　5月18日，为了帮助中小企业解决定为难、运营难、资金难、人才难、资源难等问题，杭州市市场营销协会组织多家专业机构联合举办“名企游学，走进上市公司”活动，通过学习交流赋能中小企业更好地完成转型升级。此次活动走进“A股互联网第一股”浙江网盛生意宝股份有限公司。

　　5月18日，由京东携手爱空间整装举办的京东装修自营业务新品发布会暨京东联合爱空间整装新品媒体见面会正式召开。

电脑内存录入：admin 责任编辑：admin
	上一个电脑内存：苹果Vision Pro或配备1TB内存下一个电脑内存：没有了

　栏目文章

中文大模型比英文更烧钱这居然是AI底层原理决… (09-20)	苹果Vision Pro或配备1TB内存 (09-20)
LLM能否自我评估安全性？RAIN：一种无需微调即… (09-20)	七彩虹CVN银翼DDR5-6000内存评测：星空银河元… (09-20)
一文读懂32GB大内存的必要性不仅仅是让智慧PC… (09-20)	GPD WIN系列游戏掌机历代记 (09-20)
IT每周谈：SD卡大小的电脑你见过没？ (09-20)	电脑RAM是什么意思 (09-20)
内存XMP是什么意思？各主板开启XMP提高内存频… (09-20)	三星笔记本内存条参数怎么看铭牌上各字母数字… (09-19)
抢单成功 (09-19)	电脑开机后蓝屏显示英文 (09-19)
己知英文字母“a”的ASCⅡ码是1100001那么计算… (09-19)	世纪状元学习机学生平板电脑大屏大内存英语点… (09-19)
虚拟内存(Virtual Memory)简介 (09-19)	虚拟内存是什么？虚拟内存设置方法设置教程。 (09-19)
英文简称）将计算、存储和网络整合成一个虚拟… (09-19)	虚拟内存是什么意思虚拟内存指的是什么呢 (09-19)
虚拟内存是什么意思介绍(虚拟内存是什么意思详… (09-19)	计算机工作原理（CPU、存储、内存、读写） (09-18)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！