返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 Batch大小不一定是2的n次幂M…
 史上最小!USB 30+SATA 30!…
 中学语文老师干出一个IPO:三…
 英特尔Oak Trail 10寸铝壳平…
 在工控电脑内部安装独立显卡…
 电脑显卡安装的图文教程
 小而美的安卓性能机皇:一加…
 【双11专场】PUBG主机硬件选…
 B660可以装4060吗
 RTX 4060显卡性能怎么样 会像…
 4080显卡出了吗 显卡价格是多…
 晚间公告热点追踪:隆基股份…
 公告精选:多家公司前两月业…
 福建实达集团股份有限公司20…
 适合外出使用的笔记本电源SA…
 深市上市公司公告(10月22日…
 台式机硬盘是什么样的
 电脑磁盘和硬盘的区别
 三种电脑硬盘类型的区别与数…
 计算机主机干什么电脑硬盘是…
 【手慢无】老电脑升级神器!…
 广东省中医院CT设备维保服务…
 疫情叠加寒潮这群人24小时枕…
 天津海特:15亿“小目标”的…
 微软推出在线咨询电脑修复问…
 足不出户 360电脑专家为您免…
 做电商如何找货源?33个货源…
 五个做淘宝你必须收藏的货源…
 批批网打造服装批发直播新模…
 阿里巴巴批发网官方网(阿里…
 富农商网----农产品采购批发…
 遇圣诞购好礼华硕纯白显示器…
 千元预算的4K显示器KOIOSK27…
 2021年显示器怎么挑选?科普…
 MiniLED显示器线Q Max一步到…
 什么电竞显示器比较好 推荐三…
 中国笔记本CPU风扇市场分析及…
 Noctua推出被动式CPU散热器高…
 旧猫:5千价位笔记本电脑推荐…
 【装机科普日报】第22期:电…
 电竞笔记本电脑细分市场崛起…
 愉快买买买:DDR5内存价格看…
 影驰发布全球第三款8GHz DDR…
 百维存储688525上市估值分析…
 vivo S16系列发布:首创双面…
 vivo X90电池容量多大 最大内…
 40系显卡到来趁着双12优惠正…
 PC早报|苹果“xrOS”首曝美…
 电脑显卡接口类型 原创
 RTX 4080显卡功率是多大 公版…
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑内存 >> 正文
高级搜索
Batch大小不一定是2的n次幂ML资深学者最新结论
作者:佚名 文章来源:本站原创 点击数: 更新时间:2022/12/24 12:29:49 | 【字体:

  泰尹网wiy5这是威斯康星大学麦迪逊分校助理教授Sebastian Raschka(以下简称R教授)的最新结论。

  在神经网络训练中,2的n次幂作为Batch大小已经成为一个标准惯例,即64、128、256、512、1024等。

  或者更准确地说,根据内存对齐规则,cpu在读取内存时是一块一块进行读取的,块的大小可以是2,4,8,16(总之是2的倍数)。

  因此,选取2的n次幂作为batch大小,主要是为了将一个或多个批次整齐地安装在一个页面上,以帮助GPU并行处理。

  其实就是矩阵A的第一行每个元素分别与B的第一列相乘再求和,得到C矩阵的第一个数,然后A矩阵的第一行再与B矩阵的第二列相乘,得到第二个数,然后是A矩阵的第二行与B矩阵的第一列……

  因此,如上图所示,我们拥有2×M×N×K个每秒浮点运算次数(FLOPS)。

  现在,如果我们使用带有Tensor Cores的GPU,例如V100时,当矩阵尺寸(M,N以及K)与16字节的倍数对齐,在FP16混合精度训练中,8的倍数的运算效率最为理想。

  因此,假设在理论上,batch大小为8倍数时,对于具有Tensor Cores和FP16混合精度训练的GPU最有效,那么让我们调查一下这一说法在实践中是否也成立。

  为了了解不同的batch数值对训练速度的影响,R教授在CIFAR-10上运行了一个简单的基准测试训练——MobileNetV3(大)——图像的大小为224×224,以便达到适当的GPU利用率。

  R教授用16位自动混合精度训练在V100卡上运行训练,该训练能更高效地使用GPU的Tensor Cores。

  如果你想自己运行,该代码可在此GitHub存储库中找到(链接附在文末)。

  从上图可以看出,以样本数量128为参考点,将样本数量减少1(127)或增加1(129),的确会导致训练速度略慢,但这种差异几乎可以忽略不计。

  而将样本数量减少28(100)会导致训练速度明显放缓,这可能是因为模型现在需要处理的批次比以前更多(50,000/100=500与50,000/128= 390)。

  鉴于MobileNetV3架构和输入映像大小,上一轮中样本数量相对较小,因此GPU利用率约为70%。

  为了调查GPU满载时的训练速度,本轮把样本数量增加到512,使GPU的计算利用率接近100%。

  可以看出,跟上一轮结果一样,不管样本数量是否是2的n次幂,训练速度的差异几乎可以忽略不计。

  基于前两轮测试评估的都是单个GPU的训练性能,而如今多个GPU上的深度神经网络训练更常见。为此,这轮进行的是多GPU培训。

  所有基准测试的每个设置都只运行过一次,理想情况下当然是重复运行次数越多越好,最好还能生成平均和标准偏差,但这并不会影响到上述结论。

  此外,虽然R教授是在同一台机器上运行的所有基准测试,但两次运营之间没有特意相隔很长时间,因此,这可能意味着前后两次运行之间的GPU基本温度可能不同,并可能稍微影响到运算时间。

  可以看出,选择2的n次幂或8的倍数作为batch大小在实践中不会产生明显差异。

  然而,由于在实际使用中已成为约定俗成,选择2的n次幂作为batch大小,的确可以帮助运算更简单并且易于管理。

  此外,如果你有兴趣发表学术研究论文,选择2的n次幂将使你的论文看上去不那么主观。

  尽管如此,R教授仍然认为,batch的最佳大小在很大程度上取决于神经网络架构和损失函数。

  例如,在最近使用相同ResNet架构的研究项目中,他发现batch的最佳大小可以在16到256之间,具体取决于损失函数。

  但是,如果你由于内存限制而无法使用512作为batch大小,那么则不必降到256,首先考虑500即可。

  他在UW-Madison(威斯康星大学麦迪逊分校)担任统计学助理教授,专注于深度学习和机器学习研究,同时也是Lightning AI的首席 AI 教育家。

  另外他还写过一系列用Python和Scikit-learn做机器学习的教材。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

电脑内存录入:admin    责任编辑:admin 
  • 上一个电脑内存:

  • 下一个电脑内存: 没有了
  •  
     栏目文章
    普通电脑内存 Batch大小不一定是2的n次幂ML资深学者最新结论 (12-24)
    普通电脑内存 愉快买买买:DDR5内存价格看齐DDR4了! (12-24)
    普通电脑内存 影驰发布全球第三款8GHz DDR5内存:如此光污染… (12-24)
    普通电脑内存 百维存储688525上市估值分析和申购建议 (12-24)
    普通电脑内存 vivo S16系列发布:首创双面柔光人像 搭载内存… (12-24)
    普通电脑内存 vivo X90电池容量多大 最大内存是多少? (12-24)
    普通电脑内存 图文细说计算机存储器的历史 (12-23)
    普通电脑内存 考研计算机专业基础综合试题 (12-23)
    普通电脑内存 计算机系统的组成与功能 (12-23)
    普通电脑内存 计算机基础知识试题及答案 (12-23)
    普通电脑内存 SK海力士公布DDR5内存规范这个时序我顶不住了… (12-23)
    普通电脑内存 手机里垃圾太多找到手机这个设置彻底清除垃圾… (12-23)
    普通电脑内存 小技巧:如何为iOS设备腾出更多存储空间 (12-23)
    普通电脑内存 JTG 6310-2022英文版 收费公路联网收费技术标… (12-23)
    普通电脑内存 东京奥运口号只有英文版引争议:中文译本五花… (12-23)
    普通电脑内存 “内存刺客”微信键盘初体验:不得不说是个整… (12-23)
    普通电脑内存 西数-电子发烧友网 (12-23)
    普通电脑内存 硬件常用的英文缩写 (12-23)
    普通电脑内存 内存中的随机存储器的英文缩写为 (12-23)
    普通电脑内存 计算机领域内同步动态内存英文缩写是()。 (12-23)