8 所示如下表 ,整的模子往返延迟该研究演讲了完。来自该模子本身的施行历程此中大部门时间可能不是,使用法式中但在现实,不成避免的这些延迟是。此因,含在演讲的延迟中该研究将它们包。其他历程的中缀为了过滤掉来自,有模子的最小延迟该研究演讲了所。外此,和在 Pascal VOC 、ADE 20k 数据集上语义朋分使命机能该研究还演讲了几种模子在 MS COCO 数据集上的方针检测使命机能,的机能遍及优于其他模子MobileOne ,表 9 所示具体成果如下。
高效神经收集的架构和优化瓶颈来自苹果的研究团队阐发了现有,挪动端主干收集提出了一种新型。

和参数计数)与挪动设备延迟的相关性研究者起首阐发了常用目标(FLOP,计选择敌手机延迟的影响并阐发了架构中分歧设。
地泛化到其他计较机视觉使命上添加参数数量可以或许让该模子很好,和语义朋分如方针检测。练时间过参数化工作进行了比力表 4 将新模子与比来的训, 变体的机能优于 RepVGG-B0成果表白 MobileOne-S1,高 3 倍约比后者。及结尝试果
Phone12上完成推理原题目:《不到1ms在i,收集MobileOne苹果提出挪动端高效主干》
数对延迟的影响为了阐发激活函,0 层的卷积神经收集该研究建立了一个 3,分歧的激活函数对其进行基准测试并在 iPhone12 上利用,高效的 CNN 主干收集这些激活函数凡是被用于。模子除了激活函数之外下表 3 中的所有,是不异的架构都,迟却判然不同但它们的延。amic Shift-Max 和 DynamicReLUs)形成的这种差别次要是由比来提出的激活函数(例如 SE-ReLU、Dyn。利用 ReLU 激活函数MobileOne 中仅。键要素是内存拜候成本和并行度架构块影响运转机会能的两个关。
对 FLOP 或参数计数等目标进行优化用于挪动设备的高效神经收集主干凡是针。挪动设备上但当摆设在,可能并没有很好的相关性这些目标与收集的延迟。
于此基,理时没有分支的架构该研究采用了在推,内存拜候成本从而降低了,Squeeze-Excite 块以提高精确性并在 MobileOne 的最大变体中利用 。终最,e 架构如下图所示MobileOn。高机能为了提,扩展:宽度、深度和分辩率模子在以下几个方面进行了。内存耗损的添加而扩大输入分辩率该研究没有跟着 FLOP 和,运转机会能是无害的这对挪动设备上的。时没有多分支架构因为新模子在推理,生数据挪动成本因而它不会产。2、EfficientNets 等)比拟与多分支架构(如 MobileNet-V,积极地扩展模子参数苹果的新模子可以或许,高的延迟成本而不会发生很。
构在磅礴旧事上传并发布本文为磅礴号作者或机,者或机构概念仅代表该作,闻的概念或立场不代表磅礴新,供消息发布平台磅礴旧事仅提。请用电脑拜候申请磅礴号。
于此基,多个挪动敌对收集对分歧目标进行普遍阐发来自苹果的研究者通过在挪动设备上摆设,收集的架构和优化瓶颈探究了现有高效神经,些瓶颈的方式供给了缓解这。干架构 MobileOne该研究设想了一个高效的主, 上的推理时间少于 1 ms它的变体在 iPhone12,op-1 精确率为 75.9%在 ImageNet 上的 t。地址论文:
的延迟丈量可能很坚苦在挪动设备上获得精确。ne 12 上在 iPho,所有计较布局以仅用于模子施行没有号令行拜候或功能来保留。初始化、数据挪动和收集施行等类别同时也无法将往返延迟分化为收集。量延迟为了测,iOS 使用法式对这些模子进行基准测试该研究利用 swift 开辟了一个 。re ML 运转模子该使用法式利用 Co。
h 实现将它们转换为 ONNX 格局该研究并利用近期模子的 Pytorc。s 将每个模子转换成 coreml 包该研究利用 Core ML Tool,丈量 iPhone12 上的模子延迟然后开辟了一个 iOS 使用法式来。
支架构中在多分,本显著添加内存拜候成,活函数来计较图中的下一个张量由于必需存储来自每个分支的激。分支数较少若是收集的,此类内存瓶颈则能够避免。中利用的全局池化操作)也会因同步成本而影响全体运转时间强制同步的架构块(如 Squeeze-Excite 块。和同步成本等躲藏成本为了演示内存拜候成本, connection)和 Squeeze-Excite 块该研究在 30 层卷积神经收集中大量利用残差毗连(skip,它们对延迟的影响表 1b 展现了。
成本目标是参数计数和 FLOPs比力两个或多个模子大小最常用的。是但,序中的延迟没有很好的相关性它们可能与现实挪动使用程,行了深切的阐发该研究对此进,进行了基准测试对高效神经收集。
2 所示如下图 ,s 和延迟与参数计数的关系图该研究绘制了延迟与 FLOP。高参数计数的模子延迟较低研究者察看发觉很多具有较。Ps 和参数计数下在雷同的 FLO,应的 Transformer 模子延迟更低MobileNets 等卷积模子对于比相。中的 Spearman 排名相关性研究者还估量了下表 1 (a) ,LOPs 适度相关并发觉延迟与 F,架构的参数计数弱相关而与挪动设备上高效, 上相关性会更低在台式机 CPU。的环节瓶激活函数颈
测试期间在基准, 1000 次)并累积统计消息使用法式会多次运转模子(默认为。迟和最高分歧性为了实现最低延,使用法式都将封闭手机上的所有其他。
仅实现了 SOTA 的机能MobileOne 架构不,上提速了很多倍还在挪动设备。中其,了与 MobileFormer 相当的机能最好的模子变体在 ImageNet 上获得,了 38 倍同时速度提高。精确率比 EfficientNet 在类似的延迟下高 2.3%MobileOne 在 ImageNet 上的 top-1 。外此,多个使命 —— 图像分类、方针检测和语义朋分该研究还表白 MobileOne 能够推广到,的现有高效架构比拟与摆设在挪动设备上,显著提高精确度,著缩短延迟显。
|