近年来,处理器技术进步如此之多,现在可以使用拇指驱动器尺寸的装置来为神经网络供电。但是由于实施大规模人造智能模型的根本挑战,公司往往力图充分利用其掌握的计算能力。

这个问题与可扩展性有关,IBM Corp.正在与周二公布的分布式深度学习(DDL)软件库进行对比。深度学习是机器学习的一个子集,它试图用大致与人类相同的方式教授电脑学习。例如,人们不会通过解释一个生物有四条腿,一条鼻子和一条尾巴的事实来识别狗。一旦他们知道一只狗的样子,他们将永远与猫分歧。深入学习尝试在软件中复制该方法。 IBM表示:最新的突破可以大大提高深度的学习速度-ZAERA

大多数深入学习框架都支持跨多个服务器扩展大型模型的能力,许多人现在支持图形处理单元,但是他们收集和同步调查结果的方式远远不够,  Hillery Hunter(图)说,该公司的主管研究组。

同步工作流程

运行在由图形处理单元芯片增强的一组计算机上的深度学习模型具有数百万分布和相互关联的处理元素,其作用大致类似于人类大脑中的神经元。 这些人造神经元一起处理信息,就像他们的有机对手一样,每个人都处理一小部分数据。当节点完成计算时,结果将在神经网络的其余部分同步,以帮助协调工作。

据IBM说,这就是瓶颈所在。 部署运行人造神经元的GPU越快,计算结果越快,意味着结果必须更频繁地进行同步。由于AI集群的构建方式,如果环境中的芯片数量增加,同样适用。但深度学习框架只能频繁地同步数据。

因此,处理速度受数据可以在GPU之间行进的速率的限制。DDL使用所谓的多通信通信算法来改变平衡。库修改发送信息的网络路径,以实现延迟和带宽之间的“最佳”平衡,使通信远远不是瓶颈。

创纪录的表现

在内部测试中,IBM在具有数百个GPU的集群上部署了DDL,并开始处理来自流行研究数据集的750万图像,将其分为22,000个类别中的一个或多个。该模型在经过7个小时的培训后,准确地认出了33.8%的对象,轻轻地打破了微软公司10天培训之前的29.8%的记录。

如果4%的改进听起来很小,整体成功率低,那是因为该模型的意图要比现实中遇到的更复杂,高性能计算和人造副总裁Sumit Gupta说IBM的情报。他说,这使得进展顺利,他指出,微软以前的创纪录比之前的纪录只有百分之零点八。他说:“基准旨在强调深度学习软件,以证明研究人员真正建立了更好的东西。”

DDL在AI开发的培训阶段特别有用,这是整个项目生命周期中单一最大的时间槽之一。有时,模型有时会花费几个星期或几个月的时间来处理样品数据,然后才能准确生产生产用途 在某些情况下,IBM声称其库可以将该过程缩短到仅仅几个小时。Gupta说:“如果培训一个模型需要16天才能识别一张新的信用卡,那么16天你就会亏本。”

他说,深入学习在医疗场景中也很有用,例如组织分析,长时间的训练时间可能是生命或死亡问题。还有其他好处。如果一个深刻的学习模式可以在几个小时而不是几个星期内进行培训,那么公司的AI基础设施就可以更快地为其他项目腾出更多的工作。

在另一个示范中,IBM的DDL被证明可以实现95%的缩放效率,而在早些时候的测试中,与Facebook Inc.记录的89%相比。两个测试都使用相同的样本数据。

IBM表示,DDL帮助公司以时间限制以前不可能实现的速度和范围来训练他们的模型。它将DDL库连接到所有受欢迎的深入学习框架,包括TensorFlow,Caffe,Chainer,Torch和Theano。