KK免更新
10月25日报导(编译:葛兰东)
Arm在整个机器学习和人工智能的潮流中或许有点晚了,至少在现代芯片的专门规划中是这样的。但就布置在最广泛设备上的人工智能和机器学习芯片的数量而言,这一芯片知识产权的规划者打败了全部人。
Arm的客户,包含竞赛对手英特尔和英伟达,它们也正忙着在遍地布置人工智能技能。该公司还创造了特定的机器学习指令和其他技能,以确保人工智能被嵌入简直全部电子产品,而不只仅是进入服务器的高端设备。
在服务器的层面上,像亚马逊这样的客户正在将根据Arm的机器学习芯片引进其数据中心。最近,Arm机器学习小组副主席Steve Roddy在媒体活动上与外媒进行了交流。
Q:你对机器学习的关注点是什么?
Steve Roddy:咱们瞄准的是高端顾客,这明显是首选。Arm以什么知名?手机处理器。所以专用NPU(神经处理单元)的概念初次出现在高端手机上。现在,苹果、三星、MediaTech、华为和高通都在规划自己的产品。这在一部1000美元的手机里很常见。
咱们推出的是一系列处理器,不只服务于这个商场,也服务于干流商场和低端商场。咱们开端的幻想是,咱们进入这个商场,为人们制作VR眼镜、智能手机,以及那些你更关怀功用而不是本钱平衡的当地。前史经验标明,功用设置出现在高端手机上,需求几年时刻,然后搬运到干流的400-500美元的手机上,然后几年之后,终究出现在更廉价的手机上。
我以为,最风趣的是,整个NPU机器学习的开展速度飞快,但原因不同。例如,曩昔800万像素的传感器从这儿开端,然后当它满足廉价的时分,它会到另一个当地,然后当它更廉价的时分,它又会搬运。不只仅是组件本钱下降并集成到其间,而是被其他东西所替代。机器学习算法能够用来做出不同的或更聪明的决议计划,来决议体系是怎样集成和组合在一同以不同的办法添加价值,或许以不同的办法削减本钱。
Q:你描绘了神经网络怎样找出做某事的办法,然后你会除掉那些实践上不必要的东西。你终究会得到一个更高效或更小的东西,它能够嵌入到微控制器中。
Roddy: 那是一个新式的范畴。退一步说,机器学习实践上有两个组成部分。算法的创立,学习,或许练习,就像它所说的,简直只发作在云中。对我来说,我想开玩笑地说,大多数从业者都会赞同,这是一个具有一百万台打字机的百万只山公。其间一个写莎士比亚十四行诗。练习进程便是这样的。
事实上,谷歌是清晰的。谷歌现在有一个叫做AutoML的东西。假定你有一个从某个开源存储库中挑选的算法,它十分合适你的使命。它是一些你只需求略微调整了一下的图画辨认的东西。你能够将其加载到谷歌的云服务中。他们这样做,明显是由于它以核算服务的办法运转计量器。但根本上是你想付多少钱的问题。
他们将随机测验创立神经网络的不同变体。这儿有更多的过滤器,那里有更多的层级,反向操作,不按次序履行,然后从头运转练习集。这个现在能够完结1%左右的准确率。这仅仅你想花多少钱的问题。在这一百万只山公,一百万台打字机的操作下,核算需求1000美元仍是10000美元?请注意,我发现了一个在面部辨认,语音辨认,或许其他任何方面都比它准确2%的办法。
把这些都放在一边。这便是神经网络的开展。这种布置称为推理。现在我想对我想要辨认的物体进行一次特定的推理。我想在车上运转它,在人行横道上认出老奶奶,或许诸如此类的。Arm明显专心于它所布置的许多硅商场,无论是边际商场仍是终端商场。
例如,你在会议中心的墙上装置了一堆传感器,灯平息了,里边充满了烟雾,由于它着火了。你能够用传感器辨认火灾,激活,并在地板上寻觅尸身。他们能够向消防部分宣布求救信号。"人在这儿";"不要去这个房间,那里没有人";"去这个房间"。这是一件很帅的作业。但你期望它超级高效。你不想让整个会议中心从头布线。你只需求把这个电池驱动的东西贴起来,并等待它能运转三六个月。每隔六个月,你能够替换传感器的安全体系。
这是一个运用数学家创造的笼统模型并将其简化以习惯束缚设备的问题。这是未来最大的应战之一。咱们有自己的处理器,它们很擅长在终端设备上完结高效的神经网络。从一进程来自于数学家,他们正在构思新式的神经网络并了解其间的数学原理,然后把它衔接到较低层次的程序员那里,他是一个嵌入式体系的程序员——那里有一个巨大的技能缺口。
假如你是一个24岁的数学奇才,刚拿到本科数学学位和数据科学研讨生学位,从斯坦福大学毕业,大的互联网公司会在你的宿舍外为你供给了一份作业。实践上你是在神经网络及其背面的数学方面很超卓,但你在嵌入式软件编程方面没有任何技能。那位嵌入式软件工程师,担任拼装CPU、GPU和ARM NPU,将操作体系放在芯片上,做驱动程序和初级固件,他说:"嘿,这是一段代码,里边有一个神经网络。确保它运转在这个有2兆内存和200MHz CPU的受限小设备上。让它发挥作用。"
担任嵌入的人会说,"我不知道这个神经网络是干什么的。它需求的核算量是我的10倍。我能够丢掉的90%是多少?我怎样知道?"高层级的那个人,那个数学家,对束缚设备一窍不通。他研讨数学,大脑的模型。他不明白嵌入式编程。大多数公司不会一同具有两个人。很少有高度整合的公司会让全部人聚在一个房间里进行攀谈。
常常会有这样的言辞,你说你是数学家,我是嵌入式软件工程师。咱们有必要有保密协议才干进行对话。你乐意授权模型输出,但你不会抛弃你的源数据集,你的练习数据集,由于那是你的瑰宝。这便是价值地点。你给我一个练习有素的模型,能够辨认人行横道上的猫、人或祖母,很好,但你不会泄漏细节。你不会告诉我发作了什么。这儿我要解说的是,这怎样不合适我的束缚体系。你能为我做什么?
你不是嵌入式程序员。我不是数学家。咱们该怎样办?这是咱们出资的范畴,其他人也在出资。跟着时刻的推移,在未来这将是一个奇特的范畴。这有助于关闭它之间的循环。这不是一个单向的作业,你给我一个算法,我不断地破解它,直到我使它合适。你给我的是99%的正确率,但我只能完结82%的正确率,由于我需求花费许多的核算来习惯它。这总比什么都没有好,但我真的期望我能回到曩昔,从头练习,并有一个无止境的循环,在那里咱们能够以更好的办法协作。把它看作是束缚和抱负之间的协作。
Q:我想知道这儿听起来了解的部分是相同的仍是十分不同的,可是Dipti Vachani议论了轿车联盟,以及每个人将怎样在自动驾驶轿车上协作,从原型到出产。她说咱们不能在这些车里装超级核算机。咱们有必要把它们降低到更小、更廉价的设备上,这些设备能够投入出产。你说的有什么相似之处吗?超级核算机现已找出了这些算法,现在需求把它们降低到实践水平。
Roddy:当数学家创立这些神经网络时,他们一般运用浮点运算。他们是在一个笼统的无限精度和本质上无限的核算才干。假如你想要更多的核算才干,你需求发动更多的刀片服务器,发动整个数据中心。你在乎什么?假如你乐意写支票到亚马逊或谷歌,你能够这样做。
Q:但你不能把数据中心放在车里。
Roddy:没错,一旦我有了算法的形状,它就变成了一个问题。你会听到像量化、聚类这样的术语。怎样削减复杂度,删去那些实践上并不重要的部分呢?你的大脑中有许多神经衔接(这是在仿照大脑),但其间一半是废物。他们中有一半在真实的事。有很强的衔接能够传递信息,也有很弱的衔接能够修剪掉。假如你失去了一半的脑细胞,你依然能够认出你的伴侣或爱人。练习过的神经网络也是如此。它们在幻想的神经元之间有许多联络。你能够去掉其间的大部分,你依然能够得到适当好的准确度。
Q:可是你会忧虑你丢掉的东西在某些情况下能够用来避免事故。
Roddy: 这是一个测试用例。假如我去掉一半的核算,会发作什么?这便是所谓的再练习。再练习,或许更重要的是要记住方针。不是假定数据中心或超级核算机的无限容量,而是假定我的核算才干有限。
轿车职业便是一个很好的比方。假定10年后你是XYZ德国部件公司行人安全体系的试验室主任。你的算法运转在最新和最好的雷克萨斯和奔跑轿车上。它们每个都有价值5000美元的核算硬件。你的算法也运转在一辆9年前史的我国轿车上,而这款车恰好是你的第一代体系。
你的一位科学家提出了最好的新算法。它的准确率提高了5%。不论怎样,奔跑车的准确度要高5%,但你有义务将其供给给另一个人(事实上,你或许有一份合同,要求你每季度更新一次)。更糟糕的是,现在咱们有来自10家轿车公司的17个渠道。你怎样把这个新的数学创造使用到全部这些当地?有必要有一些结构化的自动化。这是轿车联盟在一个关闭范畴所做尽力的一部分。
咱们正在开发的技能是环绕"咱们怎样树立这些桥梁?"例如,你怎样把一个模型放入开发人员运用的练习集(TensorFlows或许Caffes)。这让他们能够说,"好吧,与其假定我是在云中进行推理,不如假定我是在一个智能门铃的2美元微控制器上运转?"为这个而练习,而不是为笼统而练习。这能够树立许多基础设施。
不论好坏,它有必要跨过职业。你有必要在Facebook的数据科学家、XYZ半导体的芯片制作者、匣子制作商和软件算法人员之间树立起桥梁,这些人都在企图一同对其进行内部晋级。
Q:联盟中或许有像英伟达这样的竞赛对手。你怎样把这个保持在比竞赛对手更高的水平上?
Roddy:英伟达做的事,对我来说,他们是顾客。他们在卖芯片。
事实上,英特尔从Arm那里买了许多东西。在架构上,英伟达是一个很好的比方。他们有自己的NPU。他们称之为NVDLA。他们知道在云中练习,是的,是GPU。那是他们的堡垒。但当他们谈到边际设备时,他们乃至说不是每个人都能在口袋里装上50瓦的GPU。他们有他们自己的版别,咱们在这儿谈到的MPU是以不同巨细的整数运算的定点来完结。从4平方毫米到1平方毫米的硅。这东西的功率不到一瓦特。这比高功用的GPU要好得多。
假如你口袋里有一部相对现代的手机,你就有了NPU。假如你在曩昔几年里买了一部800美元的手机,它会有NPU。苹果有一个。三星有一个。华为有几代都有。他们都做了自己的事。咱们估计,跟着时刻的推移,这些公司中的大多数将不会持续开发自己的硬件。神经网络根本上仅仅一个巨大的数字信号处理滤波器。例如,在一幅大图画中有一组巨大的系数。我的图画分类器或许有1600万个系数,我有400万像素的图画。那仅仅一个巨大的乘法运算。它是多重累积的。这便是为什么咱们要评论CPU的乘法累加功用。这便是为什么咱们制作这些NPU,除了倍增堆集什么也不做。这是一个巨大的过滤器。
现实是,要在8×8的乘法上进行立异,你能做的只需这么多。根本的构建块便是它本身。这是体系规划。在咱们的规划中有许多关于最小化数据移动的东西。它在块级和体系级的数据移动方面很聪明。我不期望10年后,每个手机厂商和轿车厂商都有自己的专用NPU。这没有道理。软件和算法需求专用。架构也需求专用。可是构建块引擎或许会得到答应,就像CPU和GPU 相同。
没有什么能确保咱们会赢。咱们期望如此。由于总有人要完结。或许会有一些十分好的供货商为NPU供给答应,而且大多数专利产品将会消失。咱们期望咱们是赢家之一。咱们喜爱以为咱们有满足的资金去出资去赢得成功,即便咱们的第一批产品没有在商场上取得成功。但有痕迹标明它实践上适当不错。咱们估计这会在5到10年内发作。在体系级,有太多的体系规划挑选和体系软件挑选。这是要害的不同点。
Q:那么,在你即将竞赛的关卡上,你会觉得Arm正在追逐你吗?或许你会对此提出异议吗?
Roddy:这取决于你看的是什么,你的形象是什么。假如你坐下来说,"现在:此时此刻AI在世界上运转了多少,它在哪里运转?"Arm无疑是赢家。绝大多数人工智能算法实践上并不需求专用的NPU。机器学习一向延伸到相似你手机上才智文本输入法这样的东西。你的手机或许现已启用了"ok谷歌"或"你好Siri"。这是机器学习。它或许不在GPU或NPU上运转。它或许仅仅运转在M级内核上。
假如你看看商场上的手机,有多少智能手机?或许是40亿到50亿?其间大约15-20%的手机有NPU。这是最终三代苹果手机,最终两到三代三星手机。就大约说有5亿吧。大方地说,或许是十亿。但每个人都有Facebook。每个人都有谷歌的猜测文本。每个人都有语音帮手。这是一个神经网络,它和其他体系一同在CPU上运转。没有其他挑选。
假如你快速阅读一下,看看大部分推论在哪里运转,你会发现它们在CPU上,而且大部分在ARM上。即便在云中,当您评论推理在何处运转时(不是练习,而是布置),绝大多数推理都在CPU上运转。很明显,大部分是Intel的CPU,可是假如你运用亚马逊的话,就有ARM的服务器。
金融界最经典的是什么?我想有购物中心的卫星相片剖析,这样我能够看到Home Depot的交通门窗代理方式,知道我应该做空仍是做多Home Depot的股票。人们真的会这么做。你需求一堆卫星图画来练习。你还需求财政报告。你有全部家庭库房或JC Penny的全部交通图片,你把它们和曩昔15年的季度成果联络起来,这样你就树立了一个神经网络。现在咱们以为咱们有了一个将交通方式与财政成果相关起来的模型。让咱们来看看曩昔三天卫星在北美全部家庭库房的现场拍照,并对他们的收入做出猜测。
那个实践的猜测,那个揣度,是在CPU上运转的。或许需求几周的GPU练习来树立模型,但我有1000张相片。每一个推论都需求半秒钟。你不需求为此发动一堆GPU。运转它之后,20分钟就能够完结。你现已做了你的猜测。事实上,咱们是神经网络的首要完结者。但提到对这么有魅力的NPU的观点的话,咱们现在的商场上还没有这样的产品。因而,咱们落后了。
但不可否认的是,咱们现在仅仅在规划层面介绍咱们的NPU宗族。咱们有三个NPU。咱们现已给它们以授权。它们在咱们客户的手中。他们正在做规划。本年你不会看到硅。或许下一年晚些时分。没有人等着我发表声明。整个职业还要再过十年才干稳定下来。华为有自己的产品。苹果有自己的产品。三星有自己的产品。高通有自己的产品。英伟达有自己的产品。每个都有自己的。他们真的需求每年出资100个人的人力在硬件上来出产8位乘法器吗?答案或许是否定的。
Q:我记住苹果公司在他们的活动中介绍了他们最新的芯片。他们说,机器学习比曾经强壮了6倍。对芯片这部分的出资是有意义的。这是能够给你带来许多优点的部分。当你在手机和其他强壮的设备上看到这些更大的体系芯片时,你是否期望这部分会被扩大到本来的两倍乃至三倍?
Roddy:有些是,有些不是。咱们看到机器学习功用以多种不同的办法分散。一个意料之外的办法是,它是怎样比前史或许猜测的更快地进入低本钱设备的。屏幕尺度和相机尺度曩昔常常以固定的速度从高端到中档再到低端一代代地下降。咱们现已看到了一个更快速的扩展,由于你能够用NPU做一些风趣的作业,在某种程度上能够让你在体系的其他当地降低本钱,或许启用与体系其他部分不同的功用。
低本钱手机中一个很好的比方是人脸解锁。人脸解锁一般是一个低功耗、低分辨率的摄像头,有必要从你的脸上辨别出我的脸。这便是它所需求做的全部。假如你是个十几岁的孩子,你的朋友就不能翻开你的手机开端发送风趣的短信。它一般只在CPU上的软件中运转,一般是ARM CPU。不论是1000美元的手机仍是100美元的手机,这都足以解锁手机。
但现在,你想把这款价格100美元的手机,变成开展我国家那些没有银行账户的人的署理银行服务。你不期望经过这个糟糕的相机快速自拍来决议谁在进行金融买卖。你需求更准确的面部3D映射。你或许需求一同进行虹膜扫描。假如你能在使用处理器的基础上再添加一个20、30、40美分的小的专用NPU来完结这一点,它只会被用来做实践的具体的面部剖析,这大约便是咱们想要的NPU宗族中最小的尺度。
突然之间,关于100美元的手机,装置一个专用的NPU是有意义的,由于它使手机成为一个安全的银行设备。这不是为了让自拍看起来更好。一个买100美元手机的人不乐意为了让自拍看起来更好而花钱。可是银行公司乐意赞助这款手机来取得买卖流,当然,条件是他们能从发作在孟加拉国或其他当地的每一笔80美分的微买卖中取得一分钱。咱们现在看到的功用,一开端是出于虚荣心,例如让Snapchat滤镜更美丽,让我的自拍看起来年青20岁,但现在你能够用它来做不同的作业。
Q:你以为机器学习占硅预算的百分比应该是多少?
Roddy:这取决于使用程序。有一些产品类别是人们乐意投入的。现在最完美的状况是什么?人们把10或12万亿次核算放入手机。咱们要做的一件事是检查各种类型的功用,核算作业量是多少?其间多少是神经网络部分,多少是其他方式的核算?
比方语音处理。M级CPU上运转。你不需求它能做到"OK Google"和"Hello Siri"。你需求去另一端看一个相似绿屏的东西,我会用我的自拍说,"看我!我在海滩上!"虽然我实践上在一个烦闷的会议室里,但它把我编排了出来,把我放在海滩上。虽然我在看球赛,可是"嗨,亲爱的,我还在办公室"。那需求巨大的马力来完结。
但假如你遭到Instagram的影响,然后你自然会花1200美元买最新款的手机,由于你会想要最酷的视频。但假如在手机里装一个具有每秒20万亿次核算的NPU只需多花5美元,为什么不呢?它这么酷。它是由两头驱动的。你能够做些很好的作业。
AD:还在为资金紧张烦恼吗?猎云银企贷,全面掩盖京津冀区域干流银行及信任、担保公司,帮您详尽整理企业融资问题,统筹规划融资思路,合理撬动更大杠杆。填写只需两分钟,剩余交给咱们!概况咨询微信:zhangbiner870616
来源:版权归属原作者,部分文章推送时未能及时与原作者取得联系,若来源标注错误或侵犯到您的权益烦请告知,我们会及时删除。