如何评价《谷歌太可怕了》一文?
题目“1”并没有歪曲专家的原话和语境。
为什么恶意说中国某个本土的专门技术领先世界?有些人就是受不了中国好吗?如果你有疑问,请拿出证据来说服大家。
这位专家显然对自己的工作充满信心,并宣传中国取得的成就。媒体的恶意是什么?为什么断言这个专家的句子不好?
以下是观察者网最新发布的解读文章:
刘铁:寒武纪处理器是中国科学院多年努力的技术成果。
近日,采访了中科院计算所陈研究员,汇报了深度学习处理器指令集DianNaoYu和寒武纪神经网络处理器。很多读者为“中国智能芯片引领世界”感到高兴,但也有读者提出了质疑——有读者怀疑寒武纪处理器是营销炒作;有读者认为“英伟达一出手,寒武纪就完了”;还有的读者认为,自主指令集DianNaoYu太容易了,寒武纪没有跳出传统芯片的范畴,无法模拟大脑的突触,只有IBM的“真北”才是真正的神经网络处理器。
鉴于此,笔者咨询了北京中科寒武纪科技有限公司陈博士,并根据自己的观点做了一些澄清。
经典冯诺依曼结构的寒武纪突破
人工神经网络是模仿生物神经网络构造的一类计算机算法的总称,由若干人工神经元节点(以下简称“神经元”)组成。神经元由突触连接,突触记录神经元之间连接的强度(重量)。
每个神经元都可以抽象为一个兴奋函数,这个函数的输入由与其相连的神经元的输出和连接该神经元的突触决定。为了表达特定的知识,用户通常需要调整(通过一些特定的算法)人工神经网络中突触的值和网络的拓扑结构。这个过程叫做“学习”。人工神经网络经过学习,可以通过获得的知识解决具体问题。
要想通过云服务、手机等载体让神经网络算法方便普通人使用,计算机硬件成为关键瓶颈——谷歌用于猫脸识别的神经网络训练和使用速度慢,消耗大量计算资源,普通用户无法承受;广告推荐应用必须在100毫秒甚至更短的时间内计算出终端用户可能关心的产品,对于很多大规模的深度神经网络计算,目前的CPU和GPU是不可能达到这个速度的。
所以传统处理器(包括x86和ARM芯片)对于深度学习的处理效率并不高,需要另辟蹊径突破经典的冯诺依曼结构。
神经网络在训练时,可以通过自动调整神经元之间突触的权重来实现对已有知识的归纳和总结,在使用时,可以根据当前突触权重计算出当前输入对应的输出结果。换句话说,神经网络中的存储和处理是一体化的,它们都通过突触权重来体现。
在冯诺依曼的结构中,存储和处理是分开的,分别由存储器和运算器来实现。这两者之间有着巨大的差异。使用现有的基于冯诺依曼架构的经典计算机(如X86处理器、NVIDIA GPU)运行神经网络应用时,不可避免地受到存储和处理结构分离的制约,效率较低。
这是开发一个专用于人工智能的神经网络处理器的根本。
寒武纪处理器不是炒作营销。
有读者质疑寒武纪处理器是在用阿尔法狗打李世石来炒作自己,这是商业包装,炒作营销。但实际上,寒武纪处理器是中科院在计算方面多年努力的技术成果。
早在2008年,中科院计算所就在国际上率先研发出寒武纪系列深度神经网络处理器。相关工作曾获得计算机硬件领域顶级会议ASPLOS'14和MICRO'14的最佳论文奖。这也是亚洲首次获得该领域顶级会议的最佳论文奖。
寒武纪1还被计算机械协会通讯选为2014年度计算机领域的研究热点(每年20篇左右,大陆首次入选)。这标志着我国在类脑计算领域进入国际领先行列。
此外,深度学习处理器指令集DianNaoYu被ISCA 2016(计算机体系结构国际研讨会)接受,成绩在所有近300篇投稿中排名第一。
到目前为止,陈博士和陈云勇研究员在光寒武纪系列的技术成果上,已经收获了两个ASPLOS、两个ISCA、一个MICRO和一个HPCA。这是计算机体系结构的四大顶级国际会议,但只有科研界关注,普通人不了解其意义。
所以寒武纪处理器不是阿尔法狗大战李世石这个热点诞生的,而是长期技术积累的结果,在几年前的高端国际会议上获奖无数。以往在主流媒体上是从来没有过的。只是国内媒体人更愿意报道国外所谓的“高科技”。所谓的“高科技”哪怕只是某个品牌的手机尺寸变大了一点点,也一定是满篇文章和报道。各种赞不绝于耳,却搞不清很多专业领域的顶级会议的意义,导致对真正非常有价值的自主技术选择性失明。
自主指令集电脑语的意义
指令集是代码的集合。它是用一些代码来表示读写操作,命令计算机做各种操作的一套命令标准。
重新定义指令集的技术难度接近于零。美国曾经禁止将单个指令集作为专利申请,只有将指令集与实现方法相结合才允许申请专利。然而,指令集对集成电路设计的影响不容忽视。例如,用ARM不完整的指令集设计高性能芯片是不可能的。最近几年,ARM更新指令集,购买MIPS 498指令集授权后,才得以在高性能芯片领域展现实力。
简单指令集本身的价值是非常有限的。真正有价值的是围绕指令集构建的软件生态,指令集的实现方法和自由扩展指令集的权力。软件生态大家都懂,我就不细说了,重点说指令集的开发权。
比如华为买了ARM指令集授权,却没有自主扩展指令集的权力,导致利润被别人控制,就像合资车厂给外资输血一样——买ARM指令集授权不仅贵,而且授权期限只有五年,使用范围有限。最重要的是“无止境购买”——指令集到期就买,指令集更新。
另外,除了购买指令集授权的利润,ARM指令集是改不了的。即使冒着侵犯知识产权的风险修改,也无法得到AA制软件商的支持,相当于指令集的无效扩展。
与之形成鲜明对比的是,龙芯。龙芯获得了MIPS的永久授权,避免了“买不完”的尴尬,在利润上也不受制于人。
更重要的是,它拥有自主扩展权——龙芯ISA有1907,MIPS有527,其余指令由龙芯自主扩展。由于自建生态,自扩展指令集自然可以得到软件的支持,也得到了很多国外开源软件的支持。龙芯可以通过自己的扩展向量指令达到特殊应用的原始峰值。而且购买ARM指令集授权只能是ARM卖什么,你用什么;购买ARM指令集的IC设计公司,不可能靠龙芯自主扩充指令集,让特定应用的峰值翻两番。
可见,独立指令集DianNaoYu的意义在于,盈利不受制于人,发展不受制于人。
虽然DianNaoYu对X86和ARM不会有什么影响,但是美国的哈佛、斯坦福、麻省理工、哥伦比亚、IBM都在做神经网络处理器。可以预见,在神经网络处理器中,将会出现一场类似过去的Alhpa、MIPS、SPARC、X86、Power之争,最后的赢家将会在桌面芯片上获得类似X86的地位,进而获得超额利润。
关于“英伟达一出手寒武纪就完了”
神经网络处理器和通用处理器,DSP,FPGA和GPU是不同的计算设备,就像GPU的存在不会让DSP死掉一样,神经网络处理器和GPU并不冲突。当然,如果英伟达做出比寒武纪更好的神经网络处理器,寒武纪很可能会受到影响。
此外,英伟达一直在努力进入智能领域,但其图形处理架构与神经网络处理相差甚远,相比寒武纪会有100倍以上的能耗劣势。以点脑和大点脑为例,点脑是单核处理器,主频0.98GHz,峰值性能每秒4520亿次神经网络基本运算,功耗0.485W,65nm工艺下3.02mm^2面积。在几个有代表性的神经网络上的实验结果表明,DianNao的平均性能比主流CPU核高100倍,而面积和功耗只有1/10,效率可以提高三个数量级。DianNao的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU的百分之一。大点脑在点脑的基础上进一步扩大了处理器规模,包括16个处理器内核和更大的片上存储,并支持多个处理器芯片之间的直接高速互联,从而避免了高昂的内存访问开销。
28nm工艺下,大甸脑主频606MHz,面积67.7mm^2,功耗约16W。单芯片性能比主流GPU高21倍,而能耗只有主流GPU的1/330。与主流GPU相比,64片芯片组成的高性能计算系统性能甚至可以提升450倍,但总能耗仅为1/150。
所以这句话就像“英特尔一出手,英伟达就完蛋了”一样毫无意义。
关于寒武纪取代英特尔
寒武纪处理器虽然在人工智能方面有很大的市场潜力,但并不是对传统CPU的颠覆。就目前的技术而言,神经网络芯片在所有应用领域都做不到比传统CPU更好,但它只在人工智能领域比传统CPU有优势,它更像是一种特殊的芯片。
即使未来手机和PC使用异构计算技术,寒武纪处理器的作用也只是完成智能认知等功能,比如运行数据库、科学计算、办公、微信等。寒武纪处理器无法比现有的传统CPU做得更好。因为即使是人脑本身,很多事情也是CPU做不到的。
所以传统的CPU在未来会是计算机的核心,但只是一个关键,很多费时费力的工作会交给其他计算设备,比如DSP、FPGA、GPU、寒武纪芯片(神经网络芯片)。如果有人想让寒武纪芯片取代家用PC上的英特尔芯片,那只能是不切实际的幻想。
论寒武纪可能遇到的困难
寒武纪处理器失败的风险在于社会和媒体对人工智能的过度炒作。如果人工智能的发展速度达不到大众(投资人)的预期(这是必然会发生的,比如很多媒体甚至谷歌自己都说过要建天网),那么整个领域就会陷入大低谷,巢之下无蛋。这种事情在80年代发生过一次。
虽然寒武纪的路未必一帆风顺,但前途是光明的——因为寒武纪和龙芯、神威等传统处理器完全不同。用北京中科寒武纪科技有限公司陈博士的话说,“以前我们是跟随者,不小心掉进了别人的坑,被别人的壁垒挡住了。现在我们是领军者,没有知识产权壁垒,就是海阔天空,海阔天空。目前寒武纪花大钱做专利,不过是给跟随者设置壁垒。”
只要人工智能行业健康发展,电子行业有强有力的支撑,市场营销不能逊于国外科技公司,寒武纪的未来是非常值得国人期待的,请拭目以待。