2015 年 3 月 12 日,水木社区发布了一条不起眼的招聘信息,“中科院计算所-华为联合项目招聘 20 名智能芯片方向实习生”: 信息后半部分补充了招聘部门的详细资料,也披露了华为人工智能芯片的未来规划: 中国科学院计算技术研究所(简称计算所)创建于 1956 年,是中国第一个专门从事计算机科学技术综合性研究的学术机构。计算所研制成功了中国第一台通用数字电子计算机。计算所体系结构国家重点实验室是计算所最核心实验室之一,今年(注:2015 年)来先后产生十几位院士,孵化了Lenovo、曙光等知名计算机企业。
![]() HUAWEI消费者业务 CEO 余承东在柏林 IFA 展发布HUAWEI麒麟 970 实际上,HUAWEI和中科院计算所的合作由来已久,业界多有传言,HUAWEI早已成为中科院计算所的大金主。2011 年,双方便规划成立联合实验室,具体由先进计算机系统研究中心承担,该中心主要从事云计算、操作系统和体系结构的研究。它此前是从高性能计算机研究中心独立出来的。与HUAWEI合作的同年,先进计算机系统研究中心开始挂靠计算机体系结构国家重点实验室下,于 2014 年成为正式独立部门。 不过麒麟 970 的 AI 芯片并非来自于这一联合实验室,而是它此前曾挂靠的计算机体系结构国家重点实验室。更确切地说,麒麟 970 的 AI 技术授权来源于该实验室后来孵化出的全球首个 AI 领域的独角兽——中科寒武纪科技有限公司,简称寒武纪。 寒武纪 Cambricon-1A 前期样片 陈云霁(右)与陈天石兄弟。 在两个月后的一次演讲中,陈天石介绍了寒武纪的一系列研究成果:
做个类比,寒武纪所采用的推广方式相似于 ARM,通过授权的方式推广 AI 指令集,短时内快速推动市场发展。数天前,寒武纪刚刚对外公布了 A 轮一亿美元的融资消息,由国投创业(A 轮领投方),阿里巴巴创投、Lenovo创投、国科投资、中科图灵、元禾原点(天使轮领投方)、涌铧投资(天使轮投资方)联合投资,并称 2016 年便已盈利,营收规模在 1 亿元人民币。 而首款集成寒武纪芯片的商用产品就是麒麟 970,HUAWEI把它称之为 NPU(Neural Network Processing Unit)计算单元。NPU 也是继 处理器、GPU、Modem、ISP、RAM、ROM、协处理器、SE 后,移动 SoC 中的新模块。 Prisma 处理过的照片对比。 寒武纪芯片可以看作是一款集成了常量运算、向量运算、矩阵运算、逻辑运算、数据转换以及控制指令等功能的深度神经网络加速芯片架构,主要用于语音识别、图像识别和编辑等等。用具体的使用场景来解读可能更容易理解。 麒麟 970 还没发布,微博上就盛传它的一键美颜秘技。理论上来讲,它可以像 2016 年流行的图像编辑软件 Prisma 那样,智能编辑图片。不同之处在于,Prisma 把画面变为经典名画的样式,AI 芯片则可以识别画面内容后自动瘦腿、美颜,处理速度比现有方式大幅度提升。而且不必像 Prisma 那样上传云端处理再返回结果,即便后来改用手机端处理,Prisma 的速度也不是很理想,寒武纪芯片加持后可以本地快速处理。 HUAWEI官方专门列了一组数据表明 NPU 的强大,处理同样的 AI 使用任务时,新的异构计算架构拥有大约 50 倍能效和 25 倍性能优势,“图像识别速度上,可达到约 2000 张/分钟,远高于业界同期水平。”用过 Google Photos 应该有相似体验,当你拍人像照片后,它往往会隔几分钟甚至隔几小时几天提醒你,“相册新增了×××的照片,你可以分享给她。” 新品的规格,终于不再落于人后。由台积电(TSMC)代工,采用最新的 10nm 制程工艺。根据官方公布的消息,其集成的晶体管数量达到了 55 亿,而堆砌晶体管往往是提升性能表现的一个简单粗暴的手段。作为对比,2017 年初发布的高通骁龙 835晶体管数量为 30 亿, 2016 年 9 月随着 iPhone 7/7 Plus 亮相的iPhone A10 Fusion 晶体管规模为 33 亿。 处理器继续沿用大小核规划,由 4×Cortex A73@2.4GHz,加上 4×Cortex A53@1.8GHz,相比上一代 16nm 工艺的麒麟 960 能效提升 20%。由于核心架构的规划上并未有大的变化,依旧为 A73+A 53 组合,能效的提升应该主要来自于制程工艺的升级。HUAWEI海思并未像去年那样首发 ARM 的最新架构。今年 5 月底发布的 A75/A55 应该要在明年的高通骁龙 845 和麒麟 980 上才能看到了。 GPU 部分则是首发 Mali G72 MP12,图形处理性能提升了 20%,能效提升近 50%。同时它还集成了 4.5G LTE Cat.18 基带芯片,峰值速度高达 1.2Gbps。 当然了,麒麟 970 支持 UFS 2.1 和 LPDDR 4X。 麒麟 970,HUAWEI Mate 10 见 自此,手机芯片正式进入了一个新的时代。过去数年间,我们也见证了手机芯片性能的飙涨:
至少在上游芯片厂商、下游手机品牌的合谋下,账面上的数据漂亮得一塌糊涂,流行的跑分软件安兔兔输出的成绩终于也从数以千计来到了十数万的规模,搭载高通骁龙 835 的OnePlus 5 跑分高达 18 万,作为对比,2012 年底发布的 Nexus 4 跑分 17700 左右。 就像Intel的摩尔定律一样,手机芯片的性能也渐渐遇到了瓶颈,SoC 的集成度与日俱增,内置基带的速度也很快超过了运营商网络所能负载的上限,跑分上的增速开始放缓。于是竞争的方向很快调转向了 AI,此时原本看似过剩的性能成了阻碍移动 AI 发展的最大掣肘。专用硬件的出现也属必然。 而和HUAWEI早前在手机芯片上用小步快跑策略追赶老牌芯片巨头一样,它凭借敏锐的嗅觉和长远的战略眼光在手机 AI 芯片上占得一丝先机。其实各巨头都没有闲着。 2016 年iPhone招募卡内基梅隆大学的 AI 专家 Ruslan Salakhutdinov 担任 AI 研究主管,并在今年的开发者大会上公布了机器学习框架 OpenML,与此同时也在研究独立的 AI 芯片,称之为 Neural Engine,神经引擎。 Google TPU 核武器厂商英伟达 NVIDIA 2016 年 4 月便推出了一款号称研究费用超过 20 亿美金的人工智能和深度学习芯片 Tesla P100,以及全球首款面向深度学习的超级计算机 NVIDIA DGX-1。 当然智能手机芯片领域的王者高通在 AI 领域也有自己的布局,它收购了机器学习公司 Scyfer。坐拥全产业链资源的SAMSUNG同样悄悄投资了 AI 芯片规划公司 Graphcore。 上面这些巨头中,成型的产品要么是在服务器端,要么还处在前期预研阶段,麒麟 970 成了第一个可量产的人工智能移动芯片。 手机用上 AI 芯片的好处不必多言,专用 AI 芯片或许可以搞定HUAWEI前期试水手机人工智能时遭遇的用户隐私问题。寒武纪联合创始人陈云霁早前接受采访时表示:
|