技术小站8

网站首页 互联网 > 正文

搭载麒麟810的手机排行榜TOP3是华为AI芯片的秘密武器

2021-12-09 11:24:29 互联网 来源:
导读 2019年6月,华为发布了全新的8系列手机SoC芯片麒麟810,首次采用了华为自研的达芬奇架构NPU,实现了行业领先的端侧AI计算能力。在苏黎世联

2019年6月,华为发布了全新的8系列手机SoC芯片麒麟810,首次采用了华为自研的达芬奇架构NPU,实现了行业领先的端侧AI计算能力。在苏黎世联邦理工学院推出的业界公认的AI Benchmark榜单中,搭载麒麟810的手机霸榜TOP3堪称华为AI芯片的“秘密武器”,其中华为自研的达芬奇架构非常重要。

2019年8月20日数据

那么,达芬奇的AI架构到底有什么实力呢?让我们更好地了解彼此。

为什么要做达芬奇建筑?

华为预测,到2025年,全球智能终端数量将达到400亿,智能助手渗透率达到90%,企业数据利用率达到86%。可以预见,在不久的将来,AI将作为一种通用技术,极大地提高生产力,改变每一个组织、每一个行业。

基于这一愿景,华为在2018全连接大会上提出了全栈全场景AI战略。AI芯片作为重要的技术基础,在其中扮演着重要的角色,华为也提供了基于AI芯片的完整解决方案,加速AI产业化。

为了实现AI在多平台、多场景的协同,华为创新设计了达芬奇计算架构,在不同的体积和功耗条件下提供强大的AI计算能力。

第一眼:达芬奇建筑的核心优势

达芬奇架构是华为开发的面向AI计算特性的新型计算架构,具有高计算能力、高能效、灵活性和可裁剪性等特点,是实现万物智能的重要基础。

具体来说,达芬奇的架构采用3D Cube加速矩阵运算,大大提升了单位功耗的AI计算能力。每个AI Core可以在一个时钟周期内实现4096个MAC操作,与传统的CPU和GPU相比提升了一个数量级。

同时,为了提高AI计算的完备性和不同场景的计算效率,达芬奇架构还集成了矢量、标量、硬件加速器等各种计算单元。同时支持各种精度计算,支持训练和推理场景的数据精度要求,实现AI全场景需求的覆盖。

深耕:达芬奇建筑的AI硬实力

科普1:AI操作常见的类型有哪些?

在了解达芬奇架构的技术之前,我们先搞清楚几个AI操作数据对象:

标量:它由一个数字组成。

向量:一组一维有序数组

,每个数字都由一个索引标识。

矩阵:它由一组二维有序数字组成,每个数字由两个索引标识。

张量:由一组n维有序数组成,每个数由n个索引标识。

其中,AI计算的核心是矩阵乘法,将左矩阵的一行与右矩阵的一列相乘,将相乘后的各元素之和输出到结果矩阵中。

在这个计算过程中,标量、矢量和矩阵的计算功率密度依次增加,这对硬件的AI计算能力提出了更高的要求。典型的神经网络模型计算量大,其中99%需要矩阵乘法。也就是说,如果提高矩阵乘法的计算效率,就能最大程度地提升AI的计算能力,这也是达芬奇架构设计的核心:以最小的计算成本增加矩阵乘法的计算能力,实现更高的AI能效。

科普:揭示各单位角色分工,达

达芬奇核心如何实现高效的AI计算?

在2018年的全连接大会上,华为推出了AI芯片Ascend 310,这是达芬奇架构的首次亮相。

其中,达芬奇核心只是NPU的一部分,达芬奇核心又细分为很多单元,包括核心3D Cube、矢量计算单元、标量计算单元等。各自负责不同的计算任务实现并行计算模型,共同保障AI计算的高效处理。

3D立方体矩阵乘法单元:计算能力

正如刚才提到的,矩阵乘法是AI计算的核心。这部分计算

Cube的计算能力虽然很强大,但只能进行矩阵乘法,依赖Vector计算单元的计算类型很多。Vector的指令比较丰富,涵盖了各种基础计算类型和很多定制的计算类型。

标量标量计算单元:过程控制的管理者

标量标量运算单元主要负责AI Core的标量运算。在功能上,可以看作是一个小型的CPU,可以完成整个程序的循环控制和分支判断,Cube、Vector等指令的地址和参数计算,以及基本的算术运算等。

科普3:3:3D立方体计算有哪些独特优势?

不同于以往的标量和矢量运算模式,华为达芬奇架构基于高性能3D Cube计算引擎,加速矩阵运算,大幅提升单位面积AI计算能力,充分激发端侧AI的计算潜力。

乘以N * N的两个矩阵A*B

为例:如果是N个1D 的MAC,需要N^2(即N的2次方)的cycle数;如果是1个N^2的2D MAC阵列,需要N个Cycle;如果是1个N维3D的Cube,只需要1个Cycle。

华为创新设计的达芬奇架构将大幅提升算力,16*16*16的3D Cube能够显著提升数据利用率,缩短运算周期,实现更快更强的AI运算。

这是什么意思呢?举例来说,同样是完成4096次运算,2D结构需要64行*64列才能计算,3D Cube只需要16*16*16的结构就能算出。其中,64*64结构带来的问题是:运算周期长、时延高、利用率低。

达芬奇架构的这一特性也完美体现在麒麟810上。作为首款采用达芬奇架构NPU的手机SoC芯片,麒麟810实现强劲的AI算力,在单位面积上实现最佳能效,FP16精度和INT8量化精度业界领先,搭载这款SoC芯片的华为Nova

5、Nova 5i Pro及荣耀9X手机已上市,为广大消费者提供多种精彩的AI应用体验。

同时,麒麟810再度赋能HiAI生态,支持自研中间算子格式IR开放,算子数量多达240+,处于业内领先水平。更多算子、开源框架的支持以及提供更加完备的工具链将助力开发者快速转换集成基于不同AI框架开发出的模型,极大地增强了华为HiAI移动计算平台的兼容性、易用性,提高开发者的效率,节约时间成本,加速更多AI应用的落地。

预见:达芬奇架构解锁AI无限可能

基于灵活可扩展的特性,达芬奇架构能够满足端侧、边缘侧及云端的应用场景,可用于小到几十毫瓦,大到几百瓦的训练场景,横跨全场景提供最优算力。

以Ascend芯片为例,Ascend-Nano可以用于耳机电话等IoT设备的使用场景;Ascend-Tiny和Ascend-Lite用于智能手机的AI运算处理;在笔记本电脑等算力需求更高的便携设备上,由Ascend-Mini提供算力支持;而边缘侧服务器上则需要由Multi-Ascend

310完成AI计算;至于超复杂的云端数据运算处理,则交由算力最高可达256 TFLOPS@FP16的Ascend-Max来完成。

正是由于达芬奇架构灵活可裁剪、高能效的特性,才能实现对上述多种复杂场景的AI运算处理。

同时,选择开发统一架构也是一个非常关键的决策。统一架构优势很明显,那就是对广大开发者非常利好。基于达芬奇架构的统一性,开发者在面对云端、边缘侧、端侧等全场景应用开发时,只需要进行一次算子开发和调试,就可以应用于不同平台,大幅降低了迁移成本。

不仅开发平台语言统一,训练和推理框架也是统一的,开发者可以将大量训练模型放在本地和云端服务器,再将轻量级的推理工作放在移动端设备上,获得一致的开发体验。

在算力和技术得到突破性提升后,AI将广泛应用于智慧城市、自动驾驶、智慧新零售、机器人、工业制造、云计算AI服务等场景。华为轮值董事长徐直军在2018华为全联接大会上表示,“全场景意味着可以实现智能无所不及,全栈意味着华为有能力为AI应用开发者提供强大的算力和应用开发平台;有能力提供大家用得起、用得好、用得放心的AI,实现普惠AI”。

未来,AI将应用更加广泛的领域,并逐渐覆盖至生活的方方面面。达芬奇架构作为AI运算的重要技术基础,将持续赋能AI应用探索,为各行各业的AI应用场景提供澎湃算力。


版权说明: 本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。


标签:




热点推荐
热评文章
随机文章