华为的全栈是技术功能视角,是指包括芯片、芯片使能、训练和推理框架和应用使能在内的全堆栈方案。该方案具体由四部分组成,其一是芯片层面的Ascend,即基于统一、可扩展架构的系列化AI IP和芯片,包括Max,Mini,Lite,Tiny和Nano等五个系列。会议期间发布了昇腾910(max)和昇腾310(mini),昇腾910明年上市,昇腾310已经量产。
其二是CANN,据千讯咨询发布的《中国芯片市场前景调查分析报告》显示,即芯片算子库和高度自动化算子开发工具,可以提升开发效率;其三是MindSpore,支持端、边、云独立的和协同的统一训练和推理框架;其四是应用使能,提供全流程服务(ModelArts),分层API和预集成方案。在这四个部分中,AI芯片和Mindspore框架最受关注,两者分别代表着算力和算法,也是人工智能的两大核心要素。首先来看AI芯片,昇腾310更多是用在边缘计算产品上,昇腾910主要用在云端来提供训练能力。在华为提供的数据中,昇腾910的性能高出英伟达V100一倍,华为称之为“目前全球已发布的单芯片计算密度最大的AI芯片”。
对于华为的芯片性能,单以昇腾910来说,在FP16的运算效能就已经超过Tesla V100,所以不难想像在其他运算精度上的算力,应该也可以有超过Tesla V100的表现。而910采用7nm制程,这对于芯片的效能增进,会有一定程度的帮助,所以在性能优势上,确实可以辗压采用12nm制程的Tesla V100。目前来看,可以确定的是,这两款产品将可以优化华为的终端产品的竞争优势。
这只是其中的一个指标,并不代表最后的实际性能。计算密度主要是跟制造工艺节点和架构有关。比如你用7nm,那就肯定比10nm的高,因为晶体管小。另外,如果芯片上全都堆的是计算单元,没有复杂的数据链接和大量的片上存储单元等其他部分,算下来用于计算的面积所占比例大,自然密度就高。