如果从芯片设计的角度来看,现在用于深度学习的 AI 芯片(包括 CPU、GPU、FPGA、ASIC)为了实现深度学习的庞大乘积累加运算,都包含大量乘积累加单元来进行并行计算。为了达到并行计算的高性能,芯片面积越做越大,由此带来了成本和散热等十分严重且难以解决的问题。另外,深度学习 AI 芯片软件编程的成熟度、芯片的安全性、神经网络的稳定性等问题也都未能得到很好的解决。
因此,很多研究人员正在积极研究如何在原有基础上不断改进和完善这类 AI 芯片。本书前面几章已经介绍了一些改进深度学习的计算范式,如近似计算、模拟计算、随机计算、存内计算等;也探讨了使用光子而非传统的电子电路,甚至采用量子计算原理来实现深度学习算法。
迄今为止,大多数 AI 专用芯片都针对视觉和语音应用而开发,主要用于图像识别、图像分类、语音识别等应用,这是因为卷积神经网络(CNN)技术在这两个领域应用的相对成熟。在自动驾驶汽车和机器人中,实现眼睛和耳朵的智能将对人类社会产生很大影响,但实际上它只是 AI 真正潜力的一小部分。
CNN 运算属于硬件密集型操作。为了降低 CPU 的计算负担,CNN 目前大多使用专用电路来设计实现,即将作为 NPU 或深度学习处理单元(Deep Learning Processing Unit,DPU)的硅 IP 核集成到主 SoC 芯片里面。近年来,其他的神经网络算法,如循环神经网络(RNN)和 RBM 也已被实现为 AI 加速器芯片。由于 CNN 与 RNN 硬件具有不同的最优架构,因此需要分别为 CNN 和 RNN 设计构建异构加速器。
随着基于 DNN 的 AI 技术开始出现明显变化,AI 的应用领域已开始迅速扩大。2015~2019 年,AI 技术主要集中在图像识别和语音识别领域,而从 2020 年开始,语言理解和语言抽象方面预计会得到快速发展。这方面的技术除了 RNN 的变种 LSTM 和 GRU 等之外,主要将依赖基于注意力机制的 Transformer 模型 [304] 。Transformer 在训练和参数数量上都具有很大的优势。结合 Transformer 的语言模型,可以理解句子的上下文,随着上下文的变化来理解同一个单词的含义。图像、语音识别与语言理解、抽象结合在一起,形成多模态运行,
(本章节未完结,点击下一页翻页继续阅读)