第 79 节 超低功耗 AI 芯片(第1页)

深度学习 AI 芯片要完成由卷积层和全连接层组成的 DNN 的运算,这些运算需要计算单元和存储器两大部分,对应的推理计算量和存储容量量级分别如下所示。

(1)计算量:即使是中等大小规模的推理,每次推理通常也会超过 10 亿次算术运算。

(2)存储容量:100 KB~150 MB。一个典型例子是 ResNet,这个网络模型的大小为 120 MB,然而其训练所需要的存储容量将会达到 21 GB。另外一个例子是基于 LSTM 的 NLP,它的模型大小达到了 2.5 GB,而在训练时所需的存储容量达到 40 GB。

如此庞大的计算量和存储容量,都要消耗大量能源。由此可见,要真正做到超低功耗,首先需要把神经网络的规模降下来。

「超低功耗」这个词常常出现在芯片的电路设计层面,几十年来,已经出现了许多卓有成效的降低功耗的方法和创意。现在一直在使用的 CMOS 工艺,就是在 20 世纪 80 年代初出现的一场降低功耗的重大革命,这种方法一直沿用至今。近 10 年以来,近阈值电压(Near Threshold Voltage,NTV)方法被使用在一些处理器的设计上,又一次降低了芯片的功耗。

在将近 30 年的时间里,芯片的电源电压一直在下降,到 2005 年左右达到了 1 V。由于芯片的动态功率与电压的二次方成正比,因此,小幅降低 10% 的电压可将动态功率降低 19%。而晶体管开始导通并传导少量电流的电压点被称为阈值电压,在现代工艺技术中,阈值电压为 0.2~0.3 V(尽管晶体管电流直到电压为 1 V 左右时才达到饱和)。在 ISSCC 2012 上,英特尔展示了 NTV 技术,把电源电压降到仅略高于阈值电压,从而显著提高了能效。

在 AI 芯片设计中使用 NTV 的一个例子是韩国 KAIST 的研究人员在 ISSCC 2017 上展示的一款超低功耗、可以「永远在线」的人脸识别 AI 芯片 [234] 。该芯片包含 4×4 个处理单元,每个处理单元有 4 个卷积单元,每个单元具有 64 个 MAC 阵列。该芯片每个时钟周期可执行 1024 个 MAC 操作,而在 0.46 V 的近阈值电压的情况下,可以 5 MHz 的低时钟频率进行高吞吐量操作。在平均帧率为 1 f/s 时,该芯片的功
(本章节未完结,点击下一页翻页继续阅读)