第 10 节 AI 芯片的创新实现方法（第1页）

要做出高水准的 AI 芯片，不但要有 AI 模型和算法，更重要的是采用先进的电路设计及工艺技术。下面介绍一些目前正在尝试的新的设计和实现方法。

（1）脉动式电路（见图 2.13）。谷歌的 TPU 在关键矩阵乘法单元使用了脉动式设计，使得运算过程中的数据像流水线一样「流过」各个处理器，使这些数据可被重复使用而不用每次都返回存储器，从而大大降低了功耗（每个乘积累加单元的功耗可以降低到原来的 1/10～1/5）。让数据模仿人体心脏中血液的脉动式流动（心脏相当于存储器，血管相当于处理器阵列及连接），这种技术曾经在二十世纪七八十年代流行过一段时间，现在有了用武之地。现在微软和一些初创公司纷纷采用这个技术，有的研究人员在此基础上还作了进一步创新。

（2）异步电路。异步电路没有固定时钟，而是由事件驱动的，对于芯片电路设计者来说，这毫无疑问是非常具有吸引力的方法，因为可以大大提高芯片性能并降低功耗。但是，没有时钟来同步，也会在某些场合造成混乱，增加了电路设计难度，需要有高超的电路设计技巧。另外，现在还没有很好的异步设计 EDA 工具。因此，目前比较好的办法是采用折中的方式：在模块中仍采用时钟，即还是同步电路，但是各个模块的时钟可以不一样，在系统集成的总体上是异步的，称为全局异步局部同步（Globally Asynchronous and Locally Synchronous，GALS）技术，图 2.14 即为 GALS 的架构，也有人把它称为自定时（Self-Timing）技术。现在，已经至少有一家 AI 芯片初创公司成功使用了这种技术，做出了高性能、低功耗的 AI 芯片。

（3）新的散热方式。例如，谷歌最近发布的 TPUv3 采用了水冷散热的方法。这需要非常高的工艺水平。

图 2.13 脉动式电路示意图

菜单