第 69 节深度强化学习 AI 芯片（第1页）

强化学习算法的原理与图 12.3 中的自主层原理十分相似，同样是通过外部环境的交互作用和反馈机制产生奖励和惩罚，不断试错和纠错。因此，近年来已经有人把强化学习的机制引入有机计算中。

虽然常规的 DNN 除了可以用于图像识别，也可用于动作控制，但是它的实时性很差，因为它需要通过网络与云端服务器连接进行远程学习。因此，DNN 很少被人用于诸如机器人之类的自主系统。

与图像识别任务不同，实时操作在动作控制中非常重要，这就需要使用强化学习那样的新的学习技术，以在本地确定和选择正确的机器人动作。深度强化学习（DRL）是强化学习（RL）与 DNN 的组合，可以说是 AI 领域现在最热门的方向之一。它之所以声名大振，与 DeepMind 团队用它在 AlphaGo 和 AlphaZero 上大获成功是分不开的。但是在当时，DRL 都是使用 CPU、GPU 及 FPGA 实现的，还没有基于 DRL 的专用 AI 芯片。

2019 年，Kim 等人在 ISSCC 上展示了一款适用于移动设备的 DRL 专用芯片 [221] ，这是一款带有自主性的 AI 芯片。

图 12.6 为使用 DRL 在环境中连续学习的自动驾驶智能体，把状态作为 DNN 的输入，而 DNN 的输出是动作，即带动汽车发动机的运行。它会反复采集运行经验并学会驾驶。DRL 的处理过程包含两个步骤：样本采集（SC）和策略更新（PU），用于动作的连续控制。首先，在 SC 步骤中，通过 DNN 推理来确定动作。输入状态、输出动作和相应的奖励组成采集经验，存储到存储器里。一旦采集到足够的经验样本，PU 步骤就开始计算损失，然后更新 DNN 的权重。计算损失的目的是把奖励最大化。

DRL 的芯片实现存在不少挑战，其中最大的挑战是需要大量的存储器访问，如需要存储 10,000 个「经验」及其他中间数据，需要很大的存储带宽。图 12.6 所示的这款芯片中设计了多个内核，而每个内核包含了经验压缩器、可换位处理单元阵列、控制器及存储器等。该芯片使用 65nm CMOS 工艺制成，裸片面积为 16 mm 2 ，性能为 204 GFLOPS（权重精度为 16 位）。

菜单

第 69 节 深度强化学习 AI 芯片（第1页）

第 69 节深度强化学习 AI 芯片（第1页）