今天,集成几百亿个晶体管的 AI 芯片已经能够被制造出来。巨大的晶体管容量允许将越来越多的异构功能集成到单个芯片载体上。然而,设计这样大小的系统存在固有的复杂性问题,这是 CMOS 容量扩展不可避免的缺点。这种复杂性的增长,已经大大超过了设计人员生产力的提升,而且这种差距越来越大,导致开发成本或工程成本增加及开发时间周期拉长。因此,数十年来主导集成电路进展的晶体管容量问题已经变成了一种复杂性问题。
每一代芯片工艺的进步,都带来了芯片容量的增加,而 MOSFET 参数,即沟道长度、晶体管宽度、栅极氧化物厚度和互连宽度必须缩小为原先的 1/ 2。缩小物理晶体管参数导致对寄生和随机效应更脆弱。电源噪声、热变化、α 粒子辐射和制造工艺变化导致芯片非常容易产生器件故障。
尤其是当 CMOS 技术接近低于 5nm 特征尺寸范围的物理极限时,制造缺陷或操作期间的临时器件故障将会大量增加。最重要的是,这意味着除了必须解决固有的电路复杂性问题,还必须解决芯片设计中日益突出的可靠性问题。这就需要新的设计方法和工具来处理这些问题,以保证在芯片上实现可靠且稳健的系统。芯片设计的「一次性流片成功」并不意味着后续的批量生产能够成功。
系统中某处的物理缺陷通常会影响整块芯片的运行和性能,硬件和软件都是如此。例如 ASIC 这类芯片,通常不可能在运行时更换或解决故障。在增加芯片复杂性和降低可靠性的同时,芯片中断运行或性能下降将变得更加频繁并且产生质量问题。
在 AI 芯片中,还会出现由于神经网络模型的设计错误及其映射到硬件所造成的出错问题。如果神经网络模型的某些部位出错,将会对整个系统的性能造成重大影响。因此,准确找出这些部位,并对其采取特别的保护措施,对 AI 芯片的性能、可靠性、安全性等都有很大意义。
AI 芯片不管用于云端(数据中心)还是用于边缘侧的嵌入式系统、移动设备,都必须解决许多潜在冲突,如热量、成本、性能、安全性、故障恢复等,所有这些都面临着高速动态的操作行为和环境条件。如何使 AI 芯片能够在高度动态变化的情况下正常、可靠地运行,尤其是对可靠性要求极高的自动驾驶汽车、自动医疗手术、智能工厂等领域,越来越受到人们的关注。
 
(本章节完结)