第 62 节 解开神经网络内部表征的缠结(第1页)

DNN 在从数据中自动提取有意义的特征方面非常成功。我们通常不再需要人工介入的特征工程,可以专注于设计神经网络的架构。然而,由于神经网络的复杂性,提取的特征本身非常复杂并且通常不能被人类解释。

深度学习系统至今一直被看作是一个黑盒子,很难解释人工神经网络是如何得出结论的。训练神经网络的唯一可见结果是节点之间连接权重的千兆字节大小的矩阵,因此问题的「解释」散布在数千个权重之间。我们不得不信任来自外部的评估指标,如训练和测试错误。

表征学习(Representation Learning),即让系统自动发现和学习提取特征所需要的表征,是机器学习研究的核心。不管是过去流行的人工介入的特征工程,还是现在深度学习方法的隐式表征学习,算法的性能在很大程度上都依赖它们的输入表征的性质。尽管深度学习方法近年取得了成功,但它们仍远未达到生物智能的普遍性。

以图像识别来说,深度学习并不理解要识别的构图对象,它常常会把噪声灰粒理解为某种小动物,或把一只昆虫理解为一辆汽车。这是因为输入表征的属性变量都纠缠在一起。例如,把一束光从不同角度打到一个杯子上,就会产生不同形状的影子,光照和杯子是完全不同的属性变量,一旦光照方向发生变动,在一幅图像中就会产生成千上万个像素的变化。同样的,如果把一个物体移动,那么整幅图像的大量像素都会变动,但是只有一个位置变量才是真正关键的变量。

为了能够获取各种任务中最关键的属性特征,得知在训练数据之外泛化所必需的属性,许多研究人员已经提出不少解决方法,其中看上去很有前景的是解缠结表征(Disentangled Representation)方法,即设法解开神经网络内部表征的缠结,从而建立能在矢量中捕捉可解释因子的模型。

解缠结表征的基本思路是定义单个单元,它对某个内部因子的变化非常敏感,而对其他因子的变化相对不敏感。例如,在 3D 物体的数据集上训练的模型可以学习对某个独立数据因子敏感的某个独立特征,如物体的身份、位置、比例、光照或颜色等。这样就通过解缠结表征把这些表征分解开来了,而且通常是可解释的,这样就可以用不同的独立特征来学习数据中变化的不同内部因子。

使用解缠结表征的一个尝试是迁移学习。迁移学习是一种能够利用不同学习任务之间的共性来共享统计强度,并跨任务迁移知识的算
(本章节未完结,点击下一页翻页继续阅读)