元学习(Meta-Learning)是一种让 AI 从数据本身学会「如何学习」的算法。元学习概念已经提出了 20 年左右,但引起人们广泛注意的是 2017 年 NIPS 会议上加利福尼亚大学伯克利分校教授彼得·阿贝尔(Pieter Abbeel)的一场报告。这场报告的关键词是「元学习」,指出元学习可以大大缩短训练时间,可以解决那些一直非常棘手的学习问题。
元学习是让 AI 学习很多类似的任务,使用已经在许多其他非常类似的任务中训练的模型,在面对类似的新任务时,仅仅使用少量训练样例就可有效地学习。它通常用于解决「One Shot Learning」问题,即在训练样本很少,甚至只有一个样本的情况下,依旧能进行预测。
元学习系统中通常有两种学习者:基础学习者(或快速学习者)和元学习者(或慢学习者)。基础学习者在快速更新的任务中接受训练;元学习者在与任务无关的多元空间中运行,其目标是跨任务传递知识(「知识迁移」)。在许多情况下,基础学习者和元学习者可以使用相同的学习算法。
通过这种双层架构,元学习能够学会「如何学习」。具体办法就是先用各种各样的任务训练网络,当它学会了几百个任务(如识别了 500 幅不同主题的图片),再做下一个任务(如识别第 501 幅图片)时,就十分容易了。用这 500 幅图片进行识别任务训练时,要做完一个丢弃一个(相当于遗忘一个)。神经网络不是学习具体某个知识,而是学会这些任务的共同特征。例如,让 AI 解决许多迷宫问题,学会走出迷宫之后,即使再进入新的迷宫,也可以很快计算出如何快速离开。元学习将学习任务视为学习范例。
下面介绍两种比较典型的元学习算法。
模型不可知元学习
深度强化学习是基于强化学习的很有前景的算法,已经被有效地用于机器人智能操作,但是在算法实现时反应速度还太慢。为了缩短深度强化学习的学习时间,加利福尼亚大学伯克利分校的研究人员在 2017 年提出了一种模型不可知元学习(Model-Agnostic Meta-Learning,MAML) [198] 方法。通过引用多个任务来对相同结构的神经网络进行训练,如果只学习几次即可获得权重的初始值,则该权重就成为训练完成后每个不同任务的神经网络的权重。使用这种方法时,可以根据情况将神
(本章节未完结,点击下一页翻页继续阅读)