首先是episodic deep RL。我们已经注意到它与经典的基于实例学习的人类记忆模型之间的有趣联系。Episodic RL为基于实例的处理如何促进奖励驱动学习提供了一个可能的解释。有趣的是,最近关于动物和人类增强学习的研究越来越认可情景记忆的潜在贡献,有证据表明状态和行动价值的估计是基于对特定的过去行动 - 结果观察的检索记忆。
再说meta-RL,它对心理学和神经科学也有值得注意的潜在影响。有研究提出了从meta-RL的元素到神经结构和功能的直接映射。一系列计算机模拟表明, meta-RL可以解释行为和神经生理学中的各种实证研究结果。
结束语
deep RL研究领域的快速发展对心理学和神经科学具有极大的意义,因为它集中关注代表性学习和目标导向行为。在本文中,我们描述了最新的deep RL形式,它克服了采样效率低下的明显问题,允许deep RL “快速”工作。这些技术不仅强化了deep RL对心理学和神经科学的潜在联系,而且它们通过情景记忆和元学习等使这些潜在联系更加丰富多样。此外,deep RL的研究越来越多地为心理学和神经科学的新研究给出具体详细的指导。
正如我们所强调的那样,有关高效采样deep RL最新研究的关键意义在于,要快速学习,就必然依赖于慢速学习,这种慢速学习建立了快速学习的表征和归纳偏置。这样的计算辩证法为研究大脑中多个记忆系统及其进化起源提供了理论框架。然而,除了本文中讨论的那些,人类学习可能涉及多个交互过程,因此我们认为任何deep RL模型都需要整合所有这些才能更接近真实的人类学习。在更广泛的层面上,理解RL中快速和慢速之间的关系为心理学和神经科学提供了令人信服的依据。实际上,这可能是人工智能、神经科学和心理学协同作用的关键领域,一直以来都是认知科学所追求的。
从认知学到进化论,详述强化学习两大最新突破