在上个月最新发布的论文中,DeepMind提出了一种基于认知心理学来研究深度神经网络的新方法。DeepMind 表示,对 AI 来说玩 Atari 的游戏或者下围棋,程序需要被设置的目标很简单,只要赢就行。但如果是让 AI 完成一次后空翻呢?你要怎样向机器描述后空翻的标准?于是他们开始研究训练 AI 穿越各种各样的地形,完成跳跃、转向、屈膝等相对复杂的动作。
DeepMind 的研究人员已经训练了多个模拟机体,包括一个无头行者,一个四足蚂蚁和一个 3D 的模拟人体,通过完成不同的动作任务来学习人类更加复杂的行为。
加强学习技术(reinforcement learning)是对 AI 深度学习实行干预的一个系统,通过使用这种技术,人类可以根据自己的意愿引导 AI 完成深度学习,在 AI 达到自己想要的效果时给以算法意义上的奖励,这样深度学习最后达成的结果就更接近人类最初所设想的。
DeepMind 就使用了这种技术,并教会了 AI 模拟机体完成了一条跑酷路线。DeepMind 想知道这种简单的奖励机制能否在复杂的环境中使用,他们设计了一系列的跑酷路线,有落崖,有障碍,还有墙壁,每一次完成关卡都会赢得系统奖励。基本规则如下:最快突破障碍物的 AI 模拟机体将得到最大的奖励,更加复杂的项目将会得到额外的奖励和惩罚。