AI下围棋已经可以与人类匹敌,但是它们的科学直觉能否跟3岁小孩相比吗?
通过深度学习与强化学习的双管齐下,Google的DeepMind团队最近取得了不少突破,比方说AlphaGo击败了人类的围棋世界冠军,不久前他们在《自然》杂志上又披露了像人一样有记忆会推理的DNC。近日,这支团队联合加州大学伯克利分校的研究人员又发表了一篇名为《通过深度强化学习学会执行物理实验》的论文,论文称他们已经可以训练AI基于目标驱动与物体进行交互,在事先不掌握任何物理定律的情况下学会评估这些物体的特性。更重要的是,研究人员通过系统地操纵问题难度和信息收集的成本发现,AI还学会了用不同的策略来对收集信息的成本与在不同情况下犯错的成本进行平衡。
这个实验项目的灵感来自儿童的发育过程,他们训练AI镜像了人类跟物体交互的能力,让人工智能学会了通过交互来推断出诸如质量、摩擦以及韧性等特性。
谈到研究背景,论文指出,尽管AI在复杂控制问题以及其他的任务处理方面取得了“人类所不能及的成绩”,但机器仍然缺乏对我们这个实体世界的理解。甚至AI的水平 “在科学直觉方面能不能超过幼儿还不得而知。”
为了弄清楚AI是不是具备这方面的能力,首席研究员Misha Denil和他的团队在不同的虚拟环境下设定了各种试验,让AI面对一系列的积木块,然后让AI去评估这些东西的特性。
比如其中一个仿真实验叫做哪个更重。在这个实验里面,AI要面对四个尺寸一样大小但是质量不一样的积木块。系统必须识别出哪一个积木块最重。而为了避免AI通过视觉或者其他特性来完成这个任务,积木块的质量是随机分配的。这样AI就无法通过积木块的颜色来判断其质量了。
其唯一的手段是反馈。如果AI确定出来了最重的积木块,就会受到奖励,而如果回答不正确,得到的就是负反馈。通过这种强化技术,AI就会了解到,获得质量方面信息的唯一办法只有通过跟积木块进行交互,然后观察这些积木块的响应。
研究进行的第二个实验是塔。这个塔由5个积木块组成,不过其中一些积木块是隐藏在AI看不到的地方的。AI必须同样在强化学习的框架下判断出来一共使用了多少个积木块。最终AI也学会了必须跟塔这个构造交互并且把零部件取出来才能获得正确的数字。
通过这项研究,该团队宣称,AI是有能力在事先不了解物理特性或者物理定律的前提下解决被动感知以外的问题的。
通过深度学习与强化学习的双管齐下,Google的DeepMind团队最近取得了不少突破,比方说AlphaGo击败了人类的围棋世界冠军,不久前他们在《自然》杂志上又披露了像人一样有记忆会推理的DNC。近日,这支团队联合加州大学伯克利分校的研究人员又发表了一篇名为《通过深度强化学习学会执行物理实验》的论文,论文称他们已经可以训练AI基于目标驱动与物体进行交互,在事先不掌握任何物理定律的情况下学会评估这些物体的特性。更重要的是,研究人员通过系统地操纵问题难度和信息收集的成本发现,AI还学会了用不同的策略来对收集信息的成本与在不同情况下犯错的成本进行平衡。
这个实验项目的灵感来自儿童的发育过程,他们训练AI镜像了人类跟物体交互的能力,让人工智能学会了通过交互来推断出诸如质量、摩擦以及韧性等特性。
谈到研究背景,论文指出,尽管AI在复杂控制问题以及其他的任务处理方面取得了“人类所不能及的成绩”,但机器仍然缺乏对我们这个实体世界的理解。甚至AI的水平 “在科学直觉方面能不能超过幼儿还不得而知。”
为了弄清楚AI是不是具备这方面的能力,首席研究员Misha Denil和他的团队在不同的虚拟环境下设定了各种试验,让AI面对一系列的积木块,然后让AI去评估这些东西的特性。
比如其中一个仿真实验叫做哪个更重。在这个实验里面,AI要面对四个尺寸一样大小但是质量不一样的积木块。系统必须识别出哪一个积木块最重。而为了避免AI通过视觉或者其他特性来完成这个任务,积木块的质量是随机分配的。这样AI就无法通过积木块的颜色来判断其质量了。
其唯一的手段是反馈。如果AI确定出来了最重的积木块,就会受到奖励,而如果回答不正确,得到的就是负反馈。通过这种强化技术,AI就会了解到,获得质量方面信息的唯一办法只有通过跟积木块进行交互,然后观察这些积木块的响应。
研究进行的第二个实验是塔。这个塔由5个积木块组成,不过其中一些积木块是隐藏在AI看不到的地方的。AI必须同样在强化学习的框架下判断出来一共使用了多少个积木块。最终AI也学会了必须跟塔这个构造交互并且把零部件取出来才能获得正确的数字。
通过这项研究,该团队宣称,AI是有能力在事先不了解物理特性或者物理定律的前提下解决被动感知以外的问题的。