Google的AI学习背叛和“积极”的行动有回报

随着人工智能的发展持续以惊人的速度,有关我们是否了解自己持续存在的东西的问题。一种恐惧是越来越聪明

随着人工智能的发展持续以惊人的速度,有关我们是否了解自己持续存在的东西的问题。一种担心是,越来越聪明的机器人将夺走我们所有的工作。另一个恐惧是,我们将创建一个世界,其中超级智能有一天会决定它不需要人类。这种恐惧在流行文化中,通过《终结者》系列等书籍和电影进行了充分探索。

另一种可能性也许是最有意义的一种 – 因为人类是创造它们的人,所以机器和机器智能可能像人类一样行事。无论好坏。 Google的尖端AI公司DeepMind就证明了这一点。

迄今为止,DeepMind计划的成就包括从记忆中学习,模仿人类的声音,写音乐,并击败世界上最好的GO播放器。

最近,DeepMind团队进行了一系列测试,以调查AI面对某些社会困境时的反应。特别是,他们想找出AI是否更有可能合作或竞争。

其中一项测试涉及4000万个玩耍的实例,在此期间,DeepMind展示了愿意获得想要的东西的距离。之所以选择该游戏是因为它封装了游戏理论中经典的“囚犯困境”的各个方面。

DeepMind将AI控制的角色(称为“代理”)相互挑战,让他们竞争以收集最虚拟的苹果。一旦可用的苹果量低,AI代理人就开始展示“高度侵略性”的战术,并采用激光束互相敲击。他们还将偷走对手的苹果。

这是其中一款游戏的方式:DeepMind AI代理商是蓝色和红色的。苹果是绿色的,而激光束为黄色。

DeepMind团队在博客文章中描述了他们的测试:

“我们让代理商玩了数千次游戏,并让他们学习如何使用深层的多方强化学习来理性地表现。自然而然地,当环境中有足够的苹果时,特工学会了和平并存并收集尽可能多的苹果。但是,随着苹果的数量减少,代理商了解到,标记另一个代理商以自己的时间来收集稀缺苹果可能会更好。”

有趣的是,似乎发生的事情是AI系统开始发展某些形式的人类行为。

“该模型……表明,类似人类行为的某些方面是环境和学习的产物。从相对丰富的环境中学习,采取昂贵的行动可能性较小,从而出现了较少的积极政策。贪婪的动机反映了诱骗竞争对手并自行收集所有苹果的诱惑。

除了水果聚会之外,AI还通过狼群狩猎游戏进行了测试。在其中,以狼形式的两个AI字符追逐了第三个AI代理 – 猎物。在这里,研究人员想看看AI角色是否会选择合作以获取猎物,因为在被捕获时,他们因在猎物附近出现在猎物附近而受到奖励。

“想法是猎物很危险 – 孤独的狼可以克服它,但有可能将尸体丢给清道夫。但是,当两只狼一起捕捉猎物时,它们可以更好地保护尸体免受清道夫的侵害,因此获得了更高的报酬。选择一起工作。

这就是测试的方式:

狼是红色的,追逐蓝点(猎物),同时避免了灰色的障碍。

如果您认为“天网在这里”,也许白银的一线测试表明,AI的自身利益如何包括合作,而不是第一次测试的全面竞争力。当然,除非它与追捕人类的合作。

这是一张图表,显示了游戏测试的结果,显示“聚集”期间侵略性明显增加:

除了电影外,研究人员正在努力弄清AI最终如何“控制复杂的多机构系统,例如经济,交通系统或我们星球的生态健康,所有这些都取决于我们的持续合作”。

在附近的AI实施中,这可能是相关的 – 自动驾驶汽车将必须选择最安全的路线,同时保持所有相关方面的目标。

测试的警告是,如果目标在节目中没有平衡,AI可能会自私地采取行动,可能并不是为了每个人的利益。

DeepMind团队的下一步是什么?乔尔·莱博(Joel Leibo)希望AI更深入地了解决策的动机:

原创文章,作者:大天,如若转载,请注明出处:http://www.dsonekey.com/6529.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息