技术小站8

网站首页 互联网 > 正文

谷歌的DeepMind通过玩雷神3竞技场来教授人工智能团队合作

2022-02-19 09:58:28 互联网 来源:
导读 谷歌的DeepMind今天分享了研究和实验的结果。在多人第一人称射击游戏Quake III竞技场中,几个人工智能系统被训练来玩抢旗游戏。在这个过

谷歌的DeepMind今天分享了研究和实验的结果。在多人第一人称射击游戏Quake III竞技场中,几个人工智能系统被训练来玩抢旗游戏。在这个过程中训练出来的人工智能,现在在游戏中的表现比大部分人类玩家都要好,无论是和人类还是机器人队友一起玩。

以Win命名的AI(FTW)在Quake III Arena上玩了近45万场游戏,以获得对人类玩家的统治地位,并建立了如何与其他机器和人类有效合作的理解。DeepMind是指训练多个独立主体采取集体行动的做法,称为多主体学习。

该公司今天在一篇博客文章中表示,“我们训练的代理像个人一样学习和行动,但它必须能够与任何其他代理合作或对抗,无论是人工的还是人类的。”“从多智能体的角度来看,(获胜)需要玩家成功地与队友合作,与对手竞争,同时在他们可能遇到的任何比赛风格中保持强大。”

DeepMind最著名的身份可能是AlphaGo的创造者。AlphaGo是一个人工智能系统,它在2017年5月击败了世界顶级围棋选手。AlphaGo的后代AlphaGo Zero后来通过和自己对弈变得更好。

之前一些关于电子游戏强化学习的研究主要集中在只有几个玩家的环境,而DeepMind的实验涉及30个智能体和4个智能体同时对抗人类或机器。

在40个人类旗手和40个人类旗手的比赛中,只有有机器的队伍在和只有人类参与的队伍的比赛中没有被打败,有95%的几率在和有机器的队伍的比赛中获胜。

平均每场比赛,人机战队夺取16面旗帜的数量少于两个FTW特工组成的战队。

研究发现,与人类相比,智能体的标注效率更高,80%的时候可以实现这种策略,而人类只有48%。即使盯人能力被压制到和人类相当的水平,FTW依然保持着对人类玩家的优势。

有趣的是,一项对人类参与者的调查发现,FTW比人类队友更具协作性。

这项研究的作者包括DeepMind的创始人兼首席执行官杰米哈萨比斯(Jamie Hassabis)。

这项研究是在一些特殊的挑战下进行的。

为了训练系统对结果有更好的整体理解,在随机的地图布局中而不是在静态和一致的环境中捕获标记。还介绍了地势平坦的室内环境和不同海拔高度的室外环境。代理商也以或快或慢的模式运作,并发展自己的内部奖励系统。

用来训练特工的唯一信号就是他们的队伍能否在五分钟内拿到最多的旗子来赢得比赛。

在此之前,没有机器的游戏规则,但随着时间的推移,FTW学会了一些基本的策略,比如本垒防守,跟随队友,或者在对手的基地露营,在被俘虏后贴上对手的旗帜。

贴标签是一种触碰对手并将其送回出生地的动作,也包含在赢得比赛的战术中。

DeepMind的研究是人工智能研究人员的最新成果,他们将强化学习应用于视频游戏,作为一种训练机器策略、记忆或其他常见人类特征的方法,这些特征在计算机中并不自然存在。

上个月,OpenAI透露,它使用强化学习来训练AI,以击败dota2的人类天才团队。

从多智能体环境中获得的见解可以用于通知人机交互和训练人工智能系统,以便它们可以互补或协同工作。

例如,作为DARPA终身学习机器研究计划的一部分,SRI国际研究所正在训练AI系统玩角色扮演游戏《星际争霸:重铸》,以训练它们像游戏中的角色一样采取集体行动,分组行动或团队旅行。

DeepMind在《星际争霸》也发现了很多值。今年8月,DeepMind宣布与暴雪合作发布《星际争霸2》强化学习API。


版权说明: 本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。


标签:




热点推荐
热评文章
随机文章