行业动态

Unity机器学习代理工具ML-Agents v0.4版本

更新时间:2018-07-09

Unity 机器学习代理最新版ML-Agents v0.4已经发布,这个版本包含大量新功能。今天我们将为大家进行介绍,希望开发者能够学习和熟练运用Unity机器学习代理工具。

ML-Agents v0.4可以直接在编辑器内进行训练环境,不用构建可执行程序来训练,这样能大大缩短迭代时间。除此之外,我们加入了一组新的挑战环境,还引入了一些算法改进,从而使代理能够学会此前比较困难的内容,甚至是此前无法学习的内容。你可以通过访问GitHub来尝试使用新的版本。

GitHub下载地址:
https://github.com/Unity-Technologies/ml-agents/releases



训练环境
我们在最新版本中加入了二个新的训练环境:Walker(行者)和Pyramids(金字塔)。Walker是个基于物理的人形布偶,Pyramids是个复杂的稀疏奖励(Sparse reward)环境。 

Walker

Unity机器学习代理工具ML-Agents v0.4版本



我们第一个要介绍的新环境-Walker(行者)。它包含的代理是人形布偶。它们完全基于物理,代理的目标是学习控制自身的四肢从而能够向前行走。代理将通过有趣的结果来进行学习。由于在代理身体上有很大自由度,我们认为这个环境能够作为强化学习算法一个很不错的基准,供研究开发。

Pyramids

Unity机器学习代理工具ML-Agents v0.4版本



第二个新环境-Pyramids(金字塔)。它带来了深受喜爱的蓝色立方体代理,代理要做的不是要收集香蕉或跳过高墙,而是需要碰到一个金色砖块,它被放在其它砖块堆起的小金字塔上方。这里的难题在于,金色的金字塔只在随机放置的开关被激活后出现。代理只会在碰到金色砖块的时候得到奖励,所以这个训练环境的奖励十分稀少。

其它环境变体
我们还为许多已有环境提供了可视化观测和模仿学习版本。可视化观测环境是特别为对神经网络模型基准测试感兴趣的研究者所设计的挑战,这个模型使用的是卷积神经网络(Convolutional Neural Networks, CNNs)。

如果想要了解更多关于示例环境的信息,请访问:
https://github.com/Unity-Technol ... ronment-Examples.md

通过好奇心改进学习
为了帮助代理解决奖励较少或较难得到的任务,我们为PPO算法添加了一个可选的增强功能。这个功能是内在好奇心模块(Intrinsic Curiosity Module)的实现。

实质上,这个新增的功能会让代理使用内在奖励信号来奖励自己。奖励信号将基于代理行动结果的意外程度。它将让代理能更轻松也更频繁地解决稀疏奖励环境的任务,例如前文提到的Pyramid环境。

Unity编辑器内执行训练
自从Unity机器学习代理工具ML-Agents发布以来,有一个功能收到了不少请求,那就是在Unity编辑器内执行训练的功能。

在这次的版本发布中,我们朝着这个目标迈出了第一步。现在只要启动learn.py脚本,然后按下编辑器中的“Play”按钮就可以执行训练。这个功能不需要构建可执行文件就能进行训练,实现快速迭代。

我们认为这个功能将为用户节省大量时间,还可以缩短传统游戏开发流程和ML-Agents训练过程之间的间隔。这个功能是通过改进工具的通信系统实现的。我们为开发者工作流程带来的改进不会止步于此。这只是与Unity编辑器更紧密集成的第一步,Unity编辑器还将在2018年持续更新。

TensorFlowSharp更新
最后我们要分享的消息:TensorFlowSharp插件从1.4更新到1.7.1。

这意味着开发者和研究人员可以使用带有新版TensorFlow所构建模型的ML-Agents,同时维持训练模型和可嵌入到Unity项目中的模型之间的兼容性。我们还改进了文档中关于创建Android和iOS可执行文件的内容,加入了使用ML-Agents的部分。

优达学城深度强化学习纳米学位
我们很荣幸宣布,我们正与优达学城合作带来一个全新纳米学位,它将用于帮助想要更深度理解强化学习的学生和用户社区。这个优达学城课程会使用ML-Agents来说明和教授多个概念。

如果你已经使用过ML-Agents或是想要了解强化学习背后的数学、算法和理论知识,你可以访问进行注册学习:https://bit.ly/2JQ4VlY

CopyRight © 2015 广州元易科技有限公司 版权所有 粤ICP备06001483号-1

技术支持:腾云科技

返回顶部