Skip to content

alxbj/MLND_CN_P5_Reinforcement_Learning

 
 

Repository files navigation

1. 问题描述

img.png

在该项目中,你将使用强化学习算法,实现一个自动走迷宫机器人。

  1. 如上图所示,智能机器人显示在右上角。在我们的迷宫中,有陷阱(红色炸弹)及终点(蓝色的目标点)两种情景。机器人要尽量避开陷阱、尽快到达目的地。
  2. 机器人可执行的动作包括:向上走 u、向右走 r、向下走 d、向左走 l
  3. 执行不同的动作后,根据不同的情况会获得不同的奖励,具体而言,有以下几种情况。
    • 撞到墙壁:-10
    • 走到终点:50
    • 走到陷阱:-30
    • 其余情况:-0.1
  4. 我们需要通过修改 robot.py 中的代码,来实现一个 Q Learning 机器人,实现上述的目标。

2. 完成项目流程

  1. 配置环境,使用 envirnment.yml 文件配置名为 robot-env 的 conda 环境,具体而言,你只需转到当前的目录,在命令行/终端中运行如下代码,稍作等待即可。
conda env create -f environment.yml

安装完毕后,在命令行/终端中运行 source activate robot-env(Mac/Linux 系统)或 activate robot-env(Windows 系统)激活该环境。

  1. 阅读 robot_maze.ipynb 中的指导完成项目,并根据指导修改对应的代码,生成、观察结果。
  2. 导出代码与报告,上传文件,提交审阅并优化。

About

nd009-cn-advanced-p5,针对Udacity CN MLND P5项目

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 56.3%
  • Jupyter Notebook 43.7%