叠甲:没系统学过深度学习和强化学习,所以可能不是很了解一些基础知识。
最近想训练一个二维迷宫寻路智能体,从 linyiYi 这里抄了一个他贪吃蛇 ai 的板子拿过来改
https://github.com/linyiLYi/snake-ai
但是发现训练的时候,训练速度 m1max cpu >>> 2080s > m1max mps > 3900x cpu
代码在这里: https://github.com/abmcar/NavigateAi/tree/main/main
模型基本上都是用的默认的参数

对这个训练速度的差异很奇怪,是因为我台式机没有配置好环境还是因为我训练的内容恰好适合 m1max cpu?
另外想问一下,像这种简单问题,是不是调一个好的 reward 策略之后训练起来很快啊?之前跑没有加障碍物的 env ,跑了 5e7 步才能做到走最短路不撞墙一直吃到果子,感觉是 reward 没设置好。如果训练效果跟 reward 策略强相关的话,我需要学习一些理论知识来制定 reward 策略吗?或者还需要自己根据实际 env 手写模型并且调参?
下面是之前无障碍的 reward 策略,https://github.com/abmcar/NavigateAi/blob/4d8cd82323305d69b65cfd21fb7a58808b992232/main/navigate_game_custom_wrapper_mlp.py

最近想训练一个二维迷宫寻路智能体,从 linyiYi 这里抄了一个他贪吃蛇 ai 的板子拿过来改
https://github.com/linyiLYi/snake-ai
但是发现训练的时候,训练速度 m1max cpu >>> 2080s > m1max mps > 3900x cpu
代码在这里: https://github.com/abmcar/NavigateAi/tree/main/main
模型基本上都是用的默认的参数

对这个训练速度的差异很奇怪,是因为我台式机没有配置好环境还是因为我训练的内容恰好适合 m1max cpu?
另外想问一下,像这种简单问题,是不是调一个好的 reward 策略之后训练起来很快啊?之前跑没有加障碍物的 env ,跑了 5e7 步才能做到走最短路不撞墙一直吃到果子,感觉是 reward 没设置好。如果训练效果跟 reward 策略强相关的话,我需要学习一些理论知识来制定 reward 策略吗?或者还需要自己根据实际 env 手写模型并且调参?
下面是之前无障碍的 reward 策略,https://github.com/abmcar/NavigateAi/blob/4d8cd82323305d69b65cfd21fb7a58808b992232/main/navigate_game_custom_wrapper_mlp.py





