未知环境下基于深度强化学习的移动机器人路径规划及跟踪控制研究
摘要
移动机器人在工业、农业、军事以及居民生活等领域均被广泛应用,为人类提供极
大的便利和安全保障,移动机器人的研究对社会的发展与科技的进步具有重要的意义。
路径规划和跟踪控制是移动机器人能否有效且高效完成任务的关键。传统的路径规划和
控制算法是通过建立具体数学模型,在已知环境中进行研究。但随着移动机器人应用领
域的不断扩展,其作业环境变得未知,传统的规划和控制方法无法使移动机器人完成相
应任务。因此需要移动机器人具有一定的自主学习和自主决策能力,在未知环境中无需
先验信息完成任务。针对这一需求,本课题基于强化学习设计了可以在未知环境中进行
路径规划及跟踪控制方法,论文的主要研究工作如下:
(1)对移动机器人的路径规划及跟踪控制研究的发展现状进行分析,阐述了现阶段路
径规划和控制研究工作的不足和局限性,为本课题的研究工作提供了理论基础;强化学
习算法需要在模拟环境中训练,为了尽可能贴近现实环境,提高算法的实用性,对ROS
和Gazebo及PyBullet软件进行了理论研究,并以此为基础构建了路径规划和跟踪控制
仿真训练环境,为后续算法验证提供了环境支撑。
(2)分析了DQN(DeepQ-network)算法原理,搭建了DQN算法框架,设计了基于
DQN算法的路径规划基础模型,在无需环境先验信息,或提前对环境进行建图处理等
方式,移动机器人通过激光雷达感受环境信息,在自定义仿真环境中进行训练,并根据
训练结果分析了基础模型的不足;针对基础模型算收敛速度慢,模型学习能力弱的问题,
深入分析了人工势场的原理,提出了基于人工势场改进的DQN路径规划模型,提高模
型的自主决策与自主学习能力;最后为了验证模型的可迁移性与泛化能力,基于ROS和
Gazebo构建了全新未知的路径规划仿真环境,并进行模型验证测试。
(3)对现阶段PID控制算法进行理论分析,针对其调参困难、在未知环境中无法实时
控制的问题,通过对SAC强化学习算法理论深入分析,设计了基于SAC算法的自适应
PID控制器(SAC-PID),并通过PyBullet构造了路径跟踪仿真环境进行模型仿真训练;
为了与传统的自适应PID控制方法对比,对基于模糊算法的自适应PID控制器(模糊-
PID)进行理论分析研究;最后在一个更为复杂的、未知的路径跟踪环境进行仿真对比实
验,验证SAC-PID控制方法的可迁移性,与模糊-PID控制方法进行对比,验证了SAC-
PID方法控制效果。
哈尔滨工程大学硕士学位论文
关键词:移动机器人;深度强化学习;路径规划;跟踪控制;ROS
未知环境下基于深度强化学习的移动机器人路径规划及跟踪控制研究
ABSTRACT
Mobilerobotsarewidelyusedinindustries,agriculture,military,andresidentiallife,
providinggreatconvenienceandsecurityforhumanity.Theresearchonmobilerobotsisof
greatsignificanceforthedevelopmentofsocietyandtechnologicalprogress.Pathplanningand
trackingcontrolarekeyfactorsformobilerobotstoeffectivelyandefficientlycompletetasks.
Traditionalplanningandcontrolalgorithmsarestudiedbyestablishingspecificmathematical
modelsinknownenvironments.However,withthecontinuousexpansionoftheapplication
fieldofmobilerobots,theirworkingenvironm