帮助 关于我们

返回检索结果

水下滑翔蛇形机器人滑翔控制的强化学习方法
A Reinforcement Learning Method for Gliding Control of Underwater Gliding Snake-like Robot

查看参考文献13篇

张晓路 1,2,3   李斌 2,3   常健 2,3 *   唐敬阁 2,3,4  
文摘 研究了一种强化学习算法,用于水下滑翔蛇形机器人的滑翔运动控制.针对水动力环境难以建模的问题,使用强化学习方法使水下滑翔蛇形机器人自适应复杂的水环境,并自动学习仅通过调节浮力来控制滑翔运动.对此,提出了循环神经网络蒙特卡洛策略梯度算法,改善了由于机器人的状态难以完全观测而导致的算法难以训练的问题,并将水下滑翔蛇形机器人的基本滑翔动作控制问题近似为马尔可夫决策过程,从而得到有效的滑翔控制策略.通过仿真和实验证明了所提出方法的有效性.
其他语种文摘 A reinforcement learning algorithm for gliding control of underwater gliding snake-like robot is studied.To solve the problem that the hydrodynamic environment is hard to be modeled,a reinforcement learning method is adopted so that the underwater gliding snake-like robot can adapt to the complex water environment and automatically learn the gliding actions only by adjusting buoyancy.A Monte Carlo policy gradient algorithm using recurrent neural network is proposed to solve the problem that the algorithm is difficult to train because the robot state can't be fully observed.The gliding action control of the underwater gliding snake-like robot is approximated as Markov decision processes (MDPs),so as to obtain an effective gliding control policy.Simulation and experiment results show the effectiveness of the proposed method.
来源 机器人 ,2019,41(3):334-342 【核心库】
DOI 10.13973/j.cnki.robot.180398
关键词 强化学习 ; 水下滑翔蛇形机器人 ; 马尔可夫决策过程 ; 循环神经网络
地址

1. 东北大学信息科学与工程学院, 辽宁, 沈阳, 110819  

2. 中国科学院沈阳自动化研究所, 机器人学国家重点实验室, 辽宁, 沈阳, 110016  

3. 中国科学院机器人与智能制造创新研究院, 辽宁, 沈阳, 110016  

4. 中国科学院大学, 北京, 100049

语种 中文
文献类型 研究性论文
ISSN 1002-0446
学科 自动化技术、计算机技术
基金 国家重点研发计划 ;  国家自然科学基金青年基金
文献收藏号 CSCD:6505296

参考文献 共 13 共1页

1.  Javaid M Y. Underwater gliders: A review. 4th International Conference on Production, Energy and Reliability,2014:No.02020 被引 1    
2.  俞建成. 水下滑翔机器人运动调节机构设计与运动性能分析. 机器人,2005,27(5):390-395 被引 10    
3.  Ming A G. Development of a sea snake-like underwater robot. IEEE International Conference on Robotics and Biomimetics,2014:761-766 被引 1    
4.  李立. 蛇形机器人水下3D运动建模与仿真. 机器人,2015,37(3):336-342 被引 6    
5.  唐敬阁. 水下蛇形机器人的滑翔运动性能研究. 高技术通讯,2017,27(3):269-276 被引 2    
6.  Sutton R S. Reinforcement learning: An introduction,1998 被引 225    
7.  Glascher J. States versus rewards: Dissociable neural prediction error signals underlying model-based and model-free reinforcement learning. Neuron,2010,66(4):585-595 被引 5    
8.  Puterman M L. Markov decision processes: Discrete stochastic dynamic programming,1994 被引 53    
9.  Monahan G E. State of the art–A survey of partially observable Markov decision processes–Theory, models, and algorithms. Management Science,1982,28(1):1-16 被引 12    
10.  Wang X N. Reinforcement learning algorithm for partially observable Markov decision processes. Control and Decision,2004,19(11):1263-1266 被引 2    
11.  Hochreiter S. Long short-term memory. Neural Computation,1997,9(8):1735-1780 被引 3013    
12.  郁树梅. 水陆两栖蛇形机器人的上浮和下潜步态研究. 仪器仪表学报,2011,32(S1):276-279 被引 2    
13.  Hausknecht M. Deep recurrent Q-learning for partially observable MDPs. AAAI Fall Symposium,2015:29-37 被引 1    
引证文献 5

1 陈恩志 采用干扰观测器的水下滑翔蛇形机器人纵倾运动控制 西安交通大学学报,2020,54(1):184-192
被引 4

2 朱威 可重构模块化蛇形机器人研制及多运动模态研究 信息与控制,2020,49(1):69-77
被引 1

显示所有5篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号