TY -的A2 -李,Yangmin盟——Mourad Nafee盟——Ezzeddine阿里AU - Nadjar Araabi, Babak AU - Nili Ahmadabadi, Majid PY - 2020 DA - 2020/01/13 TI -从示威和学习人类评价反馈:使用逆强化学习方法处理稀疏和缺陷SP - 3849309六世- 2020 AB -编程的示威活动是最有效的方法之一,开发先进的学习系统知识转移,只要教师提供丰富的和正确的示威活动,学习者正确看待他们。然而,示威游行
稀疏的和
不准确的在几乎所有的实际问题的能力。需要补充的信息来弥补这些缺点的示威活动。在本文中,我们的目标编程的结合
nonoptimal和
稀疏的示威和数量有限的二进制的评价反馈,在学习者使用自己的评估经验在扩展新示威逆强化学习方法。这为学习者提供了一个更广泛的泛化和更少的遗憾以及鲁棒性在面对稀疏和nonoptimality示威和反馈。我们的方法减轻教师提供最佳的不切实际的负担和丰富的示威活动。雇佣一个评价反馈,便于教师提供,提供了机会纠正学习者的行为在一种相互作用的社会环境不需要教师了解和使用自己的准确的回报函数。在这里,我们提高逆强化学习(
IRL
)来估计奖励函数使用nonoptimal和稀疏的示威和评价反馈。我们的方法,称为
IRL
从示范和人类的批判(
IRLDC
)两个阶段。老师首先为学习者提供了一些示威来初始化其政策。接下来,学习者与环境和老师提供二进制评价反馈。考虑到可能的不一致和错误的发布和接收反馈,学习者修正估计奖励函数通过求解一个优化问题。的
IRLDC
是设计来处理错误和稀疏的示威和反馈,可以概括这两个专业知识来源的不同组合。我们运用我们的方法三个领域:一个模拟导航任务,与人工交互模拟汽车驾驶问题,移动机器人的导航实验。结果表明,
IRLDC
大大提高了学习过程的标准
IRL
方法失败和学习反馈(
低频滤波器
)方法具有很高的遗憾。此外,
IRLDC
适用于不同层次的稀疏和最优老师的示范和反馈,其他先进的方法失败。SN - 1687 - 9600你2020/3849309 / 10.1155——https://doi.org/10.1155/2020/3849309——摩根富林明——《机器人PB - Hindawi KW - ER