日期

2 年前

同策略指生成样本的策略与网络更新参数策略相同，其基于当前的策略直接执行下一次动作选择，然后用这个样本更新策略，生成样本的策略和学习时的策略相同。

SARSA 算法

SARSA（State-Action-Reward-State-Action）是一个学习马尔可夫决策过程策略的算法，通常用于机器学习领域的增强学习上。

SARSA 算法要点

在状态 s’ 时，就知道要采取哪个 a’ ，并采取这个动作；
动作 a 的选取遵循 e-greedy 策略，目标 Q 值的计算根据 e-greedy 策略得到的动作 a’ 计算得来，因此是 on-policy 学习。

同策略的优缺点

优点：每一步都可以更新，这是显然，学习速度快；可面对没有结果的场景，应用范围广。
缺点：遭遇探索-利用的矛盾；只利用已知的最优选择，可能学不到最优解；收敛到局部最优，加入探索而降低学习效率。

同策略和异策略

同策略和异策略的区别在于：更新 Q 值时，是沿用既定的策略还是使用新的策略。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

2 年前

SARSA 算法

SARSA（State-Action-Reward-State-Action）是一个学习马尔可夫决策过程策略的算法，通常用于机器学习领域的增强学习上。

SARSA 算法要点

在状态 s’ 时，就知道要采取哪个 a’ ，并采取这个动作；
动作 a 的选取遵循 e-greedy 策略，目标 Q 值的计算根据 e-greedy 策略得到的动作 a’ 计算得来，因此是 on-policy 学习。

同策略的优缺点

优点：每一步都可以更新，这是显然，学习速度快；可面对没有结果的场景，应用范围广。
缺点：遭遇探索-利用的矛盾；只利用已知的最优选择，可能学不到最优解；收敛到局部最优，加入探索而降低学习效率。

同策略和异策略

同策略和异策略的区别在于：更新 Q 值时，是沿用既定的策略还是使用新的策略。

视觉语言动作模型 VLA

VLA 能直接根据视觉画面和语言指令，生成机器人动作。

1 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

2 年前

SARSA 算法

SARSA（State-Action-Reward-State-Action）是一个学习马尔可夫决策过程策略的算法，通常用于机器学习领域的增强学习上。

SARSA 算法要点

在状态 s’ 时，就知道要采取哪个 a’ ，并采取这个动作；
动作 a 的选取遵循 e-greedy 策略，目标 Q 值的计算根据 e-greedy 策略得到的动作 a’ 计算得来，因此是 on-policy 学习。

同策略的优缺点

优点：每一步都可以更新，这是显然，学习速度快；可面对没有结果的场景，应用范围广。
缺点：遭遇探索-利用的矛盾；只利用已知的最优选择，可能学不到最优解；收敛到局部最优，加入探索而降低学习效率。

同策略和异策略

同策略和异策略的区别在于：更新 Q 值时，是沿用既定的策略还是使用新的策略。

视觉语言动作模型 VLA

VLA 能直接根据视觉画面和语言指令，生成机器人动作。

1 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

同策略 On Policy | Wiki | HyperAI超神经

Command Palette

同策略 On Policy

SARSA 算法

SARSA 算法要点

同策略的优缺点

同策略和异策略

用 AI 构建 AI

HyperAI Newsletters

Command Palette

同策略 On Policy

SARSA 算法

SARSA 算法要点

同策略的优缺点

同策略和异策略

视觉语言动作模型 VLA

用 AI 构建 AI

HyperAI Newsletters

Command Palette

同策略 On Policy

SARSA 算法

SARSA 算法要点

同策略的优缺点

同策略和异策略

视觉语言动作模型 VLA

用 AI 构建 AI

HyperAI Newsletters

视觉语言动作模型 VLA

视觉语言动作模型 VLA