RLHF -- From Zero to PPO 代码篇

本文最后更新于：2025年2月16日晚上

RLHF: From Zero to PPO 代码篇

1 简单的强化学习示例

ongoing

2 从OpenRLHF中看PPO实现

ongoing

AIGC > RLHF

#智能系统 #深度学习 #AIGC

RLHF -- From Zero to PPO 代码篇

https://jesseprince.github.io/2025/02/16/aigcs/rlhf/ppo_from_start_code/

作者

林正

发布于

2025年2月16日

许可协议

RLHF -- DPO 上一篇

RLHF -- From Zero to PPO 理论篇下一篇