欢迎光临
我们一直在努力

offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据

从 RLT 里推导出
\((\sigma_0, \sigma_1, p)\) 的 preference 数据,其中
\(p\in\{0,0.5,1\}\)

未经允许不得转载:小健博客 » offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
分享到: 更多 (0)

大前端WP主题 更专业 更方便

联系我们联系我们