Remote Rollout 概述

当 Local Rollout 的 MCP 工作流灵活度不够时，Remote Rollout 赋予您完全的控制权。您托管一个实现 Agent 逻辑的 HTTP 服务器 —— 多步推理、自定义环境、外部 API —— 训练集群则负责 LLM 推理和轨迹收集。

前置条件：您需要一个 Osmosis Platform 账户并安装 SDK（pip install osmosis-ai[server]）。使用 osmosis login 进行身份验证，然后在准备训练时在 platform.osmosis.ai 上注册您的 Rollout 服务器 URL。

什么是 Remote Rollout？

Remote Rollout 将 Agent 轨迹生成与训练基础设施分离：

训练集群

托管 LLM 推理（/v1/chat/completions）并接收 Rollout 结果（/v1/rollout/completed）

RolloutServer（您的代码）

实现带有工具的 Agent 循环，将协议处理委托给 SDK

这种架构允许您：

定义自定义工具 - 实现 Agent 所需的任何工具（计算器、网页搜索、代码执行等）
控制 Agent 逻辑 - 构建具有自定义推理能力的复杂 Agent 循环
收集训练数据 - 自动收集用于强化学习的轨迹
独立扩展 - 运行多个 Agent 服务器，无需修改训练基础设施

工作原理

协议流程

初始化 Rollout (/v1/rollout/init)：
- 训练集群发送初始消息和参数
- SDK 调用您的 get_tools() 方法
- 返回 202 Accepted 以及包含工具列表的 InitResponse
- 这告知训练集群此次 Rollout 有哪些可用工具
Agent 循环（run() 方法）：
- 您的代码在 LLM 调用和工具执行之间交替进行
- 使用 ctx.chat() 调用训练集群的 LLM 端点
完成（/v1/rollout/completed）：
- 将最终轨迹发送回训练系统
- 仅在平台配置为在 Remote Rollout 中计算奖励时才包含奖励值

示例仓库

我们提供了一个完整的示例仓库，您可以将其作为起点：

osmosis-remote-rollout-example

完整的计算器 Agent 示例，包含工具、奖励和测试数据集

该示例包括：

完整的 Agent 循环实现
工具定义和执行
示例奖励计算逻辑
JSONL 格式的测试数据集
CLI 使用示例

准备好构建自己的 Agent 了吗？按照快速开始指南，5 分钟内即可启动并运行。

远程 Rollout

Remote Rollout 概述

什么是 Remote Rollout？

训练集群

RolloutServer（您的代码）

工作原理

协议流程

示例仓库

osmosis-remote-rollout-example

下一步

快速开始

Agent 循环指南

远程 Rollout

​什么是 Remote Rollout？

训练集群

RolloutServer（您的代码）

​工作原理

​协议流程

​示例仓库

osmosis-remote-rollout-example

​下一步

快速开始

Agent 循环指南

什么是 Remote Rollout？

工作原理

协议流程

示例仓库

下一步