核心概念
| 概念 | 描述 |
|---|---|
| Workspace(工作空间) | 团队的顶级容器。包含项目、成员、API 密钥和集成。 |
| Project(项目) | 工作空间内的训练上下文。包含训练运行、reward 函数、工具和数据集。 |
| Training Run(训练运行) | 单次 RL 训练会话。配置基础模型、数据集、reward 函数和工具。 |
| Reward Function(奖励函数) | 确定性地对 LLM 输出进行评分的 Python 函数。返回一个浮点数。 |
| Reward Rubric(奖励评估标准) | 在训练期间由 LLM 评审员评估的自然语言标准。 |
| MCP Tools | Agent 在 rollout 期间可以调用的函数(计算器、搜索、代码执行等)。 |
| Rollout Server | 您构建的 HTTP 服务器,用于实现自定义 agent 循环。训练集群将 rollout 请求发送到您的服务器,由服务器编排工具调用和 LLM 推理,然后返回轨迹和奖励。使用 Python SDK 的 RolloutAgentLoop API 构建。 |
| Checkpoint(检查点) | 训练期间保存的模型状态。可以合并并导出到 Hugging Face。 |
架构
Osmosis 支持两种 rollout 模式。根据您希望 agent 循环在训练期间运行的位置选择其中一种。选项 A:Local Rollout
Agent 循环在训练集群内部运行。将 reward 函数、rubric 和 MCP 工具推送到 GitHub —— 平台会自动同步并运行所有内容。无需部署服务器。选项 B:Remote Rollout
Agent 循环在您自己的服务器上运行。您只需实现两个函数 ——get_tools()(定义可用工具)和 run()(agent 循环逻辑)—— 通过继承 RolloutAgentLoop。Python SDK 会自动创建一个与训练器兼容的 HTTP 服务器,处理所有协议细节(/v1/rollout/init、/v1/chat/completions、/v1/rollout/completed)。完全控制 agent 逻辑和工具执行。