平台概览 - Osmosis

Osmosis Platform 是管理 LLM 强化学习训练的中心枢纽。它处理 GPU 配置、训练编排、指标收集和模型管理 —— 让您可以专注于定义 agent 行为和评估逻辑。

核心概念

概念	描述
Workspace（工作空间）	团队的顶级容器。包含项目、成员、API 密钥和集成。
Project（项目）	工作空间内的训练上下文。包含训练运行、reward 函数、工具和数据集。
Training Run（训练运行）	单次 RL 训练会话。配置基础模型、数据集、reward 函数和工具。
Reward Function（奖励函数）	确定性地对 LLM 输出进行评分的 Python 函数。返回一个浮点数。
Reward Rubric（奖励评估标准）	在训练期间由 LLM 评审员评估的自然语言标准。
MCP Tools	Agent 在 rollout 期间可以调用的函数（计算器、搜索、代码执行等）。
Rollout Server	您构建的 HTTP 服务器，用于实现自定义 agent 循环。训练集群将 rollout 请求发送到您的服务器，由服务器编排工具调用和 LLM 推理，然后返回轨迹和奖励。使用 Python SDK 的 `RolloutAgentLoop` API 构建。
Checkpoint（检查点）	训练期间保存的模型状态。可以合并并导出到 Hugging Face。

架构

Osmosis 支持两种 rollout 模式。根据您希望 agent 循环在训练期间运行的位置选择其中一种。

选项 A：Local Rollout

Agent 循环在训练集群内部运行。将 reward 函数、rubric 和 MCP 工具推送到 GitHub —— 平台会自动同步并运行所有内容。无需部署服务器。

选项 B：Remote Rollout

Agent 循环在您自己的服务器上运行。您只需实现两个函数 —— get_tools()（定义可用工具）和 run()（agent 循环逻辑）—— 通过继承 RolloutAgentLoop。Python SDK 会自动创建一个与训练器兼容的 HTTP 服务器，处理所有协议细节（/v1/rollout/init、/v1/chat/completions、/v1/rollout/completed）。完全控制 agent 逻辑和工具执行。