跳转到主要内容
欢迎使用 Osmosis —— 前沿部署的强化学习平台。只需定义工具、reward 函数和训练数据,Osmosis 负责从 GPU 编排到 RL 训练的全部流程,为您交付针对具体工作流调优的专用模型。

为什么选择 Osmosis

贴身部署服务

我们与客户直接合作,支持整个后训练工作流 —— 从特征工程到 reward 函数创建。

强化微调

一个全面的后训练平台,让工程师能够利用最前沿的强化学习技术(GRPO、DAPO 等)。

持续改进

与您的评估方案集成,监控性能并自动启动再训练 —— 无需工程师人工介入。

使用场景

延伸阅读:Open Source SLM Trained for MCP —— 了解 Osmosis 如何通过强化学习训练小语言模型实现工具使用。访问 osmosis.ai 查看更多使用场景和演示。

工作原理

1

您来定义

提供训练的构建模块:
  • 工具与 Agent 逻辑 —— agent 可以执行的操作
  • Reward 函数 —— 输出的评分方式
  • 训练数据 —— 模型学习的任务
2

Osmosis 训练

平台处理繁重的工作:
  • GPU 训练集群 —— 托管基础设施,无需配置
  • RL 训练循环 —— GRPO、DAPO 和多轮工具训练
  • 检查点与指标 —— 实时跟踪进度
3

部署您的模型

发布一个在您的任务上表现更优的模型:
  • 合并至 HuggingFace —— 导出训练后的权重
  • 随处部署 —— 在任何环境中使用您的模型

快速开始

什么是 Rollout?

在强化学习中,rollout 是在环境中运行策略以生成轨迹的过程 —— 从开始到结束的完整动作、观察和结果序列。在 LLM 的语境中,一次 rollout 是模型解决任务的一次尝试,包括任何推理步骤、工具使用和最终输出。可以把它想象成一次 ChatGPT 对话:如果多个用户向同一个模型提出相同的问题,每次交互都算作一次独立的 rollout。 每次 rollout 都会产生一条轨迹,记录模型在该次尝试中所做的一切。然后,reward 函数会对模型的表现进行评分。Osmosis 收集这些轨迹和奖励,然后使用强化学习(GRPO、DAPO)来更新模型的策略 —— 引导模型采用能获得更高奖励的策略。 通过在每次训练迭代中运行数千次 rollout,模型会发现哪些推理模式、工具使用策略和回复风格能带来更好的结果 —— 并在您的特定任务上持续可衡量地提升。

选择您的工作流

Osmosis 支持两种主要工作流,用于将您的代码连接到训练平台:
Local RolloutRemote Rollout
最适合Reward 函数、rubric、MCP 工具具有复杂逻辑的自定义 agent 循环
工作方式推送到 GitHub,自动同步到平台运行您自己的 HTTP 服务器,平台连接
设置方式添加装饰器 + 文件夹结构实现 RolloutAgentLoop
适用场景标准工具使用训练多步推理、自定义环境