跳转到主要内容
欢迎使用 Osmosis —— 前沿部署的强化学习平台。只需定义工具、reward 函数和训练数据,Osmosis 负责从 GPU 编排到 RL 训练的全部流程,为您交付针对具体工作流调优的专用模型。

为什么选择 Osmosis

贴身部署服务

我们与客户直接合作,支持整个后训练工作流 —— 从特征工程到 reward 函数创建。

强化微调

一个全面的后训练平台,让工程师能够利用最前沿的强化学习技术(GRPO、DAPO 等)。

持续改进

与您的评估方案集成,监控性能并自动启动再训练 —— 无需工程师人工介入。

使用场景

数据提取

构建领域特定的提取模型,精确捕获任何文档的结构和内容。

工具使用

教会 AI agent 使用生产环境中的工具。Osmosis 驱动的 AI agent 即使在最复杂的多步骤、多工具任务中也能保持可靠。

代码生成

训练专用编码模型,实现领域特定语言、前端组件和上下文感知测试的极速生成。
延伸阅读:Open Source SLM Trained for MCP —— 了解 Osmosis 如何通过强化学习训练小语言模型实现工具使用。访问 osmosis.ai 查看更多使用场景和演示。

工作原理

1

您来定义

提供训练的构建模块:
  • 工具与 Agent 逻辑 —— agent 可以执行的操作
  • Reward 函数 —— 输出的评分方式
  • 训练数据 —— 模型学习的任务
2

Osmosis 训练

平台处理繁重的工作:
  • GPU 训练集群 —— 托管基础设施,无需配置
  • RL 训练循环 —— GRPO、DAPO 和多轮工具训练
  • 检查点与指标 —— 实时跟踪进度
3

部署您的模型

发布一个在您的任务上表现更优的模型:
  • 合并至 HuggingFace —— 导出训练后的权重
  • 随处部署 —— 在任何环境中使用您的模型

快速开始

平台快速入门

初次使用 Osmosis?从这里开始。

平台概览

了解核心概念 —— 工作空间、训练运行、指标和模型管理。

Local Rollout

从您的 GitHub 仓库同步 reward 函数、rubric 和 MCP 工具。

Remote Rollout

构建与 Osmosis 训练基础设施集成的自定义 agent 服务器。

什么是 Rollout?

在强化学习中,rollout 是在环境中运行策略以生成轨迹的过程 —— 从开始到结束的完整动作、观察和结果序列。在 LLM 的语境中,一次 rollout 是模型解决任务的一次尝试,包括任何推理步骤、工具使用和最终输出。可以把它想象成一次 ChatGPT 对话:如果多个用户向同一个模型提出相同的问题,每次交互都算作一次独立的 rollout。 每次 rollout 都会产生一条轨迹,记录模型在该次尝试中所做的一切。然后,reward 函数会对模型的表现进行评分。Osmosis 收集这些轨迹和奖励,然后使用强化学习(GRPO、DAPO)来更新模型的策略 —— 引导模型采用能获得更高奖励的策略。 通过在每次训练迭代中运行数千次 rollout,模型会发现哪些推理模式、工具使用策略和回复风格能带来更好的结果 —— 并在您的特定任务上持续可衡量地提升。

选择您的工作流

Osmosis 支持两种主要工作流,用于将您的代码连接到训练平台:
Local RolloutRemote Rollout
最适合Reward 函数、rubric、MCP 工具具有复杂逻辑的自定义 agent 循环
工作方式推送到 GitHub,自动同步到平台运行您自己的 HTTP 服务器,平台连接
设置方式添加装饰器 + 文件夹结构实现 RolloutAgentLoop
适用场景标准工具使用训练多步推理、自定义环境