为什么选择 Osmosis
贴身部署服务
我们与客户直接合作,支持整个后训练工作流 —— 从特征工程到 reward 函数创建。
强化微调
一个全面的后训练平台,让工程师能够利用最前沿的强化学习技术(GRPO、DAPO 等)。
持续改进
与您的评估方案集成,监控性能并自动启动再训练 —— 无需工程师人工介入。
使用场景
数据提取
构建领域特定的提取模型,精确捕获任何文档的结构和内容。
工具使用
教会 AI agent 使用生产环境中的工具。Osmosis 驱动的 AI agent 即使在最复杂的多步骤、多工具任务中也能保持可靠。
代码生成
训练专用编码模型,实现领域特定语言、前端组件和上下文感知测试的极速生成。
工作原理
快速开始
平台快速入门
初次使用 Osmosis?从这里开始。
平台概览
了解核心概念 —— 工作空间、训练运行、指标和模型管理。
Local Rollout
从您的 GitHub 仓库同步 reward 函数、rubric 和 MCP 工具。
Remote Rollout
构建与 Osmosis 训练基础设施集成的自定义 agent 服务器。
什么是 Rollout?
在强化学习中,rollout 是在环境中运行策略以生成轨迹的过程 —— 从开始到结束的完整动作、观察和结果序列。在 LLM 的语境中,一次 rollout 是模型解决任务的一次尝试,包括任何推理步骤、工具使用和最终输出。可以把它想象成一次 ChatGPT 对话:如果多个用户向同一个模型提出相同的问题,每次交互都算作一次独立的 rollout。 每次 rollout 都会产生一条轨迹,记录模型在该次尝试中所做的一切。然后,reward 函数会对模型的表现进行评分。Osmosis 收集这些轨迹和奖励,然后使用强化学习(GRPO、DAPO)来更新模型的策略 —— 引导模型采用能获得更高奖励的策略。 通过在每次训练迭代中运行数千次 rollout,模型会发现哪些推理模式、工具使用策略和回复风格能带来更好的结果 —— 并在您的特定任务上持续可衡量地提升。选择您的工作流
Osmosis 支持两种主要工作流,用于将您的代码连接到训练平台:| Local Rollout | Remote Rollout | |
|---|---|---|
| 最适合 | Reward 函数、rubric、MCP 工具 | 具有复杂逻辑的自定义 agent 循环 |
| 工作方式 | 推送到 GitHub,自动同步到平台 | 运行您自己的 HTTP 服务器,平台连接 |
| 设置方式 | 添加装饰器 + 文件夹结构 | 实现 RolloutAgentLoop |
| 适用场景 | 标准工具使用训练 | 多步推理、自定义环境 |