训练运行 - Osmosis

每次训练运行以一个基础模型为起点，通过强化学习迭代优化。您提供 reward 函数、工具和数据集，平台自动配置 GPU、执行训练循环并保存检查点。

创建训练运行

在您的项目仪表板中：

点击 New Training Run
配置运行（参见以下各节）
点击 Start Training

配置

基础模型

选择要微调的基础模型。平台支持兼容 RL 训练的主流开源权重模型。

数据集

上传或选择训练数据集。数据集包含 prompt（以及可选的 ground truth），模型在 rollout 期间使用这些数据进行训练。

数据集通常为 Parquet 格式，包含 prompt 和预期输出的列。有关数据集格式示例，请参阅 Remote Rollout 快速入门。

Reward 函数

选择一个或多个 reward 函数来对训练期间模型的输出进行评分：

同步的 reward 函数 —— 通过 Git Sync 从您连接的 GitHub 仓库导入
Reward rubric —— 使用已配置的提供商进行 LLM 评估的 rubric

可以将多个 reward 函数组合使用，并配置权重。

工具

选择在训练 rollout 期间 agent 可用的 MCP 工具。工具从您连接的仓库同步，或在您的 Remote Rollout 服务器中定义。

超参数

您可以配置的关键训练超参数：

参数	描述
Learning rate	模型更新的步长
Batch size	每个训练步骤的样本数
Max turns	每个 rollout episode 的最大 agent 轮次
KL penalty	KL 散度惩罚系数（防止灾难性遗忘）
Epochs	遍历数据集的次数
Temperature	Rollout 期间的采样温度

提供的默认值适用于大多数场景。根据训练结果进行调整。

Reward Rubric

Reward rubric（前身为 LLM Judges）使用外部 LLM 提供商在训练期间评估模型输出。无需编写确定性的评分逻辑，您只需用自然语言描述评估标准，由 LLM 对输出进行评分。

Reward Rubric 的工作原理

在训练 rollout 期间，模型生成一个回复
回复连同您的 rubric 一起发送到 LLM 提供商（OpenAI、Anthropic、Google 等）
LLM 根据您的标准评估回复并返回评分
该评分用作 RL 训练的 reward 信号

LLM 评审需要您要使用的提供商的 API 密钥。请在 LLM Judges → Add LLM Judge 中配置。

编写 Reward Rubric

了解如何使用 @osmosis_rubric 装饰器编写和测试 rubric。

训练策略

标准训练

使用 RL 优化对数据集进行单次遍历。最适合：

初始训练实验
具有明确 reward 信号的明确定义的任务
较小的数据集

持续训练

多个 epoch 并持续监控。最适合：

生产模型改进
多次遍历有帮助的大型数据集
需要逐步优化的任务

管理训练运行

启动和停止

Start（启动） —— 配置 GPU 并开始训练
Pause（暂停） —— 保存当前状态并释放资源
Resume（恢复） —— 从上一个检查点继续
Stop（停止） —— 结束训练并完成检查点

检查点

在训练期间，平台会在可配置的间隔自动保存检查点。在训练运行页面中：

查看所有已保存的检查点及其训练步骤和指标
按 reward 分数比较检查点
合并检查点以创建可部署的模型
将合并后的模型导出到 Hugging Face Hub

有关跟踪训练进度和管理检查点的详细信息，请参阅监控。

后续步骤

监控

跟踪训练指标并管理检查点

工作空间设置

管理 API 密钥、LLM 提供商和集成

平台

​创建训练运行

​配置

​基础模型

​数据集

​Reward 函数

​工具

​超参数

​Reward Rubric

​Reward Rubric 的工作原理

编写 Reward Rubric

​训练策略

​标准训练

​持续训练

​管理训练运行

​启动和停止

​检查点

​后续步骤

监控

工作空间设置

创建训练运行

配置

基础模型

数据集

Reward 函数

工具

超参数

Reward Rubric

Reward Rubric 的工作原理

训练策略

标准训练

持续训练

管理训练运行

启动和停止

检查点

后续步骤