跳转到主要内容
训练启动后,打开监控仪表板即可查看实时 reward 曲线、流式日志和已保存的检查点 —— 帮助您快速诊断问题并决定何时停止或继续训练。

指标仪表板

在活跃的训练运行期间,仪表板显示实时更新的关键指标:
指标描述
Training Reward训练 rollout 的平均 reward 分数
Validation Reward在保留验证数据上的 reward 分数
Model Entropy输出多样性的度量(越高 = 探索越多)
Response Length模型回复的平均 token 数
KL Divergence与参考模型的距离(监控灾难性遗忘)
每个指标都按训练步骤绘制,因此您可以看到趋势并识别模型何时收敛、过拟合或性能下降。

时间范围控制

按时间范围过滤指标:
  • 最近 1 小时、最近 6 小时、最近 24 小时
  • 完整训练运行
  • 自定义范围

训练日志

日志面板显示详细的事件级信息:
  • Rollout 日志 —— 单个 rollout 的跟踪记录,包含 prompt、回复、工具调用和 reward
  • 系统日志 —— 基础设施事件(GPU 分配、检查点保存、错误)
  • Reward 详情 —— 每个样本的 reward 分数及每个 reward 函数的详细信息
日志可以按严重级别(info、warning、error)过滤,并支持关键词搜索。

检查点

检查点在训练期间按可配置的间隔自动保存。每个检查点包含:
  • 该训练步骤的模型权重
  • 保存时的训练指标
  • 运行使用的配置

查看检查点

检查点列表显示:
  • Step number —— 保存检查点时的训练步骤
  • Training reward —— 该步骤的平均 reward
  • Validation reward —— 该步骤的验证分数
  • Timestamp —— 检查点创建的时间

合并检查点

要从检查点创建可部署的模型:
  1. 从列表中选择一个检查点
  2. 点击 Merge —— 这会将 RL adapter 与基础模型合并
  3. 合并后的模型已保存并准备好导出

导出到 Hugging Face

合并检查点后:
  1. 在合并后的模型上点击 Upload to Hugging Face
  2. 配置目标仓库和可见性(公开/私有)
  3. 模型将与包含训练元数据的 model card 一起上传
导出前,您必须在工作空间设置中配置 Hugging Face 集成。

比较运行

如果您在一个项目中有多个训练运行,可以并排比较它们的指标,以确定哪种配置表现最佳。

后续步骤