指标仪表板
在活跃的训练运行期间,仪表板显示实时更新的关键指标:| 指标 | 描述 |
|---|---|
| Training Reward | 训练 rollout 的平均 reward 分数 |
| Validation Reward | 在保留验证数据上的 reward 分数 |
| Model Entropy | 输出多样性的度量(越高 = 探索越多) |
| Response Length | 模型回复的平均 token 数 |
| KL Divergence | 与参考模型的距离(监控灾难性遗忘) |
时间范围控制
按时间范围过滤指标:- 最近 1 小时、最近 6 小时、最近 24 小时
- 完整训练运行
- 自定义范围
训练日志
日志面板显示详细的事件级信息:- Rollout 日志 —— 单个 rollout 的跟踪记录,包含 prompt、回复、工具调用和 reward
- 系统日志 —— 基础设施事件(GPU 分配、检查点保存、错误)
- Reward 详情 —— 每个样本的 reward 分数及每个 reward 函数的详细信息
检查点
检查点在训练期间按可配置的间隔自动保存。每个检查点包含:- 该训练步骤的模型权重
- 保存时的训练指标
- 运行使用的配置
查看检查点
检查点列表显示:- Step number —— 保存检查点时的训练步骤
- Training reward —— 该步骤的平均 reward
- Validation reward —— 该步骤的验证分数
- Timestamp —— 检查点创建的时间
合并检查点
要从检查点创建可部署的模型:- 从列表中选择一个检查点
- 点击 Merge —— 这会将 RL adapter 与基础模型合并
- 合并后的模型已保存并准备好导出
导出到 Hugging Face
合并检查点后:- 在合并后的模型上点击 Upload to Hugging Face
- 配置目标仓库和可见性(公开/私有)
- 模型将与包含训练元数据的 model card 一起上传
导出前,您必须在工作空间设置中配置 Hugging Face 集成。