Dataset 格式
Osmosis 接受 JSONL、CSV 或 Parquet 格式的数据集,单个文件最大 5 GB。 每个数据集至少需要 4 行。必需列
| Column | Description |
|---|---|
system_prompt | 此样本提供给模型的 system prompt。 |
user_prompt | 模型需要回答的 user prompt 或问题。 |
可选列
| Column | Description |
|---|---|
ground_truth | 期望的正确答案或参考输出。平台 UI 也接受 label 作为该列的别名。当存在该列时,其值会以 context.label 传给您的 Grader。 |
metadata | 附加到每个样本的任意 JSON metadata。 |
当您的 Grader 需要参考答案来评分时,请包含
ground_truth(或 label)。如果 reward function 仅基于模型行为评分,则可以省略此列。JSONL 示例
上传 Dataset
train)。上传后,数据集会进入处理 pipeline。您可以查看状态:
| Status | Description |
|---|---|
| uploading | 文件上传已开始但尚未完成。 |
| pending | 已收到上传,等待处理。 |
| processing | 正在验证并索引数据集。 |
| uploaded | 数据集可用于 evaluation runs 和 training runs。 |
| error | 处理失败,请检查列名和文件格式。 |
| cancelled | 上传在处理完成前被取消。 |
本地验证
上传前先在本地验证数据集,尽早发现格式问题:预览 Dataset
预览已上传数据集的前几行:管理 Datasets
下一步
Training Runs
在 training configs 中使用已验证的数据集。
模型
选择 base models,并部署已训练 LoRA models。