跳转到主要内容
Datasets 提供驱动 evaluation runs 和 training runs 的 prompts,以及可选的参考答案。每一行都会成为 rollout 和 Grader 处理的一个样本。

Dataset 格式

Osmosis 接受 JSONLCSVParquet 格式的数据集,单个文件最大 5 GB 每个数据集至少需要 4 行

必需列

ColumnDescription
system_prompt此样本提供给模型的 system prompt。
user_prompt模型需要回答的 user prompt 或问题。

可选列

ColumnDescription
ground_truth期望的正确答案或参考输出。平台 UI 也接受 label 作为该列的别名。当存在该列时,其值会以 context.label 传给您的 Grader。
metadata附加到每个样本的任意 JSON metadata。
当您的 Grader 需要参考答案来评分时,请包含 ground_truth(或 label)。如果 reward function 仅基于模型行为评分,则可以省略此列。

JSONL 示例

{"system_prompt": "You are a helpful math tutor.", "user_prompt": "What is 15 * 23?", "ground_truth": "345"}
{"system_prompt": "You are a helpful math tutor.", "user_prompt": "Simplify 3/9.", "ground_truth": "1/3"}

上传 Dataset

osmosis dataset upload data/train.jsonl
上传后的数据集名称来自文件 stem(本例中是 train)。上传后,数据集会进入处理 pipeline。您可以查看状态:
osmosis dataset info <dataset-name>
StatusDescription
uploading文件上传已开始但尚未完成。
pending已收到上传,等待处理。
processing正在验证并索引数据集。
uploaded数据集可用于 evaluation runs 和 training runs。
error处理失败,请检查列名和文件格式。
cancelled上传在处理完成前被取消。

本地验证

上传前先在本地验证数据集,尽早发现格式问题:
osmosis dataset validate data/train.jsonl
这会检查必需列、文件格式和基础 JSONL/CSV/Parquet 结构,不会上传到平台。

预览 Dataset

预览已上传数据集的前几行:
osmosis dataset preview my-dataset --rows 5

管理 Datasets

# 列出当前 workspace 中的所有 datasets
osmosis dataset list

# 下载 dataset 文件
osmosis dataset download my-dataset

下一步

Training Runs

在 training configs 中使用已验证的数据集。

模型

选择 base models,并部署已训练 LoRA models。