-
Notifications
You must be signed in to change notification settings - Fork 3
datasets might need to get downgraded for "openai/summarize_from_feedback" to load correctly #1
Copy link
Copy link
Open
Description
First of all, amazing work on this paper! The experimental results are very striking, and I am currently going through the process of reproducing them. I thought I would flag that I had to downgrade datasets from the requirements.txt version 4.5.0 to 3.6.0 for the ./scripts/prepare_data_tldr.sh script to work:
(.venv-baseline) root@(redacted):/(redacted)/baseline_sdpo# ./scripts/prepare_data_tldr.sh
REPO_ROOT=/(redacted)/baseline_sdpo
OUT_DIR=/(redacted)/baseline_sdpo/data/tldr_prompts_unique
README.md: 1.61kB [00:00, 6.60MB/s]
summarize_from_feedback.py: 9.38kB [00:00, 32.6MB/s]
Traceback (most recent call last):
File "/(redacted)/baseline_sdpo/auxiliary/process_tldr_dataset.py", line 31, in <module>
ds = load_dataset("openai/summarize_from_feedback", "comparisons") # train/validation
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "/(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages/datasets/load.py", line 1488, in load_dataset
builder_instance = load_dataset_builder(
^^^^^^^^^^^^^^^^^^^^^
File "/(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages/datasets/load.py", line 1133, in load_dataset_builder
dataset_module = dataset_module_factory(
^^^^^^^^^^^^^^^^^^^^^^^
File "/(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages/datasets/load.py", line 1032, in dataset_module_factory
raise e1 from None
File "/(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages/datasets/load.py", line 992, in dataset_module_factory
raise RuntimeError(f"Dataset scripts are no longer supported, but found {filename}")
RuntimeError: Dataset scripts are no longer supported, but found summarize_from_feedback.py
(.venv-baseline) root@(redacted):/(redacted)/baseline_sdpo# uv pip show datasets
Using Python 3.12.13 environment at: .venv-baseline
Name: datasets
Version: 4.5.0
Location: /(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages
Requires: dill, filelock, fsspec, httpx, huggingface-hub, multiprocess, numpy, packaging, pandas, pyarrow, pyyaml, requests, tqdm, xxhash
Required-by: trl
(.venv-baseline) root@(redacted):/(redacted)/baseline_sdpo# uv pip install "datasets<4.0.0"
Using Python 3.12.13 environment at: .venv-baseline
Resolved 30 packages in 200ms
Prepared 4 packages in 71ms
Uninstalled 4 packages in 916ms
░░░░░░░░░░░░░░░░░░░░ [0/4] Installing wheels... warning: Failed to hardlink files; falling back to full copy. This may lead to degraded performance.
If the cache and target directories are on different filesystems, hardlinking may not be supported.
If this is intentional, set `export UV_LINK_MODE=copy` or use `--link-mode=copy` to suppress this warning.
Installed 4 packages in 1.58s
- datasets==4.5.0
+ datasets==3.6.0
- dill==0.4.0
+ dill==0.3.8
- fsspec==2025.10.0
+ fsspec==2025.3.0
- multiprocess==0.70.18
+ multiprocess==0.70.16
(.venv-baseline) root@(redacted):/(redacted)/baseline_sdpo# uv pip show datasets
Using Python 3.12.13 environment at: .venv-baseline
Name: datasets
Version: 3.6.0
Location: /(redacted)/baseline_sdpo/.venv-baseline/lib/python3.12/site-packages
Requires: dill, filelock, fsspec, huggingface-hub, multiprocess, numpy, packaging, pandas, pyarrow, pyyaml, requests, tqdm, xxhash
Required-by: trl
(.venv-baseline) root@s(redacted):/(redacted)/baseline_sdpo# ./scripts/prepare_data_tldr.sh
REPO_ROOT=/(redacted)/baseline_sdpo
OUT_DIR=/(redacted)/baseline_sdpo/data/tldr_prompts_unique
comparisons/train/0000.parquet: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 21.1M/21.1M [00:01<00:00, 20.8MB/s]
comparisons/validation/0000.parquet: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 22.8M/22.8M [00:05<00:00, 4.56MB/s]
Generating train split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 92858/92858 [00:00<00:00, 395495.71 examples/s]
Generating validation split: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 86086/86086 [00:00<00:00, 320240.51 examples/s]
Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 92858/92858 [00:06<00:00, 15305.34 examples/s]
Filter: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 92858/92858 [00:00<00:00, 608575.11 examples/s]
Map: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 86086/86086 [00:05<00:00, 15150.81 examples/s]
Filter: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 86086/86086 [00:00<00:00, 646565.91 examples/s]
Casting the dataset: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 27802/27802 [00:00<00:00, 362157.60 examples/s]
Casting the dataset: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25339/25339 [00:00<00:00, 352632.21 examples/s]
Raw counts -> train: 27,802, valid: 25,339
hashing: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 27802/27802 [00:00<00:00, 93111.57 examples/s]
marking first occurrences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 27802/27802 [00:00<00:00, 478794.99 examples/s]
Filter: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 27802/27802 [00:00<00:00, 1220855.78 examples/s]
hashing: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25339/25339 [00:00<00:00, 90203.26 examples/s]
marking first occurrences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25339/25339 [00:00<00:00, 493698.53 examples/s]
Filter: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 25339/25339 [00:00<00:00, 1219416.55 examples/s]
After in-split dedupe -> train: 4,563, valid: 1,867
cross-split check: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1867/1867 [00:00<00:00, 116716.83 examples/s]
Filter: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1867/1867 [00:00<00:00, 549565.97 examples/s]
After cross-split dedupe -> train: 4,563, valid: 1,867
DatasetDict({
train: Dataset({
features: ['prompt'],
num_rows: 4563
})
validation: Dataset({
features: ['prompt'],
num_rows: 1867
})
})
=== Example 1/5 ===
Backstory: I got an internship at a tiny niche record label, one of the last of its kind in the US. It's a not-for-credit three month unpaid internship (food stipend + paid parking) two days a week. I got the internship because they were "impressed" but I have also been told that they "don't know what to do with me". I am trying to create a new position of my own in demographics and writing. One month in, and they're already dropping big hints that they want to hire me. I also found the company $1600 in unclaimed funds.
However... the other employees I work with seem to have side work they do, so I am guessing that it won't pay super well. The other thing is that I am unemployed right now and really hurting, so any money could help. Finding decently paid work around my internship schedule is really hard.
TL;DR:
(Other examples removed for brevity)
Saving the dataset (1/1 shards): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4563/4563 [00:00<00:00, 196519.17 examples/s]
Saving the dataset (1/1 shards): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1867/1867 [00:00<00:00, 224963.82 examples/s]
Saved HF dataset to: /(redacted)/baseline_sdpo/data/tldr_prompts_unique
Exported train to: /(redacted)/baseline_sdpo/data/tldr_prompts_unique/train.jsonl
Exported validation to: /(redacted)/baseline_sdpo/data/tldr_prompts_unique/validation.jsonl
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels