Dev: SPOT5 benchmark + codebase restructure → main #1

Mtrya · 2026-01-19T07:38:18Z

Status

Draft PR for ongoing development on the dev branch.

Overview

This branch implements foundational infrastructure for AstroReason-Bench - a
benchmark suite for evaluating LLM agents on space mission planning problems.

Current Changes (ready for review/testing)

✅ Completed: SPOT5 benchmark (CNES 2001 satellite photography scheduling)
- Dataset with problem instances
- Standalone verifier for validation + scoring
✅ Completed: SatNet benchmark (2021 NASA/JPL DSN scheduling)
- Dataset with problems and metadata
- Standalone verifier for validation + scoring
- Reference agentic baseline
✅ Refactored: Repository structure
- Migrated to standalone benchmarks/ model (no inter-dependencies)
- Deprecated abstraction layers (toolkits/, engines/) - using established
  libraries directly
🛠️ Environment: Migrated from uv → pixi (enables tudatpy integration)

Roadmap Context

Phase 1 (current): Legacy benchmarks

✅ spot5 (satellite photography scheduling)
✅ satnet (NASA/JPL DSN scheduling)
🔲 aeosbench (BUAA Earth observation)

Future phases: LEO constellations → Deep space → Rocket trajectories (if permits)

PR Purpose

This is a draft PR to track development progress. Main branch remains stable
snapshot.

…lidation

feat: Add SatNet benchmark verifier

…g guidance

[Feat] satnet agentic baseline

Mtrya added 14 commits January 9, 2026 20:02

refactor: migrate from uv to pixi to enable tudatpy

60c2f5b

refactor: delete satnet to reimplement

84dd8f0

fix(pixi): add skyfield and mcp dependencies

2b4e712

refactor: restructure codebase into benchmarks, engines and toolkits

18b0eb4

feat: Add SPOT5 benchmark dataset, validation solutions, and verifier.

e4266e0

update README

cfc12f4

feat: Add SatNet benchmark verifier with ground truth fixtures for va…

5a60bfc

…lidation

feat: Add SatNet benchmark verifier with ground truth fixtures for va…

a9c744a

…lidation

Merge pull request #3 from Mtrya/feat/satnet

b70c040

feat: Add SatNet benchmark verifier

Merge branch 'dev' of https://github.com/Mtrya/astro-reason into dev

636f07c

feat: add agentic baseline for satnet benchmark

fbbca92

refactor(satnet): extract prompts to files and add strategic reasonin…

850c3b2

…g guidance

Merge pull request #4 from Mtrya/feat/satnet-agentic-baseline

dcfd7d0

[Feat] satnet agentic baseline

chore: move references to vendor/

e23dd9b

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Dev: SPOT5 benchmark + codebase restructure → main #1

Dev: SPOT5 benchmark + codebase restructure → main #1

Uh oh!

Mtrya commented Jan 19, 2026 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Dev: SPOT5 benchmark + codebase restructure → main #1

Are you sure you want to change the base?

Dev: SPOT5 benchmark + codebase restructure → main #1

Uh oh!

Conversation

Mtrya commented Jan 19, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Status

Overview

Current Changes (ready for review/testing)

Roadmap Context

PR Purpose

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Mtrya commented Jan 19, 2026 •

edited

Loading