Frontier Model Red Teaming & Hard-Coding Evals Portfolio

Independent researcher creating the hardest publicly available, repository-grounded, multi-turn coding evaluations on the internet.

These tasks are designed to expose deep, systematic weaknesses in current frontier coding agents on:

Zero heap allocation (even under GraalVM native-image / Python tracemalloc / Rust)
Numerical drift in long chains (10⁶ – 10⁹ operations)
Correct automatic differentiation (vjp/jvp/custom primitives)
SIMD / AVX-512 / CUDA / Metal fusion without temporaries
Subtle mathematical correctness (FMA vs ADD drift, denormals, associativity grade projection)
Template metaprogramming / expression templates / consteval
Real upstream contribution quality (must pass CI of JOML, Eigen, Apache Commons Math, JAX, PyTorch, etc.)

📁 Repository Structure (Used Across All Evals)

Each evaluation folder strictly follows this format:

/eval-name/
├── requirements.md       # Technical constraints: hardware, compilers, flags, profilers,
│                        # memory/time caps, numeric tolerances, CI requirements
├── task.md              # Full multi-turn evaluation prompt
└── expected_result.md   # Ground-truth invariants, acceptance tests, proofs,
                         # performance ceilings, and red-team traps

This structure makes each eval:

Deterministic – Same inputs produce same outputs
Pipeline-ready – Can be automated in CI/CD systems
Reproducible – Clear requirements enable exact replication
Suitable for automated scoring – Works with internal lab eval harnesses

📌 Evaluation Depth

Every evaluation is 8–22 turns and forces models to:

iteratively debug
derive correct algorithms
optimize under strict constraints
verify proofs or numerical stability
output merge-ready, CI-passing code

These are not “toy tasks.”
They’re designed to fail any model relying on shallow heuristics or pattern-matching.

🔍 Seeking Contract / Bounty Work

Actively looking for paid work with AI labs to:

Build ultra-hard custom evals
Red-team internal coding agents
Design safety-relevant evaluations (cyber, finance, avionics, robotics, bio-risk)

📬 Contact

Email: amariah.abish@gmail.com
LinkedIn: https://www.linkedin.com/in/amariah-kamau-3156412a6/
Portfolio: https://portfolio-pied-five-61.vercel.app/

Last updated: November 18, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Frontier Model Red Teaming & Hard-Coding Evals Portfolio

📁 Repository Structure (Used Across All Evals)

📌 Evaluation Depth

🔍 Seeking Contract / Bounty Work

📬 Contact

About

Uh oh!

Releases

Packages

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
Task 10: Neural Network Compression Engine in C++		Task 10: Neural Network Compression Engine in C++
Task 11: Custom Transformer Training System in JAX		Task 11: Custom Transformer Training System in JAX
Task 12: Real-Time Neural Ray Tracing Denoiser in CUDA		Task 12: Real-Time Neural Ray Tracing Denoiser in CUDA
Task 13: Probabilistic Programming Language Compiler in OCaml		Task 13: Probabilistic Programming Language Compiler in OCaml
Task 1: Distributed Rate Limiter with Redis		Task 1: Distributed Rate Limiter with Redis
Task 2: Federated Learning Gradient Aggregation System		Task 2: Federated Learning Gradient Aggregation System
Task 3: Real-Time Collaborative Text Editor with CRDT		Task 3: Real-Time Collaborative Text Editor with CRDT
Task 4: Custom Memory Allocator with Defragmentation in C++		Task 4: Custom Memory Allocator with Defragmentation in C++
Task 5: Distributed Transaction Coordinator with 2PC in Elixir		Task 5: Distributed Transaction Coordinator with 2PC in Elixir
Task 6: JIT Compiler for Dynamic Language in Rust		Task 6: JIT Compiler for Dynamic Language in Rust
Task 7: Real-Time SIMD Image Processor in Zig		Task 7: Real-Time SIMD Image Processor in Zig
Task 8: PostgreSQL Vectorized Executor Engine Contribution		Task 8: PostgreSQL Vectorized Executor Engine Contribution
Task 9: Linux Kernel I_O Scheduler with ML-Based Prediction		Task 9: Linux Kernel I_O Scheduler with ML-Based Prediction
.gitignore		.gitignore
LICENSE.md		LICENSE.md
README.md		README.md

License

AmariahAK/arp

Folders and files

Latest commit

History

Repository files navigation

Frontier Model Red Teaming & Hard-Coding Evals Portfolio

📁 Repository Structure (Used Across All Evals)

📌 Evaluation Depth

🔍 Seeking Contract / Bounty Work

📬 Contact

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages