From 87488c4ef19380c25302619e68060be27298c038 Mon Sep 17 00:00:00 2001
From: Bryan Wong <wongjengyan@gmail.com>
Date: Sun, 2 Jun 2024 21:37:28 +0900
Subject: [PATCH 1/8] can't figure out dependency tree

---
 src/experimental/makefile                     |  63 +++
 src/experimental/private/main.cpp             |   7 +
 src/experimental/public/latch.h               |  75 +++
 src/experimental/public/pooled_thread.h       |   0
 src/experimental/public/semaphore.h           | 106 ++++
 src/experimental/public/thread_pool.h         | 505 ++++++++++++++++++
 src/utl/public/utl/memory/utl_intrusive_ptr.h |   1 -
 utl.sublime-project                           |  28 +-
 8 files changed, 782 insertions(+), 3 deletions(-)
 create mode 100644 src/experimental/makefile
 create mode 100644 src/experimental/private/main.cpp
 create mode 100644 src/experimental/public/latch.h
 create mode 100644 src/experimental/public/pooled_thread.h
 create mode 100644 src/experimental/public/semaphore.h
 create mode 100644 src/experimental/public/thread_pool.h
diff --git a/src/experimental/makefile b/src/experimental/makefile
new file mode 100644
index 00000000..6b601766
--- /dev/null
+++ b/src/experimental/makefile
@@ -0,0 +1,63 @@
+MKFILE_PATH := $(abspath $(lastword $(MAKEFILE_LIST)))
+MKFILE_DIR := $(patsubst %/,%,$(dir $(MKFILE_PATH)))
+PROJECT_ROOT := $(shell git rev-parse --show-toplevel)
+MODULE_ROOT := $(MKFILE_DIR)
+PRIVATE_DIR := $(MODULE_ROOT)/private
+PUBLIC_DIR := $(MODULE_ROOT)/public
+CONFIG_DIR := $(PROJECT_ROOT)/src/utl/public/utl/preprocessor
+
+BIN = main
+OUTPUT_DIR := $(MODULE_ROOT)/build
+INTERMEDIATE_DIR := $(OUTPUT_DIR)/obj
+MODULE_SRCS := $(shell find $(PRIVATE_DIR) $(PUBLIC_DIR) -name '*.cpp')
+MODULE_INCLUDES := $(shell find $(PRIVATE_DIR) $(PUBLIC_DIR) -name '*.h')
+
+.PHONY = all clean print preprocess compile
+CXX := c++
+CXX_FLAGS := -std=c++17 -fPIC -O1 -I$(PUBLIC_DIR) -I$(PRIVATE_DIR) -I$(CONFIG_DIR)
+LINKER_FLAGS := -lm
+OBJECTS := $(addsuffix .o, $(basename $(MODULE_SRCS:$(MODULE_ROOT)/%=%)))
+OBJECT_PATHS := $(addprefix $(INTERMEDIATE_DIR)/,$(OBJECTS))
+DEPENDENCIES := $(OBJECTS:.o=.d)
+PREPROCESSED := $(OBJECTS:.o=.prep.cpp)
+
+all: $(BIN)
+
+$(BIN): $(OBJECT_PATHS)
+	@echo "Linking $(OBJECTS)"
+	@$(CXX) $(LINKER_FLAGS) $(OBJECT_PATHS) -o $(OUTPUT_DIR)/$(BIN)
+
+compile: $(OBJECTS)
+	@
+
+$(OBJECTS):%.o: $(MODULE_ROOT)/%.cpp
+	@mkdir -p '$(INTERMEDIATE_DIR)/$(@D)'
+	@echo "Creating object" $@
+	@$(CXX) $(CXX_FLAGS) -MMD -MP -MF '$(INTERMEDIATE_DIR)/$(patsubst %.o,%.d,$@)' -MT '$(INTERMEDIATE_DIR)/$@' -c $< -o '$(INTERMEDIATE_DIR)/$@'
+
+-include $(INTERMEDIATE_DIR)/$(DEPENDENCIES)
+
+preprocess: $(PREPROCESSED)
+	@
+
+$(PREPROCESSED):%.prep.cpp: $(MODULE_ROOT)/%.cpp
+	@mkdir -p '$(INTERMEDIATE_DIR)/$(@D)'
+	@echo "Running preprocessor" $@
+	@$(CXX) $(CXX_FLAGS) -MMD -MP -MF '$(INTERMEDIATE_DIR)/$(patsubst %.prep.cpp,%.d,$@)' -MT '$(INTERMEDIATE_DIR)/$@' -E $< -o '$(INTERMEDIATE_DIR)/$@'
+
+clean:
+	@echo "Cleaning up..."
+	@rm -rvf $(INTERMEDIATE_DIR)/**/*.o $(INTERMEDIATE_DIR)/**/*.d $(INTERMEDIATE_DIR)/**/*.prep.cpp $(OUTPUT_DIR)/$(BIN)
+
+print:
+	@echo "Bin: $(BIN)\n"
+	@echo "Makefile Directory: $(MKFILE_DIR)\n"
+	@echo "Sources: $(MODULE_SRCS)\n"
+	@echo "Objects: $(OBJECTS)\n"
+	@echo "Preprocessed: $(PREPROCESSED)\n"
+	@echo "Includes: $(MODULE_INCLUDES)\n"
+	@echo "Dependencies: $(DEPENDENCIES)\n"
+	@echo "CXX Flags: $(CXX_FLAGS)\n"
+	@echo "Linker Flags: $(LINKER_FLAGS)\n"
+	@echo "Output Directory: $(OUTPUT_DIR)\n"
+	@echo "Intermediate Directory: $(INTERMEDIATE_DIR)\n"
diff --git a/src/experimental/private/main.cpp b/src/experimental/private/main.cpp
new file mode 100644
index 00000000..2b53b3ef
--- /dev/null
+++ b/src/experimental/private/main.cpp
@@ -0,0 +1,7 @@
+
+#include <cstdio>
+
+int main(int argc, char** argv) {
+    puts("hello world");
+    return 0;
+}
diff --git a/src/experimental/public/latch.h b/src/experimental/public/latch.h
new file mode 100644
index 00000000..7824421c
--- /dev/null
+++ b/src/experimental/public/latch.h
@@ -0,0 +1,75 @@
+#pragma once
+#include "gcc/atomics.h"
+#include "posix/futex.h"
+#include "utl_config.h"
+
+#include <atomic>
+
+namespace utl::experimental {
+
+class latch {
+    static [[noreturn]] void throw_system_error(posix::result r) {
+        char error_msg[1024];
+        sprintf(error_msg, "Internal latch error: %s", posix::to_string(r));
+        throw std::system_error(error_msg);
+    }
+
+public:
+    explicit latch(int32_t n) : remaining_(n) {}
+    latch(latch const&) = delete;
+    latch& operator=(latch const&) = delete;
+
+    template <typename R, typename P>
+    bool wait_for(std::chrono::duration<R, P> d) {
+        int32_t val = gcc::atomic_load(remaining_, std::memory_order_relaxed);
+        while (val > 0) {
+            auto const begin = std::chrono::high_resolution_clock::now();
+            auto const r = posix::futex_wait(remaining_, &val, d);
+            if (r == posix::result::success || r == posix::result::timeout) {
+                return r == posix::result::success;
+            }
+
+            if (r == posix::result::interrupted) {
+                using clock_duration = decltype(std::chrono::high_resolution_clock::now() - begin);
+                auto const min_val = std::min<std::common_type_t<clock_duration, decltype(d)>>(
+                    (std::chrono::high_resolution_clock::now() - begin), d);
+
+                d -= min_val;
+                continue;
+            }
+
+            throw_system_error(r);
+        }
+    }
+
+    void wait() {
+        int32_t val = gcc::atomic_load(remaining_, std::memory_order_relaxed);
+        while (val > 0) {
+            auto const r = posix::futex_wait(remaining_, &val);
+            if (r == posix::result::success) {
+                return;
+            }
+            if (r == posix::result::interrupted) {
+                continue;
+            }
+
+            throw_system_error(r);
+        }
+    }
+
+    void count_down(uint32_t n = 1) {
+        int32_t val = gcc::atomic_fetch_sub(remaining_, n, std::memory_order_acq_rel);
+        if (val <= n) {
+            posix::futex_notify_all(remaining_);
+        }
+    }
+
+    bool try_wait() const noexcept {
+        return gcc::atomic_load(&remaining_, std::memory_order_relaxed) <= 0;
+    }
+
+private:
+    uint32_t remaining_;
+};
+
+} // namespace utl::experimental
diff --git a/src/experimental/public/pooled_thread.h b/src/experimental/public/pooled_thread.h
new file mode 100644
index 00000000..e69de29b
diff --git a/src/experimental/public/semaphore.h b/src/experimental/public/semaphore.h
new file mode 100644
index 00000000..a6546f81
--- /dev/null
+++ b/src/experimental/public/semaphore.h
@@ -0,0 +1,106 @@
+#pragma once
+#include "gcc/atomics.h"
+#include "posix/futex.h"
+#include "utl_config.h"
+
+#include <atomic>
+
+namespace utl::experimental {
+
+class semaphore {
+    static [[noreturn]] void throw_system_error(posix::result r) {
+        char error_msg[1024];
+        sprintf(error_msg, "Internal semaphore error: %s", posix::to_string(r));
+        throw std::system_error(error_msg);
+    }
+
+public:
+    explicit semaphore(int32_t n) : current_(n) {}
+    semaphore(semaphore const&) = delete;
+    semaphore& operator=(semaphore const&) = delete;
+
+    template <typename R, typename P>
+    bool wait_for(std::chrono::duration<R, P> d) {
+        uint32_t val = gcc::atomic_load(remaining_, std::memory_order_relaxed);
+        if (val > 0 && try_decrease(&val)) {
+            return true;
+        }
+
+        do {
+            auto const begin = std::chrono::high_resolution_clock::now();
+
+            UTL_ON_SCOPE_EXIT {
+                using clock_duration = decltype(std::chrono::high_resolution_clock::now() - begin);
+                auto const min_val = std::min<std::common_type_t<clock_duration, decltype(d)>>(
+                    (std::chrono::high_resolution_clock::now() - begin), d);
+
+                d -= min_val;
+            };
+
+            auto const r = posix::futex_wait(current_, &val, d);
+            if (r == posix::result::success) {
+                if (try_decrease(&val)) {
+                    return true;
+                }
+
+                continue;
+            }
+
+            if (r == posix::result::timeout) {
+                return false;
+            }
+            if (r == posix::result::interrupted) {
+                continue;
+            }
+
+            throw_system_error(r);
+        } while (val == 0);
+    }
+
+    void wait() {
+        int32_t val = 0;
+        while (val == 0) {
+            auto const r = posix::futex_wait(current_, &val, d);
+            if (r == posix::result::success) {
+                if (try_decrease(&val)) {
+                    return;
+                }
+
+                continue;
+            }
+
+            if (r == posix::result::interrupted) {
+                continue;
+            }
+
+            throw_system_error(r);
+        }
+    }
+
+    void signal() {
+        gcc::atomic_fetch_add(current_, 1, std::memory_order_acq_rel);
+        posix::futex_notify_one(current_);
+    }
+
+private:
+    bool try_decrease(uint32_t* current_val) {
+        auto& val = *current_val;
+        auto new_val = val - 1;
+        while (!gcc::compare_exchange(
+            current_, &val, new_val, std::memory_order_release, std::memory_order_relaxed)) {
+
+            if (val == 0) {
+                return false;
+            }
+
+            new_val = val - 1;
+        }
+
+        gcc::atomic_thread_fence(std::memory_order_acquire);
+        return true;
+    }
+
+    uint32_t current_;
+};
+
+} // namespace utl::experimental
diff --git a/src/experimental/public/thread_pool.h b/src/experimental/public/thread_pool.h
new file mode 100644
index 00000000..c9670860
--- /dev/null
+++ b/src/experimental/public/thread_pool.h
@@ -0,0 +1,505 @@
+#pragma once
+#include "latch.h"
+#include "semaphore.h"
+#include "utl_config.h"
+
+#include <memory>
+#include <stdexcept>
+#include <thread>
+#include <tuple>
+#include <type_traits>
+#include <utility>
+// todo intrusive_ptr
+// todo atomic_reference_counter
+
+namespace utl::experimental {
+using size_t = decltype(sizeof(0));
+
+class job_handle;
+class jthread : public std::thread {
+public:
+    using thread::thread;
+
+    ~jthread() {
+        if (this->joinable()) {
+            this->join();
+        }
+    }
+};
+
+inline constexpr size_t dynamic_extent = (size_t)-1;
+
+template <size_t N = dynamic_extent>
+class thread_pool;
+
+namespace details {
+namespace thread_pool {
+
+class completion_interface {
+public:
+    struct deleter {
+        void operator()(completion_interface* ptr) const noexcept { ptr->~completion_interface(); }
+    };
+
+    virtual bool wait_for(std::chrono::microseconds) = 0;
+    virtual void wait() = 0;
+    virtual bool try_wait() const = 0;
+
+    template <typename R, typename P>
+    bool wait_for(std::chrono::duration<R, P> d) {
+        return this->wait_for(std::chrono::duration_cast<std::chrono::microseconds>(d));
+    }
+
+protected:
+    completion_interface(completion_interface const&) = delete;
+    completion_interface& operator=(completion_interface const&) = delete;
+    completion_interface() = default;
+    virtual ~completion_interface() = default;
+};
+
+class execution_interface {
+public:
+    virtual size_t count() const noexcept = 0;
+    virtual void execute(size_t thread_idx, size_t job_idx) final = 0;
+
+protected:
+    execution_interface(execution_interface const&) = delete;
+    execution_interface& operator=(execution_interface const&) = delete;
+    execution_interface() = default;
+    virtual ~execution_interface() = default;
+};
+
+template <typename... Fs>
+class multi_execution : public completion_interface, public execution_interface {
+
+public:
+    template <typename... Args>
+    multi_execution(Args&&... args) : executions(std::forward<Args>(args)...) {}
+
+    ~multi_execution() final = default;
+
+    size_t count() const noexcept final { return sizeof...(Fs); }
+
+    void execute(size_t thread_idx, size_t job_idx) final {
+        execute(thread_idx, job_idx, index_sequence_for<Fs...>{});
+    }
+
+private:
+    bool wait_for(std::chrono::microseconds d) final {
+        return latch.wait_for(d) && latch.try_wait();
+    }
+
+    void wait() final {
+        latch.wait();
+        std::ignore = try_wait();
+    }
+
+    bool try_wait() const final {
+        if (!latch.try_wait()) {
+            return false;
+        }
+
+        propogate_exceptions();
+        return true;
+    }
+
+    template <size_t... Is>
+    void execute(size_t, size_t job_idx, std::index_sequence<Is...>) {
+        static constexpr auto vtable[] = {&multi_execution::execute<Is>...};
+        (this->*vtable[job_idx])();
+    }
+
+    template <size_t I>
+    void execute() {
+        UTL_ON_SCOPE_EXIT {
+            latch.count_down();
+        };
+        try {
+            std::get<I>(executions)();
+        } catch (std::exception const& e) {
+            std::get<I>(exceptions)(std::current_exception());
+        } catch (...) {
+            std::terminate();
+        }
+    }
+    template <size_t... Is>
+    void propogate_exceptions(std::index_sequence<Is...>) const {
+        std::atomic_thread_fence(std::memory_order_acquire);
+        if ((... || std::get<I>(executions))) {
+            throw std::runtime_error("Uncaught exception");
+        }
+    }
+
+    void propogate_exceptions() const { propogate_exceptions(index_sequence_for<Fs...>{}); }
+
+    std::tuple<std::exception_ptr> exceptions;
+    std::tuple<Fs...> executions;
+    latch latch;
+};
+
+template <typename F>
+class single_execution<F> : public completion_interface, public execution_interface {
+public:
+    template <typename A>
+    job_execution(A&& arg) : execution(std::forward<A>(arg))
+                           , latch(1) {}
+    ~job_execution() final = default;
+
+    constexpr size_t count() const noexcept { return 1; }
+
+    void execute(size_t, size_t) { execute(); }
+
+private:
+    bool wait_for(std::chrono::microseconds d) final {
+        return latch.wait_for(d) && latch.try_wait();
+    }
+
+    void wait() final {
+        latch.wait();
+        if (exception) {
+            rethrow_exception(exception);
+        }
+    }
+
+    bool try_wait() const final {
+        if (!latch.try_wait()) {
+            return true;
+        }
+
+        if (exception) {
+            rethrow_exception(exception);
+        }
+
+        return true;
+    }
+
+    void execute() {
+        UTL_ON_SCOPE_EXIT {
+            latch.count_down();
+        };
+        try {
+            execution();
+        } catch (std::exception const& e) {
+            exception = std::current_exception();
+        } catch (...) {
+            std::terminate();
+        }
+    }
+
+    std::exception_ptr exception;
+    F execution;
+    latch latch;
+};
+
+template <typename F>
+class parallel_execution : public completion_interface, public execution_interface {
+public:
+    template <typename A>
+    parallel_execution(A&& arg, size_t count) : execution(std::forward<A>(arg))
+                                              , latch(count) {}
+    ~parallel_execution() final = default;
+
+    size_t count() const noexcept { return count; }
+
+    void execute(size_t thread_idx, size_t job_idx) {
+        UTL_ON_SCOPE_EXIT {
+            latch.count_down();
+        };
+        try {
+            execution(thread_idx, job_idx);
+        } catch (std::exception const& e) {
+            exceptions_thrown.store(true, std::memory_order_release);
+        } catch (...) {
+            std::terminate();
+        }
+    }
+
+private:
+    bool wait_for(std::chrono::microseconds d) final {
+        return latch.wait_for(d) && latch.try_wait();
+    }
+
+    void wait() final {
+        latch.wait();
+        if (exceptions_thrown.load(std::memory_order_acquire)) {
+            // TODO
+            throw std::runtime_error("Uncaught exception");
+        }
+    }
+
+    bool try_wait() const final {
+        if (!latch.try_wait()) {
+            return true;
+        }
+
+        if (exceptions_thrown.load(std::memory_order_acquire)) {
+            // TODO
+            throw std::runtime_error("Uncaught exception");
+        }
+
+        return true;
+    }
+
+    // TODO handle exception properly
+    std::atomic<bool> exceptions_thrown = false;
+    size_t count;
+    F execution;
+    latch latch;
+};
+
+template <size_t N>
+class job_collection : public completion_interface {
+
+public:
+    template <typename... J, std::enable_if_t<sizeof...(J) == N, int> = 0>
+    job_collection(J const&... header_ptr) : jobs_{header_ptr...} {}
+
+private:
+    bool wait_for(std::chrono::microseconds d) final {
+        for (auto const& ptr : jobs_) {
+            auto const begin = std::chrono::high_resolution_clock::now();
+            if (!ptr->wait_for(d)) {
+                return;
+            }
+
+            using clock_duration = decltype(std::chrono::high_resolution_clock::now() - begin);
+            auto const min_val = std::min<std::common_type_t<clock_duration, decltype(d)>>(
+                (std::chrono::high_resolution_clock::now() - begin), d);
+
+            d -= min_val;
+        }
+    }
+    void wait() final {
+        for (auto const& ptr : jobs_) {
+            ptr->wait();
+        }
+    }
+
+    bool try_wait() const final {
+        return std::all_of(
+            begin(jobs_), end(jobs_), [](auto const& ptr) { return ptr->try_wait(); });
+    }
+
+    std::array<utl::intrusive_ptr<job_header>> jobs_;
+};
+
+class pool_handle : private utl::atomic_reference_count<pool_handle> {
+    template <size_t N = dynamic_extent>
+    friend class ::thread_pool;
+
+    static constexpr struct construct_tag_t {
+    } construct_tag = {};
+
+public:
+    virtual ~pool_handle() = default;
+
+    template <typename Executor>
+    void schedule_execution(Executor& execution) {
+        auto const count = execution.count();
+    }
+
+protected:
+    pool_handle(size_t count) : threads_(new jthread[count]), size_(count) {}
+
+private:
+    std::unique_ptr<jthread[]> threads_;
+    size_t size_;
+};
+
+class job_header : private utl::atomic_reference_count<job_header> {
+public:
+    job_header() = default;
+
+protected:
+    void set_completion(completion_interface* interface) { completion_.reset(interface); }
+
+private:
+    utl::intrusive_ptr<job_header> dependency_;
+    std::unique_ptr<completion_interface, completion_interface::deleter> completion_;
+};
+
+template <typename T>
+class job : public job_header, public T {
+    static_assert(std::is_base_of_v<completion_interface, T>, "Invalid job");
+    static_assert(std::is_base_of_v<execution_interface, T>, "Invalid job");
+    using execution_base = T;
+
+public:
+    template <typename... Args>
+    job(pool_handle& pool, Args&&... args) : execution_base{std::forward<Args>(args)...} {
+        job_header::set_completion(this);
+    }
+};
+
+} // namespace thread_pool
+} // namespace details
+
+class job_handle {
+    using pool_type = details::thread_pool::pool_handle;
+    using header_type = details::thread_pool::job_header;
+    using header_ptr = utl::intrusive_ptr<header_type>;
+
+    template <typename... Fs>
+    static auto create_handle(intrusive_ptr<pool_type> pool, Fs&&... f);
+
+    template <typename... Headers,
+        std::enable_if_t<(... && std::is_same_v<decay_t<Headers>, header_ptr>), bool> = true>
+    static auto create_collection_header(intrusive_ptr<pool_type> pool, Headers&&... headers) {}
+
+    template <typename... Headers,
+        std::enable_if_t<(... && std::is_same_v<decay_t<Headers>, header_ptr>), bool> = true>
+    job_handle(intrusive_ptr<pool_type> pool, Headers&&... headers)
+        : pool_(std::move(pool))
+        , job_(create_collection_header(pool_, std::forward<Headers>(headers)...)) {}
+
+public:
+    template <typename... Jobs,
+        std::enable_if_t<
+            ((sizeof...(Jobs) > 1) && ... && std::is_same_v<decay_t<Jobs>, job_handle>), bool> =
+            true>
+    static job_handle combine(Jobs&&... jobs) {
+        Jobs const* array[]{&jobs...};
+        auto const& pool = (*array)->pool_;
+        if (!std::all_of(
+                array, array + sizeof...(Jobs), [&](auto ptr) { return ptr->pool_ == pool; })) {
+            throw std::runtime_error("[job_handle] only jobs from the same pool can be combined");
+        }
+
+        return job_handle(pool, std::forward<Jobs>(jobs).job_...);
+    }
+
+public:
+    job_handle() = default;
+    job_handle(job_handle const&) = default;
+    job_handle& operator=(job_handle const&) = default;
+    job_handle(job_handle&&) noexcept = default;
+    job_handle& operator=(job_handle&&) noexcept = default;
+
+    template <typename... Fs>
+    explicit job_handle(intrusive_ptr<pool_type> pool, Fs&&... f)
+        : job_(create_handle(std::move(pool), std::forward<Fs>(f)...)) {}
+
+    void wait() {
+        if (job_) {
+            job_->wait();
+        }
+    }
+
+    bool try_wait() const { return !job_ || job_->try_wait(); }
+
+    ~job_handle() { wait(); }
+
+private:
+    utl::intrusive_ptr<pool_type> pool_;
+    utl::intrusive_ptr<header_type> job_;
+};
+
+class thread_pool {
+    template <typename... Fs>
+    using multi_handle_t =
+        std::std::enable_if_t<((sizeof...(Fs) > 1) && ... && std::is_invocable_v<Fs>), job_handle>;
+    template <typename... Fs>
+    using multi_result_t =
+        std::std::enable_if_t<(sizeof...(Fs) > 1), std::tuple<std::invoke_result_t<Fs>...>>;
+    template <typename F>
+    using single_handle_t = std::enable_if_t<std::is_invocable_v<F>, job_handle>;
+
+    using pool_handle_t = details::thread_pool::pool_handle;
+
+    template <typename F>
+    using parallel_handle_t = std::enable_if_t<std::is_invocable_v<F, size_t, size_t>, job_handle>;
+    template <typename F>
+    using parallel_t = std::enable_if_t<std::is_invocable_v<F, size_t, size_t>, void>;
+
+    using init_arg_t = std::conditional_t<N == dynamic_extent, size_t, invalid_t>;
+
+public:
+    constexpr explicit thread_pool(size_t n) noexcept : size_(n) {}
+    constexpr size_t size() const noexcept { return size_; }
+
+    template <typename F>
+    single_handle_t<F> schedule(F&& execution) {
+        return job_handle(pool_handle(), std::forward<F>(execution));
+    }
+
+    template <typename... Fs>
+    multi_handle_t<Fs...> schedule(Fs&&... executions) {}
+
+    template <typename F>
+    parallel_handle_t<F> schedule(size_t count, F&& executions);
+
+    template <typename F>
+    single_handle_t<F> schedule(job_handle dependency, F&& execution);
+
+    template <typename... Fs>
+    multi_handle_t<Fs...> schedule(job_handle dependency, Fs&&... executions);
+
+    template <typename F>
+    parallel_handle_t<F> schedule(job_handle dependency, size_t count, F&& executions);
+
+    template <typename F>
+    std::invoke_result_t<F> execute(F&& execution) {
+        return std::invoke(std::forward<F>(execution));
+    }
+
+    template <typename... Fs>
+    multi_result_t<Fs...> execute(Fs&&... executions) {
+        return multi_execute(index_sequence_for<Fs...>{}, std::forward<Fs>(executions)...);
+    }
+
+    template <typename F>
+    parallel_t<F> execute(size_t count, F&& execution) {
+        schedule(count, executions).wait();
+    }
+
+    template <typename F>
+    std::invoke_result_t<F> execute(job_handle dependency, F&& execution) {
+        return dependency.wait(), std::invoke(std::forward<F>(execution));
+    }
+
+    template <typename... Fs>
+    multi_result_t<Fs...> execute(job_handle dependency, Fs&&... executions) {
+        dependency.wait();
+        return multi_execute(index_sequence_for<Fs...>{}, std::forward<Fs>(executions)...);
+    }
+
+    template <typename F>
+    parallel_t<F> execute(job_handle dependency, size_t count, F&& execution) {
+        schedule(dependency, count, executions).wait();
+    }
+
+private:
+    template <typename T, typename U, typename F, size_t I>
+    static auto tuple_executor(T& t, U& exe) {
+        return [&t, &exe]() { std::get<I>(t).emplace(std::forward<F>(std::get<I>(exe))()); };
+    }
+
+    template <typename... Ts, size_t... Is>
+    static std::tuple<Ts...> optional_to_tuple(
+        std::tuple<std::optional<Ts>...>&& t, std::index_sequence<Is...>) {
+        return std::tuple<Ts...>{(*std::get<Is...>(std::move(t)))...};
+    }
+
+    template <typename... Fs, size_t... Is>
+    multi_result_t<Fs...> multi_execute(std::index_sequence<Is...>, Fs&&... executions) {
+        std::tuple<std::optional<invoke_result_t<Fs>>...> t;
+        auto exe = std::forward_as_tuple(std::forward<Fs>(executions)...);
+
+        schedule(tuple_executor<Fs, Is>(t, exe)...).wait();
+
+        return optional_to_tuple(std::move(t), index_sequence<Is...>{});
+    }
+
+    intrusive_ptr<pool_handle_t> const& pool_handle() {
+        if (!pool_handle_) {
+            pool_handle_ = utl::make_intrusive_ptr<pool_handle_t>(size());
+        }
+
+        return pool_handle_;
+    }
+
+    intrusive_ptr<pool_handle_t> pool_handle_;
+    size_t size_;
+};
+
+} // namespace utl::experimental
diff --git a/src/utl/public/utl/memory/utl_intrusive_ptr.h b/src/utl/public/utl/memory/utl_intrusive_ptr.h
index 50967746..881b1f39 100644
--- a/src/utl/public/utl/memory/utl_intrusive_ptr.h
+++ b/src/utl/public/utl/memory/utl_intrusive_ptr.h
@@ -2,7 +2,6 @@
 
 #pragma once
 
-#include "utl/atomic.h"
 #include "utl/compare/utl_pointer_comparable.h"
 #include "utl/exception/utl_program_exception.h"
 #include "utl/memory/utl_addressof.h"
diff --git a/utl.sublime-project b/utl.sublime-project
index 99b5e7d8..989ffafd 100644
--- a/utl.sublime-project
+++ b/utl.sublime-project
@@ -5,6 +5,10 @@
 			"path": "src/utl",
 			"name": "UTL"
 		},
+		{
+			"path": "src/experimental",
+			"name": "EXP"
+		},
 		{
 			"path": ".",
 			"name": "Root",
@@ -32,11 +36,11 @@
 			"variants":
 			[
 				{
-					"name": "Compile Tests",
+					"name": "Compile Private",
 					"shell_cmd": "make -C $project_path/src/utl compile -j8"
 				},
 				{
-					"name": "Preprocess Tests",
+					"name": "Preprocess Private",
 					"shell_cmd": "make -C $project_path/src/utl preprocess -j8"
 				},
 				{
@@ -44,6 +48,26 @@
 					"shell_cmd": "make -C $project_path/src/utl print -j8"	
 				}
 			]
+		},
+		{
+			"name": "EXP Build",
+			"cancel": { "kill": true },
+			"file_regex": "^(/...*?):([0-9]+):?([0-9]+)",
+			"variants":
+			[
+				{
+					"name": "Compile Private",
+					"shell_cmd": "make -C $project_path/src/experimental compile -j8"
+				},
+				{
+					"name": "Preprocess Private",
+					"shell_cmd": "make -C $project_path/src/experimental preprocess -j8"
+				},
+				{
+					"name": "Print Build Variables",
+					"shell_cmd": "make -C $project_path/src/experimental print -j8"	
+				}
+			]
 		}
 	]
 

From 129d38e0203b075f3e189757f02434eb4035c457 Mon Sep 17 00:00:00 2001
From: Bryan Wong <wongjengyan@gmail.com>
Date: Sun, 2 Jun 2024 21:57:47 +0900
Subject: [PATCH 2/8] add notes

---
 src/experimental/public/thread_pool.h | 32 ++++++++++++++++++---------
 1 file changed, 21 insertions(+), 11 deletions(-)

diff --git a/src/experimental/public/thread_pool.h b/src/experimental/public/thread_pool.h
index c9670860..82ffbffe 100644
--- a/src/experimental/public/thread_pool.h
+++ b/src/experimental/public/thread_pool.h
@@ -12,6 +12,14 @@
 // todo intrusive_ptr
 // todo atomic_reference_counter
 
+/**
+ * Notes
+ *
+ * We have a "plan" API which creates a dependency graph
+ *
+ * We then have an execution API which executes the jobs, either async or sync
+ */
+
 namespace utl::experimental {
 using size_t = decltype(sizeof(0));
 
@@ -314,7 +322,7 @@ class job_header : private utl::atomic_reference_count<job_header> {
     void set_completion(completion_interface* interface) { completion_.reset(interface); }
 
 private:
-    utl::intrusive_ptr<job_header> dependency_;
+    utl::intrusive_ptr<job_header> dependent_;
     std::unique_ptr<completion_interface, completion_interface::deleter> completion_;
 };
 
@@ -418,24 +426,24 @@ class thread_pool {
     constexpr size_t size() const noexcept { return size_; }
 
     template <typename F>
-    single_handle_t<F> schedule(F&& execution) {
-        return job_handle(pool_handle(), std::forward<F>(execution));
+    single_handle_t<F> plan(F&& execution) {
+        return job_handle(std::forward<F>(execution));
     }
 
     template <typename... Fs>
-    multi_handle_t<Fs...> schedule(Fs&&... executions) {}
+    multi_handle_t<Fs...> plan(Fs&&... executions) {}
 
     template <typename F>
-    parallel_handle_t<F> schedule(size_t count, F&& executions);
+    parallel_handle_t<F> plan(size_t count, F&& executions);
 
     template <typename F>
-    single_handle_t<F> schedule(job_handle dependency, F&& execution);
+    single_handle_t<F> plan(job_handle& dependency, F&& execution);
 
     template <typename... Fs>
-    multi_handle_t<Fs...> schedule(job_handle dependency, Fs&&... executions);
+    multi_handle_t<Fs...> plan(job_handle& dependency, Fs&&... executions);
 
     template <typename F>
-    parallel_handle_t<F> schedule(job_handle dependency, size_t count, F&& executions);
+    parallel_handle_t<F> plan(job_handle& dependency, size_t count, F&& executions);
 
     template <typename F>
     std::invoke_result_t<F> execute(F&& execution) {
@@ -447,24 +455,26 @@ class thread_pool {
         return multi_execute(index_sequence_for<Fs...>{}, std::forward<Fs>(executions)...);
     }
 
+    void execute(job_handle&& job);
+
     template <typename F>
     parallel_t<F> execute(size_t count, F&& execution) {
         schedule(count, executions).wait();
     }
 
     template <typename F>
-    std::invoke_result_t<F> execute(job_handle dependency, F&& execution) {
+    std::invoke_result_t<F> execute(job_handle&& dependency, F&& execution) {
         return dependency.wait(), std::invoke(std::forward<F>(execution));
     }
 
     template <typename... Fs>
-    multi_result_t<Fs...> execute(job_handle dependency, Fs&&... executions) {
+    multi_result_t<Fs...> execute(job_handle&& dependency, Fs&&... executions) {
         dependency.wait();
         return multi_execute(index_sequence_for<Fs...>{}, std::forward<Fs>(executions)...);
     }
 
     template <typename F>
-    parallel_t<F> execute(job_handle dependency, size_t count, F&& execution) {
+    parallel_t<F> execute(job_handle&& dependency, size_t count, F&& execution) {
         schedule(dependency, count, executions).wait();
     }
 

From 5b4066a587f9e69fe710419a8647540c672e2164 Mon Sep 17 00:00:00 2001
From: Bryan Wong <wongjengyan@gmail.com>
Date: Sun, 2 Jun 2024 22:07:11 +0900
Subject: [PATCH 3/8] move handle

---
 src/experimental/public/thread_pool.h | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/src/experimental/public/thread_pool.h b/src/experimental/public/thread_pool.h
index 82ffbffe..d2977df0 100644
--- a/src/experimental/public/thread_pool.h
+++ b/src/experimental/public/thread_pool.h
@@ -437,13 +437,13 @@ class thread_pool {
     parallel_handle_t<F> plan(size_t count, F&& executions);
 
     template <typename F>
-    single_handle_t<F> plan(job_handle& dependency, F&& execution);
+    single_handle_t<F> plan(job_handle&& dependency, F&& execution);
 
     template <typename... Fs>
-    multi_handle_t<Fs...> plan(job_handle& dependency, Fs&&... executions);
+    multi_handle_t<Fs...> plan(job_handle&& dependency, Fs&&... executions);
 
     template <typename F>
-    parallel_handle_t<F> plan(job_handle& dependency, size_t count, F&& executions);
+    parallel_handle_t<F> plan(job_handle&& dependency, size_t count, F&& executions);
 
     template <typename F>
     std::invoke_result_t<F> execute(F&& execution) {

From 14f68631bc6454b1674c975da712d519ac7f6aba Mon Sep 17 00:00:00 2001
From: Bryan Wong <wongjengyan@gmail.com>
Date: Fri, 21 Jun 2024 23:55:50 +0900
Subject: [PATCH 4/8] Oh hold

---
 src/experimental/public/job_handle.h    | 282 ++++++++++
 src/experimental/public/pooled_thread.h |   0
 src/experimental/public/thread_pool.h   | 704 ++++++++++--------------
 utl.sublime-project                     |   3 +
 4 files changed, 574 insertions(+), 415 deletions(-)
 create mode 100644 src/experimental/public/job_handle.h
 delete mode 100644 src/experimental/public/pooled_thread.h

diff --git a/src/experimental/public/job_handle.h b/src/experimental/public/job_handle.h
new file mode 100644
index 00000000..ba82f5d9
--- /dev/null
+++ b/src/experimental/public/job_handle.h
@@ -0,0 +1,282 @@
+
+
+namespace utl::experimental {
+namespace details::thread_pool {
+class group_tag;
+class dependency_tag;
+
+template <typename T, typename Tag>
+class job_node : private UTL_SCOPE intrusive::bidirectional_node<job_node<T, Tag>> {
+public:
+    using bidirectional_node::linked;
+
+    friend constexpr T* node_cast(job_node* node) {
+        static_assert(UTL_SCOPE is_base_of<job_node, T>::value);
+        return (T*)node;
+    }
+
+    friend constexpr T& node_cast(job_node& node) {
+        static_assert(UTL_SCOPE is_base_of<job_node, T>::value);
+        return (T&)(node);
+    }
+};
+
+template <typename To, typename From, typename T>
+job_node<T, To>* node_cast(job_node<T, From>* other) noexcept {
+    static_assert(UTL_SCOPE is_base_of<job_node<T, To>, T>::value);
+    return (job_node<T, To>*)node_cast(other);
+}
+
+template <typename To, typename From, typename T>
+job_node<To>& node_cast(job_node<From>& other) noexcept {
+    static_assert(UTL_SCOPE is_base_of<job_node<T, To>, T>::value);
+    return (job_node<T, To>&)node_cast(other);
+}
+
+template <typename To, typename T>
+job_node<T, To>* node_cast(T* other) noexcept {
+    static_assert(UTL_SCOPE is_base_of<job_node<T, To>, T>::value);
+    return (job_node<T, To>*)other;
+}
+
+template <typename To, typename From>
+job_node<T, To>& node_cast(job_executable& other) noexcept {
+    static_assert(UTL_SCOPE is_base_of<job_node<T, To>, T>::value);
+    return (job_node<T, To>&)other;
+}
+
+template <typename T>
+using group_node = job_node<T, group_tag>;
+template <typename T>
+using dependency_node = job_node<T, dependency_tag>;
+
+class job_executable : group_node<job_executable>, dependency_node<job_executable> {
+public:
+    virtual size_t size() const noexcept = 0;
+    virtual void execute(size_t thread_idx, size_t job_idx) = 0;
+    virtual ~job_executable() noexcept = default;
+};
+
+template <typename F>
+class single_executor : public job_executable {
+public:
+    template <typename... Args, UTL_SCOPE enable_if_t<UTL_SCOPE is_constructible_v<F, Args...>>>
+    single_executor(Args&&... args) noexcept(UTL_SCOPE is_nothrow_constructible_v<F, Args...>)
+        : callable_(UTL_SCOPE forward<Args>(args)...) {}
+
+private:
+    UTL_CONSTEXPR_CXX20 size_t size() const noexcept final { return 1; }
+    void execute(size_t thread_idx, size_t job_idx) final { callable_(); }
+    UTL_ATTRIBUTE(NO_UNIQUE_ADDRESS) F callable_;
+};
+
+template <typename... Fs>
+class multi_executor : public job_executable {
+public:
+    template <typename... Args, UTL_SCOPE enable_if_t<UTL_SCOPE is_constructible_v<F, Args...>>>
+    multi_executor(Args&&... args) noexcept(UTL_SCOPE is_nothrow_constructible_v<F, Args...>)
+        : callables_(UTL_SCOPE forward<Args>(args)...) {}
+
+private:
+    UTL_CONSTEXPR_CXX20 size_t size() const noexcept final { return sizeof...(Fs); }
+
+    template <size_t I>
+    void execute() {
+        UTL_SCOPE get<I>(callables_)();
+    }
+
+    template <size_t... Is>
+    void execute(size_t job_idx, UTL_SCOPE index_sequence<Is...>) {
+        static_assert(
+            UTL_SCOPE
+                is_same_v<UTL_SCOPE index_sequence<Is...>, UTL_SCOPE index_sequence_for<Fs...>>,
+            "");
+        UTL_ASSERT(job_idx < sizeof...(Is));
+        static constexpr auto vtable[] = {&multi_executor::execute<Is>...};
+        (this->*vtable[job_idx])();
+    }
+
+    void execute(size_t, size_t job_idx) final {
+        static constexpr UTL_SCOPE index_sequence_for<Fs...> sequence = {};
+        execute(job_idx, sequence);
+    }
+
+    UTL_ATTRIBUTE(NO_UNIQUE_ADDRESS) UTL_SCOPE tuple<Fs...> callables_;
+};
+
+template <typename F>
+class parallel_executor : public job_executable {
+public:
+    template <typename... Args, UTL_SCOPE enable_if_t<UTL_SCOPE is_constructible_v<F, Args...>>>
+    parallel_executor(size_t size, Args&&... args) noexcept(
+        UTL_SCOPE is_nothrow_constructible_v<F, Args...>)
+        : callable_(UTL_SCOPE forward<Args>(args)...)
+        , size_(size) {}
+
+private:
+    size_t size() const noexcept final { return size_; }
+    void execute(size_t thread_idx, size_t job_idx) final { callable_(thread_idx, job_idx); }
+
+    UTL_ATTRIBUTE(NO_UNIQUE_ADDRESS) F callable_;
+    size_t size_;
+};
+
+} // namespace details::thread_pool
+
+class job_handle {
+    template <size_t I, typename T>
+    using type_for = T;
+    using job_executable = details::thread_pool::job_executable;
+    template <typename Tag>
+    using node_type = job_node<details::thread_pool::job_executable, Tag>;
+
+public:
+    template <typename... Jobs>
+    [[nodiscard]] static job_handle combine(job_handle&& first, Jobs&&... jobs) {
+        static constexpr UTL_SCOPE make_index_sequence<sizeof...(Jobs) + 1> sequence = {};
+        static_assert(sizeof...(Jobs) > 0);
+        static_assert(!(... || UTL_SCOPE is_reference_v<Jobs>));
+        static_assert((... && UTL_SCOPE is_convertible_v<Jobs&, job_handle&>));
+        return (move(first) + ... + move(jobs));
+    }
+
+    job_handle() noexcept = default;
+    template <UTL_CONCEPT_CXX20(invocable) F UTL_REQUIRES_CXX11(UTL_TRAIT_is_invocable(F))>
+    explicit job_handle(F&& callable)
+        : job_(new details::thread_pool::single_executor<UTL_SCOPE decay_t<F>>(
+              UTL_SCOPE forward<F>(callable))) {}
+    template <UTL_CONCEPT_CXX20(invocable)... Fs UTL_REQUIRES_CXX11(
+        sizeof...(Fs) > 1 && UTL_SCOPE conjunction<UTL_SCOPE is_invocable<Fs>...>::value)>
+    explicit job_handle(Fs&&... callables)
+        : job_(new details::thread_pool::multi_executor<UTL_SCOPE decay_t<Fs>...>(
+              UTL_SCOPE forward<Fs>(callables)...)) {}
+    template <UTL_CONCEPT_CXX20(invocable<size_t, size_t>) F UTL_REQUIRES_CXX11(
+        UTL_TRAIT_is_invocable(F, size_t, size_t))>
+    explicit job_handle(size_t size, F&& callable)
+        : job_(new details::thread_pool::parallel_executor<UTL_SCOPE decay_t<F>>(
+              size, UTL_SCOPE forward<F>(callable))) {}
+
+    template <UTL_CONCEPT_CXX20(invocable) F UTL_REQUIRES_CXX11(UTL_TRAIT_is_invocable(F))>
+    explicit job_handle(job_handle&& dependency, F&& callable)
+        : job_((job_handle(UTL_SCOPE forward<F>(callable)) << UTL_SCOPE move(dependency))) {
+        *this = (UTL_SCOPE move(*this) << UTL_SCOPE move(dependency));
+    }
+    template <UTL_CONCEPT_CXX20(invocable)... Fs UTL_REQUIRES_CXX11(
+        sizeof...(Fs) > 1 && UTL_SCOPE conjunction<UTL_SCOPE is_invocable<Fs>...>::value)>
+    explicit job_handle(job_handle&& dependency, Fs&&... callables)
+        : job_((job_handle(size, UTL_SCOPE forward<Fs>(callable)...)
+              << UTL_SCOPE move(dependency))) {}
+    template <UTL_CONCEPT_CXX20(invocable<size_t, size_t>) F UTL_REQUIRES_CXX11(
+        UTL_TRAIT_is_invocable(F, size_t, size_t))>
+    explicit job_handle(job_handle&& dependency, size_t size, F&& callable)
+        : job_handle(
+              (job_handle(size, UTL_SCOPE forward<F>(callable)) << UTL_SCOPE move(dependency))) {}
+
+    job_handle(job_handle const&) = delete;
+    job_handle& operator=(job_handle const&) = delete;
+    job_handle(job_handle&& other) noexcept : job_(UTL_SCOPE exchange(other.job_, nullptr)) {}
+    job_handle& operator=(job_handle&& other) noexcept {
+        auto to_delete = UTL_SCOPE exchange(job_, UTL_SCOPE exchange(other.job_, nullptr));
+        destroy();
+    }
+
+    ~job_handle() noexcept { destroy(); }
+
+    [[nodiscard]] explicit operator bool() const noexcept { return to_delete != nullptr; }
+
+private:
+    explicit job_handle(job_executable* job) noexcept : job_(job) {}
+
+    template <typename T>
+    static constexpr void splice_back(node_type<T>* list, node_type<T>* list2) noexcept {
+        auto head2 = list2;
+        auto tail2 = get_prev(*list2);
+        auto tail = get_prev(*list);
+        set_next(*tail2, list);
+        set_prev(*head2, tail);
+        set_prev(*list, tail2);
+        set_next(*tail, head2);
+    }
+
+    static constexpr void destroy(dependency_node* ptr) noexcept {
+        dependency_node* const origin = ptr;
+        do {
+            auto next = get_next(*ptr);
+
+            auto const group = node_cast<group_tag>(ptr);
+            for (auto c = get_next(*group); c != group; c = get_next(*c)) {
+                splice_back(origin, node_cast<dependency_tag>(c));
+            }
+
+            delete ptr;
+            ptr = next;
+        } while (origin != ptr);
+    }
+
+    void destroy() noexcept {
+        auto ptr = UTL_SCOPE exchange(job_, nullptr);
+        if (ptr != nullptr) {
+            destroy(ptr);
+        }
+    }
+
+    template <typename Tag>
+    node_type<Tag>* get() const noexcept {
+        return node_cast<Tag>(job_);
+    }
+
+    template <typename Tag>
+    node_type<Tag>* release() noexcept {
+        return node_cast<Tag>(UTL_SCOPE exchange(job_, nullptr));
+    }
+
+    [[nodiscard]] friend job_handle operator+(job_handle&& left, job_handle&& right) UTL_THROWS {
+        auto left_ptr = left.release<group_tag>();
+        auto right_ptr = right.release<group_tag>();
+        if (left_ptr == nullptr) {
+            return {right_ptr};
+        }
+        if (right_ptr == nullptr) {
+            return {left_ptr};
+        }
+
+        splice_back(left_ptr, right_ptr);
+        return {left_ptr};
+    }
+
+    friend job_handle& operator+=(job_handle& left, job_handle&& other) UTL_THROWS {
+        return left = UTL_SCOPE move(left) + UTL_SCOPE move(other);
+    }
+
+    [[nodiscard]] friend job_handle operator>>(
+        job_handle&& upstream, job_handle&& downstream) UTL_THROWS {
+        return move(downstream) << move(upstream);
+    }
+
+    [[nodiscard]] friend job_handle operator<<(
+        job_handle&& dependent, job_handle&& dependency) UTL_THROWS {
+
+        auto downstream = dependent.release<dependency_tag>();
+        auto upstream = dependency.release<dependency_tag>();
+        if (downstream == nullptr) {
+            return job_handle{node_cast(upstream)};
+        }
+        if (upstream == nullptr) {
+            return job_handle{node_cast(downstream)};
+        }
+
+        auto downstream_previous = get_previous(*downstream);
+        bool const has_dependencies_already = downstream_previous != downstream;
+        if (has_dependencies_already) {
+            splice_back(node_cast<group_tag>(downstream_previous), node_cast<group_tag>(upstream));
+        } else {
+            splice_back(upstream, downstream);
+        }
+
+        return job_handle{downstream};
+    }
+
+    job_executable* job_;
+};
+
+} // namespace utl::experimental
diff --git a/src/experimental/public/pooled_thread.h b/src/experimental/public/pooled_thread.h
deleted file mode 100644
index e69de29b..00000000
diff --git a/src/experimental/public/thread_pool.h b/src/experimental/public/thread_pool.h
index d2977df0..1f104eba 100644
--- a/src/experimental/public/thread_pool.h
+++ b/src/experimental/public/thread_pool.h
@@ -12,504 +12,378 @@
 // todo intrusive_ptr
 // todo atomic_reference_counter
 
-/**
- * Notes
- *
- * We have a "plan" API which creates a dependency graph
- *
- * We then have an execution API which executes the jobs, either async or sync
- */
-
-namespace utl::experimental {
-using size_t = decltype(sizeof(0));
-
-class job_handle;
-class jthread : public std::thread {
-public:
-    using thread::thread;
+/*
+
+
+UTL_NAMESPACE_BEGIN
+
+template <typename...>
+class group_t;
+template <typename...>
+class graph_t;
+template <typename...>
+class scatter_t;
+UTL_INLINE_CXX17 constexpr class identity_t {
+} identity = {};
+template <typename...>
+struct unwrap;
+
+template <typename>
+struct is_group : UTL_SCOPE false_type {};
+template <typename... Ts>
+struct is_group<group_t<Ts...>> : UTL_SCOPE true_type {};
+template <typename>
+struct is_graph : UTL_SCOPE false_type {};
+template <typename... Ts>
+struct is_graph<graph_t<Ts...>> : UTL_SCOPE true_type {};
+template <typename>
+struct is_scatter : UTL_SCOPE false_type {};
+template <typename... Ts>
+struct is_scatter<scatter_t<Ts...>> : UTL_SCOPE bool_constant<(sizeof...(Ts) <= 2)> {};
+
+template <template <typename...> class Container>
+struct is_instruction : UTL_SCOPE false_type {};
+template <>
+struct is_instruction<group_t> : UTL_SCOPE true_type {};
+template <>
+struct is_instruction<graph_t> : UTL_SCOPE true_type {};
+template <>
+struct is_instruction<scatter_t> : UTL_SCOPE true_type {};
 
-    ~jthread() {
-        if (this->joinable()) {
-            this->join();
-        }
-    }
-};
+template <typename T>
+struct is_instruction_type : UTL_SCOPE false_type {};
+template <template <typename...> class Container, typename... Ts>
+struct is_instruction_type<Container<Ts...>> : is_instruction<Container> {};
 
-inline constexpr size_t dynamic_extent = (size_t)-1;
+template <typename T>
+using is_executable = is_invocable<T>;
 
-template <size_t N = dynamic_extent>
-class thread_pool;
+template <typename T>
+using is_valid_argument =
+    UTL_SCOPE disjunction<is_executable<remove_cvref_t<T>>, is_instruction_type<remove_cvref_t<T>>>;
 
-namespace details {
-namespace thread_pool {
+#if UTL_CXX20
+template <typename T>
+concept executable = invocable<T>;
 
-class completion_interface {
-public:
-    struct deleter {
-        void operator()(completion_interface* ptr) const noexcept { ptr->~completion_interface(); }
-    };
+template <typename T>
+concept instruction_type = is_instruction_type<T>::value;
 
-    virtual bool wait_for(std::chrono::microseconds) = 0;
-    virtual void wait() = 0;
-    virtual bool try_wait() const = 0;
+template <typename T>
+concept valid_argument = (executable<remove_cvref_t<T>> || instruction_type<remove_cvref_t<T>>);
+#endif
 
-    template <typename R, typename P>
-    bool wait_for(std::chrono::duration<R, P> d) {
-        return this->wait_for(std::chrono::duration_cast<std::chrono::microseconds>(d));
+template <>
+class graph_t<> {
+    template <UTL_CONCEPT_CXX20(valid_argument) T UTL_REQUIRES_CXX11(is_valid_argument<T>::value)>
+    UTL_ATTRIBUTE(NO_DISCARD)
+    constexpr graph_t<UTL_SCOPE decay_t<T>> operator>>(T&& execution) const noexcept {
+        return graph_t<UTL_SCOPE decay_t<T>>{UTL_SCOPE forward<T>(execution)};
     }
-
-protected:
-    completion_interface(completion_interface const&) = delete;
-    completion_interface& operator=(completion_interface const&) = delete;
-    completion_interface() = default;
-    virtual ~completion_interface() = default;
-};
-
-class execution_interface {
-public:
-    virtual size_t count() const noexcept = 0;
-    virtual void execute(size_t thread_idx, size_t job_idx) final = 0;
-
-protected:
-    execution_interface(execution_interface const&) = delete;
-    execution_interface& operator=(execution_interface const&) = delete;
-    execution_interface() = default;
-    virtual ~execution_interface() = default;
 };
-
-template <typename... Fs>
-class multi_execution : public completion_interface, public execution_interface {
-
+template <typename... Ts>
+class graph_t {
 public:
-    template <typename... Args>
-    multi_execution(Args&&... args) : executions(std::forward<Args>(args)...) {}
-
-    ~multi_execution() final = default;
-
-    size_t count() const noexcept final { return sizeof...(Fs); }
-
-    void execute(size_t thread_idx, size_t job_idx) final {
-        execute(thread_idx, job_idx, index_sequence_for<Fs...>{});
+    template <UTL_CONCEPT_CXX20(valid_argument) T UTL_REQUIRES_CXX11(is_valid_argument<T>::value)>
+    UTL_ATTRIBUTE(NO_DISCARD)
+    constexpr graph_t<Ts..., UTL_SCOPE decay_t<T>> operator>>(T&& execution) const&& noexcept {
+        static_assert((UTL_TRAIT_is_constructible(UTL_SCOPE decay_t<T>, T) && ... &&
+                          UTL_TRAIT_is_move_constructible(Ts)),
+            "");
+
+        return UTL_SCOPE apply(
+            [&](Ts&&... ts) {
+                return graph_t<Ts..., UTL_SCOPE decay_t<T>>{
+                    UTL_SCOPE move(ts)..., UTL_SCOPE forward<T>(execution)};
+            },
+            UTL_SCOPE move(executables));
+    }
+
+    template <UTL_CONCEPT_CXX20(valid_argument) T UTL_REQUIRES_CXX11(is_valid_argument<T>::value)>
+    UTL_ATTRIBUTE(NO_DISCARD)
+    constexpr graph_t<Ts..., UTL_SCOPE decay_t<T>> operator>>(T&& execution) const& noexcept {
+        static_assert((UTL_TRAIT_is_constructible(UTL_SCOPE decay_t<T>, T) && ... &&
+                          UTL_TRAIT_is_copy_constructible(Ts)),
+            "");
+        return UTL_SCOPE apply(
+            [&](Ts const&... ts) {
+                return graph_t<Ts..., UTL_SCOPE decay_t<T>>{ts..., UTL_SCOPE forward<T>(execution)};
+            },
+            executables);
     }
 
 private:
-    bool wait_for(std::chrono::microseconds d) final {
-        return latch.wait_for(d) && latch.try_wait();
-    }
-
-    void wait() final {
-        latch.wait();
-        std::ignore = try_wait();
-    }
+    UTL_SCOPE tuple<Ts...> executables;
+}
 
-    bool try_wait() const final {
-        if (!latch.try_wait()) {
-            return false;
-        }
+template <typename... Ts>
+class group_t {
 
-        propogate_exceptions();
-        return true;
-    }
-
-    template <size_t... Is>
-    void execute(size_t, size_t job_idx, std::index_sequence<Is...>) {
-        static constexpr auto vtable[] = {&multi_execution::execute<Is>...};
-        (this->*vtable[job_idx])();
-    }
-
-    template <size_t I>
-    void execute() {
-        UTL_ON_SCOPE_EXIT {
-            latch.count_down();
-        };
-        try {
-            std::get<I>(executions)();
-        } catch (std::exception const& e) {
-            std::get<I>(exceptions)(std::current_exception());
-        } catch (...) {
-            std::terminate();
-        }
-    }
-    template <size_t... Is>
-    void propogate_exceptions(std::index_sequence<Is...>) const {
-        std::atomic_thread_fence(std::memory_order_acquire);
-        if ((... || std::get<I>(executions))) {
-            throw std::runtime_error("Uncaught exception");
-        }
-    }
-
-    void propogate_exceptions() const { propogate_exceptions(index_sequence_for<Fs...>{}); }
-
-    std::tuple<std::exception_ptr> exceptions;
-    std::tuple<Fs...> executions;
-    latch latch;
-};
-
-template <typename F>
-class single_execution<F> : public completion_interface, public execution_interface {
 public:
-    template <typename A>
-    job_execution(A&& arg) : execution(std::forward<A>(arg))
-                           , latch(1) {}
-    ~job_execution() final = default;
+    template <UTL_CONCEPT_CXX20(valid_argument)... Us UTL_REQUIRES_CXX11(
+        UTL_SCOPE conjunction<is_valid_argument<Us>...>::value)>
+    group_t(Us&&... args) : executables(UTL_SCOPE forward<Us>(args)...) {}
 
-    constexpr size_t count() const noexcept { return 1; }
-
-    void execute(size_t, size_t) { execute(); }
-
-private:
-    bool wait_for(std::chrono::microseconds d) final {
-        return latch.wait_for(d) && latch.try_wait();
+    template <typename T>
+    scatter_t<UTL_SCOPE decay_t<T>, group_t> operator*(T&& t) const&& noexcept {
+        return scatter_t<UTL_SCOPE decay_t<T>, group_t>{
+            UTL_SCOPE forward<T>(t), UTL_SCOPE move(*this)};
     }
 
-    void wait() final {
-        latch.wait();
-        if (exception) {
-            rethrow_exception(exception);
-        }
+    template <typename T>
+    scatter_t<UTL_SCOPE decay_t<T>, group_t> operator*(T&& t) const& noexcept {
+        static_assert(sizeof...(Ts) > 1, "");
+        return scatter_t<UTL_SCOPE decay_t<T>, group_t>{UTL_SCOPE forward<T>(t), *this};
     }
 
-    bool try_wait() const final {
-        if (!latch.try_wait()) {
-            return true;
-        }
-
-        if (exception) {
-            rethrow_exception(exception);
-        }
-
-        return true;
-    }
-
-    void execute() {
-        UTL_ON_SCOPE_EXIT {
-            latch.count_down();
-        };
-        try {
-            execution();
-        } catch (std::exception const& e) {
-            exception = std::current_exception();
-        } catch (...) {
-            std::terminate();
-        }
-    }
-
-    std::exception_ptr exception;
-    F execution;
-    latch latch;
+private:
+    UTL_SCOPE tuple<Ts...> executables;
 };
 
-template <typename F>
-class parallel_execution : public completion_interface, public execution_interface {
-public:
-    template <typename A>
-    parallel_execution(A&& arg, size_t count) : execution(std::forward<A>(arg))
-                                              , latch(count) {}
-    ~parallel_execution() final = default;
-
-    size_t count() const noexcept { return count; }
-
-    void execute(size_t thread_idx, size_t job_idx) {
-        UTL_ON_SCOPE_EXIT {
-            latch.count_down();
-        };
-        try {
-            execution(thread_idx, job_idx);
-        } catch (std::exception const& e) {
-            exceptions_thrown.store(true, std::memory_order_release);
-        } catch (...) {
-            std::terminate();
-        }
-    }
+template <typename T>
+concept group_type = is_group<UTL_SCOPE decay_t<T>>::value;
+template <typename T>
+concept not_group_type = !group_type<T>;
 
-private:
-    bool wait_for(std::chrono::microseconds d) final {
-        return latch.wait_for(d) && latch.try_wait();
-    }
+template <not_group_type T, group_type U>
+scatter_t<UTL_SCOPE decay_t<T>, UTL_SCOPE decay_t<U>> operator*(T&& t, U&& u) noexcept {
+    return UTL_SCOPE forward<U>(u) * UTL_SCOPE forward<T>(t);
+}
 
-    void wait() final {
-        latch.wait();
-        if (exceptions_thrown.load(std::memory_order_acquire)) {
-            // TODO
-            throw std::runtime_error("Uncaught exception");
-        }
+template <>
+class scatter_t<> {
+public:
+    template <UTL_CONCEPT_CXX20(valid_argument) T UTL_REQUIRES_CXX11(is_valid_argument<T>::value)>
+    UTL_ATTRIBUTE(NO_DISCARD)
+    constexpr scatter_t<T&&> operator->*(T&& execution UTL_ATTRIBUTE(LIFETIMEBOUND)) const
+        noexcept(UTL_TRAIT_is_nothrow_constructible(scatter_t<T>, T)) {
+        return scatter_t<T&&>{UTL_SCOPE forward<T>(execution)};
     }
+};
 
-    bool try_wait() const final {
-        if (!latch.try_wait()) {
-            return true;
-        }
+template <typename T>
+class scatter_t<T> {
+    static_assert(UTL_SCOPE is_reference<T>::value, "Invalid scatter");
+    static_assert(is_valid_argument<UTL_SCOPE decay_t<T>>::value, "Invalid scatter");
+    using reference = T;
+    using value_type = UTL_SCOPE decay_t<reference>;
 
-        if (exceptions_thrown.load(std::memory_order_acquire)) {
-            // TODO
-            throw std::runtime_error("Uncaught exception");
-        }
+public:
+    scatter_t(reference t) noexcept : src_(t) {}
 
-        return true;
+    template <UTL_CONCEPT_CXX20(instruction_type) U UTL_REQUIRES_CXX11(
+        is_instruction_type<Container>::value)>
+    UTL_ATTRIBUTE(NO_DISCARD)
+    constexpr scatter_t<value_type, UTL_SCOPE decay_t<U>> operator*(U&& execution) const noexcept {
+        return scatter_t<value_type, UTL_SCOPE decay_t<U>>{
+            UTL_SCOPE forward<reference>(src_), UTL_SCOPE forward<U>(execution)};
     }
 
-    // TODO handle exception properly
-    std::atomic<bool> exceptions_thrown = false;
-    size_t count;
-    F execution;
-    latch latch;
+private:
+    reference src_;
 };
 
-template <size_t N>
-class job_collection : public completion_interface {
-
+template <typename T, typename U>
+class scatter_t<T, U> {
 public:
-    template <typename... J, std::enable_if_t<sizeof...(J) == N, int> = 0>
-    job_collection(J const&... header_ptr) : jobs_{header_ptr...} {}
+    // TODO U must be a group_t or scatter
 
-private:
-    bool wait_for(std::chrono::microseconds d) final {
-        for (auto const& ptr : jobs_) {
-            auto const begin = std::chrono::high_resolution_clock::now();
-            if (!ptr->wait_for(d)) {
-                return;
-            }
-
-            using clock_duration = decltype(std::chrono::high_resolution_clock::now() - begin);
-            auto const min_val = std::min<std::common_type_t<clock_duration, decltype(d)>>(
-                (std::chrono::high_resolution_clock::now() - begin), d);
-
-            d -= min_val;
-        }
-    }
-    void wait() final {
-        for (auto const& ptr : jobs_) {
-            ptr->wait();
-        }
-    }
+    template <typename TT, typename UU>
+    scatter_t(TT&& t, UU&& u) noexcept(
+        UTL_TRAIT_is_nothrow_constructible(T, TT) && UTL_TRAIT_is_nothrow_constructible(U, UU))
+        : first(UTL_SCOPE forward<TT>(t))
+        , second(UTL_SCOPE forward<UU>(u)) {}
 
-    bool try_wait() const final {
-        return std::all_of(
-            begin(jobs_), end(jobs_), [](auto const& ptr) { return ptr->try_wait(); });
-    }
-
-    std::array<utl::intrusive_ptr<job_header>> jobs_;
+private:
+    T first;
+    U second;
 };
 
-class pool_handle : private utl::atomic_reference_count<pool_handle> {
-    template <size_t N = dynamic_extent>
-    friend class ::thread_pool;
-
-    static constexpr struct construct_tag_t {
-    } construct_tag = {};
-
-public:
-    virtual ~pool_handle() = default;
+template <typename... Ts>
+class scatter_t {
+    static_assert(sizeof...(Ts) <= 2, "Invalid operation, `scatter` is a binary operation");
+};
 
-    template <typename Executor>
-    void schedule_execution(Executor& execution) {
-        auto const count = execution.count();
-    }
+template <typename... Ts>
+struct find_entrypoints;
 
-protected:
-    pool_handle(size_t count) : threads_(new jthread[count]), size_(count) {}
+#if UTL_CXX20
 
-private:
-    std::unique_ptr<jthread[]> threads_;
-    size_t size_;
-};
+template <typename T0, typename T1>
+struct entrypoint_concat {};
 
-class job_header : private utl::atomic_reference_count<job_header> {
-public:
-    job_header() = default;
+template <typename T>
+struct is_entrypoint_finder : UTL_SCOPE false_type {};
 
-protected:
-    void set_completion(completion_interface* interface) { completion_.reset(interface); }
+template <typename... Ts>
+struct is_entrypoint_finder<find_entrypoints<Ts...>> : UTL_SCOPE true_type {};
 
-private:
-    utl::intrusive_ptr<job_header> dependent_;
-    std::unique_ptr<completion_interface, completion_interface::deleter> completion_;
-};
+template <typename T>
+concept entrypoint_finder = is_entrypoint_finder<T>::value;
 
 template <typename T>
-class job : public job_header, public T {
-    static_assert(std::is_base_of_v<completion_interface, T>, "Invalid job");
-    static_assert(std::is_base_of_v<execution_interface, T>, "Invalid job");
-    using execution_base = T;
+concept entrypoint_result = entrypoint_finder<T> && UTL_TRAIT_has_member_type(T);
 
-public:
-    template <typename... Args>
-    job(pool_handle& pool, Args&&... args) : execution_base{std::forward<Args>(args)...} {
-        job_header::set_completion(this);
-    }
+template <entrypoint_result T, entrypoint_result U>
+struct entrypoint_concat<T, U> {
+    using type = UTL_SCOPE concat_elements<typename T::type, typename U::type>;
 };
 
-} // namespace thread_pool
-} // namespace details
+template <entrypoint_result T, entrypoint_finder U>
+struct entrypoint_concat<T, U> : T {};
 
-class job_handle {
-    using pool_type = details::thread_pool::pool_handle;
-    using header_type = details::thread_pool::job_header;
-    using header_ptr = utl::intrusive_ptr<header_type>;
+template <entrypoint_finder T, entrypoint_result U>
+struct entrypoint_concat<T, U> : U {};
 
-    template <typename... Fs>
-    static auto create_handle(intrusive_ptr<pool_type> pool, Fs&&... f);
+template <>
+struct find_entrypoints {
+    using type = UTL_SCOPE tuple<>;
+};
 
-    template <typename... Headers,
-        std::enable_if_t<(... && std::is_same_v<decay_t<Headers>, header_ptr>), bool> = true>
-    static auto create_collection_header(intrusive_ptr<pool_type> pool, Headers&&... headers) {}
+template <executable F, typename... Ts>
+struct find_entrypoints<F, Ts...> : find_entrypoints<Ts...> {};
 
-    template <typename... Headers,
-        std::enable_if_t<(... && std::is_same_v<decay_t<Headers>, header_ptr>), bool> = true>
-    job_handle(intrusive_ptr<pool_type> pool, Headers&&... headers)
-        : pool_(std::move(pool))
-        , job_(create_collection_header(pool_, std::forward<Headers>(headers)...)) {}
+template <typename... Ts, typename... Us>
+struct find_entrypoints<group_t<Ts...>, Us...> :
+    entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...>> {};
 
-public:
-    template <typename... Jobs,
-        std::enable_if_t<
-            ((sizeof...(Jobs) > 1) && ... && std::is_same_v<decay_t<Jobs>, job_handle>), bool> =
-            true>
-    static job_handle combine(Jobs&&... jobs) {
-        Jobs const* array[]{&jobs...};
-        auto const& pool = (*array)->pool_;
-        if (!std::all_of(
-                array, array + sizeof...(Jobs), [&](auto ptr) { return ptr->pool_ == pool; })) {
-            throw std::runtime_error("[job_handle] only jobs from the same pool can be combined");
-        }
-
-        return job_handle(pool, std::forward<Jobs>(jobs).job_...);
-    }
+template <typename T0, typename T1, typename... Us>
+struct find_entrypoints<scatter_t<T0, T1>, Us...> :
+    entrypoint_concat<find_entrypoints<T0, T1>, find_entrypoints<Us...>> {};
 
-public:
-    job_handle() = default;
-    job_handle(job_handle const&) = default;
-    job_handle& operator=(job_handle const&) = default;
-    job_handle(job_handle&&) noexcept = default;
-    job_handle& operator=(job_handle&&) noexcept = default;
-
-    template <typename... Fs>
-    explicit job_handle(intrusive_ptr<pool_type> pool, Fs&&... f)
-        : job_(create_handle(std::move(pool), std::forward<Fs>(f)...)) {}
-
-    void wait() {
-        if (job_) {
-            job_->wait();
-        }
-    }
+template <typename T0, typename... Ts, typename... Us>
+struct find_entrypoints<graph_t<T0, Ts...>, Us...> :
+    UTL_SCOPE concat_elements<UTL_SCOPE tuple<T0&>,
+        typename entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...>>::type> {};
 
-    bool try_wait() const { return !job_ || job_->try_wait(); }
+#else
 
-    ~job_handle() { wait(); }
+template <typename T0, typename T1 UTL_TYPENAME_CXX11(void)>
+struct entrypoint_concat {
+    using type = UTL_SCOPE tuple<>;
+}
 
-private:
-    utl::intrusive_ptr<pool_type> pool_;
-    utl::intrusive_ptr<header_type> job_;
+template <typename... Ts, typename... Us>
+struct entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...> UTL_REQUIRES_CXX11(
+    UTL_TRAIT_has_member_type(
+        find_entrypoints<Ts...>) && UTL_TRAIT_has_member_type(find_entrypoints<Us...>))> {
+    using type = UTL_SCOPE concat_elements<typename find_entrypoints<Ts...>::type,
+        typename find_entrypoints<Us...>::type>;
 };
 
-class thread_pool {
-    template <typename... Fs>
-    using multi_handle_t =
-        std::std::enable_if_t<((sizeof...(Fs) > 1) && ... && std::is_invocable_v<Fs>), job_handle>;
-    template <typename... Fs>
-    using multi_result_t =
-        std::std::enable_if_t<(sizeof...(Fs) > 1), std::tuple<std::invoke_result_t<Fs>...>>;
-    template <typename F>
-    using single_handle_t = std::enable_if_t<std::is_invocable_v<F>, job_handle>;
+template <typename... Ts, typename... Us>
+struct entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...> UTL_REQUIRES_CXX11(
+    UTL_TRAIT_has_member_type(
+        find_entrypoints<Ts...>) && !UTL_TRAIT_has_member_type(find_entrypoints<Us...>))> {
+    using type = typename find_entrypoints<Ts...>::type;
+};
 
-    using pool_handle_t = details::thread_pool::pool_handle;
+template <typename... Ts, typename... Us>
+struct entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...> UTL_REQUIRES_CXX11(
+    !UTL_TRAIT_has_member_type(
+        find_entrypoints<Ts...>) && UTL_TRAIT_has_member_type(find_entrypoints<Us...>))> {
+    using type = typename find_entrypoints<Ts...>::type;
+};
 
-    template <typename F>
-    using parallel_handle_t = std::enable_if_t<std::is_invocable_v<F, size_t, size_t>, job_handle>;
-    template <typename F>
-    using parallel_t = std::enable_if_t<std::is_invocable_v<F, size_t, size_t>, void>;
+namespace details {
 
-    using init_arg_t = std::conditional_t<N == dynamic_extent, size_t, invalid_t>;
+template <typename T, typename = void>
+struct find_entrypoints_impl {
+    using type = UTL_SCOPE tuple<>;
+};
 
-public:
-    constexpr explicit thread_pool(size_t n) noexcept : size_(n) {}
-    constexpr size_t size() const noexcept { return size_; }
+template <typename F, typename... Ts>
+struct find_entrypoints_impl<find_entrypoints<F, Ts...>,
+    UTL_SCOPE enable_if_t<is_executable<F>::value>> :
+    find_entrypoints_impl<find_entrypoints<Ts...>> {};
 
-    template <typename F>
-    single_handle_t<F> plan(F&& execution) {
-        return job_handle(std::forward<F>(execution));
-    }
+template <typename... Ts, typename... Us>
+struct find_entrypoints_impl<find_entrypoints<group_t<Ts...>, Us...>> :
+    entrypoint_concat<find_entrypoints_impl<Ts...>, find_entrypoints_impl<Us...>> {};
 
-    template <typename... Fs>
-    multi_handle_t<Fs...> plan(Fs&&... executions) {}
+template <typename T0, typename T1, typename... Us>
+struct find_entrypoints_impl<find_entrypoints<scatter_t<T0, T1>, Us...>> :
+    entrypoint_concat<find_entrypoints_impl<T0, T1>, find_entrypoints_impl<Us...>> {};
 
-    template <typename F>
-    parallel_handle_t<F> plan(size_t count, F&& executions);
+template <typename T0, typename... Ts, typename... Us>
+struct find_entrypoints_impl<graph_t<T0, Ts...>, Us...> :
+    UTL_SCOPE concat_elements<UTL_SCOPE tuple<T0&>,
+        typename entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...>>::type> {};
+} // namespace details
 
-    template <typename F>
-    single_handle_t<F> plan(job_handle&& dependency, F&& execution);
+template <typename... Ts>
+struct find_entrypoints<Ts...> : details::find_entrypoints_impl<Ts...> {};
 
-    template <typename... Fs>
-    multi_handle_t<Fs...> plan(job_handle&& dependency, Fs&&... executions);
+#endif
 
-    template <typename F>
-    parallel_handle_t<F> plan(job_handle&& dependency, size_t count, F&& executions);
+//     A
+//    / \
+//   B   C
+//  / \ / \
+// D   E   F
+//  \ / \ / \
+//   G   H   I
+//    \ /   / \
+//     J   K   L
 
-    template <typename F>
-    std::invoke_result_t<F> execute(F&& execution) {
-        return std::invoke(std::forward<F>(execution));
-    }
+// graph<J, group<G,H>, scatter<E, group<D, graph<group<K,L>, I, F>>>, group<B,C>, A>
+// latch<0, 1,                 <2,      <1,      <0,        , 2, 2>>>,      <2,2>  2>
 
-    template <typename... Fs>
-    multi_result_t<Fs...> execute(Fs&&... executions) {
-        return multi_execute(index_sequence_for<Fs...>{}, std::forward<Fs>(executions)...);
-    }
+void func(utl::thread_pool<16> pool) {
+    // clang-format off
+    auto subgraph = utl::job::grapher >>
+        utl::job::group([]() { K; }, []() { L; }) >> []() { I; } >> []() { F; };
 
-    void execute(job_handle&& job);
+    auto graph = utl::job::grapher >> []() { J; } >>
+        utl::job::group([]() { G; }, []() { H; })
+        >> []() { E; } * utl::job::group([]() { D; }, UTL_SCOPE move(subgraph))
+        >> utl::job::group([]() { B; }, []() { C; }) >> []() { A; };
+    // clang-format on
 
-    template <typename F>
-    parallel_t<F> execute(size_t count, F&& execution) {
-        schedule(count, executions).wait();
-    }
+    pool.execute(graph);
 
-    template <typename F>
-    std::invoke_result_t<F> execute(job_handle&& dependency, F&& execution) {
-        return dependency.wait(), std::invoke(std::forward<F>(execution));
-    }
+    // graph is copyable and/or movable depending on nodes
 
-    template <typename... Fs>
-    multi_result_t<Fs...> execute(job_handle&& dependency, Fs&&... executions) {
-        dependency.wait();
-        return multi_execute(index_sequence_for<Fs...>{}, std::forward<Fs>(executions)...);
-    }
+    // graph_handle moveable only
+    // ctor of graph handle will call `new`; allocators cannot be used due to type-hiding
+    // requirement
+    utl::job::graph_handle handle(graph); // copy/move graph
+    utl::job::graph_handle handle2(move(graph));
 
-    template <typename F>
-    parallel_t<F> execute(job_handle&& dependency, size_t count, F&& execution) {
-        schedule(dependency, count, executions).wait();
-    }
+    pool.execute(handle); // execute and wait until done
+    // future moveable only
+    // empty future does noting
 
-private:
-    template <typename T, typename U, typename F, size_t I>
-    static auto tuple_executor(T& t, U& exe) {
-        return [&t, &exe]() { std::get<I>(t).emplace(std::forward<F>(std::get<I>(exe))()); };
-    }
+    auto future = pool.execute_async(move(handle));
 
-    template <typename... Ts, size_t... Is>
-    static std::tuple<Ts...> optional_to_tuple(
-        std::tuple<std::optional<Ts>...>&& t, std::index_sequence<Is...>) {
-        return std::tuple<Ts...>{(*std::get<Is...>(std::move(t)))...};
-    }
+    auto future2 = future.then(move(handle2));
+    // future.detach(); // Similar to thread::detach
+    // future.wait(); // Similar to thread::join
+    // release the graph handle back for reuse, will wait until completion
+    handle = future.release();
 
-    template <typename... Fs, size_t... Is>
-    multi_result_t<Fs...> multi_execute(std::index_sequence<Is...>, Fs&&... executions) {
-        std::tuple<std::optional<invoke_result_t<Fs>>...> t;
-        auto exe = std::forward_as_tuple(std::forward<Fs>(executions)...);
+    // dtor of future should call wait
+}
 
-        schedule(tuple_executor<Fs, Is>(t, exe)...).wait();
+UTL_INLINE_CXX17 constexpr group_t<> grapher = {};
 
-        return optional_to_tuple(std::move(t), index_sequence<Is...>{});
-    }
+UTL_NAMESPACE_END
 
-    intrusive_ptr<pool_handle_t> const& pool_handle() {
-        if (!pool_handle_) {
-            pool_handle_ = utl::make_intrusive_ptr<pool_handle_t>(size());
-        }
+// A : B, C
+// B : D, E
+// C : E, F
+// D : G
+// E : G, H
+// F : H, I
+// G : J
+// H : J
+// I : K, L
+// J :
+// K :
+// L :
 
-        return pool_handle_;
-    }
+// I : waiting for 2
+// G : waiting for 1
 
-    intrusive_ptr<pool_handle_t> pool_handle_;
-    size_t size_;
-};
 
-} // namespace utl::experimental
+*/
diff --git a/utl.sublime-project b/utl.sublime-project
index 989ffafd..e630764c 100644
--- a/utl.sublime-project
+++ b/utl.sublime-project
@@ -13,6 +13,9 @@
 			"path": ".",
 			"name": "Root",
 			"folder_exclude_patterns": [ "*/" ]
+		},
+		{
+			"path" : "SCRATCH"
 		}
 	],
 	"settings":

From 37f902bcff3974e0c1b0135c01a80606be210feb Mon Sep 17 00:00:00 2001
From: Bryan Wong <wongjengyan@gmail.com>
Date: Tue, 27 Aug 2024 00:34:20 +0900
Subject: [PATCH 5/8] new design

---
 src/experimental/public/thread_pool.h | 701 ++++++++++++++++----------
 1 file changed, 446 insertions(+), 255 deletions(-)

diff --git a/src/experimental/public/thread_pool.h b/src/experimental/public/thread_pool.h
index 1f104eba..89023338 100644
--- a/src/experimental/public/thread_pool.h
+++ b/src/experimental/public/thread_pool.h
@@ -3,6 +3,7 @@
 #include "semaphore.h"
 #include "utl_config.h"
 
+#include <chrono>
 #include <memory>
 #include <stdexcept>
 #include <thread>
@@ -12,310 +13,512 @@
 // todo intrusive_ptr
 // todo atomic_reference_counter
 
-/*
+UTL_NAMESPACE_BEGIN
 
+//     A
+//    / \
+//   B   C
+//  / \ / \
+// D   E   F
+//  \ / \ / \
+//   G   H   I
+//    \ /   / \
+//     J   K   L
 
-UTL_NAMESPACE_BEGIN
+// 1 >> N => N vertex from 1 to N
+// N >> 1 => N vertex from N to 1
+// N >> N => N vertex one for each node
+// N >> M where M != 1 && N != 1 => Not possible
 
-template <typename...>
-class group_t;
-template <typename...>
-class graph_t;
-template <typename...>
-class scatter_t;
-UTL_INLINE_CXX17 constexpr class identity_t {
-} identity = {};
-template <typename...>
-struct unwrap;
-
-template <typename>
-struct is_group : UTL_SCOPE false_type {};
-template <typename... Ts>
-struct is_group<group_t<Ts...>> : UTL_SCOPE true_type {};
-template <typename>
-struct is_graph : UTL_SCOPE false_type {};
-template <typename... Ts>
-struct is_graph<graph_t<Ts...>> : UTL_SCOPE true_type {};
-template <typename>
-struct is_scatter : UTL_SCOPE false_type {};
-template <typename... Ts>
-struct is_scatter<scatter_t<Ts...>> : UTL_SCOPE bool_constant<(sizeof...(Ts) <= 2)> {};
-
-template <template <typename...> class Container>
-struct is_instruction : UTL_SCOPE false_type {};
-template <>
-struct is_instruction<group_t> : UTL_SCOPE true_type {};
-template <>
-struct is_instruction<graph_t> : UTL_SCOPE true_type {};
-template <>
-struct is_instruction<scatter_t> : UTL_SCOPE true_type {};
-
-template <typename T>
-struct is_instruction_type : UTL_SCOPE false_type {};
-template <template <typename...> class Container, typename... Ts>
-struct is_instruction_type<Container<Ts...>> : is_instruction<Container> {};
-
-template <typename T>
-using is_executable = is_invocable<T>;
-
-template <typename T>
-using is_valid_argument =
-    UTL_SCOPE disjunction<is_executable<remove_cvref_t<T>>, is_instruction_type<remove_cvref_t<T>>>;
-
-#if UTL_CXX20
-template <typename T>
-concept executable = invocable<T>;
-
-template <typename T>
-concept instruction_type = is_instruction_type<T>::value;
-
-template <typename T>
-concept valid_argument = (executable<remove_cvref_t<T>> || instruction_type<remove_cvref_t<T>>);
-#endif
+// graph<J, group<G,H>, scatter<E, group<D, graph<group<K,L>, I, F>>>, group<B,C>, A>
+// barriers<0,   <1,1>,        <2,      <1,      <     <0,0>, 2, 2>>>,      <2,2>  2>
+namespace task_graph {
+
+template <typename... Vs>
+class vertex_space;
+template <typename VertexSpace, typename... Edges>
+class graph;
+template <typename, size_t>
+struct vertex;
+template <typename, size_t...>
+struct vertex_group;
+
+template <size_t From, size_t To>
+struct edge {
+    static_assert(From != To, "Loop detected!");
+};
 
-template <>
-class graph_t<> {
-    template <UTL_CONCEPT_CXX20(valid_argument) T UTL_REQUIRES_CXX11(is_valid_argument<T>::value)>
-    UTL_ATTRIBUTE(NO_DISCARD)
-    constexpr graph_t<UTL_SCOPE decay_t<T>> operator>>(T&& execution) const noexcept {
-        return graph_t<UTL_SCOPE decay_t<T>>{UTL_SCOPE forward<T>(execution)};
-    }
+template <typename Edge, typename VertexSpace>
+struct edge_source {};
+template <size_t From, size_t To, typename... Vs>
+struct edge_source<edge<From, To>, vertex_space<Vs...>> {
+    using type = template_element_t<From, vertex_space<Vs...>>;
+};
+template <typename Edge, typename VertexSpace>
+struct edge_destination {};
+template <size_t From, size_t To, typename... Vs>
+struct edge_destination<edge<From, To>, vertex_space<Vs...>> {
+    using type = template_element_t<To, vertex_space<Vs...>>;
+};
+template <typename Edge, typename VertexSpace>
+using edge_source_t = typename edge_source<Edge, VertexSpace>::type;
+template <typename Edge, typename VertexSpace>
+using edge_destination_t = typename edge_destination<Edge, VertexSpace>::type;
+
+template <typename VertexSpace, typename... Es>
+struct edge_list;
+template <typename... Vs, size_t... I, size_t... J>
+struct edge_list<vertex_space<Vs...>, edge<I, J>...> {
+    static_assert((... && (template_count<edge<I, J>, type_list<edge<I, J>...>>::value == 1)),
+        "Non-unique edge detected");
 };
-template <typename... Ts>
-class graph_t {
+
+template <typename... Vs, size_t I>
+struct vertex<vertex_space<Vs...>, I> {
+    static_assert(I < sizeof...(Vs), "Index out of range");
+    using type = template_element_t<I, vertex_space<Vs...>>;
+
+private:
+    template <size_t N>
+    using vertex_type = vertex<vertex_space<Vs...>, N>;
+    template <typename... E>
+    using edge_result = edge_list<vertex_space<Vs...>, E...>;
+    template <size_t... Ns>
+    using group_type = vertex_group<vertex_space<Vs...>, Ns...>;
+
 public:
-    template <UTL_CONCEPT_CXX20(valid_argument) T UTL_REQUIRES_CXX11(is_valid_argument<T>::value)>
-    UTL_ATTRIBUTE(NO_DISCARD)
-    constexpr graph_t<Ts..., UTL_SCOPE decay_t<T>> operator>>(T&& execution) const&& noexcept {
-        static_assert((UTL_TRAIT_is_constructible(UTL_SCOPE decay_t<T>, T) && ... &&
-                          UTL_TRAIT_is_move_constructible(Ts)),
-            "");
-
-        return UTL_SCOPE apply(
-            [&](Ts&&... ts) {
-                return graph_t<Ts..., UTL_SCOPE decay_t<T>>{
-                    UTL_SCOPE move(ts)..., UTL_SCOPE forward<T>(execution)};
-            },
-            UTL_SCOPE move(executables));
+    template <size_t J>
+    constexpr group_type<I, J> operator+(vertex_type<J>) const noexcept {
+        return {};
     }
 
-    template <UTL_CONCEPT_CXX20(valid_argument) T UTL_REQUIRES_CXX11(is_valid_argument<T>::value)>
-    UTL_ATTRIBUTE(NO_DISCARD)
-    constexpr graph_t<Ts..., UTL_SCOPE decay_t<T>> operator>>(T&& execution) const& noexcept {
-        static_assert((UTL_TRAIT_is_constructible(UTL_SCOPE decay_t<T>, T) && ... &&
-                          UTL_TRAIT_is_copy_constructible(Ts)),
-            "");
-        return UTL_SCOPE apply(
-            [&](Ts const&... ts) {
-                return graph_t<Ts..., UTL_SCOPE decay_t<T>>{ts..., UTL_SCOPE forward<T>(execution)};
-            },
-            executables);
+    template <size_t... Js>
+    constexpr group_type<I, Js...> operator+(group_type<Js...>) const noexcept {
+        return {};
     }
 
-private:
-    UTL_SCOPE tuple<Ts...> executables;
-}
+    template <size_t J>
+    constexpr edge_result<edge<I, J>> operator>>(vertex_type<J>) const noexcept {
+        return {};
+    }
 
-template <typename... Ts>
-class group_t {
+    template <size_t J>
+    constexpr edge_result<edge<J, I>> operator<<(vertex_type<J>) const noexcept {
+        return {};
+    }
 
-public:
-    template <UTL_CONCEPT_CXX20(valid_argument)... Us UTL_REQUIRES_CXX11(
-        UTL_SCOPE conjunction<is_valid_argument<Us>...>::value)>
-    group_t(Us&&... args) : executables(UTL_SCOPE forward<Us>(args)...) {}
-
-    template <typename T>
-    scatter_t<UTL_SCOPE decay_t<T>, group_t> operator*(T&& t) const&& noexcept {
-        return scatter_t<UTL_SCOPE decay_t<T>, group_t>{
-            UTL_SCOPE forward<T>(t), UTL_SCOPE move(*this)};
+    template <size_t... Js>
+    constexpr edge_result<edge<I, Js>...> operator>>(group_type<Js...>) const noexcept {
+        return {};
     }
 
-    template <typename T>
-    scatter_t<UTL_SCOPE decay_t<T>, group_t> operator*(T&& t) const& noexcept {
-        static_assert(sizeof...(Ts) > 1, "");
-        return scatter_t<UTL_SCOPE decay_t<T>, group_t>{UTL_SCOPE forward<T>(t), *this};
+    template <size_t... Js>
+    constexpr edge_result<edge<Js, I>...> operator<<(group_type<Js...>) const noexcept {
+        return {};
     }
+};
 
+template <typename... Vs, size_t... Is>
+struct vertex_group<vertex_space<Vs...>, Is...> {
 private:
-    UTL_SCOPE tuple<Ts...> executables;
-};
+    template <size_t N>
+    using vertex_type = vertex<vertex_space<Vs...>, N>;
+    template <size_t... Ns>
+    using group_type = vertex_group<vertex_space<Vs...>, Ns...>;
+    template <typename... E>
+    using edge_result = edge_list<vertex_space<Vs...>, E...>;
 
-template <typename T>
-concept group_type = is_group<UTL_SCOPE decay_t<T>>::value;
-template <typename T>
-concept not_group_type = !group_type<T>;
+public:
+    template <size_t... Js>
+    constexpr group_type<Is..., Js...> operator+(group_type<Js...>) const noexcept {
+        return {};
+    }
 
-template <not_group_type T, group_type U>
-scatter_t<UTL_SCOPE decay_t<T>, UTL_SCOPE decay_t<U>> operator*(T&& t, U&& u) noexcept {
-    return UTL_SCOPE forward<U>(u) * UTL_SCOPE forward<T>(t);
-}
+    template <size_t J>
+    constexpr group_type<Is..., J> operator+(vertex_type<J>) const noexcept {
+        return {};
+    }
 
-template <>
-class scatter_t<> {
-public:
-    template <UTL_CONCEPT_CXX20(valid_argument) T UTL_REQUIRES_CXX11(is_valid_argument<T>::value)>
-    UTL_ATTRIBUTE(NO_DISCARD)
-    constexpr scatter_t<T&&> operator->*(T&& execution UTL_ATTRIBUTE(LIFETIMEBOUND)) const
-        noexcept(UTL_TRAIT_is_nothrow_constructible(scatter_t<T>, T)) {
-        return scatter_t<T&&>{UTL_SCOPE forward<T>(execution)};
+    template <size_t J>
+    constexpr edge_result<edge<Is, J>...> operator>>(vertex_type<J>) const noexcept {
+        return {};
     }
-};
 
-template <typename T>
-class scatter_t<T> {
-    static_assert(UTL_SCOPE is_reference<T>::value, "Invalid scatter");
-    static_assert(is_valid_argument<UTL_SCOPE decay_t<T>>::value, "Invalid scatter");
-    using reference = T;
-    using value_type = UTL_SCOPE decay_t<reference>;
+    template <size_t J>
+    constexpr edge_result<edge<J, Is>...> operator<<(vertex_type<J>) const noexcept {
+        return {};
+    }
 
-public:
-    scatter_t(reference t) noexcept : src_(t) {}
-
-    template <UTL_CONCEPT_CXX20(instruction_type) U UTL_REQUIRES_CXX11(
-        is_instruction_type<Container>::value)>
-    UTL_ATTRIBUTE(NO_DISCARD)
-    constexpr scatter_t<value_type, UTL_SCOPE decay_t<U>> operator*(U&& execution) const noexcept {
-        return scatter_t<value_type, UTL_SCOPE decay_t<U>>{
-            UTL_SCOPE forward<reference>(src_), UTL_SCOPE forward<U>(execution)};
+    template <size_t... Js>
+    UTL_CONSTRAINT_CXX20(sizeof...(Js) == sizeof...(Is))
+    constexpr auto operator>>(group_type<Js...>) const noexcept
+        -> UTL_ENABLE_IF_CXX11(edge_result<edge<Is, Js>...>, sizeof...(Js) == sizeof...(Is)) {
+        return {};
     }
 
-private:
-    reference src_;
+    template <size_t... Js>
+    UTL_CONSTRAINT_CXX20(sizeof...(Js) == sizeof...(Is))
+    constexpr auto operator<<(group_type<Js...>) const noexcept
+        -> UTL_ENABLE_IF_CXX11(edge_result<edge<Js, Is>...>, sizeof...(Js) == sizeof...(Is)) {
+        return {};
+    }
 };
 
-template <typename T, typename U>
-class scatter_t<T, U> {
-public:
-    // TODO U must be a group_t or scatter
+// https://godbolt.org/z/34ac46bqr (C++11)
+// https://godbolt.org/z/x51Mf41q7 (C++14)
 
-    template <typename TT, typename UU>
-    scatter_t(TT&& t, UU&& u) noexcept(
-        UTL_TRAIT_is_nothrow_constructible(T, TT) && UTL_TRAIT_is_nothrow_constructible(U, UU))
-        : first(UTL_SCOPE forward<TT>(t))
-        , second(UTL_SCOPE forward<UU>(u)) {}
+namespace details {
+template <typename V>
+struct permanent_mark {
+    __UTL_HIDE_FROM_ABI friend constexpr auto has_mark(permanent_mark) noexcept;
+};
 
-private:
-    T first;
-    U second;
+template <typename V>
+struct activate_permanent_mark {
+    __UTL_HIDE_FROM_ABI friend constexpr auto has_mark(permanent_mark<V>) noexcept {
+        return true_type{};
+    }
+};
+
+template <typename V>
+__UTL_HIDE_FROM_ABI decltype(has_mark(permanent_mark<V>{})) has_permanent_mark_impl(int) noexcept;
+template <typename V>
+__UTL_HIDE_FROM_ABI false_type has_permanent_mark_impl(short) noexcept;
+
+template <typename V, typename R = decltype(has_permanent_mark_impl<V>(0))>
+using has_permanent_mark UTL_NODEBUG = R;
+
+template <typename V>
+struct temporary_mark {
+    __UTL_HIDE_FROM_ABI friend constexpr auto has_mark(temporary_mark) noexcept;
 };
 
-template <typename... Ts>
-class scatter_t {
-    static_assert(sizeof...(Ts) <= 2, "Invalid operation, `scatter` is a binary operation");
+template <typename V>
+struct activate_temporary_mark {
+    __UTL_HIDE_FROM_ABI friend constexpr auto has_mark(temporary_mark<V>) noexcept {
+        return true_type{};
+    }
 };
 
-template <typename... Ts>
-struct find_entrypoints;
+template <typename V>
+__UTL_HIDE_FROM_ABI decltype(has_mark(temporary_mark<V>{})) has_temporary_mark_impl(int) noexcept;
+template <typename V>
+__UTL_HIDE_FROM_ABI false_type has_temporary_mark_impl(short) noexcept;
+
+template <typename V, typename R0 = decltype(has_temporary_mark_impl<V>(0)),
+    typename R1 = decltype(has_permanent_mark_impl<V>(0))>
+using has_temporary_mark = bool_constant<!R1::value && R0::value>;
+
+template <size_t, typename>
+struct vertex_visitor;
+
+template <size_t Idx, typename... Vs, size_t... Fs, size_t... Ts>
+struct vertex_visitor<Idx, graph<vertex_space<Vs...>, edge<Fs, Ts>...>> {};
+
+template <bool HasCycle, typename Visitor>
+struct complete_visit_result : false_type {};
+
+template <size_t Idx, typename... Vs, size_t... Fs, size_t... Ts>
+struct complete_visit_result<true,
+    vertex_visitor<Idx, graph<vertex_space<Vs...>, edge<Fs, Ts>...>>> :
+    activate_permanent_mark<vertex_visitor<Idx, graph<vertex_space<Vs...>, edge<Fs, Ts>...>>>,
+    true_type {};
+
+template <bool HasTempMark, typename Visitor>
+struct visit_vertex_result : false_type {};
+
+template <typename V, typename R0 = decltype(has_permanent_mark_impl<V>(0)),
+    typename R1 = decltype(has_temporary_mark_impl<V>(0))>
+using visit_vertex UTL_NODEBUG = visit_vertex_result<!R0::value && R1::value, V>;
+
+template <typename Visitor>
+struct complete_visit {};
+
+template <typename Edge, typename Visitor>
+struct visit_next_vertex : true_type {};
+
+template <size_t Idx, size_t Dst, typename Graph>
+struct visit_next_vertex<edge<Idx, Dst>, vertex_visitor<Idx, Graph>> :
+    visit_vertex<vertex_visitor<Dst, Graph>> {};
+
+template <size_t Idx, typename... Vs, size_t... Fs, size_t... Ts>
+struct complete_visit<vertex_visitor<Idx, graph<vertex_space<Vs...>, edge<Fs, Ts>...>>> :
+    complete_visit_result<
+        conjunction<visit_next_vertex<edge<Fs, Ts>,
+            vertex_visitor<Idx, graph<vertex_space<Vs...>, edge<Fs, Ts>...>>>...>::value,
+        vertex_visitor<Idx, graph<vertex_space<Vs...>, edge<Fs, Ts>...>>> {};
+
+template <typename... Vs, size_t... Fs, size_t... Ts, size_t Idx>
+struct visit_vertex_result<false,
+    vertex_visitor<Idx, graph<vertex_space<Vs...>, edge<Fs, Ts>...>>> :
+    activate_temporary_mark<vertex_visitor<Idx, graph<vertex_space<Vs...>, edge<Fs, Ts>...>>>,
+    complete_visit<vertex_visitor<Idx, graph<vertex_space<Vs...>, edge<Fs, Ts>...>>> {};
+
+template <size_t... Is, typename Graph>
+__UTL_HIDE_FROM_ABI auto is_acyclic_impl(Graph g, index_sequence<Is...>) noexcept
+    -> conjunction<visit_vertex<vertex_visitor<Is, Graph>>...>;
+template <typename... Vs, size_t... Fs, size_t... Ts>
+__UTL_HIDE_FROM_ABI auto is_acyclic_impl(graph<vertex_space<Vs...>, edge<Fs, Ts>...> g) noexcept
+    -> decltype(is_acyclic_impl(g, index_sequence_for<Vs...>{}));
+
+template <typename Graph>
+using is_acyclic_impl_t UTL_NODEBUG = decltype(is_acyclic_impl(Graph{}));
+} // namespace details
+
+template <typename Graph>
+struct is_acyclic : false_type {};
 
-#if UTL_CXX20
+template <typename... Vs, size_t... Fs, size_t... Ts>
+struct is_acyclic<graph<vertex_space<Vs...>, edge<Fs, Ts>...>> :
+    details::is_acyclic_impl_t<graph<vertex_space<Vs...>, edge<Fs, Ts>...>> {};
 
-template <typename T0, typename T1>
-struct entrypoint_concat {};
+template <size_t, typename>
+struct dependency_count {};
 
-template <typename T>
-struct is_entrypoint_finder : UTL_SCOPE false_type {};
+template <size_t I, typename... Vs, size_t... Fs, size_t... Ts>
+struct dependency_count<I, graph<vertex_space<Vs...>, edge<Fs, Ts>...>> :
+    size_constant<(0 + ... + (Ts == I))> {};
 
-template <typename... Ts>
-struct is_entrypoint_finder<find_entrypoints<Ts...>> : UTL_SCOPE true_type {};
+template <size_t>
+class barrier {};
 
-template <typename T>
-concept entrypoint_finder = is_entrypoint_finder<T>::value;
+#if UTL_TRAIT_SUPPORTED_is_final
+#  define UTL_TRAIT_is_final_or(X, F) UTL_TRAIT_is_final(F)
+#else
+#  define UTL_TRAIT_is_final_or(X, F) X
+#endif
 
-template <typename T>
-concept entrypoint_result = entrypoint_finder<T> && UTL_TRAIT_has_member_type(T);
+namespace details {
+template <size_t I, typename F,
+    bool = UTL_TRAIT_is_object(F) && UTL_TRAIT_is_empty(F) && !UTL_TRAIT_is_polymorphic(F) &&
+        !UTL_TRAIT_is_final_or(true, F)>
+struct element;
+#undef UTL_TRAIT_is_final_or
+
+template <size_t I, typename F>
+class UTL_ATTRIBUTE(EMPTY_BASES) element<I, F, true> : private F {
+public:
+    using value_type = F;
+
+    template <typename... Args>
+    __UTL_HIDE_FROM_ABI explicit element(Args&&... args) noexcept(
+        UTL_TRAIT_is_nothrow_constructible(F, Args...))
+        : F(__UTL forward<Args>(args)...) {}
+    __UTL_HIDE_FROM_ABI element(element const&) = default;
+    __UTL_HIDE_FROM_ABI element& operator=(element const&) = default;
+    __UTL_HIDE_FROM_ABI element(element&&) noexcept = default;
+    __UTL_HIDE_FROM_ABI element& operator=(element&&) noexcept = default;
+
+    template <typename... Args>
+    __UTL_HIDE_FROM_ABI invoke_result_t<F, Args...> operator()(Args&&... args) const {
+        __UTL invoke(*static_cast<F*>(this), __UTL forward<Args>(args)...);
+    }
 
-template <entrypoint_result T, entrypoint_result U>
-struct entrypoint_concat<T, U> {
-    using type = UTL_SCOPE concat_elements<typename T::type, typename U::type>;
+    __UTL_HIDE_FROM_ABI F&& value() && noexcept { return __UTL move(*static_cast<F*>(this)); }
+    __UTL_HIDE_FROM_ABI F const&& value() const&& noexcept {
+        return __UTL move(*static_cast<F const*>(this));
+    }
+    __UTL_HIDE_FROM_ABI F& value() & noexcept { return *static_cast<F*>(this); }
+    __UTL_HIDE_FROM_ABI F const& value() const& noexcept { return *static_cast<F const*>(this); }
 };
 
-template <entrypoint_result T, entrypoint_finder U>
-struct entrypoint_concat<T, U> : T {};
+template <size_t I, typename F>
+class element<I, F, false> {
+public:
+    using value_type = F;
 
-template <entrypoint_finder T, entrypoint_result U>
-struct entrypoint_concat<T, U> : U {};
+    template <typename... Args>
+    __UTL_HIDE_FROM_ABI invoke_result_t<F, Args...> operator()(Args&&... args) const {
+        __UTL invoke(callable, __UTL forward<Args>(args)...);
+    }
 
-template <>
-struct find_entrypoints {
-    using type = UTL_SCOPE tuple<>;
-};
+    template <typename... Args>
+    __UTL_HIDE_FROM_ABI explicit element(Args&&... args) noexcept(
+        UTL_TRAIT_is_nothrow_constructible(F, Args...))
+        : callable(__UTL forward<Args>(args)...) {}
+    __UTL_HIDE_FROM_ABI element(element const&) = default;
+    __UTL_HIDE_FROM_ABI element& operator=(element const&) = default;
+    __UTL_HIDE_FROM_ABI element(element&&) noexcept = default;
+    __UTL_HIDE_FROM_ABI element& operator=(element&&) noexcept = default;
 
-template <executable F, typename... Ts>
-struct find_entrypoints<F, Ts...> : find_entrypoints<Ts...> {};
+    __UTL_HIDE_FROM_ABI F&& value() && noexcept { return callable; }
+    __UTL_HIDE_FROM_ABI F const&& value() const&& noexcept { return callable; }
+    __UTL_HIDE_FROM_ABI F& value() & noexcept { return callable; }
+    __UTL_HIDE_FROM_ABI F const& value() const& noexcept { return callable; }
 
-template <typename... Ts, typename... Us>
-struct find_entrypoints<group_t<Ts...>, Us...> :
-    entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...>> {};
+private:
+    F callable;
+};
 
-template <typename T0, typename T1, typename... Us>
-struct find_entrypoints<scatter_t<T0, T1>, Us...> :
-    entrypoint_concat<find_entrypoints<T0, T1>, find_entrypoints<Us...>> {};
+template <typename Seq, typename... Vs>
+class graph_tuple_impl;
+template <typename... Vs, size_t... Is>
+class graph_tuple_impl<index_sequence<Is...>, Vs...> : element<Is, Vs>... {
+    template <size_t I>
+    using element_type UTL_NODEBUG = template_element_t<I, type_list<Vs...>>;
+    template <size_t I>
+    using base_type UTL_NODEBUG = element<I, element_type<I>>;
+    static constexpr size_t paths =
+        numeric::sum<size_t>((dependency_count<Is, graph>::value == 0)...);
 
-template <typename T0, typename... Ts, typename... Us>
-struct find_entrypoints<graph_t<T0, Ts...>, Us...> :
-    UTL_SCOPE concat_elements<UTL_SCOPE tuple<T0&>,
-        typename entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...>>::type> {};
+public:
+    template <typename... Args>
+    __UTL_HIDE_FROM_ABI explicit vertex_space_impl(Args&&... args) noexcept(
+        __UTL conjunction<__UTL is_nothrow_constructible<element<Is, Vs>, Args>...>::value)
+        : element<Is, Vs>(__UTL forward<Args>(args))... {}
+    __UTL_HIDE_FROM_ABI vertex_space_impl(vertex_space_impl const&) noexcept(
+        __UTL conjunction<__UTL is_nothrow_copy_constructible<Vs>...>::value) = default;
+    __UTL_HIDE_FROM_ABI vertex_space_impl& operator=(vertex_space_impl const&) noexcept(
+        __UTL conjunction<__UTL is_nothrow_copy_assignable<Vs>...>::value) = default;
+    __UTL_HIDE_FROM_ABI vertex_space_impl(vertex_space_impl&&) noexcept(
+        __UTL conjunction<__UTL is_nothrow_move_constructible<Vs>...>::value) = default;
+    __UTL_HIDE_FROM_ABI vertex_space_impl& operator=(vertex_space_impl&&) noexcept(
+        __UTL conjunction<__UTL is_nothrow_move_assignable<Vs>...>::value) = default;
+
+    template <size_t I, typename... Args>
+    __UTL_HIDE_FROM_ABI invoke_result_t<base_type<I>, Args...> operator()(
+        size_constant<I>, Args&&... args) const
+        noexcept(UTL_TRAIT_is_nothrow_invocable_r(
+            invoke_result_t<base_type<I>, Args...>, base_type<I>, Args...)) {
+        return __UTL invoke(*static_cast<base_type<I>*>(this), __UTL forward<Args>(args)...);
+    }
 
-#else
+    template <size_t I>
+    __UTL_HIDE_FROM_ABI element_type<I> const& get() const& noexcept {
+        return static_cast<base_type<I> const*>(this)->value();
+    }
 
-template <typename T0, typename T1 UTL_TYPENAME_CXX11(void)>
-struct entrypoint_concat {
-    using type = UTL_SCOPE tuple<>;
-}
+    template <size_t I>
+    __UTL_HIDE_FROM_ABI element_type<I>& get() & noexcept {
+        return static_cast<base_type<I>*>(this)->value();
+    }
 
-template <typename... Ts, typename... Us>
-struct entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...> UTL_REQUIRES_CXX11(
-    UTL_TRAIT_has_member_type(
-        find_entrypoints<Ts...>) && UTL_TRAIT_has_member_type(find_entrypoints<Us...>))> {
-    using type = UTL_SCOPE concat_elements<typename find_entrypoints<Ts...>::type,
-        typename find_entrypoints<Us...>::type>;
-};
+    template <size_t I>
+    __UTL_HIDE_FROM_ABI element_type<I> const&& get() const&& noexcept {
+        return __UTL move(*static_cast<base_type<I> const*>(this)).value();
+    }
 
-template <typename... Ts, typename... Us>
-struct entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...> UTL_REQUIRES_CXX11(
-    UTL_TRAIT_has_member_type(
-        find_entrypoints<Ts...>) && !UTL_TRAIT_has_member_type(find_entrypoints<Us...>))> {
-    using type = typename find_entrypoints<Ts...>::type;
+    template <size_t I>
+    __UTL_HIDE_FROM_ABI element_type<I>&& get() && noexcept {
+        return __UTL move(*static_cast<base_type<I>*>(this)).value();
+    }
 };
+template <typename... Vs>
+using graph_tuple = graph_tuple_impl<index_sequence_for<Vs...>, Vs...>;
 
-template <typename... Ts, typename... Us>
-struct entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...> UTL_REQUIRES_CXX11(
-    !UTL_TRAIT_has_member_type(
-        find_entrypoints<Ts...>) && UTL_TRAIT_has_member_type(find_entrypoints<Us...>))> {
-    using type = typename find_entrypoints<Ts...>::type;
-};
+template <size_t... Is, typename Graph>
+__UTL_HIDE_FROM_ABI graph_tuple<barrier<dependency_count<Is, Graph>::value>...> decl_barriers(
+    index_sequence<Is...>) noexcept;
+} // namespace details
 
-namespace details {
+template <typename... Vs>
+class vertex_space : details::graph_tuple<Vs...> {
+    using base_type UTL_NODEBUG = details::graph_tuple<Vs...>;
 
-template <typename T, typename = void>
-struct find_entrypoints_impl {
-    using type = UTL_SCOPE tuple<>;
+public:
+    using base_type::base_type;
+    using base_type::get;
+    using base_type::operator();
 };
 
-template <typename F, typename... Ts>
-struct find_entrypoints_impl<find_entrypoints<F, Ts...>,
-    UTL_SCOPE enable_if_t<is_executable<F>::value>> :
-    find_entrypoints_impl<find_entrypoints<Ts...>> {};
+template <typename... Vs, size_t... Fs, size_t... Ts>
+class graph<vertex_space<Vs...>, edge<Fs, Ts>...> {
 
-template <typename... Ts, typename... Us>
-struct find_entrypoints_impl<find_entrypoints<group_t<Ts...>, Us...>> :
-    entrypoint_concat<find_entrypoints_impl<Ts...>, find_entrypoints_impl<Us...>> {};
+    static_assert((... && (template_count<edge<Fs, Ts>, type_list<edge<Fs, Ts>...>>::value == 1)),
+        "Non-unique edge detected");
+    using exception_span = __UTL span<__UTL exception_ptr, sizeof...(Vs)>;
 
-template <typename T0, typename T1, typename... Us>
-struct find_entrypoints_impl<find_entrypoints<scatter_t<T0, T1>, Us...>> :
-    entrypoint_concat<find_entrypoints_impl<T0, T1>, find_entrypoints_impl<Us...>> {};
+public:
+    template <typename S>
+    void begin(S& scheduler) {
+        static_assert(is_acyclic<graph>::value, "Cycle detected!");
+        [&]<size_t... Is>(index_sequence<Is...>) { (..., begin<Is>(scheduler)); }(
+            index_sequence_for<Vs...>{});
+    }
 
-template <typename T0, typename... Ts, typename... Us>
-struct find_entrypoints_impl<graph_t<T0, Ts...>, Us...> :
-    UTL_SCOPE concat_elements<UTL_SCOPE tuple<T0&>,
-        typename entrypoint_concat<find_entrypoints<Ts...>, find_entrypoints<Us...>>::type> {};
-} // namespace details
+    __UTL expected<void, exception_span> wait() noexcept UTL_LIFETIMEBOUND {
+        graph_barrier_.wait();
+        return create_result();
+    }
 
-template <typename... Ts>
-struct find_entrypoints<Ts...> : details::find_entrypoints_impl<Ts...> {};
+    template <typename R, typename P>
+    __UTL expected<void, exception_span> wait(std::chrono::duration<R, P> duration) noexcept UTL_LIFETIMEBOUND {
+        graph_barrier_.wait(duration);
+        return create_result();
+    }
 
+#if UTL_WITH_EXCEPTIONS
+    exception_span exceptions() noexcept UTL_LIFETIMEBOUND { return exceptions_; }
+#else
+    exception_span exceptions() noexcept UTL_LIFETIMEBOUND { return {}; }
 #endif
 
+private:
+    __UTL expected<void, exception_span> create_result() noexcept UTL_LIFETIMEBOUND {
+#if UTL_WITH_EXCEPTIONS
+        auto exp_span = exceptions();
+        auto const has_error = __UTL any_of(exp_span.data(), exp_span + exp_span.size(),
+            [](auto const& ptr) { return ptr != nullptr; });
+        if (has_error) {
+            return __UTL unexpected(exp_span);
+        }
+#endif
+
+        return __UTL expected(__UTL in_place);
+    }
+
+private:
+    using vertices = vertex_space<Vs...>;
+    using vertex_barriers = decltype(details::decl_barriers(index_sequence_for<Vs...>{}));
+
+    template <size_t I, typename S>
+    void begin(S& scheduler) {
+        if constexpr (dependency_count<I, graph>::value == 0) {
+            this->schedule<I>(scheduler);
+        }
+    }
+
+    template <size_t I, typename S>
+    void schedule(S& scheduler) {
+        static constexpr size_constant<I> index{};
+        scheduler.schedule([&]() {
+            UTL_TRY {
+                __UTL invoke(vertices_, index);
+                (..., on_complete<I, Fs, Ts>(scheduler));
+                graph_barrier_.arrive(); // noexcept
+            } UTL_CATCH(...) {
+                exceptions_[I] = __UTL current_exception();
+                (..., on_fail<I, Fs, Ts>());
+            }
+        });
+    }
+
+    template <size_t Current, size_t From, size_t To, typename S>
+    void on_complete(S& scheduler) {
+        if constexpr (Current == From) {
+            if (__UTL get_element<To>(vertex_barriers_).arrive()) {
+                this->schedule<To>(scheduler);
+            }
+        }
+    }
+
+    template <size_t Current, size_t From, size_t To>
+    UTL_ATTRIBUTE(FLATTEN) void on_fail() noexcept {
+        if constexpr (Current == From) {
+            graph_barrier_.arrive(); // noexcept
+            (..., on_fail<From, Fs, Ts>());
+        }
+    }
+
+    barrier<sizeof...(Vs)> graph_barrier_;
+#if UTL_WITH_EXCEPTIONS
+    exception_ptr exceptions_[sizeof...(Vs)];
+#endif
+    alignas(64) vertex_space<Vs...> vertices_;
+    alignas(64) vertex_barriers vertex_barriers_;
+};
+} // namespace task_graph
+
 //     A
 //    / \
 //   B   C
@@ -326,19 +529,12 @@ struct find_entrypoints<Ts...> : details::find_entrypoints_impl<Ts...> {};
 //    \ /   / \
 //     J   K   L
 
-// graph<J, group<G,H>, scatter<E, group<D, graph<group<K,L>, I, F>>>, group<B,C>, A>
-// latch<0, 1,                 <2,      <1,      <0,        , 2, 2>>>,      <2,2>  2>
-
 void func(utl::thread_pool<16> pool) {
-    // clang-format off
-    auto subgraph = utl::job::grapher >>
-        utl::job::group([]() { K; }, []() { L; }) >> []() { I; } >> []() { F; };
+    auto vs = make_vertices(A, B, C, D, E, F, G, H, I, J, K, L);
+    auto [a, b, c, d, e, f, g, h, i, j, k, l] = split(vs);
 
-    auto graph = utl::job::grapher >> []() { J; } >>
-        utl::job::group([]() { G; }, []() { H; })
-        >> []() { E; } * utl::job::group([]() { D; }, UTL_SCOPE move(subgraph))
-        >> utl::job::group([]() { B; }, []() { C; }) >> []() { A; };
-    // clang-format on
+    auto graph = make_graph(move(vs), k + l >> i, i >> f, j >> g + h, h >> f, g + h >> e, g >> d,
+        d >> b, e >> b + c, f >> c, b + c >> a);
 
     pool.execute(graph);
 
@@ -365,8 +561,6 @@ void func(utl::thread_pool<16> pool) {
     // dtor of future should call wait
 }
 
-UTL_INLINE_CXX17 constexpr group_t<> grapher = {};
-
 UTL_NAMESPACE_END
 
 // A : B, C
@@ -384,6 +578,3 @@ UTL_NAMESPACE_END
 
 // I : waiting for 2
 // G : waiting for 1
-
-
-*/

From faa2b02415d6d523cd22e6e36a43b1473132413b Mon Sep 17 00:00:00 2001
From: Bryan Wong <wongjengyan@gmail.com>
Date: Wed, 28 Aug 2024 19:05:17 +0900
Subject: [PATCH 6/8] graph

---
 src/experimental/public/thread_pool.h | 127 ++++++++++++++++++++------
 1 file changed, 97 insertions(+), 30 deletions(-)

diff --git a/src/experimental/public/thread_pool.h b/src/experimental/public/thread_pool.h
index 89023338..66800628 100644
--- a/src/experimental/public/thread_pool.h
+++ b/src/experimental/public/thread_pool.h
@@ -358,21 +358,19 @@ class graph_tuple_impl<index_sequence<Is...>, Vs...> : element<Is, Vs>... {
     using element_type UTL_NODEBUG = template_element_t<I, type_list<Vs...>>;
     template <size_t I>
     using base_type UTL_NODEBUG = element<I, element_type<I>>;
-    static constexpr size_t paths =
-        numeric::sum<size_t>((dependency_count<Is, graph>::value == 0)...);
 
 public:
     template <typename... Args>
-    __UTL_HIDE_FROM_ABI explicit vertex_space_impl(Args&&... args) noexcept(
+    __UTL_HIDE_FROM_ABI explicit graph_tuple_impl(Args&&... args) noexcept(
         __UTL conjunction<__UTL is_nothrow_constructible<element<Is, Vs>, Args>...>::value)
         : element<Is, Vs>(__UTL forward<Args>(args))... {}
-    __UTL_HIDE_FROM_ABI vertex_space_impl(vertex_space_impl const&) noexcept(
+    __UTL_HIDE_FROM_ABI graph_tuple_impl(graph_tuple_impl const&) noexcept(
         __UTL conjunction<__UTL is_nothrow_copy_constructible<Vs>...>::value) = default;
-    __UTL_HIDE_FROM_ABI vertex_space_impl& operator=(vertex_space_impl const&) noexcept(
+    __UTL_HIDE_FROM_ABI graph_tuple_impl& operator=(graph_tuple_impl const&) noexcept(
         __UTL conjunction<__UTL is_nothrow_copy_assignable<Vs>...>::value) = default;
-    __UTL_HIDE_FROM_ABI vertex_space_impl(vertex_space_impl&&) noexcept(
+    __UTL_HIDE_FROM_ABI graph_tuple_impl(graph_tuple_impl&&) noexcept(
         __UTL conjunction<__UTL is_nothrow_move_constructible<Vs>...>::value) = default;
-    __UTL_HIDE_FROM_ABI vertex_space_impl& operator=(vertex_space_impl&&) noexcept(
+    __UTL_HIDE_FROM_ABI graph_tuple_impl& operator=(graph_tuple_impl&&) noexcept(
         __UTL conjunction<__UTL is_nothrow_move_assignable<Vs>...>::value) = default;
 
     template <size_t I, typename... Args>
@@ -406,9 +404,66 @@ class graph_tuple_impl<index_sequence<Is...>, Vs...> : element<Is, Vs>... {
 template <typename... Vs>
 using graph_tuple = graph_tuple_impl<index_sequence_for<Vs...>, Vs...>;
 
-template <size_t... Is, typename Graph>
+template <typename Graph>
+struct vertex_sequence_impl;
+template <typename... Vs, typename... Es>
+struct vertex_sequence_impl<graph<vertex_space<Vs...>, Es...>> {
+    using type UTL_NODEBUG = index_sequence_for<Vs...>;
+};
+
+template <typename Graph>
+using vertex_sequence UTL_NODEBUG = typename vertex_sequence_impl<Graph>::type;
+
+template <typename Graph, size_t... Is>
 __UTL_HIDE_FROM_ABI graph_tuple<barrier<dependency_count<Is, Graph>::value>...> decl_barriers(
     index_sequence<Is...>) noexcept;
+
+template <typename Graph, size_t... Is>
+__UTL_HIDE_FROM_ABI index_sequence<(dependency_count<Is, Graph>::value == 0)...> decl_entrymask(
+    index_sequence<Is...>) noexcept;
+
+template <typename Graph>
+using vertex_barriers UTL_NODEBUG = decltype(decl_barriers<Graph>(vertex_sequence<Graph>{}));
+template <typename Graph>
+using entrypoint_mask UTL_NODEBUG = decltype(decl_entrymask<Graph>(vertex_sequence<Graph>{}));
+
+using size_array_t UTL_NODEBUG = size_t[];
+template <size_t I, size_t... Vs>
+struct sum_before;
+template <size_t... Vs>
+struct sum_before<0, Vs...> : size_constant<0> {};
+template <size_t I, size_t... Vs>
+struct sum_before : size_constant<size_array_t{Vs...}[I - 1] + sum_before<I - 1, Vs...>::value> {};
+
+template <size_t... Is, size_t... Ns>
+__UTL_HIDE_FROM_ABI auto exclusive_scan_sequence_impl(index_sequence<Is...>,
+    index_sequence<Ns...>) noexcept -> index_sequence<sum_before<Is, Ns...>::value...>;
+
+template <size_t... Ns>
+using exclusive_scan_for = decltype(exclusive_scan_sequence_impl(
+    make_index_sequence<sizeof...(Ns)>{}, index_sequence<Ns...>{}));
+
+template <size_t... Bs>
+__UTL_HIDE_FROM_ABI auto path_sequence_impl(index_sequence<Bs...>) noexcept
+    -> exclusive_scan_for<Bs...>;
+
+template <typename Graph>
+using path_sequence UTL_NODEBUG = decltype(path_sequence_impl(entrypoint_mask<Graph>{}));
+
+template <size_t I, size_t... BranchIds>
+__UTL_HIDE_FROM_ABI auto path_id_impl(index_sequence<BranchIds...>) noexcept
+    -> size_constant<size_array_t{BranchIds...}[I]>;
+
+template <size_t I, typename Graph>
+using path_id UTL_NODEBUG = decltype(path_id_impl(path_sequence<Graph>{}));
+
+template <typename Graph, size_t... Is>
+__UTL_HIDE_FROM_ABI auto path_count_impl(index_sequence<Is...>) noexcept
+    -> size_constant<numeric::sum<size_t>((dependency_count<Is, Graph>::value == 0)...)>;
+
+template <typename Graph>
+using path_count UTL_NODEBUG = decltype(path_count_impl<Graph>(vertex_sequence<Graph>{}));
+
 } // namespace details
 
 template <typename... Vs>
@@ -426,32 +481,41 @@ class graph<vertex_space<Vs...>, edge<Fs, Ts>...> {
 
     static_assert((... && (template_count<edge<Fs, Ts>, type_list<edge<Fs, Ts>...>>::value == 1)),
         "Non-unique edge detected");
-    using exception_span = __UTL span<__UTL exception_ptr, sizeof...(Vs)>;
+    using exception_span = __UTL span<__UTL exception_ptr, details::path_count<graph>::value>;
 
 public:
     template <typename S>
-    void begin(S& scheduler) {
+    void begin(S& scheduler) UTL_THROWS {
+        UTL_THROW_IF(!is_running(),
+            program_exception(UTL_MESSAGE_FORMAT(
+                "[UTL] task graph intiation error, Reason=[Graph already initiated]")));
+
         static_assert(is_acyclic<graph>::value, "Cycle detected!");
+        for (auto& ptr : exceptions_) {
+            ptr = nullptr;
+        }
         [&]<size_t... Is>(index_sequence<Is...>) { (..., begin<Is>(scheduler)); }(
             index_sequence_for<Vs...>{});
     }
 
     __UTL expected<void, exception_span> wait() noexcept UTL_LIFETIMEBOUND {
-        graph_barrier_.wait();
+        if (is_running()) {
+            graph_barrier_.wait();
+        }
+
         return create_result();
     }
 
     template <typename R, typename P>
     __UTL expected<void, exception_span> wait(std::chrono::duration<R, P> duration) noexcept UTL_LIFETIMEBOUND {
-        graph_barrier_.wait(duration);
+        if (is_running()) {
+            graph_barrier_.wait(duration);
+        }
+
         return create_result();
     }
 
-#if UTL_WITH_EXCEPTIONS
-    exception_span exceptions() noexcept UTL_LIFETIMEBOUND { return exceptions_; }
-#else
-    exception_span exceptions() noexcept UTL_LIFETIMEBOUND { return {}; }
-#endif
+    ~graph() noexcept { wait(); }
 
 private:
     __UTL expected<void, exception_span> create_result() noexcept UTL_LIFETIMEBOUND {
@@ -468,36 +532,39 @@ class graph<vertex_space<Vs...>, edge<Fs, Ts>...> {
     }
 
 private:
-    using vertices = vertex_space<Vs...>;
-    using vertex_barriers = decltype(details::decl_barriers(index_sequence_for<Vs...>{}));
+    using graph_barrier UTL_NODEBUG = barrier<sizeof...(Vs)>;
+    using vertices UTL_NODEBUG = vertex_space<Vs...>;
+    using vertex_barriers UTL_NODEBUG = details::vertex_barriers<graph>;
+    using exception_array UTL_NODEBUG = exception_ptr[details::path_count<graph>::value];
 
     template <size_t I, typename S>
     void begin(S& scheduler) {
+        static constexpr details::path_id<I, graph> path{};
         if constexpr (dependency_count<I, graph>::value == 0) {
-            this->schedule<I>(scheduler);
+            this->schedule<I>(path, scheduler);
         }
     }
 
-    template <size_t I, typename S>
-    void schedule(S& scheduler) {
+    template <size_t I, size_t B, typename S>
+    void schedule(size_constant<B> path, S& scheduler) {
         static constexpr size_constant<I> index{};
         scheduler.schedule([&]() {
             UTL_TRY {
                 __UTL invoke(vertices_, index);
-                (..., on_complete<I, Fs, Ts>(scheduler));
+                (..., on_complete<I, Fs, Ts>(path, scheduler));
                 graph_barrier_.arrive(); // noexcept
             } UTL_CATCH(...) {
-                exceptions_[I] = __UTL current_exception();
+                exceptions_[path] = __UTL current_exception();
                 (..., on_fail<I, Fs, Ts>());
             }
         });
     }
 
-    template <size_t Current, size_t From, size_t To, typename S>
-    void on_complete(S& scheduler) {
+    template <size_t Current, size_t From, size_t To, size_t B, typename S>
+    void on_complete(size_constant<B> path, S& scheduler) {
         if constexpr (Current == From) {
             if (__UTL get_element<To>(vertex_barriers_).arrive()) {
-                this->schedule<To>(scheduler);
+                this->schedule<To>(path, scheduler);
             }
         }
     }
@@ -510,11 +577,11 @@ class graph<vertex_space<Vs...>, edge<Fs, Ts>...> {
         }
     }
 
-    barrier<sizeof...(Vs)> graph_barrier_;
 #if UTL_WITH_EXCEPTIONS
-    exception_ptr exceptions_[sizeof...(Vs)];
+    exception_array exceptions_ = {};
 #endif
-    alignas(64) vertex_space<Vs...> vertices_;
+    graph_barrier graph_barrier_;
+    alignas(64) vertices vertices_;
     alignas(64) vertex_barriers vertex_barriers_;
 };
 } // namespace task_graph

From f7c9b215394bf0180e88b5e7b946ae838040c315 Mon Sep 17 00:00:00 2001
From: Bryan Wong <wongjengyan@gmail.com>
Date: Tue, 24 Sep 2024 13:50:29 +0900
Subject: [PATCH 7/8] delete files

---
 src/experimental/public/job_handle.h  | 282 --------------------------
 src/experimental/public/latch.h       |  75 -------
 src/experimental/public/semaphore.h   | 106 ----------
 src/experimental/public/thread_pool.h |   2 +
 4 files changed, 2 insertions(+), 463 deletions(-)
 delete mode 100644 src/experimental/public/job_handle.h
 delete mode 100644 src/experimental/public/latch.h
 delete mode 100644 src/experimental/public/semaphore.h

diff --git a/src/experimental/public/job_handle.h b/src/experimental/public/job_handle.h
deleted file mode 100644
index ba82f5d9..00000000
--- a/src/experimental/public/job_handle.h
+++ /dev/null
@@ -1,282 +0,0 @@
-
-
-namespace utl::experimental {
-namespace details::thread_pool {
-class group_tag;
-class dependency_tag;
-
-template <typename T, typename Tag>
-class job_node : private UTL_SCOPE intrusive::bidirectional_node<job_node<T, Tag>> {
-public:
-    using bidirectional_node::linked;
-
-    friend constexpr T* node_cast(job_node* node) {
-        static_assert(UTL_SCOPE is_base_of<job_node, T>::value);
-        return (T*)node;
-    }
-
-    friend constexpr T& node_cast(job_node& node) {
-        static_assert(UTL_SCOPE is_base_of<job_node, T>::value);
-        return (T&)(node);
-    }
-};
-
-template <typename To, typename From, typename T>
-job_node<T, To>* node_cast(job_node<T, From>* other) noexcept {
-    static_assert(UTL_SCOPE is_base_of<job_node<T, To>, T>::value);
-    return (job_node<T, To>*)node_cast(other);
-}
-
-template <typename To, typename From, typename T>
-job_node<To>& node_cast(job_node<From>& other) noexcept {
-    static_assert(UTL_SCOPE is_base_of<job_node<T, To>, T>::value);
-    return (job_node<T, To>&)node_cast(other);
-}
-
-template <typename To, typename T>
-job_node<T, To>* node_cast(T* other) noexcept {
-    static_assert(UTL_SCOPE is_base_of<job_node<T, To>, T>::value);
-    return (job_node<T, To>*)other;
-}
-
-template <typename To, typename From>
-job_node<T, To>& node_cast(job_executable& other) noexcept {
-    static_assert(UTL_SCOPE is_base_of<job_node<T, To>, T>::value);
-    return (job_node<T, To>&)other;
-}
-
-template <typename T>
-using group_node = job_node<T, group_tag>;
-template <typename T>
-using dependency_node = job_node<T, dependency_tag>;
-
-class job_executable : group_node<job_executable>, dependency_node<job_executable> {
-public:
-    virtual size_t size() const noexcept = 0;
-    virtual void execute(size_t thread_idx, size_t job_idx) = 0;
-    virtual ~job_executable() noexcept = default;
-};
-
-template <typename F>
-class single_executor : public job_executable {
-public:
-    template <typename... Args, UTL_SCOPE enable_if_t<UTL_SCOPE is_constructible_v<F, Args...>>>
-    single_executor(Args&&... args) noexcept(UTL_SCOPE is_nothrow_constructible_v<F, Args...>)
-        : callable_(UTL_SCOPE forward<Args>(args)...) {}
-
-private:
-    UTL_CONSTEXPR_CXX20 size_t size() const noexcept final { return 1; }
-    void execute(size_t thread_idx, size_t job_idx) final { callable_(); }
-    UTL_ATTRIBUTE(NO_UNIQUE_ADDRESS) F callable_;
-};
-
-template <typename... Fs>
-class multi_executor : public job_executable {
-public:
-    template <typename... Args, UTL_SCOPE enable_if_t<UTL_SCOPE is_constructible_v<F, Args...>>>
-    multi_executor(Args&&... args) noexcept(UTL_SCOPE is_nothrow_constructible_v<F, Args...>)
-        : callables_(UTL_SCOPE forward<Args>(args)...) {}
-
-private:
-    UTL_CONSTEXPR_CXX20 size_t size() const noexcept final { return sizeof...(Fs); }
-
-    template <size_t I>
-    void execute() {
-        UTL_SCOPE get<I>(callables_)();
-    }
-
-    template <size_t... Is>
-    void execute(size_t job_idx, UTL_SCOPE index_sequence<Is...>) {
-        static_assert(
-            UTL_SCOPE
-                is_same_v<UTL_SCOPE index_sequence<Is...>, UTL_SCOPE index_sequence_for<Fs...>>,
-            "");
-        UTL_ASSERT(job_idx < sizeof...(Is));
-        static constexpr auto vtable[] = {&multi_executor::execute<Is>...};
-        (this->*vtable[job_idx])();
-    }
-
-    void execute(size_t, size_t job_idx) final {
-        static constexpr UTL_SCOPE index_sequence_for<Fs...> sequence = {};
-        execute(job_idx, sequence);
-    }
-
-    UTL_ATTRIBUTE(NO_UNIQUE_ADDRESS) UTL_SCOPE tuple<Fs...> callables_;
-};
-
-template <typename F>
-class parallel_executor : public job_executable {
-public:
-    template <typename... Args, UTL_SCOPE enable_if_t<UTL_SCOPE is_constructible_v<F, Args...>>>
-    parallel_executor(size_t size, Args&&... args) noexcept(
-        UTL_SCOPE is_nothrow_constructible_v<F, Args...>)
-        : callable_(UTL_SCOPE forward<Args>(args)...)
-        , size_(size) {}
-
-private:
-    size_t size() const noexcept final { return size_; }
-    void execute(size_t thread_idx, size_t job_idx) final { callable_(thread_idx, job_idx); }
-
-    UTL_ATTRIBUTE(NO_UNIQUE_ADDRESS) F callable_;
-    size_t size_;
-};
-
-} // namespace details::thread_pool
-
-class job_handle {
-    template <size_t I, typename T>
-    using type_for = T;
-    using job_executable = details::thread_pool::job_executable;
-    template <typename Tag>
-    using node_type = job_node<details::thread_pool::job_executable, Tag>;
-
-public:
-    template <typename... Jobs>
-    [[nodiscard]] static job_handle combine(job_handle&& first, Jobs&&... jobs) {
-        static constexpr UTL_SCOPE make_index_sequence<sizeof...(Jobs) + 1> sequence = {};
-        static_assert(sizeof...(Jobs) > 0);
-        static_assert(!(... || UTL_SCOPE is_reference_v<Jobs>));
-        static_assert((... && UTL_SCOPE is_convertible_v<Jobs&, job_handle&>));
-        return (move(first) + ... + move(jobs));
-    }
-
-    job_handle() noexcept = default;
-    template <UTL_CONCEPT_CXX20(invocable) F UTL_REQUIRES_CXX11(UTL_TRAIT_is_invocable(F))>
-    explicit job_handle(F&& callable)
-        : job_(new details::thread_pool::single_executor<UTL_SCOPE decay_t<F>>(
-              UTL_SCOPE forward<F>(callable))) {}
-    template <UTL_CONCEPT_CXX20(invocable)... Fs UTL_REQUIRES_CXX11(
-        sizeof...(Fs) > 1 && UTL_SCOPE conjunction<UTL_SCOPE is_invocable<Fs>...>::value)>
-    explicit job_handle(Fs&&... callables)
-        : job_(new details::thread_pool::multi_executor<UTL_SCOPE decay_t<Fs>...>(
-              UTL_SCOPE forward<Fs>(callables)...)) {}
-    template <UTL_CONCEPT_CXX20(invocable<size_t, size_t>) F UTL_REQUIRES_CXX11(
-        UTL_TRAIT_is_invocable(F, size_t, size_t))>
-    explicit job_handle(size_t size, F&& callable)
-        : job_(new details::thread_pool::parallel_executor<UTL_SCOPE decay_t<F>>(
-              size, UTL_SCOPE forward<F>(callable))) {}
-
-    template <UTL_CONCEPT_CXX20(invocable) F UTL_REQUIRES_CXX11(UTL_TRAIT_is_invocable(F))>
-    explicit job_handle(job_handle&& dependency, F&& callable)
-        : job_((job_handle(UTL_SCOPE forward<F>(callable)) << UTL_SCOPE move(dependency))) {
-        *this = (UTL_SCOPE move(*this) << UTL_SCOPE move(dependency));
-    }
-    template <UTL_CONCEPT_CXX20(invocable)... Fs UTL_REQUIRES_CXX11(
-        sizeof...(Fs) > 1 && UTL_SCOPE conjunction<UTL_SCOPE is_invocable<Fs>...>::value)>
-    explicit job_handle(job_handle&& dependency, Fs&&... callables)
-        : job_((job_handle(size, UTL_SCOPE forward<Fs>(callable)...)
-              << UTL_SCOPE move(dependency))) {}
-    template <UTL_CONCEPT_CXX20(invocable<size_t, size_t>) F UTL_REQUIRES_CXX11(
-        UTL_TRAIT_is_invocable(F, size_t, size_t))>
-    explicit job_handle(job_handle&& dependency, size_t size, F&& callable)
-        : job_handle(
-              (job_handle(size, UTL_SCOPE forward<F>(callable)) << UTL_SCOPE move(dependency))) {}
-
-    job_handle(job_handle const&) = delete;
-    job_handle& operator=(job_handle const&) = delete;
-    job_handle(job_handle&& other) noexcept : job_(UTL_SCOPE exchange(other.job_, nullptr)) {}
-    job_handle& operator=(job_handle&& other) noexcept {
-        auto to_delete = UTL_SCOPE exchange(job_, UTL_SCOPE exchange(other.job_, nullptr));
-        destroy();
-    }
-
-    ~job_handle() noexcept { destroy(); }
-
-    [[nodiscard]] explicit operator bool() const noexcept { return to_delete != nullptr; }
-
-private:
-    explicit job_handle(job_executable* job) noexcept : job_(job) {}
-
-    template <typename T>
-    static constexpr void splice_back(node_type<T>* list, node_type<T>* list2) noexcept {
-        auto head2 = list2;
-        auto tail2 = get_prev(*list2);
-        auto tail = get_prev(*list);
-        set_next(*tail2, list);
-        set_prev(*head2, tail);
-        set_prev(*list, tail2);
-        set_next(*tail, head2);
-    }
-
-    static constexpr void destroy(dependency_node* ptr) noexcept {
-        dependency_node* const origin = ptr;
-        do {
-            auto next = get_next(*ptr);
-
-            auto const group = node_cast<group_tag>(ptr);
-            for (auto c = get_next(*group); c != group; c = get_next(*c)) {
-                splice_back(origin, node_cast<dependency_tag>(c));
-            }
-
-            delete ptr;
-            ptr = next;
-        } while (origin != ptr);
-    }
-
-    void destroy() noexcept {
-        auto ptr = UTL_SCOPE exchange(job_, nullptr);
-        if (ptr != nullptr) {
-            destroy(ptr);
-        }
-    }
-
-    template <typename Tag>
-    node_type<Tag>* get() const noexcept {
-        return node_cast<Tag>(job_);
-    }
-
-    template <typename Tag>
-    node_type<Tag>* release() noexcept {
-        return node_cast<Tag>(UTL_SCOPE exchange(job_, nullptr));
-    }
-
-    [[nodiscard]] friend job_handle operator+(job_handle&& left, job_handle&& right) UTL_THROWS {
-        auto left_ptr = left.release<group_tag>();
-        auto right_ptr = right.release<group_tag>();
-        if (left_ptr == nullptr) {
-            return {right_ptr};
-        }
-        if (right_ptr == nullptr) {
-            return {left_ptr};
-        }
-
-        splice_back(left_ptr, right_ptr);
-        return {left_ptr};
-    }
-
-    friend job_handle& operator+=(job_handle& left, job_handle&& other) UTL_THROWS {
-        return left = UTL_SCOPE move(left) + UTL_SCOPE move(other);
-    }
-
-    [[nodiscard]] friend job_handle operator>>(
-        job_handle&& upstream, job_handle&& downstream) UTL_THROWS {
-        return move(downstream) << move(upstream);
-    }
-
-    [[nodiscard]] friend job_handle operator<<(
-        job_handle&& dependent, job_handle&& dependency) UTL_THROWS {
-
-        auto downstream = dependent.release<dependency_tag>();
-        auto upstream = dependency.release<dependency_tag>();
-        if (downstream == nullptr) {
-            return job_handle{node_cast(upstream)};
-        }
-        if (upstream == nullptr) {
-            return job_handle{node_cast(downstream)};
-        }
-
-        auto downstream_previous = get_previous(*downstream);
-        bool const has_dependencies_already = downstream_previous != downstream;
-        if (has_dependencies_already) {
-            splice_back(node_cast<group_tag>(downstream_previous), node_cast<group_tag>(upstream));
-        } else {
-            splice_back(upstream, downstream);
-        }
-
-        return job_handle{downstream};
-    }
-
-    job_executable* job_;
-};
-
-} // namespace utl::experimental
diff --git a/src/experimental/public/latch.h b/src/experimental/public/latch.h
deleted file mode 100644
index 7824421c..00000000
--- a/src/experimental/public/latch.h
+++ /dev/null
@@ -1,75 +0,0 @@
-#pragma once
-#include "gcc/atomics.h"
-#include "posix/futex.h"
-#include "utl_config.h"
-
-#include <atomic>
-
-namespace utl::experimental {
-
-class latch {
-    static [[noreturn]] void throw_system_error(posix::result r) {
-        char error_msg[1024];
-        sprintf(error_msg, "Internal latch error: %s", posix::to_string(r));
-        throw std::system_error(error_msg);
-    }
-
-public:
-    explicit latch(int32_t n) : remaining_(n) {}
-    latch(latch const&) = delete;
-    latch& operator=(latch const&) = delete;
-
-    template <typename R, typename P>
-    bool wait_for(std::chrono::duration<R, P> d) {
-        int32_t val = gcc::atomic_load(remaining_, std::memory_order_relaxed);
-        while (val > 0) {
-            auto const begin = std::chrono::high_resolution_clock::now();
-            auto const r = posix::futex_wait(remaining_, &val, d);
-            if (r == posix::result::success || r == posix::result::timeout) {
-                return r == posix::result::success;
-            }
-
-            if (r == posix::result::interrupted) {
-                using clock_duration = decltype(std::chrono::high_resolution_clock::now() - begin);
-                auto const min_val = std::min<std::common_type_t<clock_duration, decltype(d)>>(
-                    (std::chrono::high_resolution_clock::now() - begin), d);
-
-                d -= min_val;
-                continue;
-            }
-
-            throw_system_error(r);
-        }
-    }
-
-    void wait() {
-        int32_t val = gcc::atomic_load(remaining_, std::memory_order_relaxed);
-        while (val > 0) {
-            auto const r = posix::futex_wait(remaining_, &val);
-            if (r == posix::result::success) {
-                return;
-            }
-            if (r == posix::result::interrupted) {
-                continue;
-            }
-
-            throw_system_error(r);
-        }
-    }
-
-    void count_down(uint32_t n = 1) {
-        int32_t val = gcc::atomic_fetch_sub(remaining_, n, std::memory_order_acq_rel);
-        if (val <= n) {
-            posix::futex_notify_all(remaining_);
-        }
-    }
-
-    bool try_wait() const noexcept {
-        return gcc::atomic_load(&remaining_, std::memory_order_relaxed) <= 0;
-    }
-
-private:
-    uint32_t remaining_;
-};
-
-} // namespace utl::experimental
diff --git a/src/experimental/public/semaphore.h b/src/experimental/public/semaphore.h
deleted file mode 100644
index a6546f81..00000000
--- a/src/experimental/public/semaphore.h
+++ /dev/null
@@ -1,106 +0,0 @@
-#pragma once
-#include "gcc/atomics.h"
-#include "posix/futex.h"
-#include "utl_config.h"
-
-#include <atomic>
-
-namespace utl::experimental {
-
-class semaphore {
-    static [[noreturn]] void throw_system_error(posix::result r) {
-        char error_msg[1024];
-        sprintf(error_msg, "Internal semaphore error: %s", posix::to_string(r));
-        throw std::system_error(error_msg);
-    }
-
-public:
-    explicit semaphore(int32_t n) : current_(n) {}
-    semaphore(semaphore const&) = delete;
-    semaphore& operator=(semaphore const&) = delete;
-
-    template <typename R, typename P>
-    bool wait_for(std::chrono::duration<R, P> d) {
-        uint32_t val = gcc::atomic_load(remaining_, std::memory_order_relaxed);
-        if (val > 0 && try_decrease(&val)) {
-            return true;
-        }
-
-        do {
-            auto const begin = std::chrono::high_resolution_clock::now();
-
-            UTL_ON_SCOPE_EXIT {
-                using clock_duration = decltype(std::chrono::high_resolution_clock::now() - begin);
-                auto const min_val = std::min<std::common_type_t<clock_duration, decltype(d)>>(
-                    (std::chrono::high_resolution_clock::now() - begin), d);
-
-                d -= min_val;
-            };
-
-            auto const r = posix::futex_wait(current_, &val, d);
-            if (r == posix::result::success) {
-                if (try_decrease(&val)) {
-                    return true;
-                }
-
-                continue;
-            }
-
-            if (r == posix::result::timeout) {
-                return false;
-            }
-            if (r == posix::result::interrupted) {
-                continue;
-            }
-
-            throw_system_error(r);
-        } while (val == 0);
-    }
-
-    void wait() {
-        int32_t val = 0;
-        while (val == 0) {
-            auto const r = posix::futex_wait(current_, &val, d);
-            if (r == posix::result::success) {
-                if (try_decrease(&val)) {
-                    return;
-                }
-
-                continue;
-            }
-
-            if (r == posix::result::interrupted) {
-                continue;
-            }
-
-            throw_system_error(r);
-        }
-    }
-
-    void signal() {
-        gcc::atomic_fetch_add(current_, 1, std::memory_order_acq_rel);
-        posix::futex_notify_one(current_);
-    }
-
-private:
-    bool try_decrease(uint32_t* current_val) {
-        auto& val = *current_val;
-        auto new_val = val - 1;
-        while (!gcc::compare_exchange(
-            current_, &val, new_val, std::memory_order_release, std::memory_order_relaxed)) {
-
-            if (val == 0) {
-                return false;
-            }
-
-            new_val = val - 1;
-        }
-
-        gcc::atomic_thread_fence(std::memory_order_acquire);
-        return true;
-    }
-
-    uint32_t current_;
-};
-
-} // namespace utl::experimental
diff --git a/src/experimental/public/thread_pool.h b/src/experimental/public/thread_pool.h
index 66800628..60efff77 100644
--- a/src/experimental/public/thread_pool.h
+++ b/src/experimental/public/thread_pool.h
@@ -13,6 +13,8 @@
 // todo intrusive_ptr
 // todo atomic_reference_counter
 
+// See https://godbolt.org/z/hWY84489E for test
+
 UTL_NAMESPACE_BEGIN
 
 //     A

From c11eecacece6bf691f7c5121cec98bbef86369ba Mon Sep 17 00:00:00 2001
From: Bryan Wong <45245062+code-overseer@users.noreply.github.com>
Date: Thu, 20 Feb 2025 21:35:00 +0900
Subject: [PATCH 8/8] Update C++11 demo

---
 src/experimental/public/thread_pool.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/experimental/public/thread_pool.h b/src/experimental/public/thread_pool.h
index 60efff77..e1d95e79 100644
--- a/src/experimental/public/thread_pool.h
+++ b/src/experimental/public/thread_pool.h
@@ -166,7 +166,7 @@ struct vertex_group<vertex_space<Vs...>, Is...> {
     }
 };
 
-// https://godbolt.org/z/34ac46bqr (C++11)
+// https://godbolt.org/z/18zE4dvvs (C++11)
 // https://godbolt.org/z/x51Mf41q7 (C++14)
 
 namespace details {