drivenets
diff --git a/‎aiter/configs/a8w8_bpreshuffle_tuned_gemm.csv.backup‎
Lines changed: 1587 additions & 0 deletions b/‎aiter/configs/a8w8_bpreshuffle_tuned_gemm.csv.backup‎
Lines changed: 1587 additions & 0 deletions
diff --git a/‎aiter/configs/a8w8_bpreshuffle_tuned_gemm.csv.backup_20251117_171633‎
Lines changed: 14087 additions & 0 deletions b/‎aiter/configs/a8w8_bpreshuffle_tuned_gemm.csv.backup_20251117_171633‎
Lines changed: 14087 additions & 0 deletions
diff --git a/‎aiter/configs/a8w8_bpreshuffle_tuned_gemm.csv.backup_20251117_171638‎
Lines changed: 14087 additions & 0 deletions b/‎aiter/configs/a8w8_bpreshuffle_tuned_gemm.csv.backup_20251117_171638‎
Lines changed: 14087 additions & 0 deletions
diff --git a/‎aiter/configs/a8w8_bpreshuffle_tuned_gemm.csv.pre_tp4‎
Lines changed: 675 additions & 0 deletions b/‎aiter/configs/a8w8_bpreshuffle_tuned_gemm.csv.pre_tp4‎
Lines changed: 675 additions & 0 deletions
diff --git a/‎csrc/ck_gemm_a8w8_bpreshuffle/impl/a8w8_bpreshuffle_128x16x32x128_16x16_16x16_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2.cuh‎
Lines changed: 72 additions & 0 deletions b/‎csrc/ck_gemm_a8w8_bpreshuffle/impl/a8w8_bpreshuffle_128x16x32x128_16x16_16x16_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2.cuh‎
Lines changed: 72 additions & 0 deletions
diff --git a/‎csrc/ck_gemm_a8w8_bpreshuffle/impl/a8w8_bpreshuffle_128x16x32x512_16x16_16x16_32x4x1_32x4x1_1x16x1x8_4x4x1_1x1_intrawave_v2.cuh‎
Lines changed: 72 additions & 0 deletions b/‎csrc/ck_gemm_a8w8_bpreshuffle/impl/a8w8_bpreshuffle_128x16x32x512_16x16_16x16_32x4x1_32x4x1_1x16x1x8_4x4x1_1x1_intrawave_v2.cuh‎
Lines changed: 72 additions & 0 deletions
diff --git a/‎csrc/ck_gemm_a8w8_bpreshuffle/impl/a8w8_bpreshuffle_128x32x16x512_16x16_16x16_32x4x1_32x4x1_1x32x1x4_4x4x1_1x1_intrawave_v1.cuh‎
Lines changed: 72 additions & 0 deletions b/‎csrc/ck_gemm_a8w8_bpreshuffle/impl/a8w8_bpreshuffle_128x32x16x512_16x16_16x16_32x4x1_32x4x1_1x32x1x4_4x4x1_1x1_intrawave_v1.cuh‎
Lines changed: 72 additions & 0 deletions
diff --git a/‎csrc/ck_gemm_a8w8_bpreshuffle/impl/a8w8_bpreshuffle_128x32x16x512_16x16_16x16_32x4x1_32x4x1_1x32x1x4_4x4x1_1x1_intrawave_v2.cuh‎
Lines changed: 72 additions & 0 deletions b/‎csrc/ck_gemm_a8w8_bpreshuffle/impl/a8w8_bpreshuffle_128x32x16x512_16x16_16x16_32x4x1_32x4x1_1x32x1x4_4x4x1_1x1_intrawave_v2.cuh‎
Lines changed: 72 additions & 0 deletions
diff --git a/‎csrc/ck_gemm_a8w8_bpreshuffle/impl/a8w8_bpreshuffle_256x112x128x256_16x16_16x16_16x16x1_16x16x1_1x16x1x16_8x8x1_1x2_intrawave_v3.cuh‎
Lines changed: 72 additions & 0 deletions b/‎csrc/ck_gemm_a8w8_bpreshuffle/impl/a8w8_bpreshuffle_256x112x128x256_16x16_16x16_16x16x1_16x16x1_1x16x1x16_8x8x1_1x2_intrawave_v3.cuh‎
Lines changed: 72 additions & 0 deletions
@@ -0,0 +1,72 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+
+#include "gemm_a8w8_bpreshuffle_common.cuh"
+
+template <typename DDataType, typename EDataType>
+torch::Tensor
+a8w8_bpreshuffle_128x16x32x128_16x16_16x16_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2(
+    torch::Tensor &XQ,
+    torch::Tensor &WQ,
+    torch::Tensor &x_scale,
+    torch::Tensor &w_scale,
+    torch::Tensor &Y
+    )
+{
+    // The smallest kernel we have available. Works well for memory bound shapes.
+
+    // Check if this input needs to be padded.
+    int M = size_to_dim_(XQ.dim() - 1, XQ.sizes());
+    int N = WQ.size(0);
+    int K = WQ.size(1);
+    bool pad = (M % 16 != 0) || (N % 32 != 0) || (K % (128) != 0);
+    if (pad)
+    {
+        // pad
+        using DeviceGemmInstance = DeviceGemmHelperF8Flatmm<
+            DDataType, EDataType,
+            128,
+            16, 32, 128,
+            16, 16,
+            16, 16,
+            1, 1,
+            S<8, 16, 1>,
+            S<8, 16, 1>,
+            1,
+            1,
+            S<1, 16, 1, 8>,
+            S<4, 4, 1>,
+            ck::BlockGemmPipelineScheduler::Intrawave,
+            ck::BlockGemmPipelineVersion::v2,
+            ck::tensor_operation::device::GemmSpecialization::MNKPadding>;
+        // Run kernel instance.
+        return gemm_a8w8_bpreshuffle_impl<DDataType, EDataType, DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+        // pad
+    }
+    else
+    {
+        // no pad
+        using DeviceGemmInstance = DeviceGemmHelperF8Flatmm<
+            DDataType, EDataType,
+            128,
+            16, 32, 128,
+            16, 16,
+            16, 16,
+            1, 1,
+            S<8, 16, 1>,
+            S<8, 16, 1>,
+            1,
+            1,
+            S<1, 16, 1, 8>,
+            S<4, 4, 1>,
+            ck::BlockGemmPipelineScheduler::Intrawave,
+            ck::BlockGemmPipelineVersion::v2,
+            ck::tensor_operation::device::GemmSpecialization::Default>;
+        // Run kernel instance.
+        return gemm_a8w8_bpreshuffle_impl<DDataType, EDataType, DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+        // no pad
+    }
+}
+
@@ -0,0 +1,72 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+
+#include "gemm_a8w8_bpreshuffle_common.cuh"
+
+template <typename DDataType, typename EDataType>
+torch::Tensor
+a8w8_bpreshuffle_128x16x32x512_16x16_16x16_32x4x1_32x4x1_1x16x1x8_4x4x1_1x1_intrawave_v2(
+    torch::Tensor &XQ,
+    torch::Tensor &WQ,
+    torch::Tensor &x_scale,
+    torch::Tensor &w_scale,
+    torch::Tensor &Y
+    )
+{
+    // The smallest kernel we have available. Works well for memory bound shapes.
+
+    // Check if this input needs to be padded.
+    int M = size_to_dim_(XQ.dim() - 1, XQ.sizes());
+    int N = WQ.size(0);
+    int K = WQ.size(1);
+    bool pad = (M % 16 != 0) || (N % 32 != 0) || (K % (512) != 0);
+    if (pad)
+    {
+        // pad
+        using DeviceGemmInstance = DeviceGemmHelperF8Flatmm<
+            DDataType, EDataType,
+            128,
+            16, 32, 512,
+            16, 16,
+            16, 16,
+            1, 1,
+            S<32, 4, 1>,
+            S<32, 4, 1>,
+            1,
+            1,
+            S<1, 16, 1, 8>,
+            S<4, 4, 1>,
+            ck::BlockGemmPipelineScheduler::Intrawave,
+            ck::BlockGemmPipelineVersion::v2,
+            ck::tensor_operation::device::GemmSpecialization::MNKPadding>;
+        // Run kernel instance.
+        return gemm_a8w8_bpreshuffle_impl<DDataType, EDataType, DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+        // pad
+    }
+    else
+    {
+        // no pad
+        using DeviceGemmInstance = DeviceGemmHelperF8Flatmm<
+            DDataType, EDataType,
+            128,
+            16, 32, 512,
+            16, 16,
+            16, 16,
+            1, 1,
+            S<32, 4, 1>,
+            S<32, 4, 1>,
+            1,
+            1,
+            S<1, 16, 1, 8>,
+            S<4, 4, 1>,
+            ck::BlockGemmPipelineScheduler::Intrawave,
+            ck::BlockGemmPipelineVersion::v2,
+            ck::tensor_operation::device::GemmSpecialization::Default>;
+        // Run kernel instance.
+        return gemm_a8w8_bpreshuffle_impl<DDataType, EDataType, DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+        // no pad
+    }
+}
+
@@ -0,0 +1,72 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+
+#include "gemm_a8w8_bpreshuffle_common.cuh"
+
+template <typename DDataType, typename EDataType>
+torch::Tensor
+a8w8_bpreshuffle_128x32x16x512_16x16_16x16_32x4x1_32x4x1_1x32x1x4_4x4x1_1x1_intrawave_v1(
+    torch::Tensor &XQ,
+    torch::Tensor &WQ,
+    torch::Tensor &x_scale,
+    torch::Tensor &w_scale,
+    torch::Tensor &Y
+    )
+{
+    // The smallest kernel we have available. Works well for memory bound shapes.
+
+    // Check if this input needs to be padded.
+    int M = size_to_dim_(XQ.dim() - 1, XQ.sizes());
+    int N = WQ.size(0);
+    int K = WQ.size(1);
+    bool pad = (M % 32 != 0) || (N % 16 != 0) || (K % (512) != 0);
+    if (pad)
+    {
+        // pad
+        using DeviceGemmInstance = DeviceGemmHelperF8Flatmm<
+            DDataType, EDataType,
+            128,
+            32, 16, 512,
+            16, 16,
+            16, 16,
+            1, 1,
+            S<32, 4, 1>,
+            S<32, 4, 1>,
+            1,
+            1,
+            S<1, 32, 1, 4>,
+            S<4, 4, 1>,
+            ck::BlockGemmPipelineScheduler::Intrawave,
+            ck::BlockGemmPipelineVersion::v1,
+            ck::tensor_operation::device::GemmSpecialization::MNKPadding>;
+        // Run kernel instance.
+        return gemm_a8w8_bpreshuffle_impl<DDataType, EDataType, DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+        // pad
+    }
+    else
+    {
+        // no pad
+        using DeviceGemmInstance = DeviceGemmHelperF8Flatmm<
+            DDataType, EDataType,
+            128,
+            32, 16, 512,
+            16, 16,
+            16, 16,
+            1, 1,
+            S<32, 4, 1>,
+            S<32, 4, 1>,
+            1,
+            1,
+            S<1, 32, 1, 4>,
+            S<4, 4, 1>,
+            ck::BlockGemmPipelineScheduler::Intrawave,
+            ck::BlockGemmPipelineVersion::v1,
+            ck::tensor_operation::device::GemmSpecialization::Default>;
+        // Run kernel instance.
+        return gemm_a8w8_bpreshuffle_impl<DDataType, EDataType, DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+        // no pad
+    }
+}
+
@@ -0,0 +1,72 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+
+#include "gemm_a8w8_bpreshuffle_common.cuh"
+
+template <typename DDataType, typename EDataType>
+torch::Tensor
+a8w8_bpreshuffle_128x32x16x512_16x16_16x16_32x4x1_32x4x1_1x32x1x4_4x4x1_1x1_intrawave_v2(
+    torch::Tensor &XQ,
+    torch::Tensor &WQ,
+    torch::Tensor &x_scale,
+    torch::Tensor &w_scale,
+    torch::Tensor &Y
+    )
+{
+    // The smallest kernel we have available. Works well for memory bound shapes.
+
+    // Check if this input needs to be padded.
+    int M = size_to_dim_(XQ.dim() - 1, XQ.sizes());
+    int N = WQ.size(0);
+    int K = WQ.size(1);
+    bool pad = (M % 32 != 0) || (N % 16 != 0) || (K % (512) != 0);
+    if (pad)
+    {
+        // pad
+        using DeviceGemmInstance = DeviceGemmHelperF8Flatmm<
+            DDataType, EDataType,
+            128,
+            32, 16, 512,
+            16, 16,
+            16, 16,
+            1, 1,
+            S<32, 4, 1>,
+            S<32, 4, 1>,
+            1,
+            1,
+            S<1, 32, 1, 4>,
+            S<4, 4, 1>,
+            ck::BlockGemmPipelineScheduler::Intrawave,
+            ck::BlockGemmPipelineVersion::v2,
+            ck::tensor_operation::device::GemmSpecialization::MNKPadding>;
+        // Run kernel instance.
+        return gemm_a8w8_bpreshuffle_impl<DDataType, EDataType, DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+        // pad
+    }
+    else
+    {
+        // no pad
+        using DeviceGemmInstance = DeviceGemmHelperF8Flatmm<
+            DDataType, EDataType,
+            128,
+            32, 16, 512,
+            16, 16,
+            16, 16,
+            1, 1,
+            S<32, 4, 1>,
+            S<32, 4, 1>,
+            1,
+            1,
+            S<1, 32, 1, 4>,
+            S<4, 4, 1>,
+            ck::BlockGemmPipelineScheduler::Intrawave,
+            ck::BlockGemmPipelineVersion::v2,
+            ck::tensor_operation::device::GemmSpecialization::Default>;
+        // Run kernel instance.
+        return gemm_a8w8_bpreshuffle_impl<DDataType, EDataType, DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+        // no pad
+    }
+}
+
@@ -0,0 +1,72 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+
+#include "gemm_a8w8_bpreshuffle_common.cuh"
+
+template <typename DDataType, typename EDataType>
+torch::Tensor
+a8w8_bpreshuffle_256x112x128x256_16x16_16x16_16x16x1_16x16x1_1x16x1x16_8x8x1_1x2_intrawave_v3(
+    torch::Tensor &XQ,
+    torch::Tensor &WQ,
+    torch::Tensor &x_scale,
+    torch::Tensor &w_scale,
+    torch::Tensor &Y
+    )
+{
+    // The smallest kernel we have available. Works well for memory bound shapes.
+
+    // Check if this input needs to be padded.
+    int M = size_to_dim_(XQ.dim() - 1, XQ.sizes());
+    int N = WQ.size(0);
+    int K = WQ.size(1);
+    bool pad = (M % 112 != 0) || (N % 128 != 0) || (K % (256) != 0);
+    if (pad)
+    {
+        // pad
+        using DeviceGemmInstance = DeviceGemmHelperF8Flatmm<
+            DDataType, EDataType,
+            256,
+            112, 128, 256,
+            16, 16,
+            16, 16,
+            7, 2,
+            S<16, 16, 1>,
+            S<16, 16, 1>,
+            1,
+            2,
+            S<1, 16, 1, 16>,
+            S<8, 8, 1>,
+            ck::BlockGemmPipelineScheduler::Intrawave,
+            ck::BlockGemmPipelineVersion::v3,
+            ck::tensor_operation::device::GemmSpecialization::MNKPadding>;
+        // Run kernel instance.
+        return gemm_a8w8_bpreshuffle_impl<DDataType, EDataType, DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+        // pad
+    }
+    else
+    {
+        // no pad
+        using DeviceGemmInstance = DeviceGemmHelperF8Flatmm<
+            DDataType, EDataType,
+            256,
+            112, 128, 256,
+            16, 16,
+            16, 16,
+            7, 2,
+            S<16, 16, 1>,
+            S<16, 16, 1>,
+            1,
+            2,
+            S<1, 16, 1, 16>,
+            S<8, 8, 1>,
+            ck::BlockGemmPipelineScheduler::Intrawave,
+            ck::BlockGemmPipelineVersion::v3,
+            ck::tensor_operation::device::GemmSpecialization::Default>;
+        // Run kernel instance.
+        return gemm_a8w8_bpreshuffle_impl<DDataType, EDataType, DeviceGemmInstance>(XQ, WQ, x_scale, w_scale, Y);
+
+        // no pad
+    }
+}
+