moskomule · moskomule · Feb 16, 2026 · Feb 17, 2026 · Feb 17, 2026 · Feb 19, 2026
diff --git a/.github/workflows/tests_and_lint.yaml b/.github/workflows/tests_and_lint.yaml
@@ -28,7 +28,7 @@ jobs:
 
       - name: Install dependencies
         run: |
-          uv sync --dev --extra cpu
+          uv sync --dev --extra cpu --extra quantize
 
       - name: Pytest
         run: uv run pytest

diff --git a/pyproject.toml b/pyproject.toml
@@ -52,6 +52,9 @@ cu130 = [
 flash_attn = [
   "flash-attn-cute",
 ]
+quantize = [
+    "torchao>=0.16.0",
+]
 
 [tool.uv]
 conflicts = [
@@ -97,4 +100,4 @@ project-includes = [
 ]
 project-excludes = [
   "tests/**",
-]
+]
diff --git a/sarasa/config.py b/sarasa/config.py
@@ -1,6 +1,7 @@
 from __future__ import annotations
 
 import dataclasses
+import enum
 import sys
 from pathlib import Path
 from typing import Literal
@@ -95,16 +96,23 @@ def create(
 """
 
 
+class Dtype(enum.StrEnum):
+    float8 = enum.auto()
+    bfloat16 = enum.auto()
+    float16 = enum.auto()
+    float32 = enum.auto()
+
+
 @dataclasses.dataclass
 class Train:
     steps: int = 10_000
 
     grad_clip: float | None = None
 
-    dtype: Literal["bfloat16", "float32"] = "float32"
+    dtype: Dtype = Dtype.float32
     """Dtype used for model initialization"""
 
-    amp_dtype: Literal["bfloat16", "float16", "float32"] = "bfloat16"
+    amp_dtype: Dtype = Dtype.bfloat16
     """Dtype used for automatic mixed precision training"""
 
     compile: bool = False

diff --git a/sarasa/quantize.py b/sarasa/quantize.py
@@ -0,0 +1,24 @@
+import torch
+
+from sarasa.models import BaseModel
+
+
+def to_float8(
+    model: BaseModel,
+) -> None:
+    from torchao.float8 import Float8LinearConfig, convert_to_float8_training
-    from torchao.float8 import Float8LinearConfig, convert_to_float8_training
+    try:
+        from torchao.float8 import Float8LinearConfig, convert_to_float8_training
+    except ImportError as exc:
+        raise ImportError(
+            "torchao is required to use float8 quantization. "
+            "Please install sarasa with the 'quantize' extra, for example:\n"
+            "    pip install 'sarasa[quantize]'\n"
+            "or disable float8 quantization in your configuration."
+        ) from exc
-    from torchao.float8 import Float8LinearConfig, convert_to_float8_training
+    try:
+        from torchao.float8 import Float8LinearConfig, convert_to_float8_training
+    except ImportError as exc:
+        raise ImportError(
+            "torchao is required to use float8 quantization. "
+            "Please install sarasa with the 'quantize' extra, for example:\n"
+            "    pip install 'sarasa[quantize]'\n"
+            "or disable float8 quantization in your configuration."
+        ) from exc
+
+    # optional: filter modules from being eligible for float8 conversion
+    def module_filter_fn(mod: torch.nn.Module, fqn: str):
+        # don't convert the last module
+        if fqn == "1":
+            return False
+        # don't convert linear modules with weight dimensions not divisible by 16
+        if isinstance(mod, torch.nn.Linear):
+            if mod.in_features % 16 != 0 or mod.out_features % 16 != 0:
+                return False
+        return True
+
+    config = Float8LinearConfig.from_recipe_name("tensorwise")
+
+    convert_to_float8_training(model, config=config, module_filter_fn=module_filter_fn)
-
-from sarasa.models import BaseModel
-
-
-def to_float8(
-    model: BaseModel,
-) -> None:
-    from torchao.float8 import Float8LinearConfig, convert_to_float8_training
-
-    # optional: filter modules from being eligible for float8 conversion
-    def module_filter_fn(mod: torch.nn.Module, fqn: str):
-        # don't convert the last module
-        if fqn == "1":
-            return False
-        # don't convert linear modules with weight dimensions not divisible by 16
-        if isinstance(mod, torch.nn.Linear):
-            if mod.in_features % 16 != 0 or mod.out_features % 16 != 0:
-                return False
-        return True
-
-    config = Float8LinearConfig.from_recipe_name("tensorwise")
-
-    convert_to_float8_training(model, config=config, module_filter_fn=module_filter_fn)
+import unittest
+
+from sarasa.models import BaseModel
+
+
+def _float8_module_filter_fn(mod: torch.nn.Module, fqn: str) -> bool:
+    # don't convert the last module
+    if fqn == "1":
+        return False
+    # don't convert linear modules with weight dimensions not divisible by 16
+    if isinstance(mod, torch.nn.Linear):
+        if mod.in_features % 16 != 0 or mod.out_features % 16 != 0:
+            return False
+    return True
+
+
+def to_float8(
+    model: BaseModel,
+) -> None:
+    from torchao.float8 import Float8LinearConfig, convert_to_float8_training
+
+    config = Float8LinearConfig.from_recipe_name("tensorwise")
+
+    convert_to_float8_training(
+        model,
+        config=config,
+        module_filter_fn=_float8_module_filter_fn,
+    )
+
+
+class TestFloat8ModuleFilter(unittest.TestCase):
+    def test_allows_eligible_linear_modules(self) -> None:
+        # Linear layer with dimensions divisible by 16 should be eligible
+        linear = torch.nn.Linear(16, 32)
+        self.assertTrue(_float8_module_filter_fn(linear, "0"))
+
+    def test_skips_last_module(self) -> None:
+        # Any module with fqn == "1" should be skipped
+        linear = torch.nn.Linear(16, 16)
+        self.assertFalse(_float8_module_filter_fn(linear, "1"))
+
+    def test_skips_non_divisible_linear_modules(self) -> None:
+        # Linear layers with dimensions not divisible by 16 should be skipped
+        linear_in_not_divisible = torch.nn.Linear(15, 16)
+        linear_out_not_divisible = torch.nn.Linear(16, 15)
+        self.assertFalse(_float8_module_filter_fn(linear_in_not_divisible, "0"))
+        self.assertFalse(_float8_module_filter_fn(linear_out_not_divisible, "0"))
-
-from sarasa.models import BaseModel
-
-
-def to_float8(
-    model: BaseModel,
-) -> None:
-    from torchao.float8 import Float8LinearConfig, convert_to_float8_training
-
-    # optional: filter modules from being eligible for float8 conversion
-    def module_filter_fn(mod: torch.nn.Module, fqn: str):
-        # don't convert the last module
-        if fqn == "1":
-            return False
-        # don't convert linear modules with weight dimensions not divisible by 16
-        if isinstance(mod, torch.nn.Linear):
-            if mod.in_features % 16 != 0 or mod.out_features % 16 != 0:
-                return False
-        return True
-
-    config = Float8LinearConfig.from_recipe_name("tensorwise")
-
-    convert_to_float8_training(model, config=config, module_filter_fn=module_filter_fn)
+import unittest
+
+from sarasa.models import BaseModel
+
+
+def _float8_module_filter_fn(mod: torch.nn.Module, fqn: str) -> bool:
+    # don't convert the last module
+    if fqn == "1":
+        return False
+    # don't convert linear modules with weight dimensions not divisible by 16
+    if isinstance(mod, torch.nn.Linear):
+        if mod.in_features % 16 != 0 or mod.out_features % 16 != 0:
+            return False
+    return True
+
+
+def to_float8(
+    model: BaseModel,
+) -> None:
+    from torchao.float8 import Float8LinearConfig, convert_to_float8_training
+
+    config = Float8LinearConfig.from_recipe_name("tensorwise")
+
+    convert_to_float8_training(
+        model,
+        config=config,
+        module_filter_fn=_float8_module_filter_fn,
+    )
+
+
+class TestFloat8ModuleFilter(unittest.TestCase):
+    def test_allows_eligible_linear_modules(self) -> None:
+        # Linear layer with dimensions divisible by 16 should be eligible
+        linear = torch.nn.Linear(16, 32)
+        self.assertTrue(_float8_module_filter_fn(linear, "0"))
+
+    def test_skips_last_module(self) -> None:
+        # Any module with fqn == "1" should be skipped
+        linear = torch.nn.Linear(16, 16)
+        self.assertFalse(_float8_module_filter_fn(linear, "1"))
+
+    def test_skips_non_divisible_linear_modules(self) -> None:
+        # Linear layers with dimensions not divisible by 16 should be skipped
+        linear_in_not_divisible = torch.nn.Linear(15, 16)
+        linear_out_not_divisible = torch.nn.Linear(16, 15)
+        self.assertFalse(_float8_module_filter_fn(linear_in_not_divisible, "0"))
+        self.assertFalse(_float8_module_filter_fn(linear_out_not_divisible, "0"))
diff --git a/sarasa/train.py b/sarasa/train.py
@@ -11,7 +11,7 @@
 
 from sarasa.activation_checkpoint import apply_op_sac
 from sarasa.checkpoint import Checkpointer
-from sarasa.config import Config
+from sarasa.config import Config, Dtype
 from sarasa.evaluate import Evaluator
 from sarasa.metrics import MetricsProcessor
 from sarasa.utils import (
@@ -78,6 +78,12 @@ def __init__(
             for i, block in enumerate(self.model.blocks):
                 self.model.blocks[i] = apply_op_sac(block)
 
+        if config.train.amp_dtype == Dtype.float8:
+            from sarasa.quantize import to_float8
+
+            logger.info("Converting model to float8")
+            to_float8(self.model)
+
         if config.train.compile:
             logger.info("Compiling the model")
             for block in self.model.blocks:
@@ -107,7 +113,11 @@ def __init__(
             logger.info(f"Gradient accumulation step is set to: {self.grad_accum_steps}")
 
         self.amp_context: contextlib.AbstractContextManager = contextlib.nullcontext()
-        if world_size() == 1 or config.distributed.dp_shard_degree != -1:
+        if (
+            (config.train.dtype != config.train.amp_dtype)
+            and (config.train.amp_dtype != Dtype.float8)
+            and (world_size() == 1 or config.distributed.dp_shard_degree != -1)
+        ):
             self.amp_context = torch.autocast(
                 device_type=self.device.type,
                 dtype=getattr(torch, config.train.amp_dtype),