GitHub - JetAstra/Awesome-DLLMs

📄 Paper List

Surveys / Reading Guides

Date	Name	Title
2025.6	`DLLM-Survey`	Discrete Diffusion in Large Language and Multimodal Models: A Survey
2025.8	`Awesome-DLMs`	A Survey of Diffusion Language Models
2026.1	`Awesome-Efficient-dLLMs`	Efficient Diffusion Language Models: A Comprehensive Survey

Paradigm

space: continuous / discrete
time: discrete-time / CTMC
rep: embedding / manifold / token
noise / mechanism: gaussian / transition-matrix / absorbing-mask / interpolating / block
extra: masked-lm / conditional / efficient / AR-hybrid / factorization

Date	Name	Title	Github
2022.5	`Diffusion-LM`	Diffusion-LM Improves Controllable Text Generation
2025.2	`RDLM`	Continuous Diffusion Model for Language Modeling (Riemannian Diffusion LM)
2021.7	`D3PM`	Structured Denoising Diffusion Models in Discrete State-Spaces	—
2022.5	`CTMC-DDM`	A Continuous Time Framework for Discrete Denoising Models	—
2023.5	`DiffusionBERT`	DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models	—
2024.6	`ConcreteScore/RADD`	Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data	—
2024.6	`MDLM`	Simple and Effective Masked Diffusion Language Models
2025.3	`GIDD`	Generalized Interpolating Discrete Diffusion
2025.3	`BD3-LMs`	Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models
2022.11	`CDCD`	Continuous Diffusion for Categorical Data	—
2022.11	`SED`	Self-conditioned Embedding Diffusion for Text Generation
2022.10	`SSD-LM`	SSD-LM: Semi-autoregressive Simplex-based Diffusion Language Model for Text Generation and Modular Control
2023.09	`Latent-Diffusion-LM`	Latent Diffusion for Language Generation	—
2023.05	`Plaid`	Likelihood-Based Diffusion Language Models	—
2023.10	`SEDD`	Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution (SEDD)
2024.06	`MD4`	Simplified and Generalized Masked Diffusion for Discrete Data
2024.12	`SimpleGuidance`	Simple Guidance Mechanisms for Discrete Diffusion Models	—
2025.04	`HyperSchedules`	Unifying Autoregressive and Diffusion-Based Sequence Generation (DeLTa @ ICLR 2025)	—
2025.09	`FlexMDM`	Any-Order Flexible Length Masked Diffusion	—
2025.06	`DiffusionDuality`	The Diffusion Duality (DeLTa @ ICLR 2025)	—
2025.09	`Energy-MDM`	Masked Diffusion Models as Energy Minimization	—
2026.02	`XDLM`	Balancing Understanding and Generation in Discrete Diffusion Models
2026.03	`GDDS`	Generalized Discrete Diffusion from Snapshots

Training

Pre-training & Post-training

focus: scaling-law / base-model / adaptation / instruct
mechanism: masked / block
space: discrete / continuous (when relevant)
domain: general / code
extra: compute-data-optimal / efficient / noise-type

Date	Name	Title	Github	Tag
2024.10	`SMDM-ScalingLaw`	Scaling Up Masked Diffusion Models on Text
2025.10	`Quokka`	Training Optimal Large Diffusion Language Models
2025.12	`DLM-Scaling-Noise`	Scaling Behavior of Discrete Diffusion Language Models
2025.02	`DLM-Theory`	Theoretical Benefit and Limitation of Diffusion Language Model	—
2025.07	`DataConstrained`	Diffusion Beats Autoregressive in Data-Constrained Settings	—
2023.5	`TESS`	TESS: Text-to-Text Self-Conditioned Simplex Diffusion
2025.2	`TESS-2`	TESS 2: A Large-Scale Generalist Diffusion Language Model
2024.10	`DiffuLLaMA`	Scaling Diffusion Language Models via Adaptation from Autoregressive Models
2025.2	`LLaDA`	Large Language Diffusion Models (LLaDA)
2025.8	`Dream-7B`	Dream 7B: Diffusion Large Language Models
2025.9	`Dream-Coder-7B`	Dream-Coder 7B: An Open Diffusion Language Model for Code
2025.06	`DiffuCoder`	DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation	—	code generation
2025.08	`Seed-Diffusion`	Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference
2025.10	`SDAR`	SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation
2025.9	`Fast-dLLM-v2`	Fast-dLLM v2: Efficient Block-Diffusion LLM
2025.12	`LLaDA2.0`	LLaDA2.0: Scaling Up Diffusion Language Models to 100B
2025.12	`NBDiff`	From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs
2025.08	`D2F`	Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing
2025.10	`RND1`	RND1: Simple, Scalable AR-to-Diffusion Conversion
2025.09	`SDLM`	Sequential Diffusion Language Models
2025.09	`LLaDA-MoE`	LLaDA-MoE: A Sparse MoE Diffusion Language Model	—
2025.12	`E2D2`	Encoder-Decoder Diffusion Language Models for Efficient Training and Inference
2026.02	`LLaDA2.1`	LLaDA2.1: Speeding Up Text Diffusion via Token Editing
2026.03	`MaskDLLM`	Mask Is What DLLM Needs: A Masked Data Training Paradigm for Diffusion LLMs	—

RL / Policy Optimization

family: GRPO / DPO / PG / boundary-guided / trace
goal: reasoning / preference / memory-efficient
target: diffusion-llm / masked-diffusion (when clear)

Date	Name	Title	Github
2025.4	`D1`	d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
2025.5	`VRPO`	LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models
2025.5	`DCoLT`	Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models	—
2025.6	`Coupled-GRPO`	Coupled-GRPO: Enhancing Diffusion Language Models with Coupled Generative Reinforcement Policy Optimization
2025.8	`MDPO`	MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models
2025.9	`TraceRL`	TraceRL: Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models
2025.9	`CJ-GRPO`	Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step
2025.9	`d2`	d2: Improved Techniques for Training Reasoning Diffusion Language Models	—
2025.07	`wd1`	wd1: Weighted Policy Optimization for Reasoning in Diffusion Language Models	—
2025.09	`IGPO`	Inpainting-Guided Policy Optimization for Diffusion Large Language Models	—
2025.10	`SAPO`	Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models
2025.10	`BGPO`	Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models
2025.10	`SPG`	Sandwiched Policy Gradient for Masked Diffusion Language Models
2025.12	`ESPO`	Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective
2025.12	`DiRL`	DiRL: An Efficient Post-Training Framework for Diffusion Language Models
2026.1	`JustGRPO`	JustGRPO: Simplifying Generative Reinforcement Policy Optimization for Diffusion Language Models
2026.?	`LightningRL`	LightningRL: Breaking the Accuracy–Parallelism Trade-off of Block-wise dLLMs via Reinforcement Learning
2026.2	`STP`	Efficient and Stable Reinforcement Learning for Diffusion Language Models
2026.3	`StableDRL`	Stabilizing Reinforcement Learning for Diffusion Language Models
2026.3	`LFPO`	LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models	—
2025.10	`AGRPO`	Simple Policy Gradients for Reasoning with Diffusion Language Models
2026.03	`EGSPO-SA`	Reinforcement Learning for Diffusion LLMs with Entropy-Guided Step Selection and Stepwise Advantages
2026.03	`dTRPO`	dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models

Distillation / Compression

Date	Name	Title	Paper	Github
2025.08	`QDLM`	Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs
2025.08	`DLLMQuant`	DLLMQuant: Quantizing Diffusion-based Large Language Models	—	—
2025.09	`Quant-dLLM`	Quant-dLLM: Post-Training Extreme Low-Bit Quantization for Diffusion Large Language Models
2025.06	`DLM-One`	DLM-One: Diffusion Language Models for One-Step Sequence Generation		—
2026.01	`CD4LM`	CD4LM: Consistency Distillation and aDaptive Decoding for Diffusion Language Models
2026.01	`d3LLM`	d3LLM: Ultra-Fast Diffusion LLM using Pseudo-Trajectory Distillation
2026.03	`D-MMD`	Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD		—

Inference & Acceleration

Inference-time Collaboration & Planning

Date	Name	Title	Github
2024.02	`DoT`	Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models (NeurIPS 2024)
2024.10	`MDM-Planning`	Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning (ICLR 2025)
2024.06	`SSD-2`	David helps Goliath: Inference-Time Collaboration Between Small Specialized and Large General Diffusion LMs (NAACL 2024)	—
2025.06	`LongLLaDA`	LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
2025.08	`Blockwise-SFT`	Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding	—
2025.11	`TiDAR`	TiDAR: Think in Diffusion, Talk in Autoregression	—

Efficient Sampling & Decoding

Date	Name	Title	Paper	Github
2025.05	`Fast-dLLM`	Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding
2025.05	`EB-Sampler`	Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking		—
2025.05	`DINGO`	DINGO: Constrained Inference for Diffusion LLMs		—
2025.06	`Dilated-Scheduling`	Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models		—
2025.06	`SlowFast-Sampling`	Accelerating diffusion large language models with slowfast: The three golden principles
2025.06	`WINO`	Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs
2025.06	`APD`	Accelerating Diffusion LLMs via Adaptive Parallel Decoding
2025.08	`Prophet`	Diffusion language models know the answer before decoding
2025.08	`RWS`	Reward-Weighted Sampling: Enhancing Non-Autoregressive Characteristics in Masked Diffusion LLMs	—	—
2025.10	`LocalLeap`	Accelerated Diffusion LLM Inference via Local Determinism Propagation
2025.10	`FreeDave`	Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models
2025.10	`Saber`	Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model
2025.12	`SchED`	Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules
2025.12	`CadLLM`	Improving the Throughput of Diffusion-based Large Language Models via a Training-Free Confidence-Aware Calibration		—
2025.12	`LoPA`	LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding
2025.09	`dParallel`	dparallel: Learnable parallel decoding for dllms
2025.09	`LSD`	Learnable sampler distillation for discrete diffusion models
2025.09	`ADJUST`	Enabling Approximate Joint Sampling in Diffusion LMs		—
2025.09	`Learn2PD`	Learning to Parallel: Accelerating Diffusion Large Language Models via Learnable Parallel Decoding
2025.12	`Learning-Unmasking-Policies`	Learning Unmasking Policies for Diffusion Language Models		—
2025.09	`Spiffy`	Spiffy: Multiplying Diffusion LLM Acceleration via Lossless Speculative Decoding		—
2025.10	`SSD`	Self Speculative Decoding for Diffusion Large Language Models		—
2025.10	`DiffuSpec`	DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding		—
2025.12	`DEER`	DEER: Draft with Diffusion, Verify with Autoregressive Models
2026.01	`DFlash`	DFlash: Block Diffusion for Flash Speculative Decoding	—
2026.01	`DART`	DART: Diffusion-Inspired Speculative Decoding for Fast LLM Inference
2026.03	`ES-dLLM`	ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping
2026.03	`EntropyCache`	EntropyCache: Decoded Token Entropy Guided KV Caching for Diffusion Language Models

Other Sampling

Multimodal & Applications

Multimodal Understanding

task: vl-understanding
route: discrete / block / hybrid / adaptation
training: vis-instruct (when applicable)

Date	Name	Title	Github
2025.5	`LLaDA-V`	LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
2025.5	`LaViDa`	LaViDa: A Large Diffusion Language Model for Multimodal Understanding
2025.5	`Dimple`	Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding
2025.12	`SDAR-VL`	SDAR-VL: Stable and Efficient Block-wise Diffusion for Vision-Language Understanding
2025.12	`DiffusionVL`	DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models
2025.11	`D3ToM`	D3ToM: Decider-Guided Dynamic Token Merging for Accelerating Diffusion MLLMs
2025.11	`Token-Pruning`	A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models	—
2025.12	`Sparse-LaViDa`	Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models	—

Unified Multimodal Understanding & Generation

scope: unified (understanding + generation)
space: discrete (mostly)
focus: foundation / visual-prior / high-res / omni

Date	Name	Title	Github
2025.03	`UniDisc`	Unified Multimodal Discrete Diffusion
2025.5	`MMaDA`	MMaDA: Multimodal Large Diffusion Language Models
2025.5	`Muddit`	Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model
2025.05	`FUDOKI`	FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities	—
2025.9	`LaViDa-O`	LaViDa-O: Elastic Masked Diffusion Models for Unified Multimodal Understanding and Generation
2025.10	`Lumina-DiMOO`	Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
2026.03	`LLaDA-o`	LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model
2026.03	`Omni-Diffusion`	Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Applications

Date	Name	Title	Github
2025.08	`DD-VLA`	Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies	—
2025.09	`LLaDA-VLA`	LLaDA-VLA: Vision Language Diffusion Action Models	—
2026.03	`MinerU-Diffusion`	MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Others

Date	Name	Title	Github	Note
2025.08	`Thinking-Inside-the-Mask`	Thinking Inside the Mask: In-Place Prompting in Diffusion LLMs	—	prompting / in-place prompting
2025.08	`Time-Is-a-Feature`	Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models	—	temporal dynamics
2025.09	`A2D`	A2D: Any-Order, Any-Step Safety Alignment for Diffusion Language Models	—	safety alignment
2025.07	`Jailbreaking-LDLMs`	Jailbreaking Large Language Diffusion Models: Revealing Hidden Safety Flaws in Diffusion-Based Text Generation	—	safety attack
2025.07	`Devil-behind-the-mask`	The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs	—	safety vulnerability
2025.10	`ParallelBench`	ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs	—
2026.03	`Thinking-EoS-by-EoS`	Diffusion LLMs can think EoS-by-EoS		hidden scratchpad / EoS tokens / reasoning
2026.03	`MemDLM`	MemDLM: Memory-Enhanced DLM Training		memory-enhanced training / train-inference mismatch / in-weight retrieval
2026.02	`Latent-Tokens`	Reasoning with Latent Tokens in Diffusion Language Models	—	latent tokens / reasoning / speed-quality trade-off

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

📄 Paper List

Surveys / Reading Guides

Paradigm

Training

Pre-training & Post-training

RL / Policy Optimization

Distillation / Compression

Inference & Acceleration

Inference-time Collaboration & Planning

Efficient Sampling & Decoding

Other Sampling

Multimodal & Applications

Multimodal Understanding

Unified Multimodal Understanding & Generation

Applications

Others

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

📄 Paper List

Surveys / Reading Guides

Paradigm

Training

Pre-training & Post-training

RL / Policy Optimization

Distillation / Compression

Inference & Acceleration

Inference-time Collaboration & Planning

Efficient Sampling & Decoding

Other Sampling

Multimodal & Applications

Multimodal Understanding

Unified Multimodal Understanding & Generation

Applications

Others

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages