Training Dynamics

Explore how different optimizers evolve across training epochs

AdamW

Muon

Falcon

Logarithmic Scale

Log scale makes differences more visible when values are close

Falcon achieves lower training loss faster by adaptively filtering high-frequency gradient noise.

Most gradient energy concentrates in low frequencies

Principal direction captures essential update information

Dynamic masking balances noise reduction and signal preservation

"Training unfolds as a symphony—frequencies harmonize,
structure emerges, and convergence sings its final note."