Bridging Lottery Ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization?

by Gouki Minegishi, Yusuke Iwasawa, Yutaka Matsuo
arXiv link

Setup

Create a virtual environment using Python 3.7.4. You can use either pyvenv or conda for this.

python -m venv env   # For pyvenv
conda create -n myenv python=3.7.4   # For conda

install the required dependencies.
```
pip install -r requirements.txt
```

Configuration

configs/config.py : Modular Addition task
configs/config_mnist.py : Mnist Cllasification task

Training Base Model (Dense)

Modular addition

python train.py --config configs/config.py

Training confguration is written in config/config.py.

Mnist

python train_mnist.py --config configs/config_mnist.py

Training confguration is written in config/config_mnist.py.

Grokking Tickets

Modular addition

python prune.py --config configs/config_pruning.py

Training confguration is written in config/config_pruning.py.

Mnist

python prune_mnist.py --config configs/config_pruning_mnist.py

Training confguration is written in config/config_pruning_mnist.py.

Relusts

You can check the experimental results from wandb. 　　 The following figure compares the Base Model (Dense) and the Grokking Ticket. It can be observed that the Grokking Ticket almost eliminates delayed generalization.

Visualize

The following command visualizes the difference in the acquisition dynamics of representations between the Base Model (left) and the Grokking Ticket (right).

python visualize.py --grok_weight_path <path to grok weight> ----weight_folder <path to base weight folder> --ticket_folder <path to ticket folder> --output_folder <path to output folder>

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
asset		asset
assets		assets
config		config
fig		fig
Dockerfile		Dockerfile
README.md		README.md
data_module.py		data_module.py
generator.py		generator.py
model.py		model.py
prune.py		prune.py
prune_mnist.py		prune_mnist.py
pruner.py		pruner.py
pruning_only.py		pruning_only.py
requirements.txt		requirements.txt
run.sh		run.sh
train.py		train.py
train_mnist.py		train_mnist.py
utils.py		utils.py
vis_activate.py		vis_activate.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Bridging Lottery Ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization?

Setup

Configuration

Training Base Model (Dense)

Modular addition

Mnist

Grokking Tickets

Modular addition

Mnist

Relusts

Visualize

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Bridging Lottery Ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization?

Setup

Configuration

Training Base Model (Dense)

Modular addition

Mnist

Grokking Tickets

Modular addition

Mnist

Relusts

Visualize

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages