diff --git a/examples/AltCLIP/altclip_finetuning.py b/examples/AltCLIP/altclip_finetuning.py
index 2b95fd4c..1f08690d 100644
--- a/examples/AltCLIP/altclip_finetuning.py
+++ b/examples/AltCLIP/altclip_finetuning.py
@@ -11,7 +11,7 @@
 
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 
-dataset_root = "./clip_benchmark_datasets"
+dataset_root = "./data"
 dataset_name = "cifar10"
 
 batch_size = 4
@@ -62,4 +62,4 @@ def cifar10_collate_fn(batch):
     }
     
 if __name__ == "__main__":
-    trainer.train(model=model, train_dataset=dataset, collate_fn=cifar10_collate_fn)
\ No newline at end of file
+    trainer.train(model=model, train_dataset=dataset, collate_fn=cifar10_collate_fn)
diff --git a/examples/AltDiffusion/requirements.txt b/examples/AltDiffusion/requirements.txt
new file mode 100644
index 00000000..3386176c
--- /dev/null
+++ b/examples/AltDiffusion/requirements.txt
@@ -0,0 +1,5 @@
+pillow
+antlr4
+pytorch-lightning==1.9.0
+taming-transformers==0.0.6
+transformers==4.30.0
diff --git a/examples/vit_cifar100/requirements.txt b/examples/vit_cifar100/requirements.txt
new file mode 100644
index 00000000..3386176c
--- /dev/null
+++ b/examples/vit_cifar100/requirements.txt
@@ -0,0 +1,5 @@
+pillow
+antlr4
+pytorch-lightning==1.9.0
+taming-transformers==0.0.6
+transformers==4.30.0
diff --git a/examples/vit_cifar100/train_single_gpu.py b/examples/vit_cifar100/train_single_gpu.py
index ef7e1356..05ea8169 100644
--- a/examples/vit_cifar100/train_single_gpu.py
+++ b/examples/vit_cifar100/train_single_gpu.py
@@ -21,7 +21,7 @@
     weight_decay=1e-5,
     epochs=n_epochs,
     log_interval=100,
-    eval_interval=1000,
+    eval_interval=10000,
     load_dir=None,
     pytorch_device=device,
     save_dir="checkpoints_vit_cifar100_single_gpu",
diff --git a/flagai/model/vision/vit.py b/flagai/model/vision/vit.py
index ebe6c400..55624752 100755
--- a/flagai/model/vision/vit.py
+++ b/flagai/model/vision/vit.py
@@ -225,10 +225,12 @@ def __init__(
             norm_layer: (nn.Module): normalization layer
             act_layer: (nn.Module): MLP activation layer
         """
+        config = config.json_config
         super().__init__(config)
         embed_layer=PatchEmbed
         block_fn=Block
-        config = config.json_config
+        if 'use_cache' in config:
+            del config['use_cache']
         vit_config = VitConfig(**config)
         vit_config.num_classes = num_classes
         # config = vit_config