Evaluate models 

Run the evaluation and get final scores (500 prompts). 

- [x] airoboros-13B-GPTQ
- [x] bluemoonrp-13b
- [x] gpt4-x-vicuna-13B-GPTQ
- [x] GPT4All-13B-snoozy-GPTQ
- [x] koala-13B-GPTQ-4bit-128g - Very poor performance
- [ ] Llama-2-13B-GPTQ
- [x] Manticore-13B-GPTQ
- [x] Metharme-13b-4bit-GPTQ
- [x] Nous-Hermes-13B-GPTQ
- [x] stable-vicuna-13B-GPTQ - Very poor performance
- [x] vicuna-7B-GPTQ-4bit-128g - Corrupted model.
- [x] open_llama_3b_4bit_128g - Corrupted model. 
- [ ] guanaco-33B-GPTQ
- [ ] h2ogpt-oasst1-512-30B-GPTQ
- [ ] tulu-30B-GPTQ * this may require more memory, can't process to prompts sequentially atm
- [ ] WizardLM-30B-Uncensored-GPTQ

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Evaluate models #11

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Evaluate models #11

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions