LLMEval

Setup Instructions

Download and install Ollama: https://ollama.com/
Make sure Ollama is running when you run these models
- The code will handle downloading the models for you, test using something small like SMOLLM2!!
Make sure Ollama is running when you run the code
Setup your virtual environment according to instructions below

Python version: 3.11.9, you can use pyenv to manage your local python installs

Linux/macOS

Create a virtual environment:

python -m venv venv

Activate the virtual environment:

source venv/bin/activate

Install requirements:

pip install -r requirements.txt

Windows

Create a virtual environment:

python -m venv venv

Activate the virtual environment:

.\venv\Scripts\activate

Install requirements:

pip install -r requirements.txt

D3

Downloading Data

For SAM-Sum:

curl -L -O https://huggingface.co/datasets/Samsung/samsum/resolve/main/data/corpus.7z 
7z x corpus.7z

For Webis:

for i in {0..9};
    do curl -L -O https://huggingface.co/datasets/webis/tldr-17/resolve/refs%2Fconvert%2Fparquet/default/partial-train/000$i.parquet; 
done

EDA

samsum/test.json (Source)
- 819 instances
- 3 fields: id, summary, dialogue
- dialogue ranges from 3-30 utterances (newline-separated)
webis/data.json (Source)
- 3,848,330 instances in full
- We can consider using the partial-train branch data (9 parquets) -- see download instructions above
- relevant fields: id, content, summary, subreddit

A single parquet of the Webis data is massive compared to SAM-Sum test split. Another repo includes analysis on duplicate rows and removing problematic rows, which we may want to do as well. We may also want to remove noisy/graphic data from certain subreddits, etc. (maybe only keep TrueReddit, or AskReddit?)

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
.idea		.idea
data_analysis		data_analysis
output		output
papers		papers
plots		plots
.DS_Store		.DS_Store
.gitattributes		.gitattributes
.gitignore		.gitignore
DatasetHelpers.py		DatasetHelpers.py
EDA.ipynb		EDA.ipynb
Helpers.py		Helpers.py
LLMEval.ipynb		LLMEval.ipynb
LLMEval_Pipeline.ipynb		LLMEval_Pipeline.ipynb
ModelHelpers.py		ModelHelpers.py
README.md		README.md
SimilarityHelpers.py		SimilarityHelpers.py
Testing.ipynb		Testing.ipynb
add_columns.py		add_columns.py
classifier_inference.py		classifier_inference.py
detect_pretraining.py		detect_pretraining.py
requirements.txt		requirements.txt
train_classifiers.py		train_classifiers.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLMEval

Setup Instructions

Linux/macOS

Windows

D3

Downloading Data

EDA

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 2

Uh oh!

Languages

WarmBuns/LLMEval

Folders and files

Latest commit

History

Repository files navigation

LLMEval

Setup Instructions

Linux/macOS

Windows

D3

Downloading Data

EDA

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 2

Uh oh!

Languages

Packages