Releases · AmpereComputingAI/llama.cpp

Flash Attention for SWA models fixed
New Flash Attention algorithm. It is optimized for long contexts (above 1024). See
"Flash Attention algorithm selection" section for details how to select attention algorithm
manually.

Also available at: DockerHub

Assets 4

15 Oct 16:32

jan-grzybek-ampere

v3.3.1

6219c16

v3.3.1

Also available at: DockerHub

Assets 4

09 Oct 12:54

jan-grzybek-ampere

v3.3.0

6219c16

v3.3.0

Also available at: DockerHub

Assets 4

03 Sep 10:24

jan-grzybek-ampere

v3.2.1

ecbcf6e

v3.2.1

Also available at: DockerHub

Assets 4

06 Aug 21:39

jan-grzybek-ampere

v3.2.0

ecbcf6e

v3.2.0

Also available at: DockerHub

Assets 4

07 Jul 12:40

jan-grzybek-ampere

v3.1.2

aa0a5d7

v3.1.2

Also available at: DockerHub

Assets 4

11 Jun 21:21

jan-grzybek-ampere

v3.1.0

aa0a5d7

v3.1.0

Also available at: DockerHub

Assets 4

03 Jun 15:44

jan-grzybek-ampere

v2.2.1

aa0a5d7

v2.2.1

Update benchmark.py

Assets 3

Releases: AmpereComputingAI/llama.cpp

v3.4.2

Uh oh!

v3.4.1

Uh oh!

v3.4.0

Uh oh!

v3.3.1

Uh oh!

v3.3.0

Uh oh!

v3.2.1

Uh oh!

v3.2.0

Uh oh!

v3.1.2

Uh oh!

v3.1.0

Uh oh!

v2.2.1

Uh oh!