Skip to content

Releases: justplus/llm-eval

V1.0.3

31 Jul 03:05

Choose a tag to compare

  • 新增RAG数据集
  • 新增基于Ragas的RAG评估
  • 易用性问题优化

V1.0.2

18 Jun 08:34

Choose a tag to compare

Feature:

  • 效果评估新增进度提示
  • 效果评估支持并发测评参数设置,包括生成并发数和裁判评估并发数 #3
  • 效果评估生成参数新增top_k和top_p设置

Fix:

  • 修复导出excel偶发不成功的bug
  • 修复评估详情部分prompt展示不正确的bug
  • 修复数据集需要使用使用裁判模型但是发起测评时没有选择裁判模型未给出提示的bug #3

V1.0.1

17 Jun 13:15

Choose a tag to compare

Feature:

  1. 用户添加自定义数据集时,不再需要添加代码,使用Jinja2模板获取参数和字段,具体请参考Readme例子

Fix:

  1. 修复效果评估时api_key缺失导致无法进行评估的bug

v1.0.0

09 Jun 02:31

Choose a tag to compare

🎯 评估能力

  • 多基准支持:内置主流评估基准,支持自定义评估标准
  • 智能评分:基于大模型的自动评分系统,支持多种评分策略
  • 数据集管理:支持QA、MCQ、自定义格式数据集的上传和管理
  • 批量评估:高效的批量评估处理,支持并发执行

📊 性能测试

  • 压力测试:支持并发性能测试,全面评估模型服务性能
  • 指标分析:详细的性能指标统计,包括延迟、吞吐量等关键指标
  • 可视化报告:直观的性能数据展示和分析报告

🛠 管理功能

  • 模型管理:统一管理多个LLM模型,支持API配置和密钥管理
  • 用户权限:完善的用户权限控制,支持多用户协作
  • 结果导出:支持评估结果导出为Excel等格式

🎨 用户体验

  • 现代化UI:基于DaisyUI的美观界面设计
  • 响应式布局:完美适配桌面端和移动端
  • 实时更新:评估任务状态实时更新,无需手动刷新