Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
demo_prompts.json		demo_prompts.json
demo_questions.json		demo_questions.json
main.py		main.py

Repository files navigation

评测开源大模型在专业领域下的性能

使用api

https://dmxapi.com/index.html#top

注册并获取api的key

任务说明

在5种专业领域共25个问题中评估5种LLMs，在不同prompt下的表现。
评估LLM可通过人为检查/通过参考答案交给GPT4o等高级LLM来评判
分析各模型的能力边界、缺陷和风险等，可尝试用LLM撰写分析报告
报告中包含定量的实验结果
提交报告和构造的评测数据集即可

任务举例

分类：计算机史、离散数学、程序设计、人工智能、计算机系统
Prompt方式：直接询问（是什么）、选择题（ABCD）、指令（帮我写一份代码）等
评测答案：前两者可直接提供答案+解题思路（可选），后面则只能人为或高级LLM评估

About

No description, website, or topics provided.

Custom properties

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%