https://dmxapi.com/index.html#top
注册并获取api的key
- 在5种专业领域共25个问题中评估5种LLMs,在不同prompt下的表现。
- 评估LLM可通过人为检查/通过参考答案交给GPT4o等高级LLM来评判
- 分析各模型的能力边界、缺陷和风险等,可尝试用LLM撰写分析报告
- 报告中包含定量的实验结果
- 提交报告和构造的评测数据集即可
- 分类:计算机史、离散数学、程序设计、人工智能、计算机系统
- Prompt方式:直接询问(是什么)、选择题(ABCD)、指令(帮我写一份代码)等
- 评测答案:前两者可直接提供答案+解题思路(可选),后面则只能人为或高级LLM评估