Releases: swallow-llm/swallow-evaluation-instruct
Releases · swallow-llm/swallow-evaluation-instruct
v202510
v202509
変更点
- 本フレームワークの設計およびモデル評価に用いている評価方針を公開しました.参考:評価方針
- uv仮想環境を更新して openai/gpt-oss に対応しました.
- JGPQA((LLM-jp様によるGPQA邦訳版)に対応しました.参考:ベンチマーク一覧
- WMT20の仕様を変更しました.これにより,主に推論型モデルのスコアの妥当性および再現性が改善しています.
- プレースホルダの表記揺れを許容するように変更.
- 翻訳文の長さを参照訳の3倍で切り詰める.
v202508
変更点
最初のバージョン.
Swallowプロジェクトとの関連性
2025年8月に公開した Swallow LLM Leaderboard v2 に掲載している事後学習済みモデルの評価は,v202508 を用いて実施しました.