Skip to content

Releases: swallow-llm/swallow-evaluation-instruct

v202510

20 Oct 02:03

Choose a tag to compare

変更点

  • JamC-QA(SB Intuitions様)に対応しました.公式の設定とは異なり,ゼロショットの4択問題として解きます.参考:ベンチマーク一覧
  • MATH-500などの数学およびGPQAなどの科学のベンチマークで,K回試行時の正解率である Pass@K および 最頻回答の正解率である Maj@K の算出に対応しました.参考:ベンチマーク一覧

v202509

11 Sep 00:42

Choose a tag to compare

変更点

  • 本フレームワークの設計およびモデル評価に用いている評価方針を公開しました.参考:評価方針
  • uv仮想環境を更新して openai/gpt-oss に対応しました.
  • JGPQA((LLM-jp様によるGPQA邦訳版)に対応しました.参考:ベンチマーク一覧
  • WMT20の仕様を変更しました.これにより,主に推論型モデルのスコアの妥当性および再現性が改善しています.
    • プレースホルダの表記揺れを許容するように変更.
    • 翻訳文の長さを参照訳の3倍で切り詰める.

v202508

19 Aug 13:49

Choose a tag to compare

変更点

最初のバージョン.

Swallowプロジェクトとの関連性

2025年8月に公開した Swallow LLM Leaderboard v2 に掲載している事後学習済みモデルの評価は,v202508 を用いて実施しました.