Releases · swallow-llm/swallow-evaluation

主な変更点

Language Model Evaluation Harness

数学のベンチマークである MATH の評価を行えるようにしました。
博士課程レベルの科学的知識や能力のベンチマークである GPQA の評価を行えるようにしました。

FastChat

日本語MT-Benchに用いる設問・審判・模範解答のバージョンを更新しました。

Code Generation LM Evaluation Harness

MBPP-Ja の評価を行えるようにしました。

変更点

最初のバージョン。

Swallowプロジェクトとの関連性

v202407は，以下のモデルの開発に使用しています。

Llama 3 Swallow
Llama 3.1 Swallow

v202407は，以下の論文で使用しています。

服部翔, 水木栄, 藤井一喜, 中村泰士, 塩谷泰平, 植田快, 新妻巧朗, 川畑輝, 田森秀明, Youmi Ma, 前田航希, 大井聖也, 齋藤幸史郎, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 新聞記事からつくる時事と社会に強い日本語LLM. 言語処理学会第31回年次大会 (NLP2025), C10-1, pp. 3948–3953. 2025年3月.
服部翔, 岡崎直観, 水木栄, 藤井一喜, 中村泰士, 大井聖也, 塩谷泰平, 齋藤幸史郎, Youmi Ma, 前田航希, 岡本拓己, 石田茂樹, 横田理央, 高村大也. Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築. 言語処理学会第31回年次大会 (NLP2025), C1-5, pp. 94–99. 2025年3月.
齋藤幸史郎, 水木栄, 大井聖也, 中村泰士, 塩谷泰平, 前田航希, Ma Youmi, 服部翔, 藤井一喜, 岡本拓己, 石田茂樹, 高村大也, 横田理央, 岡崎直観. LLMに日本語テキストを学習させる意義. 情報処理学会第261回自然言語処理研究会研究報告 (2024-NL-261), 12, pp. 1–15, 2024年9月.
Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Hiroki Iida, Masanari Ohi, Kakeru Hattori, Hirai Shota, Sakae Mizuki, Rio Yokota, and Naoaki Okazaki. Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities. In Proceedings of the First Conference on Language Modeling (COLM), October 2024.
Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, and Sakae Mizuki. Building a Large Japanese Web Corpus for Large Language Models. In Proceedings of the First Conference on Language Modeling (COLM), October 2024.
藤井一喜, 中村泰士, Mengsay Loem, 飯田大貴, 大井聖也, 服部翔, 平井翔太, 水木栄, 横田理央, 岡崎直観. 継続事前学習による日本語に強い大規模言語モデルの構築. 言語処理学会第30回年次大会 (NLP2024), A8-5, pp. 2102-2107. 2024年3月.
水木栄, 飯田大貴, 藤井一喜, 中村泰士, Mengsay Loem, 大井聖也, 服部翔, 平井翔太, 横田理央, 岡崎直観. 2024. 大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用. 言語処理学会第30回年次大会 (NLP2024), A6-4, pp. 1514-1519. 2024年3月.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Choose a tag to compare

Sorry, something went wrong.

Sorry, something went wrong.

Uh oh!

No results found

変更点

Uh oh!

Choose a tag to compare

Sorry, something went wrong.

Sorry, something went wrong.

Uh oh!

No results found

主な変更点

Swallowプロジェクトとの関連性

Uh oh!

Choose a tag to compare

Sorry, something went wrong.

Sorry, something went wrong.

Uh oh!

No results found

変更点

Swallowプロジェクトとの関連性

Uh oh!

Releases: swallow-llm/swallow-evaluation

v202411.p1

変更点

Uh oh!

v202411

主な変更点

Swallowプロジェクトとの関連性

Uh oh!

v202407

変更点

Swallowプロジェクトとの関連性

Uh oh!